Граф цитирования (или сеть цитирования ) в информатике и библиометрии — это направленный граф , описывающий цитаты в коллекции документов.
Каждая вершина (или узел ) в графе представляет собой документ в коллекции, а каждое ребро направлено от одного документа к другому, который он цитирует (или наоборот, в зависимости от конкретной реализации). [1]
Графики цитирования использовались различными способами, включая формы анализа цитирования , академические инструменты поиска и судебные решения . Прогнозируется, что они станут более релевантными и полезными в будущем по мере роста объема опубликованных исследований.
Не существует стандартного формата для ссылок в библиографиях , а связывание записей ссылок может быть трудоемким и сложным процессом. Кроме того, ошибки цитирования могут возникнуть на любом этапе процесса публикации. Тем не менее, существует долгая история создания баз данных цитирования, также известных как индексы цитирования , поэтому существует много информации о таких проблемах.
В принципе, каждый документ должен иметь уникальную дату публикации и может ссылаться только на более ранние документы. Это означает, что идеальный граф цитирования не только направлен, но и ацикличен ; то есть в графе нет петель. На практике это не всегда так, поскольку академическая статья проходит через несколько версий в процессе публикации. Время асинхронных обновлений библиографий может привести к появлению ребер, которые, по-видимому, указывают назад во времени. Такие «обратные» цитирования, по-видимому, составляют менее 1% от общего числа ссылок. [2]
Поскольку ссылки на цитирование должны быть постоянными, основная часть графика цитирования должна быть статичной, и только передний край графика должен меняться. Исключения могут возникать, когда статьи изымаются из обращения. [2]
Цитата — это ссылка на опубликованный или неопубликованный источник (не всегда первоисточник). Точнее, цитата — это сокращенное буквенно-цифровое выражение, встроенное в текст интеллектуальной работы, которое обозначает запись в разделе библиографических ссылок работы. Ее цель — признать релевантность работ других по отношению к теме обсуждения в том месте, где появляется цитата .
Обычно сочетание внутритекстовой ссылки и библиографической записи составляет то, что обычно считается ссылкой (тогда как сами по себе библиографические записи таковыми не являются). [3] Ссылки на отдельные машиночитаемые утверждения в электронных научных статьях известны как нанопубликации , форма микроатрибуций .
Сети цитирования — это один из видов социальных сетей, который количественно изучался почти с того момента, как впервые появились базы данных цитирования. В 1965 году Дерек Дж. де Солла Прайс описал неотъемлемую характеристику связей Индекса научного цитирования (SCI) в своей статье под названием «Сети научных статей». Связи между цитированием и цитируемыми статьями стали динамичными, когда SCI начал публиковаться в Интернете. В 1973 году Генри Смолл опубликовал свою работу по анализу совместного цитирования, которая стала самоорганизующейся системой классификации , которая привела к экспериментам по кластеризации документов и в конечном итоге к тому, что называется «Обзорами исследований». [4]
Графики цитирования можно применять для измерения научного влияния , влияния, которое конкретная статья оказала на академический мир. Хотя это трудно поддающееся количественной оценке значение, научное влияние полезно, поскольку наличие меры научного влияния для многих статей может помочь в выявлении важных статей. Это также может обеспечить меру релевантности конкретного академического сообщества. Графики цитирования очень полезны для измерения этого, поскольку количество связей на графике цитирования соответствует научному влиянию статьи, поскольку это означает, что она была процитирована во многих других статьях. [5]
Анализ сходства — это еще одна область анализа цитирования, которая часто использует графы цитирования. Связь между двумя статьями в графе цитирования сравнивалась с их текстовым сходством , и было обнаружено, что близость в графе цитирования может предсказать уровень текстового сходства. [6] Кроме того, было обнаружено, что два метода — близость графа цитирования и традиционное содержательное сходство — хорошо работают в сочетании для получения более точного результата. [6]
Анализ графов цитирования также привел к предложению графа цитирования как способа идентификации различных сообществ и областей исследований в академическом мире. Было обнаружено, что анализ графа цитирования для групп документов в сочетании с ключевыми словами может обеспечить точный способ идентификации кластеров схожих исследований. [7] В аналогичном ключе способ идентификации основного «потока» области исследования или прогресса исследовательской идеи с течением времени может быть определен с помощью алгоритмов поиска в глубину на графе цитирования. Вместо того чтобы искать сходство между двумя узлами или кластерами из многих узлов, этот метод вместо этого проходит по связям между узлами, чтобы проследить исследовательскую идею до ее начала и таким образом обнаружить ее прогрессию через различные статьи до ее текущего статуса. [8]
Традиционный метод, используемый академическими поисковыми инструментами, заключается в проверке совпадений между поисковым термином и ключевыми словами в статьях для возврата потенциальных совпадений. Хотя этот метод в основном эффективен, он может привести к ошибкам, когда статья рекомендуется из другой дисциплины из-за совпадений ключевых слов, даже если эти две темы на самом деле имеют мало общего.
Многие утверждали, что этот способ поиска соответствующих статей можно было бы улучшить и сделать более точным, если бы графики цитирования были включены в инструменты поиска академических статей. Например, была предложена одна система, которая использовала как систему ключевых слов, так и систему популярности, основанную на количестве связей статьи в графике цитирования. В этой системе более связанные статьи считались более популярными и, следовательно, получали более высокий вес в системе рекомендаций статей. [9]
В последние годы были разработаны визуальные поисковые инструменты, которые используют графики цитирования для визуального представления связей между статьями. Коммерческая реализация этой концепции — поисковый инструмент Connected Papers. [ необходима цитата ]
Графы цитирования имеют историю использования для помощи в организации и отображении ссылок на юридические документы. Аналогично вышеупомянутым инструментам поиска, конструкции графов цитирования, специфичные для типов ссылок, найденных в юридических документах, использовались для того, чтобы позволить находить соответствующие прошлые юридические документы, когда это необходимо для судебного решения. Как способ замены или улучшения традиционных методов поиска, этот способ организации юридических документов с помощью графа цитирования может обеспечить более высокую эффективность, точность и организацию. [10]
Существует несколько других типов сетевых графиков, которые тесно связаны с сетями цитирования. Граф совместного цитирования — это граф между документами как узлами, где два документа связаны, если они имеют общую ссылку (см. Совместное цитирование и Библиографическое сопряжение ). Другие связанные сети формируются с использованием другой информации, присутствующей в документе. Например, в графе сотрудничества , известном в этом контексте как сеть соавторства, узлами являются авторы документов, связанные, если они были соавторами одного и того же документа. Веса связей между двумя авторами в сетях соавторства могут со временем увеличиваться, если они продолжают сотрудничать.
Хотя графики цитирования оказали заметное влияние на несколько областей академии, они, вероятно, станут более актуальными в будущем. По мере роста объема опубликованных исследований более традиционные способы поиска статей станут менее эффективными в сужении релевантных статей до определенной темы. Например, сходство на основе текста может иметь лишь ограниченный эффект при выборе статей, релевантных теме, тогда как добавление графиков цитирования может дать более высокий приоритет тем статьям, которые имеют много связей с другими статьями, релевантными теме.
Однако подобные разработки сталкиваются с теми же проблемами, что и большинство приложений графиков цитирования, а именно, с отсутствием стандартизированного формата или способа цитирования. Это делает построение этих графиков очень сложным, поскольку для извлечения цитат из статей требуется сложный программный анализ. Одним из предлагаемых решений этой проблемы является создание открытых баз данных информации о цитировании в формате, который может использоваться любым человеком и легко конвертироваться в другую форму, например, график цитирования. [11]