CiteSeerX

CiteSeer ^X (ранее называвшийся CiteSeer ) — общедоступная поисковая система и цифровая библиотека научных и академических работ, прежде всего в области компьютерных и информационных наук .

Цель CiteSeer — улучшить распространение академической и научной литературы и доступ к ней. Как некоммерческая услуга, которой может свободно пользоваться каждый, она считается частью движения за открытый доступ , которое пытается изменить академические и научные публикации, чтобы обеспечить более широкий доступ к научной литературе. CiteSeer бесплатно предоставляет метаданные Open Archives Initiative для всех проиндексированных документов и связывает проиндексированные документы, когда это возможно, с другими источниками метаданных, такими как DBLP и портал ACM . Для продвижения открытых данных CiteSeer X ^{делится} своими данными в некоммерческих целях по лицензии Creative Commons . ^[1]

CiteSeer считается предшественником таких инструментов академического поиска, как Google Scholar и Microsoft Academic Search . ^[2] Механизмы и архивы, подобные CiteSeer, обычно собирают документы только с общедоступных веб-сайтов и не сканируют веб-сайты издателей. По этой причине авторы, чьи документы находятся в свободном доступе, с большей вероятностью будут представлены в индексе.

CiteSeer в какой-то момент сменил название на ResearchIndex, а затем вернул его обратно. ^[3]

История

CiteSeer и CiteSeer.IST

CiteSeer был создан исследователями Ли Джайлсом , Куртом Боллакером и Стивом Лоуренсом в 1997 году, когда они работали в Исследовательском институте NEC (ныне NEC Labs ), Принстон, Нью-Джерси , США. Целью CiteSeer было активное сканирование и сбор академических и научных документов в сети, а также использование автономного индексирования цитирования , позволяющего выполнять запросы по цитированию или по документам, ранжируя их по влиянию цитирования . Когда-то он назывался ResearchIndex.

CiteSeer стал общедоступным в 1998 году и имел множество новых функций, недоступных в то время в академических поисковых системах. В их число вошли:

Автономное индексирование цитирования автоматически создает индекс цитирования, который можно использовать для поиска и оценки литературы.
Статистика цитирования и сопутствующих документов рассчитывалась для всех статей, цитируемых в базе данных, а не только для проиндексированных статей.
Связывание ссылок, позволяющее просматривать базу данных с помощью ссылок на цитирование.
Контекст цитирования показывал контекст цитирования данной статьи, позволяя исследователю быстро и легко увидеть, что другие исследователи говорят об интересующей статье.
Связанные документы были показаны с использованием показателей цитирования и слов, а для каждого документа показана активная и постоянно обновляемая библиография.

11 сентября 2001 года CiteSeer получил патент США № 6289342 под названием « Автономное индексирование цитирования и просмотр литературы с использованием контекста цитирования ». Патент был подан 20 мая 1998 года и имеет приоритет от 5 января 1998 года. Продолжение патент (патент ^США^{№ 6738780) был подан 16 мая 2001 г.}^и выдан 18 мая 2004 г.

После NEC в 2004 году он размещался как CiteSeer.IST во Всемирной паутине в Колледже информационных наук и технологий Университета штата Пенсильвания и содержал более 700 000 документов. Для улучшения доступа, производительности и исследований аналогичные версии CiteSeer поддерживались в таких университетах, как Массачусетский технологический институт , Цюрихский университет и Национальный университет Сингапура . Однако эти версии CiteSeer оказалось трудными в обслуживании, и они больше не доступны. Поскольку CiteSeer индексирует только свободно доступные статьи в Интернете и не имеет доступа к метаданным издателей, он возвращает меньшее количество цитирований, чем такие сайты, как Google Scholar , которые имеют метаданные издателей.

CiteSeer не обновлялся полностью с 2005 года из-за ограничений в его архитектуре. Он имел репрезентативную выборку исследовательских документов в области компьютерных и информационных наук, но его охват был ограничен, поскольку он ограничивался статьями, которые находятся в публичном доступе, обычно на домашней странице автора, или статьями, представленными автором. Чтобы преодолеть некоторые из этих ограничений, была разработана модульная архитектура с открытым исходным кодом для CiteSeer — CiteSeer ^X.

CiteSeer X

CiteSeer ^X заменил CiteSeer, и все запросы к CiteSeer были перенаправлены. CiteSeer ^X^[4] — общедоступная поисковая система , а также цифровая библиотека и хранилище научных и академических статей, в первую очередь посвященных компьютерным и информационным наукам . ^[4] Однако в последнее время CiteSeer ^X расширяется и в других научных областях, таких как экономика, физика и другие. Выпущенный в 2008 году, он был основан на предыдущей поисковой системе и цифровой библиотеке CiteSeer и построен на новой инфраструктуре с открытым исходным кодом SeerSuite, а также новых алгоритмах и их реализациях. Он был разработан исследователями Исааком Каунсиллом и К. Ли Джайлсом из Колледжа информационных наук и технологий Пенсильванского государственного университета . Он продолжает поддерживать цели, поставленные CiteSeer, по активному сканированию и сбору академических и научных документов в общедоступной сети, а также использованию запроса цитирования по цитированию и ранжированию документов по влиянию цитирований. В настоящее время Ли Джайлс, Прасенджит Митра, Сьюзен Гауч, Мин-Йен Кан, Прадип Терегоуда, Хуан Пабло Фернандес Рамирес, Пуктада Триратпитук, Цзян Ву, Дуглас Джордан, Стив Карман, Джек Кэрролл, Джим Янсен и Шуйи Чжэн активно участвуют или вели активную деятельность. участвует в его разработке. Недавно была введена функция поиска по таблицам. ^[5] Проект финансировался Национальным научным фондом , НАСА и Microsoft Research .

CiteSeer ^X по-прежнему считается одним из лучших репозиториев в мире и в июле 2010 года занял первое место. ^[6] В настоящее время он содержит более 6 миллионов документов с почти 6 миллионами уникальных авторов и 120 миллионами цитат. ^{[ временные рамки? ]}

CiteSeer ^X также делится своим программным обеспечением, данными, базами данных и метаданными с другими исследователями, в настоящее время через Amazon S3 и rsync . ^[7] Его новая модульная архитектура и программное обеспечение с открытым исходным кодом (ранее доступные на SourceForge , но теперь на GitHub ) построены на Apache Solr и других Apache и инструментах с открытым исходным кодом, что позволяет ему быть испытательным стендом для новых алгоритмов сбора документов, ранжирования и индексирование и извлечение информации.

CiteSeer ^X кэширует некоторые отсканированные PDF-файлы. Таким образом, каждая страница содержит ссылку DMCA , которую можно использовать для сообщения о нарушениях авторских прав. ^[8]

Текущие возможности

Автоматизированное извлечение информации

CiteSeer ^X использует инструменты автоматического извлечения информации , обычно построенные на методах машинного обучения, таких как ParsCit, для извлечения метаданных научных документов, таких как название, авторы, аннотация, цитаты и т. д. Таким образом, иногда возникают ошибки в авторах и названиях. Другие академические поисковые системы имеют аналогичные ошибки.

Сосредоточенное сканирование

CiteSeer ^X сканирует общедоступные научные документы в основном с веб-страниц авторов и других открытых ресурсов и не имеет доступа к метаданным издателей. Таким образом, количество цитирований в CiteSeer ^X обычно меньше, чем в Google Scholar и Microsoft Academic Search, которые имеют доступ к метаданным издателей.

Применение

CiteSeer ^X имеет почти миллион пользователей по всему миру с уникальными IP-адресами и ежедневно регистрирует миллионы посещений. Ежегодные загрузки PDF-документов в 2015 году составили почти 200 миллионов.

Данные

Данные CiteSeer ^X регулярно передаются по лицензии Creative Commons BY-NC-SA исследователям по всему миру и используются во многих экспериментах и конкурсах.

Благодаря своей конечной точке OAI-PMH ^[9] CiteSeerX представляет собой открытый архив , и его содержимое индексируется как институциональный репозиторий в академических поисковых системах , например, для потребителей BASE и Unpaywall .

Другие поисковые системы на базе SeerSuite

Модель CiteSeer была расширена и теперь охватывает научные документы в бизнесе с помощью SmealSearch и в электронном бизнесе с помощью eBizSearch. Однако их спонсоры не поддерживали их. Более старую версию обоих из них когда-то можно было найти на BizSeer.IST, но она больше не используется.

Другие подобные Seer системы поиска и хранения были созданы для химии — Chem _X Seer и для археологии — ArchSeer. Другой был создан для поиска файлов robots.txt, BotSeer . Все они созданы на основе инструмента с открытым исходным кодом SeerSuite, который использует индексатор с открытым исходным кодом Lucene .

Смотрите также

Арнетмайнер
arXiv
Коллекция библиографии по информатике
DBLP (Проект цифровой библиографии и библиотеки)
Дисциплинарный репозиторий
Google Scholar
Список академических баз данных и поисковых систем
Microsoft Академический
Исследовательские работы по экономике (RePEc)
Семантический ученый

дальнейшее чтение

Джайлз, К. Ли; Боллакер, Курт Д.; Лоуренс, Стив (1998). «CiteSeer: автоматическая система индексирования цитирования». Материалы третьей конференции ACM по электронным библиотекам . стр. 89–98. CiteSeerX 10.1.1.30.6847 . дои : 10.1145/276675.276685. ISBN 978-0-89791-965-4. S2CID 514080.

Внешние ссылки

Викиданные обладают свойством:

Идентификатор статьи CiteSeerX (P3784) (см. использование )

Официальный веб-сайт