CiteSeerX

CiteSeer ^X (ранее CiteSeer ) — это общедоступная поисковая система и цифровая библиотека научных и академических статей, в первую очередь в области компьютерных и информационных наук .

Цель CiteSeer — улучшить распространение и доступ к академической и научной литературе. Как некоммерческая служба, которой может свободно пользоваться любой, она считается частью движения за открытый доступ , которое пытается изменить академическую и научную публикацию , чтобы обеспечить больший доступ к научной литературе. CiteSeer бесплатно предоставил метаданные Open Archives Initiative всех проиндексированных документов и связывает проиндексированные документы, когда это возможно, с другими источниками метаданных, такими как DBLP и ACM Portal . Для продвижения открытых данных CiteSeer X ^{делится} своими данными в некоммерческих целях по лицензии Creative Commons . ^[1]

CiteSeer считается предшественником академических поисковых инструментов, таких как Google Scholar и Microsoft Academic Search . ^[2] Подобные CiteSeer поисковые системы и архивы обычно собирают документы только с общедоступных веб-сайтов и не сканируют веб-сайты издателей. По этой причине авторы, чьи документы находятся в свободном доступе, с большей вероятностью будут представлены в индексе.

В какой-то момент CiteSeer изменил свое название на ResearchIndex, а затем вернул его обратно. ^[3]

История

CiteSeer и CiteSeer.IST

CiteSeer был создан исследователями Ли Джайлсом , Куртом Боллакером и Стивом Лоуренсом в 1997 году, когда они работали в Научно-исследовательском институте NEC (теперь NEC Labs ), Принстон, Нью-Джерси , США. Целью CiteSeer было активное сканирование и сбор академических и научных документов в Интернете и использование автономного индексирования цитирования для обеспечения возможности поиска по цитированию или по документу, ранжируя их по влиянию цитирования . В какой-то момент он назывался ResearchIndex.

CiteSeer стал публичным в 1998 году и имел много новых функций, недоступных в академических поисковых системах в то время. Они включали:

Автономное индексирование цитирования автоматически создает индекс цитирования, который можно использовать для поиска и оценки литературы.
Статистика цитирования и связанных с ней документов рассчитывалась для всех статей, цитируемых в базе данных, а не только для проиндексированных статей.
Ссылочные ссылки, позволяющие просматривать базу данных с помощью ссылок на цитирование.
Контекст цитирования отображает контекст ссылок на определенную статью, позволяя исследователю быстро и легко увидеть, что говорят другие исследователи об интересующей его статье.
Связанные документы были показаны с использованием показателей цитирования и количества слов, а для каждого документа показана активная и постоянно обновляемая библиография.

CiteSeer получил патент США № 6289342 под названием « Автономное индексирование цитирования и просмотр литературы с использованием контекста цитирования » 11 сентября 2001 года. Патент был подан 20 мая 1998 года и имеет приоритет до 5 января 1998 года. Продолжение патента (патент США № 6738780) было подано 16 мая 2001 года и выдано 18 мая 2004 года. ^{[ необходима цитата ]}

После NEC в 2004 году он был размещен как CiteSeer.IST во Всемирной паутине в Колледже информационных наук и технологий Университета штата Пенсильвания и имел более 700 000 документов. Для улучшенного доступа, производительности и исследований аналогичные версии CiteSeer поддерживались в таких университетах, как Массачусетский технологический институт , Цюрихский университет и Национальный университет Сингапура . Однако эти версии CiteSeer оказались сложными в обслуживании и больше не доступны. Поскольку CiteSeer индексирует только свободно доступные статьи в Интернете и не имеет доступа к метаданным издателя, он возвращает меньшее количество цитирований, чем сайты, такие как Google Scholar , которые имеют метаданные издателя.

CiteSeer не обновлялся полностью с 2005 года из-за ограничений в его архитектуре. Он имел репрезентативную выборку исследовательских документов в области компьютерных и информационных наук, но был ограничен в охвате, поскольку ограничивался статьями, которые находятся в открытом доступе, обычно на домашней странице автора, или теми, которые были представлены автором. Чтобы преодолеть некоторые из этих ограничений, была разработана модульная и открытая архитектура для CiteSeer — CiteSeer ^X.

CiteSeerХ

CiteSeer ^X заменил CiteSeer, и все запросы на CiteSeer были перенаправлены. CiteSeer ^X^[4] — это общедоступная поисковая система , цифровая библиотека и репозиторий научных и академических статей, в первую очередь с упором на компьютерные и информационные науки . ^[4] Однако в последнее время CiteSeer ^X расширяется и на другие научные области, такие как экономика, физика и другие. Выпущенный в 2008 году, он был основан на предыдущей поисковой системе и цифровой библиотеке CiteSeer и построен с новой инфраструктурой с открытым исходным кодом , SeerSuite, а также новыми алгоритмами и их реализациями. Он был разработан исследователями Айзеком Каунсилом и К. Ли Джайлзом в Колледже информационных наук и технологий Университета штата Пенсильвания . Он продолжает поддерживать цели, обозначенные CiteSeer, для активного сканирования и сбора академических и научных документов в общедоступной сети и использования запроса цитирования по цитированиям и ранжирования документов по влиянию цитирований. В настоящее время Ли Джайлз, Прасенджит Митра, Сьюзан Гауч, Мин-Йен Кан, Прадип Тереговда, Хуан Пабло Фернандес Рамирес, Пуктада Триратпитук, Цзянь Ву, Дуглас Джордан, Стив Карман, Джек Кэрролл, Джим Янсен и Шуйи Чжэн активно участвуют в его разработке. Недавно была введена функция поиска по таблице. ^[5] Он был профинансирован Национальным научным фондом , NASA и Microsoft Research .

CiteSeer ^X по-прежнему считается одним из лучших хранилищ в мире и занял 1-е место в июле 2010 года. ^[6] В настоящее время он содержит более 6 миллионов документов с почти 6 миллионами уникальных авторов и 120 миллионами ссылок. ^{[ временные рамки? ]}

CiteSeer ^X также делится своим программным обеспечением, данными, базами данных и метаданными с другими исследователями, в настоящее время через Amazon S3 и rsync . ^[7] Его новая модульная архитектура с открытым исходным кодом и программное обеспечение (ранее доступные на SourceForge, но теперь на GitHub ) построены на Apache Solr и других Apache и инструментах с открытым исходным кодом, что позволяет ему быть испытательным полигоном для новых алгоритмов сбора документов, ранжирования, индексирования и извлечения информации.

CiteSeer ^X кэширует некоторые файлы PDF, которые он отсканировал. Таким образом, каждая страница включает ссылку DMCA , которую можно использовать для сообщения о нарушении авторских прав. ^[8]

Текущие возможности

Автоматизированное извлечение информации

CiteSeer ^X использует автоматизированные инструменты извлечения информации , обычно построенные на методах машинного обучения, таких как ParsCit, для извлечения метаданных научных документов, таких как название, авторы, аннотация, цитаты и т. д. Поэтому иногда встречаются ошибки в авторах и названиях. Другие академические поисковые системы имеют похожие ошибки.

Целенаправленное ползание

CiteSeer ^X сканирует общедоступные научные документы в основном с веб-страниц авторов и других открытых ресурсов и не имеет доступа к метаданным издателя. Таким образом, количество цитирований в CiteSeer ^X обычно меньше, чем в Google Scholar и Microsoft Academic Search, которые имеют доступ к метаданным издателя.

Использование

CiteSeer ^X имеет почти миллион пользователей по всему миру на основе уникальных IP-адресов и имеет миллионы посещений ежедневно. Ежегодные загрузки документов PDF составили около 200 миллионов в 2015 году.

Данные

Данные CiteSeer ^X регулярно предоставляются исследователям по всему миру в соответствии с лицензией Creative Commons BY-NC-SA и используются во многих экспериментах и конкурсах.

Благодаря своей конечной точке OAI-PMH ^[9] CiteSeerX является открытым архивом , а его содержимое индексируется как институциональный репозиторий в академических поисковых системах , например, BASE и Unpaywall .

Другие поисковые системы на базе SeerSuite

Модель CiteSeer была расширена для охвата академических документов в бизнесе с помощью SmealSearch и в электронном бизнесе с помощью eBizSearch. Однако они не поддерживались их спонсорами. Старую версию обоих когда-то можно было найти на BizSeer.IST, но она больше не обслуживается.

Другие системы поиска и репозитория, подобные Seer, были созданы для химии, Chem _X Seer , и для археологии, ArchSeer. Еще одна была создана для поиска файлов robots.txt, BotSeer . Все они построены на инструменте с открытым исходным кодом SeerSuite, который использует индексатор с открытым исходным кодом Lucene .

Смотрите также

Arnetminer
arXiv
Сборник библиографий по информатике
DBLP (Проект цифровой библиографии и библиотеки)
Дисциплинарный репозиторий
Google Академия
Список академических баз данных и поисковых систем
Microsoft академический
Научные работы по экономике (RePEc)
Семантический ученый

Ссылки

^ ab "Политика данных CiteSeerX". Архивировано из оригинала 2012-01-05 . Получено 2015-11-10 .
^ Кодакатери Пудхияветил, Аджит; Гауч, Сьюзан; Луонг, Хиеп; Эно, Джош (2009). "Концептуальная рекомендательная система для CiteSeerX". Труды третьей конференции ACM по рекомендательным системам . Нью-Йорк, Нью-Йорк, США: ACM Press. стр. 241. doi :10.1145/1639714.1639758. ISBN 978-1-60558-435-5. S2CID 13900679.
^ Лоуренс, Стив (2001). "ResearchIndex: Внутри самого большого в мире бесплатного полнотекстового индекса научной литературы". Труды международной конференции по сбору знаний - K-CAP 2001. стр. 3. doi :10.1145/500737.500740. ISBN 1-58113-380-4. S2CID 19592721.
^ ab "About CiteSeerX". Архивировано из оригинала 2010-07-22 . Получено 2010-05-07 .
^ "The CiteSeerX Team". Университет штата Пенсильвания. Архивировано из оригинала 2018-07-26 . Получено 2018-05-01 .
^ "Ranking Web of World Repositories: Top 800 Repositories". Cybermetrics Lab. Июль 2010. Архивировано из оригинала 2010-07-24 . Получено 2010-07-24 .
^ "About CiteSeerX Data". Университет штата Пенсильвания. Архивировано из оригинала 2012-01-05 . Получено 2012-01-25 .
^ Например, "CiteSeerx – DMCA Notice". CiteSeerX 10.1.1.604.4916 . Архивировано из оригинала 2022-03-18. Документ с идентификатором "10.1.1.604.4916" был удален из-за уведомления о нарушении DMCA. Если вы считаете, что удаление было ошибочным, свяжитесь с нами через страницу обратной связи, указав идентификатор, указанный на этой странице.
^ Хёрст, Тони (2011-12-08). "Использование OAI-PMH в качестве интерфейса запросов на уровне одной записи для Citeseer". Архивировано из оригинала 2020-11-24 . Получено 2020-04-25 .

Дальнейшее чтение

Джайлз, К. Ли; Боллакер, Курт Д.; Лоуренс, Стив (1998). «CiteSeer: автоматическая система индексации цитирования». Труды Третьей конференции ACM по цифровым библиотекам . С. 89–98. CiteSeerX 10.1.1.30.6847 . doi :10.1145/276675.276685. ISBN 978-0-89791-965-4. S2CID 514080.

Внешние ссылки

Wikidata имеет свойство:

Идентификатор статьи CiteSeerX (прежняя схема) (P3784) (см. использование )

Официальный сайт