stringtranslate.com

CiteSeerX

CiteSeer X (ранее CiteSeer ) — это общедоступная поисковая система и цифровая библиотека научных и академических статей, в первую очередь в области компьютерных и информационных наук .

Цель CiteSeer — улучшить распространение и доступ к академической и научной литературе. Как некоммерческая служба, которой может свободно пользоваться любой, она считается частью движения за открытый доступ , которое пытается изменить академическую и научную публикацию , чтобы обеспечить больший доступ к научной литературе. CiteSeer бесплатно предоставил метаданные Open Archives Initiative всех проиндексированных документов и связывает проиндексированные документы, когда это возможно, с другими источниками метаданных, такими как DBLP и ACM Portal . Для продвижения открытых данных CiteSeer X делится своими данными в некоммерческих целях по лицензии Creative Commons . [1]

CiteSeer считается предшественником академических поисковых инструментов, таких как Google Scholar и Microsoft Academic Search . [2] Подобные CiteSeer поисковые системы и архивы обычно собирают документы только с общедоступных веб-сайтов и не сканируют веб-сайты издателей. По этой причине авторы, чьи документы находятся в свободном доступе, с большей вероятностью будут представлены в индексе.

В какой-то момент CiteSeer изменил свое название на ResearchIndex, а затем вернул его обратно. [3]

История

CiteSeer и CiteSeer.IST

CiteSeer был создан исследователями Ли Джайлсом , Куртом Боллакером и Стивом Лоуренсом в 1997 году, когда они работали в Научно-исследовательском институте NEC (теперь NEC Labs ), Принстон, Нью-Джерси , США. Целью CiteSeer было активное сканирование и сбор академических и научных документов в Интернете и использование автономного индексирования цитирования для обеспечения возможности поиска по цитированию или по документу, ранжируя их по влиянию цитирования . В какой-то момент он назывался ResearchIndex.

CiteSeer стал публичным в 1998 году и имел много новых функций, недоступных в академических поисковых системах в то время. Они включали:

CiteSeer получил патент США № 6289342 под названием « Автономное индексирование цитирования и просмотр литературы с использованием контекста цитирования » 11 сентября 2001 года. Патент был подан 20 мая 1998 года и имеет приоритет до 5 января 1998 года. Продолжение патента (патент США № 6738780) было подано 16 мая 2001 года и выдано 18 мая 2004 года. [ необходима цитата ]

После NEC в 2004 году он был размещен как CiteSeer.IST во Всемирной паутине в Колледже информационных наук и технологий Университета штата Пенсильвания и имел более 700 000 документов. Для улучшенного доступа, производительности и исследований аналогичные версии CiteSeer поддерживались в таких университетах, как Массачусетский технологический институт , Цюрихский университет и Национальный университет Сингапура . Однако эти версии CiteSeer оказались сложными в обслуживании и больше не доступны. Поскольку CiteSeer индексирует только свободно доступные статьи в Интернете и не имеет доступа к метаданным издателя, он возвращает меньшее количество цитирований, чем сайты, такие как Google Scholar , которые имеют метаданные издателя.

CiteSeer не обновлялся полностью с 2005 года из-за ограничений в его архитектуре. Он имел репрезентативную выборку исследовательских документов в области компьютерных и информационных наук, но был ограничен в охвате, поскольку ограничивался статьями, которые находятся в открытом доступе, обычно на домашней странице автора, или теми, которые были представлены автором. Чтобы преодолеть некоторые из этих ограничений, была разработана модульная и открытая архитектура для CiteSeer — CiteSeer X.

CiteSeerХ

CiteSeer X заменил CiteSeer, и все запросы на CiteSeer были перенаправлены. CiteSeer X [4] — это общедоступная поисковая система , цифровая библиотека и репозиторий научных и академических статей, в первую очередь с упором на компьютерные и информационные науки . [4] Однако в последнее время CiteSeer X расширяется и на другие научные области, такие как экономика, физика и другие. Выпущенный в 2008 году, он был основан на предыдущей поисковой системе и цифровой библиотеке CiteSeer и построен с новой инфраструктурой с открытым исходным кодом , SeerSuite, а также новыми алгоритмами и их реализациями. Он был разработан исследователями Айзеком Каунсилом и К. Ли Джайлзом в Колледже информационных наук и технологий Университета штата Пенсильвания . Он продолжает поддерживать цели, обозначенные CiteSeer, для активного сканирования и сбора академических и научных документов в общедоступной сети и использования запроса цитирования по цитированиям и ранжирования документов по влиянию цитирований. В настоящее время Ли Джайлз, Прасенджит Митра, Сьюзан Гауч, Мин-Йен Кан, Прадип Тереговда, Хуан Пабло Фернандес Рамирес, Пуктада Триратпитук, Цзянь Ву, Дуглас Джордан, Стив Карман, Джек Кэрролл, Джим Янсен и Шуйи Чжэн активно участвуют в его разработке. Недавно была введена функция поиска по таблице. [5] Он был профинансирован Национальным научным фондом , NASA и Microsoft Research .

CiteSeer X по-прежнему считается одним из лучших хранилищ в мире и занял 1-е место в июле 2010 года. [6] В настоящее время он содержит более 6 миллионов документов с почти 6 миллионами уникальных авторов и 120 миллионами ссылок. [ временные рамки? ]

CiteSeer X также делится своим программным обеспечением, данными, базами данных и метаданными с другими исследователями, в настоящее время через Amazon S3 и rsync . [7] Его новая модульная архитектура с открытым исходным кодом и программное обеспечение (ранее доступные на SourceForge, но теперь на GitHub ) построены на Apache Solr и других Apache и инструментах с открытым исходным кодом, что позволяет ему быть испытательным полигоном для новых алгоритмов сбора документов, ранжирования, индексирования и извлечения информации.

CiteSeer X кэширует некоторые файлы PDF, которые он отсканировал. Таким образом, каждая страница включает ссылку DMCA , которую можно использовать для сообщения о нарушении авторских прав. [8]

Текущие возможности

Автоматизированное извлечение информации

CiteSeer X использует автоматизированные инструменты извлечения информации , обычно построенные на методах машинного обучения, таких как ParsCit, для извлечения метаданных научных документов, таких как название, авторы, аннотация, цитаты и т. д. Поэтому иногда встречаются ошибки в авторах и названиях. Другие академические поисковые системы имеют похожие ошибки.

Целенаправленное ползание

CiteSeer X сканирует общедоступные научные документы в основном с веб-страниц авторов и других открытых ресурсов и не имеет доступа к метаданным издателя. Таким образом, количество цитирований в CiteSeer X обычно меньше, чем в Google Scholar и Microsoft Academic Search, которые имеют доступ к метаданным издателя.

Использование

CiteSeer X имеет почти миллион пользователей по всему миру на основе уникальных IP-адресов и имеет миллионы посещений ежедневно. Ежегодные загрузки документов PDF составили около 200 миллионов в 2015 году.

Данные

Данные CiteSeer X регулярно предоставляются исследователям по всему миру в соответствии с лицензией Creative Commons BY-NC-SA и используются во многих экспериментах и ​​конкурсах.

Благодаря своей конечной точке OAI-PMH [9] CiteSeerX является открытым архивом , а его содержимое индексируется как институциональный репозиторий в академических поисковых системах , например, BASE и Unpaywall .

Другие поисковые системы на базе SeerSuite

Модель CiteSeer была расширена для охвата академических документов в бизнесе с помощью SmealSearch и в электронном бизнесе с помощью eBizSearch. Однако они не поддерживались их спонсорами. Старую версию обоих когда-то можно было найти на BizSeer.IST, но она больше не обслуживается.

Другие системы поиска и репозитория, подобные Seer, были созданы для химии, Chem X Seer , и для археологии, ArchSeer. Еще одна была создана для поиска файлов robots.txt, BotSeer . Все они построены на инструменте с открытым исходным кодом SeerSuite, который использует индексатор с открытым исходным кодом Lucene .

Смотрите также

Ссылки

  1. ^ ab "Политика данных CiteSeerX". Архивировано из оригинала 2012-01-05 . Получено 2015-11-10 .
  2. ^ Кодакатери Пудхияветил, Аджит; Гауч, Сьюзан; Луонг, Хиеп; Эно, Джош (2009). "Концептуальная рекомендательная система для CiteSeerX". Труды третьей конференции ACM по рекомендательным системам . Нью-Йорк, Нью-Йорк, США: ACM Press. стр. 241. doi :10.1145/1639714.1639758. ISBN 978-1-60558-435-5. S2CID  13900679.
  3. ^ Лоуренс, Стив (2001). "ResearchIndex: Внутри самого большого в мире бесплатного полнотекстового индекса научной литературы". Труды международной конференции по сбору знаний - K-CAP 2001. стр. 3. doi :10.1145/500737.500740. ISBN 1-58113-380-4. S2CID  19592721.
  4. ^ ab "About CiteSeerX". Архивировано из оригинала 2010-07-22 . Получено 2010-05-07 .
  5. ^ "The CiteSeerX Team". Университет штата Пенсильвания. Архивировано из оригинала 2018-07-26 . Получено 2018-05-01 .
  6. ^ "Ranking Web of World Repositories: Top 800 Repositories". Cybermetrics Lab. Июль 2010. Архивировано из оригинала 2010-07-24 . Получено 2010-07-24 .
  7. ^ "About CiteSeerX Data". Университет штата Пенсильвания. Архивировано из оригинала 2012-01-05 . Получено 2012-01-25 .
  8. ^ Например, "CiteSeerx – DMCA Notice". CiteSeerX 10.1.1.604.4916 . Архивировано из оригинала 2022-03-18. Документ с идентификатором "10.1.1.604.4916" был удален из-за уведомления о нарушении DMCA. Если вы считаете, что удаление было ошибочным, свяжитесь с нами через страницу обратной связи, указав идентификатор, указанный на этой странице. 
  9. ^ Хёрст, Тони (2011-12-08). "Использование OAI-PMH в качестве интерфейса запросов на уровне одной записи для Citeseer". Архивировано из оригинала 2020-11-24 . Получено 2020-04-25 .

Дальнейшее чтение

Внешние ссылки