stringtranslate.com

CiteSeerX

CiteSeer X (ранее называвшийся CiteSeer ) — общедоступная поисковая система и цифровая библиотека научных и академических работ, прежде всего в области компьютерных и информационных наук .

Цель CiteSeer — улучшить распространение академической и научной литературы и доступ к ней. Как некоммерческая услуга, которой может свободно пользоваться каждый, она рассматривается как часть движения за открытый доступ , которое пытается изменить академические и научные публикации , чтобы обеспечить более широкий доступ к научной литературе. CiteSeer бесплатно предоставляет метаданные Open Archives Initiative для всех проиндексированных документов и связывает проиндексированные документы, когда это возможно, с другими источниками метаданных, такими как DBLP и портал ACM . Для продвижения открытых данных CiteSeer X делится своими данными в некоммерческих целях по лицензии Creative Commons . [1]

CiteSeer считается предшественником таких инструментов академического поиска, как Google Scholar и Microsoft Academic Search . [2] Механизмы и архивы, подобные CiteSeer, обычно собирают документы только с общедоступных веб-сайтов и не сканируют веб-сайты издателей. По этой причине авторы, чьи документы находятся в свободном доступе, с большей вероятностью будут представлены в индексе.

CiteSeer в какой-то момент изменил свое название на ResearchIndex, а затем вернул его обратно. [3]

История

CiteSeer и CiteSeer.IST

CiteSeer был создан исследователями Ли Джайлсом , Куртом Боллакером и Стивом Лоуренсом в 1997 году, когда они работали в Исследовательском институте NEC (ныне NEC Labs ), Принстон, Нью-Джерси , США. Целью CiteSeer было активное сканирование и сбор академических и научных документов в сети, а также использование автономного индексирования цитирования , позволяющего выполнять запросы по цитированию или по документам, ранжируя их по влиянию цитирования . Когда-то он назывался ResearchIndex.

CiteSeer стал общедоступным в 1998 году и имел множество новых функций, недоступных в то время в академических поисковых системах. В их число вошли:

11 сентября 2001 года CiteSeer получил патент США № 6289342 под названием « Автономное индексирование цитирования и просмотр литературы с использованием контекста цитирования ». Патент был подан 20 мая 1998 года и имеет приоритет от 5 января 1998 года. Продолжение патент (патент США № 6738780) был подан 16 мая 2001 г. и выдан 18 мая 2004 г. [ нужна ссылка ]

После NEC в 2004 году он размещался как CiteSeer.IST во Всемирной паутине в Колледже информационных наук и технологий Университета штата Пенсильвания и содержал более 700 000 документов. Для улучшения доступа, производительности и исследований аналогичные версии CiteSeer поддерживались в таких университетах, как Массачусетский технологический институт , Цюрихский университет и Национальный университет Сингапура . Однако эти версии CiteSeer оказалось трудными в обслуживании, и они больше не доступны. Поскольку CiteSeer индексирует только свободно доступные статьи в Интернете и не имеет доступа к метаданным издателей, он возвращает меньшее количество цитирований, чем такие сайты, как Google Scholar , которые имеют метаданные издателей.

CiteSeer не обновлялся полностью с 2005 года из-за ограничений в его архитектуре. Он имел репрезентативную выборку исследовательских документов в области компьютерных наук и информатики, но его охват был ограничен, поскольку он ограничивался статьями, которые находятся в открытом доступе, обычно на домашней странице автора, или статьями, представленными автором. Чтобы преодолеть некоторые из этих ограничений, была разработана модульная архитектура с открытым исходным кодом для CiteSeer — CiteSeer X.

CiteSeer X

CiteSeer X заменил CiteSeer, и все запросы к CiteSeer были перенаправлены. CiteSeer X [4] — общедоступная поисковая система , а также цифровая библиотека и хранилище научных и академических статей, в первую очередь посвященных компьютерным и информационным наукам . [4] Однако в последнее время CiteSeer X расширяется и в других научных областях, таких как экономика, физика и другие. Выпущенный в 2008 году, он был основан на предыдущей поисковой системе и цифровой библиотеке CiteSeer и построен на новой инфраструктуре с открытым исходным кодом SeerSuite, а также новых алгоритмах и их реализациях. Он был разработан исследователями Исааком Каунсиллом и К. Ли Джайлзом из Колледжа информационных наук и технологий Пенсильванского государственного университета . Он продолжает поддерживать цели, поставленные CiteSeer, по активному сканированию и сбору академических и научных документов в общедоступной сети, а также использованию запроса цитирования по цитированию и ранжированию документов по влиянию цитирований. В настоящее время Ли Джайлс, Прасенджит Митра, Сьюзен Гауч, Мин-Йен Кан, Прадип Терегоуда, Хуан Пабло Фернандес Рамирес, Пуктада Триратпитук, Цзян Ву, Дуглас Джордан, Стив Карман, Джек Кэрролл, Джим Янсен и Шуйи Чжэн активно участвуют или вели активную деятельность. участвует в его разработке. Недавно была введена функция поиска по таблицам. [5] Проект финансировался Национальным научным фондом , НАСА и Microsoft Research .

CiteSeer X по-прежнему считается одним из лучших репозиториев в мире и в июле 2010 года занял первое место. [6] В настоящее время он содержит более 6 миллионов документов с почти 6 миллионами уникальных авторов и 120 миллионами цитат. [ временные рамки? ]

CiteSeer X также делится своим программным обеспечением, данными, базами данных и метаданными с другими исследователями, в настоящее время через Amazon S3 и rsync . [7] Его новая модульная архитектура и программное обеспечение с открытым исходным кодом (ранее доступные на SourceForge, но теперь на GitHub ) построены на Apache Solr и других Apache и инструментах с открытым исходным кодом, что позволяет ему быть испытательным стендом для новых алгоритмов сбора документов, ранжирования и индексирование и извлечение информации.

CiteSeer X кэширует некоторые отсканированные PDF-файлы. Таким образом, каждая страница содержит ссылку DMCA , которую можно использовать для сообщения о нарушениях авторских прав. [8]

Текущие возможности

Автоматизированное извлечение информации

CiteSeer X использует инструменты автоматического извлечения информации , обычно построенные на методах машинного обучения, таких как ParsCit, для извлечения метаданных научных документов, таких как название, авторы, аннотация, цитаты и т. д. Таким образом, иногда возникают ошибки в авторах и названиях. Другие академические поисковые системы имеют аналогичные ошибки.

Сосредоточенное сканирование

CiteSeer X сканирует общедоступные научные документы в основном с веб-страниц авторов и других открытых ресурсов и не имеет доступа к метаданным издателей. Таким образом, количество цитирований в CiteSeer X обычно меньше, чем в Google Scholar и Microsoft Academic Search, которые имеют доступ к метаданным издателей.

Применение

CiteSeer X имеет почти миллион пользователей по всему миру с уникальными IP-адресами и ежедневно регистрирует миллионы посещений. Ежегодные загрузки PDF-документов в 2015 году составили почти 200 миллионов.

Данные

Данные CiteSeer X регулярно передаются по лицензии Creative Commons BY-NC-SA исследователям по всему миру и используются во многих экспериментах и ​​конкурсах.

Благодаря своей конечной точке OAI-PMH [9] CiteSeerX представляет собой открытый архив , и его содержимое индексируется как институциональный репозиторий в академических поисковых системах , например, для потребителей BASE и Unpaywall .

Другие поисковые системы на базе SeerSuite

Модель CiteSeer была расширена и теперь охватывает научные документы в бизнесе с помощью SmealSearch и в электронном бизнесе с помощью eBizSearch. Однако их спонсоры не поддерживали их. Более старую версию обоих из них когда-то можно было найти на BizSeer.IST, но она больше не используется.

Другие подобные Seer системы поиска и хранения были созданы для химии — Chem X Seer и для археологии — ArchSeer. Другой был создан для поиска файлов robots.txt, BotSeer . Все они созданы на основе инструмента с открытым исходным кодом SeerSuite, который использует индексатор с открытым исходным кодом Lucene .

Смотрите также

Рекомендации

  1. ^ ab «Политика данных CiteSeerX». Архивировано из оригинала 05 января 2012 г. Проверено 10 ноября 2015 г.
  2. ^ Кодакатери Пудхияветил, Аджит; Гауч, Сьюзен; Луонг, Хип; Ино, Джош (2009). «Концептуальная рекомендательная система для CiteSeerX». Материалы третьей конференции ACM по рекомендательным системам — RecSys '09 . Нью-Йорк, Нью-Йорк, США: ACM Press: 241. doi : 10.1145/1639714.1639758. ISBN 978-1-60558-435-5. S2CID  13900679.
  3. ^ Лоуренс, Стив (2001). «ResearchIndex: внутри крупнейшего в мире бесплатного полнотекстового указателя научной литературы». Материалы международной конференции по сбору знаний - K-CAP 2001 . п. 3. дои : 10.1145/500737.500740. ISBN 1-58113-380-4. S2CID  19592721.
  4. ^ ab «О CiteSeerX». Архивировано из оригинала 22 июля 2010 г. Проверено 7 мая 2010 г.
  5. ^ "Команда CiteSeerX". Государственный университет Пенсильвании. Архивировано из оригинала 26 июля 2018 г. Проверено 1 мая 2018 г.
  6. ^ «Рейтинг мировых репозиториев: 800 лучших репозиториев» . Лаборатория киберметрики. Июль 2010 г. Архивировано из оригинала 24 июля 2010 г. Проверено 24 июля 2010 г.
  7. ^ «О данных CiteSeerX» . Государственный университет Пенсильвании. Архивировано из оригинала 05 января 2012 г. Проверено 25 января 2012 г.
  8. ^ Например, «CiteSeerx – Уведомление DMCA». CiteSeerX 10.1.1.604.4916 . Архивировано из оригинала 18 марта 2022 г. Документ с идентификатором «10.1.1.604.4916» был удален из-за уведомления об удалении DMCA. Если вы считаете, что удаление произошло по ошибке, свяжитесь с нами через страницу обратной связи, указав идентификатор, указанный на этой странице. 
  9. ^ Херст, Тони (08 декабря 2011 г.). «Использование OAI-PMH в качестве интерфейса запроса на уровне одной записи для Citeseer». Архивировано из оригинала 24 ноября 2020 г. Проверено 25 апреля 2020 г.

дальнейшее чтение

Внешние ссылки