CiteSeer X (ранее называвшийся CiteSeer ) — общедоступная поисковая система и цифровая библиотека научных и академических работ, прежде всего в области компьютерных и информационных наук .
Цель CiteSeer — улучшить распространение академической и научной литературы и доступ к ней. Как некоммерческая услуга, которой может свободно пользоваться каждый, она считается частью движения за открытый доступ , которое пытается изменить академические и научные публикации, чтобы обеспечить более широкий доступ к научной литературе. CiteSeer бесплатно предоставляет метаданные Open Archives Initiative для всех проиндексированных документов и связывает проиндексированные документы, когда это возможно, с другими источниками метаданных, такими как DBLP и портал ACM . Для продвижения открытых данных CiteSeer X делится своими данными в некоммерческих целях по лицензии Creative Commons . [1]
CiteSeer считается предшественником таких инструментов академического поиска, как Google Scholar и Microsoft Academic Search . [2] Механизмы и архивы, подобные CiteSeer, обычно собирают документы только с общедоступных веб-сайтов и не сканируют веб-сайты издателей. По этой причине авторы, чьи документы находятся в свободном доступе, с большей вероятностью будут представлены в индексе.
CiteSeer в какой-то момент сменил название на ResearchIndex, а затем вернул его обратно. [3]
CiteSeer был создан исследователями Ли Джайлсом , Куртом Боллакером и Стивом Лоуренсом в 1997 году, когда они работали в Исследовательском институте NEC (ныне NEC Labs ), Принстон, Нью-Джерси , США. Целью CiteSeer было активное сканирование и сбор академических и научных документов в сети, а также использование автономного индексирования цитирования , позволяющего выполнять запросы по цитированию или по документам, ранжируя их по влиянию цитирования . Когда-то он назывался ResearchIndex.
CiteSeer стал общедоступным в 1998 году и имел множество новых функций, недоступных в то время в академических поисковых системах. В их число вошли:
11 сентября 2001 года CiteSeer получил патент США № 6289342 под названием « Автономное индексирование цитирования и просмотр литературы с использованием контекста цитирования ». Патент был подан 20 мая 1998 года и имеет приоритет от 5 января 1998 года. Продолжение патент (патент США № 6738780) был подан 16 мая 2001 г. и выдан 18 мая 2004 г.
После NEC в 2004 году он размещался как CiteSeer.IST во Всемирной паутине в Колледже информационных наук и технологий Университета штата Пенсильвания и содержал более 700 000 документов. Для улучшения доступа, производительности и исследований аналогичные версии CiteSeer поддерживались в таких университетах, как Массачусетский технологический институт , Цюрихский университет и Национальный университет Сингапура . Однако эти версии CiteSeer оказалось трудными в обслуживании, и они больше не доступны. Поскольку CiteSeer индексирует только свободно доступные статьи в Интернете и не имеет доступа к метаданным издателей, он возвращает меньшее количество цитирований, чем такие сайты, как Google Scholar , которые имеют метаданные издателей.
CiteSeer не обновлялся полностью с 2005 года из-за ограничений в его архитектуре. Он имел репрезентативную выборку исследовательских документов в области компьютерных и информационных наук, но его охват был ограничен, поскольку он ограничивался статьями, которые находятся в публичном доступе, обычно на домашней странице автора, или статьями, представленными автором. Чтобы преодолеть некоторые из этих ограничений, была разработана модульная архитектура с открытым исходным кодом для CiteSeer — CiteSeer X.
CiteSeer X заменил CiteSeer, и все запросы к CiteSeer были перенаправлены. CiteSeer X [4] — общедоступная поисковая система , а также цифровая библиотека и хранилище научных и академических статей, в первую очередь посвященных компьютерным и информационным наукам . [4] Однако в последнее время CiteSeer X расширяется и в других научных областях, таких как экономика, физика и другие. Выпущенный в 2008 году, он был основан на предыдущей поисковой системе и цифровой библиотеке CiteSeer и построен на новой инфраструктуре с открытым исходным кодом SeerSuite, а также новых алгоритмах и их реализациях. Он был разработан исследователями Исааком Каунсиллом и К. Ли Джайлсом из Колледжа информационных наук и технологий Пенсильванского государственного университета . Он продолжает поддерживать цели, поставленные CiteSeer, по активному сканированию и сбору академических и научных документов в общедоступной сети, а также использованию запроса цитирования по цитированию и ранжированию документов по влиянию цитирований. В настоящее время Ли Джайлс, Прасенджит Митра, Сьюзен Гауч, Мин-Йен Кан, Прадип Терегоуда, Хуан Пабло Фернандес Рамирес, Пуктада Триратпитук, Цзян Ву, Дуглас Джордан, Стив Карман, Джек Кэрролл, Джим Янсен и Шуйи Чжэн активно участвуют или вели активную деятельность. участвует в его разработке. Недавно была введена функция поиска по таблицам. [5] Проект финансировался Национальным научным фондом , НАСА и Microsoft Research .
CiteSeer X по-прежнему считается одним из лучших репозиториев в мире и в июле 2010 года занял первое место. [6] В настоящее время он содержит более 6 миллионов документов с почти 6 миллионами уникальных авторов и 120 миллионами цитат. [ временные рамки? ]
CiteSeer X также делится своим программным обеспечением, данными, базами данных и метаданными с другими исследователями, в настоящее время через Amazon S3 и rsync . [7] Его новая модульная архитектура и программное обеспечение с открытым исходным кодом (ранее доступные на SourceForge , но теперь на GitHub ) построены на Apache Solr и других Apache и инструментах с открытым исходным кодом, что позволяет ему быть испытательным стендом для новых алгоритмов сбора документов, ранжирования и индексирование и извлечение информации.
CiteSeer X кэширует некоторые отсканированные PDF-файлы. Таким образом, каждая страница содержит ссылку DMCA , которую можно использовать для сообщения о нарушениях авторских прав. [8]
CiteSeer X использует инструменты автоматического извлечения информации , обычно построенные на методах машинного обучения, таких как ParsCit, для извлечения метаданных научных документов, таких как название, авторы, аннотация, цитаты и т. д. Таким образом, иногда возникают ошибки в авторах и названиях. Другие академические поисковые системы имеют аналогичные ошибки.
CiteSeer X сканирует общедоступные научные документы в основном с веб-страниц авторов и других открытых ресурсов и не имеет доступа к метаданным издателей. Таким образом, количество цитирований в CiteSeer X обычно меньше, чем в Google Scholar и Microsoft Academic Search, которые имеют доступ к метаданным издателей.
CiteSeer X имеет почти миллион пользователей по всему миру с уникальными IP-адресами и ежедневно регистрирует миллионы посещений. Ежегодные загрузки PDF-документов в 2015 году составили почти 200 миллионов.
Данные CiteSeer X регулярно передаются по лицензии Creative Commons BY-NC-SA исследователям по всему миру и используются во многих экспериментах и конкурсах.
Благодаря своей конечной точке OAI-PMH [9] CiteSeerX представляет собой открытый архив , и его содержимое индексируется как институциональный репозиторий в академических поисковых системах , например, для потребителей BASE и Unpaywall .
Модель CiteSeer была расширена и теперь охватывает научные документы в бизнесе с помощью SmealSearch и в электронном бизнесе с помощью eBizSearch. Однако их спонсоры не поддерживали их. Более старую версию обоих из них когда-то можно было найти на BizSeer.IST, но она больше не используется.
Другие подобные Seer системы поиска и хранения были созданы для химии — Chem X Seer и для археологии — ArchSeer. Другой был создан для поиска файлов robots.txt, BotSeer . Все они созданы на основе инструмента с открытым исходным кодом SeerSuite, который использует индексатор с открытым исходным кодом Lucene .
Документ с идентификатором «10.1.1.604.4916» был удален из-за уведомления об удалении DMCA. Если вы считаете, что удаление произошло по ошибке, свяжитесь с нами через страницу обратной связи, указав идентификатор, указанный на этой странице.