CiteSeer X (ранее CiteSeer ) — это общедоступная поисковая система и цифровая библиотека научных и академических статей, в первую очередь в области компьютерных и информационных наук .
Цель CiteSeer — улучшить распространение и доступ к академической и научной литературе. Как некоммерческая служба, которой может свободно пользоваться любой, она считается частью движения за открытый доступ , которое пытается изменить академическую и научную публикацию , чтобы обеспечить больший доступ к научной литературе. CiteSeer бесплатно предоставил метаданные Open Archives Initiative всех проиндексированных документов и связывает проиндексированные документы, когда это возможно, с другими источниками метаданных, такими как DBLP и ACM Portal . Для продвижения открытых данных CiteSeer X делится своими данными в некоммерческих целях по лицензии Creative Commons . [1]
CiteSeer считается предшественником академических поисковых инструментов, таких как Google Scholar и Microsoft Academic Search . [2] Подобные CiteSeer поисковые системы и архивы обычно собирают документы только с общедоступных веб-сайтов и не сканируют веб-сайты издателей. По этой причине авторы, чьи документы находятся в свободном доступе, с большей вероятностью будут представлены в индексе.
В какой-то момент CiteSeer изменил свое название на ResearchIndex, а затем вернул его обратно. [3]
CiteSeer был создан исследователями Ли Джайлсом , Куртом Боллакером и Стивом Лоуренсом в 1997 году, когда они работали в Научно-исследовательском институте NEC (теперь NEC Labs ), Принстон, Нью-Джерси , США. Целью CiteSeer было активное сканирование и сбор академических и научных документов в Интернете и использование автономного индексирования цитирования для обеспечения возможности поиска по цитированию или по документу, ранжируя их по влиянию цитирования . В какой-то момент он назывался ResearchIndex.
CiteSeer стал публичным в 1998 году и имел много новых функций, недоступных в академических поисковых системах в то время. Они включали:
CiteSeer получил патент США № 6289342 под названием « Автономное индексирование цитирования и просмотр литературы с использованием контекста цитирования » 11 сентября 2001 года. Патент был подан 20 мая 1998 года и имеет приоритет до 5 января 1998 года. Продолжение патента (патент США № 6738780) было подано 16 мая 2001 года и выдано 18 мая 2004 года. [ необходима цитата ]
После NEC в 2004 году он был размещен как CiteSeer.IST во Всемирной паутине в Колледже информационных наук и технологий Университета штата Пенсильвания и имел более 700 000 документов. Для улучшенного доступа, производительности и исследований аналогичные версии CiteSeer поддерживались в таких университетах, как Массачусетский технологический институт , Цюрихский университет и Национальный университет Сингапура . Однако эти версии CiteSeer оказались сложными в обслуживании и больше не доступны. Поскольку CiteSeer индексирует только свободно доступные статьи в Интернете и не имеет доступа к метаданным издателя, он возвращает меньшее количество цитирований, чем сайты, такие как Google Scholar , которые имеют метаданные издателя.
CiteSeer не обновлялся полностью с 2005 года из-за ограничений в его архитектуре. Он имел репрезентативную выборку исследовательских документов в области компьютерных и информационных наук, но был ограничен в охвате, поскольку ограничивался статьями, которые находятся в открытом доступе, обычно на домашней странице автора, или теми, которые были представлены автором. Чтобы преодолеть некоторые из этих ограничений, была разработана модульная и открытая архитектура для CiteSeer — CiteSeer X.
CiteSeer X заменил CiteSeer, и все запросы на CiteSeer были перенаправлены. CiteSeer X [4] — это общедоступная поисковая система , цифровая библиотека и репозиторий научных и академических статей, в первую очередь с упором на компьютерные и информационные науки . [4] Однако в последнее время CiteSeer X расширяется и на другие научные области, такие как экономика, физика и другие. Выпущенный в 2008 году, он был основан на предыдущей поисковой системе и цифровой библиотеке CiteSeer и построен с новой инфраструктурой с открытым исходным кодом , SeerSuite, а также новыми алгоритмами и их реализациями. Он был разработан исследователями Айзеком Каунсилом и К. Ли Джайлзом в Колледже информационных наук и технологий Университета штата Пенсильвания . Он продолжает поддерживать цели, обозначенные CiteSeer, для активного сканирования и сбора академических и научных документов в общедоступной сети и использования запроса цитирования по цитированиям и ранжирования документов по влиянию цитирований. В настоящее время Ли Джайлз, Прасенджит Митра, Сьюзан Гауч, Мин-Йен Кан, Прадип Тереговда, Хуан Пабло Фернандес Рамирес, Пуктада Триратпитук, Цзянь Ву, Дуглас Джордан, Стив Карман, Джек Кэрролл, Джим Янсен и Шуйи Чжэн активно участвуют в его разработке. Недавно была введена функция поиска по таблице. [5] Он был профинансирован Национальным научным фондом , NASA и Microsoft Research .
CiteSeer X по-прежнему считается одним из лучших хранилищ в мире и занял 1-е место в июле 2010 года. [6] В настоящее время он содержит более 6 миллионов документов с почти 6 миллионами уникальных авторов и 120 миллионами ссылок. [ временные рамки? ]
CiteSeer X также делится своим программным обеспечением, данными, базами данных и метаданными с другими исследователями, в настоящее время через Amazon S3 и rsync . [7] Его новая модульная архитектура с открытым исходным кодом и программное обеспечение (ранее доступные на SourceForge, но теперь на GitHub ) построены на Apache Solr и других Apache и инструментах с открытым исходным кодом, что позволяет ему быть испытательным полигоном для новых алгоритмов сбора документов, ранжирования, индексирования и извлечения информации.
CiteSeer X кэширует некоторые файлы PDF, которые он отсканировал. Таким образом, каждая страница включает ссылку DMCA , которую можно использовать для сообщения о нарушении авторских прав. [8]
CiteSeer X использует автоматизированные инструменты извлечения информации , обычно построенные на методах машинного обучения, таких как ParsCit, для извлечения метаданных научных документов, таких как название, авторы, аннотация, цитаты и т. д. Поэтому иногда встречаются ошибки в авторах и названиях. Другие академические поисковые системы имеют похожие ошибки.
CiteSeer X сканирует общедоступные научные документы в основном с веб-страниц авторов и других открытых ресурсов и не имеет доступа к метаданным издателя. Таким образом, количество цитирований в CiteSeer X обычно меньше, чем в Google Scholar и Microsoft Academic Search, которые имеют доступ к метаданным издателя.
CiteSeer X имеет почти миллион пользователей по всему миру на основе уникальных IP-адресов и имеет миллионы посещений ежедневно. Ежегодные загрузки документов PDF составили около 200 миллионов в 2015 году.
Данные CiteSeer X регулярно предоставляются исследователям по всему миру в соответствии с лицензией Creative Commons BY-NC-SA и используются во многих экспериментах и конкурсах.
Благодаря своей конечной точке OAI-PMH [9] CiteSeerX является открытым архивом , а его содержимое индексируется как институциональный репозиторий в академических поисковых системах , например, BASE и Unpaywall .
Модель CiteSeer была расширена для охвата академических документов в бизнесе с помощью SmealSearch и в электронном бизнесе с помощью eBizSearch. Однако они не поддерживались их спонсорами. Старую версию обоих когда-то можно было найти на BizSeer.IST, но она больше не обслуживается.
Другие системы поиска и репозитория, подобные Seer, были созданы для химии, Chem X Seer , и для археологии, ArchSeer. Еще одна была создана для поиска файлов robots.txt, BotSeer . Все они построены на инструменте с открытым исходным кодом SeerSuite, который использует индексатор с открытым исходным кодом Lucene .
Документ с идентификатором "10.1.1.604.4916" был удален из-за уведомления о нарушении DMCA. Если вы считаете, что удаление было ошибочным, свяжитесь с нами через страницу обратной связи, указав идентификатор, указанный на этой странице.