Semantic Scholar — это исследовательский инструмент для научной литературы, работающий на основе искусственного интеллекта . Он разработан в Институте Аллена по искусственному интеллекту и был публично выпущен в ноябре 2015 года. [2] Semantic Scholar использует современные методы обработки естественного языка для поддержки исследовательского процесса, например, предоставляя автоматически сгенерированные резюме научных статей. [3] Команда Semantic Scholar активно исследует использование искусственного интеллекта в обработке естественного языка , машинном обучении , взаимодействии человека с компьютером и поиске информации . [4]
Semantic Scholar начинался как база данных по темам компьютерных наук , наук о Земле и нейронауки . [5] В 2017 году система начала включать в свой корпус биомедицинскую литературу . [5] По состоянию на сентябрь 2022 года [обновлять]она включает более 200 миллионов публикаций из всех областей науки. [6]
Semantic Scholar предоставляет краткое изложение научной литературы в одном предложении . Одной из его целей было решение проблемы чтения многочисленных названий и длинных аннотаций на мобильных устройствах. [7] Он также стремится обеспечить, чтобы три миллиона научных статей, публикуемых ежегодно, достигли читателей, поскольку, по оценкам, только половина этой литературы когда-либо читается. [8]
Искусственный интеллект используется для захвата сути статьи, генерируя ее с помощью «абстрактной» техники. [3] Проект использует комбинацию машинного обучения , обработки естественного языка и машинного зрения , чтобы добавить слой семантического анализа к традиционным методам анализа цитирования и извлечь соответствующие рисунки, таблицы , сущности и места проведения из статей. [9] [10]
Еще одна ключевая функция на базе ИИ — Research Feeds, адаптивный исследовательский рекомендатель, который использует ИИ для быстрого изучения того, какие статьи интересны пользователям, и рекомендует последние исследования, чтобы помочь ученым оставаться в курсе событий. Он использует современную модель встраивания статей, обученную с помощью контрастного обучения, чтобы находить статьи, похожие на те, что находятся в каждой папке библиотеки. [11]
Semantic Scholar также предлагает Semantic Reader — расширенный ридер, способный произвести революцию в научном чтении, сделав его более доступным и контекстуально насыщенным. [12] Semantic Reader предоставляет встроенные карточки цитат, которые позволяют пользователям видеть цитаты с TLDR (сокращение от Too Long, Didn't Read), автоматически генерируемыми краткими резюме по мере чтения и беглого просмотра основных моментов, которые охватывают ключевые моменты статьи, чтобы пользователи могли быстрее ее усваивать.
В отличие от Google Scholar и PubMed , Semantic Scholar предназначен для выделения наиболее важных и влиятельных элементов статьи. [13] Технология ИИ предназначена для выявления скрытых связей и связей между темами исследований. [14] Как и ранее упомянутые поисковые системы, Semantic Scholar также использует графовые структуры, которые включают Microsoft Academic Knowledge Graph , Springer Nature's SciGraph и Semantic Scholar Corpus (первоначально корпус из 45 миллионов статей по информатике, нейронауке и биомедицине). [15] [16]
Каждой статье, размещенной на Semantic Scholar, присваивается уникальный идентификатор , называемый Semantic Scholar Corpus ID (сокращенно S2CID). Следующая запись является примером:
Лю, Ин; Гейл, Альберт А; Уайлдер-Смит, Аннелис; Роклов, Йоаким (март 2020 г.). «Репродуктивное число COVID-19 выше по сравнению с коронавирусом SARS». Журнал медицины путешествий . 27 (2). doi : 10.1093/jtm/taaa021. PMID 32052846. S2CID 211099356.
Semantic Scholar бесплатен в использовании и в отличие от аналогичных поисковых систем (например, Google Scholar ) не ищет материалы, находящиеся за платной подпиской . [5] [ требуется ссылка ]
В одном исследовании сравнивался охват индексов Semantic Scholar и Google Scholar, и было обнаружено, что для статей, цитируемых во вторичных исследованиях по информатике, оба индекса имели сопоставимый охват, каждый из которых пропускал лишь несколько статей. [17]
По состоянию на январь 2018 года, после проекта 2017 года, в который были добавлены биомедицинские статьи и тематические резюме, корпус Semantic Scholar включал более 40 миллионов статей из области компьютерных наук и биомедицины . [18] В марте 2018 года Дуг Рэймонд, который разработал инициативы машинного обучения для платформы Amazon Alexa , был нанят для руководства проектом Semantic Scholar. [19] По состоянию на август 2019 года [обновлять]количество включенных метаданных статей (не реальных PDF-файлов) выросло до более чем 173 миллионов [20] после добавления записей Microsoft Academic Graph . [21] В 2020 году партнерство между Semantic Scholar и University of Chicago Press Journals сделало все статьи, опубликованные в University of Chicago Press, доступными в корпусе Semantic Scholar. [22] К концу 2020 года Semantic Scholar проиндексировал 190 миллионов статей. [23] В 2020 году число пользователей Semantic Scholar достигло семи миллионов в месяц. [7]
...общедоступный корпус, составленный Semantic Scholar — инструментом, созданным в 2015 году Институтом искусственного интеллекта Аллена в Сиэтле, штат Вашингтон, — насчитывающий около 200 миллионов статей, включая препринты.