stringtranslate.com

Биомедицинский анализ текста

Биомедицинский текстовый интеллект (включая биомедицинскую обработку естественного языка или BioNLP ) относится к методам и изучению того, как текстовый интеллект может быть применен к текстам и литературе биомедицинской области. Как область исследований, биомедицинский текстовый интеллект включает идеи из обработки естественного языка , биоинформатики , медицинской информатики и вычислительной лингвистики . Стратегии в этой области были применены к биомедицинской литературе, доступной через такие сервисы, как PubMed .

В последние годы научная литература перешла на электронную публикацию, но объем доступной информации может быть подавляющим. Эта революция в издательском деле вызвала высокий спрос на методы интеллектуального анализа текста. Интеллектуальный анализ текста предлагает поиск информации (IR) и распознавание сущностей (ER). [1] IR позволяет находить соответствующие статьи в соответствии с интересующей темой, например, через PubMed. ER практикуется, когда распознаются определенные биологические термины (например, белки или гены ) для дальнейшей обработки.

Соображения

Применение подходов интеллектуального анализа текста к биомедицинским текстам требует учета специфических особенностей данной области.

Наличие аннотированных текстовых данных

На этом рисунке представлены некоторые свойства корпуса биомедицинской литературы, подготовленного Вестергаардом и др. [2] Корпус включает 15 миллионов полнотекстовых статей на английском языке. (a) Количество публикаций в год с 1823 по 2016 гг. (b) Временное развитие распределения шести различных тематических категорий с 1823 по 2016 гг. (c) Развитие количества страниц на статью с 1823 по 2016 гг.

Большие аннотированные корпуса, используемые при разработке и обучении методам интеллектуального анализа текста общего назначения (например, наборы диалогов фильмов, [3] обзоры продуктов [4] или тексты статей Википедии), не являются специфическими для биомедицинского языка. Хотя они могут предоставлять доказательства общих свойств текста, таких как части речи, они редко содержат концепции, представляющие интерес для биологов или врачей. Разработка новых методов для определения особенностей, специфичных для биомедицинских документов, поэтому требует сборки специализированных корпусов. [5] Ресурсы, предназначенные для помощи в создании новых методов интеллектуального анализа текста в области биомедицины, были разработаны с помощью задач Informatics for Integrating Biology and the Bedside (i2b2) [6] [7] [8] и исследователей биомедицинской информатики. [9] [10] Исследователи интеллектуального анализа текста часто объединяют эти корпуса с контролируемыми словарями и онтологиями, доступными через Единую систему медицинского языка (UMLS) Национальной медицинской библиотеки и Медицинские предметные рубрики (MeSH) .

Методы на основе машинного обучения часто требуют очень больших наборов данных в качестве обучающих данных для построения полезных моделей. [11] Ручное аннотирование больших текстовых корпусов нереально. Поэтому обучающие данные могут быть продуктами слабого надзора [12] [13] или чисто статистических методов.

Изменение структуры данных

Как и другие текстовые документы, биомедицинские документы содержат неструктурированные данные . [14] Научно-исследовательские публикации следуют разным форматам, содержат разные типы информации и перемежаются рисунками, таблицами и другим нетекстовым содержимым. Как неструктурированный текст, так и полуструктурированные элементы документа, такие как таблицы, могут содержать важную информацию, которая должна быть извлечена с помощью текстового майнинга. [15] Клинические документы могут различаться по структуре и языку в зависимости от отделов и местоположений. Другие типы биомедицинского текста, такие как этикетки лекарств, [16] могут следовать общим структурным принципам, но не иметь дополнительных подробностей.

Неопределенность

Биомедицинская литература содержит утверждения о наблюдениях, которые могут не быть утверждениями фактов. Этот текст может выражать неуверенность или скептицизм относительно утверждений. Без специальных адаптаций подходы к интеллектуальному анализу текста, предназначенные для идентификации утверждений в тексте, могут ошибочно характеризовать эти «хеджированные» утверждения как факты. [17]

Поддержка клинических потребностей

Биомедицинские приложения для анализа текста, разработанные для клинического использования, должны в идеале отражать потребности и запросы врачей. [5] Это вызывает беспокойство в средах, где поддержка клинических решений должна быть информативной и точной. Всесторонний обзор разработки и внедрения методов NLP, применяемых к свободным текстовым клиническим заметкам, связанным с хроническими заболеваниями, представлен в. [18]

Взаимодействие с клиническими системами

Новые системы интеллектуального анализа текста должны работать с существующими стандартами, электронными медицинскими записями и базами данных. [5] Разработаны методы взаимодействия с клиническими системами, такими как LOINC [19], но для их внедрения и поддержки требуются значительные организационные усилия. [20] [21]

Конфиденциальность данных пациентов

Системы интеллектуального анализа текста, работающие с частными медицинскими данными, должны соблюдать их безопасность и обеспечивать их анонимность там, где это уместно. [22] [23] [24]

Процессы

Конкретные подзадачи вызывают особую озабоченность при обработке биомедицинского текста. [14]

Признание имени субъекта

Разработки в области биомедицинского текстового интеллектуального анализа включают идентификацию биологических сущностей с распознаванием именованных сущностей или NER. Имена и идентификаторы биомолекул, таких как белки и гены , [25] химические соединения и лекарства, [26] и названия болезней [27] использовались в качестве сущностей. Большинство методов распознавания сущностей поддерживаются предопределенными лингвистическими функциями или словарями, хотя методы, включающие глубокое обучение и встраивание слов, также были успешными в биомедицинском NER. [28] [29]

Классификация и кластеризация документов

Биомедицинские документы могут быть классифицированы или кластеризованы на основе их содержания и тем. При классификации категории документов указываются вручную, [30] в то время как при кластеризации документы формируют зависящие от алгоритма, отдельные группы. [31] Эти две задачи являются репрезентативными для контролируемых и неконтролируемых методов соответственно, однако целью обоих является создание подмножеств документов на основе их отличительных признаков. Методы кластеризации биомедицинских документов опираются на кластеризацию k -средних . [31]

Открытие отношений

Биомедицинские документы описывают связи между концепциями, будь то взаимодействия между биомолекулами, события, происходящие впоследствии с течением времени (т. е. временные отношения), или причинно-следственные отношения. Методы анализа текста могут выполнять обнаружение отношений для идентификации этих связей, часто в сочетании с распознаванием именованных сущностей. [32]

Обнаружение сигнала хеджирования

Проблема определения неопределенных или «скрытых» утверждений решалась с помощью обнаружения сигналов хеджирования в биомедицинской литературе. [17]

Обнаружение претензий

Множество исследователей разработали методы для выявления конкретных научных утверждений в литературе. [33] [34] На практике этот процесс включает как выделение фраз и предложений, обозначающих основные аргументы, высказанные авторами документа (процесс, известный как добыча аргументов , использующий инструменты, используемые в таких областях, как политология), так и сравнение утверждений для поиска потенциальных противоречий между ними. [34]

Извлечение информации

Извлечение информации, или IE , представляет собой процесс автоматического определения структурированной информации из неструктурированного или частично структурированного текста. Процессы IE могут включать несколько или все из вышеперечисленных действий, включая распознавание именованных сущностей, обнаружение связей и классификацию документов, с общей целью перевода текста в более структурированную форму, такую ​​как содержимое шаблона или базы знаний . В биомедицинской области IE используется для создания связей между концепциями, описанными в тексте, например, ген A подавляет ген B , а ген C участвует в заболевании G. [35] Биомедицинские базы знаний, содержащие этот тип информации, как правило, являются продуктами обширного ручного курирования, поэтому замена ручных усилий автоматизированными методами остается привлекательной областью исследований. [36] [37]

Поиск информации и ответы на вопросы

Биомедицинский анализ текста поддерживает приложения для идентификации документов и концепций, соответствующих поисковым запросам. Поисковые системы, такие как поиск PubMed, позволяют пользователям запрашивать базы данных литературы со словами или фразами, присутствующими в содержимом документа, метаданных или индексах, таких как MeSH . Аналогичные подходы могут использоваться для поиска медицинской литературы . Для получения более подробных результатов некоторые приложения позволяют пользователям выполнять поиск с помощью запросов на естественном языке и определять конкретные биомедицинские связи. [38]

16 марта 2020 года Национальная медицинская библиотека и другие запустили набор открытых исследовательских данных COVID-19 (CORD-19), чтобы обеспечить интеллектуальный анализ текста текущей литературы по новому вирусу. Набор данных размещен в проекте Semantic Scholar [39] Института Аллена по ИИ . [40] Другие участники включают Google , Microsoft Research , Центр безопасности и новых технологий и Инициативу Чан-Цукерберга . [41]

Ресурсы

Корпора

В следующей таблице перечислены некоторые биомедицинские текстовые корпуса и их содержимое. Эти элементы включают аннотированные корпуса, источники биомедицинской исследовательской литературы и ресурсы, часто используемые в качестве ссылок на словарь и/или онтологию, такие как MeSH . Элементы, отмеченные «Да» в разделе «Свободно доступны», можно загрузить из общедоступного места.

Вложения слов

Несколько групп разработали наборы биомедицинского словаря, сопоставленные с векторами действительных чисел, известные как векторы слов или вложения слов . Источники предварительно обученных вложений, специфичных для биомедицинского словаря, перечислены в таблице ниже. Большинство из них являются результатами модели word2vec , разработанной Миколовым и др. [86], или вариантами word2vec.

Приложения

Блок-схема протокола интеллектуального анализа текста.
Пример протокола интеллектуального анализа текста, используемого при изучении белок-белковых комплексов или стыковки белков [91]

Приложения для интеллектуального анализа текста в области биомедицины включают вычислительные подходы для помощи в исследованиях по стыковке белков , [91] взаимодействиям белков , [92] [93] и ассоциациям белок-болезнь. [94] Методы интеллектуального анализа текста имеют несколько преимуществ по сравнению с традиционным ручным курированием для определения ассоциаций. Алгоритмы интеллектуального анализа текста могут идентифицировать и извлекать информацию из огромного количества литературы, и более эффективно, чем ручное курирование. Это включает в себя интеграцию данных из разных источников, включая литературу, базы данных и экспериментальные результаты. Эти алгоритмы преобразовали процесс идентификации и приоритизации новых генов и ассоциаций ген-болезнь, которые ранее игнорировались. [95]

Процесс текстовой добычи
Гены болезней на стыке генов, болезней и признаков
Фильтрация и ранжирование ключевых слов, относящихся к заболеваниям, извлеченных из документов, статей и т. д., относящихся к заболеваниям.
Извлечение посредством текстового анализа

Эти методы являются основой для облегчения систематического поиска упущенной научной и биомедицинской литературы, которая может нести существенную связь между исследованиями. Объединение информации может способствовать новым открытиям и гипотезам, особенно при интеграции наборов данных. Следует отметить, что качество базы данных так же важно, как и ее размер. Многообещающие методы интеллектуального анализа текста, такие как iProLINK (интегрированная информация и знания о протеиновой литературе), были разработаны для курирования источников данных, которые могут помочь в исследовании интеллектуального анализа текста в областях библиографического картирования, извлечения аннотаций, распознавания именованных сущностей белков и разработки онтологии белков. [96] Курируемые базы данных, такие как UniProt, могут ускорить доступность целевой информации не только для генетических последовательностей, но также для литературы и филогении.

Идентификация кластера генов

Разработаны методы определения ассоциации кластеров генов, полученных в ходе экспериментов с микрочипами , с биологическим контекстом, представленным в соответствующей литературе. [97]

Взаимодействие белков

Было изучено автоматическое извлечение взаимодействий белков [98] и ассоциаций белков с функциональными концепциями (например, терминами онтологии генов ). [ требуется ссылка ] Поисковая система PIE была разработана для идентификации и возврата упоминаний взаимодействия белок-белок из статей, проиндексированных в MEDLINE . [99] Извлечение кинетических параметров из текста или субклеточного расположения белков также было рассмотрено с помощью технологии извлечения информации и интеллектуального анализа текста. [ требуется ссылка ]

Ассоциации генов и болезней

Вычислительная приоритизация генов является важным шагом в понимании генетической основы заболеваний, особенно в рамках анализа генетического сцепления . Текстовый анализ и другие вычислительные инструменты извлекают соответствующую информацию, включая ассоциации генов и заболеваний, среди прочего, из многочисленных источников данных, а затем применяют различные алгоритмы ранжирования для приоритизации генов на основе их релевантности для конкретного заболевания. [100] Текстовый анализ и приоритизация генов позволяют исследователям сосредоточить свои усилия на наиболее перспективных кандидатах для дальнейших исследований.

Вычислительные инструменты для приоритезации генов продолжают разрабатываться и анализироваться. Одна группа изучала производительность различных методов текстового интеллектуального анализа для приоритезации генов болезней. Они исследовали различные доменные словари, схемы представления текста и алгоритмы ранжирования, чтобы найти наилучший подход для идентификации генов, вызывающих болезни, чтобы установить эталон . [101]

Ассоциации генов и признаков

Группа специалистов по сельскохозяйственной геномике, среди прочего, с помощью интеллектуального анализа текста, определила гены, связанные с репродуктивными признаками крупного рогатого скота . [102]

Применение фразового анализа для ассоциаций с заболеваниями

Исследование по интеллектуальному анализу текста собрало коллекцию из 709 основных белков внеклеточного матрикса и связанных белков на основе двух баз данных: MatrixDB (matrixdb.univ-lyon1.fr) и UniProt . Этот набор белков имел управляемый размер и богатый объем связанной информации, что делало его подходящим для применения инструментов интеллектуального анализа текста. Исследователи провели анализ фразового анализа для перекрестного изучения отдельных белков внеклеточного матрикса в биомедицинской литературе, посвященной шести категориям сердечно-сосудистых заболеваний . Они использовали конвейер интеллектуального анализа фраз, Контекстно-зависимую семантическую онлайн-аналитическую обработку (CaseOLAP), [103] , затем семантически оценили все 709 белков в соответствии с их целостностью, популярностью и отличительностью с помощью конвейера CaseOLAP. Исследование по интеллектуальному анализу текста подтвердило существующие связи и проинформировало о ранее нераспознанных биологических процессах в сердечно-сосудистой патофизиологии. [94]

Программные инструменты

Поисковые системы

Поисковые системы, предназначенные для поиска биомедицинской литературы , релевантной запросу пользователя, часто полагаются на подходы к интеллектуальному анализу текста. Общедоступные инструменты, специфичные для исследовательской литературы, включают поиск PubMed , поиск Europe PubMed Central , GeneView, [104] и APSE [105]. Аналогичным образом были разработаны поисковые системы и системы индексации, специфичные для биомедицинских данных, включая DataMed [106] и OmicsDI. [107]

Некоторые поисковые системы, такие как Essie, [108] OncoSearch, [109] PubGene , [110] [111] и GoPubMed [112] ранее были публичными, но с тех пор были прекращены, признаны устаревшими или интегрированы в коммерческие продукты.

Системы анализа медицинских записей

Электронные медицинские записи (ЭМЗ) и электронные медицинские карты (ЭМК) собираются клиническим персоналом в ходе диагностики и лечения. Хотя эти записи обычно включают структурированные компоненты с предсказуемыми форматами и типами данных, остальная часть отчетов часто представляет собой свободный текст и трудна для поиска, что приводит к проблемам с уходом за пациентами. [113] Для анализа этих частей свободного текста были разработаны многочисленные полные системы и инструменты. [114] Система MedLEE изначально была разработана для анализа отчетов по рентгенологии грудной клетки, но позже была расширена для других тем отчетов. [115] Клиническая система анализа текста и извлечения знаний, или cTAKES , аннотирует клинический текст с использованием словаря понятий. [116] Система CLAMP предлагает аналогичную функциональность с удобным для пользователя интерфейсом. [117]

Фреймворки

Были разработаны вычислительные фреймворки для быстрого создания инструментов для задач биомедицинского анализа текста. SwellShark [118] — это фреймворк для биомедицинского NER, который не требует маркированных человеком данных, но использует ресурсы для слабого надзора (например, семантические типы UMLS ). Фреймворк SparkText [119] использует потоковую передачу данных Apache Spark , базу данных NoSQL и базовые методы машинного обучения для создания прогностических моделей из научных статей.

API-интерфейсы

Некоторые биомедицинские инструменты для анализа текста и обработки естественного языка доступны через интерфейсы прикладного программирования или API . NOBLE Coder выполняет распознавание концепций через API. [120]

Конференции

На следующих научных конференциях и семинарах проводятся обсуждения и презентации достижений биомедицинского анализа текста. Большинство публикуют труды .

Журналы

Разнообразные академические журналы, публикующие рукописи по биологии и медицине, включают темы по программному обеспечению для обработки текстов и естественного языка. Некоторые журналы, включая Journal of the American Medical Informatics Association (JAMIA) и Journal of Biomedical Informatics, являются популярными публикациями по этим темам.

Ссылки

  1. ^ Йенсен, Ларс Юл; Сарич, Жасмин; Борк, Пир (февраль 2006 г.). «Добыча литературы для биолога: от поиска информации до биологического открытия». Nature Reviews Genetics . 7 (2): 119–129. doi :10.1038/nrg1768. ISSN  1471-0056. PMID  16418747. S2CID  423509.
  2. ^ Westergaard D, Stærfeldt HH, Tønsberg C, Jensen LJ, Brunak S (февраль 2018 г.). «Комплексное и количественное сравнение текстового анализа 15 миллионов полнотекстовых статей с соответствующими им аннотациями». PLOS Computational Biology . 14 (2): e1005962. Bibcode : 2018PLSCB..14E5962W. doi : 10.1371/journal.pcbi.1005962 . PMC 5831415. PMID  29447159 . 
  3. ^ Danescu-Niculescu-Mizil C, Lee L (2011). Хамелеоны в воображаемых разговорах: новый подход к пониманию координации лингвистического стиля в диалогах. стр. 76–87. arXiv : 1106.3077 . Bibcode :2011arXiv1106.3077D. ISBN 978-1-932432-95-4. {{cite book}}: |journal=проигнорировано ( помощь )
  4. ^ McAuley J, Leskovec J (2013-10-12). «Скрытые факторы и скрытые темы: Понимание измерений рейтинга с помощью текста обзора». Труды 7-й конференции ACM по системам рекомендаций . ACM. стр. 165–172. doi :10.1145/2507157.2507163. ISBN 978-1-4503-2409-0. S2CID  6440341.
  5. ^ abc Ohno-Machado L, Nadkarni P, Johnson K (2013). «Обработка естественного языка: алгоритмы и инструменты для извлечения вычисляемой информации из электронных медицинских карт и биомедицинской литературы». Журнал Американской ассоциации медицинской информатики . 20 (5): 805. doi :10.1136/amiajnl-2013-002214. PMC 3756279. PMID  23935077 . 
  6. ^ ab Uzuner Ö, South BR, Shen S, DuVall SL (2011). «Конкурс i2b2/VA 2010 по концепциям, утверждениям и отношениям в клиническом тексте». Журнал Американской ассоциации медицинской информатики . 18 (5): 552–6. doi :10.1136/amiajnl-2011-000203. PMC 3168320. PMID  21685143 . 
  7. ^ ab Sun W, Rumshisky A, Uzuner O (2013). «Оценка временных отношений в клиническом тексте: 2012 i2b2 Challenge». Журнал Американской ассоциации медицинской информатики . 20 (5): 806–13. doi :10.1136/amiajnl-2013-001628. PMC 3756273. PMID  23564629 . 
  8. ^ Stubbs A, Kotfila C, Uzuner Ö (декабрь 2015 г.). «Автоматизированные системы для деидентификации продольных клинических описаний: обзор общей задачи i2b2/UTHealth 2014 года, трек 1». Журнал биомедицинской информатики . 58 (Suppl): S11–9. doi :10.1016/j.jbi.2015.06.007. PMC 4989908. PMID  26225918 . 
  9. ^ Albright D, Lanfranchi A, Fredriksen A, Styler WF, Warner C, Hwang JD, Choi JD, Dligach D, Nielsen RD, Martin J, Ward W, Palmer M, Savova GK (2013). «На пути к всеобъемлющим синтаксическим и семантическим аннотациям клинического повествования». Журнал Американской ассоциации медицинской информатики . 20 (5): 922–30. doi :10.1136/amiajnl-2012-001317. PMC 3756257. PMID  23355458 . 
  10. ^ Bada M, Eckert M, Evans D, Garcia K, Shipley K, Sitnikov D, Baumgartner WA, Cohen KB, Verspoor K, Blake JA, Hunter LE (июль 2012 г.). «Аннотация концепций в корпусе CRAFT». BMC Bioinformatics . 13 (1): 161. doi : 10.1186/1471-2105-13-161 . PMC 3476437. PMID  22776079 . 
  11. ^ Holzinger A, Jurisica I (2014). «Обнаружение знаний и интеллектуальный анализ данных в биомедицинской информатике: будущее за интегративными, интерактивными решениями машинного обучения». Интерактивное обнаружение знаний и интеллектуальный анализ данных в биомедицинской информатике . Конспект лекций по информатике. Том 8401. Springer Berlin Heidelberg. С. 1–18. doi :10.1007/978-3-662-43968-5_1. ISBN 9783662439678.
  12. ^ Ratner A, Bach SH, Ehrenberg H, Fries J, Wu S, Ré C (ноябрь 2017 г.). «Snorkel: Быстрое создание обучающих данных со слабым контролем». Труды VLDB Endowment . 11 (3): 269–282. arXiv : 1711.10160 . Bibcode : 2017arXiv171110160R. doi : 10.14778/3157794.3157797. PMC 5951191. PMID  29770249 . 
  13. ^ Ren X, Wu Z, He W, Qu M, Voss CR, Ji H, Abdelzaher TF , Han J (2017-04-03). "CoType: Совместное извлечение типизированных сущностей и отношений с базами знаний". Труды 26-й Международной конференции по всемирной паутине . WWW '17. Руководящий комитет Международной конференции по всемирной паутине. стр. 1015–1024. doi :10.1145/3038912.3052708. ISBN 9781450349130. S2CID  1724837.
  14. ^ ab Erhardt RA, Schneider R, Blaschke C (апрель 2006 г.). «Состояние методов интеллектуального анализа текста, применяемых к биомедицинскому тексту». Drug Discovery Today . 11 (7–8): 315–25. doi :10.1016/j.drudis.2006.02.011. PMID  16580973.
  15. ^ Milosevic N, Gregson C, Hernandez R, Nenadic G (февраль 2019 г.). «Структура для извлечения информации из таблиц в биомедицинской литературе». International Journal on Document Analysis and Recognition . 22 (1): 55–78. arXiv : 1902.10031 . Bibcode :2019arXiv190210031M. doi :10.1007/s10032-019-00317-0. S2CID  62880746.
  16. ^ Demner-Fushman D, Shooshan SE, Rodriguez L, Aronson AR, Lang F, Rogers W, Roberts K, Tonning J (январь 2018 г.). «Набор данных из 200 структурированных этикеток продуктов, аннотированных для побочных реакций на лекарства». Scientific Data . 5 : 180001. Bibcode : 2018NatSD...580001D. doi : 10.1038/sdata.2018.1. PMC 5789866. PMID  29381145 . 
  17. ^ ab Agarwal S, Yu H (декабрь 2010 г.). «Обнаружение хедж-сигналов и их область действия в биомедицинском тексте с условными случайными полями». Журнал биомедицинской информатики . 43 (6): 953–61. doi :10.1016/j.jbi.2010.08.003. PMC 2991497. PMID  20709188 . 
  18. ^ Шейхалишахи С., Миотто Р., Дадли Дж. Т., Лавелли А., Ринальди Ф., Османи В. (апрель 2019 г.). «Обработка естественного языка клинических заметок о хронических заболеваниях: систематический обзор». JMIR Med Inform . 7 (2): e12239. doi : 10.2196/12239 . PMC 6528438. PMID  31066697 . 
  19. ^ Vandenbussche PY, Cormont S, André C, Daniel C, Delahousse J, Charlet J, Lepage E (2013). «Внедрение и управление словарем биомедицинских наблюдений в крупной информационной системе здравоохранения». Журнал Американской ассоциации медицинской информатики . 20 (5): 940–6. doi :10.1136/amiajnl-2012-001410. PMC 3756262. PMID  23635601 . 
  20. ^ Jannot AS, Zapletal E, Avillach P, Mamzer MF, Burgun A, Degoulet P (июнь 2017 г.). «Хранилище клинических данных Университетской больницы имени Жоржа Помпиду: 8-летний опыт наблюдения». Международный журнал медицинской информатики . 102 : 21–28. doi : 10.1016/j.ijmedinf.2017.02.006. PMID  28495345.
  21. ^ Леви Б. «Проблема семантики здравоохранения». www.fortherecordmag.com . Great Valley Publishing Company . Получено 04.10.2018 .
  22. ^ Гудвин Л.К., Пратер Дж.К. (2002). «Защита конфиденциальности пациентов при анализе клинических данных». Журнал управления медицинской информацией . 16 (4): 62–7. PMID  12365302.
  23. ^ Tucker K, Branson J, Dilleen M, Hollis S, Loughlin P, Nixon MJ, Williams Z (июль 2016 г.). «Защита конфиденциальности пациентов при обмене данными на уровне пациентов из клинических испытаний». BMC Medical Research Methodology . 16 (S1): 77. doi : 10.1186/s12874-016-0169-4 . PMC 4943495. PMID  27410040 . 
  24. ^ Грейвс С. (2013). «Конфиденциальность, электронные медицинские записи и врач». Перспективы в биологии и медицине . 56 (1): 105–25. doi :10.1353/pbm.2013.0003. PMID  23748530. S2CID  25816887.
  25. ^ Leser U, Hakenberg J (2005-01-01). «Что делает имя гена? Распознавание именованных сущностей в биомедицинской литературе». Briefings in Bioinformatics . 6 (4): 357–369. doi : 10.1093/bib/6.4.357 . ISSN  1467-5463. PMID  16420734.
  26. ^ Krallinger M, Leitner F, Rabal O, Vazquez M, Oyarzabal J, Valencia A. "Обзор задачи распознавания названий химических соединений и лекарств (CHEMDNER)" (PDF) . Труды Четвертого семинара по оценке BioCreative Challenge . 2 : 6–37.
  27. ^ Jimeno A, Jimenez-Ruiz E, Lee V, Gaudan S, Berlanga R, Rebholz-Schuhmann D (апрель 2008 г.). «Оценка распознавания названных сущностей болезней на основе аннотированных предложений». BMC Bioinformatics . 9 (Suppl 3): S3. doi : 10.1186/1471-2105-9-s3-s3 . PMC 2352871. PMID  18426548 . 
  28. ^ Хабиби М., Вебер Л., Невес М., Вигандт Д.Л., Лезер У. (июль 2017 г.). «Глубокое обучение с внедрением слов улучшает распознавание биомедицинских именованных сущностей». Биоинформатика . 33 (14): i37–i48. doi :10.1093/bioinformatics/btx228. PMC 5870729. PMID  28881963 . 
  29. ^ Furrer L, Cornelius J, Rinaldi F (март 2022 г.). «Теги параллельной последовательности для распознавания концепций». BMC Bioinformatics . 22 (Suppl 1): 623. doi : 10.1186/s12859-021-04511-y . PMC 8943923 . PMID  35331131. 
  30. ^ Cohen AM (2006). «Эффективный подход общего назначения для автоматизированной классификации биомедицинских документов». AMIA ... Ежегодные труды симпозиума. Симпозиум AMIA . 2006 : 161–5. PMC 1839342. PMID  17238323 . 
  31. ^ ab Xu R, Wunsch DC (2010). «Алгоритмы кластеризации в биомедицинских исследованиях: обзор». IEEE Reviews in Biomedical Engineering . 3 : 120–54. doi : 10.1109/rbme.2010.2083647. PMID  22275205. S2CID  206522771.
  32. ^ Родригес-Эстебан Р. (декабрь 2009 г.). "Биомедицинский анализ текста и его применение". PLOS Computational Biology . 5 (12): e1000597. Bibcode : 2009PLSCB...5E0597R. doi : 10.1371/journal.pcbi.1000597 . PMC 2791166. PMID  20041219 . 
  33. ^ Блейк С. (апрель 2010 г.). «За пределами генов, белков и аннотаций: выявление научных утверждений из полнотекстовых биомедицинских статей». Журнал биомедицинской информатики . 43 (2): 173–89. doi : 10.1016/j.jbi.2009.11.001 . PMID  19900574.
  34. ^ ab Alamri A, Stevensony M (2015). «Автоматическая идентификация потенциально противоречивых утверждений для поддержки систематических обзоров». Международная конференция IEEE по биоинформатике и биомедицине (BIBM) 2015 г. IEEE. стр. 930–937. doi :10.1109/bibm.2015.7359808. ISBN 978-1-4673-6799-8. S2CID  28079483.
  35. ^ Fleuren WW, Alkema W (март 2015 г.). «Применение интеллектуального анализа текста в биомедицинской области». Методы . 74 : 97–106. doi :10.1016/j.ymeth.2015.01.015. PMID  25641519.
  36. ^ Карп ПД (2016-01-01). «Можем ли мы заменить кураторство программным обеспечением для извлечения информации?». База данных . 2016 : baw150. doi :10.1093/database/baw150. PMC 5199131. PMID  28025341 . 
  37. ^ Krallinger M, Valencia A, Hirschman L (2008). «Связывание генов с литературой: интеллектуальный анализ текста, извлечение информации и поисковые приложения для биологии». Genome Biology . 9 (Suppl 2): ​​S8. doi : 10.1186/gb-2008-9-s2-s8 . PMC 2559992. PMID  18834499 . 
  38. ^ Neves M, Leser U (март 2015). «Ответы на вопросы по биологии». Методы . 74 : 36–46. doi :10.1016/j.ymeth.2014.10.023. PMID  25448292.
  39. ^ Semantics Scholar. (2020) «Прорвитесь сквозь беспорядок: [Открытый доступ] Загрузите набор данных открытых исследований коронавируса». Веб-сайт Semantics Scholar Получено 30 марта 2020 г.
  40. ^ Бреннан, Патти. (24 марта 2020 г.). «Блог: Как библиотека реагирует на глобальный кризис в области здравоохранения?». Веб-сайт Национальной медицинской библиотеки. Получено 30 марта 2020 г.
  41. ^ Brainard J (13 мая 2020 г.). «Ученые тонут в статьях о COVID-19. Могут ли новые инструменты удержать их на плаву?». Наука | AAAS . Получено 17 мая 2020 г.
  42. ^ Bossy R, Deléger L, Chaix E, Ba M, Nédellec C (2019). Бактериальный биотоп на BioNLP open shared tasks 2019. Труды 5-го семинара по BioNLP open shared tasks. Ассоциация компьютерной лингвистики. стр. 121–131. doi : 10.18653/v1/D19-5719 .
  43. ^ Uzuner O, Luo Y, Szolovits P (2007-09-01). «Оценка современного состояния автоматической деидентификации». Журнал Американской ассоциации медицинской информатики . 14 (5): 550–63. doi :10.1197/jamia.m2444. PMC 1975792. PMID  17600094 . 
  44. ^ Uzuner O, Goldstein I, Luo Y, Kohane I (01.01.2008). «Определение статуса курения пациента по записям о выписке из больницы». Журнал Американской ассоциации медицинской информатики . 15 (1): 14–24. doi :10.1197/jamia.m2408. PMC 2274873. PMID  17947624 . 
  45. ^ Uzuner O (2009). «Распознавание ожирения и сопутствующих заболеваний в разреженных данных». Журнал Американской ассоциации медицинской информатики . 16 (4): 561–70. doi :10.1197/jamia.M3115. PMC 2705260. PMID  19390096 . 
  46. ^ Uzuner O, Solti I, Xia F, Cadag E (2010). «Эксперимент по аннотированию сообщества для генерации наземных данных для проблемы с лекарствами i2b2». Журнал Американской ассоциации медицинской информатики . 17 (5): 519–23. doi :10.1136/jamia.2010.004200. PMC 2995684. PMID  20819855 . 
  47. ^ Uzuner O, Solti I, Cadag E (2010). «Извлечение информации о лекарствах из клинического текста». Журнал Американской ассоциации медицинской информатики . 17 (5): 514–8. doi :10.1136/jamia.2010.003947. PMC 2995677. PMID  20819854 . 
  48. ^ Uzuner O, Bodnari A, Shen S, Forbush T, Pestian J, South BR (2012). «Оценка состояния дел в области разрешения кореференции для электронных медицинских записей». Журнал Американской ассоциации медицинской информатики . 19 (5): 786–91. doi :10.1136/amiajnl-2011-000784. PMC 3422835. PMID  22366294 . 
  49. ^ Стаббс А., Узунер О. (декабрь 2015 г.). «Аннотирование продольных клинических описаний для деидентификации: корпус i2b2/UTHealth 2014 г.». Журнал биомедицинской информатики . 58 (Suppl): S20–9. doi :10.1016/j.jbi.2015.07.020. PMC 4978170. PMID  26319540 . 
  50. ^ Стаббс А., Узунер О. (декабрь 2015 г.). «Аннотирование факторов риска сердечных заболеваний в клинических описаниях для пациентов с диабетом». Журнал биомедицинской информатики . 58 (Suppl): S78–91. doi :10.1016/j.jbi.2015.05.009. PMC 4978180. PMID  26004790 . 
  51. ^ Bunescu R, Ge R, Kate RJ, Marcotte EM, Mooney RJ, Ramani AK, Wong YW (февраль 2005 г.). «Сравнительные эксперименты по изучению экстракторов информации для белков и их взаимодействий». Искусственный интеллект в медицине . 33 (2): 139–55. CiteSeerX 10.1.1.10.2168 . doi :10.1016/j.artmed.2004.07.016. PMID  15811782. 
  52. ^ Islamaj Dogan R, Kim S, Chatr-Aryamontri A, Chang CS, Oughtred R, Rust J, Wilbur WJ, Comeau DC, Dolinski K, Tyers M (2017-01-01). "Корпус BioC-BioGRID: полные тексты статей, аннотированные для курирования белок-белковых и генетических взаимодействий". База данных . 2017 : baw147. doi :10.1093/database/baw147. PMC 5225395. PMID  28077563 . 
  53. ^ Хиршман Л., Йе А., Блашке К., Валенсия А. (2005). «Обзор BioCreAtIvE: критическая оценка извлечения информации для биологии». BMC Bioinformatics . 6 (Suppl 1): S1. doi : 10.1186/1471-2105-6-S1-S1 . PMC 1869002. PMID  15960821 . 
  54. ^ Krallinger M, Morgan A, Smith L, Leitner F, Tanabe L, Wilbur J, Hirschman L, Valencia A (2008). «Оценка систем интеллектуального анализа текста для биологии: обзор второго вызова сообщества BioCreative». Genome Biology . 9 (Suppl 2): ​​S1. doi : 10.1186/gb-2008-9-s2-s1 . PMC 2559980. PMID  18834487 . 
  55. ^ Li J, Sun Y, Johnson RJ, Sciaky D, Wei CH, Leaman R, Davis AP, Mattingly CJ, Wiegers TC, Lu Z (2016). "Корпус задач BioCreative V CDR: ресурс для извлечения связей с химическими заболеваниями". База данных . 2016 : baw068. doi :10.1093/database/baw068. PMC 4860626. PMID  27161011 . 
  56. ^ Пюисало С., Гинтер Ф., Хеймонен Дж., Бьёрне Дж., Боберг Дж., Ярвинен Дж., Салакоски Т. (февраль 2007 г.). «БиоИнфер: корпус для извлечения информации в биомедицинской области». БМК Биоинформатика . 8 (1): 50. дои : 10.1186/1471-2105-8-50 . ПМК 1808065 . ПМИД  17291334. 
  57. ^ Vincze V, Szarvas G, Farkas R, Móra G, Csirik J (ноябрь 2008 г.). «Корпус BioScope: биомедицинские тексты, аннотированные на неопределенность, отрицание и их области действия». BMC Bioinformatics . 9 (Suppl 11): S9. doi : 10.1186/1471-2105-9-s11-s9 . PMC 2586758 . PMID  19025695. 
  58. ^ Шварц AS, Херст MA (2003). «Простой алгоритм для идентификации определений сокращений в биомедицинском тексте». Тихоокеанский симпозиум по биовычислениям. Тихоокеанский симпозиум по биовычислениям : 451–62. PMID  12603049.
  59. ^ Росарио Б., Херст МА (2005-10-06). "Многоканальная классификация отношений". Многоканальная классификация отношений: применение к белок-белковым взаимодействиям . Hlt '05. Ассоциация компьютерной лингвистики. стр. 732–739. doi :10.3115/1220575.1220667. S2CID  902226.
  60. ^ Davis AP, Grondin CJ, Johnson RJ, Sciaky D, McMorran R, Wiegers J, et al. (Январь 2019). «База данных сравнительной токсикогеномики: обновление 2019». Nucleic Acids Research . 47 (D1): D948–D954. doi :10.1093/nar/gky868. PMC 6323936. PMID  30247620 . 
  61. ^ Verspoor K, Cohen KB, Lanfranchi A, Warner C, Johnson HL, Roeder C, Choi JD, Funk C, Malenkiy Y, Eckert M, Xue N, Baumgartner WA, Bada M, Palmer M, Hunter LE (август 2012 г.). «Корпус полнотекстовых журнальных статей — надежный инструмент оценки для выявления различий в производительности биомедицинских инструментов обработки естественного языка». BMC Bioinformatics . 13 (1): 207. doi : 10.1186/1471-2105-13-207 . PMC 3483229 . PMID  22901054. 
  62. ^ Kim JD, Ohta T, Tateisi Y, Tsujii J (2003-07-03). "Корпус GENIA — семантически аннотированный корпус для биотекстового анализа". Биоинформатика . 19 (Приложение 1): i180–i182. doi : 10.1093/bioinformatics/btg1023 . PMID  12855455.
  63. ^ "Проект GENIA". www.geniaproject.org . Получено 2018-10-06 .
  64. ^ Bachman JA, Gyori BM, Sorger PK (июнь 2018 г.). «FamPlex: ресурс для распознавания сущностей и разрешения взаимосвязей семейств и комплексов человеческих белков в биомедицинском текстовом интеллектуальном анализе». BMC Bioinformatics . 19 (1): 248. doi : 10.1186/s12859-018-2211-5 . PMC 6022344. PMID  29954318 . 
  65. ^ Vlachos A, Gasperin C (2006). «Bootstrapping and evaluating named entity recognize in the biomedical domain». BioNLP '06 Proceedings of the Workshop on Linking Natural Language Processing and Biology: Towards Deeper Biological Literature Analysis . BioNLP '06: 138–145. doi : 10.3115/1567619.1567652 .
  66. ^ Гасперин С., Караманис Н., Сил Р. (2007). «Аннотация анафорических отношений в биомедицинских полнотекстовых статьях с использованием схемы, релевантной предметной области». Труды DAARC 2007 : 19–24.
  67. ^ Medlock B, Briscoe T (2007). «Слабо контролируемое обучение для хедж-классификации в научной литературе» (PDF) . Труды 45-го ежегодного собрания Ассоциации компьютерной лингвистики : 992–999.
  68. ^ Ding J, Berleant D, Nettleton D, Wurtele E (2001). "Mining MEDLINE: Abstracts, sentences, or phrases?" . В Altman RB, Dunker AK, Hunter L, Lauderdale K, Klein TE (ред.). Pacific Symposium on Biocomputing 2002 . World Scientific. стр. 326–337. CiteSeerX 10.1.1.385.6071 . doi :10.1142/9789812799623_0031. ISBN  9789810247775. PMID  11928487. {{cite book}}: |journal=проигнорировано ( помощь )
  69. ^ Kim J, Ohta T, Tsuruoka Y, Tateisi Y, Collier N (2004). "Введение в задачу распознавания биосущностей в JNLPBA". Труды Международного совместного семинара по обработке естественного языка в биомедицине и ее приложениям - JNLPBA '04 : 70. doi : 10.3115/1567594.1567610 .
  70. ^ "LLLchallenge". genome.jouy.inra.fr . Получено 2018-10-06 .
  71. ^ "Медицинские предметные рубрики - Домашняя страница". www.nlm.nih.gov . Получено 2018-10-06 .
  72. ^ Bodenreider O (январь 2004 г.). «The Unified Medical Language System (UMLS): integrating biomedical terminology» (Унифицированная система медицинского языка (UMLS): интеграция биомедицинской терминологии). Nucleic Acids Research . 32 (выпуск базы данных): D267–70. doi :10.1093/nar/gkh061. PMC 308795. PMID  14681409 . 
  73. ^ "Метатезаурус". www.nlm.nih.gov . Получено 2018-10-07 .
  74. ^ Джонсон AE, Поллард TJ, Шен L, Леман LW, Фенг M, Гассеми M, Муди B, Соловиц P, Чели LA, Марк RG (май 2016 г.). "MIMIC-III, свободно доступная база данных интенсивной терапии". Scientific Data . 3 : 160035. Bibcode : 2016NatSD ...360035J. doi : 10.1038/sdata.2016.35. PMC 4878278. PMID  27219127. 
  75. ^ Савова ГК, Чапман WW, Чжэн Дж, Кроули RS (2011). «Анафорические отношения в клиническом повествовании: создание корпуса». Журнал Американской ассоциации медицинской информатики . 18 (4): 459–65. doi :10.1136/amiajnl-2011-000108. PMC 3128403. PMID  21459927 . 
  76. ^ Hersh W, Buckley C, Leone TJ, Hickam D (1994). "OHSUMED: интерактивная оценка поиска и новая большая тестовая коллекция для исследований". Sigir '94 . Springer London. стр. 192–201. doi :10.1007/978-1-4471-2099-5_20. ISBN 9783540198895. S2CID  15094383.
  77. ^ "Подмножество открытого доступа". www.ncbi.nlm.nih.gov . Получено 2018-10-06 .
  78. ^ Nelson SJ, Zeng K, Kilbourne J, Powell T, Moore R (2011). «Нормализованные названия клинических препаратов: RxNorm в 6 лет». Журнал Американской ассоциации медицинской информатики . 18 (4): 441–8. doi :10.1136/amiajnl-2011-000116. PMC 3128404. PMID  21515544 . 
  79. ^ McCray AT (2003). «Онтология верхнего уровня для биомедицинской области». Сравнительная и функциональная геномика . 4 (1): 80–4. doi :10.1002/cfg.255. PMC 2447396. PMID  18629109 . 
  80. ^ "Семантическая сеть UMLS". semanticnetwork.nlm.nih.gov . Получено 2018-10-07 .
  81. ^ МакКрей AT, Шринивасан S, Браун AC (1994). «Лексические методы управления вариациями в биомедицинской терминологии». Труды. Симпозиум по компьютерным приложениям в медицинской помощи : 235–9. PMC 2247735. PMID  7949926 . 
  82. ^ "СПЕЦИАЛИСТСКИЕ инструменты НЛП". lexsrv3.nlm.nih.gov . Получено 2018-10-07 .
  83. ^ Jimeno-Yepes AJ, McInnes BT, Aronson AR (июнь 2011 г.). «Использование индексации MeSH в MEDLINE для генерации набора данных для устранения неоднозначности смысла слов». BMC Bioinformatics . 12 (1): 223. doi : 10.1186/1471-2105-12-223 . PMC 3123611 . PMID  21635749. 
  84. ^ "Коллекции тестов по устранению неоднозначности слов (WSD)". wsd.nlm.nih.gov . Получено 07.10.2018 .
  85. ^ Franzén K, Eriksson G, Olsson F, Asker L, Lidén P, Cöster J (декабрь 2002 г.). «Названия белков и как их найти». International Journal of Medical Informatics . 67 (1–3): 49–61. CiteSeerX 10.1.1.14.2183 . doi :10.1016/s1386-5056(02)00052-7. PMID  12460631. 
  86. ^ Миколов Т., Чен К., Коррадо Г., Дин Дж. (16.01.2013). «Эффективная оценка представлений слов в векторном пространстве». arXiv : 1301.3781 [cs.CL].
  87. ^ "BioASQ выпускает векторы слов с непрерывным пространством, полученные путем применения Word2Vec к рефератам PubMed | bioasq.org". bioasq.org . Получено 07.11.2018 .
  88. ^ "bio.nlplab.org". bio.nlplab.org . Получено 2018-11-07 .
  89. ^ Асгари Э., Мофрад М. Р. (2015-11-10). «Непрерывное распределенное представление биологических последовательностей для глубокой протеомики и геномики». PLOS ONE . 10 (11): e0141287. arXiv : 1503.05140 . Bibcode : 2015PLoSO..1041287A. doi : 10.1371/journal.pone.0141287 . PMC 4640716. PMID  26555596 . 
  90. ^ Баннерджи I, Мадхаван S, Голдман RE, Рубин DL (2017). «Интеллектуальные вложения слов в отчеты по радиологии с открытым текстом». AMIA ... Ежегодные труды симпозиума. Симпозиум AMIA . 2017 : 411–420. arXiv : 1711.06968 . Bibcode : 2017arXiv171106968B. PMC 5977573. PMID  29854105 . 
  91. ^ ab Badal VD, Kundrotas PJ, Vakser IA (декабрь 2015 г.). "Text Mining for Protein Docking". PLOS Computational Biology . 11 (12): e1004630. Bibcode : 2015PLSCB..11E4630B. doi : 10.1371/journal.pcbi.1004630 . PMC 4674139. PMID  26650466 . 
  92. ^ Папаниколау Н., Павлопулос Г.А., Теодосиу Т., Илиопулос I (март 2015 г.). «Прогнозирование белок-белкового взаимодействия с использованием методов анализа текста». Методы . 74 : 47–53. дои : 10.1016/j.ymeth.2014.10.026. ПМИД  25448298.
  93. ^ Szklarczyk D, Morris JH, Cook H, Kuhn M, Wyder S, Simonovic M, Santos A, Doncheva NT, Roth A, Bork P, Jensen LJ, von Mering C (январь 2017 г.). «База данных STRING в 2017 г.: сети белок-белковых ассоциаций с контролируемым качеством, сделанные широкодоступными». Nucleic Acids Research . 45 (D1): D362–D368. doi :10.1093/nar/gkw937. PMC 5210637 . PMID  27924014. 
  94. ^ ab Liem DA, Murali S, Sigdel D, Shi Y, Wang X, Shen J, Choi H, Caufield JH, Wang W, Ping P, Han J (октябрь 2018 г.). «Извлечение фраз из текстовых данных для анализа паттернов белков внеклеточного матрикса при сердечно-сосудистых заболеваниях». American Journal of Physiology. Heart and Circulatory Physiology . 315 (4): H910–H924. doi :10.1152/ajpheart.00175.2018. PMC 6230912 . PMID  29775406. 
  95. ^ Yu S, Tranchevent LC, De Moor B, Moreau Y (январь 2010 г.). «Приоритизация генов и кластеризация с помощью многовидового анализа текста». BMC Bioinformatics . 11 (1): 28. doi : 10.1186/1471-2105-11-28 . PMC 3098068. PMID  20074336 . 
  96. ^ Ху, Чжан-Чжи; Мани, Индерджит; Эрмосо, Винсент; Лю, Хунфан; У, Кэти Х. (декабрь 2004 г.). «iProLINK: интегрированный ресурс белков для добычи литературы». Computational Biology and Chemistry . 28 (5–6): 409–416. doi :10.1016/j.compbiolchem.2004.09.010. PMID  15556482.
  97. ^ Kankar P, Adak S, Sarkar A, Murari K, Sharma G (11 апреля 2002 г.). MedMeSH summaryer: text mining for gene clusters . В материалах Международной конференции SIAM 2002 года по интеллектуальному анализу данных. Общество промышленной и прикладной математики. стр. 548–565. CiteSeerX 10.1.1.215.6230 . doi :10.1137/1.9781611972726.32. ISBN  978-0-89871-517-0.
  98. ^ Pyysalo S, Airola A, Heimonen J, Björne J, Ginter F, Salakoski T (апрель 2008 г.). "Сравнительный анализ пяти корпусов белок-белковых взаимодействий". BMC Bioinformatics . 9 (Suppl 3): S6. doi : 10.1186/1471-2105-9-s3-s6 . PMC 2349296 . PMID  18426551. 
  99. ^ Ким С., Квон Д., Шин С.Й., Уилбур В.Дж. (февраль 2012 г.). «PIE the search: search PubMed literature for protein interaction information». Биоинформатика . 28 (4): 597–8. doi :10.1093/bioinformatics/btr702. PMC 3278758. PMID  22199390 . 
  100. ^ Gill N, Singh S, Aseri TC (июнь 2014 г.). «Вычислительная приоритизация генов болезней: оценка». Журнал вычислительной биологии . 21 (6): 456–465. doi :10.1089/cmb.2013.0158. PMID  24665902.
  101. ^ Yu S, Van Vooren S, Tranchevent LC, De Moor B, Moreau Y (август 2008 г.). «Сравнение словарей, представлений и алгоритмов ранжирования для приоритизации генов с помощью текстового анализа». Биоинформатика . 24 (16): i119–25. doi : 10.1093/bioinformatics/btn291 . PMID  18689812.
  102. ^ Hulsegge I, Woelders H, Smits M, Schokker D, Jiang L, Sørensen P (май 2013 г.). «Приоритизация генов-кандидатов для репродуктивных признаков крупного рогатого скота на основе белок-белковых взаимодействий, экспрессии генов и текстового анализа». Physiological Genomics . 45 (10): 400–6. doi :10.1152/physiolgenomics.00172.2012. PMID  23572538.
  103. ^ Тао Ф., Чжуан Х., Юй Ч. В., Ван К., Кэссиди Т., Каплан Л. Р., Восс К. Р., Хан Дж. (2016). «Многомерное реферирование на основе фраз в текстовых кубах» (PDF) . IEEE Data Eng. Bull . 39 (3): 74–84.
  104. ^ Thomas P, Starlinger J, Vowinkel A, Arzt S, Leser U (июль 2012 г.). «GeneView: комплексная семантическая поисковая система для PubMed». Nucleic Acids Research . 40 (выпуск веб-сервера): W585–91. doi :10.1093/nar/gks563. PMC 3394277. PMID  22693219 . 
  105. ^ Brown P, Zhou Y (сентябрь 2017 г.). «Биомедицинская литература: требуются тестировщики для инструмента поиска статей». Nature . 549 (7670): 31. Bibcode :2017Natur.549...31B. doi : 10.1038/549031c . PMID  28880292.
  106. ^ Ohno-Machado L, Sansone SA, Alter G, Fore I, Grethe J, Xu H, Gonzalez-Beltran A, Rocca-Serra P, Gururaj AE, Bell E, Soysal E, Zong N, Kim HE (май 2017 г.). «Поиск полезных данных в нескольких хранилищах биомедицинских данных с использованием DataMed». Nature Genetics . 49 (6): 816–819. doi :10.1038/ng.3864. PMC 6460922 . PMID  28546571. 
  107. ^ Перес-Риверол Y, Бай M, да Вейга Лепревост F, Сквиззато S, Парк YM, Хауг K и др. (май 2017 г.). «Обнаружение и связывание общедоступных наборов данных омики с использованием индекса открытий омики». Nature Biotechnology . 35 (5): 406–409. doi :10.1038/nbt.3790. PMC 5831141 . PMID  28486464. 
  108. ^ Ide NC, Loane RF, Demner-Fushman D (2007-05-01). "Essie: поисковая система на основе концепций для структурированного биомедицинского текста". Журнал Американской ассоциации медицинской информатики . 14 (3): 253–63. doi :10.1197/jamia.m2233. PMC 2244877. PMID  17329729 . 
  109. ^ Lee HJ, Dang TC, Lee H, Park JC (июль 2014 г.). «OncoSearch: поисковая система генов рака с литературными доказательствами». Nucleic Acids Research . 42 (выпуск веб-сервера): W416–21. doi :10.1093/nar/gku368. PMC 4086113. PMID 24813447  . 
  110. ^ Jenssen TK, Laegreid A, Komorowski J, Hovig E (май 2001 г.). «Литературная сеть генов человека для высокопроизводительного анализа экспрессии генов». Nature Genetics . 28 (1): 21–8. doi :10.1038/ng0501-21. PMID  11326270. S2CID  8889284.
  111. ^ Masys DR (май 2001 г.). «Связывание данных микрочипов с литературой». Nature Genetics . 28 (1): 9–10. doi :10.1038/ng0501-9. PMID  11326264. S2CID  52848745.
  112. ^ Домс А., Шредер М. (июль 2005 г.). «GoPubMed: изучение PubMed с помощью онтологии генов». Nucleic Acids Research . 33 (выпуск веб-сервера): W783–6. doi : 10.1093/nar/gki470. PMC 1160231. PMID  15980585. 
  113. ^ Turchin A, Florez Builes LF (май 2021 г.). «Использование обработки естественного языка для измерения и улучшения качества лечения диабета: систематический обзор». Журнал «Наука и технологии диабета» . 15 (3): 553–560. doi : 10.1177/19322968211000831. PMC 8120048. PMID  33736486 . 
  114. ^ Wang Y, Wang L, Rastegar-Mojarad M, Moon S, Shen F, Afzal N и др. (январь 2018 г.). «Приложения для извлечения клинической информации: обзор литературы». Журнал биомедицинской информатики . 77 : 34–49. doi : 10.1016/j.jbi.2017.11.011. PMC 5771858. PMID  29162496 . 
  115. ^ Фридман С (1997). «На пути к комплексной системе обработки медицинского языка: методы и проблемы». Труды : 595–599. PMC 2233560. PMID  9357695 . 
  116. ^ Savova GK, Masanz JJ, Ogren PV, Zheng J, Sohn S, Kipper-Schuler KC, Chute CG (2010). "Mayo clinical Text Analysis and Knowledge Extraction System (cTAKES): architecture, component evaluation and applications". Журнал Американской ассоциации медицинской информатики . 17 (5): 507–513. doi :10.1136/jamia.2009.001560. PMC 2995668. PMID 20819853  . 
  117. ^ Soysal E, Wang J, Jiang M, Wu Y, Pakhomov S, Liu H, Xu H (март 2018 г.). «CLAMP — набор инструментов для эффективного построения настраиваемых клинических конвейеров обработки естественного языка». Журнал Американской ассоциации медицинской информатики . 25 (3): 331–336. doi : 10.1093/jamia/ocx132 . PMC 7378877. PMID  29186491 . 
  118. ^ Fries J, Wu S, Ratner A, Ré C (2017-04-20). «SwellShark: генеративная модель для распознавания биомедицинских именованных сущностей без маркированных данных». arXiv : 1704.06360 [cs.CL].
  119. ^ Ye Z, Tafti AP, He KY, Wang K, He MM (2016-09-29). "SparkText: Биомедицинский анализ текста на основе больших данных". PLOS ONE . 11 (9): e0162721. Bibcode : 2016PLoSO..1162721Y. doi : 10.1371/journal.pone.0162721 . PMC 5042555. PMID  27685652 . 
  120. ^ Tseytlin E, Mitchell K, Legowski E, Corrigan J, Chavan G, Jacobson RS (январь 2016 г.). "NOBLE - Гибкое распознавание концепций для крупномасштабной биомедицинской обработки естественного языка". BMC Bioinformatics . 17 (1): 32. doi : 10.1186/s12859-015-0871-y . PMC 4712516. PMID  26763894 . 
  121. ^ "BioNLP - ACL Anthology". aclanthology.coli.uni-saarland.de . Получено 2018-10-17 .
  122. ^ "ISMB Proceedings". www.iscb.org . Получено 2018-10-18 .
  123. ^ https://ieeexplore.ieee.org/xpl/conhome/1001586/all-proceedings [ пустой URL-адрес ]
  124. ^ "dblp: CIKM". dblp.uni-trier.de . Получено 2018-10-17 .
  125. ^ "PSB Proceedings". psb.stanford.edu . Получено 2018-10-18 .
  126. ^ "dblp: Практические приложения вычислительной биологии и биоинформатики". dblp.org . Получено 17 октября 2018 г.
  127. ^ "Text REtrieval Conference (TREC) Proceedings". trec.nist.gov . Получено 2018-10-17 .

Дальнейшее чтение

Внешние ссылки