Биомедицинский анализ текста для извлечения релевантной информации и знаний
Биомедицинский текстовый интеллект (включая биомедицинскую обработку естественного языка или BioNLP ) относится к методам и изучению того, как текстовый интеллект может быть применен к текстам и литературе биомедицинской области. Как область исследований, биомедицинский текстовый интеллект включает идеи из обработки естественного языка , биоинформатики , медицинской информатики и вычислительной лингвистики . Стратегии в этой области были применены к биомедицинской литературе, доступной через такие сервисы, как PubMed .
В последние годы научная литература перешла на электронную публикацию, но объем доступной информации может быть подавляющим. Эта революция в издательском деле вызвала высокий спрос на методы интеллектуального анализа текста. Интеллектуальный анализ текста предлагает поиск информации (IR) и распознавание сущностей (ER). [1] IR позволяет находить соответствующие статьи в соответствии с интересующей темой, например, через PubMed. ER практикуется, когда распознаются определенные биологические термины (например, белки или гены ) для дальнейшей обработки.
Соображения
Применение подходов интеллектуального анализа текста к биомедицинским текстам требует учета специфических особенностей данной области.
Наличие аннотированных текстовых данных
Большие аннотированные корпуса, используемые при разработке и обучении методам интеллектуального анализа текста общего назначения (например, наборы диалогов фильмов, [3] обзоры продуктов [4] или тексты статей Википедии), не являются специфическими для биомедицинского языка. Хотя они могут предоставлять доказательства общих свойств текста, таких как части речи, они редко содержат концепции, представляющие интерес для биологов или врачей. Разработка новых методов для определения особенностей, специфичных для биомедицинских документов, поэтому требует сборки специализированных корпусов. [5] Ресурсы, предназначенные для помощи в создании новых методов интеллектуального анализа текста в области биомедицины, были разработаны с помощью задач Informatics for Integrating Biology and the Bedside (i2b2) [6] [7] [8] и исследователей биомедицинской информатики. [9] [10] Исследователи интеллектуального анализа текста часто объединяют эти корпуса с контролируемыми словарями и онтологиями, доступными через Единую систему медицинского языка (UMLS) Национальной медицинской библиотеки и Медицинские предметные рубрики (MeSH) .
Методы на основе машинного обучения часто требуют очень больших наборов данных в качестве обучающих данных для построения полезных моделей. [11] Ручное аннотирование больших текстовых корпусов нереально. Поэтому обучающие данные могут быть продуктами слабого надзора [12] [13] или чисто статистических методов.
Изменение структуры данных
Как и другие текстовые документы, биомедицинские документы содержат неструктурированные данные . [14] Научно-исследовательские публикации следуют разным форматам, содержат разные типы информации и перемежаются рисунками, таблицами и другим нетекстовым содержимым. Как неструктурированный текст, так и полуструктурированные элементы документа, такие как таблицы, могут содержать важную информацию, которая должна быть извлечена с помощью текстового майнинга. [15] Клинические документы могут различаться по структуре и языку в зависимости от отделов и местоположений. Другие типы биомедицинского текста, такие как этикетки лекарств, [16] могут следовать общим структурным принципам, но не иметь дополнительных подробностей.
Неопределенность
Биомедицинская литература содержит утверждения о наблюдениях, которые могут не быть утверждениями фактов. Этот текст может выражать неуверенность или скептицизм относительно утверждений. Без специальных адаптаций подходы к интеллектуальному анализу текста, предназначенные для идентификации утверждений в тексте, могут ошибочно характеризовать эти «хеджированные» утверждения как факты. [17]
Поддержка клинических потребностей
Биомедицинские приложения для анализа текста, разработанные для клинического использования, должны в идеале отражать потребности и запросы врачей. [5] Это вызывает беспокойство в средах, где поддержка клинических решений должна быть информативной и точной. Всесторонний обзор разработки и внедрения методов NLP, применяемых к свободным текстовым клиническим заметкам, связанным с хроническими заболеваниями, представлен в. [18]
Взаимодействие с клиническими системами
Новые системы интеллектуального анализа текста должны работать с существующими стандартами, электронными медицинскими записями и базами данных. [5] Разработаны методы взаимодействия с клиническими системами, такими как LOINC [19], но для их внедрения и поддержки требуются значительные организационные усилия. [20] [21]
Конфиденциальность данных пациентов
Системы интеллектуального анализа текста, работающие с частными медицинскими данными, должны соблюдать их безопасность и обеспечивать их анонимность там, где это уместно. [22] [23] [24]
Процессы
Конкретные подзадачи вызывают особую озабоченность при обработке биомедицинского текста. [14]
Признание имени субъекта
Разработки в области биомедицинского текстового интеллектуального анализа включают идентификацию биологических сущностей с распознаванием именованных сущностей или NER. Имена и идентификаторы биомолекул, таких как белки и гены , [25] химические соединения и лекарства, [26] и названия болезней [27] использовались в качестве сущностей. Большинство методов распознавания сущностей поддерживаются предопределенными лингвистическими функциями или словарями, хотя методы, включающие глубокое обучение и встраивание слов, также были успешными в биомедицинском NER. [28] [29]
Классификация и кластеризация документов
Биомедицинские документы могут быть классифицированы или кластеризованы на основе их содержания и тем. При классификации категории документов указываются вручную, [30] в то время как при кластеризации документы формируют зависящие от алгоритма, отдельные группы. [31] Эти две задачи являются репрезентативными для контролируемых и неконтролируемых методов соответственно, однако целью обоих является создание подмножеств документов на основе их отличительных признаков. Методы кластеризации биомедицинских документов опираются на кластеризацию k -средних . [31]
Открытие отношений
Биомедицинские документы описывают связи между концепциями, будь то взаимодействия между биомолекулами, события, происходящие впоследствии с течением времени (т. е. временные отношения), или причинно-следственные отношения. Методы анализа текста могут выполнять обнаружение отношений для идентификации этих связей, часто в сочетании с распознаванием именованных сущностей. [32]
Обнаружение сигнала хеджирования
Проблема определения неопределенных или «скрытых» утверждений решалась с помощью обнаружения сигналов хеджирования в биомедицинской литературе. [17]
Обнаружение претензий
Множество исследователей разработали методы для выявления конкретных научных утверждений в литературе. [33] [34] На практике этот процесс включает как выделение фраз и предложений, обозначающих основные аргументы, высказанные авторами документа (процесс, известный как добыча аргументов , использующий инструменты, используемые в таких областях, как политология), так и сравнение утверждений для поиска потенциальных противоречий между ними. [34]
Извлечение информации
Извлечение информации, или IE , представляет собой процесс автоматического определения структурированной информации из неструктурированного или частично структурированного текста. Процессы IE могут включать несколько или все из вышеперечисленных действий, включая распознавание именованных сущностей, обнаружение связей и классификацию документов, с общей целью перевода текста в более структурированную форму, такую как содержимое шаблона или базы знаний . В биомедицинской области IE используется для создания связей между концепциями, описанными в тексте, например, ген A подавляет ген B , а ген C участвует в заболевании G. [35] Биомедицинские базы знаний, содержащие этот тип информации, как правило, являются продуктами обширного ручного курирования, поэтому замена ручных усилий автоматизированными методами остается привлекательной областью исследований. [36] [37]
Поиск информации и ответы на вопросы
Биомедицинский анализ текста поддерживает приложения для идентификации документов и концепций, соответствующих поисковым запросам. Поисковые системы, такие как поиск PubMed, позволяют пользователям запрашивать базы данных литературы со словами или фразами, присутствующими в содержимом документа, метаданных или индексах, таких как MeSH . Аналогичные подходы могут использоваться для поиска медицинской литературы . Для получения более подробных результатов некоторые приложения позволяют пользователям выполнять поиск с помощью запросов на естественном языке и определять конкретные биомедицинские связи. [38]
В следующей таблице перечислены некоторые биомедицинские текстовые корпуса и их содержимое. Эти элементы включают аннотированные корпуса, источники биомедицинской исследовательской литературы и ресурсы, часто используемые в качестве ссылок на словарь и/или онтологию, такие как MeSH . Элементы, отмеченные «Да» в разделе «Свободно доступны», можно загрузить из общедоступного места.
Вложения слов
Несколько групп разработали наборы биомедицинского словаря, сопоставленные с векторами действительных чисел, известные как векторы слов или вложения слов . Источники предварительно обученных вложений, специфичных для биомедицинского словаря, перечислены в таблице ниже. Большинство из них являются результатами модели word2vec , разработанной Миколовым и др. [86], или вариантами word2vec.
Приложения
Приложения для интеллектуального анализа текста в области биомедицины включают вычислительные подходы для помощи в исследованиях по стыковке белков , [91] взаимодействиям белков , [92] [93] и ассоциациям белок-болезнь. [94] Методы интеллектуального анализа текста имеют несколько преимуществ по сравнению с традиционным ручным курированием для определения ассоциаций. Алгоритмы интеллектуального анализа текста могут идентифицировать и извлекать информацию из огромного количества литературы, и более эффективно, чем ручное курирование. Это включает в себя интеграцию данных из разных источников, включая литературу, базы данных и экспериментальные результаты. Эти алгоритмы преобразовали процесс идентификации и приоритизации новых генов и ассоциаций ген-болезнь, которые ранее игнорировались. [95]
Эти методы являются основой для облегчения систематического поиска упущенной научной и биомедицинской литературы, которая может нести существенную связь между исследованиями. Объединение информации может способствовать новым открытиям и гипотезам, особенно при интеграции наборов данных. Следует отметить, что качество базы данных так же важно, как и ее размер. Многообещающие методы интеллектуального анализа текста, такие как iProLINK (интегрированная информация и знания о протеиновой литературе), были разработаны для курирования источников данных, которые могут помочь в исследовании интеллектуального анализа текста в областях библиографического картирования, извлечения аннотаций, распознавания именованных сущностей белков и разработки онтологии белков. [96] Курируемые базы данных, такие как UniProt, могут ускорить доступность целевой информации не только для генетических последовательностей, но также для литературы и филогении.
Было изучено автоматическое извлечение взаимодействий белков [98] и ассоциаций белков с функциональными концепциями (например, терминами онтологии генов ). [ требуется ссылка ] Поисковая система PIE была разработана для идентификации и возврата упоминаний взаимодействия белок-белок из статей, проиндексированных в MEDLINE . [99] Извлечение кинетических параметров из текста или субклеточного расположения белков также было рассмотрено с помощью технологии извлечения информации и интеллектуального анализа текста. [ требуется ссылка ]
Ассоциации генов и болезней
Вычислительная приоритизация генов является важным шагом в понимании генетической основы заболеваний, особенно в рамках анализа генетического сцепления . Текстовый анализ и другие вычислительные инструменты извлекают соответствующую информацию, включая ассоциации генов и заболеваний, среди прочего, из многочисленных источников данных, а затем применяют различные алгоритмы ранжирования для приоритизации генов на основе их релевантности для конкретного заболевания. [100] Текстовый анализ и приоритизация генов позволяют исследователям сосредоточить свои усилия на наиболее перспективных кандидатах для дальнейших исследований.
Вычислительные инструменты для приоритезации генов продолжают разрабатываться и анализироваться. Одна группа изучала производительность различных методов текстового интеллектуального анализа для приоритезации генов болезней. Они исследовали различные доменные словари, схемы представления текста и алгоритмы ранжирования, чтобы найти наилучший подход для идентификации генов, вызывающих болезни, чтобы установить эталон . [101]
Ассоциации генов и признаков
Группа специалистов по сельскохозяйственной геномике, среди прочего, с помощью интеллектуального анализа текста, определила гены, связанные с репродуктивными признаками крупного рогатого скота . [102]
Применение фразового анализа для ассоциаций с заболеваниями
Исследование по интеллектуальному анализу текста собрало коллекцию из 709 основных белков внеклеточного матрикса и связанных белков на основе двух баз данных: MatrixDB (matrixdb.univ-lyon1.fr) и UniProt . Этот набор белков имел управляемый размер и богатый объем связанной информации, что делало его подходящим для применения инструментов интеллектуального анализа текста. Исследователи провели анализ фразового анализа для перекрестного изучения отдельных белков внеклеточного матрикса в биомедицинской литературе, посвященной шести категориям сердечно-сосудистых заболеваний . Они использовали конвейер интеллектуального анализа фраз, Контекстно-зависимую семантическую онлайн-аналитическую обработку (CaseOLAP), [103] , затем семантически оценили все 709 белков в соответствии с их целостностью, популярностью и отличительностью с помощью конвейера CaseOLAP. Исследование по интеллектуальному анализу текста подтвердило существующие связи и проинформировало о ранее нераспознанных биологических процессах в сердечно-сосудистой патофизиологии. [94]
Программные инструменты
Поисковые системы
Поисковые системы, предназначенные для поиска биомедицинской литературы , релевантной запросу пользователя, часто полагаются на подходы к интеллектуальному анализу текста. Общедоступные инструменты, специфичные для исследовательской литературы, включают поиск PubMed , поиск Europe PubMed Central , GeneView, [104] и APSE [105]. Аналогичным образом были разработаны поисковые системы и системы индексации, специфичные для биомедицинских данных, включая DataMed [106] и OmicsDI. [107]
Некоторые поисковые системы, такие как Essie, [108] OncoSearch, [109] PubGene , [110] [111] и GoPubMed [112] ранее были публичными, но с тех пор были прекращены, признаны устаревшими или интегрированы в коммерческие продукты.
Системы анализа медицинских записей
Электронные медицинские записи (ЭМЗ) и электронные медицинские карты (ЭМК) собираются клиническим персоналом в ходе диагностики и лечения. Хотя эти записи обычно включают структурированные компоненты с предсказуемыми форматами и типами данных, остальная часть отчетов часто представляет собой свободный текст и трудна для поиска, что приводит к проблемам с уходом за пациентами. [113] Для анализа этих частей свободного текста были разработаны многочисленные полные системы и инструменты. [114] Система MedLEE изначально была разработана для анализа отчетов по рентгенологии грудной клетки, но позже была расширена для других тем отчетов. [115] Клиническая система анализа текста и извлечения знаний, или cTAKES , аннотирует клинический текст с использованием словаря понятий. [116] Система CLAMP предлагает аналогичную функциональность с удобным для пользователя интерфейсом. [117]
Некоторые биомедицинские инструменты для анализа текста и обработки естественного языка доступны через интерфейсы прикладного программирования или API . NOBLE Coder выполняет распознавание концепций через API. [120]
Конференции
На следующих научных конференциях и семинарах проводятся обсуждения и презентации достижений биомедицинского анализа текста. Большинство публикуют труды .
^ Йенсен, Ларс Юл; Сарич, Жасмин; Борк, Пир (февраль 2006 г.). «Добыча литературы для биолога: от поиска информации до биологического открытия». Nature Reviews Genetics . 7 (2): 119–129. doi :10.1038/nrg1768. ISSN 1471-0056. PMID 16418747. S2CID 423509.
^ Westergaard D, Stærfeldt HH, Tønsberg C, Jensen LJ, Brunak S (февраль 2018 г.). «Комплексное и количественное сравнение текстового анализа 15 миллионов полнотекстовых статей с соответствующими им аннотациями». PLOS Computational Biology . 14 (2): e1005962. Bibcode : 2018PLSCB..14E5962W. doi : 10.1371/journal.pcbi.1005962 . PMC 5831415. PMID 29447159 .
^ Danescu-Niculescu-Mizil C, Lee L (2011). Хамелеоны в воображаемых разговорах: новый подход к пониманию координации лингвистического стиля в диалогах. стр. 76–87. arXiv : 1106.3077 . Bibcode :2011arXiv1106.3077D. ISBN978-1-932432-95-4. {{cite book}}: |journal=проигнорировано ( помощь )
^ McAuley J, Leskovec J (2013-10-12). «Скрытые факторы и скрытые темы: Понимание измерений рейтинга с помощью текста обзора». Труды 7-й конференции ACM по системам рекомендаций . ACM. стр. 165–172. doi :10.1145/2507157.2507163. ISBN978-1-4503-2409-0. S2CID 6440341.
^ abc Ohno-Machado L, Nadkarni P, Johnson K (2013). «Обработка естественного языка: алгоритмы и инструменты для извлечения вычисляемой информации из электронных медицинских карт и биомедицинской литературы». Журнал Американской ассоциации медицинской информатики . 20 (5): 805. doi :10.1136/amiajnl-2013-002214. PMC 3756279. PMID 23935077 .
^ ab Uzuner Ö, South BR, Shen S, DuVall SL (2011). «Конкурс i2b2/VA 2010 по концепциям, утверждениям и отношениям в клиническом тексте». Журнал Американской ассоциации медицинской информатики . 18 (5): 552–6. doi :10.1136/amiajnl-2011-000203. PMC 3168320. PMID 21685143 .
^ ab Sun W, Rumshisky A, Uzuner O (2013). «Оценка временных отношений в клиническом тексте: 2012 i2b2 Challenge». Журнал Американской ассоциации медицинской информатики . 20 (5): 806–13. doi :10.1136/amiajnl-2013-001628. PMC 3756273. PMID 23564629 .
^ Stubbs A, Kotfila C, Uzuner Ö (декабрь 2015 г.). «Автоматизированные системы для деидентификации продольных клинических описаний: обзор общей задачи i2b2/UTHealth 2014 года, трек 1». Журнал биомедицинской информатики . 58 (Suppl): S11–9. doi :10.1016/j.jbi.2015.06.007. PMC 4989908. PMID 26225918 .
^ Albright D, Lanfranchi A, Fredriksen A, Styler WF, Warner C, Hwang JD, Choi JD, Dligach D, Nielsen RD, Martin J, Ward W, Palmer M, Savova GK (2013). «На пути к всеобъемлющим синтаксическим и семантическим аннотациям клинического повествования». Журнал Американской ассоциации медицинской информатики . 20 (5): 922–30. doi :10.1136/amiajnl-2012-001317. PMC 3756257. PMID 23355458 .
^ Bada M, Eckert M, Evans D, Garcia K, Shipley K, Sitnikov D, Baumgartner WA, Cohen KB, Verspoor K, Blake JA, Hunter LE (июль 2012 г.). «Аннотация концепций в корпусе CRAFT». BMC Bioinformatics . 13 (1): 161. doi : 10.1186/1471-2105-13-161 . PMC 3476437. PMID 22776079 .
^ Holzinger A, Jurisica I (2014). «Обнаружение знаний и интеллектуальный анализ данных в биомедицинской информатике: будущее за интегративными, интерактивными решениями машинного обучения». Интерактивное обнаружение знаний и интеллектуальный анализ данных в биомедицинской информатике . Конспект лекций по информатике. Том 8401. Springer Berlin Heidelberg. С. 1–18. doi :10.1007/978-3-662-43968-5_1. ISBN9783662439678.
^ Ratner A, Bach SH, Ehrenberg H, Fries J, Wu S, Ré C (ноябрь 2017 г.). «Snorkel: Быстрое создание обучающих данных со слабым контролем». Труды VLDB Endowment . 11 (3): 269–282. arXiv : 1711.10160 . Bibcode : 2017arXiv171110160R. doi : 10.14778/3157794.3157797. PMC 5951191. PMID 29770249 .
^ Ren X, Wu Z, He W, Qu M, Voss CR, Ji H, Abdelzaher TF , Han J (2017-04-03). "CoType: Совместное извлечение типизированных сущностей и отношений с базами знаний". Труды 26-й Международной конференции по всемирной паутине . WWW '17. Руководящий комитет Международной конференции по всемирной паутине. стр. 1015–1024. doi :10.1145/3038912.3052708. ISBN9781450349130. S2CID 1724837.
^ ab Erhardt RA, Schneider R, Blaschke C (апрель 2006 г.). «Состояние методов интеллектуального анализа текста, применяемых к биомедицинскому тексту». Drug Discovery Today . 11 (7–8): 315–25. doi :10.1016/j.drudis.2006.02.011. PMID 16580973.
^ Milosevic N, Gregson C, Hernandez R, Nenadic G (февраль 2019 г.). «Структура для извлечения информации из таблиц в биомедицинской литературе». International Journal on Document Analysis and Recognition . 22 (1): 55–78. arXiv : 1902.10031 . Bibcode :2019arXiv190210031M. doi :10.1007/s10032-019-00317-0. S2CID 62880746.
^ Demner-Fushman D, Shooshan SE, Rodriguez L, Aronson AR, Lang F, Rogers W, Roberts K, Tonning J (январь 2018 г.). «Набор данных из 200 структурированных этикеток продуктов, аннотированных для побочных реакций на лекарства». Scientific Data . 5 : 180001. Bibcode : 2018NatSD...580001D. doi : 10.1038/sdata.2018.1. PMC 5789866. PMID 29381145 .
^ ab Agarwal S, Yu H (декабрь 2010 г.). «Обнаружение хедж-сигналов и их область действия в биомедицинском тексте с условными случайными полями». Журнал биомедицинской информатики . 43 (6): 953–61. doi :10.1016/j.jbi.2010.08.003. PMC 2991497. PMID 20709188 .
^ Шейхалишахи С., Миотто Р., Дадли Дж. Т., Лавелли А., Ринальди Ф., Османи В. (апрель 2019 г.). «Обработка естественного языка клинических заметок о хронических заболеваниях: систематический обзор». JMIR Med Inform . 7 (2): e12239. doi : 10.2196/12239 . PMC 6528438. PMID 31066697 .
^ Vandenbussche PY, Cormont S, André C, Daniel C, Delahousse J, Charlet J, Lepage E (2013). «Внедрение и управление словарем биомедицинских наблюдений в крупной информационной системе здравоохранения». Журнал Американской ассоциации медицинской информатики . 20 (5): 940–6. doi :10.1136/amiajnl-2012-001410. PMC 3756262. PMID 23635601 .
^ Jannot AS, Zapletal E, Avillach P, Mamzer MF, Burgun A, Degoulet P (июнь 2017 г.). «Хранилище клинических данных Университетской больницы имени Жоржа Помпиду: 8-летний опыт наблюдения». Международный журнал медицинской информатики . 102 : 21–28. doi : 10.1016/j.ijmedinf.2017.02.006. PMID 28495345.
^ Леви Б. «Проблема семантики здравоохранения». www.fortherecordmag.com . Great Valley Publishing Company . Получено 04.10.2018 .
^ Гудвин Л.К., Пратер Дж.К. (2002). «Защита конфиденциальности пациентов при анализе клинических данных». Журнал управления медицинской информацией . 16 (4): 62–7. PMID 12365302.
^ Tucker K, Branson J, Dilleen M, Hollis S, Loughlin P, Nixon MJ, Williams Z (июль 2016 г.). «Защита конфиденциальности пациентов при обмене данными на уровне пациентов из клинических испытаний». BMC Medical Research Methodology . 16 (S1): 77. doi : 10.1186/s12874-016-0169-4 . PMC 4943495. PMID 27410040 .
^ Грейвс С. (2013). «Конфиденциальность, электронные медицинские записи и врач». Перспективы в биологии и медицине . 56 (1): 105–25. doi :10.1353/pbm.2013.0003. PMID 23748530. S2CID 25816887.
^ Leser U, Hakenberg J (2005-01-01). «Что делает имя гена? Распознавание именованных сущностей в биомедицинской литературе». Briefings in Bioinformatics . 6 (4): 357–369. doi : 10.1093/bib/6.4.357 . ISSN 1467-5463. PMID 16420734.
^ Krallinger M, Leitner F, Rabal O, Vazquez M, Oyarzabal J, Valencia A. "Обзор задачи распознавания названий химических соединений и лекарств (CHEMDNER)" (PDF) . Труды Четвертого семинара по оценке BioCreative Challenge . 2 : 6–37.
^ Jimeno A, Jimenez-Ruiz E, Lee V, Gaudan S, Berlanga R, Rebholz-Schuhmann D (апрель 2008 г.). «Оценка распознавания названных сущностей болезней на основе аннотированных предложений». BMC Bioinformatics . 9 (Suppl 3): S3. doi : 10.1186/1471-2105-9-s3-s3 . PMC 2352871. PMID 18426548 .
^ Хабиби М., Вебер Л., Невес М., Вигандт Д.Л., Лезер У. (июль 2017 г.). «Глубокое обучение с внедрением слов улучшает распознавание биомедицинских именованных сущностей». Биоинформатика . 33 (14): i37–i48. doi :10.1093/bioinformatics/btx228. PMC 5870729. PMID 28881963 .
^ Furrer L, Cornelius J, Rinaldi F (март 2022 г.). «Теги параллельной последовательности для распознавания концепций». BMC Bioinformatics . 22 (Suppl 1): 623. doi : 10.1186/s12859-021-04511-y . PMC 8943923 . PMID 35331131.
^ Cohen AM (2006). «Эффективный подход общего назначения для автоматизированной классификации биомедицинских документов». AMIA ... Ежегодные труды симпозиума. Симпозиум AMIA . 2006 : 161–5. PMC 1839342. PMID 17238323 .
^ ab Xu R, Wunsch DC (2010). «Алгоритмы кластеризации в биомедицинских исследованиях: обзор». IEEE Reviews in Biomedical Engineering . 3 : 120–54. doi : 10.1109/rbme.2010.2083647. PMID 22275205. S2CID 206522771.
^ Родригес-Эстебан Р. (декабрь 2009 г.). "Биомедицинский анализ текста и его применение". PLOS Computational Biology . 5 (12): e1000597. Bibcode : 2009PLSCB...5E0597R. doi : 10.1371/journal.pcbi.1000597 . PMC 2791166. PMID 20041219 .
^ Блейк С. (апрель 2010 г.). «За пределами генов, белков и аннотаций: выявление научных утверждений из полнотекстовых биомедицинских статей». Журнал биомедицинской информатики . 43 (2): 173–89. doi : 10.1016/j.jbi.2009.11.001 . PMID 19900574.
^ ab Alamri A, Stevensony M (2015). «Автоматическая идентификация потенциально противоречивых утверждений для поддержки систематических обзоров». Международная конференция IEEE по биоинформатике и биомедицине (BIBM) 2015 г. IEEE. стр. 930–937. doi :10.1109/bibm.2015.7359808. ISBN978-1-4673-6799-8. S2CID 28079483.
^ Fleuren WW, Alkema W (март 2015 г.). «Применение интеллектуального анализа текста в биомедицинской области». Методы . 74 : 97–106. doi :10.1016/j.ymeth.2015.01.015. PMID 25641519.
^ Карп ПД (2016-01-01). «Можем ли мы заменить кураторство программным обеспечением для извлечения информации?». База данных . 2016 : baw150. doi :10.1093/database/baw150. PMC 5199131. PMID 28025341 .
^ Krallinger M, Valencia A, Hirschman L (2008). «Связывание генов с литературой: интеллектуальный анализ текста, извлечение информации и поисковые приложения для биологии». Genome Biology . 9 (Suppl 2): S8. doi : 10.1186/gb-2008-9-s2-s8 . PMC 2559992. PMID 18834499 .
^ Neves M, Leser U (март 2015). «Ответы на вопросы по биологии». Методы . 74 : 36–46. doi :10.1016/j.ymeth.2014.10.023. PMID 25448292.
^ Semantics Scholar. (2020) «Прорвитесь сквозь беспорядок: [Открытый доступ] Загрузите набор данных открытых исследований коронавируса». Веб-сайт Semantics Scholar Получено 30 марта 2020 г.
^ Бреннан, Патти. (24 марта 2020 г.). «Блог: Как библиотека реагирует на глобальный кризис в области здравоохранения?». Веб-сайт Национальной медицинской библиотеки. Получено 30 марта 2020 г.
^ Brainard J (13 мая 2020 г.). «Ученые тонут в статьях о COVID-19. Могут ли новые инструменты удержать их на плаву?». Наука | AAAS . Получено 17 мая 2020 г.
^ Bossy R, Deléger L, Chaix E, Ba M, Nédellec C (2019). Бактериальный биотоп на BioNLP open shared tasks 2019. Труды 5-го семинара по BioNLP open shared tasks. Ассоциация компьютерной лингвистики. стр. 121–131. doi : 10.18653/v1/D19-5719 .
^ Uzuner O, Luo Y, Szolovits P (2007-09-01). «Оценка современного состояния автоматической деидентификации». Журнал Американской ассоциации медицинской информатики . 14 (5): 550–63. doi :10.1197/jamia.m2444. PMC 1975792. PMID 17600094 .
^ Uzuner O, Goldstein I, Luo Y, Kohane I (01.01.2008). «Определение статуса курения пациента по записям о выписке из больницы». Журнал Американской ассоциации медицинской информатики . 15 (1): 14–24. doi :10.1197/jamia.m2408. PMC 2274873. PMID 17947624 .
^ Uzuner O (2009). «Распознавание ожирения и сопутствующих заболеваний в разреженных данных». Журнал Американской ассоциации медицинской информатики . 16 (4): 561–70. doi :10.1197/jamia.M3115. PMC 2705260. PMID 19390096 .
^ Uzuner O, Solti I, Xia F, Cadag E (2010). «Эксперимент по аннотированию сообщества для генерации наземных данных для проблемы с лекарствами i2b2». Журнал Американской ассоциации медицинской информатики . 17 (5): 519–23. doi :10.1136/jamia.2010.004200. PMC 2995684. PMID 20819855 .
^ Uzuner O, Solti I, Cadag E (2010). «Извлечение информации о лекарствах из клинического текста». Журнал Американской ассоциации медицинской информатики . 17 (5): 514–8. doi :10.1136/jamia.2010.003947. PMC 2995677. PMID 20819854 .
^ Uzuner O, Bodnari A, Shen S, Forbush T, Pestian J, South BR (2012). «Оценка состояния дел в области разрешения кореференции для электронных медицинских записей». Журнал Американской ассоциации медицинской информатики . 19 (5): 786–91. doi :10.1136/amiajnl-2011-000784. PMC 3422835. PMID 22366294 .
^ Стаббс А., Узунер О. (декабрь 2015 г.). «Аннотирование продольных клинических описаний для деидентификации: корпус i2b2/UTHealth 2014 г.». Журнал биомедицинской информатики . 58 (Suppl): S20–9. doi :10.1016/j.jbi.2015.07.020. PMC 4978170. PMID 26319540 .
^ Стаббс А., Узунер О. (декабрь 2015 г.). «Аннотирование факторов риска сердечных заболеваний в клинических описаниях для пациентов с диабетом». Журнал биомедицинской информатики . 58 (Suppl): S78–91. doi :10.1016/j.jbi.2015.05.009. PMC 4978180. PMID 26004790 .
^ Bunescu R, Ge R, Kate RJ, Marcotte EM, Mooney RJ, Ramani AK, Wong YW (февраль 2005 г.). «Сравнительные эксперименты по изучению экстракторов информации для белков и их взаимодействий». Искусственный интеллект в медицине . 33 (2): 139–55. CiteSeerX 10.1.1.10.2168 . doi :10.1016/j.artmed.2004.07.016. PMID 15811782.
^ Islamaj Dogan R, Kim S, Chatr-Aryamontri A, Chang CS, Oughtred R, Rust J, Wilbur WJ, Comeau DC, Dolinski K, Tyers M (2017-01-01). "Корпус BioC-BioGRID: полные тексты статей, аннотированные для курирования белок-белковых и генетических взаимодействий". База данных . 2017 : baw147. doi :10.1093/database/baw147. PMC 5225395. PMID 28077563 .
^ Хиршман Л., Йе А., Блашке К., Валенсия А. (2005). «Обзор BioCreAtIvE: критическая оценка извлечения информации для биологии». BMC Bioinformatics . 6 (Suppl 1): S1. doi : 10.1186/1471-2105-6-S1-S1 . PMC 1869002. PMID 15960821 .
^ Krallinger M, Morgan A, Smith L, Leitner F, Tanabe L, Wilbur J, Hirschman L, Valencia A (2008). «Оценка систем интеллектуального анализа текста для биологии: обзор второго вызова сообщества BioCreative». Genome Biology . 9 (Suppl 2): S1. doi : 10.1186/gb-2008-9-s2-s1 . PMC 2559980. PMID 18834487 .
^ Li J, Sun Y, Johnson RJ, Sciaky D, Wei CH, Leaman R, Davis AP, Mattingly CJ, Wiegers TC, Lu Z (2016). "Корпус задач BioCreative V CDR: ресурс для извлечения связей с химическими заболеваниями". База данных . 2016 : baw068. doi :10.1093/database/baw068. PMC 4860626. PMID 27161011 .
^ Пюисало С., Гинтер Ф., Хеймонен Дж., Бьёрне Дж., Боберг Дж., Ярвинен Дж., Салакоски Т. (февраль 2007 г.). «БиоИнфер: корпус для извлечения информации в биомедицинской области». БМК Биоинформатика . 8 (1): 50. дои : 10.1186/1471-2105-8-50 . ПМК 1808065 . ПМИД 17291334.
^ Vincze V, Szarvas G, Farkas R, Móra G, Csirik J (ноябрь 2008 г.). «Корпус BioScope: биомедицинские тексты, аннотированные на неопределенность, отрицание и их области действия». BMC Bioinformatics . 9 (Suppl 11): S9. doi : 10.1186/1471-2105-9-s11-s9 . PMC 2586758 . PMID 19025695.
^ Шварц AS, Херст MA (2003). «Простой алгоритм для идентификации определений сокращений в биомедицинском тексте». Тихоокеанский симпозиум по биовычислениям. Тихоокеанский симпозиум по биовычислениям : 451–62. PMID 12603049.
^ Росарио Б., Херст МА (2005-10-06). "Многоканальная классификация отношений". Многоканальная классификация отношений: применение к белок-белковым взаимодействиям . Hlt '05. Ассоциация компьютерной лингвистики. стр. 732–739. doi :10.3115/1220575.1220667. S2CID 902226.
^ Davis AP, Grondin CJ, Johnson RJ, Sciaky D, McMorran R, Wiegers J, et al. (Январь 2019). «База данных сравнительной токсикогеномики: обновление 2019». Nucleic Acids Research . 47 (D1): D948–D954. doi :10.1093/nar/gky868. PMC 6323936. PMID 30247620 .
^ Verspoor K, Cohen KB, Lanfranchi A, Warner C, Johnson HL, Roeder C, Choi JD, Funk C, Malenkiy Y, Eckert M, Xue N, Baumgartner WA, Bada M, Palmer M, Hunter LE (август 2012 г.). «Корпус полнотекстовых журнальных статей — надежный инструмент оценки для выявления различий в производительности биомедицинских инструментов обработки естественного языка». BMC Bioinformatics . 13 (1): 207. doi : 10.1186/1471-2105-13-207 . PMC 3483229 . PMID 22901054.
^ Kim JD, Ohta T, Tateisi Y, Tsujii J (2003-07-03). "Корпус GENIA — семантически аннотированный корпус для биотекстового анализа". Биоинформатика . 19 (Приложение 1): i180–i182. doi : 10.1093/bioinformatics/btg1023 . PMID 12855455.
^ Bachman JA, Gyori BM, Sorger PK (июнь 2018 г.). «FamPlex: ресурс для распознавания сущностей и разрешения взаимосвязей семейств и комплексов человеческих белков в биомедицинском текстовом интеллектуальном анализе». BMC Bioinformatics . 19 (1): 248. doi : 10.1186/s12859-018-2211-5 . PMC 6022344. PMID 29954318 .
^ Vlachos A, Gasperin C (2006). «Bootstrapping and evaluating named entity recognize in the biomedical domain». BioNLP '06 Proceedings of the Workshop on Linking Natural Language Processing and Biology: Towards Deeper Biological Literature Analysis . BioNLP '06: 138–145. doi : 10.3115/1567619.1567652 .
^ Гасперин С., Караманис Н., Сил Р. (2007). «Аннотация анафорических отношений в биомедицинских полнотекстовых статьях с использованием схемы, релевантной предметной области». Труды DAARC 2007 : 19–24.
^ Medlock B, Briscoe T (2007). «Слабо контролируемое обучение для хедж-классификации в научной литературе» (PDF) . Труды 45-го ежегодного собрания Ассоциации компьютерной лингвистики : 992–999.
^ Ding J, Berleant D, Nettleton D, Wurtele E (2001). "Mining MEDLINE: Abstracts, sentences, or phrases?" . В Altman RB, Dunker AK, Hunter L, Lauderdale K, Klein TE (ред.). Pacific Symposium on Biocomputing 2002 . World Scientific. стр. 326–337. CiteSeerX 10.1.1.385.6071 . doi :10.1142/9789812799623_0031. ISBN9789810247775. PMID 11928487. {{cite book}}: |journal=проигнорировано ( помощь )
^ Kim J, Ohta T, Tsuruoka Y, Tateisi Y, Collier N (2004). "Введение в задачу распознавания биосущностей в JNLPBA". Труды Международного совместного семинара по обработке естественного языка в биомедицине и ее приложениям - JNLPBA '04 : 70. doi : 10.3115/1567594.1567610 .
^ Bodenreider O (январь 2004 г.). «The Unified Medical Language System (UMLS): integrating biomedical terminology» (Унифицированная система медицинского языка (UMLS): интеграция биомедицинской терминологии). Nucleic Acids Research . 32 (выпуск базы данных): D267–70. doi :10.1093/nar/gkh061. PMC 308795. PMID 14681409 .
^ Джонсон AE, Поллард TJ, Шен L, Леман LW, Фенг M, Гассеми M, Муди B, Соловиц P, Чели LA, Марк RG (май 2016 г.). "MIMIC-III, свободно доступная база данных интенсивной терапии". Scientific Data . 3 : 160035. Bibcode : 2016NatSD ...360035J. doi : 10.1038/sdata.2016.35. PMC 4878278. PMID 27219127.
^ Савова ГК, Чапман WW, Чжэн Дж, Кроули RS (2011). «Анафорические отношения в клиническом повествовании: создание корпуса». Журнал Американской ассоциации медицинской информатики . 18 (4): 459–65. doi :10.1136/amiajnl-2011-000108. PMC 3128403. PMID 21459927 .
^ Hersh W, Buckley C, Leone TJ, Hickam D (1994). "OHSUMED: интерактивная оценка поиска и новая большая тестовая коллекция для исследований". Sigir '94 . Springer London. стр. 192–201. doi :10.1007/978-1-4471-2099-5_20. ISBN9783540198895. S2CID 15094383.
^ Nelson SJ, Zeng K, Kilbourne J, Powell T, Moore R (2011). «Нормализованные названия клинических препаратов: RxNorm в 6 лет». Журнал Американской ассоциации медицинской информатики . 18 (4): 441–8. doi :10.1136/amiajnl-2011-000116. PMC 3128404. PMID 21515544 .
^ McCray AT (2003). «Онтология верхнего уровня для биомедицинской области». Сравнительная и функциональная геномика . 4 (1): 80–4. doi :10.1002/cfg.255. PMC 2447396. PMID 18629109 .
^ "Семантическая сеть UMLS". semanticnetwork.nlm.nih.gov . Получено 2018-10-07 .
^ МакКрей AT, Шринивасан S, Браун AC (1994). «Лексические методы управления вариациями в биомедицинской терминологии». Труды. Симпозиум по компьютерным приложениям в медицинской помощи : 235–9. PMC 2247735. PMID 7949926 .
^ Jimeno-Yepes AJ, McInnes BT, Aronson AR (июнь 2011 г.). «Использование индексации MeSH в MEDLINE для генерации набора данных для устранения неоднозначности смысла слов». BMC Bioinformatics . 12 (1): 223. doi : 10.1186/1471-2105-12-223 . PMC 3123611 . PMID 21635749.
^ "Коллекции тестов по устранению неоднозначности слов (WSD)". wsd.nlm.nih.gov . Получено 07.10.2018 .
^ Franzén K, Eriksson G, Olsson F, Asker L, Lidén P, Cöster J (декабрь 2002 г.). «Названия белков и как их найти». International Journal of Medical Informatics . 67 (1–3): 49–61. CiteSeerX 10.1.1.14.2183 . doi :10.1016/s1386-5056(02)00052-7. PMID 12460631.
^ Миколов Т., Чен К., Коррадо Г., Дин Дж. (16.01.2013). «Эффективная оценка представлений слов в векторном пространстве». arXiv : 1301.3781 [cs.CL].
^ "BioASQ выпускает векторы слов с непрерывным пространством, полученные путем применения Word2Vec к рефератам PubMed | bioasq.org". bioasq.org . Получено 07.11.2018 .
^ Асгари Э., Мофрад М. Р. (2015-11-10). «Непрерывное распределенное представление биологических последовательностей для глубокой протеомики и геномики». PLOS ONE . 10 (11): e0141287. arXiv : 1503.05140 . Bibcode : 2015PLoSO..1041287A. doi : 10.1371/journal.pone.0141287 . PMC 4640716. PMID 26555596 .
^ Баннерджи I, Мадхаван S, Голдман RE, Рубин DL (2017). «Интеллектуальные вложения слов в отчеты по радиологии с открытым текстом». AMIA ... Ежегодные труды симпозиума. Симпозиум AMIA . 2017 : 411–420. arXiv : 1711.06968 . Bibcode : 2017arXiv171106968B. PMC 5977573. PMID 29854105 .
^ ab Badal VD, Kundrotas PJ, Vakser IA (декабрь 2015 г.). "Text Mining for Protein Docking". PLOS Computational Biology . 11 (12): e1004630. Bibcode : 2015PLSCB..11E4630B. doi : 10.1371/journal.pcbi.1004630 . PMC 4674139. PMID 26650466 .
^ Папаниколау Н., Павлопулос Г.А., Теодосиу Т., Илиопулос I (март 2015 г.). «Прогнозирование белок-белкового взаимодействия с использованием методов анализа текста». Методы . 74 : 47–53. дои : 10.1016/j.ymeth.2014.10.026. ПМИД 25448298.
^ Szklarczyk D, Morris JH, Cook H, Kuhn M, Wyder S, Simonovic M, Santos A, Doncheva NT, Roth A, Bork P, Jensen LJ, von Mering C (январь 2017 г.). «База данных STRING в 2017 г.: сети белок-белковых ассоциаций с контролируемым качеством, сделанные широкодоступными». Nucleic Acids Research . 45 (D1): D362–D368. doi :10.1093/nar/gkw937. PMC 5210637 . PMID 27924014.
^ ab Liem DA, Murali S, Sigdel D, Shi Y, Wang X, Shen J, Choi H, Caufield JH, Wang W, Ping P, Han J (октябрь 2018 г.). «Извлечение фраз из текстовых данных для анализа паттернов белков внеклеточного матрикса при сердечно-сосудистых заболеваниях». American Journal of Physiology. Heart and Circulatory Physiology . 315 (4): H910–H924. doi :10.1152/ajpheart.00175.2018. PMC 6230912 . PMID 29775406.
^ Yu S, Tranchevent LC, De Moor B, Moreau Y (январь 2010 г.). «Приоритизация генов и кластеризация с помощью многовидового анализа текста». BMC Bioinformatics . 11 (1): 28. doi : 10.1186/1471-2105-11-28 . PMC 3098068. PMID 20074336 .
^ Ху, Чжан-Чжи; Мани, Индерджит; Эрмосо, Винсент; Лю, Хунфан; У, Кэти Х. (декабрь 2004 г.). «iProLINK: интегрированный ресурс белков для добычи литературы». Computational Biology and Chemistry . 28 (5–6): 409–416. doi :10.1016/j.compbiolchem.2004.09.010. PMID 15556482.
^ Kankar P, Adak S, Sarkar A, Murari K, Sharma G (11 апреля 2002 г.). MedMeSH summaryer: text mining for gene clusters . В материалах Международной конференции SIAM 2002 года по интеллектуальному анализу данных. Общество промышленной и прикладной математики. стр. 548–565. CiteSeerX 10.1.1.215.6230 . doi :10.1137/1.9781611972726.32. ISBN978-0-89871-517-0.
^ Pyysalo S, Airola A, Heimonen J, Björne J, Ginter F, Salakoski T (апрель 2008 г.). "Сравнительный анализ пяти корпусов белок-белковых взаимодействий". BMC Bioinformatics . 9 (Suppl 3): S6. doi : 10.1186/1471-2105-9-s3-s6 . PMC 2349296 . PMID 18426551.
^ Ким С., Квон Д., Шин С.Й., Уилбур В.Дж. (февраль 2012 г.). «PIE the search: search PubMed literature for protein interaction information». Биоинформатика . 28 (4): 597–8. doi :10.1093/bioinformatics/btr702. PMC 3278758. PMID 22199390 .
^ Gill N, Singh S, Aseri TC (июнь 2014 г.). «Вычислительная приоритизация генов болезней: оценка». Журнал вычислительной биологии . 21 (6): 456–465. doi :10.1089/cmb.2013.0158. PMID 24665902.
^ Yu S, Van Vooren S, Tranchevent LC, De Moor B, Moreau Y (август 2008 г.). «Сравнение словарей, представлений и алгоритмов ранжирования для приоритизации генов с помощью текстового анализа». Биоинформатика . 24 (16): i119–25. doi : 10.1093/bioinformatics/btn291 . PMID 18689812.
^ Hulsegge I, Woelders H, Smits M, Schokker D, Jiang L, Sørensen P (май 2013 г.). «Приоритизация генов-кандидатов для репродуктивных признаков крупного рогатого скота на основе белок-белковых взаимодействий, экспрессии генов и текстового анализа». Physiological Genomics . 45 (10): 400–6. doi :10.1152/physiolgenomics.00172.2012. PMID 23572538.
^ Тао Ф., Чжуан Х., Юй Ч. В., Ван К., Кэссиди Т., Каплан Л. Р., Восс К. Р., Хан Дж. (2016). «Многомерное реферирование на основе фраз в текстовых кубах» (PDF) . IEEE Data Eng. Bull . 39 (3): 74–84.
^ Thomas P, Starlinger J, Vowinkel A, Arzt S, Leser U (июль 2012 г.). «GeneView: комплексная семантическая поисковая система для PubMed». Nucleic Acids Research . 40 (выпуск веб-сервера): W585–91. doi :10.1093/nar/gks563. PMC 3394277. PMID 22693219 .
^ Brown P, Zhou Y (сентябрь 2017 г.). «Биомедицинская литература: требуются тестировщики для инструмента поиска статей». Nature . 549 (7670): 31. Bibcode :2017Natur.549...31B. doi : 10.1038/549031c . PMID 28880292.
^ Ohno-Machado L, Sansone SA, Alter G, Fore I, Grethe J, Xu H, Gonzalez-Beltran A, Rocca-Serra P, Gururaj AE, Bell E, Soysal E, Zong N, Kim HE (май 2017 г.). «Поиск полезных данных в нескольких хранилищах биомедицинских данных с использованием DataMed». Nature Genetics . 49 (6): 816–819. doi :10.1038/ng.3864. PMC 6460922 . PMID 28546571.
^ Перес-Риверол Y, Бай M, да Вейга Лепревост F, Сквиззато S, Парк YM, Хауг K и др. (май 2017 г.). «Обнаружение и связывание общедоступных наборов данных омики с использованием индекса открытий омики». Nature Biotechnology . 35 (5): 406–409. doi :10.1038/nbt.3790. PMC 5831141 . PMID 28486464.
^ Ide NC, Loane RF, Demner-Fushman D (2007-05-01). "Essie: поисковая система на основе концепций для структурированного биомедицинского текста". Журнал Американской ассоциации медицинской информатики . 14 (3): 253–63. doi :10.1197/jamia.m2233. PMC 2244877. PMID 17329729 .
^ Lee HJ, Dang TC, Lee H, Park JC (июль 2014 г.). «OncoSearch: поисковая система генов рака с литературными доказательствами». Nucleic Acids Research . 42 (выпуск веб-сервера): W416–21. doi :10.1093/nar/gku368. PMC 4086113. PMID 24813447 .
^ Jenssen TK, Laegreid A, Komorowski J, Hovig E (май 2001 г.). «Литературная сеть генов человека для высокопроизводительного анализа экспрессии генов». Nature Genetics . 28 (1): 21–8. doi :10.1038/ng0501-21. PMID 11326270. S2CID 8889284.
^ Masys DR (май 2001 г.). «Связывание данных микрочипов с литературой». Nature Genetics . 28 (1): 9–10. doi :10.1038/ng0501-9. PMID 11326264. S2CID 52848745.
^ Домс А., Шредер М. (июль 2005 г.). «GoPubMed: изучение PubMed с помощью онтологии генов». Nucleic Acids Research . 33 (выпуск веб-сервера): W783–6. doi : 10.1093/nar/gki470. PMC 1160231. PMID 15980585.
^ Turchin A, Florez Builes LF (май 2021 г.). «Использование обработки естественного языка для измерения и улучшения качества лечения диабета: систематический обзор». Журнал «Наука и технологии диабета» . 15 (3): 553–560. doi : 10.1177/19322968211000831. PMC 8120048. PMID 33736486 .
^ Wang Y, Wang L, Rastegar-Mojarad M, Moon S, Shen F, Afzal N и др. (январь 2018 г.). «Приложения для извлечения клинической информации: обзор литературы». Журнал биомедицинской информатики . 77 : 34–49. doi : 10.1016/j.jbi.2017.11.011. PMC 5771858. PMID 29162496 .
^ Фридман С (1997). «На пути к комплексной системе обработки медицинского языка: методы и проблемы». Труды : 595–599. PMC 2233560. PMID 9357695 .
^ Savova GK, Masanz JJ, Ogren PV, Zheng J, Sohn S, Kipper-Schuler KC, Chute CG (2010). "Mayo clinical Text Analysis and Knowledge Extraction System (cTAKES): architecture, component evaluation and applications". Журнал Американской ассоциации медицинской информатики . 17 (5): 507–513. doi :10.1136/jamia.2009.001560. PMC 2995668. PMID 20819853 .
^ Soysal E, Wang J, Jiang M, Wu Y, Pakhomov S, Liu H, Xu H (март 2018 г.). «CLAMP — набор инструментов для эффективного построения настраиваемых клинических конвейеров обработки естественного языка». Журнал Американской ассоциации медицинской информатики . 25 (3): 331–336. doi : 10.1093/jamia/ocx132 . PMC 7378877. PMID 29186491 .
^ Fries J, Wu S, Ratner A, Ré C (2017-04-20). «SwellShark: генеративная модель для распознавания биомедицинских именованных сущностей без маркированных данных». arXiv : 1704.06360 [cs.CL].
^ Ye Z, Tafti AP, He KY, Wang K, He MM (2016-09-29). "SparkText: Биомедицинский анализ текста на основе больших данных". PLOS ONE . 11 (9): e0162721. Bibcode : 2016PLoSO..1162721Y. doi : 10.1371/journal.pone.0162721 . PMC 5042555. PMID 27685652 .
^ Tseytlin E, Mitchell K, Legowski E, Corrigan J, Chavan G, Jacobson RS (январь 2016 г.). "NOBLE - Гибкое распознавание концепций для крупномасштабной биомедицинской обработки естественного языка". BMC Bioinformatics . 17 (1): 32. doi : 10.1186/s12859-015-0871-y . PMC 4712516. PMID 26763894 .
Krallinger M, Valencia A (2005). "Службы поиска текстов и информации для молекулярной биологии". Genome Biology . 6 (7): 224. doi : 10.1186/gb-2005-6-7-224 . PMC 1175978 . PMID 15998455.
Hoffmann R, Krallinger M, Andres E, Tamames J, Blaschke C, Valencia A (май 2005 г.). "Изучение текста для метаболических путей, сигнальных каскадов и белковых сетей". Science's STKE . 2005 (283): pe21. doi :10.1126/stke.2832005pe21. PMID 15886388. S2CID 15301069.
Krallinger M, Erhardt RA, Valencia A (март 2005 г.). «Подходы к интеллектуальному анализу текста в молекулярной биологии и биомедицине». Drug Discovery Today . 10 (6): 439–45. doi :10.1016/S1359-6446(05)03376-3. PMID 15808823.
Публикации по анализу биомедицинской литературы (BLIMP) Архивировано 29 августа 2004 г. на Wayback Machine : полный и регулярно обновляемый индекс публикаций по анализу (био)медицинского текста
Внешние ссылки
Сбор баз данных ресурсов, систем и приложений Bio-NLP
Архивы почтовой рассылки BioNLP
Корпуса для биомедицинского анализа текста
Оценки BioCreative технологий биомедицинского анализа текста