Единая система медицинского языка

Унифицированная система медицинского языка ( UMLS ) представляет собой сборник многих контролируемых словарей в области биомедицинских наук (создан в 1986 году). ^[1] Она обеспечивает структуру сопоставления между этими словарями и, таким образом, позволяет осуществлять перевод между различными терминологическими системами; ее также можно рассматривать как всеобъемлющий тезаурус и онтологию биомедицинских концепций. UMLS также предоставляет возможности для обработки естественного языка . Она предназначена в основном для использования разработчиками систем в области медицинской информатики .

UMLS состоит из источников знаний (баз данных) и набора программных инструментов.

UMLS был разработан и поддерживается Национальной медицинской библиотекой США , обновляется ежеквартально и может использоваться бесплатно. Проект был инициирован в 1986 году Дональдом А. Б. Линдбергом , доктором медицины , тогдашним директором Медицинской библиотеки, и руководил им Бетси Хамфрис . ^[2]

Назначение и применение

Количество биомедицинских ресурсов, доступных исследователям, огромно. Часто это становится проблемой из-за большого объема документов, извлекаемых при поиске медицинской литературы. Цель UMLS — улучшить доступ к этой литературе, способствуя разработке компьютерных систем, которые понимают биомедицинский язык. Это достигается путем преодоления двух существенных барьеров: «разнообразие способов выражения одних и тех же концепций в различных машиночитаемых источниках и разными людьми» и «распределение полезной информации среди множества разрозненных баз данных и систем». ^{[ необходима цитата ]}

Лицензирование

Пользователи системы обязаны подписать «соглашение UMLS» и подавать краткие ежегодные отчеты об использовании. Академические пользователи могут использовать UMLS бесплатно в исследовательских целях. Коммерческое или производственное использование требует лицензий на авторские права для некоторых включенных исходных словарей.

Источники знаний

Метатезаурус

Метатезаурус формирует основу UMLS и включает в себя более 1 миллиона биомедицинских концепций и 5 миллионов названий концепций, все из которых происходят из более чем 100 включенных контролируемых словарей и систем классификации. Некоторые примеры включенных контролируемых словарей: CPT , ICD-10 , MeSH , SNOMED CT , DSM-IV , LOINC , WHO Adverse Drug Reaction Terminology, UK Clinical Terms, RxNorm , Gene Ontology и OMIM (см. полный список).

Metathesaurus организован по концепциям, и каждая концепция имеет определенные атрибуты, определяющие ее значение, и связана с соответствующими названиями концепций в различных исходных словарях. Представлены многочисленные связи между концепциями, например, иерархические, такие как « isa » для подклассов и «является частью» для субъединиц, и ассоциативные, такие как «вызвано» или «в литературе часто встречается рядом с» (последнее взято из Medline ).

Область действия Метатезауруса определяется областью действия исходных словарей. Если разные словари используют разные названия для одного и того же понятия или одно и то же название для разных понятий, то это будет точно представлено в Метатезаурусе. Вся иерархическая информация из исходных словарей сохраняется в Метатезаурусе. Концепции Метатезауруса также могут ссылаться на ресурсы за пределами базы данных, например, на базы данных последовательностей генов.

Семантическая сеть

Каждому понятию в Метатезаурусе присвоен один или несколько семантических типов (категорий), которые связаны друг с другом семантическими отношениями . ^[3] Семантическая сеть представляет собой каталог этих семантических типов и отношений. Это довольно широкая классификация; всего существует 127 семантических типов и 54 отношения.

Основными семантическими типами являются организмы, анатомические структуры, биологическая функция, химические вещества, события, физические объекты и концепции или идеи. Связи между семантическими типами определяют структуру сети и показывают важные отношения между группировками и концепциями. Первичной связью между семантическими типами является связь « isa », устанавливающая иерархию типов. Сеть также имеет 5 основных категорий неиерархических (или ассоциативных) отношений, которые составляют оставшиеся 53 типа отношений. Это «физически связанные с», «пространственно связанные с», «временно связанные с», «функционально связанные с» и «концептуально связанные с». ^[3]

Информация о семантическом типе включает идентификатор, определение, примеры, иерархическую информацию об охватывающем семантическом типе(ах) и ассоциативные связи. Ассоциативные связи в семантической сети очень слабы. Они охватывают в лучшем случае отношения some-some, т. е. они охватывают тот факт, что некоторый экземпляр первого типа может быть связан заметным отношением с некоторым экземпляром второго типа. Выражаясь по-другому, они охватывают тот факт, что соответствующее реляционное утверждение имеет смысл (хотя оно не обязательно должно быть истинным во всех случаях).

Примером ассоциативной связи является « может быть причиной », примененная к терминам (курение, рак легких), которая даст: курение « может быть причиной » рака легких.

СПЕЦИАЛИСТ Лексикон

Лексикон SPECIALIST содержит информацию об общеупотребительной английской лексике, биомедицинских терминах, терминах, найденных в MEDLINE , и терминах, найденных в метатезаурусе UMLS. Каждая запись содержит синтаксическую (как слова объединяются для создания смысла), морфологическую (форма и структура) и орфографическую (написание) информацию. Набор программ Java использует лексикон для работы с вариациями в биомедицинских текстах, связывая слова по их частям речи, что может быть полезно при поиске в Интернете или поиске в электронной медицинской карте .

Записи могут быть однословными или многословными терминами. Записи содержат четыре части: базовую форму (например, "run" для "running"); части речи (из которых Specialist распознает одиннадцать); уникальный идентификатор; и любые доступные варианты написания. Например, запрос на "anesthetic" вернет следующее: ^[4]

{ база=анестетик вариант_орфографии=анестетик запись=E0008769 кот=существительное варианты=рег}{ база=анестетик вариант_орфографии=анестетик запись=E0008770 кот=прил варианты=инв позиция=атриб(3)}

Лексикон SPECIALIST доступен в двух форматах. Формат "запись единицы" можно увидеть выше, он включает слоты и заполнители . Слот - это элемент (т. е. "база=" или "вариант написания="), а заполнители - это значения, приписываемые этому слоту для этой записи. Формат " реляционная таблица " еще не нормализован и содержит много избыточных данных в файлах.

Несоответствия и другие ошибки

Учитывая размер и сложность UMLS и его разрешительную политику в отношении интегрируемых терминов, ошибки неизбежны. ^[5] Ошибки включают двусмысленность и избыточность, иерархические циклы отношений (понятие является как предком, так и потомком другого), пропущенных предков (семантические типы родительских и дочерних понятий не связаны) и семантическую инверсию (отношение потомок/родитель с семантическими типами не согласуется с понятиями). ^[6]

Эти ошибки обнаруживаются и устраняются путем аудита UMLS. Ручной аудит может быть очень трудоемким и дорогостоящим. Исследователи пытались решить эту проблему несколькими способами. Для поиска этих ошибок можно использовать автоматизированные инструменты. Для структурных несоответствий (таких как циклы) подойдет тривиальное решение, основанное на порядке. Однако то же самое не будет применяться, когда несоответствие находится на уровне термина или концепции (контекстно-зависимое значение термина). ^[7] Для этого требуется использовать обоснованную стратегию поиска ( представление знаний ).

Вспомогательные программные средства

Помимо источников знаний Национальная медицинская библиотека также предоставляет вспомогательные инструменты.

MetamorphoSys — настраивает Метатезаурус для конкретных приложений, например, исключая определенные исходные словари.
lvg — программа, которая использует лексикон SPECIALIST для генерации лексических вариантов заданного термина и поддержки синтаксического анализа текста на естественном языке.
MetaMap — онлайн-инструмент, который по произвольному фрагменту текста находит и возвращает соответствующие концепции Метатезауруса.
MetaMap Transfer (MMTx) — реализация MetaMap на Java (больше не поддерживается).
Knowledge Source Server — веб-доступ к словарям (упразднен осенью 2010 г.)^{[8] .}

Программное обеспечение сторонних производителей

UMLS-Simiality — программный пакет с открытым исходным кодом, реализующий множество мер семантического сходства и родства.
Веб-интерфейс UMLS-Similarity, веб-интерфейс к UMLS-Similarity

Смотрите также

Ссылки

^ Единая система медицинского языка, 1996 г.
^ Эллисон Д., Хамфрис Б. Л., Митчелл Дж. (июль 2010 г.). «Вручение премии Морриса Ф. Коллена 2009 г. Бетси Л. Хамфрис с замечаниями получателя». Журнал Американской ассоциации медицинской информатики . 17 (4): 481–5. doi :10.1136/jamia.2010.005728. PMC 2995660. PMID 20595319.
^ ab Национальная медицинская библиотека (2009). "Глава 5 - Семантические сети". Справочное руководство UMLS . Бетесда, Мэриленд: Национальная медицинская библиотека США, Национальные институты здравоохранения.
^ Browne AC, McCray AT, Srinivasan S (июнь 2000 г.). The Specialist Lexicon (PDF) . Бетесда, Мэриленд: Национальный центр биомедицинских коммуникаций Lister Hill, Национальная медицинская библиотека. стр. 1.
^ Morrey CP, Geller J, Halper M, Perl Y (июнь 2009 г.). «Инструмент аудита соседства: гибридный интерфейс для аудита UMLS». Журнал биомедицинской информатики . 42 (3): 468–89. doi :10.1016/j.jbi.2009.01.006. PMC 2891659. PMID 19475725 .
^ Geller J, Morrey CP, Xu J, Halper M, Elhanan G, Perl Y, Hripcsak G (ноябрь 2009 г.). «Сравнение несогласованных конфигураций отношений, указывающих на ошибки UMLS». AMIA ... Ежегодные труды симпозиума. Симпозиум AMIA . 2009 : 193–7. PMC 2815406. PMID 20351848 .
^ Zhu X, Fan JW, Baorto DM, Weng C, Cimino JJ (июнь 2009 г.). «Обзор методов аудита, применяемых к содержанию контролируемых биомедицинских терминологий». Журнал биомедицинской информатики . 42 (3): 413–25. doi :10.1016/j.jbi.2009.03.003. PMC 3505841. PMID 19285571 .
^ "Новости Unified Medical Language System® (UMLS®): Пересмотренное лицензионное соглашение, новые терминологические службы и браузер UMLS, прекращенная поддержка UMLSKS и изменения API". Технический бюллетень NLM (375): e9. Июль–август 2010 г.

Дальнейшее чтение

Bodenreider O (январь 2004 г.). «The Unified Medical Language System (UMLS): integrating biomedical terminology». Nucleic Acids Research . 32 (Database Issue): D267-70. doi :10.1093/nar/gkh061. PMC 308795. PMID 14681409 .
Кумар А., Смит Б. (2003). «Система единого медицинского языка и онтология гена: некоторые критические размышления» (PDF) . Достижения в области искусственного интеллекта (Конспект лекций по искусственному интеллекту 2821. Берлин: Springer. стр. 135–148.
Смит Б., Кумар А., Шульце-Кремер С. (2004). "Пересмотр семантической сети UMLS" (PDF) . В Фиески М. и др. (ред.). Medinfo . Амстердам: IOS Press. стр. 1700.
Coiera E (2003). "Глава 17 - Терминология и системы классификации здравоохранения". Руководство по информатике здравоохранения (2-е изд.). Моддер, Арнольд. ISBN 978-0-340-76425-1.
Mougin F, Bodenreider O (2005). «Подходы к устранению циклов в метатезаурусе UMLS: наивные против формальных». Труды ежегодного симпозиума AMIA . 2005 : 550–4. PMC 1560864. PMID 16779100 .

Внешние ссылки

Официальный сайт
Краткое описание UMLS со ссылками на информационные листы и документацию по Metathesaurus, Semantic Network, SPECIALIST Lexicon и MetamorphoSys
Обзор и руководство по UMLS, Рэйчел Кляйнзорге, Ян Уиллис, Аллен Браун, Алан Аронсон
Модуль Perl для запроса установки UMLS MySQL
Единая система медицинского языка в Национальной медицинской библиотеке США. Медицинские предметные рубрики (MeSH)
UMLS.me — извлекает медицинские концепции и коды UMLS из свободного текста в браузере, автор — доктор медицины Александр Скарлат.