Apache cTAKES

Apache cTAKES: система клинического анализа текста и извлечения знаний — это система обработки естественного языка (NLP) с открытым исходным кодом , которая извлекает клиническую информацию из неструктурированного текста электронных медицинских карт . Она обрабатывает клинические заметки, определяя типы клинических именованных сущностей — лекарства, заболевания/расстройства, признаки/симптомы, анатомические участки и процедуры. Каждая именованная сущность имеет атрибуты для текстового диапазона, кода сопоставления онтологии, контекста (семейный анамнез, текущий, не связанный с пациентом) и отрицается/не отрицается. ^[1]

cTAKES был создан с использованием фреймворка UIMA Unstructured Information Management Architecture и набора инструментов обработки естественного языка OpenNLP . ^[2]^[3]

Компоненты

Компоненты cTAKES специально обучены для клинической области и создают богатые лингвистические и семантические аннотации, которые могут использоваться в системах поддержки клинических решений и клинических исследованиях. ^[4]

Эти компоненты включают в себя:

Идентификатор именованного раздела
Детектор границ предложений
Токенизатор на основе правил
Форматированный идентификатор списка
Нормализатор
Контекстно-зависимый токенизатор
Тег части речи
Фразовый чанкер
Аннотатор поиска в словаре
Контекстный аннотатор
Детектор отрицания
Детектор неопределенности
Детектор предметов
Анализатор зависимостей
идентификатор статуса курения пациента
Аннотатор упоминаний наркотиков

История

Разработка cTAKES началась в клинике Mayo в 2006 году. Команда разработчиков под руководством доктора Герганы Савовой и доктора Кристофера Чута включала врачей, компьютерных ученых и инженеров-программистов. После развертывания cTAKES стал неотъемлемой частью инфраструктуры управления клиническими данными Mayo, обработав более 80 миллионов клинических заметок. ^[5]

Когда в начале 2010 года доктор Савова переехала в Бостонскую детскую больницу , основная команда разработчиков расширилась и включила членов оттуда. Дальнейшее внешнее сотрудничество включает: ^[5]

Такое сотрудничество расширило возможности cTAKES в других областях, таких как временное обоснование, ответы на клинические вопросы и разрешение кореферентности для клинической области. ^[5]

В 2010 году cTAKES был принят программой i2b2 и стал центральным компонентом SHARP Area 4. ^[5]

В 2013 году cTAKES выпустили свой первый релиз в качестве инкубаторского проекта Apache Software Foundation : cTAKES 3.0. ^{[ необходима ссылка ]}

В марте 2013 года cTAKES стал проектом верхнего уровня Apache Software Foundation (TLP). ^[5]

Смотрите также

Ссылки

^ Денеке, Керстин (2015-08-31). "Инструменты и ресурсы для извлечения информации". Health Web Science: данные социальных сетей для здравоохранения . Springer. стр. 67. ISBN 978-3-319-20582-3– через Google Книги.
^ Халифа, Абдулрахман; Мейстр, Стефан (2015-12-01). «Адаптация существующих ресурсов обработки естественного языка для идентификации факторов риска сердечно-сосудистых заболеваний в клинических заметках». Журнал биомедицинской информатики . Труды 2014 i2b2/UTHealth Shared-Tasks и семинара по проблемам обработки естественного языка для клинических данных. 58 (Приложение): S128–S132. doi :10.1016/j.jbi.2015.08.002. PMC 4983192. PMID 26318122 .
^ Худайри, Салли (25.04.2017). «Apache Software Foundation объявляет о выпуске Apache® cTAKES™ v4.0» (пресс-релиз). Форест-Хилл, Мэриленд: Apache Software Foundation. Globe Newswire . Получено 20.09.2017 .
^ Савова, Гергана К.; Масанц, Джеймс Дж.; Огрен, Филип В.; Чжэн, Цзяпин; Сон, Сонгхван; Киппер-Шулер, Карин К.; Шюте, Кристофер Г. (2010). «Система анализа и извлечения клинических текстов Mayo (cTAKES): архитектура, оценка компонентов и приложения». Журнал Американской ассоциации медицинской информатики . 17 (5): 507–513. doi :10.1136/jamia.2009.001560. ISSN 1067-5027. PMC 2995668. PMID 20819853 .
^ abcde "История". Apache cTAKES™ - система извлечения клинических текстовых знаний . 2015-06-22 . Получено 2018-01-11 .

Внешние ссылки

Официальный сайт cTAKES
Страница с информацией о проекте Apache cTAKES от ASF
Аннотация (ДЖАМИЯ)
Консорциум Open Health Natural Language Processing (OHNLP)
Программа стратегических перспективных исследовательских проектов в области ИТ в здравоохранении (SHARP)
Область SHARP 4 — Вторичное использование данных EHR
Автоматизированная консоль поиска (ARC)
Health Information Text Extraction (HITEx)) был разработан в рамках проекта i2b2. Это конвейер обработки естественного языка на основе правил, основанный на фреймворке GATE, разработанном Informatics for Integrating Biology and the Bedside.
Computational Language and Education Research toolkit (cleartk) ( больше не поддерживается ) был разработан в Университете Колорадо в Боулдере и предоставляет фреймворк для разработки статистических компонентов обработки естественного языка на Java. Он построен на основе Apache UIMA .
NegEx - это инструмент, разработанный в Университете Питтсбурга для обнаружения отрицаемых терминов в клиническом тексте. Система использует триггерные термины как метод определения вероятных сценариев отрицания в предложении.
ConText): расширение NegEx, также разработанное Питтсбургским университетом. ConText расширяет NegEx не только для обнаружения отрицаемых концепций, но и для поиска временных (недавних, исторических или гипотетических сценариев) и того, кто является Субъектом (опыта) (пациент или другой).
MetaMap (от Национальной медицинской библиотеки США ): это комплексная система тегирования концепций, которая построена на основе Единой медицинской языковой системы . Для использования требуется активное лицензионное соглашение UMLS Metathesaurus (и учетная запись).
MedEx — инструмент для извлечения информации о лекарствах из клинического текста. MedEx обрабатывает клинические записи в свободном тексте для распознавания названий лекарств и информации о подписи, такой как доза, частота, путь и продолжительность приема. Использование бесплатно с лицензией UMLS. Это автономное приложение для Linux и Windows.
SecTag (иерархия тегирования разделов): распознает заголовки разделов примечаний с использованием методов NLP, Байеса, исправления орфографии и подсчета очков. Использование бесплатно с лицензией UMLS или LOINC.
(Stanford Named Entity Recognizer (NER)): NER Стэнфорда представляет собой модель последовательности условных случайных полей, а также хорошо продуманные функции для распознавания именованных сущностей на английском и немецком языках.
(Stanford CoreNLP) — это интегрированный набор инструментов обработки естественного языка для английского языка на Java, включая токенизацию , разметку частей речи, распознавание именованных сущностей, синтаксический анализ и кореферентность.