Система обработки естественного языка
Apache cTAKES: система клинического анализа текста и извлечения знаний — это система обработки естественного языка (NLP) с открытым исходным кодом , которая извлекает клиническую информацию из неструктурированного текста электронных медицинских карт . Она обрабатывает клинические заметки, определяя типы клинических именованных сущностей — лекарства, заболевания/расстройства, признаки/симптомы, анатомические участки и процедуры. Каждая именованная сущность имеет атрибуты для текстового диапазона, кода сопоставления онтологии, контекста (семейный анамнез, текущий, не связанный с пациентом) и отрицается/не отрицается. [1]
cTAKES был создан с использованием фреймворка UIMA Unstructured Information Management Architecture и набора инструментов обработки естественного языка OpenNLP . [2] [3]
Компоненты
Компоненты cTAKES специально обучены для клинической области и создают богатые лингвистические и семантические аннотации, которые могут использоваться в системах поддержки клинических решений и клинических исследованиях. [4]
Эти компоненты включают в себя:
- Идентификатор именованного раздела
- Детектор границ предложений
- Токенизатор на основе правил
- Форматированный идентификатор списка
- Нормализатор
- Контекстно-зависимый токенизатор
- Тег части речи
- Фразовый чанкер
- Аннотатор поиска в словаре
- Контекстный аннотатор
- Детектор отрицания
- Детектор неопределенности
- Детектор предметов
- Анализатор зависимостей
- идентификатор статуса курения пациента
- Аннотатор упоминаний наркотиков
История
Разработка cTAKES началась в клинике Mayo в 2006 году. Команда разработчиков под руководством доктора Герганы Савовой и доктора Кристофера Чута включала врачей, компьютерных ученых и инженеров-программистов. После развертывания cTAKES стал неотъемлемой частью инфраструктуры управления клиническими данными Mayo, обработав более 80 миллионов клинических заметок. [5]
Когда в начале 2010 года доктор Савова переехала в Бостонскую детскую больницу , основная команда разработчиков расширилась и включила членов оттуда. Дальнейшее внешнее сотрудничество включает: [5]
Такое сотрудничество расширило возможности cTAKES в других областях, таких как временное обоснование, ответы на клинические вопросы и разрешение кореферентности для клинической области. [5]
В 2010 году cTAKES был принят программой i2b2 и стал центральным компонентом SHARP Area 4. [5]
В 2013 году cTAKES выпустили свой первый релиз в качестве инкубаторского проекта Apache Software Foundation : cTAKES 3.0. [ необходима ссылка ]
В марте 2013 года cTAKES стал проектом верхнего уровня Apache Software Foundation (TLP). [5]
Смотрите также
Ссылки
- ^ Денеке, Керстин (2015-08-31). "Инструменты и ресурсы для извлечения информации". Health Web Science: данные социальных сетей для здравоохранения . Springer. стр. 67. ISBN 978-3-319-20582-3– через Google Книги.
- ^ Халифа, Абдулрахман; Мейстр, Стефан (2015-12-01). «Адаптация существующих ресурсов обработки естественного языка для идентификации факторов риска сердечно-сосудистых заболеваний в клинических заметках». Журнал биомедицинской информатики . Труды 2014 i2b2/UTHealth Shared-Tasks и семинара по проблемам обработки естественного языка для клинических данных. 58 (Приложение): S128–S132. doi :10.1016/j.jbi.2015.08.002. PMC 4983192. PMID 26318122 .
- ^ Худайри, Салли (25.04.2017). «Apache Software Foundation объявляет о выпуске Apache® cTAKES™ v4.0» (пресс-релиз). Форест-Хилл, Мэриленд: Apache Software Foundation. Globe Newswire . Получено 20.09.2017 .
- ^ Савова, Гергана К.; Масанц, Джеймс Дж.; Огрен, Филип В.; Чжэн, Цзяпин; Сон, Сонгхван; Киппер-Шулер, Карин К.; Шюте, Кристофер Г. (2010). «Система анализа и извлечения клинических текстов Mayo (cTAKES): архитектура, оценка компонентов и приложения». Журнал Американской ассоциации медицинской информатики . 17 (5): 507–513. doi :10.1136/jamia.2009.001560. ISSN 1067-5027. PMC 2995668. PMID 20819853 .
- ^ abcde "История". Apache cTAKES™ - система извлечения клинических текстовых знаний . 2015-06-22 . Получено 2018-01-11 .
Внешние ссылки
- Официальный сайт cTAKES
- Страница с информацией о проекте Apache cTAKES от ASF
- Аннотация (ДЖАМИЯ)
- Консорциум Open Health Natural Language Processing (OHNLP)
- Программа стратегических перспективных исследовательских проектов в области ИТ в здравоохранении (SHARP)
- Область SHARP 4 — Вторичное использование данных EHR
- Автоматизированная консоль поиска (ARC)
- Health Information Text Extraction (HITEx)) был разработан в рамках проекта i2b2. Это конвейер обработки естественного языка на основе правил, основанный на фреймворке GATE, разработанном Informatics for Integrating Biology and the Bedside.
- Computational Language and Education Research toolkit (cleartk) ( больше не поддерживается ) был разработан в Университете Колорадо в Боулдере и предоставляет фреймворк для разработки статистических компонентов обработки естественного языка на Java. Он построен на основе Apache UIMA .
- NegEx - это инструмент, разработанный в Университете Питтсбурга для обнаружения отрицаемых терминов в клиническом тексте. Система использует триггерные термины как метод определения вероятных сценариев отрицания в предложении.
- ConText): расширение NegEx, также разработанное Питтсбургским университетом. ConText расширяет NegEx не только для обнаружения отрицаемых концепций, но и для поиска временных (недавних, исторических или гипотетических сценариев) и того, кто является Субъектом (опыта) (пациент или другой).
- MetaMap (от Национальной медицинской библиотеки США ): это комплексная система тегирования концепций, которая построена на основе Единой медицинской языковой системы . Для использования требуется активное лицензионное соглашение UMLS Metathesaurus (и учетная запись).
- MedEx — инструмент для извлечения информации о лекарствах из клинического текста. MedEx обрабатывает клинические записи в свободном тексте для распознавания названий лекарств и информации о подписи, такой как доза, частота, путь и продолжительность приема. Использование бесплатно с лицензией UMLS. Это автономное приложение для Linux и Windows.
- SecTag (иерархия тегирования разделов): распознает заголовки разделов примечаний с использованием методов NLP, Байеса, исправления орфографии и подсчета очков. Использование бесплатно с лицензией UMLS или LOINC.
- (Stanford Named Entity Recognizer (NER)): NER Стэнфорда представляет собой модель последовательности условных случайных полей, а также хорошо продуманные функции для распознавания именованных сущностей на английском и немецком языках.
- (Stanford CoreNLP) — это интегрированный набор инструментов обработки естественного языка для английского языка на Java, включая токенизацию , разметку частей речи, распознавание именованных сущностей, синтаксический анализ и кореферентность.