stringtranslate.com

Распознавание поименованных объектов

Распознавание именованных сущностей ( NER ) (также известное как идентификация (именованных) сущностей , разбиение сущностей на фрагменты и извлечение сущностей ) — это подзадача извлечения информации , которая стремится найти и классифицировать именованные сущности, упомянутые в неструктурированном тексте , по заранее определенным категориям, таким как имена людей, организации, местоположения, медицинские коды , выражения времени, количества, денежные значения, проценты и т. д.

Большинство исследований систем NER/NEE структурированы как анализ неаннотированного блока текста, например, такого:

В 2006 году Джим купил 300 акций Acme Corp.

И создаем аннотированный блок текста, в котором выделены названия сущностей:

[Джим] Персон купил 300 акций [Acme Corp.] Organization в [2006] Time .

В этом примере были обнаружены и классифицированы имя человека, состоящее из одного токена, название компании, состоящее из двух токенов, и временное выражение.

Современные системы NER для английского языка обеспечивают производительность, близкую к человеческой. Например, лучшая система, вошедшая в MUC-7, набрала 93,39% F-меры , в то время как люди-аннотаторы набрали 97,60% и 96,95%. [1] [2]

Платформы распознавания именованных объектов

Известные платформы NER включают в себя:

Определение проблемы

В выражении named entity слово named ограничивает задачу теми сущностями, для которых одна или несколько строк, таких как слова или фразы, обозначают (достаточно) последовательно некоторый референт. Это тесно связано с жесткими десигнаторами , как определено Крипке , [5] [6], хотя на практике NER имеет дело со многими именами и референтами, которые не являются философски «жесткими». Например, автомобильная компания, созданная Генри Фордом в 1903 году , может называться Ford или Ford Motor Company , хотя «Ford» может также относиться ко многим другим сущностям (см. Ford ). Жесткие десигнаторы включают собственные имена, а также термины для определенных биологических видов и веществ, [7] но исключают местоимения (такие как «it»; см. разрешение кореференции ), описания, которые выбирают референт по его свойствам (см. также De dicto и de re ), и названия видов вещей в отличие от лиц (например, «Bank»).

Полное распознавание именованных сущностей часто разбивается, концептуально и, возможно, также в реализациях, [8] на две отдельные проблемы: обнаружение имен и классификация имен по типу сущности, к которой они относятся (например, человек, организация или местоположение). [9] Первая фаза обычно упрощается до проблемы сегментации: имена определяются как непрерывные промежутки токенов без вложенности, так что «Bank of America» является одним именем, игнорируя тот факт, что внутри этого имени подстрока «America» сама является именем. Эта проблема сегментации формально похожа на chunking . Вторая фаза требует выбора онтологии , с помощью которой можно организовать категории вещей.

Временные выражения и некоторые числовые выражения (например, деньги, проценты и т. д.) также могут рассматриваться как именованные сущности в контексте задачи NER. Хотя некоторые примеры этих типов являются хорошими примерами жестких обозначений (например, год 2001), существует также много недействительных (например, я беру отпуск в «июне»). В первом случае год 2001 относится к 2001-му году григорианского календаря . Во втором случае месяц июнь может относиться к месяцу неопределенного года ( прошлый июнь , следующий июнь , каждый июнь и т. д.). Можно утверждать, что определение именованной сущности в таких случаях ослабляется по практическим причинам. Определение термина именованная сущность поэтому не является строгим и часто должно объясняться в контексте, в котором оно используется. [10]

Определенные иерархии именованных типов сущностей были предложены в литературе. Категории BBN , предложенные в 2002 году, используются для ответов на вопросы и состоят из 29 типов и 64 подтипов. [11] Расширенная иерархия Секина, предложенная в 2002 году, состоит из 200 подтипов. [12] Совсем недавно, в 2011 году, Риттер использовал иерархию, основанную на общих типах сущностей Freebase , в новаторских экспериментах по NER над текстом социальных сетей . [13]

Формальная оценка

Для оценки качества выходных данных системы NER были определены несколько мер. Обычные меры называются точностью, полнотой и оценкой F1 . Однако остается несколько вопросов относительно того, как именно вычислять эти значения.

Эти статистические меры работают достаточно хорошо для очевидных случаев нахождения или отсутствия реальной сущности; и для нахождения несущности. Однако NER может терпеть неудачу во многих других случаях, многие из которых, возможно, "частично верны", и не должны считаться полным успехом или неудачей. Например, идентификация реальной сущности, но:

Один из слишком простых методов измерения точности — просто подсчитать, какая доля всех токенов в тексте была правильно или неправильно идентифицирована как часть ссылок на сущности (или как сущности правильного типа). Это страдает как минимум от двух проблем: во-первых, подавляющее большинство токенов в реальном тексте не являются частью имен сущностей, поэтому базовая точность (всегда предсказывать «не сущность») необычайно высока, как правило, >90%; и, во-вторых, неверное предсказание всего диапазона имени сущности не штрафуется должным образом (нахождение только имени человека, когда за ним следует его фамилия, может быть оценено как точность ½).

На таких научных конференциях, как CoNLL, вариант оценки F1 был определен следующим образом: [9]

Из приведенного выше определения следует, что любое предсказание, которое пропускает один токен, включает ложный токен или имеет неправильный класс, является серьезной ошибкой и не вносит положительного вклада ни в точность, ни в полноту. Таким образом, эту меру можно назвать пессимистичной: может быть так, что многие «ошибки» близки к правильным и могут быть адекватны для данной цели. Например, одна система может всегда пропускать такие звания, как «госпожа» или «доктор философии», но сравниваться с системой или данными наземной истины, которые ожидают включения званий. В этом случае каждое такое имя рассматривается как ошибка. Из-за таких проблем важно на самом деле изучить виды ошибок и решить, насколько они важны, учитывая ваши цели и требования.

Были предложены модели оценки, основанные на сопоставлении токенов. [14] Такие модели могут быть частично оценены для перекрывающихся сопоставлений (например, с использованием критерия Intersection over Union ). Они позволяют проводить более тонкую оценку и сравнение систем извлечения.

Подходы

Системы NER были созданы, которые используют методы, основанные на лингвистической грамматике , а также статистические модели , такие как машинное обучение . Системы, основанные на грамматике, созданные вручную, обычно достигают большей точности, но за счет более низкой отзывчивости и месяцев работы опытных компьютерных лингвистов . [15] Статистические системы NER обычно требуют большого количества вручную аннотированных обучающих данных. Были предложены полуконтролируемые подходы, чтобы избежать части усилий по аннотированию. [16] [17]

Для выполнения машинного обучения NER использовались многие различные типы классификаторов, при этом типичным выбором были условные случайные поля . [18]

Проблемные области

В 2001 году исследования показали, что даже самые современные системы NER были хрупкими, а это означало, что системы NER, разработанные для одной области, обычно не работали хорошо в других областях. [19] Значительные усилия прилагаются для настройки систем NER для хорошей работы в новой области; это справедливо как для основанных на правилах, так и для обучаемых статистических систем.

Ранняя работа в системах NER в 1990-х годах была направлена ​​в первую очередь на извлечение из журналистских статей. Затем внимание переключилось на обработку военных донесений и отчетов. Более поздние этапы оценки автоматического извлечения контента (ACE) также включали несколько типов неформальных стилей текста, таких как веблоги и текстовые расшифровки разговоров по телефону. Примерно с 1998 года наблюдается большой интерес к идентификации сущностей в сообществах молекулярной биологии , биоинформатики и медицинской обработки естественного языка . Наиболее распространенной сущностью, представляющей интерес в этой области, были названия генов и генных продуктов. Также наблюдался значительный интерес к распознаванию химических сущностей и лекарств в контексте конкурса CHEMDNER, в котором приняли участие 27 команд. [20]

Текущие проблемы и исследования

Несмотря на высокие показатели F1, зарегистрированные в наборе данных MUC-7, проблема распознавания именованных сущностей далека от решения. Основные усилия направлены на сокращение труда аннотаций путем использования полуконтролируемого обучения , [16] [21] надежной производительности в разных доменах [22] [23] и масштабирования до мелкозернистых типов сущностей. [12] [24] В последние годы многие проекты обратились к краудсорсингу , который является многообещающим решением для получения высококачественных совокупных человеческих суждений для контролируемых и полуконтролируемых подходов машинного обучения к NER. [25] Еще одной сложной задачей является разработка моделей для работы с лингвистически сложными контекстами, такими как Twitter и поисковые запросы. [26]

Некоторые исследователи провели сравнение производительности NER с использованием различных статистических моделей, таких как HMM ( скрытая марковская модель ), ME ( максимальная энтропия ) и CRF ( условные случайные поля ), а также наборов признаков. [27] А некоторые исследователи недавно предложили модель полуконтролируемого обучения на основе графов для задач NER, специфичных для языка. [28]

Недавно возникшая задача идентификации «важных выражений» в тексте и их перекрестной ссылки на Википедию [29] [30] [31] может рассматриваться как пример чрезвычайно тонкого распознавания именованных сущностей, где типы являются фактическими страницами Википедии, описывающими (потенциально неоднозначные) концепции. Ниже приведен пример вывода системы викификации:

<ENTITY url = "https://en.wikipedia.org/wiki/Named-entity_recognition/Michael_I._Jordan" > Майкл Джордан </ENTITY> — профессор в <ENTITY url= "https://en.wikipedia.org/wiki/Named-entity_recognition/University_of_California,_Berkeley" > Беркли </ENTITY>            

Еще одна область, которая достигла прогресса, но остается сложной, — это применение NER к Twitter и другим микроблогам, которые считаются «шумными» из-за нестандартной орфографии, краткости и неформальности текстов. [32] [33] Проблемы NER в английских твитах были организованы исследовательскими сообществами для сравнения производительности различных подходов, таких как двунаправленные LSTM , Learning-to-Search или CRF. [34] [35] [36]

Смотрите также

Ссылки

  1. ^ Элейн Марш, Деннис Перзановски, «Оценка технологии IE MUC-7: обзор результатов», 29 апреля 1998 г. PDF
  2. ^ Труды MUC-07 (Задачи именованных сущностей)
  3. ^ Вольф; Дебют, Лисандр; Сань, Виктор; Шомон, Жюльен; Деланг, Клемент; Мои, Энтони; Систак, Пьеррик; Раулт, Тим; Луф, Реми; Фунтович, Морган; Дэвисон, Джо; Шлейфер, Сэм; фон Платен, Патрик; Ма, Клара; Джернит, Ясин; Плу, Жюльен; Сюй, Канвен; Ле Скао, Тевен; Гуггер, Сильвен; Драм, Мариама; Лёст, Квентин; Вольф, Томас; Раш, Александр (2020). Трансформеры: современная обработка естественного языка . Труды конференции 2020 года по эмпирическим методам в обработке естественного языка: системные демонстрации . стр. 38–45.
  4. ^ Кариампужа, Уильям; Алиея, Джоконда; Ку, Сью; Санджак, Джалеал; Мате, Эви; Сид, Эрик; Шатлен, Хейли; Ядав, Арджун; Сюй, Яньцзи; Чжу, Цянь (2023). «Точное извлечение информации для эпидемиологии редких заболеваний в масштабе». Журнал трансляционной медицины . 21 (1): 157. doi : 10.1186/s12967-023-04011-y . PMC 9972634. PMID  36855134 . 
  5. ^ Крипке, Саул (1971). «Идентичность и необходимость». В MK Munitz (ред.). Идентичность и индивидуация . Нью-Йорк: New York University Press. С. 135–64.
  6. ^ ЛаПорт, Джозеф (2018). «Жесткие десигнаторы». Стэнфордская энциклопедия философии .
  7. ^ Надо, Дэвид; Секин, Сатоши (2007). Обзор распознавания и классификации именованных сущностей (PDF) . Lingvisticae Investigationes.
  8. ^ Каррерас, Ксавье; Маркес, Луис; Падро, Луис (2003). Простой экстрактор именованных объектов с использованием AdaBoost (PDF) . КонНЛЛ.
  9. ^ ab Tjong Kim Sang, Erik F.; De Meulder, Fien (2003). Введение в общую задачу CoNLL-2003: Распознавание именованных сущностей, не зависящих от языка. CoNLL.
  10. ^ Определение именованной сущности. Webknox.com. Получено 21 июля 2013 г.
  11. ^ Брунштейн, Ада. «Руководство по аннотациям для типов ответов». Каталог LDC . Linguistic Data Consortium. Архивировано из оригинала 16 апреля 2016 г. Получено 21 июля 2013 г.
  12. ^ Расширенная иерархия именованных сущностей Секина. Nlp.cs.nyu.edu. Получено 21 июля 2013 г.
  13. ^ Риттер, А.; Кларк, С.; Маусам; Этциони., О. (2011). Распознавание именованных сущностей в твитах: экспериментальное исследование (PDF) . Proc. Эмпирические методы обработки естественного языка.
  14. ^ Эсули, Андреа; Себастьяни, Фабрицио (2010). Оценка извлечения информации (PDF) . Форум межъязыковой оценки (CLEF). стр. 100–111.
  15. ^ Капетаниос, Эпаминонд; татарский, Дойна; Сакареа, Кристиан (14 ноября 2013 г.). Обработка естественного языка: семантические аспекты. ЦРК Пресс. п. 298. ИСБН 9781466584969.
  16. ^ ab Lin, Dekang; Wu, Xiaoyun (2009). Кластеризация фраз для дискриминативного обучения (PDF) . Ежегодное собрание ACL и IJCNLP. С. 1030–1038.
  17. ^ Нотман, Джоэл и др. (2013). «Изучение распознавания многоязычных именованных сущностей из Википедии» . Искусственный интеллект . 194 : 151–175. doi : 10.1016/j.artint.2012.03.006 .
  18. ^ Дженни Роуз Финкель; Тронд Гренагер; Кристофер Мэннинг (2005). Включение нелокальной информации в системы извлечения информации с помощью выборки Гиббса (PDF) . 43-е ежегодное заседание Ассоциации компьютерной лингвистики . стр. 363–370.
  19. ^ Poibeau, Thierry; Kosseim, Leila (2001). «Извлечение собственных имен из нежурналистских текстов» (PDF) . Language and Computers . 37 (1): 144–157. doi :10.1163/9789004333901_011. S2CID  12591786. Архивировано из оригинала (PDF) 2019-07-30.
  20. ^ Krallinger, M; Leitner, F; Rabal, O; Vazquez, M; Oyarzabal, J; Valencia, A (2013). «Обзор задачи распознавания названий химических соединений и лекарств (CHEMDNER)». Труды Четвертого семинара по оценке BioCreative Challenge, том 2. стр. 6–37. CiteSeerX 10.1.1.684.4118 . 
  21. ^ Turian, J., Ratinov, L., & Bengio, Y. (2010, июль). Word representations: a simple and general method for semi-supervised learning. В материалах 48-го ежегодного собрания Ассоциации компьютерной лингвистики (стр. 384–394). Ассоциация компьютерной лингвистики. PDF
  22. ^ Ратинов, Л. и Рот, Д. (2009, июнь). Проблемы проектирования и заблуждения в распознавании именованных сущностей. В трудах Тринадцатой конференции по компьютерному обучению естественному языку (стр. 147–155). Ассоциация компьютерной лингвистики.
  23. ^ "Frustratingly Easy Domain Adaptation" (PDF) . Архивировано из оригинала (PDF) 2010-06-13 . Получено 2012-04-05 .
  24. ^ Ли, Чанки; Хванг, И-Гю; О, Хё-Джун; Лим, Суджон; Хео, Чон; Ли, Чон-Хи; Ким, Хён-Джин; Ван, Джи-Хён; Чан, Мён-Гиль (2006). «Распознавание мелкозернистых именованных сущностей с использованием условных случайных полей для ответов на вопросы». Технология поиска информации . Конспект лекций по информатике. Том 4182. С. 581–587. doi :10.1007/11880592_49. ISBN 978-3-540-45780-0.
  25. ^ Краудсорсинг на основе Web 2.0 для высококачественной разработки золотого стандарта в клинической обработке естественного языка
  26. ^ Эйсельт, Андреас; Фигероа, Алехандро (2013). Двухшаговый распознаватель именованных сущностей для поисковых запросов в открытом домене. IJCNLP. С. 829–833.
  27. ^ Хан, Ли-Фэн Аарон, Вонг, Фай, Чао, Лидия Сэм. (2013). Распознавание именованных сущностей китайцами с условными случайными полями в свете китайских характеристик. Труды Международной конференции по языковой обработке и интеллектуальным информационным системам. MA Klopotek et al. (ред.): IIS 2013, LNCS Vol. 7912, стр. 57–68 [1]
  28. ^ Хан, Ли-Фэн Аарон, Вонг, Цзэн, Сяодун, Дерек Фай, Чао, Лидия Сэм. (2015). Распознавание именованных китайских сущностей с помощью графовой модели полуконтролируемого обучения. В материалах семинара SIGHAN в ACL-IJCNLP. 2015. [2]
  29. ^ Связь документов с энциклопедическими знаниями.
  30. ^ "Учимся ссылаться на Википедию" (PDF) . Архивировано из оригинала (PDF) 2019-01-25 . Получено 2014-07-21 .
  31. Локальные и глобальные алгоритмы устранения неоднозначности в Википедии.
  32. ^ Дерчински, Леон и Диана Мейнард , Джузеппе Риццо, Марике ван Эрп, Женевьева Горрелл, Рафаэль Тронси, Иоганн Петрак и Калиан Бочева (2014). «Анализ распознавания именованных сущностей и ссылок для твитов». Обработка информации и управление 51(2): страницы 32–49.
  33. ^ Болдуин, Тимоти; де Марнефф, Мари Кэтрин; Хан, Бо; Ким, Янг-Бум; Риттер, Алан; Сюй, Вэй (июль 2015 г.). «Общие задачи семинара 2015 г. по шумному пользовательскому тексту: лексическая нормализация Twitter и распознавание именованных сущностей». Труды семинара по шумному пользовательскому тексту . Пекин, Китай: Ассоциация компьютерной лингвистики: 126–135. doi : 10.18653/v1/W15-4319 . S2CID  14500933.
  34. ^ "COLING 2016 Workshop on Noisy User-generated Text (W-NUT)". noise-text.github.io . Получено 2022-08-13 .
  35. ^ Partalas, Ioannis; Lopez, Cédric; Derbas, Nadia; Kalitvianski, Ruslan (декабрь 2016 г.). «Learning to Search for Recognizing Named Entities in Twitter». Труды 2-го семинара по шумному пользовательскому тексту (WNUT) . Осака, Япония: Оргкомитет COLING 2016: 171–177.
  36. ^ Limsopatham, Nut; Collier, Nigel (декабрь 2016 г.). «Двунаправленная LSTM для распознавания именованных сущностей в сообщениях Twitter». Труды 2-го семинара по зашумленному пользовательскому тексту (WNUT) . Осака, Япония: Оргкомитет COLING 2016: 145–152.