stringtranslate.com

Распознавание именованного объекта

Распознавание именованного объекта ( NER ) (также известное как идентификация (именованного) объекта , фрагментирование объекта и извлечение объекта ) — это подзадача извлечения информации , целью которой является поиск и классификация именованных объектов , упомянутых в неструктурированном тексте , по заранее определенным категориям, таким как человек. имена, организации, места, медицинские коды , выражения времени, количества, денежные значения, проценты и т. д.

Большинство исследований систем NER/NEE было структурировано как анализ неаннотированного блока текста, такого как этот:

Джим купил 300 акций Acme Corp. в 2006 году.

И создаем аннотированный блок текста, в котором выделяются имена объектов:

[Джим] Персон купил 300 акций организации [Acme Corp.] в [2006] Time .

В этом примере было обнаружено и классифицировано имя человека, состоящее из одного токена, названия компании из двух токенов и временного выражения.

Современные системы NER для английского языка обеспечивают почти человеческую производительность. Например, лучшая система, входящая в MUC-7, набрала 93,39% по F-мере , а люди-аннотаторы набрали 97,60% и 96,95%. [1] [2]

Платформы распознавания именованных объектов

Известные платформы NER включают:

Определение проблемы

В выражении с именем «entity» слово «named» ограничивает задачу теми объектами, для которых одна или несколько строк, таких как слова или фразы, (достаточно) последовательно обозначают некоторый референт. Это тесно связано с жесткими десигнаторами , как это определил Крипке , [5] [6], хотя на практике NER имеет дело со многими именами и референтами, которые не являются «жесткими» с философской точки зрения. Например, автомобильная компания, созданная Генри Фордом в 1903 году, может называться Ford или Ford Motor Company , хотя «Форд» может относиться и ко многим другим предприятиям (см. Форд ). Жесткие десигнаты включают имена собственные, а также термины для определенных биологических видов и веществ, [7] , но исключают местоимения (такие как «оно»; см. резолюцию кореференции ), описания, которые выделяют референт по его свойствам (см. также De dicto и de re ) и названия видов вещей, а не отдельных лиц (например, «Банк»).

Полное распознавание именованного объекта часто разбивается концептуально и, возможно, также в реализациях [8] на две отдельные проблемы: обнаружение имен и классификация имен по типу объекта, к которому они относятся (например, человек, организация или местоположение). ). [9] Первый этап обычно упрощается до задачи сегментации: имена определяются как непрерывные промежутки токенов без вложенности, так что «Bank of America» представляет собой одно имя, несмотря на то, что внутри этого имени подстрока «Америка» сама по себе является именем. Эта проблема сегментации формально аналогична разбиению на фрагменты . Второй этап требует выбора онтологии для организации категорий вещей.

Временные выражения и некоторые числовые выражения (например, деньги, проценты и т. д.) также могут рассматриваться как именованные сущности в контексте задачи NER. Хотя некоторые экземпляры этих типов являются хорошими примерами жестких обозначений (например, 2001 год), есть также много неверных (например, я беру отпуск в «июне»). В первом случае 2001 год относится к 2001-му году григорианского календаря . Во втором случае месяц июнь может относиться к месяцу неопределенного года ( прошлый июнь , следующий июнь , каждый июнь и т. д.). Можно утверждать, что определение поименованного объекта в таких случаях ослабляется по практическим соображениям. Таким образом , определение термина «именованная сущность» не является строгим и часто должно объясняться в контексте, в котором он используется. [10]

В литературе были предложены определенные иерархии именованных типов сущностей. Категории BBN , предложенные в 2002 году, используются для ответов на вопросы и состоят из 29 типов и 64 подтипов. [11] Расширенная иерархия Секина, предложенная в 2002 году, состоит из 200 подтипов. [12] Совсем недавно, в 2011 году, Риттер использовал иерархию, основанную на общих типах сущностей Freebase, в новаторских экспериментах по NER над текстом в социальных сетях . [13]

Формальная оценка

Для оценки качества продукции системы NER было определено несколько показателей. Обычные меры называются точностью, полнотой и оценкой F1 . Однако остается ряд проблем, связанных с расчетом этих значений.

Эти статистические меры достаточно хорошо работают в очевидных случаях точного обнаружения или отсутствия реального объекта; и для нахождения ничтожества. Однако NER может потерпеть неудачу по многим другим причинам, многие из которых, возможно, «частично верны», и их не следует считать полным успехом или провалом. Например, идентифицируя реальную сущность, но:

Один слишком простой метод измерения точности состоит в том, чтобы просто подсчитать, какая часть всех токенов в тексте была правильно или неправильно идентифицирована как часть ссылок на сущности (или как сущности правильного типа). Это имеет как минимум две проблемы: во-первых, подавляющее большинство токенов в реальном тексте не являются частью имен сущностей, поэтому базовая точность (всегда предсказывает «не сущность») чрезвычайно высока, обычно> 90%; и, во-вторых, неправильное предсказание полного имени объекта не наказывается должным образом (обнаружение только имени человека, за которым следует его фамилия, может быть оценено как точность ½).

На научных конференциях, таких как CoNLL, вариант оценки F1 определялся следующим образом: [9]

Из приведенного выше определения следует, что любой прогноз, который пропускает один токен, включает ложный токен или имеет неправильный класс, является серьезной ошибкой и не способствует положительному ни точности, ни полноте. Таким образом, эту меру можно назвать пессимистической: может случиться так, что многие «ошибки» близки к исправлению и могут быть адекватными для данной цели. Например, одна система может всегда опускать такие титулы, как «Мисс». или «Доктор философии», но сравнивать с системными или достоверными данными, которые ожидают включения названий. В этом случае каждое такое имя рассматривается как ошибка. Из-за таких проблем важно на самом деле изучить виды ошибок и решить, насколько они важны с учетом целей и требований.

Были предложены модели оценки, основанные на сопоставлении токенов. [14] Таким моделям можно частично отдать должное за перекрытие совпадений (например, использование критерия «Пересечение через объединение »). Они позволяют более детально оценить и сравнить системы экстракции.

Подходы

Были созданы системы NER, в которых используются методы, основанные на лингвистической грамматике , а также статистические модели , такие как машинное обучение . Созданные вручную системы, основанные на грамматике, обычно обеспечивают более высокую точность, но за счет меньшего количества запоминаний и месяцев работы опытных компьютерных лингвистов . [15] Статистические системы NER обычно требуют большого количества аннотированных вручную обучающих данных. Были предложены полуконтролируемые подходы, чтобы избежать части усилий по аннотированию. [16] [17]

Для выполнения NER с машинным обучением использовалось множество различных типов классификаторов, при этом типичным выбором являются условные случайные поля . [18]

Проблемные области

В 2001 году исследования показали, что даже самые современные системы NER были хрупкими, а это означает, что системы NER, разработанные для одной области, обычно не работали хорошо в других областях. [19] Значительные усилия прилагаются для настройки систем NER для хорошей работы в новой области; это верно как для основанных на правилах, так и для обучаемых статистических систем.

Ранние работы над системами NER в 1990-х годах были направлены в первую очередь на извлечение информации из журналистских статей. Затем внимание переключилось на обработку военных донесений и отчетов. Более поздние этапы оценки автоматического извлечения контента (ACE) также включали несколько типов неофициальных текстовых стилей, таких как веб-журналы и текстовые расшифровки разговорных телефонных речевых разговоров. Примерно с 1998 года в сообществах молекулярной биологии , биоинформатики и медицинской обработки естественного языка наблюдается большой интерес к идентификации объектов . Наиболее распространенным предметом интереса в этой области являются названия генов и генных продуктов. Также был проявлен значительный интерес к распознаванию химических веществ и лекарств в контексте конкурса CHEMDNER, в котором приняли участие 27 команд. [20]

Текущие проблемы и исследования

Несмотря на высокие цифры F1, зарегистрированные в наборе данных MUC-7, проблема распознавания названных объектов далека от решения. Основные усилия направлены на сокращение трудоемкости аннотаций за счет использования полуконтролируемого обучения , [16] [21] надежной производительности в разных областях [22] [23] и масштабирования до мелкозернистых типов сущностей. [12] [24] В последние годы многие проекты обратились к краудсорсингу , который является многообещающим решением для получения высококачественных совокупных человеческих суждений для контролируемых и полуконтролируемых подходов машинного обучения к NER. [25] Еще одной сложной задачей является разработка моделей для работы с лингвистически сложными контекстами, такими как Twitter и поисковые запросы. [26]

Некоторые исследователи сравнили характеристики NER на основе различных статистических моделей, таких как HMM ( скрытая модель Маркова ), ME ( максимальная энтропия ) и CRF ( условные случайные поля ), а также наборов функций. [27] А некоторые исследователи недавно предложили модель обучения с полуконтролем на основе графов для задач NER, специфичных для языка. [28]

Недавно возникшая задача по выявлению «важных выражений» в тексте и связыванию их с Википедией [29] [30] [31] можно рассматривать как пример чрезвычайно детального распознавания именованных объектов, где типы являются фактическими Страницы Википедии, описывающие (потенциально неоднозначные) концепции. Ниже приведен пример вывода системы викификации:

<ENTITY url= "https://en.wikipedia.org/wiki/Named_entity_recognition/Michael_I._Jordan" > Майкл Джордан </ENTITY> — профессор в <ENTITY url= " https://en.wikipedia.org/wiki/Named_entity_recognition/University_of_California ,_Беркли" > Беркли </ENTITY>            

Еще одна область, в которой наблюдается прогресс, но остается сложной задачей, — это применение NER в Twitter и других микроблогах, считающихся «шумными» из-за нестандартной орфографии, краткости и неформальности текстов. [32] [33] Проблемы NER на английском языке Твиты были организованы исследовательскими сообществами для сравнения эффективности различных подходов, таких как двунаправленные LSTM , обучение поиску или CRF. [34] [35] [36]

Смотрите также

Рекомендации

  1. ^ Элейн Марш, Деннис Перзановский, «Оценка технологии IE MUC-7: обзор результатов», 29 апреля 1998 г. PDF
  2. ^ Материалы MUC-07 (задачи поименованных организаций)
  3. ^ Волк; Дебют, Лисандра; Сан, Виктор; Шомон, Жюльен; Деланг, Клеман; Мой, Энтони; Систак, Пьеррик; Раулт, Тим; Луф, Реми; Фунтович, Морган; Дэвисон, Джо; Шлейфер, Сэм; фон Платен, Патрик; Ма, Клара; Джернит, Ясин; Плю, Жюльен; Сюй, Канвен; Ле Скао, Тевен; Гуггер, Сильвен; Драма, Мариама; Лоест, Квентин; Вольф, Томас; Раш, Александр (2020). Трансформеры: современная обработка естественного языка . Материалы конференции 2020 года по эмпирическим методам обработки естественного языка: системные демонстрации . стр. 38–45.
  4. ^ Кариампужа, Уильям; Алия, Джоконда; Цюй, Сью; Санджак, Джалеал; Мате, Эви; Сид, Эрик; Шатлен, Хейли; Ядо, Арджун; Сюй, Яньцзи; Чжу, Цянь (2023). «Точное извлечение информации для масштабной эпидемиологии редких заболеваний». Журнал трансляционной медицины . 21 (1): 157. doi : 10.1186/s12967-023-04011-y . ПМЦ 9972634 . ПМИД  36855134. 
  5. ^ Крипке, Саул (1971). «Идентичность и необходимость». В МК Мунице (ред.). Личность и Индивидуация . Нью-Йорк: Издательство Нью-Йоркского университета. стр. 135–64.
  6. ^ ЛаПорт, Джозеф (2018). «Жесткие указатели». Стэнфордская энциклопедия философии .
  7. ^ Надо, Дэвид; Секине, Сатоши (2007). Обзор распознавания и классификации названных объектов (PDF) . Лингвистические исследования.
  8. ^ Каррерас, Ксавье; Маркес, Луис; Падро, Луис (2003). Простой экстрактор именованных объектов с использованием AdaBoost (PDF) . КонНЛЛ.
  9. ^ аб Чонг Ким Санг, Эрик Ф.; Де Мёлдер, Фьен (2003). Введение в общую задачу CoNLL-2003: Независимое от языка распознавание именованных объектов. КонНЛЛ.
  10. ^ Определение именованного объекта. Webknox.com. Проверено 21 июля 2013 г.
  11. ^ Брунштейн, Ада. «Рекомендации по аннотациям типов ответов». Каталог ЛДС . Консорциум лингвистических данных. Архивировано из оригинала 16 апреля 2016 года . Проверено 21 июля 2013 г.
  12. ^ ab Расширенная иерархия именованных объектов Секина. Nlp.cs.nyu.edu. Проверено 21 июля 2013 г.
  13. ^ Риттер, А.; Кларк, С.; Маусам; Эциони., О. (2011). Распознавание именованных объектов в твитах: экспериментальное исследование (PDF) . Учеб. Эмпирические методы обработки естественного языка.
  14. ^ Эсули, Андреа; Себастьяни, Фабрицио (2010). Оценка извлечения информации (PDF) . Форум межъязыковой оценки (CLEF). стр. 100–111.
  15. ^ Капетаниос, Эпаминонд; татарский, Дойна; Сакареа, Кристиан (14 ноября 2013 г.). Обработка естественного языка: семантические аспекты. ЦРК Пресс. п. 298. ИСБН 9781466584969.
  16. ^ Аб Лин, Декан; Ву, Сяоюнь (2009). Кластеризация фраз для различительного обучения (PDF) . Ежегодное собрание ACL и IJCNLP. стр. 1030–1038.
  17. ^ Нотман, Джоэл; и другие. (2013). «Изучение многоязычного распознавания именованных объектов из Википедии» . Искусственный интеллект . 194 : 151–175. дои : 10.1016/j.artint.2012.03.006 .
  18. ^ Дженни Роуз Финкель; Тронд Гренагер; Кристофер Мэннинг (2005). Включение нелокальной информации в системы извлечения информации с помощью выборки Гиббса (PDF) . 43-е ежегодное собрание Ассоциации компьютерной лингвистики . стр. 363–370.
  19. ^ Пуабо, Тьерри; Коссейм, Лейла (2001). «Извлечение имен собственных из нежурналистских текстов» (PDF) . Язык и компьютеры . 37 (1): 144–157. дои : 10.1163/9789004333901_011. S2CID  12591786. Архивировано из оригинала (PDF) 30 июля 2019 г.
  20. ^ Краллингер, М; Лейтнер, Ф; Рабаль, О; Васкес, М; Оярсабаль, Дж; Валенсия, А (2013). «Обзор задачи распознавания химического состава и названия лекарства (CHEMDNER)». Материалы четвертого семинара по оценке биокреативных задач, том. 2 . стр. 6–37. CiteSeerX 10.1.1.684.4118 . 
  21. ^ Туриан Дж., Ратинов Л. и Бенджио Ю. (2010, июль). Словесные представления: простой и общий метод обучения под учителем. В материалах 48-го ежегодного собрания Ассоциации компьютерной лингвистики (стр. 384–394). Ассоциация компьютерной лингвистики. PDF
  22. ^ Ратинов Л. и Рот Д. (2009, июнь). Проблемы проектирования и заблуждения при распознавании именованных объектов. В материалах тринадцатой конференции по компьютерному изучению естественного языка (стр. 147–155). Ассоциация компьютерной лингвистики.
  23. ^ «Ужасительно простая адаптация домена» (PDF) . Архивировано из оригинала (PDF) 13 июня 2010 г. Проверено 5 апреля 2012 г.
  24. ^ Ли, Чангки; Хван, И-Гю; О, Хё Чжон; Лим, Суджон; Хи, Чон; Ли, Чон Хи; Ким, Хён Джин; Ван, Джи-Хён; Чан, Мён Гиль (2006). «Детальное распознавание именованных объектов с использованием условных случайных полей для ответов на вопросы». Информационно-поисковые технологии . Конспекты лекций по информатике. Том. 4182. стр. 581–587. дои : 10.1007/11880592_49. ISBN 978-3-540-45780-0.
  25. ^ Краудсорсинг на основе Web 2.0 для разработки высококачественного золотого стандарта в области клинической обработки естественного языка.
  26. ^ Эйзельт, Андреас; Фигероа, Алехандро (2013). Двухшаговый распознаватель именованных объектов для поисковых запросов в открытом домене. IJCNLP. стр. 829–833.
  27. ^ Хан, Ли-Фэн Аарон, Вонг, Фай, Чао, Лидия Сэм. (2013). Распознавание китайских именованных объектов с помощью условных случайных полей в свете китайских особенностей. Материалы Международной конференции по языковой обработке и интеллектуальным информационным системам. М.А. Клопотек и др. (Ред.): IIS 2013, LNCS Vol. 7912, стр. 57–68 [1]
  28. ^ Хан, Ли-Фэн Аарон, Вонг, Цзэн, Сяодун, Дерек Фай, Чао, Лидия Сэм. (2015). Распознавание китайских именованных объектов с помощью модели полуконтролируемого обучения на основе графов. В материалах семинара SIGHAN в ACL-IJCNLP. 2015. [2]
  29. ^ Связь документов с энциклопедическими знаниями.
  30. ^ «Учимся связываться с Википедией» (PDF) . Архивировано из оригинала (PDF) 25 января 2019 г. Проверено 21 июля 2014 г.
  31. ^ Локальные и глобальные алгоритмы устранения неоднозначности в Википедии.
  32. ^ Дерчински, Леон и Диана Мейнард , Джузеппе Риццо, Марике ван Эрп, Женевьева Горрелл, Рафаэль Тронси, Иоганн Петрак и Калиан Ботчева (2014). «Анализ распознавания названных объектов и ссылок на твиты». Обработка информации и управление 51 (2): страницы 32–49.
  33. ^ Болдуин, Тимоти; де Марнефф, Мария Катрин; Хан, Бо; Ким, Янг-Бом; Риттер, Алан; Сюй, Вэй (июль 2015 г.). «Общие задачи семинара 2015 года по зашумленному пользовательскому тексту: лексическая нормализация Twitter и распознавание именованных объектов». Материалы семинара по зашумленному пользовательскому тексту . Пекин, Китай: Ассоциация компьютерной лингвистики: 126–135. дои : 10.18653/v1/W15-4319 . S2CID  14500933.
  34. ^ «Семинар COLING 2016 по зашумленному пользовательскому тексту (W-NUT)» . шумный-текст.github.io . Проверено 13 августа 2022 г.
  35. ^ Парталас, Иоаннис; Лопес, Седрик; Дербас, Надя; Калитвянский, Руслан (декабрь 2016 г.). «Учимся искать распознаваемые именованные объекты в Твиттере». Материалы 2-го семинара по зашумленному пользовательскому тексту (WNUT) . Осака, Япония: Оргкомитет COLING 2016: 171–177.
  36. ^ Лимсопатам, Нут; Коллиер, Найджел (декабрь 2016 г.). «Двунаправленный LSTM для распознавания именованных объектов в сообщениях Twitter». Материалы 2-го семинара по зашумленному пользовательскому тексту (WNUT) . Осака, Япония: Оргкомитет COLING 2016: 145–152.