Распознавание именованного объекта ( NER ) (также известное как идентификация (именованного) объекта , фрагментирование объекта и извлечение объекта ) — это подзадача извлечения информации , целью которой является поиск и классификация именованных объектов , упомянутых в неструктурированном тексте , по заранее определенным категориям, таким как человек. имена, организации, места, медицинские коды , выражения времени, количества, денежные значения, проценты и т. д.
Большинство исследований систем NER/NEE было структурировано как анализ неаннотированного блока текста, такого как этот:
Джим купил 300 акций Acme Corp. в 2006 году.
И создаем аннотированный блок текста, в котором выделяются имена объектов:
[Джим] Персон купил 300 акций организации [Acme Corp.] в [2006] Time .
В этом примере было обнаружено и классифицировано имя человека, состоящее из одного токена, названия компании из двух токенов и временного выражения.
Современные системы NER для английского языка обеспечивают почти человеческую производительность. Например, лучшая система, входящая в MUC-7, набрала 93,39% по F-мере , а люди-аннотаторы набрали 97,60% и 96,95%. [1] [2]
Известные платформы NER включают:
В выражении с именем «entity» слово «named» ограничивает задачу теми объектами, для которых одна или несколько строк, таких как слова или фразы, (достаточно) последовательно обозначают некоторый референт. Это тесно связано с жесткими десигнаторами , как это определил Крипке , [5] [6], хотя на практике NER имеет дело со многими именами и референтами, которые не являются «жесткими» с философской точки зрения. Например, автомобильная компания, созданная Генри Фордом в 1903 году, может называться Ford или Ford Motor Company , хотя «Форд» может относиться и ко многим другим предприятиям (см. Форд ). Жесткие десигнаты включают имена собственные, а также термины для определенных биологических видов и веществ, [7] , но исключают местоимения (такие как «оно»; см. резолюцию кореференции ), описания, которые выделяют референт по его свойствам (см. также De dicto и de re ) и названия видов вещей, а не отдельных лиц (например, «Банк»).
Полное распознавание именованного объекта часто разбивается концептуально и, возможно, также в реализациях [8] на две отдельные проблемы: обнаружение имен и классификация имен по типу объекта, к которому они относятся (например, человек, организация или местоположение). ). [9] Первый этап обычно упрощается до задачи сегментации: имена определяются как непрерывные промежутки токенов без вложенности, так что «Bank of America» представляет собой одно имя, несмотря на то, что внутри этого имени подстрока «Америка» сама по себе является именем. Эта проблема сегментации формально аналогична разбиению на фрагменты . Второй этап требует выбора онтологии для организации категорий вещей.
Временные выражения и некоторые числовые выражения (например, деньги, проценты и т. д.) также могут рассматриваться как именованные сущности в контексте задачи NER. Хотя некоторые экземпляры этих типов являются хорошими примерами жестких обозначений (например, 2001 год), есть также много неверных (например, я беру отпуск в «июне»). В первом случае 2001 год относится к 2001-му году григорианского календаря . Во втором случае месяц июнь может относиться к месяцу неопределенного года ( прошлый июнь , следующий июнь , каждый июнь и т. д.). Можно утверждать, что определение поименованного объекта в таких случаях ослабляется по практическим соображениям. Таким образом , определение термина «именованная сущность» не является строгим и часто должно объясняться в контексте, в котором он используется. [10]
В литературе были предложены определенные иерархии именованных типов сущностей. Категории BBN , предложенные в 2002 году, используются для ответов на вопросы и состоят из 29 типов и 64 подтипов. [11] Расширенная иерархия Секина, предложенная в 2002 году, состоит из 200 подтипов. [12] Совсем недавно, в 2011 году, Риттер использовал иерархию, основанную на общих типах сущностей Freebase, в новаторских экспериментах по NER над текстом в социальных сетях . [13]
Для оценки качества продукции системы NER было определено несколько показателей. Обычные меры называются точностью, полнотой и оценкой F1 . Однако остается ряд проблем, связанных с расчетом этих значений.
Эти статистические меры достаточно хорошо работают в очевидных случаях точного обнаружения или отсутствия реального объекта; и для нахождения ничтожества. Однако NER может потерпеть неудачу по многим другим причинам, многие из которых, возможно, «частично верны», и их не следует считать полным успехом или провалом. Например, идентифицируя реальную сущность, но:
Один слишком простой метод измерения точности состоит в том, чтобы просто подсчитать, какая часть всех токенов в тексте была правильно или неправильно идентифицирована как часть ссылок на сущности (или как сущности правильного типа). Это имеет как минимум две проблемы: во-первых, подавляющее большинство токенов в реальном тексте не являются частью имен сущностей, поэтому базовая точность (всегда предсказывает «не сущность») чрезвычайно высока, обычно> 90%; и, во-вторых, неправильное предсказание полного имени объекта не наказывается должным образом (обнаружение только имени человека, за которым следует его фамилия, может быть оценено как точность ½).
На научных конференциях, таких как CoNLL, вариант оценки F1 определялся следующим образом: [9]
Из приведенного выше определения следует, что любой прогноз, который пропускает один токен, включает ложный токен или имеет неправильный класс, является серьезной ошибкой и не способствует положительному ни точности, ни полноте. Таким образом, эту меру можно назвать пессимистической: может случиться так, что многие «ошибки» близки к исправлению и могут быть адекватными для данной цели. Например, одна система может всегда опускать такие титулы, как «Мисс». или «Доктор философии», но сравнивать с системными или достоверными данными, которые ожидают включения названий. В этом случае каждое такое имя рассматривается как ошибка. Из-за таких проблем важно на самом деле изучить виды ошибок и решить, насколько они важны с учетом целей и требований.
Были предложены модели оценки, основанные на сопоставлении токенов. [14] Таким моделям можно частично отдать должное за перекрытие совпадений (например, использование критерия «Пересечение через объединение »). Они позволяют более детально оценить и сравнить системы экстракции.
Были созданы системы NER, в которых используются методы, основанные на лингвистической грамматике , а также статистические модели , такие как машинное обучение . Созданные вручную системы, основанные на грамматике, обычно обеспечивают более высокую точность, но за счет меньшего количества запоминаний и месяцев работы опытных компьютерных лингвистов . [15] Статистические системы NER обычно требуют большого количества аннотированных вручную обучающих данных. Были предложены полуконтролируемые подходы, чтобы избежать части усилий по аннотированию. [16] [17]
Для выполнения NER с машинным обучением использовалось множество различных типов классификаторов, при этом типичным выбором являются условные случайные поля . [18]
В 2001 году исследования показали, что даже самые современные системы NER были хрупкими, а это означает, что системы NER, разработанные для одной области, обычно не работали хорошо в других областях. [19] Значительные усилия прилагаются для настройки систем NER для хорошей работы в новой области; это верно как для основанных на правилах, так и для обучаемых статистических систем.
Ранние работы над системами NER в 1990-х годах были направлены в первую очередь на извлечение информации из журналистских статей. Затем внимание переключилось на обработку военных донесений и отчетов. Более поздние этапы оценки автоматического извлечения контента (ACE) также включали несколько типов неофициальных текстовых стилей, таких как веб-журналы и текстовые расшифровки разговорных телефонных речевых разговоров. Примерно с 1998 года в сообществах молекулярной биологии , биоинформатики и медицинской обработки естественного языка наблюдается большой интерес к идентификации объектов . Наиболее распространенным предметом интереса в этой области являются названия генов и генных продуктов. Также был проявлен значительный интерес к распознаванию химических веществ и лекарств в контексте конкурса CHEMDNER, в котором приняли участие 27 команд. [20]
Несмотря на высокие цифры F1, зарегистрированные в наборе данных MUC-7, проблема распознавания названных объектов далека от решения. Основные усилия направлены на сокращение трудоемкости аннотаций за счет использования полуконтролируемого обучения , [16] [21] надежной производительности в разных областях [22] [23] и масштабирования до мелкозернистых типов сущностей. [12] [24] В последние годы многие проекты обратились к краудсорсингу , который является многообещающим решением для получения высококачественных совокупных человеческих суждений для контролируемых и полуконтролируемых подходов машинного обучения к NER. [25] Еще одной сложной задачей является разработка моделей для работы с лингвистически сложными контекстами, такими как Twitter и поисковые запросы. [26]
Некоторые исследователи сравнили характеристики NER на основе различных статистических моделей, таких как HMM ( скрытая модель Маркова ), ME ( максимальная энтропия ) и CRF ( условные случайные поля ), а также наборов функций. [27] А некоторые исследователи недавно предложили модель обучения с полуконтролем на основе графов для задач NER, специфичных для языка. [28]
Недавно возникшая задача по выявлению «важных выражений» в тексте и связыванию их с Википедией [29] [30] [31] можно рассматривать как пример чрезвычайно детального распознавания именованных объектов, где типы являются фактическими Страницы Википедии, описывающие (потенциально неоднозначные) концепции. Ниже приведен пример вывода системы викификации:
<ENTITY url= "https://en.wikipedia.org/wiki/Named_entity_recognition/Michael_I._Jordan" > Майкл Джордан </ENTITY> — профессор в <ENTITY url= " https://en.wikipedia.org/wiki/Named_entity_recognition/University_of_California ,_Беркли" > Беркли </ENTITY>
Еще одна область, в которой наблюдается прогресс, но остается сложной задачей, — это применение NER в Twitter и других микроблогах, считающихся «шумными» из-за нестандартной орфографии, краткости и неформальности текстов. [32] [33] Проблемы NER на английском языке Твиты были организованы исследовательскими сообществами для сравнения эффективности различных подходов, таких как двунаправленные LSTM , обучение поиску или CRF. [34] [35] [36]