Распознавание именованных сущностей ( NER ) (также известное как идентификация (именованных) сущностей , разбиение сущностей на фрагменты и извлечение сущностей ) — это подзадача извлечения информации , которая стремится найти и классифицировать именованные сущности, упомянутые в неструктурированном тексте , по заранее определенным категориям, таким как имена людей, организации, местоположения, медицинские коды , выражения времени, количества, денежные значения, проценты и т. д.
Большинство исследований систем NER/NEE структурированы как анализ неаннотированного блока текста, например, такого:
В 2006 году Джим купил 300 акций Acme Corp.
И создаем аннотированный блок текста, в котором выделены названия сущностей:
[Джим] Персон купил 300 акций [Acme Corp.] Organization в [2006] Time .
В этом примере были обнаружены и классифицированы имя человека, состоящее из одного токена, название компании, состоящее из двух токенов, и временное выражение.
Современные системы NER для английского языка обеспечивают производительность, близкую к человеческой. Например, лучшая система, вошедшая в MUC-7, набрала 93,39% F-меры , в то время как люди-аннотаторы набрали 97,60% и 96,95%. [1] [2]
Известные платформы NER включают в себя:
В выражении named entity слово named ограничивает задачу теми сущностями, для которых одна или несколько строк, таких как слова или фразы, обозначают (достаточно) последовательно некоторый референт. Это тесно связано с жесткими десигнаторами , как определено Крипке , [5] [6], хотя на практике NER имеет дело со многими именами и референтами, которые не являются философски «жесткими». Например, автомобильная компания, созданная Генри Фордом в 1903 году , может называться Ford или Ford Motor Company , хотя «Ford» может также относиться ко многим другим сущностям (см. Ford ). Жесткие десигнаторы включают собственные имена, а также термины для определенных биологических видов и веществ, [7] но исключают местоимения (такие как «it»; см. разрешение кореференции ), описания, которые выбирают референт по его свойствам (см. также De dicto и de re ), и названия видов вещей в отличие от лиц (например, «Bank»).
Полное распознавание именованных сущностей часто разбивается, концептуально и, возможно, также в реализациях, [8] на две отдельные проблемы: обнаружение имен и классификация имен по типу сущности, к которой они относятся (например, человек, организация или местоположение). [9] Первая фаза обычно упрощается до проблемы сегментации: имена определяются как непрерывные промежутки токенов без вложенности, так что «Bank of America» является одним именем, игнорируя тот факт, что внутри этого имени подстрока «America» сама является именем. Эта проблема сегментации формально похожа на chunking . Вторая фаза требует выбора онтологии , с помощью которой можно организовать категории вещей.
Временные выражения и некоторые числовые выражения (например, деньги, проценты и т. д.) также могут рассматриваться как именованные сущности в контексте задачи NER. Хотя некоторые примеры этих типов являются хорошими примерами жестких обозначений (например, год 2001), существует также много недействительных (например, я беру отпуск в «июне»). В первом случае год 2001 относится к 2001-му году григорианского календаря . Во втором случае месяц июнь может относиться к месяцу неопределенного года ( прошлый июнь , следующий июнь , каждый июнь и т. д.). Можно утверждать, что определение именованной сущности в таких случаях ослабляется по практическим причинам. Определение термина именованная сущность поэтому не является строгим и часто должно объясняться в контексте, в котором оно используется. [10]
Определенные иерархии именованных типов сущностей были предложены в литературе. Категории BBN , предложенные в 2002 году, используются для ответов на вопросы и состоят из 29 типов и 64 подтипов. [11] Расширенная иерархия Секина, предложенная в 2002 году, состоит из 200 подтипов. [12] Совсем недавно, в 2011 году, Риттер использовал иерархию, основанную на общих типах сущностей Freebase , в новаторских экспериментах по NER над текстом социальных сетей . [13]
Для оценки качества выходных данных системы NER были определены несколько мер. Обычные меры называются точностью, полнотой и оценкой F1 . Однако остается несколько вопросов относительно того, как именно вычислять эти значения.
Эти статистические меры работают достаточно хорошо для очевидных случаев нахождения или отсутствия реальной сущности; и для нахождения несущности. Однако NER может терпеть неудачу во многих других случаях, многие из которых, возможно, "частично верны", и не должны считаться полным успехом или неудачей. Например, идентификация реальной сущности, но:
Один из слишком простых методов измерения точности — просто подсчитать, какая доля всех токенов в тексте была правильно или неправильно идентифицирована как часть ссылок на сущности (или как сущности правильного типа). Это страдает как минимум от двух проблем: во-первых, подавляющее большинство токенов в реальном тексте не являются частью имен сущностей, поэтому базовая точность (всегда предсказывать «не сущность») необычайно высока, как правило, >90%; и, во-вторых, неверное предсказание всего диапазона имени сущности не штрафуется должным образом (нахождение только имени человека, когда за ним следует его фамилия, может быть оценено как точность ½).
На таких научных конференциях, как CoNLL, вариант оценки F1 был определен следующим образом: [9]
Из приведенного выше определения следует, что любое предсказание, которое пропускает один токен, включает ложный токен или имеет неправильный класс, является серьезной ошибкой и не вносит положительного вклада ни в точность, ни в полноту. Таким образом, эту меру можно назвать пессимистичной: может быть так, что многие «ошибки» близки к правильным и могут быть адекватны для данной цели. Например, одна система может всегда пропускать такие звания, как «госпожа» или «доктор философии», но сравниваться с системой или данными наземной истины, которые ожидают включения званий. В этом случае каждое такое имя рассматривается как ошибка. Из-за таких проблем важно на самом деле изучить виды ошибок и решить, насколько они важны, учитывая ваши цели и требования.
Были предложены модели оценки, основанные на сопоставлении токенов. [14] Такие модели могут быть частично оценены для перекрывающихся сопоставлений (например, с использованием критерия Intersection over Union ). Они позволяют проводить более тонкую оценку и сравнение систем извлечения.
Системы NER были созданы, которые используют методы, основанные на лингвистической грамматике , а также статистические модели , такие как машинное обучение . Системы, основанные на грамматике, созданные вручную, обычно достигают большей точности, но за счет более низкой отзывчивости и месяцев работы опытных компьютерных лингвистов . [15] Статистические системы NER обычно требуют большого количества вручную аннотированных обучающих данных. Были предложены полуконтролируемые подходы, чтобы избежать части усилий по аннотированию. [16] [17]
Для выполнения машинного обучения NER использовались многие различные типы классификаторов, при этом типичным выбором были условные случайные поля . [18]
В 2001 году исследования показали, что даже самые современные системы NER были хрупкими, а это означало, что системы NER, разработанные для одной области, обычно не работали хорошо в других областях. [19] Значительные усилия прилагаются для настройки систем NER для хорошей работы в новой области; это справедливо как для основанных на правилах, так и для обучаемых статистических систем.
Ранняя работа в системах NER в 1990-х годах была направлена в первую очередь на извлечение из журналистских статей. Затем внимание переключилось на обработку военных донесений и отчетов. Более поздние этапы оценки автоматического извлечения контента (ACE) также включали несколько типов неформальных стилей текста, таких как веблоги и текстовые расшифровки разговоров по телефону. Примерно с 1998 года наблюдается большой интерес к идентификации сущностей в сообществах молекулярной биологии , биоинформатики и медицинской обработки естественного языка . Наиболее распространенной сущностью, представляющей интерес в этой области, были названия генов и генных продуктов. Также наблюдался значительный интерес к распознаванию химических сущностей и лекарств в контексте конкурса CHEMDNER, в котором приняли участие 27 команд. [20]
Несмотря на высокие показатели F1, зарегистрированные в наборе данных MUC-7, проблема распознавания именованных сущностей далека от решения. Основные усилия направлены на сокращение труда аннотаций путем использования полуконтролируемого обучения , [16] [21] надежной производительности в разных доменах [22] [23] и масштабирования до мелкозернистых типов сущностей. [12] [24] В последние годы многие проекты обратились к краудсорсингу , который является многообещающим решением для получения высококачественных совокупных человеческих суждений для контролируемых и полуконтролируемых подходов машинного обучения к NER. [25] Еще одной сложной задачей является разработка моделей для работы с лингвистически сложными контекстами, такими как Twitter и поисковые запросы. [26]
Некоторые исследователи провели сравнение производительности NER с использованием различных статистических моделей, таких как HMM ( скрытая марковская модель ), ME ( максимальная энтропия ) и CRF ( условные случайные поля ), а также наборов признаков. [27] А некоторые исследователи недавно предложили модель полуконтролируемого обучения на основе графов для задач NER, специфичных для языка. [28]
Недавно возникшая задача идентификации «важных выражений» в тексте и их перекрестной ссылки на Википедию [29] [30] [31] может рассматриваться как пример чрезвычайно тонкого распознавания именованных сущностей, где типы являются фактическими страницами Википедии, описывающими (потенциально неоднозначные) концепции. Ниже приведен пример вывода системы викификации:
<ENTITY url = "https://en.wikipedia.org/wiki/Named_entity_recognition/Michael_I._Jordan" > Майкл Джордан </ENTITY> — профессор в <ENTITY url= "https://en.wikipedia.org/wiki/Named_entity_recognition/University_of_California,_Berkeley" > Беркли </ENTITY>
Еще одна область, которая достигла прогресса, но остается сложной, — это применение NER к Twitter и другим микроблогам, которые считаются «шумными» из-за нестандартной орфографии, краткости и неформальности текстов. [32] [33] Проблемы NER в английских твитах были организованы исследовательскими сообществами для сравнения производительности различных подходов, таких как двунаправленные LSTM , Learning-to-Search или CRF. [34] [35] [36]