Маркировка частей речи

В корпусной лингвистике маркировка частей речи ( маркировка POS или маркировка PoS или POST ), также называемая грамматической маркировкой , представляет собой процесс разметки слова в тексте (корпусе) как соответствующего определенной части речи , ^[1] основанный как на его определении, так и на его контексте . Детям школьного возраста обычно преподают упрощенную форму этого упражнения, когда они идентифицируют слова как существительные , глаголы , прилагательные , наречия и т. д.

Маркировка POS, которая когда-то выполнялась вручную, теперь выполняется в контексте компьютерной лингвистики с использованием алгоритмов , которые связывают дискретные термины, а также скрытые части речи, с помощью набора описательных тегов. Алгоритмы POS-тегов делятся на две различные группы: основанные на правилах и стохастические. Тегер Э. Брилла , один из первых и наиболее широко используемых английских POS-тегеров, использует алгоритмы, основанные на правилах.

Принцип

Маркировка частей речи сложнее, чем просто список слов и их частей речи, поскольку некоторые слова могут представлять более одной части речи в разное время, а также потому, что некоторые части речи сложны. Это не редкость — в естественных языках (в отличие от многих искусственных языков ) большой процент словоформ неоднозначен . Например, даже слово «собаки», которое обычно воспринимается как существительное во множественном числе, также может быть глаголом:

Матрос следит за люком.

Правильная грамматическая разметка будет отражать то, что слово «собаки» здесь используется как глагол, а не как более распространенное существительное во множественном числе. Грамматический контекст — один из способов определить это; семантический анализ также можно использовать, чтобы сделать вывод, что «матрос» и «люк» подразумевают «собак» как 1) в морском контексте и 2) действие, примененное к объекту «люк» (в этом контексте «собаки» — это морской термин, означающий «надежно закрепляет (водонепроницаемую дверь)».

Наборы тегов

В школах обычно учат, что в английском языке существует 9 частей речи : существительное , глагол , артикль , прилагательное , предлог , местоимение , наречие , союз и междометие . Однако очевидно, что существует гораздо больше категорий и подкатегорий. У существительных различают формы множественного, притяжательного и единственного числа. Во многих языках слова также отмечаются по их « падежу » (роли субъекта, объекта и т. д.), грамматическому роду и т. д.; в то время как глаголы отмечены временем , видом и другими вещами. В некоторых системах тегов разные варианты изменения одного и того же корневого слова получают разные части речи, что приводит к большому количеству тегов. Например, NN для нарицательных существительных в единственном числе, NNS для нарицательных существительных во множественном числе, NP для имен собственных в единственном числе (см. теги POS, используемые в Brown Corpus). Другие системы тегов используют меньшее количество тегов и игнорируют мелкие различия или моделируют их как функции , несколько независимые от части речи. ^[2]

При компьютерной разметке частей речи для английского языка типично различать от 50 до 150 отдельных частей речи. В работе над стохастическими методами маркировки греческого койне (ДеРоуз, 1990) использовалось более 1000 частей речи, и было обнаружено, что в этом языке примерно столько же слов двусмысленны, сколько и в английском. Морфосинтаксический дескриптор в случае морфологически богатых языков обычно выражается с использованием очень коротких мнемоник, таких как Ncmsan для Категория = Существительное, Тип = общий, Пол = мужской род, Число = единственное число, Падеж = винительный падеж, Оживление = нет.

Самым популярным «набором тегов» для маркировки POS-терминалов для американского английского языка, вероятно, является набор тегов Penn, разработанный в рамках проекта Penn Treebank. Он во многом похож на более ранние наборы тегов Brown Corpus и LOB Corpus, но намного меньше. В Европе наборы тегов из Руководства Eagles широко используются и включают версии для нескольких языков.

Работа с тегами POS выполнялась на разных языках, и набор используемых тегов POS сильно различается в зависимости от языка. Теги обычно разрабатываются так, чтобы включать явные морфологические различия, хотя это приводит к несоответствиям, таким как маркировка регистра для местоимений, но не для существительных в английском языке, а также к гораздо большим межъязыковым различиям. Наборы тегов для сильно изменяемых языков, таких как греческий и латынь , могут быть очень большими; пометить слова в агглютинативных языках, таких как языки инуитов, может быть практически невозможно. Другая крайность — Петров и др. ^[3] предложили «универсальный» набор тегов с 12 категориями (например, без подтипов существительных, глаголов, знаков препинания и т. д.). Предпочтителен ли очень небольшой набор очень широких тегов или гораздо больший набор более точных тегов, зависит от поставленной цели. Автоматическое добавление тегов проще для небольших наборов тегов.

История

Коричневый корпус

Исследования по маркировке частей речи были тесно связаны с корпусной лингвистикой . Первым крупным корпусом английского языка для компьютерного анализа был корпус Брауна , разработанный в Университете Брауна Генри Кучерой и У. Нельсоном Фрэнсисом в середине 1960-х годов. Он состоит из около 1 000 000 слов бегущего английского прозаического текста, составленного из 500 образцов из случайно выбранных публикаций. Каждый образец состоит из 2000 или более слов (оканчивается в конце первого предложения после 2000 слов, так что корпус содержит только полные предложения).

В течение многих лет Коричневый корпус тщательно «помечался» маркерами частей речи. Первое приближение было сделано с помощью программы Грина и Рубина, которая состояла из огромного рукописного списка того, какие категории вообще могут встречаться одновременно. Например, может встречаться артикль, затем существительное, а артикль, затем глагол (возможно) — нет. Программа дала около 70% правильных результатов. Его результаты неоднократно проверялись и исправлялись вручную, а позже пользователи присылали опечатки, так что к концу 70-х годов тегирование стало почти идеальным (с учетом некоторых случаев, с которыми даже люди-говорящие могли не согласиться).

Этот корпус использовался для бесчисленных исследований частоты слов и частей речи и вдохновил на разработку подобных «размеченных» корпусов во многих других языках. Статистика, полученная в результате ее анализа, легла в основу большинства более поздних систем маркировки частей речи, таких как CLAWS и VOLSUNGA. Однако к этому времени (2005 г.) его заменили более крупные корпуса, такие как Британский национальный корпус, насчитывающий 100 миллионов слов , хотя более крупные корпуса редко тщательно курируются.

Некоторое время маркировка частей речи считалась неотъемлемой частью обработки естественного языка , поскольку в некоторых случаях невозможно определить правильную часть речи без понимания семантики или даже прагматики контекста. Это чрезвычайно дорого, особенно потому, что анализ более высоких уровней намного сложнее, когда для каждого слова необходимо учитывать несколько возможностей частей речи.

Использование скрытых марковских моделей

В середине 1980-х годов исследователи в Европе начали использовать скрытые модели Маркова (HMM) для устранения неоднозначности частей речи при работе над маркировкой корпуса британского английского языка Ланкастер-Осло-Берген . HMM включает в себя подсчет случаев (например, из Коричневого корпуса) и составление таблицы вероятностей определенных последовательностей. Например, если вы увидели такой артикль, как «the», возможно, следующее слово будет существительным в 40% случаев, прилагательным в 40% и числом в 20%. Зная это, программа может решить, что «can» в «the can» скорее всего будет существительным, чем глаголом или модальным глаголом. Тот же метод, конечно, можно использовать, чтобы получить пользу от знаний о следующих словах.

Более продвинутые HMM («высшего порядка») изучают вероятности не только пар, но и троек или даже более крупных последовательностей. Так, например, если вы только что увидели существительное, за которым следует глагол, следующим элементом может быть предлог, артикль или существительное, но гораздо менее вероятно, что это будет другой глагол.

Когда несколько неоднозначных слов встречаются вместе, возможности увеличиваются. Однако легко перечислить каждую комбинацию и присвоить каждой из них относительную вероятность, поочередно умножая вероятности каждого выбора. Затем выбирается комбинация с наибольшей вероятностью. Европейская группа разработала CLAWS, программу мечения, которая делала именно это и достигла точности в диапазоне 93–95%.

Юджин Чарняк указывает в «Статистических методах анализа естественного языка» (1997) ^[4] , что простое присвоение наиболее распространенного тега каждому известному слову и тега « имя собственного » всем неизвестным будет приближаться к 90% точности, поскольку многие слова однозначны, и многие другие лишь изредка представляют свои менее распространенные части речи.

CLAWS был пионером в области маркировки частей речи на основе HMM, но был довольно дорогим, поскольку пересчитывал все возможности. Иногда приходилось прибегать к резервным методам, когда вариантов было просто слишком много (Коричневый корпус содержит случай с 17 неоднозначными словами подряд, и есть такие слова, как «все еще», которые могут представлять целых 7 различных частей речи). ^[5 ]

HMM лежат в основе функционирования стохастических тегеров и используются в различных алгоритмах, одним из наиболее широко используемых является алгоритм двунаправленного вывода. ^[6]

Методы динамического программирования

В 1987 году Стивен ДеРоуз ^[7] и Кеннет В. Черч ^[8] независимо друг от друга разработали алгоритмы динамического программирования для решения той же проблемы за гораздо меньшее время. Их методы были аналогичны алгоритму Витерби , известному некоторое время в других областях. ДеРоуз использовал таблицу пар, а Черч — таблицу троек и метод оценки значений троек, которые были редкими или отсутствовали в Корпусе Брауна (фактическое измерение тройных вероятностей потребовало бы гораздо большего корпуса). Оба метода достигли точности более 95%. Диссертация ДеРоуза 1990 года в Университете Брауна включала анализ конкретных типов ошибок, вероятностей и других связанных данных, а также воспроизводила его работу для греческого языка, где она оказалась столь же эффективной.

Эти открытия оказались неожиданно разрушительными для области обработки естественного языка. Сообщаемая точность была выше, чем типичная точность очень сложных алгоритмов, которые объединяли выбор части речи со многими более высокими уровнями лингвистического анализа: синтаксис, морфология, семантика и так далее. Методы CLAWS, ДеРоуза и Чёрча не сработали в некоторых известных случаях, когда требовалась семантика, но они оказались незначительно редкими. Это убедило многих специалистов в том, что маркировку частей речи можно было бы с пользой отделить от других уровней обработки; это, в свою очередь, упростило теорию и практику компьютеризированного анализа языка и побудило исследователей искать способы разделения других частей. Марковские модели стали стандартным методом определения частей речи.

Неконтролируемые тегеры

Уже обсуждавшиеся методы включают работу с уже существующим корпусом для изучения вероятностей тегов. Однако также возможно выполнить начальную загрузку с использованием «неконтролируемых» тегов. Методы неконтролируемой маркировки используют немаркированный корпус для своих обучающих данных и создают набор тегов путем индукции. То есть они наблюдают закономерности в использовании слов и сами выводят категории частей речи. Например, статистика легко показывает, что «the», «a» и «an» встречаются в схожих контекстах, тогда как «eat» встречается в совершенно разных контекстах. При достаточном количестве итераций появляются классы сходства слов, которые удивительно похожи на те, которые ожидали бы лингвисты-люди; а сами различия иногда позволяют сделать ценные новые выводы.

Эти две категории можно разделить на основанные на правилах, стохастические и нейронные подходы.

Другие теги и методы

Некоторые текущие основные алгоритмы для разметки частей речи включают алгоритм Витерби , тегировщик Брилла , грамматику ограничений и алгоритм Баума-Уэлча (также известный как алгоритм вперед-назад). Скрытая модель Маркова и видимые теги модели Маркова могут быть реализованы с использованием алгоритма Витерби. Тегер Brill, основанный на правилах, необычен тем, что он изучает набор шаблонов правил, а затем применяет эти шаблоны, а не оптимизирует статистическую величину.

Многие методы машинного обучения также были применены к проблеме маркировки POS. Такие методы, как SVM , классификатор максимальной энтропии , персептрон и метод ближайшего соседа , были опробованы, и большинство из них могут достичь точности выше 95%. ^{[ нужна цитата ]}

О прямом сравнении нескольких методов сообщается (со ссылками) на ACL Wiki. ^[9] В этом сравнении используется набор тегов Penn для некоторых данных Penn Treebank, поэтому результаты можно напрямую сравнивать. Однако многие важные тегеры не включены (возможно, из-за трудоемкости их перенастройки для этого конкретного набора данных). Таким образом, не следует предполагать, что представленные здесь результаты являются лучшими, которых можно достичь с помощью данного подхода; ни даже лучшее, что было достигнуто с помощью данного подхода.

В 2014 году был опубликован бумажный отчет с использованием метода регуляризации структуры для разметки частей речи, достигший 97,36% в стандартном наборе контрольных данных. ^[10]