stringtranslate.com

Разметка частей речи на основе скользящего окна

Для маркировки текста по частям речи используется разметка по частям речи на основе скользящего окна .

Высокий процент слов в естественном языке — это слова, которые вне контекста могут быть отнесены к более чем одной части речи. Процент таких неоднозначных слов обычно составляет около 30%, хотя он сильно зависит от языка. Решение этой проблемы очень важно во многих областях обработки естественного языка . Например, в машинном переводе изменение части речи слова может кардинально изменить его перевод.

Тегеры частей речи на основе скользящего окна — это программы, которые присваивают одну часть речи заданной лексической форме слова, просматривая «окно» фиксированного размера из слов вокруг слова, неоднозначность которого необходимо устранить .

Два основных преимущества такого подхода:

Формальное определение

Позволять

будет набором грамматических тегов приложения, то есть набором всех возможных тегов, которые могут быть назначены слову, и пусть

быть словарем приложения. Пусть

быть функцией для морфологического анализа, которая назначает каждому свой набор возможных тегов, , которые могут быть реализованы полноформальным лексиконом или морфологическим анализатором. Пусть

будет набором классов слов, который в общем случае будет разбиением с тем ограничением, что для каждого все слова получат один и тот же набор тегов, то есть все слова в каждом классе слов принадлежат к одному и тому же классу неоднозначности.

Обычно, строится таким образом, что для высокочастотных слов каждый класс слов содержит одно слово, а для низкочастотных слов каждый класс слов соответствует одному классу неоднозначности. Это обеспечивает хорошую производительность для высокочастотных неоднозначных слов и не требует слишком много параметров для теггера.

С этими определениями можно сформулировать проблему следующим образом: каждому слову в тексте присваивается класс слов (используя либо лексикон, либо морфологический анализатор) для того, чтобы получить неоднозначно помеченный текст . Задача теггера — получить помеченный текст (с ) как можно более правильно.

Статистический тегер ищет наиболее вероятный тег для неоднозначно помеченного текста :

Используя формулу Байеса , это преобразуется в:

где — вероятность того, что определенный тег (синтаксическая вероятность), а — вероятность того, что этот тег соответствует тексту (лексическая вероятность).

В марковской модели эти вероятности аппроксимируются как произведения. Синтаксические вероятности моделируются марковским процессом первого порядка:

где и — символы-разделители.

Лексические вероятности не зависят от контекста:

Одной из форм маркировки является приближение первой формулы вероятности:

где находится правильный контекст размера .

Таким образом, алгоритм скользящего окна должен учитывать только контекст размера . Для большинства приложений . Например, чтобы пометить неоднозначное слово «бежать» в предложении «Он бежит от опасности», необходимо учитывать только теги слов «Он» и «от».

Дальнейшее чтение