Разметка частей речи на основе скользящего окна

Для маркировки текста по частям речи используется разметка по частям речи на основе скользящего окна .

Высокий процент слов в естественном языке — это слова, которые вне контекста могут быть отнесены к более чем одной части речи. Процент таких неоднозначных слов обычно составляет около 30%, хотя он сильно зависит от языка. Решение этой проблемы очень важно во многих областях обработки естественного языка . Например, в машинном переводе изменение части речи слова может кардинально изменить его перевод.

Тегеры частей речи на основе скользящего окна — это программы, которые присваивают одну часть речи заданной лексической форме слова, просматривая «окно» фиксированного размера из слов вокруг слова, неоднозначность которого необходимо устранить .

Два основных преимущества такого подхода:

Можно автоматически обучать теггер, избавляясь от необходимости вручную размечать корпус.
Тегер может быть реализован как конечный автомат ( машина Мили ).

Формальное определение

Позволять

\Gamma =\{\gamma _{1},\gamma _{2},\ldots,\gamma _{|\Gamma |}\}

будет набором грамматических тегов приложения, то есть набором всех возможных тегов, которые могут быть назначены слову, и пусть

W=\{w1,w2,\ldots \}

быть словарем приложения. Пусть

T:W\rightarrow P(\Gamma )

быть функцией для морфологического анализа, которая назначает каждому свой набор возможных тегов, , которые могут быть реализованы полноформальным лексиконом или морфологическим анализатором. Пусть $w$ $T(w)\subseteq \Gamma$

\Сигма =\{\сигма _{1},\сигма _{2},\ldots ,\сигма _{|\Сигма |}\}

будет набором классов слов, который в общем случае будет разбиением с тем ограничением, что для каждого все слова получат один и тот же набор тегов, то есть все слова в каждом классе слов принадлежат к одному и тому же классу неоднозначности. $W$ $\сигма \в \Сигма$ $w,\Сигма ,\сигма$ $\сигма$

Обычно, строится таким образом, что для высокочастотных слов каждый класс слов содержит одно слово, а для низкочастотных слов каждый класс слов соответствует одному классу неоднозначности. Это обеспечивает хорошую производительность для высокочастотных неоднозначных слов и не требует слишком много параметров для теггера. $\Сигма$

С этими определениями можно сформулировать проблему следующим образом: каждому слову в тексте присваивается класс слов (используя либо лексикон, либо морфологический анализатор) для того, чтобы получить неоднозначно помеченный текст . Задача теггера — получить помеченный текст (с ) как можно более правильно. $w[1]w[2]\ldots w[L]\in W^{*}$ $w[т]$ $T(w[t])\in \Сигма$ $\sigma [1]\sigma [2]\ldots \sigma [L]\in W^{*}$ $\гамма [1]\гамма [2]\ldots \гамма [L]$ $\gamma [t]\in T(\sigma [t])$

Статистический тегер ищет наиболее вероятный тег для неоднозначно помеченного текста : $\сигма [1]\сигма [2]\ldots \сигма [L]$

\gamma ^{*}[1]\ldots \gamma ^{*}[L]=\operatorname {\arg \,max} _{\gamma [t]\in T(\sigma [t])}p(\gamma [1]\ldots \gamma [L]\sigma [1]\ldots \sigma [L])

Используя формулу Байеса , это преобразуется в:

\gamma ^{*}[1]\ldots \gamma ^{*}[L]=\operatorname {\arg \,max} _{\gamma [t]\in T(\sigma [t])}p(\gamma [1]\ldots \gamma [L])p(\sigma [1]\ldots \sigma [L]\gamma [1]\ldots \gamma [L])

где — вероятность того, что определенный тег (синтаксическая вероятность), а — вероятность того, что этот тег соответствует тексту (лексическая вероятность). $p(\гамма [1]\гамма [2]\ldots \гамма [L])$ $p(\сигма [1]\точки \сигма [L]\гамма [1]\лдотсы \гамма [L])$ $\сигма [1]\ldots \сигма [L]$

В марковской модели эти вероятности аппроксимируются как произведения. Синтаксические вероятности моделируются марковским процессом первого порядка:

p(\gamma [1]\gamma [2]\ldots \gamma [L])=\prod _{t=1}^{t=L}p(\gamma [t+1]\gamma [t])

где и — символы-разделители. $\гамма [0]$ $\гамма [L+1]$

Лексические вероятности не зависят от контекста:

p(\sigma [1]\sigma [2]\ldots \sigma [L]\gamma [1]\gamma [2]\ldots \gamma [L])=\prod _{t=1}^{t=L}p(\sigma [t]\gamma [t])

Одной из форм маркировки является приближение первой формулы вероятности:

p(\sigma [1]\sigma [2]\ldots \sigma [L]\gamma [1]\gamma [2]\ldots \gamma [L])=\prod _{t=1}^{t=L}p(\gamma [t]C_{(-)}[t]\sigma [t]C_{(+)}[t])

где находится правильный контекст размера . $C_{(-)}[t]=\sigma [t-N_{(-)}]\sigma [t-N_{(-)}]\ldots \sigma [t-1]$ $N_{(+)}$

Таким образом, алгоритм скользящего окна должен учитывать только контекст размера . Для большинства приложений . Например, чтобы пометить неоднозначное слово «бежать» в предложении «Он бежит от опасности», необходимо учитывать только теги слов «Он» и «от». $N_{(-)}+N_{(+)}+1$ $N_{(-)}=N_{(+)}=1$

Дальнейшее чтение

Санчес-Вилламил, Э., Форкада, М.Л. и Карраско, Р.К. (2005). "Неконтролируемое обучение конечного скользящего оконного частеречного теггера". Lecture Notes in Computer Science / Lecture Notes in Artificial Intelligence , том 3230, стр. 454-463