Для маркировки текста по частям речи используется разметка по частям речи на основе скользящего окна .
Высокий процент слов в естественном языке — это слова, которые вне контекста могут быть отнесены к более чем одной части речи. Процент таких неоднозначных слов обычно составляет около 30%, хотя он сильно зависит от языка. Решение этой проблемы очень важно во многих областях обработки естественного языка . Например, в машинном переводе изменение части речи слова может кардинально изменить его перевод.
Тегеры частей речи на основе скользящего окна — это программы, которые присваивают одну часть речи заданной лексической форме слова, просматривая «окно» фиксированного размера из слов вокруг слова, неоднозначность которого необходимо устранить .
Два основных преимущества такого подхода:
- Можно автоматически обучать теггер, избавляясь от необходимости вручную размечать корпус.
- Тегер может быть реализован как конечный автомат ( машина Мили ).
Формальное определение
Позволять
будет набором грамматических тегов приложения, то есть набором всех возможных тегов, которые могут быть назначены слову, и пусть
быть словарем приложения. Пусть
быть функцией для морфологического анализа, которая назначает каждому свой набор возможных тегов, , которые могут быть реализованы полноформальным лексиконом или морфологическим анализатором. Пусть
будет набором классов слов, который в общем случае будет разбиением с тем ограничением, что для каждого все слова получат один и тот же набор тегов, то есть все слова в каждом классе слов принадлежат к одному и тому же классу неоднозначности.
Обычно, строится таким образом, что для высокочастотных слов каждый класс слов содержит одно слово, а для низкочастотных слов каждый класс слов соответствует одному классу неоднозначности. Это обеспечивает хорошую производительность для высокочастотных неоднозначных слов и не требует слишком много параметров для теггера.
С этими определениями можно сформулировать проблему следующим образом: каждому слову в тексте присваивается класс слов (используя либо лексикон, либо морфологический анализатор) для того, чтобы получить неоднозначно помеченный текст . Задача теггера — получить помеченный текст (с ) как можно более правильно.
Статистический тегер ищет наиболее вероятный тег для неоднозначно помеченного текста :
Используя формулу Байеса , это преобразуется в:
где — вероятность того, что определенный тег (синтаксическая вероятность), а — вероятность того, что этот тег соответствует тексту (лексическая вероятность).
В марковской модели эти вероятности аппроксимируются как произведения. Синтаксические вероятности моделируются марковским процессом первого порядка:
где и — символы-разделители.
Лексические вероятности не зависят от контекста:
Одной из форм маркировки является приближение первой формулы вероятности:
где находится правильный контекст размера .
Таким образом, алгоритм скользящего окна должен учитывать только контекст размера . Для большинства приложений . Например, чтобы пометить неоднозначное слово «бежать» в предложении «Он бежит от опасности», необходимо учитывать только теги слов «Он» и «от».
Дальнейшее чтение
- Санчес-Вилламил, Э., Форкада, М.Л. и Карраско, Р.К. (2005). "Неконтролируемое обучение конечного скользящего оконного частеречного теггера". Lecture Notes in Computer Science / Lecture Notes in Artificial Intelligence , том 3230, стр. 454-463