Лемматизация

Лемматизация (или реже лемматизация ) в лингвистике — это процесс группировки изменяемых форм слова, чтобы их можно было анализировать как единый элемент, идентифицируемый леммой слова или словарной формой. ^[1]

В компьютерной лингвистике лемматизация — это алгоритмический процесс определения леммы слова на основе его предполагаемого значения. В отличие от стемминга , лемматизация зависит от правильного определения предполагаемой части речи и значения слова в предложении, а также в более широком контексте , окружающем это предложение, например, соседних предложениях или даже целом документе. В результате разработка эффективных алгоритмов лемматизации является открытой областью исследований. ^[2]^[3]^[4]

Описание

Во многих языках слова встречаются в нескольких изменяемых формах. Например, в английском языке глагол «ходить» может звучать как «гулять», «шел», «гуляет» или «гулять». Базовая форма «ходьба», которую можно найти в словаре, называется леммой слова . Ассоциацию базовой формы с частью речи часто называют лексемой слова.

Лемматизация тесно связана со стеммингом . Разница в том, что стеммер оперирует одним словом, не зная контекста, и поэтому не может различать слова, имеющие разное значение в зависимости от части речи. Однако стеммеры обычно проще реализовать и они работают быстрее. Пониженная «точность» может не иметь значения для некоторых приложений. Фактически, при использовании в системах поиска информации стемминг повышает точность повторения запроса или процент истинного положительного результата по сравнению с лемматизацией. Тем не менее, стемминг снижает точность или долю положительно помеченных экземпляров, которые на самом деле являются положительными, для таких систем. ^[5]

Например:

Слово «лучше» имеет в качестве леммы слово «хорошо». Эта ссылка не учитывается при стемминге, так как требует поиска в словаре.
Слово «прогулка» является базовой формой слова «ходьба», и, следовательно, оно совпадает как по стеммингу, так и по лемматизации.
Слово «встреча» может быть либо базовой формой существительного, либо формой глагола («встретиться») в зависимости от контекста; например, «на нашей последней встрече» или «Мы встречаемся завтра». В отличие от стемминга, лемматизация пытается выбрать правильную лемму в зависимости от контекста.

Программное обеспечение для индексации документов, такое как Lucene ^[6], может хранить базовый формат слова без знания его значения, а только с учетом грамматических правил словообразования. Слово с основой само по себе может быть недопустимым: слово «ленивый», как показано в примере ниже, многими стемммерами связано с словом «ленивый». Это связано с тем, что цель стемминга не состоит в том, чтобы создать соответствующую лемму — это более сложная задача, требующая знания контекста. Основная цель стемминга — сопоставить разные формы слова с одной формой. ^[7] В качестве алгоритма, основанного на правилах и зависящего только от написания слова, он жертвует точностью, чтобы гарантировать, что, например, когда слово «ленивость» связано со словом «ленивый», оно имеет ту же основу, что и слово «ленивый».

Алгоритмы

Тривиальный способ лемматизации — простой поиск по словарю. Это хорошо работает для простых изменяемых форм, но для других случаев, например, в языках с длинными составными словами потребуется система, основанная на правилах . Такие правила могут быть созданы вручную или изучены автоматически из аннотированного корпуса .

Использование в биомедицине

Морфологический анализ опубликованной биомедицинской литературы может дать полезные результаты. Морфологическая обработка биомедицинского текста может быть более эффективной с помощью специализированной программы лемматизации для биомедицины и может повысить точность практических задач по извлечению информации . ^[8]

Смотрите также

Канонизация

Внешние ссылки