Лемматизация (или реже лемматизация ) в лингвистике — это процесс группировки изменяемых форм слова, чтобы их можно было анализировать как единый элемент, идентифицируемый леммой слова или словарной формой. [1]
В компьютерной лингвистике лемматизация — это алгоритмический процесс определения леммы слова на основе его предполагаемого значения. В отличие от стемминга , лемматизация зависит от правильного определения предполагаемой части речи и значения слова в предложении, а также в более широком контексте , окружающем это предложение, например, соседних предложениях или даже целом документе. В результате разработка эффективных алгоритмов лемматизации является открытой областью исследований. [2] [3] [4]
Во многих языках слова встречаются в нескольких изменяемых формах. Например, в английском языке глагол «ходить» может звучать как «гулять», «шел», «гуляет» или «гулять». Базовая форма «ходьба», которую можно найти в словаре, называется леммой слова . Ассоциацию базовой формы с частью речи часто называют лексемой слова.
Лемматизация тесно связана со стеммингом . Разница в том, что стеммер оперирует одним словом, не зная контекста, и поэтому не может различать слова, имеющие разное значение в зависимости от части речи. Однако стеммеры обычно проще реализовать и они работают быстрее. Пониженная «точность» может не иметь значения для некоторых приложений. Фактически, при использовании в системах поиска информации стемминг повышает точность повторения запроса или процент истинного положительного результата по сравнению с лемматизацией. Тем не менее, стемминг снижает точность или долю положительно помеченных экземпляров, которые на самом деле являются положительными, для таких систем. [5]
Например:
Программное обеспечение для индексации документов, такое как Lucene [6], может хранить базовый формат слова без знания его значения, а только с учетом грамматических правил словообразования. Слово с основой само по себе может быть недопустимым: слово «ленивый», как показано в примере ниже, многими стемммерами связано с словом «ленивый». Это связано с тем, что цель стемминга не состоит в том, чтобы создать соответствующую лемму — это более сложная задача, требующая знания контекста. Основная цель стемминга — сопоставить разные формы слова с одной формой. [7] В качестве алгоритма, основанного на правилах и зависящего только от написания слова, он жертвует точностью, чтобы гарантировать, что, например, когда слово «ленивость» связано со словом «ленивый», оно имеет ту же основу, что и слово «ленивый».
Тривиальный способ лемматизации — простой поиск по словарю. Это хорошо работает для простых изменяемых форм, но для других случаев, например, в языках с длинными составными словами потребуется система, основанная на правилах . Такие правила могут быть созданы вручную или изучены автоматически из аннотированного корпуса .
Морфологический анализ опубликованной биомедицинской литературы может дать полезные результаты. Морфологическая обработка биомедицинского текста может быть более эффективной с помощью специализированной программы лемматизации для биомедицины и может повысить точность практических задач по извлечению информации . [8]