stringtranslate.com

Лемматизация

Лемматизация (или реже лемматизация ) в лингвистике — это процесс группировки изменяемых форм слова, чтобы их можно было анализировать как единый элемент, идентифицируемый леммой слова или словарной формой. [1]

В компьютерной лингвистике лемматизация — это алгоритмический процесс определения леммы слова на основе его предполагаемого значения. В отличие от стемминга , лемматизация зависит от правильного определения предполагаемой части речи и значения слова в предложении, а также в более широком контексте , окружающем это предложение, например, соседних предложениях или даже целом документе. В результате разработка эффективных алгоритмов лемматизации является открытой областью исследований. [2] [3] [4]

Описание

Во многих языках слова встречаются в нескольких изменяемых формах. Например, в английском языке глагол «ходить» может звучать как «гулять», «шел», «гуляет» или «гулять». Базовая форма «ходьба», которую можно найти в словаре, называется леммой слова . Ассоциацию базовой формы с частью речи часто называют лексемой слова.

Лемматизация тесно связана со стеммингом . Разница в том, что стеммер оперирует одним словом, не зная контекста, и поэтому не может различать слова, имеющие разное значение в зависимости от части речи. Однако стеммеры обычно проще реализовать и они работают быстрее. Пониженная «точность» может не иметь значения для некоторых приложений. Фактически, при использовании в системах поиска информации стемминг повышает точность повторения запроса или процент истинного положительного результата по сравнению с лемматизацией. Тем не менее, стемминг снижает точность или долю положительно помеченных экземпляров, которые на самом деле являются положительными, для таких систем. [5]

Например:

  1. Слово «лучше» имеет в качестве леммы слово «хорошо». Эта ссылка не учитывается при стемминге, так как требует поиска в словаре.
  2. Слово «прогулка» является базовой формой слова «ходьба», и, следовательно, оно совпадает как по стеммингу, так и по лемматизации.
  3. Слово «встреча» может быть либо базовой формой существительного, либо формой глагола («встретиться») в зависимости от контекста; например, «на нашей последней встрече» или «Мы встречаемся завтра». В отличие от стемминга, лемматизация пытается выбрать правильную лемму в зависимости от контекста.

Программное обеспечение для индексации документов, такое как Lucene [6], может хранить базовый формат слова без знания его значения, а только с учетом грамматических правил словообразования. Слово с основой само по себе может быть недопустимым: слово «ленивый», как показано в примере ниже, многими стемммерами связано с словом «ленивый». Это связано с тем, что цель стемминга не состоит в том, чтобы создать соответствующую лемму — это более сложная задача, требующая знания контекста. Основная цель стемминга — сопоставить разные формы слова с одной формой. [7] В качестве алгоритма, основанного на правилах и зависящего только от написания слова, он жертвует точностью, чтобы гарантировать, что, например, когда слово «ленивость» связано со словом «ленивый», оно имеет ту же основу, что и слово «ленивый».

Алгоритмы

Тривиальный способ лемматизации — простой поиск по словарю. Это хорошо работает для простых изменяемых форм, но для других случаев, например, в языках с длинными составными словами потребуется система, основанная на правилах . Такие правила могут быть созданы вручную или изучены автоматически из аннотированного корпуса .

Использование в биомедицине

Морфологический анализ опубликованной биомедицинской литературы может дать полезные результаты. Морфологическая обработка биомедицинского текста может быть более эффективной с помощью специализированной программы лемматизации для биомедицины и может повысить точность практических задач по извлечению информации . [8]

Смотрите также

Рекомендации

  1. ^ Словарь английского языка Коллинза , статья «лемматизировать»
  2. ^ «WebBANC: Создание семантически богатой аннотированной корпорации из аннотаций веб-пользователей на языках меньшинств» .
  3. ^ Мюллер, Томас; Коттерелл, Райан; Фрейзер, Александр; Шютце, Хинрих (2015). Совместная лемматизация и морфологическая маркировка с помощью LEMMING (PDF) . Конференция 2015 г. по эмпирическим методам обработки естественного языка. Лиссабон: Ассоциация компьютерной лингвистики. стр. 2268–2274. дои : 10.18653/v1/D15-1272 .
  4. ^ Бергманис, Томс; Голдуотер, Шэрон . «Контекстно-зависимая нейронная лемматизация с Lematus» (PDF) .
  5. ^ Мэннинг, Кристофер Д.; Рагхаван, Прабхакар; Шютце, Хинрих. «Введение в поиск информации». Издательство Кембриджского университета.
  6. ^ "Люсенский снежок". Проект Апач.
  7. ^ Мартин Портер. «Портер Стеммер».
  8. ^ Лю, Х.; Кристиансен, Т.; Баумгартнер, Вашингтон; Верспур, К. (2012). «BioLemmatizer: инструмент лемматизации для морфологической обработки биомедицинского текста». Журнал биомедицинской семантики . 3 :3. дои : 10.1186/2041-1480-3-3 . ПМЦ 3359276 . ПМИД  22464129. 

Внешние ссылки