Алгоритм Леска

Алгоритм Леска — это классический алгоритм устранения неоднозначности смысла слов , предложенный Майклом Э. Леском в 1986 году. ^[1] Он основан на предпосылке, что слова в данном контексте, вероятно, имеют общее значение. Этот алгоритм сравнивает словарные определения неоднозначного слова со словами в окружающем его контексте, чтобы определить наиболее подходящий смысл. Варианты, такие как упрощенный алгоритм Леска, продемонстрировали повышенную точность и эффективность. Однако алгоритм Леска подвергся критике за его чувствительность к формулировкам определений и зависимость от кратких толкований. Исследователи стремились повысить его точность за счет включения дополнительных ресурсов, таких как тезаурусы и синтаксические модели.

Обзор

Алгоритм Леска основан на предположении, что слова в данном «районе» (разделе текста) имеют тенденцию иметь общую тему. Упрощенная версия алгоритма Леска заключается в сравнении словарного определения неоднозначного слова с терминами, содержащимися в его окрестностях. Версии адаптированы для использования WordNet . ^[2] Реализация может выглядеть так:

для каждого значения слова, которое устраняется, следует подсчитать количество слов, которые находятся как по соседству с этим словом, так и в словарном определении этого значения.
смысл, который следует выбрать, - это смысл, имеющий наибольшее число этих значений.

Часто используемый пример, иллюстрирующий этот алгоритм, касается контекста «сосновая шишка». Используются следующие словарные определения:

СОСНА1. виды вечнозеленых деревьев с игольчатыми листьями2. истощаться из-за горя или болезни

КОНУС1. твердое тело, сужающееся к точке2. что-то такой формы, твердое или полое3. плоды некоторых вечнозеленых деревьев

Как видно, лучшее пересечение — это Сосна №1 ⋂ Конус №3 = 2.

Упрощенный алгоритм Леска

В упрощенном алгоритме Леска ^[3] правильное значение каждого слова в данном контексте определяется индивидуально путем обнаружения смысла, который больше всего перекрывается между его словарным определением и данным контекстом. Вместо одновременного определения значений всех слов в данном контексте этот подход рассматривает каждое слово индивидуально, независимо от значения других слов, встречающихся в том же контексте.

«Сравнительная оценка, проведенная Василеску и др. (2004) ^[4], показала, что упрощенный алгоритм Леска может значительно превзойти исходное определение алгоритма как с точки зрения точности, так и эффективности. Оценивая алгоритмы устранения неоднозначности на Senseval- 2. Данные по всем словам английского языка имеют точность 58 % при использовании упрощенного алгоритма Леска по сравнению с 42 % при использовании исходного алгоритма.

Примечание: Василеску и др. реализация учитывает стратегию отката для слов, не охватываемых алгоритмом, состоящих из наиболее часто встречающихся значений, определенных в WordNet. Это означает, что слова, все их возможные значения которых не перекрываются с текущим контекстом или с другими определениями слов, по умолчанию имеют смысл номер один в WordNet» ^.

Упрощенный алгоритм LESK с интеллектуальным определением слов по умолчанию (Vasilescu et al., 2004) ^[6]

Функция COMPUTEOVERLAP возвращает количество общих слов в двух наборах, игнорируя функциональные слова или другие слова в стоп-листе. Исходный алгоритм Леска определяет контекст более сложным образом.

Критика

К сожалению, подход Леска очень чувствителен к точным формулировкам определений, поэтому отсутствие определенного слова может радикально изменить результаты. Далее алгоритм определяет совпадения только среди толкований рассматриваемых смыслов. Это существенное ограничение, поскольку словарные толкования, как правило, довольно кратки и не содержат достаточного словарного запаса для передачи тонких смысловых различий.

Появилось много работ, предлагающих различные модификации этого алгоритма. В этих работах используются другие ресурсы для анализа (тезаурусы, словари синонимов или морфологические и синтаксические модели): например, может использоваться такая информация, как синонимы, различные производные или слова из определений слов из определений. ^[7]

Варианты леска

Оригинальный Леск (Леск, 1986)
Адаптированный/расширенный леск (Банерджи и Педерсон, 2002/2003): В алгоритме адаптивного леска создается вектор слов, соответствующий каждому слову содержания в глоссе wordnet. Объединение толкований связанных понятий в WordNet можно использовать для расширения этого вектора. Вектор содержит количество совпадений слов, встречающихся одновременно с w в большом корпусе. Добавление всех векторов слов для всех слов содержания в его глоссе создает вектор глосса g для понятия. Родственность определяется путем сравнения вектора блеска с использованием косинусной меры сходства. ^[8]

Существует множество исследований, касающихся Lesk и его расширений: ^[9]

Уилкс и Стивенсон, 1998, 1999 гг.;
Махеш и др., 1997;
Коуи и др., 1992;
Яровский, 1992;
Пук и Кэтлетт, 1988 г.;
Килгаррифф и Розенсвейг, 2000 г.;
Квонг, 2001 г.;
Нэстасе и Шпаковиц, 2001 г.;
Гельбух и Сидоров, 2004.

Смотрите также

Викискладе есть медиафайлы, связанные с алгоритмом Леска.