stringtranslate.com

Смысловая индукция

В компьютерной лингвистике индукция смысла слова (WSI) или дискриминация являются открытой проблемой обработки естественного языка , которая касается автоматической идентификации смыслов слова ( т.е. значений ) . Учитывая, что результатом индукции смысла слова является набор смыслов целевого слова (инвентаризация смыслов), эта задача строго связана с задачей устранения смысловой неоднозначности (WSD), которая опирается на заранее определенный набор смыслов и направлена ​​на решение многозначность слов в контексте .

Подходы и методы

Результатом работы алгоритма индукции смысла слова является кластеризация контекстов, в которых встречается целевое слово, или кластеризация слов, связанных с целевым словом. В литературе предложены три основных метода: [1] [2]

Кластеризация контекста

Основная гипотеза этого подхода заключается в том, что слова семантически схожи , если они встречаются в похожих документах, в аналогичных контекстных окнах или в схожих синтаксических контекстах. [3] Каждое появление целевого слова в корпусе представляется как вектор контекста . Эти векторы контекста могут быть либо векторами первого порядка, которые непосредственно представляют имеющийся контекст, либо векторами второго порядка, т. е. контексты целевого слова схожи, если их слова имеют тенденцию встречаться вместе. Затем векторы группируются в группы, каждая из которых определяет смысл целевого слова. Хорошо известным подходом к кластеризации контекста является алгоритм дискриминации контекстной группы [4], основанный на методах вычисления больших матриц.

Кластеризация слов

Кластеризация слов — это другой подход к индукции значений слов. Он состоит из группировок слов, которые семантически схожи и, таким образом, могут нести определенное значение. Алгоритм Лина [5] представляет собой прототипный пример кластеризации слов, основанный на статистике синтаксических зависимостей, которые встречаются в корпусе для создания наборов слов для каждого обнаруженного смысла целевого слова. [6] Кластеризация по комитету (CBC) [7] также использует синтаксические контексты, но использует матрицу сходства для кодирования сходства между словами и полагается на понятие комитетов для вывода различных значений интересующего слова. Эти подходы трудно реализовать в больших масштабах для многих областей и языков.

Графики совпадения

Основная гипотеза графов совместного появления предполагает, что семантика слова может быть представлена ​​с помощью графа совместного появления , вершины которого являются отношениями совместного появления, а ребра — отношениями совместного появления. Эти подходы связаны с методами кластеризации слов, где совпадения между словами могут быть получены на основе грамматических [8] или коллокационных отношений. [9] HyperLex — это успешный подход графового алгоритма, основанный на идентификации концентраторов в графах совместного появления, которым приходится справляться с необходимостью настройки большого количества параметров. [10] Для решения этой проблемы было предложено несколько графовых алгоритмов, основанных на простых графовых шаблонах, а именно: кластеризация кривизны, квадраты, треугольники и ромбы (SquaT++) и сбалансированная максимальная кластеризация остовного дерева (B-MST). [11] Шаблоны направлены на идентификацию значений с использованием локальных структурных свойств графа совпадений. Рандомизированный алгоритм, который разбивает вершины графа путем итеративной передачи основного сообщения (т.е. смысла слова) в соседние вершины [12], называется «Китайский шепот». Было показано, что применение подходов на основе графов совпадений позволяет достичь самых современных показателей в стандартных задачах оценки.

Приложения

Программное обеспечение

Смотрите также

Рекомендации

  1. ^ Навильи, Р. (2009). «Устранение неоднозначности смысла слова: опрос» (PDF) . Обзоры вычислительной техники ACM . 41 (2): 1–69. дои : 10.1145/1459352.1459355. S2CID  461624.
  2. ^ Насируддин, М. (2013). Современное состояние индукции смысла слова: путь к устранению неоднозначности смысла слова для языков с ограниченными ресурсами (PDF) . TALN-RÉCITAL 2013. Ле Сабль д'Олон, Франция. стр. 192–205.
  3. ^ Ван де Круйс, Т. (2010). «Поиск смысла. Извлечение лексико-семантических знаний из текста» (PDF) .
  4. ^ Шютце, Х. (1998). Размеры смысла . 1992 Конференция ACM/IEEE по суперкомпьютерам. Лос-Аламитос, Калифорния: Издательство IEEE Computer Society Press. стр. 787–796. дои : 10.1109/SUPERC.1992.236684.
  5. ^ Лин, Д. (1998). Автоматический поиск и кластеризация похожих слов (PDF) . 17-я Международная конференция по компьютерной лингвистике (COLING). Монреаль, Канада. стр. 768–774.
  6. ^ Ван де Круйс, Тим; Апидианаки, Марианна (2011). «Индукция скрытого семантического смысла слова и устранение неоднозначности» (PDF) .
  7. ^ Лин, Д.; Пантель, П. (2002). Выявление значений слов из текста . 8-я Международная конференция по обнаружению знаний и интеллектуальному анализу данных (KDD). Эдмонтон, Канада. стр. 613–619. CiteSeerX 10.1.1.12.6771 . 
  8. ^ Виддоуз, Д.; Дороу, Б. (2002). Графовая модель для неконтролируемого лексического приобретения (PDF) . 19-я Международная конференция по компьютерной лингвистике (COLING). Тайбэй, Тайвань. стр. 1–7.
  9. ^ аб Веронис, Дж. (2004). «Hyperlex: Лексическая картография для поиска информации» (PDF) . Компьютерная речь и язык . 18 (3): 223–252. CiteSeerX 10.1.1.66.6499 . дои : 10.1016/j.csl.2004.05.002. 
  10. ^ Агирре, Э.; Мартинес, Д.; Де Лакаль, О. Лопес; Сороа, А. Два алгоритма на основе графов для современного WSD (PDF) . Конференция 2006 г. по эмпирическим методам обработки естественного языка (EMNLP). Сидней, Австралия. стр. 585–593.
  11. ^ Ди Марко, А.; Навильи, Р. (2013). «Кластеризация и диверсификация результатов веб-поиска с помощью графической индукции смысла слов» (PDF) . Компьютерная лингвистика . 39 (3): 709–754. дои : 10.1162/coli_a_00148. S2CID  1775181.
  12. ^ Биманн, К. (2006). «Китайский шепот — эффективный алгоритм кластеризации графов и его применение к задачам обработки естественного языка» (PDF) .
  13. ^ Навильи, Р.; Крисафулли, Г. Использование смысла слов для улучшения кластеризации результатов веб-поиска (PDF) . Конференция 2010 г. по эмпирическим методам обработки естественного языка (EMNLP 2010). Массачусетс, США: Статистический центр Массачусетского технологического института. стр. 116–126.
  14. ^ Насируддин, М.; Шваб, Д.; Чечмеджиев А.; Серассет, Г.; Бланшон, Х. Индукция чувства для обогащения лексических ресурсов (Индукция смысла слова для обогащения лексических ресурсов) (PDF) . 21-я конференция по автоматическому обучению естественных языков (TALN, 2014). Марсель, Франция. стр. 598–603.