stringtranslate.com

Индукция словесно-смыслового восприятия

В компьютерной лингвистике индукция смысла слова (WSI) или дискриминация является открытой проблемой обработки естественного языка , которая касается автоматического определения смыслов слова ( т. е. значений ). Учитывая, что вывод индукции смысла слова представляет собой набор смыслов для целевого слова (смысловой инвентарь), эта задача строго связана с задачей устранения неоднозначности смысла слова (WSD), которая опирается на предопределенный смысловой инвентарь и направлена ​​на разрешение неоднозначности слов в контексте.

Подходы и методы

Результатом алгоритма индукции смысла слова является кластеризация контекстов, в которых встречается целевое слово, или кластеризация слов, связанных с целевым словом. В литературе предложены три основных метода: [1] [2]

Контекстная кластеризация

Основная гипотеза этого подхода заключается в том, что слова семантически схожи , если они появляются в схожих документах, в схожих контекстных окнах или в схожих синтаксических контекстах. [3] Каждое вхождение целевого слова в корпусе представлено как вектор контекста . Эти векторы контекста могут быть либо векторами первого порядка, которые непосредственно представляют контекст под рукой, либо векторами второго порядка, т. е. контексты целевого слова схожи, если их слова имеют тенденцию встречаться вместе. Затем векторы группируются в группы, каждая из которых идентифицирует смысл целевого слова. Известным подходом к контекстной кластеризации является алгоритм дискриминации контекстных групп [4], основанный на методах вычисления больших матриц.

Кластеризация слов

Кластеризация слов — это другой подход к индукции смыслов слов. Он состоит из кластеризации слов, которые семантически схожи и, таким образом, могут иметь определенное значение. Алгоритм Лина [5] является прототипическим примером кластеризации слов, которая основана на статистике синтаксической зависимости, которая происходит в корпусе для создания наборов слов для каждого обнаруженного смысла целевого слова. [6] Кластеризация по комитету (CBC) [7] также использует синтаксические контексты, но использует матрицу сходства для кодирования сходств между словами и полагается на понятие комитетов для вывода различных смыслов интересующего слова. Эти подходы трудно получить в больших масштабах для многих доменов и языков.

Графики совместной встречаемости

Основная гипотеза графов совместной встречаемости предполагает, что семантика слова может быть представлена ​​с помощью графа совместной встречаемости , вершинами которого являются совместные встречаемости, а ребрами — отношения совместной встречаемости. Эти подходы связаны с методами кластеризации слов, где совместные встречаемости между словами могут быть получены на основе грамматических [8] или коллокационных отношений. [9] HyperLex — это успешные подходы графового алгоритма, основанные на идентификации концентраторов в графах совместной встречаемости, которые должны справляться с необходимостью настройки большого количества параметров. [10] Для решения этой проблемы было предложено несколько графовых алгоритмов, которые основаны на простых шаблонах графов, а именно Curvature Clustering, Squares, Triangles and Diamonds (SquaT++) и Balanced Maximum Spanning Tree Clustering (B-MST). [11] Шаблоны направлены на идентификацию значений с использованием локальных структурных свойств графа совместной встречаемости. Рандомизированный алгоритм, который разделяет вершины графа путем итеративной передачи основного сообщения (т. е. смысла слова) соседним вершинам [12], называется Chinese Whispers. Было показано, что применение подходов к графам совместного появления позволяет достичь самых современных показателей в стандартных задачах оценки.

Приложения

Программное обеспечение

Смотрите также

Ссылки

  1. ^ Навильи, Р. (2009). «Разрешение неоднозначности смысла слов: обзор» (PDF) . ACM Computing Surveys . 41 (2): 1–69. doi :10.1145/1459352.1459355. S2CID  461624.
  2. ^ Насируддин, М. (2013). Современное состояние индукции смысла слова: путь к устранению неоднозначности смысла слова для языков с ограниченными ресурсами (PDF) . TALN-RÉCITAL 2013. Ле Сабль д'Олон, Франция. стр. 192–205.
  3. ^ Ван де Круйс, Т. (2010). «Добыча смысла. Извлечение лексико-семантических знаний из текста» (PDF) .
  4. ^ Шютце, Х. (1998). Измерения смысла . Конференция ACM/IEEE по суперкомпьютерам 1992 года. Лос-Аламитос, Калифорния: IEEE Computer Society Press. стр. 787–796. doi :10.1109/SUPERC.1992.236684.
  5. ^ Лин, Д. (1998). Автоматический поиск и кластеризация похожих слов (PDF) . 17-я Международная конференция по компьютерной лингвистике (COLING). Монреаль, Канада. С. 768–774.
  6. ^ Ван де Крюйс, Тим; Апидианаки, Марианна (2011). «Скрытая семантическая индукция смысла слова и устранение неоднозначности» (PDF) .
  7. ^ Лин, Д.; Пантель, П. (2002). Обнаружение значений слов в тексте . 8-я Международная конференция по обнаружению знаний и интеллектуальному анализу данных (KDD). Эдмонтон, Канада. С. 613–619. CiteSeerX 10.1.1.12.6771 . 
  8. ^ Виддоуз, Д.; Дороу, Б. (2002). Графовая модель для неконтролируемого лексического усвоения (PDF) . 19-я Международная конференция по компьютерной лингвистике (COLING). Тайбэй, Тайвань. С. 1–7.
  9. ^ ab Véronis, J. (2004). "Hyperlex: Лексическая картография для поиска информации" (PDF) . Компьютерная речь и язык . 18 (3): 223–252. CiteSeerX 10.1.1.66.6499 . doi :10.1016/j.csl.2004.05.002. 
  10. ^ Агирре, Э.; Мартинес, Д.; Де Лакалле, О. Лопес; Сороа, А. Два графовых алгоритма для современных WSD (PDF) . Конференция 2006 г. по эмпирическим методам обработки естественного языка (EMNLP). Сидней, Австралия. С. 585–593.
  11. ^ Ди Марко, А.; Навильи, Р. (2013). «Кластеризация и диверсификация результатов веб-поиска с помощью индукции смысла слов на основе графов» (PDF) . Компьютерная лингвистика . 39 (3): 709–754. doi :10.1162/coli_a_00148. S2CID  1775181.
  12. ^ Биман, К. (2006). «Китайский шепот — эффективный алгоритм кластеризации графов и его применение к задачам обработки естественного языка» (PDF) .
  13. ^ Навильи, Р.; Крисафулли, Г. Использование смыслов слов для улучшения кластеризации результатов веб-поиска (PDF) . Конференция 2010 г. по эмпирическим методам обработки естественного языка (EMNLP 2010). Массачусетс, США: MIT Stata Center. стр. 116–126.
  14. ^ Насируддин, М.; Шваб, Д.; Чечмеджиев А.; Серассет, Г.; Бланшон, Х. Индукция чувства для обогащения лексических ресурсов (Индукция определения смысла слова для обогащения лексических ресурсов) (PDF) . 21-я конференция по автоматическому обучению естественных языков (TALN, 2014). Марсель, Франция. стр. 598–603.