В компьютерной лингвистике индукция смысла слова (WSI) или дискриминация является открытой проблемой обработки естественного языка , которая касается автоматического определения смыслов слова ( т. е. значений ). Учитывая, что вывод индукции смысла слова представляет собой набор смыслов для целевого слова (смысловой инвентарь), эта задача строго связана с задачей устранения неоднозначности смысла слова (WSD), которая опирается на предопределенный смысловой инвентарь и направлена на разрешение неоднозначности слов в контексте.
Результатом алгоритма индукции смысла слова является кластеризация контекстов, в которых встречается целевое слово, или кластеризация слов, связанных с целевым словом. В литературе предложены три основных метода: [1] [2]
Основная гипотеза этого подхода заключается в том, что слова семантически схожи , если они появляются в схожих документах, в схожих контекстных окнах или в схожих синтаксических контекстах. [3] Каждое вхождение целевого слова в корпусе представлено как вектор контекста . Эти векторы контекста могут быть либо векторами первого порядка, которые непосредственно представляют контекст под рукой, либо векторами второго порядка, т. е. контексты целевого слова схожи, если их слова имеют тенденцию встречаться вместе. Затем векторы группируются в группы, каждая из которых идентифицирует смысл целевого слова. Известным подходом к контекстной кластеризации является алгоритм дискриминации контекстных групп [4], основанный на методах вычисления больших матриц.
Кластеризация слов — это другой подход к индукции смыслов слов. Он состоит из кластеризации слов, которые семантически схожи и, таким образом, могут иметь определенное значение. Алгоритм Лина [5] является прототипическим примером кластеризации слов, которая основана на статистике синтаксической зависимости, которая происходит в корпусе для создания наборов слов для каждого обнаруженного смысла целевого слова. [6] Кластеризация по комитету (CBC) [7] также использует синтаксические контексты, но использует матрицу сходства для кодирования сходств между словами и полагается на понятие комитетов для вывода различных смыслов интересующего слова. Эти подходы трудно получить в больших масштабах для многих доменов и языков.
Основная гипотеза графов совместной встречаемости предполагает, что семантика слова может быть представлена с помощью графа совместной встречаемости , вершинами которого являются совместные встречаемости, а ребрами — отношения совместной встречаемости. Эти подходы связаны с методами кластеризации слов, где совместные встречаемости между словами могут быть получены на основе грамматических [8] или коллокационных отношений. [9] HyperLex — это успешные подходы графового алгоритма, основанные на идентификации концентраторов в графах совместной встречаемости, которые должны справляться с необходимостью настройки большого количества параметров. [10] Для решения этой проблемы было предложено несколько графовых алгоритмов, которые основаны на простых шаблонах графов, а именно Curvature Clustering, Squares, Triangles and Diamonds (SquaT++) и Balanced Maximum Spanning Tree Clustering (B-MST). [11] Шаблоны направлены на идентификацию значений с использованием локальных структурных свойств графа совместной встречаемости. Рандомизированный алгоритм, который разделяет вершины графа путем итеративной передачи основного сообщения (т. е. смысла слова) соседним вершинам [12], называется Chinese Whispers. Было показано, что применение подходов к графам совместного появления позволяет достичь самых современных показателей в стандартных задачах оценки.