Дистрибутивная семантика [1] — это область исследований, которая разрабатывает и изучает теории и методы количественной оценки и категоризации семантических сходств между языковыми элементами на основе их дистрибутивных свойств в больших выборках языковых данных. Основная идея дистрибутивной семантики может быть суммирована в так называемой дистрибутивной гипотезе: языковые элементы со схожим распределением имеют схожие значения.
Распределительная гипотеза в лингвистике вытекает из семантической теории использования языка, то есть слова, которые используются и встречаются в одних и тех же контекстах , как правило, имеют схожие значения. [2]
Основная идея о том, что «слово характеризуется компанией, которую оно составляет», была популяризирована Фёртом в 1950-х годах. [3]
Распределительная гипотеза является основой статистической семантики . Хотя распределительная гипотеза возникла в лингвистике, [4] в настоящее время она привлекает внимание когнитивной науки, особенно в отношении контекста использования слов. [5]
В последние годы гипотеза распределения легла в основу теории обобщения на основе сходства в изучении языка: идея о том, что дети могут понять, как использовать слова, с которыми они редко сталкивались раньше, обобщая их использование на основе распределений похожих слов. [6] [7]
Дистрибутивная гипотеза предполагает, что чем более семантически схожи два слова, тем более схожими они будут и дистрибутивно, и, следовательно, тем чаще они будут встречаться в схожих языковых контекстах.
Независимо от того, верно ли это предположение, оно имеет важное значение как для проблемы разреженности данных в вычислительном моделировании [8], так и для вопроса о том, как дети способны так быстро изучать язык, имея относительно скудные входные данные (это также известно как проблема скудности стимула ).
Распределительная семантика отдает предпочтение использованию линейной алгебры в качестве вычислительного инструмента и репрезентативной структуры. Основной подход заключается в сборе распределительной информации в многомерных векторах и определении распределительного/семантического сходства в терминах векторного сходства. [9] Различные виды сходства могут быть извлечены в зависимости от того, какой тип распределительной информации используется для сбора векторов: тематические сходства могут быть извлечены путем заполнения векторов информацией о том, в каких текстовых областях встречаются языковые элементы; парадигматические сходства могут быть извлечены путем заполнения векторов информацией о том, с какими другими языковыми элементами эти элементы встречаются совместно. Обратите внимание, что последний тип векторов также может быть использован для извлечения синтагматических сходств путем рассмотрения отдельных векторных компонентов.
Основная идея корреляции между дистрибутивным и семантическим сходством может быть операционализирована многими различными способами. Существует богатое разнообразие вычислительных моделей, реализующих дистрибутивную семантику, включая латентный семантический анализ (LSA), [10] [11] гиперпространственный аналог языка (HAL), модели на основе синтаксиса или зависимостей, [12] случайное индексирование , семантическое сворачивание [13] и различные варианты тематической модели . [14]
Распределительные семантические модели различаются в основном по следующим параметрам:
Распределительные семантические модели, которые используют лингвистические элементы в качестве контекста, также называются моделями пространства слов или векторного пространства . [16] [17]
В то время как распределительная семантика обычно применялась к лексическим элементам — словам и многословным терминам — со значительным успехом, не в последнюю очередь из-за ее применимости в качестве входного слоя для нейронных моделей глубокого обучения, лексическая семантика , т. е. значение слов, будет нести только часть семантики всего высказывания. Значение предложения, например, «Тигры любят кроликов» , может быть понято лишь частично путем изучения значения трех лексических элементов, из которых оно состоит. Распределительная семантика может быть напрямую расширена для охвата более крупных языковых элементов, таких как конструкции, с неконкретизированными элементами и без них, но некоторые из базовых предположений модели необходимо несколько скорректировать. Грамматика конструкций и ее формулировка лексико-синтаксического континуума предлагают один подход для включения более сложных конструкций в распределительную семантическую модель, и некоторые эксперименты были реализованы с использованием подхода случайного индексирования. [18]
Композиционные дистрибутивные семантические модели расширяют дистрибутивные семантические модели явными семантическими функциями, которые используют синтаксически основанные правила для объединения семантики участвующих лексических единиц в композиционную модель для характеристики семантики целых фраз или предложений. Эта работа была первоначально предложена Стивеном Кларком, Бобом Коке и Мехрнуш Садрзаде из Оксфордского университета в их статье 2008 года «Композиционная дистрибутивная модель смысла». [19] Были изучены различные подходы к композиции, включая нейронные модели, и они обсуждаются на известных семинарах, таких как SemEval . [20]
Распределительные семантические модели успешно применялись для решения следующих задач: