Распределительная семантика

Дистрибутивная семантика ^[1] — это область исследований, которая разрабатывает и изучает теории и методы количественной оценки и категоризации семантических сходств между языковыми элементами на основе их дистрибутивных свойств в больших выборках языковых данных. Основная идея дистрибутивной семантики может быть суммирована в так называемой дистрибутивной гипотезе: языковые элементы со схожим распределением имеют схожие значения.

Распределительная гипотеза

Распределительная гипотеза в лингвистике вытекает из семантической теории использования языка, то есть слова, которые используются и встречаются в одних и тех же контекстах , как правило, имеют схожие значения. ^[2]

Основная идея о том, что «слово характеризуется компанией, которую оно составляет», была популяризирована Фёртом в 1950-х годах. ^[3]

Распределительная гипотеза является основой статистической семантики . Хотя распределительная гипотеза возникла в лингвистике, ^[4] в настоящее время она привлекает внимание когнитивной науки, особенно в отношении контекста использования слов. ^[5]

В последние годы гипотеза распределения легла в основу теории обобщения на основе сходства в изучении языка: идея о том, что дети могут понять, как использовать слова, с которыми они редко сталкивались раньше, обобщая их использование на основе распределений похожих слов. ^[6]^[7]

Дистрибутивная гипотеза предполагает, что чем более семантически схожи два слова, тем более схожими они будут и дистрибутивно, и, следовательно, тем чаще они будут встречаться в схожих языковых контекстах.

Независимо от того, верно ли это предположение, оно имеет важное значение как для проблемы разреженности данных в вычислительном моделировании ^[8], так и для вопроса о том, как дети способны так быстро изучать язык, имея относительно скудные входные данные (это также известно как проблема скудности стимула ).

Распределительное семантическое моделирование в векторных пространствах

Распределительная семантика отдает предпочтение использованию линейной алгебры в качестве вычислительного инструмента и репрезентативной структуры. Основной подход заключается в сборе распределительной информации в многомерных векторах и определении распределительного/семантического сходства в терминах векторного сходства. ^[9] Различные виды сходства могут быть извлечены в зависимости от того, какой тип распределительной информации используется для сбора векторов: тематические сходства могут быть извлечены путем заполнения векторов информацией о том, в каких текстовых областях встречаются языковые элементы; парадигматические сходства могут быть извлечены путем заполнения векторов информацией о том, с какими другими языковыми элементами эти элементы встречаются совместно. Обратите внимание, что последний тип векторов также может быть использован для извлечения синтагматических сходств путем рассмотрения отдельных векторных компонентов.

Основная идея корреляции между дистрибутивным и семантическим сходством может быть операционализирована многими различными способами. Существует богатое разнообразие вычислительных моделей, реализующих дистрибутивную семантику, включая латентный семантический анализ (LSA), ^[10]^[11] гиперпространственный аналог языка (HAL), модели на основе синтаксиса или зависимостей, ^[12] случайное индексирование , семантическое сворачивание ^[13] и различные варианты тематической модели . ^[14]

Распределительные семантические модели различаются в основном по следующим параметрам:

Тип контекста (текстовые области против языковых элементов)
Контекстное окно (размер, расширение и т. д.)
Частотное взвешивание (например , энтропия , точечная взаимная информация , ^[15] и т. д.)
Сокращение размерности (например, случайное индексирование , разложение по сингулярным значениям и т. д.)
Мера сходства (например, косинусное сходство , расстояние Минковского и т. д.)

Распределительные семантические модели, которые используют лингвистические элементы в качестве контекста, также называются моделями пространства слов или векторного пространства . ^[16]^[17]

За пределами лексической семантики

В то время как распределительная семантика обычно применялась к лексическим элементам — словам и многословным терминам — со значительным успехом, не в последнюю очередь из-за ее применимости в качестве входного слоя для нейронных моделей глубокого обучения, лексическая семантика , т. е. значение слов, будет нести только часть семантики всего высказывания. Значение предложения, например, «Тигры любят кроликов» , может быть понято лишь частично путем изучения значения трех лексических элементов, из которых оно состоит. Распределительная семантика может быть напрямую расширена для охвата более крупных языковых элементов, таких как конструкции, с неконкретизированными элементами и без них, но некоторые из базовых предположений модели необходимо несколько скорректировать. Грамматика конструкций и ее формулировка лексико-синтаксического континуума предлагают один подход для включения более сложных конструкций в распределительную семантическую модель, и некоторые эксперименты были реализованы с использованием подхода случайного индексирования. ^[18]

Композиционные дистрибутивные семантические модели расширяют дистрибутивные семантические модели явными семантическими функциями, которые используют синтаксически основанные правила для объединения семантики участвующих лексических единиц в композиционную модель для характеристики семантики целых фраз или предложений. Эта работа была первоначально предложена Стивеном Кларком, Бобом Коке и Мехрнуш Садрзаде из Оксфордского университета в их статье 2008 года «Композиционная дистрибутивная модель смысла». ^[19] Были изучены различные подходы к композиции, включая нейронные модели, и они обсуждаются на известных семинарах, таких как SemEval . ^[20]

Приложения

Распределительные семантические модели успешно применялись для решения следующих задач:

нахождение семантического сходства между словами и многословными выражениями;
кластеризация слов на основе семантического сходства;
автоматическое создание тезаурусов и двуязычных словарей;
устранение неоднозначности смысла слова ;
расширение поисковых запросов с использованием синонимов и ассоциаций;
определение темы документа;
кластеризация документов для поиска информации ;
интеллектуальный анализ данных и распознавание именованных сущностей ;
создание семантических карт различных предметных областей;
перефразирование ;
анализ настроений ;
моделирование селективных предпочтений слов.

Программное обеспечение

S-пространство
СемантическиеВекторы
Генсим
ДИСКО-строитель
Индра

Смотрите также

Люди

Ссылки

^ Ленчи, Алессандро; Сальгрен, Магнус (2023). Распределительная семантика . Издательство Кембриджского университета. ISBN 9780511783692.
^ Харрис 1954
^ Ферт 1957
^ Сальгрен 2008
^ Макдональд и Рамскар 2001
^ Глейтман 2002
^ Ярлетт 2008
^ Уишарт, Райдер; Прокопидис, Прокопис (2017). Эксперименты по моделированию тем в эллинистических корпусах (PDF) . Труды семинара по корпусам в цифровых гуманитарных науках 17. S2CID 9191936.
^ Ригер 1991
^ Дирвестер и др. 1990
^ Ландауэр, Томас К.; Дюмейс, Сьюзен Т. (1997). «Решение проблемы Платона: теория латентного семантического анализа приобретения, индукции и представления знаний». Psychological Review . 104 (2): 211–240. doi :10.1037/0033-295x.104.2.211.
^ Падо и Лапата 2007
^ Де Соуза Веббер, Франциско (2015). «Теория семантической складчатости и ее применение в семантической дактилоскопии». arXiv : 1511.08855 [cs.AI].
^ Джордан, Майкл И.; Нг, Эндрю Й.; Блей, Дэвид М. (2003). «Скрытое распределение Дирихле». Журнал исследований машинного обучения . 3 (январь): 993–1022.
^ Чёрч, Кеннет Уорд; Хэнкс, Патрик (1989). «Нормы словесных ассоциаций, взаимная информация и лексикография». Труды 27-го ежегодного собрания Ассоциации компьютерной лингвистики . Морристаун, Нью-Джерси, США: Ассоциация компьютерной лингвистики: 76–83. doi : 10.3115/981623.981633 .
^ Шютце 1993
^ Сальгрен 2006
^ Карлгрен, Юсси; Канерва, Пентти (июль 2019 г.). «Высокоразмерные распределенные семантические пространства для высказываний». Natural Language Engineering . 25 (4): 503–517. arXiv : 2104.00424 . doi :10.1017/S1351324919000226. S2CID 201141249.
^ Кларк, Стивен; Коек, Боб; Садрзаде, Мехрнуш (2008). «Композиционно-распределительная модель смысла» (PDF) . Труды Второго симпозиума по квантовому взаимодействию : 133–140.
^ "SemEval-2014, Задача 1".

Источники

Харрис, З. (1954). «Распределительная структура». Word . 10 (23): 146–162. doi :10.1080/00437956.1954.11659520.
Фёрт, Дж. Р. (1957). «Краткий обзор лингвистической теории 1930–1955 гг.». Исследования по лингвистическому анализу : 1–32.Перепечатано в FR Palmer, ed. (1968). Избранные труды Дж. Р. Фирта 1952-1959 . Лондон: Longman.
Ленчи, Алессандро; Сальгрен, Магнус (2023). Распределительная семантика . Издательство Кембриджского университета. ISBN 9780511783692.
Sahlgren, Magnus (2008). "The Distributional Hypothesis" (PDF) . Rivista di Linguistica . 20 (1): 33–53. Архивировано из оригинала (PDF) 2012-03-15 . Получено 2010-12-10 .
Макдональд, С.; Рамскар, М. (2001). «Проверка гипотезы распределения: влияние контекста на суждения о семантическом сходстве». Труды 23-й ежегодной конференции Общества когнитивной науки . С. 611–616. CiteSeerX 10.1.1.104.7535 .
Глейтман, Лила Р. (2002). «Глаголы пера собираются в стаю II». Наследие Зеллига Харриса . Текущие вопросы лингвистической теории. Том 1. С. 209–229. doi :10.1075/cilt.228.17gle. ISBN 978-90-272-4736-0.
Ярлетт, Д. (2008). Изучение языка с помощью обобщения на основе сходства (PDF) (диссертация). Стэнфордский университет. Архивировано из оригинала (PDF) 2014-04-19 . Получено 2012-07-12 .
Ригер, Бургхард Б. (1991). О распределенных представлениях в семантике слов (PDF) (Отчет). ICSI Berkeley 12-1991. CiteSeerX 10.1.1.37.7976 .
Deerwester, Scott; Dumais, Susan T.; Furnas, George W.; Landauer, Thomas K.; Harshman, Richard (1990). "Индексирование с помощью латентного семантического анализа" (PDF) . Журнал Американского общества информационной науки . 41 (6): 391–407. CiteSeerX 10.1.1.33.2447 . doi :10.1002/(SICI)1097-4571(199009)41:6<391::AID-ASI1>3.0.CO;2-9. Архивировано из оригинала (PDF) 2012-07-17.
Падо, Себастьян; Лапата, Мирелла (2007). «Построение моделей семантического пространства на основе зависимостей». Computational Linguistics . 33 (2): 161–199. doi : 10.1162/coli.2007.33.2.161 . S2CID 7747235.
Шютце, Хинрих (1993). «Пространство слов». Достижения в области нейронных систем обработки информации 5 . стр. 895–902. CiteSeerX 10.1.1.41.8856 .
Sahlgren, Magnus (2006). The Word-Space Model (PDF) (диссертация). Стокгольмский университет. Архивировано из оригинала (PDF) 2012-06-19 . Получено 2012-11-26 .
Томас Ландауэр; Сьюзен Т. Дюмейс. "Решение проблемы Платона: теория латентного семантического анализа приобретения, индукции и представления знаний" . Получено 2007-07-02 .
Кевин Ланд; Курт Берджесс; Рут Энн Этчли (1995). Семантическое и ассоциативное праймирование в многомерном семантическом пространстве . Труды по когнитивной науке. С. 660–665.
Кевин Ланд; Курт Берджесс (1996). «Создание многомерных семантических пространств из лексической совместности». Методы исследования поведения, инструменты и компьютеры . 28 (2): 203–208. doi : 10.3758/bf03204766 .

Внешние ссылки

Зеллиг С. Харрис