stringtranslate.com

Семантическая складчатость

Теория семантической складки описывает процедуру кодирования семантики текста на естественном языке в семантически обоснованном бинарном представлении . Этот подход обеспечивает основу для моделирования того, как языковые данные обрабатываются неокортексом . [ 1]

Теория

Теория семантической складчатости черпает вдохновение из работы Дугласа Р. Хофштадтера « Аналогия как ядро ​​познания» , которая предполагает, что мозг осмысливает мир, выявляя и применяя аналогии . [2] Теория выдвигает гипотезу, что семантические данные должны быть введены в неокортекс в такой форме, которая позволяет применять меру сходства , и предлагает в качестве решения разреженный двоичный вектор, использующий двумерное топографическое семантическое пространство в качестве распределительной системы отсчета. Теория основывается на вычислительной теории человеческой коры, известной как иерархическая временная память (HTM), и позиционирует себя как дополнительную теорию для представления языковой семантики.

Особое преимущество этого подхода заключается в том, что полученное двоичное представление позволяет просто и эффективно выполнять сложные семантические операции на самом базовом вычислительном уровне.

Двумерное семантическое пространство

Аналогично структуре неокортекса, теория семантической складчатости постулирует реализацию семантического пространства в виде двумерной сетки. Эта сетка заполняется контекстными векторами [примечание 1] таким образом, чтобы размещать похожие контекстные векторы ближе друг к другу, например, используя принципы конкурентного обучения. Эта модель векторного пространства представлена ​​в теории как эквивалент известной модели пространства слов [3], описанной в литературе по поиску информации .

При наличии семантического пространства (реализованного, как описано выше) для любого заданного слова Y можно получить вектор слова [примечание 2], используя следующий алгоритм :

Для каждой позиции X в семантической карте (где X представляет собой декартовы координаты ) , если слово Y содержится в векторе контекста в позиции X , то добавьте 1 к соответствующей позиции в векторе слова для Y,  иначе добавьте 0 к соответствующей позиции в векторе слова для Y.

Результатом этого процесса будет вектор слов, содержащий все контексты, в которых появляется слово Y, и, следовательно, будет представлять семантику этого слова в семантическом пространстве. Можно увидеть, что полученный вектор слов также находится в формате разреженного распределенного представления (SDR) [Schütze, 1993] и [Sahlgreen, 2006]. [3] [4] Некоторые свойства SDR-слов, которые представляют особый интерес с точки зрения вычислительной семантики : [5]

Семантические пространства

Семантические пространства [примечание 3] [6] в области естественного языка направлены на создание представлений естественного языка, которые способны улавливать смысл. Первоначальная мотивация семантических пространств исходит из двух основных проблем естественного языка: несоответствие словарного запаса (тот факт, что одно и то же значение может быть выражено многими способами) и неоднозначность естественного языка (тот факт, что один и тот же термин может иметь несколько значений).

Применение семантических пространств в обработке естественного языка (NLP) направлено на преодоление ограничений подходов, основанных на правилах или моделях, работающих на уровне ключевых слов . Главным недостатком этих подходов является их хрупкость и большие ручные усилия, необходимые для создания систем NLP, основанных на правилах, или учебных корпусов для обучения моделей. [7] [8] Модели, основанные на правилах и машинном обучении , фиксируются на уровне ключевых слов и выходят из строя, если словарь отличается от определенного в правилах или от учебного материала, используемого для статистических моделей.

Исследования семантических пространств начались более 20 лет назад. В 1996 году были опубликованы две статьи, которые привлекли большое внимание к общей идее создания семантических пространств: латентный семантический анализ [9] от Microsoft и Hyperspace Analogue to Language [10] от Калифорнийского университета . Однако их принятие было ограничено большими вычислительными усилиями, необходимыми для построения и использования этих семантических пространств. Прорыв в отношении точности моделирования ассоциативных связей между словами (например, «паутина», «зажигалка-сигарета», в отличие от синонимичных связей, таких как «кит-дельфин», «астронавт-водитель») был достигнут с помощью явного семантического анализа (ESA) [11] в 2007 году. ESA был новым (не машинным обучением) подходом, который представлял слова в виде векторов со 100 000 измерений (где каждое измерение представляет собой статью в Википедии ). Однако практическое применение подхода ограничено из-за большого количества требуемых измерений в векторах.

Совсем недавно достижения в области нейронных сетей в сочетании с другими новыми подходами ( тензорами ) привели к появлению множества новых разработок: Word2vec [12] от Google и GloVe [13] от Стэнфордского университета .

Семантическое сворачивание представляет собой новый, биологически вдохновленный подход к семантическим пространствам, где каждое слово представлено как разреженный двоичный вектор с 16 000 измерений (семантический отпечаток) в двумерной семантической карте (семантическая вселенная). Разреженное двоичное представление выгодно с точки зрения вычислительной эффективности и позволяет хранить очень большое количество возможных шаблонов. [5]

Визуализация

Семантическое изображение отпечатка пальца, сравнивающее термины «собака» и «автомобиль».
Семантическое изображение отпечатка пальца, сравнивающее термины «jaguar» и «Porsche»

Топологическое распределение по двумерной сетке (описанное выше) подходит для визуализации семантики любого слова или текста в виде растрового изображения , где каждая активная семантическая функция может быть отображена, например, как пиксель . Как видно на изображениях, показанных здесь, это представление позволяет проводить прямое визуальное сравнение семантики двух (или более) языковых элементов.

Изображение 1 наглядно демонстрирует, что два разных термина «собака» и «автомобиль» имеют, как и ожидалось, совершенно разную семантику.

Изображение 2 показывает, что только один из контекстов значения слова «jaguar», а именно «Jaguar» (автомобиль), совпадает со значением слова Porsche (что указывает на частичное сходство). Другие контексты значения слова «jaguar», например, «jaguar» (животное), явно имеют различные неперекрывающиеся контексты. Визуализация семантического сходства с использованием Semantic Folding имеет сильное сходство с изображениями фМРТ , полученными в исследовании, проведенном AG Huth et al. [14] [15] , где утверждается, что слова группируются в мозге по значению. Было обнаружено, что воксели , небольшие сегменты мозга, следуют шаблону, где семантическая информация представлена ​​вдоль границы зрительной коры, а визуальные и лингвистические категории представлены на задней и передней стороне соответственно. [16] [17] [18]

Примечания

  1. ^ Контекстный вектор определяется как вектор, содержащий все слова в определенном контексте.
  2. ^ В теории семантической свертки вектор слова или SDR-слово называется семантическим отпечатком.
  3. ^ также называется распределенными семантическими пространствами или распределенной семантической памятью

Ссылки

  1. ^ Де Соуза Веббер, Франциско (2015). «Теория семантической складчатости и ее применение в семантической дактилоскопии». Библиотека Корнелльского университета . arXiv : 1511.08855 . Bibcode : 2015arXiv151108855D.
  2. Аналоговый ум. Книга Брэдфорда. 2 марта 2001 г. ISBN 9780262072069. Получено 18.04.2016 . {{cite book}}: |website=проигнорировано ( помощь )
  3. ^ аб Салгрин, Магнус (2006). «Модель словесного пространства».
  4. ^ Шютце, Хинрих (1993). «Пространство слов»: 895–902. CiteSeerX 10.1.1.41.8856 .  {{cite journal}}: Цитировать журнал требует |journal=( помощь )
  5. ^ ab Subutai Ahmad; Jeff Hawkins (2015). «Свойства разреженных распределенных представлений и их применение к иерархической временной памяти». arXiv : 1503.07469 [q-bio.NC].
  6. ^ Барони, Марко; Ленчи, Алессандро (2010). «Распределительная память: общая структура для корпусной семантики». Computational Linguistics . 36 (4): 673–721. CiteSeerX 10.1.1.331.3769 . doi :10.1162/coli_a_00016. S2CID  5584134. 
  7. ^ Скотт К. Дирвестер; Сьюзен Т. Дюмейс; Томас К. Ландауэр; Джордж У. Фурнас; Ричард А. Харшен (1990). "Индексирование с помощью латентного семантического анализа" (PDF) . Журнал Американского общества информационной науки .
  8. ^ Син Вэй; В. Брюс Крофт (2007). «Исследование производительности поиска с помощью вручную созданных тематических моделей». Труды RIAO '07 Крупномасштабный семантический доступ к контенту (текст, изображение, видео и звук) . Riao '07: 333–349.
  9. ^ "LSA: Решение проблемы Платона". lsa.colorado.edu . Получено 2016-04-19 .
  10. ^ Ланд, Кевин; Берджесс, Курт (1996-06-01). «Создание многомерных семантических пространств из лексической совместности». Методы исследования поведения, инструменты и компьютеры . 28 (2): 203–208. doi : 10.3758/BF03204766 . ISSN  0743-3808.
  11. ^ Евгений Габрилович и Шауль Маркович (2007). «Вычисление семантической связанности с использованием явного семантического анализа на основе Википедии» (PDF) . Труды 20-й Международной совместной конференции по искусственному интеллекту (IJCAI). С. 1606–1611 .
  12. ^ Томас Миколов; Илья Суцкевер; Кай Чен; Грег Коррадо; Джеффри Дин (2013). «Распределенные представления слов и фраз и их композиционность». arXiv : 1310.4546 [cs.CL].
  13. ^ Джеффри Пеннингтон; Ричард Сохер; Кристофер Д. Мэннинг (2014). «GloVe: Глобальные векторы для представления слов» (PDF) .
  14. ^ Хут, Александр (27 апреля 2016 г.). «Естественная речь раскрывает семантические карты, покрывающие кору головного мозга человека». Nature . 532 (7600): 453–458. Bibcode :2016Natur.532..453H. doi :10.1038/nature17637. PMC 4852309 . PMID  27121839. 
  15. ^ "Мозг". gallantlab.org . Получено 2022-02-16 .
  16. ^ Попхэм, Сара Ф.; Хут, Александр Г.; Биленко, Наталья Ю.; Дениз, Фатма; Гао, Джеймс С.; Нуньес-Элизальде, Анвар О.; Галлант, Джек Л. (11 августа 2021 г.). «Визуальные и лингвистические семантические представления выровнены на границе зрительной коры человека». Nature Neuroscience . 24 (11): 1628–1636. doi :10.1038/s41593-021-00921-6. ISSN  1097-6256. PMID  34711960. S2CID  240152854.
  17. ^ Стил, Адам; Биллингс, Мадлен М.; Силсон, Эдвард Х.; Робертсон, Кэролайн Э. (2021-05-11). «Сеть, связывающая системы восприятия сцены и пространственной памяти в задней коре головного мозга». Nature Communications . 12 (1): 2632. Bibcode :2021NatCo..12.2632S. doi :10.1038/s41467-021-22848-z. ISSN  2041-1723. PMC 8113503 . PMID  33976141. 
  18. ^ Цепелевич, Джордана (2022-02-08). «Новая карта смысла в мозге меняет представления о памяти». Журнал Quanta . Получено 2022-02-16 .