Теория семантической складки описывает процедуру кодирования семантики текста на естественном языке в семантически обоснованном бинарном представлении . Этот подход обеспечивает основу для моделирования того, как языковые данные обрабатываются неокортексом . [ 1]
Теория семантической складчатости черпает вдохновение из работы Дугласа Р. Хофштадтера « Аналогия как ядро познания» , которая предполагает, что мозг осмысливает мир, выявляя и применяя аналогии . [2] Теория выдвигает гипотезу, что семантические данные должны быть введены в неокортекс в такой форме, которая позволяет применять меру сходства , и предлагает в качестве решения разреженный двоичный вектор, использующий двумерное топографическое семантическое пространство в качестве распределительной системы отсчета. Теория основывается на вычислительной теории человеческой коры, известной как иерархическая временная память (HTM), и позиционирует себя как дополнительную теорию для представления языковой семантики.
Особое преимущество этого подхода заключается в том, что полученное двоичное представление позволяет просто и эффективно выполнять сложные семантические операции на самом базовом вычислительном уровне.
Аналогично структуре неокортекса, теория семантической складчатости постулирует реализацию семантического пространства в виде двумерной сетки. Эта сетка заполняется контекстными векторами [примечание 1] таким образом, чтобы размещать похожие контекстные векторы ближе друг к другу, например, используя принципы конкурентного обучения. Эта модель векторного пространства представлена в теории как эквивалент известной модели пространства слов [3], описанной в литературе по поиску информации .
При наличии семантического пространства (реализованного, как описано выше) для любого заданного слова Y можно получить вектор слова [примечание 2], используя следующий алгоритм :
Для каждой позиции X в семантической карте (где X представляет собой декартовы координаты ) , если слово Y содержится в векторе контекста в позиции X , то добавьте 1 к соответствующей позиции в векторе слова для Y, иначе добавьте 0 к соответствующей позиции в векторе слова для Y.
Результатом этого процесса будет вектор слов, содержащий все контексты, в которых появляется слово Y, и, следовательно, будет представлять семантику этого слова в семантическом пространстве. Можно увидеть, что полученный вектор слов также находится в формате разреженного распределенного представления (SDR) [Schütze, 1993] и [Sahlgreen, 2006]. [3] [4] Некоторые свойства SDR-слов, которые представляют особый интерес с точки зрения вычислительной семантики : [5]
Семантические пространства [примечание 3] [6] в области естественного языка направлены на создание представлений естественного языка, которые способны улавливать смысл. Первоначальная мотивация семантических пространств исходит из двух основных проблем естественного языка: несоответствие словарного запаса (тот факт, что одно и то же значение может быть выражено многими способами) и неоднозначность естественного языка (тот факт, что один и тот же термин может иметь несколько значений).
Применение семантических пространств в обработке естественного языка (NLP) направлено на преодоление ограничений подходов, основанных на правилах или моделях, работающих на уровне ключевых слов . Главным недостатком этих подходов является их хрупкость и большие ручные усилия, необходимые для создания систем NLP, основанных на правилах, или учебных корпусов для обучения моделей. [7] [8] Модели, основанные на правилах и машинном обучении , фиксируются на уровне ключевых слов и выходят из строя, если словарь отличается от определенного в правилах или от учебного материала, используемого для статистических моделей.
Исследования семантических пространств начались более 20 лет назад. В 1996 году были опубликованы две статьи, которые привлекли большое внимание к общей идее создания семантических пространств: латентный семантический анализ [9] от Microsoft и Hyperspace Analogue to Language [10] от Калифорнийского университета . Однако их принятие было ограничено большими вычислительными усилиями, необходимыми для построения и использования этих семантических пространств. Прорыв в отношении точности моделирования ассоциативных связей между словами (например, «паутина», «зажигалка-сигарета», в отличие от синонимичных связей, таких как «кит-дельфин», «астронавт-водитель») был достигнут с помощью явного семантического анализа (ESA) [11] в 2007 году. ESA был новым (не машинным обучением) подходом, который представлял слова в виде векторов со 100 000 измерений (где каждое измерение представляет собой статью в Википедии ). Однако практическое применение подхода ограничено из-за большого количества требуемых измерений в векторах.
Совсем недавно достижения в области нейронных сетей в сочетании с другими новыми подходами ( тензорами ) привели к появлению множества новых разработок: Word2vec [12] от Google и GloVe [13] от Стэнфордского университета .
Семантическое сворачивание представляет собой новый, биологически вдохновленный подход к семантическим пространствам, где каждое слово представлено как разреженный двоичный вектор с 16 000 измерений (семантический отпечаток) в двумерной семантической карте (семантическая вселенная). Разреженное двоичное представление выгодно с точки зрения вычислительной эффективности и позволяет хранить очень большое количество возможных шаблонов. [5]
Топологическое распределение по двумерной сетке (описанное выше) подходит для визуализации семантики любого слова или текста в виде растрового изображения , где каждая активная семантическая функция может быть отображена, например, как пиксель . Как видно на изображениях, показанных здесь, это представление позволяет проводить прямое визуальное сравнение семантики двух (или более) языковых элементов.
Изображение 1 наглядно демонстрирует, что два разных термина «собака» и «автомобиль» имеют, как и ожидалось, совершенно разную семантику.
Изображение 2 показывает, что только один из контекстов значения слова «jaguar», а именно «Jaguar» (автомобиль), совпадает со значением слова Porsche (что указывает на частичное сходство). Другие контексты значения слова «jaguar», например, «jaguar» (животное), явно имеют различные неперекрывающиеся контексты. Визуализация семантического сходства с использованием Semantic Folding имеет сильное сходство с изображениями фМРТ , полученными в исследовании, проведенном AG Huth et al. [14] [15] , где утверждается, что слова группируются в мозге по значению. Было обнаружено, что воксели , небольшие сегменты мозга, следуют шаблону, где семантическая информация представлена вдоль границы зрительной коры, а визуальные и лингвистические категории представлены на задней и передней стороне соответственно. [16] [17] [18]
{{cite book}}
: |website=
проигнорировано ( помощь ){{cite journal}}
: Цитировать журнал требует |journal=
( помощь )