Встраивание слов

В обработке естественного языка (NLP) встраивание слова — это представление слова. Встраивание используется при анализе текста. Обычно представление представляет собой вектор с действительным знаком, который кодирует значение слова таким образом, что ожидается, что слова, находящиеся ближе в векторном пространстве, будут схожи по значению. ^[1] Встраивание слов можно получить с помощью языкового моделирования и методов обучения функциям , при которых слова или фразы из словаря сопоставляются с векторами действительных чисел .

Методы создания этого отображения включают нейронные сети , ^[2] уменьшение размерности матрицы совпадения слов , ^[3]^[4]^[5] вероятностные модели, ^[6] метод объяснимой базы знаний, ^[7] и явное представление в терминах. контекста, в котором появляются слова. ^[8]

Было показано, что встраивание слов и фраз, когда они используются в качестве основного представления входных данных, повышает производительность в задачах НЛП, таких как синтаксический анализ ^[9] и анализ настроений . ^[10]

Развитие и история подхода

В дистрибутивной семантике в качестве представления знаний в течение некоторого времени использовался количественный методологический подход к пониманию значения наблюдаемого языка, встраивания слов или моделей семантического пространства признаков . ^[11] Такие модели направлены на количественную оценку и классификацию семантических сходств между лингвистическими элементами на основе их свойств распределения в больших выборках языковых данных. Основная идея о том, что «слово характеризуется компанией, которую оно содержит», была предложена в статье Джона Руперта Ферта 1957 года ^[12] , но также имеет корни в современных работах над поисковыми системами ^[13] и в когнитивной психологии. ^[14]

Понятие семантического пространства с лексическими элементами (словами или терминами из нескольких слов), представленными в виде векторов или вложений, основано на вычислительных задачах, связанных с фиксацией характеристик распределения и их использованием для практического применения для измерения сходства между словами, фразами или целыми документами. Первым поколением моделей семантического пространства является модель векторного пространства для поиска информации. ^[15]^[16]^[17] Такие модели векторного пространства для слов и данных их распределения, реализованные в их простейшей форме, приводят к очень разреженному векторному пространству высокой размерности (см. « Проклятие размерности »). Уменьшение количества измерений с использованием линейных алгебраических методов, таких как разложение по сингулярным значениям, затем привело к введению скрытого семантического анализа в конце 1980-х годов и подхода случайной индексации для сбора контекстов совместного появления слов. ^[18]^[19]^[20]^[21] В 2000 году Бенджио и др. представленные в серии статей под названием «Нейро-вероятностные языковые модели», чтобы уменьшить высокую размерность представлений слов в контекстах путем «изучения распределенного представления слов». ^[22]^[23]^[24]

В исследовании, опубликованном в журнале NeurIPS (NIPS) 2002, было представлено использование встраивания слов и документов с применением метода ядра CCA к двуязычным (и многоязычным) корпусам, что также представляет собой ранний пример самостоятельного изучения встраивания слов ^[25]

Встраивание слов бывает двух разных стилей: в одном слова выражаются как векторы одновременно встречающихся слов, а в другом слова выражаются как векторы лингвистических контекстов, в которых эти слова встречаются; эти различные стили изучаются в Лавелли и др., 2004. ^[26] Ровейс и Сол опубликовали в журнале Science , как использовать « локальное линейное встраивание » (LLE) для обнаружения представлений многомерных структур данных. ^[27] Большинство новых методов встраивания слов, появившихся примерно после 2005 года, основаны на архитектуре нейронных сетей, а не на более вероятностных и алгебраических моделях, после фундаментальной работы, проделанной Йошуа Бенджио и его коллегами. ^[28]^[29]

Этот подход был принят многими исследовательскими группами после того, как в 2010 году были достигнуты теоретические достижения в отношении качества векторов и скорости обучения модели, а также после того, как достижения в оборудовании позволили с пользой изучить более широкое пространство параметров. В 2013 году команда Google под руководством Томаса Миколова создала word2vec — набор инструментов для встраивания слов, который может обучать модели векторного пространства быстрее, чем предыдущие подходы. Подход word2vec широко использовался в экспериментах и сыграл важную роль в повышении интереса к встраиванию слов как технологии, выведя направление исследований из специализированных исследований в более широкое экспериментирование и, в конечном итоге, проложив путь для практического применения. ^[30]

Полисемия и омонимия

Исторически сложилось так, что одним из основных ограничений статических вложений слов или моделей векторного пространства слов является то, что слова с несколькими значениями объединяются в одно представление (один вектор в семантическом пространстве). Другими словами, полисемия и омонимия не обрабатываются должным образом. Например, в предложении «Клуб, который я пробовал вчера, был великолепен!» Неясно, связан ли термин « клуб» со значением слова « клубный сэндвич », «клуб », «клюшка для гольфа » или с любым другим значением, которое может иметь клуб . Необходимость размещения нескольких значений одного слова в разных векторах (многосмысловые вложения) является мотивацией для нескольких вкладов в НЛП, направленных на разделение односмысловых вложений на многосмысловые. ^[31]^[32]

Большинство подходов, которые создают многосмысловые встраивания, можно разделить на две основные категории по смысловому представлению слов: неконтролируемые и основанные на знаниях. ^[33] На основе пропуска-граммы word2vec Multi-Sense Skip-Gram (MSSG) ^[34] одновременно выполняет распознавание смысла слова и встраивание, сокращая время обучения, предполагая при этом определенное количество смыслов для каждого слова. В непараметрической многозначной пропускной грамме (NP-MSSG) это число может варьироваться в зависимости от каждого слова. Сочетая предварительные знания лексических баз данных (например, WordNet , ConceptNet , BabelNet ), встраивания слов и устранения неоднозначности смысла слов , наиболее подходящая смысловая аннотация (MSSA) ^[35] маркирует значения слов с помощью неконтролируемого и основанного на знаниях подхода, принимая во внимание смысл слова. контекст в заранее определенном скользящем окне. Как только слова устранены, их можно использовать в стандартной технике встраивания слов, таким образом создаются многозначные встраивания. Архитектура MSSA позволяет периодически выполнять процесс устранения неоднозначности и аннотирования в режиме самоусовершенствования. ^[36]

Известно, что использование многозначных вложений повышает производительность при решении некоторых задач НЛП, таких как маркировка частей речи , идентификация семантических отношений, семантическая связанность , распознавание именованных объектов и анализ настроений. ^[37]^[38]

По состоянию на конец 2010-х годов были разработаны контекстуально значимые встраивания, такие как ELMo и BERT . ^[39] В отличие от статических вложений слов, эти вложения выполняются на уровне токена, поскольку каждое вхождение слова имеет свое собственное встраивание. Эти вложения лучше отражают многозначную природу слов, поскольку вхождения слова в схожих контекстах расположены в аналогичных областях пространства встраивания BERT. ^[40]^[41]

Для биологических последовательностей: BioVectors

Вложения слов для n- грамм в биологические последовательности (например, ДНК, РНК и белки) для приложений биоинформатики были предложены Асгари и Мофрадом. ^[42] Названные биовекторами (BioVec) для обозначения биологических последовательностей в целом, белковыми векторами (ProtVec) для белков (аминокислотные последовательности) и генными векторами (GeneVec) для генных последовательностей, это представление может широко использоваться в применение глубокого обучения в протеомике и геномике . Результаты, представленные Асгари и Мофрадом ^[42], предполагают, что BioVectors могут характеризовать биологические последовательности с точки зрения биохимических и биофизических интерпретаций лежащих в их основе закономерностей.

Игровой дизайн

Встраивание слов в приложения в игровом дизайне было предложено Рабии и Куком ^[43] как способ обнаружения возникающего игрового процесса с использованием журналов данных игрового процесса. Этот процесс требует расшифровки действий, происходящих во время игры, на формальном языке , а затем использования полученного текста для создания вложений слов. Результаты, представленные Рабии и Куком ^[43], предполагают, что полученные векторы могут отражать экспертные знания о таких играх, как шахматы , которые явно не указаны в правилах игры.

Вложения предложений

Идея была расширена до встраивания целых предложений или даже документов, например, в форме концепции векторов мысли . В 2015 году некоторые исследователи предложили «пропустить векторы мысли» как средство повышения качества машинного перевода . ^[44] Более свежий и популярный подход для представления предложений — это Sentence-BERT или SentenceTransformers, который модифицирует предварительно обученный BERT с использованием сиамских и триплетных сетевых структур. ^[45]

Программное обеспечение

Программное обеспечение для обучения и использования векторных представлений слов включает Word2vec Томаша Миколова , GloVe Стэнфордского университета , ^[46] GN-GloVe, ^[47] Flair embeddings, ^[37]ELMo AllenNLP , ^[48]BERT , ^[49]fastText , Gensim , ^{[ 50]} Индра, ^[51] и Deeplearning4j . Анализ главных компонентов (PCA) и T-распределенное стохастическое встраивание соседей (t-SNE) используются для уменьшения размерности пространств векторов слов и визуализации вложений слов и кластеров . ^[52]

Примеры применения

Например, fastText также используется для расчета встраивания слов в корпуса текстов в Sketch Engine , которые доступны в Интернете. ^[53]

Этические последствия

Встраивание слов может содержать предубеждения и стереотипы, содержащиеся в обученном наборе данных, как утверждают Bolukbasi et al. отмечает в статье 2016 года «Мужчина для программиста, как женщина для домохозяйки?» Debiasing Word Embeddings», которое общедоступное (и популярное) встраивание word2vec, обученное на текстах Новостей Google (обычно используемый корпус данных), который состоит из текста, написанного профессиональными журналистами, по-прежнему показывает непропорциональные словесные ассоциации, отражающие гендерные и расовые предубеждения при извлечении словесных аналогий. . ^[54] Например, одна из аналогий, полученных с использованием вышеупомянутого встраивания слов, звучит так: «мужчина для программиста, как женщина для домохозяйки». ^[55] ^[56]

Исследование, проведенное Jieyu Zhou et al. показывает, что применение этих обученных вложений слов без тщательного контроля, вероятно, увековечивает существующую предвзятость в обществе, которая привносится через неизмененные данные обучения. Более того, встраивание слов может даже усилить эти предубеждения. ^[57]^[58]