Метод обработки естественного языка
В обработке естественного языка встраивание слов — это представление слова. Встраивание используется в анализе текста. Обычно представление — это вектор с действительными значениями , который кодирует значение слова таким образом, что слова, которые находятся ближе в векторном пространстве, как ожидается, будут иметь схожее значение. [1] Встраивание слов можно получить с помощью моделирования языка и методов изучения признаков , где слова или фразы из словаря сопоставляются с векторами действительных чисел .
Методы создания этого отображения включают нейронные сети , [2] уменьшение размерности матрицы совместного появления слов , [3] [4] [5] вероятностные модели, [6] метод объяснимой базы знаний, [7] и явное представление в терминах контекста, в котором появляются слова. [8]
Было показано, что встраивание слов и фраз, когда оно используется в качестве базового входного представления, повышает производительность в задачах обработки естественного языка, таких как синтаксический анализ [9] и анализ настроений . [10]
Развитие и история подхода
В дистрибутивной семантике количественный методологический подход к пониманию значения в наблюдаемом языке, вложения слов или модели семантического пространства признаков использовались в качестве представления знаний в течение некоторого времени. [11] Такие модели направлены на количественную оценку и категоризацию семантических сходств между языковыми элементами на основе их дистрибутивных свойств в больших выборках языковых данных. Основная идея о том, что «слово характеризуется компанией, которую оно поддерживает», была предложена в статье 1957 года Джоном Рупертом Фиртом [12] , но также имеет корни в современных работах по поисковым системам [13] и в когнитивной психологии. [14]
Понятие семантического пространства с лексическими элементами (словами или многословными терминами), представленными в виде векторов или вложений, основано на вычислительных задачах захвата характеристик распределения и использования их для практического применения для измерения сходства между словами, фразами или целыми документами. Первое поколение моделей семантического пространства — это модель векторного пространства для поиска информации. [15] [16] [17] Такие модели векторного пространства для слов и их данных распределения, реализованные в их простейшей форме, приводят к очень разреженному векторному пространству высокой размерности (ср. проклятие размерности ). Уменьшение количества измерений с использованием линейных алгебраических методов, таких как разложение по сингулярным значениям , затем привело к введению латентного семантического анализа в конце 1980-х годов и подхода случайной индексации для сбора контекстов совместного появления слов. [18] [19] [20] [21] В 2000 году Бенджио и др. представлено в серии статей под названием «Нейронные вероятностные языковые модели» для уменьшения высокой размерности представлений слов в контекстах путем «обучения распределенному представлению слов». [22] [23] [24]
Исследование, опубликованное в NeurIPS (NIPS) 2002, представило использование вложений слов и документов с применением метода ядра CCA к двуязычным (и многоязычным) корпусам, а также предоставило ранний пример самостоятельного обучения вложениям слов. [25]
Встраивание слов бывает двух разных стилей: в одном слова выражаются как векторы совместно встречающихся слов, а в другом слова выражаются как векторы лингвистических контекстов, в которых встречаются слова; эти разные стили изучаются в работе Лавелли и др., 2004. [26] Роуайс и Сол опубликовали в журнале Science статью о том, как использовать « локально линейное встраивание » (LLE) для обнаружения представлений многомерных структур данных. [27] Большинство новых методов встраивания слов после 2005 года полагаются на архитектуру нейронной сети вместо более вероятностных и алгебраических моделей после основополагающей работы, проделанной Йошуа Бенджио [28] [ циклическая ссылка ] и коллегами. [29] [30]
Этот подход был принят многими исследовательскими группами после того, как в 2010 году были достигнуты теоретические успехи в отношении качества векторов и скорости обучения модели, а также после того, как достижения в области аппаратного обеспечения позволили с выгодой исследовать более широкое пространство параметров . В 2013 году команда Google под руководством Томаса Миколова создала word2vec , набор инструментов для встраивания слов, который может обучать модели векторного пространства быстрее, чем предыдущие подходы. Подход word2vec широко использовался в экспериментах и сыграл важную роль в повышении интереса к встраиванию слов как к технологии, переместив исследовательское направление из специализированных исследований в более широкие эксперименты и в конечном итоге проложив путь для практического применения. [31]
Полисемия и омонимия
Исторически одним из основных ограничений статических вложений слов или моделей векторного пространства слов является то, что слова с несколькими значениями объединяются в одно представление (один вектор в семантическом пространстве). Другими словами, полисемия и омонимия не обрабатываются должным образом. Например, в предложении «Клуб, который я попробовал вчера, был великолепен!» неясно, связан ли термин клуб со значением слова сэндвич с клубом , клубный дом , гольф-клуб или любым другим значением, которое может иметь клуб . Необходимость размещения нескольких значений одного слова в разных векторах (многосмысловые вложения) является мотивацией для нескольких вкладов в НЛП для разделения вложений с одним смыслом на многосмысловые. [32] [33]
Большинство подходов, которые производят многосмысловые встраивания, можно разделить на две основные категории по их представлению смысла слова, т. е. неконтролируемые и основанные на знаниях. [34] Основываясь на word2vec skip-gram, Multi-Sense Skip-Gram (MSSG) [35] выполняет различение смысла слова и встраивание одновременно, улучшая время обучения, при этом предполагая определенное количество смыслов для каждого слова. В непараметрической Multi-Sense Skip-Gram (NP-MSSG) это количество может варьироваться в зависимости от каждого слова. Объединяя предыдущие знания лексических баз данных (например, WordNet , ConceptNet , BabelNet ), встраивания слов и устранения неоднозначности смысла слова , Most Suitable Sense Annotation (MSSA) [36] маркирует смыслы слов с помощью неконтролируемого и основанного на знаниях подхода, рассматривая контекст слова в предопределенном скользящем окне. После устранения неоднозначности слова могут быть использованы в стандартной технике встраивания слов, так что производятся многосмысловые встраивания. Архитектура MSSA позволяет процессу устранения неоднозначности и аннотирования выполняться повторно в самосовершенствующейся манере. [37]
Известно, что использование многосмысловых вложений улучшает производительность в нескольких задачах обработки естественного языка, таких как разметка частей речи , идентификация семантических отношений, семантическая связанность , распознавание именованных сущностей и анализ настроений. [38] [39]
В конце 2010-х годов были разработаны контекстно-значимые вложения, такие как ELMo и BERT . [40] В отличие от статических вложений слов, эти вложения находятся на уровне токенов, в том смысле, что каждое вхождение слова имеет свое собственное вложение. Эти вложения лучше отражают многосмысловую природу слов, поскольку вхождения слова в схожих контекстах расположены в схожих областях пространства вложений BERT. [41] [42]
Для биологических последовательностей: BioVectors
Асгари и Мофрад предложили вложения слов для n- грамм в биологических последовательностях (например, ДНК, РНК и белки) для приложений биоинформатики . [43] Названные био-векторами (BioVec) для обозначения биологических последовательностей в целом с белковыми векторами (ProtVec) для белков (аминокислотных последовательностей) и генными векторами (GeneVec) для генных последовательностей, это представление может широко использоваться в приложениях глубокого обучения в протеомике и геномике . Результаты, представленные Асгари и Мофрадом [43], предполагают, что BioVectors могут характеризовать биологические последовательности с точки зрения биохимических и биофизических интерпретаций базовых шаблонов.
Игровой дизайн
Вложения слов с приложениями в игровом дизайне были предложены Рабием и Куком [44] как способ обнаружения эмерджентного игрового процесса с использованием журналов игровых данных. Процесс требует транскрибирования действий, которые происходят во время игры, в формальном языке , а затем использования полученного текста для создания вложений слов. Результаты, представленные Рабием и Куком [44], предполагают, что полученные векторы могут захватывать экспертные знания об играх, таких как шахматы , которые явно не указаны в правилах игры.
Вложения предложений
Идея была расширена до встраивания целых предложений или даже документов, например, в форме концепции векторов мыслей . В 2015 году некоторые исследователи предложили «векторы пропуска мыслей» в качестве средства улучшения качества машинного перевода . [45] Более недавний и популярный подход к представлению предложений — Sentence-BERT или SentenceTransformers, который модифицирует предварительно обученный BERT с использованием сиамских и триплетных сетевых структур. [46]
Программное обеспечение
Программное обеспечение для обучения и использования векторных представлений слов включает в себя Word2vec Томаша Миколова , GloVe Стэнфордского университета , [47] GN-GloVe, [48] Flair embeddings, [38] ELMo AllenNLP , [49] BERT , [50] fastText , Gensim , [51] Indra, [52] и Deeplearning4j . Анализ главных компонент (PCA) и T-распределенное стохастическое соседнее вложение (t-SNE) используются для уменьшения размерности векторных пространств слов и визуализации векторных представлений слов и кластеров . [53]
Примеры применения
Например, fastText также используется для расчета вложений слов в текстовых корпусах в Sketch Engine , которые доступны онлайн. [54]
Этические последствия
Вложения слов могут содержать предубеждения и стереотипы, содержащиеся в обученном наборе данных, как Болукбаси и др. указывают в статье 2016 года «Мужчина для программиста то же, что женщина для домохозяйки? Устранение предубеждений вложений слов», что общедоступное (и популярное) вложение word2vec, обученное на текстах Google News (общеупотребительный корпус данных), которое состоит из текста, написанного профессиональными журналистами, по-прежнему показывает непропорциональные ассоциации слов, отражающие гендерные и расовые предубеждения при извлечении аналогий слов. [55] Например, одна из аналогий, созданных с использованием вышеупомянутого вложения слов, — «мужчина для программиста то же, что женщина для домохозяйки». [56] [57]
Исследование, проведенное Цзею Чжоу и др., показывает, что применение этих обученных вложений слов без тщательного контроля, вероятно, увековечивает существующую предвзятость в обществе, которая вводится через неизмененные обучающие данные. Более того, вложения слов могут даже усиливать эти предвзятости. [58] [59]
Смотрите также
Ссылки
- ^ Jurafsky, Daniel; H. James, Martin (2000). Обработка речи и языка: введение в обработку естественного языка, компьютерную лингвистику и распознавание речи. Upper Saddle River, NJ: Prentice Hall. ISBN 978-0-13-095069-7.
- ^ Миколов, Томас; Суцкевер, Илья; Чен, Кай; Коррадо, Грег; Дин, Джеффри (2013). «Распределенные представления слов и фраз и их композиционность». arXiv : 1310.4546 [cs.CL].
- ^ Лебре, Реми; Коллобер, Ронан (2013). «Встраивание слов с помощью PCA Хеллингера». Конференция Европейского отделения Ассоциации компьютерной лингвистики (EACL) . Том 2014. arXiv : 1312.5542 .
- ^ Леви, Омер; Голдберг, Йоав (2014). Нейронное встраивание слов как неявная матричная факторизация (PDF) . NIPS.
- ^ Ли, Итан; Сюй, Линьли (2015). Повторное рассмотрение вложений слов: новая перспектива обучения представлениям и явной матричной факторизации (PDF) . Международная конференция по искусственному интеллекту (IJCAI).
- ^ Глоберсон, Амир (2007). "Евклидово вложение данных о совместном появлении" (PDF) . Журнал исследований машинного обучения .
- ^ Куреши, М. Атиф; Грин, Дерек (2018-06-04). «EVE: объяснимая векторная техника встраивания с использованием Википедии». Журнал интеллектуальных информационных систем . 53 : 137–165. arXiv : 1702.06891 . doi : 10.1007/s10844-018-0511-x. ISSN 0925-9902. S2CID 10656055.
- ^ Леви, Омер; Голдберг, Йоав (2014). Лингвистические закономерности в разреженных и явных представлениях слов (PDF) . CoNLL. стр. 171–180.
- ^ Socher, Richard; Bauer, John; Manning, Christopher; Ng, Andrew (2013). Parsing with compositional vector grammars (PDF) . Proc. ACL Conf. Архивировано из оригинала (PDF) 2016-08-11 . Получено 2014-08-14 .
- ^ Сохер, Ричард; Перелыгин, Алекс; Ву, Джин; Чуанг, Джейсон; Мэннинг, Крис; Нг, Эндрю; Поттс, Крис (2013). Рекурсивные глубинные модели для семантической композиционности в древовидном банке настроений (PDF) . EMNLP.
- ^ Сальгрен, Магнус. «Краткая история вложений слов».
- ^ Фирт, Дж. Р. (1957). «Краткий обзор лингвистической теории 1930–1955 гг.». Исследования по лингвистическому анализу : 1–32.Перепечатано в FR Palmer, ed. (1968). Избранные труды Дж. Р. Фирта 1952–1959 . Лондон: Longman.
- ^ Лун, HP (1953). «Новый метод записи и поиска информации». Американская документация . 4 : 14–16. doi :10.1002/asi.5090040104.
- ^ Осгуд, CE; Сучи, GJ; Танненбаум, PH (1957). Измерение смысла . Издательство Иллинойсского университета.
- ^ Salton, Gerard (1962). "Некоторые эксперименты по генерации ассоциаций слов и документов". Труды 4-6 декабря 1962 года, осенняя совместная компьютерная конференция - AFIPS '62 (осень) . стр. 234–250. doi : 10.1145/1461518.1461544 . ISBN 9781450378796. S2CID 9937095.
- ^ Salton, Gerard; Wong, A; Yang, CS (1975). «Модель векторного пространства для автоматического индексирования». Communications of the ACM . 18 (11): 613–620. doi :10.1145/361219.361220. hdl : 1813/6057 . S2CID 6473756.
- ^ Дубин, Дэвид (2004). «Самая влиятельная статья, которую Джерард Солтон никогда не писал». Архивировано из оригинала 18 октября 2020 г. Получено 18 октября 2020 г.
- ^ Канерва, Пентти, Кристоферсон, Ян и Хольст, Андерс (2000): Случайное индексирование образцов текста для латентного семантического анализа, Труды 22-й ежегодной конференции Общества когнитивной науки, стр. 1036. Махвах, Нью-Джерси: Erlbaum, 2000.
- ^ Карлгрен, Юсси; Салгрен, Магнус (2001). Уэсака, Ёсинори; Канерва, Пентти; Асо, Хидеки (ред.). «От слов к пониманию». Основы реального интеллекта . Публикации CSLI: 294–308.
- ^ Сальгрен, Магнус (2005) Введение в случайное индексирование, Труды семинара по методам и приложениям семантического индексирования на 7-й Международной конференции по терминологии и инженерии знаний, TKE 2005, 16 августа, Копенгаген, Дания
- ^ Сальгрен, Магнус, Хольст, Андерс и Пентти Канерва (2008) Перестановки как средство кодирования порядка в пространстве слов, в трудах 30-й ежегодной конференции Общества когнитивной науки: 1300–1305.
- ^ Бенжио, Йошуа; Режан, Дюшарм; Паскаль, Винсент (2000). «Нейронная вероятностная языковая модель» (PDF) . NeurIPS .
- ^ Бенжио, Йошуа ; Дюшарм, Режан; Винсент, Паскаль; Жовен, Кристиан (2003). «Нейронная вероятностная языковая модель» (PDF) . Журнал исследований машинного обучения . 3 : 1137–1155.
- ^ Бенджио, Йошуа; Швенк, Хольгер; Сенекаль, Жан-Себастьен; Морен, Фредерик; Говен, Жан-Люк (2006). «Нейронно-вероятностная языковая модель». Исследования нечеткости и мягких вычислений . Том. 194. Спрингер. стр. 137–186. дои : 10.1007/3-540-33486-6_6. ISBN 978-3-540-30609-2.
- ^ Винкуров, Алексей; Кристианини, Нелло; Шоу-Тейлор, Джон (2002). Вывод семантического представления текста с помощью кросс-языкового корреляционного анализа (PDF) . Достижения в области нейронных систем обработки информации. Том 15.
- ^ Лавелли, Альберто; Себастьяни, Фабрицио; Заноли, Роберто (2004). Представления терминов распределения: экспериментальное сравнение . 13-я Международная конференция ACM по управлению информацией и знаниями. стр. 615–624. doi :10.1145/1031171.1031284.
- ^ Роуайс, Сэм Т.; Сол, Лоуренс К. (2000). «Нелинейное снижение размерности путем локально-линейного вложения». Science . 290 (5500): 2323–6. Bibcode :2000Sci...290.2323R. CiteSeerX 10.1.1.111.3313 . doi :10.1126/science.290.5500.2323. PMID 11125150. S2CID 5987139.
- ^ он:יהושע בנג'יו
- ^ Морин, Фредрик; Бенджио, Йошуа (2005). «Модель языка иерархической вероятностной нейронной сети» (PDF) . В Коуэлле, Роберте Г.; Гахрамани, Зубине (ред.). Труды Десятого международного семинара по искусственному интеллекту и статистике . Труды исследований машинного обучения. Том R5. С. 246–252.
- ^ Мних, Андрей; Хинтон, Джеффри (2009). «Масштабируемая иерархическая распределенная языковая модель». Достижения в области нейронных систем обработки информации . 21 (NIPS 2008). Curran Associates, Inc.: 1081–1088.
- ^ "word2vec". Архив Google Code . Получено 23 июля 2021 г.
- ^ Рейзингер, Джозеф; Муни, Рэймонд Дж. (2010). Многопрототипные модели векторного пространства значений слов. Том. Технологии человеческого языка: Ежегодная конференция 2010 года Североамериканского отделения Ассоциации компьютерной лингвистики. Лос-Анджелес, Калифорния: Ассоциация компьютерной лингвистики. С. 109–117. ISBN 978-1-932432-65-7. Получено 25 октября 2019 г. .
- ^ Хуан, Эрик. (2012). Улучшение представлений слов с помощью глобального контекста и множественных прототипов слов . OCLC 857900050.
- ^ Камачо-Колладос, Хосе; Пилехвар, Мохаммад Тахер (2018). «От слов к смысловым вложениям: обзор векторных представлений смысла». arXiv : 1805.04032 [cs.CL].
- ^ Нилакантан, Арвинд; Шанкар, Дживан; Пассос, Александр; МакКаллум, Эндрю (2014). «Эффективная непараметрическая оценка множественных вложений на слово в векторном пространстве». Труды конференции 2014 года по эмпирическим методам обработки естественного языка (EMNLP) . Страудсбург, Пенсильвания, США: Ассоциация компьютерной лингвистики. стр. 1059–1069. arXiv : 1504.06654 . doi :10.3115/v1/d14-1113. S2CID 15251438.
- ^ Руас, Терри; Гроски, Уильям; Айзава, Акико (2019-12-01). «Многосмысловые вложения посредством процесса устранения неоднозначности смысла слова». Экспертные системы с приложениями . 136 : 288–303. arXiv : 2101.08700 . doi : 10.1016/j.eswa.2019.06.026. hdl : 2027.42/145475 . ISSN 0957-4174. S2CID 52225306.
- ^ Агре, Геннадий; Петров, Даниэль; Кескинова, Симона (2019-03-01). "Word Sense Disambiguation Studio: гибкая система для извлечения признаков WSD". Информация . 10 (3): 97. doi : 10.3390/info10030097 . ISSN 2078-2489.
- ^ ab Akbik, Alan; Blythe, Duncan; Vollgraf, Roland (2018). «Контекстные вложения строк для маркировки последовательностей». Труды 27-й Международной конференции по компьютерной лингвистике . Санта-Фе, Нью-Мексико, США: Ассоциация компьютерной лингвистики: 1638–1649.
- ^ Ли, Цзивэй; Джурафски, Дэн (2015). «Улучшают ли многосмысловые вложения понимание естественного языка?». Труды конференции 2015 года по эмпирическим методам обработки естественного языка . Страудсбург, Пенсильвания, США: Ассоциация компьютерной лингвистики. стр. 1722–1732. arXiv : 1506.01070 . doi :10.18653/v1/d15-1200. S2CID 6222768.
- ^ Девлин, Джейкоб; Чанг, Мин-Вэй; Ли, Кентон; Тутанова, Кристина (июнь 2019 г.). «Труды конференции Севера 2019 г.». Труды конференции Североамериканского отделения Ассоциации компьютерной лингвистики 2019 г.: Технологии человеческого языка, том 1 (длинные и короткие статьи) . Ассоциация компьютерной лингвистики: 4171–4186. doi :10.18653/v1/N19-1423. S2CID 52967399.
- ^ Люси, Ли и Дэвид Бэмман. «Характеристика вариативности английского языка в сообществах социальных сетей с помощью BERT». Труды Ассоциации компьютерной лингвистики 9 (2021): 538-556.
- ^ Рейф, Эмили, Энн Юань, Мартин Ваттенберг, Фернанда Б. Виегас, Энди Коенен, Адам Пирс и Бин Ким. «Визуализация и измерение геометрии BERT». Достижения в области нейронных систем обработки информации 32 (2019).
- ^ ab Asgari, Ehsaneddin; Mofrad, Mohammad RK (2015). "Непрерывное распределенное представление биологических последовательностей для глубокой протеомики и геномики". PLOS ONE . 10 (11): e0141287. arXiv : 1503.05140 . Bibcode : 2015PLoSO..1041287A. doi : 10.1371/journal.pone.0141287 . PMC 4640716. PMID 26555596 .
- ^ ab Rabii, Younès; Cook, Michael (2021-10-04). «Раскрытие динамики игры с помощью вложений слов в данные игрового процесса». Труды конференции AAAI по искусственному интеллекту и интерактивным цифровым развлечениям . 17 (1): 187–194. doi : 10.1609/aiide.v17i1.18907 . ISSN 2334-0924. S2CID 248175634.
- ^ Кирос, Райан; Чжу, Юкунь; Салахутдинов Руслан; Земель, Ричард С.; Торральба, Антонио; Уртасун, Ракель; Фидлер, Саня (2015). «векторы пропуска мысли». arXiv : 1506.06726 [cs.CL].
- ^ Реймерс, Нильс и Ирина Гуревич. «Sentence-BERT: Встраивание предложений с использованием сиамских BERT-сетей». В трудах конференции 2019 года по эмпирическим методам обработки естественного языка и 9-й Международной совместной конференции по обработке естественного языка (EMNLP-IJCNLP), стр. 3982-3992. 2019.
- ^ "Перчатка".
- ^ Чжао, Цзеюй; и др. (2018) (2018). «Изучение гендерно-нейтральных вложений слов». arXiv : 1809.01496 [cs.CL].
- ^ "Элмо". 16 октября 2024 г.
- ^ Пирес, Тельмо; Шлингер, Ева; Гарретт, Дэн (2019-06-04). «Насколько многоязычен многоязычный BERT?». arXiv : 1906.01502 [cs.CL].
- ^ "Генсим".
- ^ «Индра». Гитхаб . 25 октября 2018 г.
- ^ Гассеми, Мохаммад; Марк, Роджер; Немати, Шамим (2015). «Визуализация развития клинического настроения с использованием векторных представлений клинических заметок» (PDF) . Конференция по вычислениям в кардиологии 2015 г. (CinC) . Том 2015 г. стр. 629–632. doi :10.1109/CIC.2015.7410989. ISBN 978-1-5090-0685-4. PMC 5070922 . PMID 27774487.
- ^ "Embedding Viewer". Embedding Viewer . Lexical Computing. Архивировано из оригинала 8 февраля 2018 года . Получено 7 февраля 2018 года .
- ^ Болукбаси, Толга; Чанг, Кай-Вэй; Цзоу, Джеймс; Салиграма, Венкатеш; Калай, Адам (2016). «Мужчина для программиста то же, что женщина для домохозяйки? Исправление вложений слов». arXiv : 1607.06520 [cs.CL].
- ^ Болукбаси, Толга; Чанг, Кай-Вэй; Цзоу, Джеймс; Салиграма, Венкатеш; Калай, Адам (2016-07-21). «Мужчина для программиста то же, что женщина для домохозяйки? Исправление вложений слов». arXiv : 1607.06520 [cs.CL].
- ^ Диенг, Аджи Б.; Руис, Франциско Дж. Р.; Блей, Дэвид М. (2020). «Моделирование тем в пространствах вложений». Труды Ассоциации компьютерной лингвистики . 8 : 439–453. arXiv : 1907.04907 . doi : 10.1162/tacl_a_00325.
- ^ Чжао, Цзеюй; Ван, Тяньлу; Яцкар, Марк; Ордонез, Висенте; Чан, Кай-Вэй (2017). «Мужчины также любят шопинг: снижение усиления гендерных предубеждений с помощью ограничений на уровне корпуса». Труды конференции 2017 года по эмпирическим методам обработки естественного языка . стр. 2979–2989. doi :10.18653/v1/D17-1323.
- ^ Петрески, Давор; Хашим, Ибрагим С. (2022-05-26). «Внедрения слов предвзяты. Но чью предвзятость они отражают?». AI & Society . 38 (2): 975–982. doi : 10.1007/s00146-022-01443-w . ISSN 1435-5655. S2CID 249112516.