Модель языка

Языковая модель — вероятностная модель естественного языка. ^[1] В 1980 году была предложена первая значимая статистическая языковая модель, и в течение десятилетия IBM проводила эксперименты в стиле « Шеннона », в которых потенциальные источники улучшения языкового моделирования были выявлены путем наблюдения и анализа результатов людей в прогнозировании или исправлении текста. ^[2]

Языковые модели полезны для различных задач, включая распознавание речи ^[3] (помогая предотвратить предсказания маловероятных (например, бессмысленных) последовательностей), машинный перевод , ^[4] генерацию естественного языка (генерацию более похожего на человеческий текст), оптическое распознавание символов , оптимизацию маршрута , ^[5] распознавание рукописного текста , ^[6] индукцию грамматики , ^[7] и поиск информации . ^[8]^[9]

Большие языковые модели , в настоящее время их самая продвинутая форма, представляют собой комбинацию больших наборов данных (часто использующих слова, взятые из общедоступного интернета), нейронных сетей прямого распространения и трансформаторов . Они вытеснили рекуррентные модели на основе нейронных сетей, которые ранее вытеснили чистые статистические модели, такие как языковая модель на основе слов n -грамм .

Чисто статистические модели

Модели, основанные на словен-граммы

Модель языка на основе n -грамм слов является чисто статистической моделью языка. Она была заменена моделями на основе рекуррентных нейронных сетей , которые были заменены большими языковыми моделями . ^[10] Она основана на предположении, что вероятность следующего слова в последовательности зависит только от фиксированного размера окна предыдущих слов. Если рассматривалось только одно предыдущее слово, она называлась моделью биграммы; если два слова, то моделью триграммы; если n − 1 слов, то моделью n -граммы. ^[11] Были введены специальные токены для обозначения начала и конца предложения и . $\langle s\rangle$ $\langle /s\rangle$

Чтобы предотвратить присвоение нулевой вероятности невиданным словам, вероятность каждого слова немного ниже, чем его частота в корпусе. Для ее вычисления использовались различные методы, от простого сглаживания «добавлять по одному» (присваивать невиданным n -граммам количество 1, как неинформативное априорное значение ) до более сложных моделей, таких как дисконтирование Гуда–Тьюринга или модели отката .

Экспоненциальный

Модели языка с максимальной энтропией кодируют связь между словом и историей n -граммы с помощью функций признаков. Уравнение имеет вид

$P(w_{m}\mid w_{1},\ldots ,w_{m-1})={\frac {1}{Z(w_{1},\ldots ,w_{m-1})}}\exp(a^{T}f(w_{1},\ldots ,w_{m}))$

где — это функция распределения , — вектор параметров, — функция признаков. В простейшем случае функция признаков — это просто индикатор наличия определенной n -граммы. Полезно использовать априорную или некоторую форму регуляризации . $Z(w_{1},\ldots,w_{m-1})$ $а$ $f(w_{1},\ldots ,w_{m})$ $а$

Логбилинейная модель — еще один пример экспоненциальной языковой модели.

Модель пропуска грамма

Модель языка Skip-gram является попыткой преодолеть проблему разреженности данных, с которой столкнулась предыдущая модель (т. е. модель языка word n -gram). Слова, представленные во встраиваемом векторе, больше не обязательно были последовательными, но могли оставлять пропуски, которые пропускались . ^[12]

Формально $k$ -skip- $n$ -грамма представляет собой подпоследовательность длины $n$ , в которой компоненты находятся на расстоянии не более $k$ друг от друга.

Например, во входном тексте:

дожди в Испании выпадают в основном на равнине

набор 1-skip-2-grams включает в себя все биграммы (2-grams), а также подпоследовательности

в , дождь Испания , в падает , Испания в основном , выпадает на , в основном , и на равнине .

В модели skip-gram семантические отношения между словами представлены линейными комбинациями , фиксирующими форму композиционности . Например, в некоторых таких моделях, если $v$ — это функция, которая отображает слово $w$ в его $n$ -d векторное представление, то

${\ displaystyle v (\ mathrm {king}) - v (\ mathrm {мужчина}) + v (\ mathrm {женщина}) \ приблизительно v (\ mathrm {королева})}$

где ≈ уточняется, устанавливая, что его правая часть должна быть ближайшим соседом значения левой части. ^[13]^[14]

Нейронные модели

Рекуррентная нейронная сеть

Непрерывные представления или вложения слов производятся в рекуррентных нейронных сетях -основанных языковых моделях (известных также как непрерывные пространственные языковые модели ). ^[15] Такие непрерывные пространственные вложения помогают смягчить проклятие размерности , которое является следствием того, что количество возможных последовательностей слов увеличивается экспоненциально с размером словаря, что еще больше вызывает проблему разреженности данных. Нейронные сети избегают этой проблемы, представляя слова как нелинейные комбинации весов в нейронной сети. ^[16]

Большие языковые модели

Большая языковая модель (LLM) — это тип вычислительной модели, разработанной для задач обработки естественного языка, таких как генерация языка . Как языковые модели, LLM приобретают эти способности, изучая статистические взаимосвязи из огромных объемов текста в ходе самоконтролируемого и полуконтролируемого процесса обучения. ^[17]

Самые большие и наиболее способные LLM — это искусственные нейронные сети, построенные с архитектурой, основанной только на декодере и трансформаторе , что позволяет эффективно обрабатывать и генерировать крупномасштабные текстовые данные. Современные модели могут быть точно настроены для конкретных задач или могут управляться быстрой инженерией . ^[18] Эти модели приобретают предсказательную силу относительно синтаксиса , семантики и онтологий ^[19], присущих корпусам человеческого языка, но они также наследуют неточности и предубеждения, присутствующие в данных , на которых они обучаются. ^[20]

Хотя иногда они соответствуют человеческим возможностям, неясно, являются ли они правдоподобными когнитивными моделями . По крайней мере, для рекуррентных нейронных сетей было показано, что они иногда изучают шаблоны, которые люди не изучают, но не могут изучить шаблоны, которые люди обычно изучают. ^[21]

Оценка и контрольные показатели

Оценка качества языковых моделей в основном выполняется путем сравнения с созданными человеком образцами эталонов, созданными на основе типичных языковых задач. Другие, менее устоявшиеся, тесты качества изучают внутренний характер языковой модели или сравнивают две такие модели. Поскольку языковые модели обычно предназначены для того, чтобы быть динамичными и обучаться на данных, которые они видят, некоторые предлагаемые модели исследуют скорость обучения, например, путем проверки кривых обучения. ^[22]

Были разработаны различные наборы данных для использования при оценке систем обработки языка. ^[23] К ним относятся:

Корпус лингвистической приемлемости ^[24]
Тест GLUE ^[25]
Корпус парафраза Microsoft Research ^[26]
Многожанровый вывод на естественном языке
Вопрос Вывод на основе естественного языка
Пары вопросов Quora ^[27]
Распознавание текстуального вывода ^[28]
Тест семантического текстового сходства
SQuAD вопрос-ответ Тест ^[29]
Стэнфордский банк настроений ^[30]
Виноград НЛИ
BoolQ, PIQA, SIQA, HellaSwag, WinoGrande, ARC, OpenBookQA, NaturalQuestions, TriviaQA, RACE, MMLU (массовое многозадачное понимание языка) , BIG-bench hard, GSM8k, RealToxicityPrompts, WinoGender, CrowS-Pairs. ^[31] (тест LLaMa)

Смотрите также

Ссылки

^ Jurafsky, Dan; Martin, James H. (2021). "N-gram Language Models". Обработка речи и языка (3-е изд.). Архивировано из оригинала 22 мая 2022 г. Получено 24 мая 2022 г.
^ Розенфельд, Рональд (2000). «Два десятилетия статистического моделирования языка: куда мы идем отсюда?». Труды IEEE . 88 (8): 1270–1278. doi :10.1109/5.880083. S2CID 10959945.
^ Кун, Роланд и Ренато Де Мори (1990). «Кэш-модель естественного языка для распознавания речи». Труды IEEE по анализу образов и машинному интеллекту 12.6: 570–583.
^ Андреас, Якоб, Андреас Влахос и Стивен Кларк (2013). «Семантический анализ как машинный перевод» Архивировано 15 августа 2020 г. на Wayback Machine . Труды 51-го ежегодного собрания Ассоциации компьютерной лингвистики (Том 2: Краткие доклады).
^ Лю, Ян; Ву, Фанью; Лю, Чжиюань; Ван, Кай; Ван, Фейюэ; Цюй, Сяобо (2023). «Можно ли использовать языковые модели для реальной оптимизации маршрутов городской доставки?». Инновация . 4 (6): 100520. doi : 10.1016/j.xinn.2023.100520 . ПМЦ 10587631 .
^ Фам, Ву и др. (2014). «Dropout улучшает рекуррентные нейронные сети для распознавания рукописного ввода» Архивировано 11 ноября 2020 г. в Wayback Machine . 14-я Международная конференция по передовым рубежам в распознавании рукописного ввода. IEEE.
^ Htut, Phu Mon, Kyunghyun Cho и Samuel R. Bowman (2018). «Грамматическая индукция с нейронными языковыми моделями: необычная репликация» Архивировано 14 августа 2022 г. в Wayback Machine . arXiv :1808.10000.
^ Понте, Джей М.; Крофт, В. Брюс (1998). Подход к поиску информации с использованием языкового моделирования . Труды 21-й конференции ACM SIGIR. Мельбурн, Австралия: ACM. С. 275–281. doi :10.1145/290941.291008.
^ Хемстра, Джоэрд (1998). Лингвистически мотивированная вероятностная модель информационного поиска . Труды 2-й Европейской конференции по исследованиям и передовым технологиям для цифровых библиотек. LNCS, Springer. С. 569–584. doi :10.1007/3-540-49653-X_34.
^ Бенжио, Йошуа; Дюшарм, Режан; Винсент, Паскаль; Жанвен, Кристиан (1 марта 2003 г.). «Нейронная вероятностная языковая модель». Журнал исследований машинного обучения . 3 : 1137–1155 – через цифровую библиотеку ACM.
^ Jurafsky, Dan; Martin, James H. (7 января 2023 г.). «Модели языка N-грамм». Обработка речи и языка (PDF) (3-е издание, черновик) . Получено 24 мая 2022 г.
^ Дэвид Гатри и др. (2006). "Более пристальный взгляд на моделирование Skip-gram" (PDF) . Архивировано из оригинала (PDF) 17 мая 2017 г. . Получено 27 апреля 2014 г. .
^ Миколов, Томас; Чен, Кай; Коррадо, Грег; Дин, Джеффри (2013). «Эффективная оценка представлений слов в векторном пространстве». arXiv : 1301.3781 [cs.CL].
^ Миколов, Томас; Суцкевер, Илья; Чен, Кай; Коррадо irst4=Грег С.; Дин, Джефф (2013). Распределенные представления слов и фраз и их композиционность (PDF) . Достижения в области нейронных систем обработки информации . стр. 3111–3119. Архивировано (PDF) из оригинала 29 октября 2020 г. . Получено 22 июня 2015 г. .{{cite conference}}: CS1 maint: numeric names: authors list (link)
^ Карпати, Андрей. «Необоснованная эффективность рекуррентных нейронных сетей». Архивировано из оригинала 1 ноября 2020 г. Получено 27 января 2019 г.
^ Bengio, Yoshua (2008). "Neural net language models". Scholarpedia . Vol. 3. p. 3881. Bibcode :2008SchpJ...3.3881B. doi : 10.4249/scholarpedia.3881 . Архивировано из оригинала 26 октября 2020 года . Получено 28 августа 2015 года .
^ "Лучшие языковые модели и их последствия". OpenAI . 14 февраля 2019 г. Архивировано из оригинала 19 декабря 2020 г. Получено 25 августа 2019 г.
^ Браун, Том Б.; Манн, Бенджамин; Райдер, Ник; Суббиа, Мелани; Каплан, Джаред; Дхаривал, Прафулла; Нилакантан, Арвинд; Шьям, Пранав; Шастри, Гириш; Аскелл, Аманда; Агарвал, Сандхини; Герберт-Фосс, Ариэль; Крюгер, Гретхен; Хениган, Том; Чайлд, Ревон; Рамеш, Адитья; Циглер, Дэниел М.; Ву, Джеффри; Винтер, Клеменс; Гессе, Кристофер; Чен, Марк; Сиглер, Эрик; Литвин, Матеуш; Грей, Скотт; Чесс, Бенджамин; Кларк, Джек; Бернер, Кристофер; МакКэндлиш, Сэм; Рэдфорд, Алек; Суцкевер, Илья; Амодеи, Дарио (декабрь 2020 г.). Ларошель, Х.; Ranzato, M.; Hadsell, R.; Balcan, MF; Lin, H. (ред.). «Языковые модели — это ученики с небольшим количеством попыток» (PDF) . Достижения в области нейронных систем обработки информации . 33 . Curran Associates, Inc.: 1877–1901. Архивировано (PDF) из оригинала 17 ноября 2023 г. . Получено 14 марта 2023 г. .
^ Фатхаллах, Надин; Дас, Арунав; Де Гиоргис, Стефано; Полтроньери, Андреа; Хаазе, Питер; Ковригина, Любовь (26 мая 2024 г.). NeOn-GPT: большой конвейер на основе языковой модели для изучения онтологий (PDF) . Конференция по расширенной семантической паутине 2024 г. Херсониссос, Греция.
^ Manning, Christopher D. (2022). «Human Language Understanding & Reasoning». Daedalus . 151 (2): 127–138. doi : 10.1162/daed_a_01905 . S2CID 248377870. Архивировано из оригинала 17 ноября 2023 г. Получено 9 марта 2023 г.
^ Хорнштейн, Норберт; Ласник, Ховард; Патель-Гросс, Притти; Янг, Чарльз (9 января 2018 г.). Синтаксические структуры спустя 60 лет: влияние хомскианской революции на лингвистику. Walter de Gruyter GmbH & Co KG. ISBN 978-1-5015-0692-5. Архивировано из оригинала 16 апреля 2023 г. . Получено 11 декабря 2021 г. .
^ Карлгрен, Юсси; Шутце, Хинрих (2015), «Оценка представлений обучающегося языка», Международная конференция Форума по межъязыковой оценке , Конспект лекций по информатике, Springer International Publishing, стр. 254–260, doi :10.1007/978-3-319-64206-2_8, ISBN 9783319642055
^ Девлин, Джейкоб; Чанг, Мин-Вэй; Ли, Кентон; Тутанова, Кристина (10 октября 2018 г.). «BERT: Предварительная подготовка глубоких двунаправленных преобразователей для понимания языка». arXiv : 1810.04805 [cs.CL].
^ "The Corpus of Linguistic Acceptability (CoLA)". nyu-mll.github.io . Архивировано из оригинала 7 декабря 2020 г. . Получено 25 февраля 2019 г. .
^ "GLUE Benchmark". glutebenchmark.com . Архивировано из оригинала 4 ноября 2020 . Получено 25 февраля 2019 .
^ "Microsoft Research Paraphrase Corpus". Центр загрузки Microsoft . Архивировано из оригинала 25 октября 2020 г. Получено 25 февраля 2019 г.
^ Агаебрахимиан, Ахмад (2017), «Набор данных вопросов и ответов Quora», Текст, речь и диалог , Конспект лекций по информатике, т. 10415, Springer International Publishing, стр. 66–73, doi : 10.1007/978-3-319-64206-2_8, ISBN 9783319642055
^ Сэммонс, В. Г. Винод Выдисваран, Дэн Рот, Марк; Выдисваран, В. Г.; Рот, Дэн. «Распознавание текстового вывода» (PDF) . Архивировано из оригинала (PDF) 9 августа 2017 г. . Получено 24 февраля 2019 г. .{{cite web}}: CS1 maint: multiple names: authors list (link)
^ "The Stanford Question Answering Dataset". rajpurkar.github.io . Архивировано из оригинала 30 октября 2020 г. . Получено 25 февраля 2019 г. .
^ "Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank". nlp.stanford.edu . Архивировано из оригинала 27 октября 2020 г. Получено 25 февраля 2019 г.
↑ Хендрикс, Дэн (14 марта 2023 г.), Измерение понимания языка в условиях массового многозадачного выполнения, архивировано из оригинала 15 марта 2023 г. , извлечено 15 марта 2023 г.

Дальнейшее чтение

JM Ponte; WB Croft (1998). "Подход к языковому моделированию при поиске информации". Исследования и разработки в области поиска информации . С. 275–281. CiteSeerX 10.1.1.117.4237 .
F Song; WB Croft (1999). "Общая языковая модель для поиска информации". Исследования и разработки в области поиска информации . С. 279–280. CiteSeerX 10.1.1.21.6467 .
Чен, Стэнли; Джошуа Гудман (1998). Эмпирическое исследование методов сглаживания для моделирования языка (технический отчет). Гарвардский университет. CiteSeerX 10.1.1.131.5458 .