Языковая модель

Языковая модель — это вероятностная модель естественного языка. ^[1] В 1980 году была предложена первая значительная статистическая модель языка, и в течение десятилетия IBM проводила эксперименты в стиле Шеннона, в которых потенциальные источники улучшения языкового моделирования были выявлены путем наблюдения и анализа производительности людей в прогнозировании или исправление текста. ^[2]

Языковые модели полезны для множества задач, включая распознавание речи ^[3] (помогает предотвратить предсказание маловероятных (например, бессмысленных) последовательностей), машинный перевод , ^[4] генерацию естественного языка (генерация текста, более похожего на человеческий), оптические распознавание символов , распознавание рукописного ввода , ^[5] грамматическая индукция , ^[6] и поиск информации . ^[7]^[8]

Большие языковые модели , в настоящее время их наиболее совершенная форма, представляют собой комбинацию более крупных наборов данных (часто с использованием слов, извлеченных из общедоступного Интернета), нейронных сетей с прямой связью и преобразователей . Они заменили модели на основе рекуррентных нейронных сетей , которые ранее вытеснили чисто статистические модели, такие как языковая модель слов с n -граммами .

Чисто статистические модели

Модели на основе n -грамм слов

Языковая модель слов-н-грамм представляет собой чисто статистическую модель языка. Его заменили модели на основе рекуррентных нейронных сетей , которые были заменены большими языковыми моделями . ^[9] Он основан на предположении, что вероятность следующего слова в последовательности зависит только от фиксированного размера окна предыдущих слов. Если рассматривалось только одно предыдущее слово, это называлось моделью биграммы; если два слова, то модель триграммы; если n - 1 слов, модель n -граммы. ^[10] Были введены специальные токены для обозначения начала и конца предложения и . $\langle s\rangle$ $\langle /s\rangle$

Чтобы предотвратить присвоение нулевой вероятности невидимым словам, вероятность каждого слова немного ниже, чем его частота в корпусе. Для его расчета использовались различные методы: от простого сглаживания «добавить единицу» (присвоение числа 1 невидимым n- граммам как неинформативное априорное значение ) до более сложных моделей, таких как модели дисконтирования Гуда – Тьюринга или модели отсрочки. .

Экспоненциальный

Языковые модели максимальной энтропии кодируют связь между словом и историей n -грамм с помощью функций признаков. Уравнение

P(w_{m}\mid w_{1},\ldots ,w_{m-1})={\frac {1}{Z(w_{1},\ldots ,w_{m-1})}}\exp(a^{T}f(w_{1},\ldots ,w_{m}))

где – статистическая сумма , – вектор параметров, – – функция признака. В простейшем случае функция признака — это просто индикатор наличия определенного n -грамма. Полезно использовать априор или какую-либо форму регуляризации. $Z(w_{1},\ldots ,w_{m-1})$ $a$ $f(w_{1},\ldots ,w_{m})$ $a$

Логбилинейная модель — еще один пример экспоненциальной языковой модели.

Модель пропуска грамма

Языковая модель пропуска грамм — это попытка преодолеть проблему разреженности данных, с которой сталкивалась предыдущая модель (т. е. языковая модель n -грамм слов). Слова, представленные в векторе внедрения, больше не обязательно были последовательными, но могли оставлять пропуски, которые пропускаются . ^[11]

Формально $k$ -skip- $n$ -грамма представляет собой подпоследовательность длиной $n$ , в которой компоненты встречаются на расстоянии не более $k$ друг от друга.

Например, во входном тексте:

дождь в Испании выпадает в основном на равнине

набор 1-скип-2-грамм включает в себя все биграммы (2-граммы), а также подпоследовательности

в , дождь в Испании , в водопадах , в основном в Испании , выпадает в основном на равнине .

В модели скип-грамм семантические отношения между словами представлены линейными комбинациями , отражающими форму композиционности . Например, в некоторых таких моделях, если $v$ — функция, которая отображает слово $w$ в его векторное представление $n -d, то$

v(\mathrm {king} )-v(\mathrm {male} )+v(\mathrm {female} )\approx v(\mathrm {queen} )

где ≈ уточняется, если указать, что его правая часть должна быть ближайшим соседом значения левой части. ^[12]^[13]

Нейронные модели

Рекуррентная нейронная сеть

Непрерывные представления или вложения слов создаются в рекуррентных языковых моделях на основе нейронных сетей (известных также как языковые модели с непрерывным пространством ). ^[14] Такие вложения в непрерывное пространство помогают смягчить проклятие размерности , которое является следствием того, что количество возможных последовательностей слов увеличивается экспоненциально с размером словаря, что дополнительно вызывает проблему разреженности данных. Нейронные сети решают эту проблему, представляя слова в виде нелинейных комбинаций весов в нейронной сети. ^[15]

Большие языковые модели

Модель большого языка (LLM) — это языковая модель, примечательная своей способностью обеспечивать генерацию языка общего назначения и другие задачи обработки естественного языка, такие как классификация . LLM приобретают эти способности, изучая статистические взаимосвязи из текстовых документов в ходе интенсивного вычислительного процесса обучения с самоконтролем и полуконтролем . ^[16] LLM можно использовать для генерации текста, формы генеративного искусственного интеллекта , путем взятия входного текста и многократного прогнозирования следующего токена или слова. ^[17]

LLM — это искусственные нейронные сети . Самые крупные и наиболее мощные по состоянию на март 2024 года ^[update]построены на архитектуре, основанной только на декодере, основанной на преобразователе, в то время как некоторые недавние реализации основаны на других архитектурах, таких как варианты рекуррентной нейронной сети и Mamba ( модель пространства состояний ). ^[18]^[19]^[20]

До 2020 года точная настройка была единственным способом адаптировать модель для выполнения конкретных задач. Однако модели большего размера, такие как GPT-3 , могут быть быстро спроектированы для достижения аналогичных результатов. ^[21] Считается, что они приобретают знания о синтаксисе, семантике и «онтологии», присущих корпусам человеческого языка, а также неточностях и предвзятости , присутствующих в корпусах. ^[22]

Некоторые известные LLM — это серия моделей OpenAI GPT ( например, GPT-3.5 и GPT-4 , используемые в ChatGPT и Microsoft Copilot ), Google PaLM и Gemini ( последняя из которых в настоящее время используется в чат-боте того же name ), Grok от xAI , семейство моделей с открытым исходным кодом LLaMA от Meta , модели Claude от Anthropic , модели с открытым исходным кодом Mistral AI и DBRX с открытым исходным кодом от Databricks .

Хотя иногда они и соответствуют человеческим возможностям, неясно, являются ли они правдоподобными когнитивными моделями . По крайней мере, для рекуррентных нейронных сетей было показано, что они иногда изучают закономерности, которые люди не усваивают, но не могут изучить закономерности, которые люди обычно изучают. ^[23]

Оценка и критерии

Оценка качества языковых моделей в основном проводится путем сравнения с образцами тестов, созданными человеком и созданными на основе типичных языковых задач. Другие, менее устоявшиеся тесты качества исследуют внутренний характер языковой модели или сравнивают две такие модели. Поскольку языковые модели обычно должны быть динамичными и обучаться на данных, которые они видят, некоторые предлагаемые модели исследуют скорость обучения, например, путем проверки кривых обучения. ^[24]

Различные наборы данных были разработаны для использования при оценке систем языковой обработки. ^[25] К ним относятся:

Корпус языковой приемлемости ^[26]
Тест GLUE ^[27]
Корпус парафразов исследований Microsoft ^[28]
Многожанровый вывод естественного языка
Вопрос Вывод на естественном языке
Пары вопросов Quora ^[29]
Распознавание текстовых последствий ^[30]
Тест семантического текстового сходства
Тест на ответы на вопросы SQuAD ^[31]
Стэнфордское дерево настроений ^[32]
Виноград НЛИ
BoolQ, PIQA, SIQA, HellaSwag, WinoGrande, ARC, OpenBookQA, NaturalQuestions, TriviaQA, RACE, MMLU (массовое многозадачное понимание языка), BIG-bench hard, GSM8k, RealToxicityPrompts, WinoGender, CrowS-Pairs. ^[33] (тест LLaMa)

Смотрите также

дальнейшее чтение

Дж. М. Понте; ВБ Крофт (1998). «Подход языкового моделирования к поиску информации». Исследования и разработки в области поиска информации . стр. 275–281. CiteSeerX 10.1.1.117.4237 .
Ф Песня; ВБ Крофт (1999). «Общая языковая модель для поиска информации». Исследования и разработки в области поиска информации . стр. 279–280. CiteSeerX 10.1.1.21.6467 .
Чен, Стэнли; Джошуа Гудман (1998). Эмпирическое исследование методов сглаживания для языкового моделирования (технический отчет). Гарвардский университет. CiteSeerX 10.1.1.131.5458 .