Языковая модель

Языковая модель — это вероятностная модель естественного языка. ^[1] В 1980 году была предложена первая значительная статистическая модель языка, и в течение десятилетия IBM проводила эксперименты в стиле Шеннона , в которых потенциальные источники улучшения языкового моделирования были выявлены путем наблюдения и анализа производительности людей в прогнозировании или исправление текста. ^[2]

Языковые модели полезны для множества задач, включая распознавание речи ^[3] (помогает предотвратить предсказание маловероятных (например, бессмысленных) последовательностей), машинный перевод , ^[4] генерацию естественного языка (генерация текста, более похожего на человеческий), оптические распознавание символов , распознавание рукописного ввода , ^[5] грамматическая индукция , ^[6] и поиск информации . ^[7]^[8]

Большие языковые модели , в настоящее время их наиболее совершенная форма, представляют собой комбинацию более крупных наборов данных (часто с использованием слов, извлеченных из общедоступного Интернета), нейронных сетей прямого распространения и преобразователей . Они заменили модели на основе рекуррентных нейронных сетей , которые ранее вытеснили чисто статистические модели, такие как языковая модель слов с n -граммами .

Чисто статистические модели

Модели на основе n -грамм слов

Языковая модель слов-н-грамм представляет собой чисто статистическую модель языка. Его заменили модели на основе рекуррентных нейронных сетей , которые были заменены большими языковыми моделями . ^[9] Он основан на предположении, что вероятность следующего слова в последовательности зависит только от фиксированного размера окна предыдущих слов. Если рассматривалось только одно предыдущее слово, это называлось моделью биграммы; если два слова, то модель триграммы; если n - 1 слов, модель n -граммы. ^[10] Были введены специальные токены для обозначения начала и конца предложения и . $\langle s\rangle$ $\langle /s\rangle$

Чтобы предотвратить присвоение нулевой вероятности невидимым словам, вероятность каждого слова немного ниже, чем его частота в корпусе. Для его расчета использовались различные методы: от простого сглаживания «добавить единицу» (присвоение числа 1 невидимым n- граммам как неинформативное априорное значение ) до более сложных моделей, таких как модели дисконтирования Гуда – Тьюринга или модели отсрочки. .

Экспоненциальный

Языковые модели максимальной энтропии кодируют связь между словом и историей n -грамм с помощью функций признаков. Уравнение

$P(w_{m}\mid w_{1},\ldots,w_{m-1})={\frac {1}{Z(w_{1},\ldots,w_{m-1} )}}\exp(a^{T}f(w_{1},\ldots ,w_{m}))$

где – статистическая сумма , – вектор параметров, – функция признака. В простейшем случае функция признака — это всего лишь индикатор наличия определенного n -грамма. Полезно использовать априор или какую-либо форму регуляризации. $Z(w_{1},\ldots,w_{m-1})$ $а$ $f(w_{1},\ldots,w_{m})$ $а$

Логбилинейная модель — еще один пример экспоненциальной языковой модели.

Модель пропуска грамма

Языковая модель пропуска грамм — это попытка преодолеть проблему разреженности данных, с которой сталкивалась предыдущая модель (т. е. языковая модель n -грамм слов). Слова, представленные в векторе внедрения, больше не обязательно были последовательными, но могли оставлять пропуски, которые пропускаются . ^[11]

Формально $k$ -skip- $n$ -грамма представляет собой подпоследовательность длиной $n$ , в которой компоненты встречаются на расстоянии не более $k$ друг от друга.

Например, во входном тексте:

дождь в Испании выпадает в основном на равнине

набор 1-скип-2-грамм включает в себя все биграммы (2-граммы), а также подпоследовательности

в , дождь в Испании , в водопадах , в основном в Испании , выпадает в основном на равнине .

В модели скип-грамм семантические отношения между словами представлены линейными комбинациями , отражающими форму композиционности . Например, в некоторых таких моделях, если $v$ — функция, которая отображает слово $w$ в его векторное представление $n -d, то$

${\ displaystyle v (\ mathrm {king}) - v (\ mathrm {мужчина}) + v (\ mathrm {женщина}) \ приблизительно v (\ mathrm {королева})}$

где ≈ уточняется, если указать, что его правая часть должна быть ближайшим соседом значения левой части. ^[12]^[13]

Нейронные модели

Рекуррентная нейронная сеть

Непрерывные представления или вложения слов создаются в рекуррентных языковых моделях на основе нейронных сетей (известных также как языковые модели с непрерывным пространством ). ^[14] Такие вложения в непрерывное пространство помогают смягчить проклятие размерности , которое является следствием того, что количество возможных последовательностей слов увеличивается экспоненциально с размером словаря, что дополнительно вызывает проблему разреженности данных. Нейронные сети решают эту проблему, представляя слова в виде нелинейных комбинаций весов в нейронной сети. ^[15]

Большие языковые модели

Модель большого языка (LLM) — это вычислительная модель , отличающаяся своей способностью генерировать язык общего назначения и выполнять другие задачи обработки естественного языка, такие как классификация . Основываясь на языковых моделях, студенты LLM приобретают эти способности, изучая статистические взаимосвязи из огромных объемов текста в ходе интенсивного вычислительного процесса обучения с самоконтролем и полуконтролем . ^[16] LLM можно использовать для генерации текста, формы генеративного искусственного интеллекта , путем взятия входного текста и многократного прогнозирования следующего токена или слова. ^[17]

LLM — это искусственные нейронные сети , использующие архитектуру трансформатора , изобретенную в 2017 году. Самые крупные и наиболее мощные LLM по состоянию на июнь 2024 года ^[update]построены на основе архитектуры на основе только декодера, которая обеспечивает эффективную обработку и генерацию крупномасштабного текста. данные.

Исторически сложилось так, что до 2020 года точная настройка была основным методом адаптации модели под конкретные задачи. Однако более крупные модели, такие как GPT-3, продемонстрировали способность достигать аналогичных результатов за счет разработки подсказок , которая включает в себя создание конкретных подсказок для ввода, которые будут определять ответы модели. ^[18] Эти модели приобретают знания о синтаксисе, семантике и онтологиях ^[19], присущие корпусам человеческого языка, но они также наследуют неточности и предвзятости , присутствующие в данных, на которых они обучаются. ^[20]

Некоторые известные LLM — это серия моделей GPT OpenAI (например, GPT - 3.5 и GPT-4 , используемые в ChatGPT и Microsoft Copilot ), Gemini от Google (последняя из которых в настоящее время используется в одноименном чат-боте ) . , семейство моделей LLaMA от Meta , модели Claude от Anthropic и модели Mistral AI .

Хотя иногда они и соответствуют человеческим возможностям, неясно, являются ли они правдоподобными когнитивными моделями . По крайней мере, для рекуррентных нейронных сетей было показано, что они иногда изучают закономерности, которые люди не усваивают, но не могут изучить закономерности, которые люди обычно изучают. ^[21]

Оценка и критерии

Оценка качества языковых моделей в основном проводится путем сравнения с образцами тестов, созданными человеком и созданными на основе типичных языковых задач. Другие, менее устоявшиеся тесты качества исследуют внутренний характер языковой модели или сравнивают две такие модели. Поскольку языковые модели обычно должны быть динамичными и обучаться на данных, которые они видят, некоторые предлагаемые модели исследуют скорость обучения, например, путем проверки кривых обучения. ^[22]

Различные наборы данных были разработаны для использования при оценке систем языковой обработки. ^[23] К ним относятся:

Корпус языковой приемлемости ^[24]
Тест GLUE ^[25]
Корпус парафразов исследований Microsoft ^[26]
Многожанровый вывод естественного языка
Вопрос Вывод на естественном языке
Пары вопросов Quora ^[27]
Распознавание текстовых последствий ^[28]
Тест семантического текстового сходства
Тест на ответы на вопросы SQuAD ^[29]
Стэнфордское дерево настроений ^[30]
Виноград НЛИ
BoolQ, PIQA, SIQA, HellaSwag, WinoGrande, ARC, OpenBookQA, NaturalQuestions, TriviaQA, RACE, MMLU (массовое многозадачное понимание языка) , BIG-bench hard, GSM8k, RealToxicityPrompts, WinoGender, CrowS-Pairs. ^[31] (тест LLaMa)

Смотрите также

дальнейшее чтение

Дж. М. Понте; ВБ Крофт (1998). «Подход языкового моделирования к поиску информации». Исследования и разработки в области поиска информации . стр. 275–281. CiteSeerX 10.1.1.117.4237 .
Ф Песня; ВБ Крофт (1999). «Общая языковая модель для поиска информации». Исследования и разработки в области поиска информации . стр. 279–280. CiteSeerX 10.1.1.21.6467 .
Чен, Стэнли; Джошуа Гудман (1998). Эмпирическое исследование методов сглаживания для языкового моделирования (технический отчет). Гарвардский университет. CiteSeerX 10.1.1.131.5458 .