stringtranslate.com

Языковая модель

Языковая модель — это вероятностная модель естественного языка. [1] В 1980 году была предложена первая значительная статистическая модель языка, и в течение десятилетия IBM проводила эксперименты в стиле Шеннона , в которых потенциальные источники улучшения языкового моделирования были выявлены путем наблюдения и анализа производительности людей в прогнозировании или исправление текста. [2]

Языковые модели полезны для множества задач, включая распознавание речи [3] (помогает предотвратить предсказание маловероятных (например, бессмысленных) последовательностей), машинный перевод , [4] генерацию естественного языка (генерация текста, более похожего на человеческий), оптические распознавание символов , распознавание рукописного ввода , [5] грамматическая индукция , [6] и поиск информации . [7] [8]

Большие языковые модели , в настоящее время их наиболее совершенная форма, представляют собой комбинацию более крупных наборов данных (часто с использованием слов, извлеченных из общедоступного Интернета), нейронных сетей прямого распространения и преобразователей . Они заменили модели на основе рекуррентных нейронных сетей , которые ранее вытеснили чисто статистические модели, такие как языковая модель слов с n -граммами .

Чисто статистические модели

Модели на основе n -грамм слов

Языковая модель слов-н-грамм представляет собой чисто статистическую модель языка. Его заменили модели на основе рекуррентных нейронных сетей , которые были заменены большими языковыми моделями . [9] Он основан на предположении, что вероятность следующего слова в последовательности зависит только от фиксированного размера окна предыдущих слов. Если рассматривалось только одно предыдущее слово, это называлось моделью биграммы; если два слова, то модель триграммы; если n  - 1 слов, модель n -граммы. [10] Были введены специальные токены для обозначения начала и конца предложения и .

Чтобы предотвратить присвоение нулевой вероятности невидимым словам, вероятность каждого слова немного ниже, чем его частота в корпусе. Для его расчета использовались различные методы: от простого сглаживания «добавить единицу» (присвоение числа 1 невидимым n- граммам как неинформативное априорное значение ) до более сложных моделей, таких как модели дисконтирования Гуда – Тьюринга или модели отсрочки. .

Экспоненциальный

Языковые модели максимальной энтропии кодируют связь между словом и историей n -грамм с помощью функций признаков. Уравнение

где – статистическая сумма , – вектор параметров, – функция признака. В простейшем случае функция признака — это всего лишь индикатор наличия определенного n -грамма. Полезно использовать априор или какую-либо форму регуляризации.

Логбилинейная модель — еще один пример экспоненциальной языковой модели.

Модель пропуска грамма

Языковая модель пропуска грамм — это попытка преодолеть проблему разреженности данных, с которой сталкивалась предыдущая модель (т. е. языковая модель n -грамм слов). Слова, представленные в векторе внедрения, больше не обязательно были последовательными, но могли оставлять пропуски, которые пропускаются . [11]

Формально k -skip- n -грамма представляет собой подпоследовательность длиной n , в которой компоненты встречаются на расстоянии не более k друг от друга.

Например, во входном тексте:

дождь в Испании выпадает в основном на равнине

набор 1-скип-2-грамм включает в себя все биграммы (2-граммы), а также подпоследовательности

в , дождь в Испании , в водопадах , в основном в Испании , выпадает в основном на равнине .

В модели скип-грамм семантические отношения между словами представлены линейными комбинациями , отражающими форму композиционности . Например, в некоторых таких моделях, если v — функция, которая отображает слово w в его векторное представление n -d, то

где ≈ уточняется, если указать, что его правая часть должна быть ближайшим соседом значения левой части. [12] [13]

Нейронные модели

Рекуррентная нейронная сеть

Непрерывные представления или вложения слов создаются в рекуррентных языковых моделях на основе нейронных сетей (известных также как языковые модели с непрерывным пространством ). [14] Такие вложения в непрерывное пространство помогают смягчить проклятие размерности , которое является следствием того, что количество возможных последовательностей слов увеличивается экспоненциально с размером словаря, что дополнительно вызывает проблему разреженности данных. Нейронные сети решают эту проблему, представляя слова в виде нелинейных комбинаций весов в нейронной сети. [15]

Большие языковые модели

Модель большого языка (LLM) — это вычислительная модель , отличающаяся своей способностью генерировать язык общего назначения и выполнять другие задачи обработки естественного языка, такие как классификация . Основываясь на языковых моделях, студенты LLM приобретают эти способности, изучая статистические взаимосвязи из огромных объемов текста в ходе интенсивного вычислительного процесса обучения с самоконтролем и полуконтролем . [16] LLM можно использовать для генерации текста, формы генеративного искусственного интеллекта , путем взятия входного текста и многократного прогнозирования следующего токена или слова. [17]

LLM — это искусственные нейронные сети , использующие архитектуру трансформатора , изобретенную в 2017 году. Самые крупные и наиболее мощные LLM по состоянию на июнь 2024 года построены на основе архитектуры на основе только декодера, которая обеспечивает эффективную обработку и генерацию крупномасштабного текста. данные.

Исторически сложилось так, что до 2020 года точная настройка была основным методом адаптации модели под конкретные задачи. Однако более крупные модели, такие как GPT-3, продемонстрировали способность достигать аналогичных результатов за счет разработки подсказок , которая включает в себя создание конкретных подсказок для ввода, которые будут определять ответы модели. [18] Эти модели приобретают знания о синтаксисе, семантике и онтологиях [19], присущие корпусам человеческого языка, но они также наследуют неточности и предвзятости , присутствующие в данных, на которых они обучаются. [20]

Некоторые известные LLM — это серия моделей GPT OpenAI (например, GPT - 3.5 и GPT-4 , используемые в ChatGPT и Microsoft Copilot ), Gemini от Google (последняя из которых в настоящее время используется в одноименном чат-боте ) . , семейство моделей LLaMA от Meta , модели Claude от Anthropic и модели Mistral AI .

Хотя иногда они и соответствуют человеческим возможностям, неясно, являются ли они правдоподобными когнитивными моделями . По крайней мере, для рекуррентных нейронных сетей было показано, что они иногда изучают закономерности, которые люди не усваивают, но не могут изучить закономерности, которые люди обычно изучают. [21]

Оценка и критерии

Оценка качества языковых моделей в основном проводится путем сравнения с образцами тестов, созданными человеком и созданными на основе типичных языковых задач. Другие, менее устоявшиеся тесты качества исследуют внутренний характер языковой модели или сравнивают две такие модели. Поскольку языковые модели обычно должны быть динамичными и обучаться на данных, которые они видят, некоторые предлагаемые модели исследуют скорость обучения, например, путем проверки кривых обучения. [22]

Различные наборы данных были разработаны для использования при оценке систем языковой обработки. [23] К ним относятся:

Смотрите также

Рекомендации

  1. ^ Юрафски, Дэн; Мартин, Джеймс Х. (2021). «Н-граммные языковые модели». Обработка речи и языка (3-е изд.). Архивировано из оригинала 22 мая 2022 года . Проверено 24 мая 2022 г.
  2. ^ Розенфельд, Рональд (2000). «Два десятилетия статистического языкового моделирования: куда нам двигаться дальше?». Труды IEEE . 88 (8): 1270–1278. дои : 10.1109/5.880083. S2CID  10959945.
  3. ^ Кун, Роланд и Ренато Де Мори (1990). «Модель естественного языка на основе кэша для распознавания речи». Транзакции IEEE по анализу шаблонов и машинному интеллекту 12.6: 570–583.
  4. ^ Андреас, Джейкоб, Андреас Влахос и Стивен Кларк (2013). «Семантический синтаксический анализ как машинный перевод». Архивировано 15 августа 2020 года на Wayback Machine . Материалы 51-го ежегодного собрания Ассоциации компьютерной лингвистики (Том 2: Короткие статьи).
  5. ^ Фам, Ву и др. (2014). «Dropout улучшает рекуррентные нейронные сети для распознавания рукописного текста». Архивировано 11 ноября 2020 г. на Wayback Machine . 14-я Международная конференция «Границы в распознавании рукописного текста». IEEE.
  6. ^ Хтут, Фу Мон, Кёнхён Чо и Сэмюэл Р. Боуман (2018). «Грамматическая индукция с помощью моделей нейронного языка: необычная репликация». Архивировано 14 августа 2022 года в Wayback Machine . arXiv : 1808.10000.
  7. ^ Понте, Джей М.; Крофт, В. Брюс (1998). Языковое моделирование подхода к поиску информации . Материалы 21-й конференции ACM SIGIR. Мельбурн, Австралия: ACM. стр. 275–281. дои : 10.1145/290941.291008.
  8. ^ Химстра, Джорд (1998). Лингвистически мотивированная вероятностная модель поиска информации . Материалы 2-й Европейской конференции по исследованиям и передовым технологиям для электронных библиотек. LNCS, Спрингер. стр. 569–584. дои : 10.1007/3-540-49653-X_34.
  9. ^ Бенджио, Йошуа; Дюшарм, Режан; Винсент, Паскаль; Янвин, Кристиан (1 марта 2003 г.). «Нейронно-вероятностная языковая модель». Журнал исследований машинного обучения . 3 : 1137–1155 - через цифровую библиотеку ACM.
  10. ^ Юрафски, Дэн; Мартин, Джеймс Х. (7 января 2023 г.). «Н-граммные языковые модели». Обработка речи и языка (PDF) (3-е издание, черновой вариант) . Проверено 24 мая 2022 г.
  11. ^ Дэвид Гатри; и другие. (2006). «Более пристальный взгляд на моделирование скип-грамм» (PDF) . Архивировано из оригинала (PDF) 17 мая 2017 года . Проверено 27 апреля 2014 г.
  12. ^ Миколов, Томас; Чен, Кай; Коррадо, Грег; Дин, Джеффри (2013). «Эффективная оценка представлений слов в векторном пространстве». arXiv : 1301.3781 [cs.CL].
  13. ^ Миколов, Томас; Суцкевер, Илья; Чен, Кай; Коррадо irst4=Грег С.; Дин, Джефф (2013). Распределенные представления слов и фраз и их композиционность (PDF) . Достижения в области нейронных систем обработки информации . стр. 3111–3119. Архивировано (PDF) из оригинала 29 октября 2020 г. Проверено 22 июня 2015 г.{{cite conference}}: CS1 maint: numeric names: authors list (link)
  14. ^ Карпаты, Андрей. «Необоснованная эффективность рекуррентных нейронных сетей». Архивировано из оригинала 1 ноября 2020 года . Проверено 27 января 2019 г.
  15. ^ Бенджио, Йошуа (2008). «Нейросетевые языковые модели». Схоларпедия . Том. 3. п. 3881. Бибкод : 2008SchpJ...3.3881B. doi : 10.4249/scholarpedia.3881 . Архивировано из оригинала 26 октября 2020 года . Проверено 28 августа 2015 г.
  16. ^ «Лучшие языковые модели и их последствия». ОпенАИ . 14 февраля 2019 года. Архивировано из оригинала 19 декабря 2020 года . Проверено 25 августа 2019 г.
  17. ^ Боуман, Сэмюэл Р. (2023). «Восемь вещей, которые нужно знать о больших языковых моделях». arXiv : 2304.00612 [cs.CL].
  18. ^ Браун, Том Б.; Манн, Бенджамин; Райдер, Ник; Суббия, Мелани; Каплан, Джаред; Дхаривал, Прафулла; Нилакантан, Арвинд; Шьям, Пранав; Састри, Гириш; Аскелл, Аманда; Агарвал, Сандхини; Герберт-Восс, Ариэль; Крюгер, Гретхен; Хениган, Том; Дитя, Ревон; Рамеш, Адитья; Зиглер, Дэниел М.; Ву, Джеффри; Зима, Клеменс; Гессен, Кристофер; Чен, Марк; Сиглер, Эрик; Литвин, Матеуш; Грей, Скотт; Шахматы, Бенджамин; Кларк, Джек; Бернер, Кристофер; МакКэндлиш, Сэм; Рэдфорд, Алек; Суцкевер, Илья; Амодей, Дарио (декабрь 2020 г.). Ларошель, Х.; Ранзато, М.; Хадселл, Р.; Балкан, МФ; Лин, Х. (ред.). «Языковые модели мало кто изучает» (PDF) . Достижения в области нейронных систем обработки информации . 33 . Curran Associates, Inc.: 1877–1901.
  19. ^ Фаталлах, Надин; Дас, Арунав; Де Джорджис, Стефано; Полтроньери, Андреа; Хаазе, Питер; Ковригина, Любовь (26 мая 2024 г.). NeOn-GPT: большой конвейер на основе языковых моделей для обучения онтологии (PDF) . Расширенная семантическая веб-конференция 2024. Херсониссос, Греция.
  20. ^ Мэннинг, Кристофер Д. (2022). «Понимание и рассуждение человеческого языка». Дедал . 151 (2): 127–138. дои : 10.1162/daed_a_01905 . S2CID  248377870.
  21. ^ Хорнштейн, Норберт; Ласник, Ховард; Патель-Гросс, Притти; Ян, Чарльз (9 января 2018 г.). Синтаксические структуры через 60 лет: влияние Хомской революции в лингвистике. Вальтер де Грюйтер ГмбХ & Ко КГ. ISBN 978-1-5015-0692-5. Архивировано из оригинала 16 апреля 2023 года . Проверено 11 декабря 2021 г.
  22. ^ Карлгрен, Юсси; Шютце, Хинрих (2015), «Оценка представлений изучаемого языка», Международная конференция Форума межъязыковой оценки , Конспекты лекций по информатике, Springer International Publishing, стр. 254–260, номер документа : 10.1007/978-3-319- 64206-2_8, ISBN 9783319642055
  23. ^ Девлин, Джейкоб; Чанг, Мин-Вэй; Ли, Кентон; Тутанова, Кристина (10 октября 2018 г.). «BERT: Предварительная подготовка глубоких двунаправленных преобразователей для понимания языка». arXiv : 1810.04805 [cs.CL].
  24. ^ «Корпус лингвистической приемлемости (CoLA)» . ню-mll.github.io . Архивировано из оригинала 7 декабря 2020 года . Проверено 25 февраля 2019 г.
  25. ^ "Эталон КЛЕЯ" . www.glubenchmark.com . Архивировано из оригинала 4 ноября 2020 года . Проверено 25 февраля 2019 г.
  26. ^ "Корпус парафразов исследований Microsoft" . Центр загрузки Microsoft . Архивировано из оригинала 25 октября 2020 года . Проверено 25 февраля 2019 г.
  27. ^ Агаебрахимян, Ахмад (2017), «Набор данных ответов на вопросы Quora», Текст, речь и диалог , Конспекты лекций по информатике, том. 10415, Springer International Publishing, стр. 66–73, номер номера : 10.1007/978-3-319-64206-2_8, ISBN. 9783319642055
  28. ^ Саммонс, В.Г.Винод Видисваран, Дэн Рот, Марк; Выдисваран, В.Г.; Рот, Дэн. «Распознавание текстовых последствий» (PDF) . Архивировано из оригинала (PDF) 9 августа 2017 года . Проверено 24 февраля 2019 г.{{cite web}}: CS1 maint: multiple names: authors list (link)
  29. ^ "Стэнфордский набор данных для ответов на вопросы" . rajpurkar.github.io . Архивировано из оригинала 30 октября 2020 года . Проверено 25 февраля 2019 г.
  30. ^ «Рекурсивные глубокие модели семантической композиционности в древовидном банке настроений». nlp.stanford.edu . Архивировано из оригинала 27 октября 2020 года . Проверено 25 февраля 2019 г.
  31. Хендрикс, Дэн (14 марта 2023 г.), «Измерение понимания языка в условиях многозадачности» , заархивировано из оригинала 15 марта 2023 г. , получено 15 марта 2023 г.

дальнейшее чтение