stringtranslate.com

Языковая модель

Языковая модель — это вероятностная модель естественного языка. [1] В 1980 году была предложена первая значительная статистическая модель языка, и в течение десятилетия IBM проводила эксперименты в стиле Шеннона, в которых потенциальные источники улучшения языкового моделирования были выявлены путем наблюдения и анализа производительности людей в прогнозировании или исправление текста. [2]

Языковые модели полезны для множества задач, включая распознавание речи [3] (помогает предотвратить предсказание маловероятных (например, бессмысленных) последовательностей), машинный перевод , [4] генерацию естественного языка (генерация текста, более похожего на человеческий), оптические распознавание символов , распознавание рукописного ввода , [5] грамматическая индукция , [6] и поиск информации . [7] [8]

Большие языковые модели , в настоящее время их наиболее совершенная форма, представляют собой комбинацию более крупных наборов данных (часто с использованием слов, извлеченных из общедоступного Интернета), нейронных сетей с прямой связью и преобразователей . Они заменили модели на основе рекуррентных нейронных сетей , которые ранее вытеснили чисто статистические модели, такие как языковая модель слов с n -граммами .

Чисто статистические модели

Модели на основе n -грамм слов

Языковая модель слов-н-грамм представляет собой чисто статистическую модель языка. Его заменили модели на основе рекуррентных нейронных сетей , которые были заменены большими языковыми моделями . [9] Он основан на предположении, что вероятность следующего слова в последовательности зависит только от фиксированного размера окна предыдущих слов. Если рассматривалось только одно предыдущее слово, это называлось моделью биграммы; если два слова, то модель триграммы; если n  - 1 слов, модель n -граммы. [10] Были введены специальные токены для обозначения начала и конца предложения и .

Чтобы предотвратить присвоение нулевой вероятности невидимым словам, вероятность каждого слова немного ниже, чем его частота в корпусе. Для его расчета использовались различные методы: от простого сглаживания «добавить единицу» (присвоение числа 1 невидимым n- граммам как неинформативное априорное значение ) до более сложных моделей, таких как модели дисконтирования Гуда – Тьюринга или модели отсрочки. .

Экспоненциальный

Языковые модели максимальной энтропии кодируют связь между словом и историей n -грамм с помощью функций признаков. Уравнение

где – статистическая сумма , – вектор параметров, – – функция признака. В простейшем случае функция признака — это просто индикатор наличия определенного n -грамма. Полезно использовать априор или какую-либо форму регуляризации.

Логбилинейная модель — еще один пример экспоненциальной языковой модели.

Модель пропуска грамма

Языковая модель пропуска грамм — это попытка преодолеть проблему разреженности данных, с которой сталкивалась предыдущая модель (т. е. языковая модель n -грамм слов). Слова, представленные в векторе внедрения, больше не обязательно были последовательными, но могли оставлять пропуски, которые пропускаются . [11]

Формально k -skip- n -грамма представляет собой подпоследовательность длиной n , в которой компоненты встречаются на расстоянии не более k друг от друга.

Например, во входном тексте:

дождь в Испании выпадает в основном на равнине

набор 1-скип-2-грамм включает в себя все биграммы (2-граммы), а также подпоследовательности

в , дождь в Испании , в водопадах , в основном в Испании , выпадает в основном на равнине .

В модели скип-грамм семантические отношения между словами представлены линейными комбинациями , отражающими форму композиционности . Например, в некоторых таких моделях, если v — функция, которая отображает слово w в его векторное представление n -d, то

где ≈ уточняется, если указать, что его правая часть должна быть ближайшим соседом значения левой части. [12] [13]

Нейронные модели

Рекуррентная нейронная сеть

Непрерывные представления или вложения слов создаются в рекуррентных языковых моделях на основе нейронных сетей (известных также как языковые модели с непрерывным пространством ). [14] Такие вложения в непрерывное пространство помогают смягчить проклятие размерности , которое является следствием того, что количество возможных последовательностей слов увеличивается экспоненциально с размером словаря, что дополнительно вызывает проблему разреженности данных. Нейронные сети решают эту проблему, представляя слова в виде нелинейных комбинаций весов в нейронной сети. [15]

Большие языковые модели

Модель большого языка (LLM) — это языковая модель, примечательная своей способностью обеспечивать генерацию языка общего назначения и другие задачи обработки естественного языка, такие как классификация . LLM приобретают эти способности, изучая статистические взаимосвязи из текстовых документов в ходе интенсивного вычислительного процесса обучения с самоконтролем и полуконтролем . [16] LLM можно использовать для генерации текста, формы генеративного искусственного интеллекта , путем взятия входного текста и многократного прогнозирования следующего токена или слова. [17]

LLM — это искусственные нейронные сети . Самые крупные и наиболее мощные по состоянию на март 2024 года построены на архитектуре, основанной только на декодере, основанной на преобразователе, в то время как некоторые недавние реализации основаны на других архитектурах, таких как варианты рекуррентной нейронной сети и Mamba ( модель пространства состояний ). [18] [19] [20]

До 2020 года точная настройка была единственным способом адаптировать модель для выполнения конкретных задач. Однако модели большего размера, такие как GPT-3 , могут быть быстро спроектированы для достижения аналогичных результатов. [21] Считается, что они приобретают знания о синтаксисе, семантике и «онтологии», присущих корпусам человеческого языка, а также неточностях и предвзятости , присутствующих в корпусах. [22]

Некоторые известные LLM — это серия моделей OpenAI GPT ( например, GPT-3.5 и GPT-4 , используемые в ChatGPT и Microsoft Copilot ), Google PaLM и Gemini ( последняя из которых в настоящее время используется в чат-боте того же name ), Grok от xAI , семейство моделей с открытым исходным кодом LLaMA от Meta , модели Claude от Anthropic , модели с открытым исходным кодом Mistral AI и DBRX с открытым исходным кодом от Databricks .

Хотя иногда они и соответствуют человеческим возможностям, неясно, являются ли они правдоподобными когнитивными моделями . По крайней мере, для рекуррентных нейронных сетей было показано, что они иногда изучают закономерности, которые люди не усваивают, но не могут изучить закономерности, которые люди обычно изучают. [23]

Оценка и критерии

Оценка качества языковых моделей в основном проводится путем сравнения с образцами тестов, созданными человеком и созданными на основе типичных языковых задач. Другие, менее устоявшиеся тесты качества исследуют внутренний характер языковой модели или сравнивают две такие модели. Поскольку языковые модели обычно должны быть динамичными и обучаться на данных, которые они видят, некоторые предлагаемые модели исследуют скорость обучения, например, путем проверки кривых обучения. [24]

Различные наборы данных были разработаны для использования при оценке систем языковой обработки. [25] К ним относятся:

Смотрите также

Рекомендации

  1. ^ Юрафски, Дэн; Мартин, Джеймс Х. (2021). «Н-граммные языковые модели». Обработка речи и языка (3-е изд.). Архивировано из оригинала 22 мая 2022 года . Проверено 24 мая 2022 г.
  2. ^ Розенфельд, Рональд (2000). «Два десятилетия статистического языкового моделирования: куда нам двигаться дальше?». Труды IEEE . 88 (8): 1270–1278. дои : 10.1109/5.880083. S2CID  10959945.
  3. ^ Кун, Роланд и Ренато Де Мори (1990). «Модель естественного языка на основе кэша для распознавания речи». Транзакции IEEE по анализу шаблонов и машинному интеллекту 12.6: 570–583.
  4. ^ Андреас, Джейкоб, Андреас Влахос и Стивен Кларк (2013). «Семантический синтаксический анализ как машинный перевод». Архивировано 15 августа 2020 года на Wayback Machine . Материалы 51-го ежегодного собрания Ассоциации компьютерной лингвистики (Том 2: Короткие статьи).
  5. ^ Фам, Ву и др. (2014). «Dropout улучшает рекуррентные нейронные сети для распознавания рукописного текста». Архивировано 11 ноября 2020 г. на Wayback Machine . 14-я Международная конференция «Границы в распознавании рукописного текста». IEEE.
  6. ^ Хтут, Фу Мон, Кёнхён Чо и Сэмюэл Р. Боуман (2018). «Грамматическая индукция с помощью моделей нейронного языка: необычная репликация». Архивировано 14 августа 2022 года в Wayback Machine . arXiv : 1808.10000.
  7. ^ Понте, Джей М.; Крофт, В. Брюс (1998). Языковое моделирование подхода к поиску информации . Материалы 21-й конференции ACM SIGIR. Мельбурн, Австралия: ACM. стр. 275–281. дои : 10.1145/290941.291008.
  8. ^ Химстра, Джорд (1998). Лингвистически мотивированная вероятностная модель поиска информации . Материалы 2-й Европейской конференции по исследованиям и передовым технологиям для электронных библиотек. LNCS, Спрингер. стр. 569–584. дои : 10.1007/3-540-49653-X_34.
  9. ^ Бенджио, Йошуа; Дюшарм, Режан; Винсент, Паскаль; Янвин, Кристиан (1 марта 2003 г.). «Нейронно-вероятностная языковая модель». Журнал исследований машинного обучения . 3 : 1137–1155 - через цифровую библиотеку ACM.
  10. ^ Юрафски, Дэн; Мартин, Джеймс Х. (7 января 2023 г.). «Н-граммные языковые модели». Обработка речи и языка (PDF) (3-е издание, черновой вариант) . Проверено 24 мая 2022 г.
  11. ^ Дэвид Гатри; и другие. (2006). «Более пристальный взгляд на моделирование скип-грамм» (PDF) . Архивировано из оригинала (PDF) 17 мая 2017 года . Проверено 27 апреля 2014 г.
  12. ^ Миколов, Томас; Чен, Кай; Коррадо, Грег; Дин, Джеффри (2013). «Эффективная оценка представлений слов в векторном пространстве». arXiv : 1301.3781 [cs.CL].
  13. ^ Миколов, Томас; Суцкевер, Илья; Чен, Кай; Коррадо irst4=Грег С.; Дин, Джефф (2013). Распределенные представления слов и фраз и их композиционность (PDF) . Достижения в области нейронных систем обработки информации . стр. 3111–3119. Архивировано (PDF) из оригинала 29 октября 2020 г. Проверено 22 июня 2015 г.{{cite conference}}: CS1 maint: numeric names: authors list (link)
  14. ^ Карпаты, Андрей. «Необоснованная эффективность рекуррентных нейронных сетей». Архивировано из оригинала 1 ноября 2020 года . Проверено 27 января 2019 г.
  15. ^ Бенджио, Йошуа (2008). «Нейросетевые языковые модели». Схоларпедия . Том. 3. п. 3881. Бибкод : 2008SchpJ...3.3881B. doi : 10.4249/scholarpedia.3881 . Архивировано из оригинала 26 октября 2020 года . Проверено 28 августа 2015 г.
  16. ^ «Лучшие языковые модели и их последствия». ОпенАИ . 14 февраля 2019 года. Архивировано из оригинала 19 декабря 2020 года . Проверено 25 августа 2019 г.
  17. ^ Боуман, Сэмюэл Р. (2023). «Восемь вещей, которые нужно знать о больших языковых моделях». arXiv : 2304.00612 [cs.CL].
  18. ^ Пэн, Бо; и другие. (2023). «RWKV: новое изобретение RNNS для эры трансформаторов». arXiv : 2305.13048 [cs.CL].
  19. Мерритт, Рик (25 марта 2022 г.). «Что такое модель-трансформер?». Блог NVIDIA . Проверено 25 июля 2023 г.
  20. ^ Гу, Альберт; Дао, Три (1 декабря 2023 г.), Мамба: моделирование линейно-временных последовательностей с выборочными пространствами состояний , arXiv : 2312.00752
  21. ^ Браун, Том Б.; Манн, Бенджамин; Райдер, Ник; Суббия, Мелани; Каплан, Джаред; Дхаривал, Прафулла; Нилакантан, Арвинд; Шьям, Пранав; Састри, Гириш; Аскелл, Аманда; Агарвал, Сандхини; Герберт-Восс, Ариэль; Крюгер, Гретхен; Хениган, Том; Дитя, Ревон; Рамеш, Адитья; Зиглер, Дэниел М.; Ву, Джеффри; Зима, Клеменс; Гессен, Кристофер; Чен, Марк; Сиглер, Эрик; Литвин, Матеуш; Грей, Скотт; Шахматы, Бенджамин; Кларк, Джек; Бернер, Кристофер; МакКэндлиш, Сэм; Рэдфорд, Алек; Суцкевер, Илья; Амодей, Дарио (декабрь 2020 г.). Ларошель, Х.; Ранзато, М.; Хадселл, Р.; Балкан, МФ; Лин, Х. (ред.). «Языковые модели мало кто изучает» (PDF) . Достижения в области нейронных систем обработки информации . 33 . Curran Associates, Inc.: 1877–1901.
  22. ^ Мэннинг, Кристофер Д. (2022). «Понимание и рассуждение человеческого языка». Дедал . 151 (2): 127–138. дои : 10.1162/daed_a_01905 . S2CID  248377870.
  23. ^ Хорнштейн, Норберт; Ласник, Ховард; Патель-Гросс, Притти; Ян, Чарльз (9 января 2018 г.). Синтаксические структуры через 60 лет: влияние Хомской революции в лингвистике. Вальтер де Грюйтер ГмбХ & Ко КГ. ISBN 978-1-5015-0692-5. Архивировано из оригинала 16 апреля 2023 года . Проверено 11 декабря 2021 г.
  24. ^ Карлгрен, Юсси; Шутце, Хинрих (2015), «Оценка представлений изучаемого языка», Международная конференция Форума межъязыковой оценки , Конспекты лекций по информатике, Springer International Publishing, стр. 254–260, номер документа : 10.1007/978-3-319- 64206-2_8, ISBN 9783319642055
  25. ^ Девлин, Джейкоб; Чанг, Мин-Вэй; Ли, Кентон; Тутанова, Кристина (10 октября 2018 г.). «BERT: Предварительная подготовка глубоких двунаправленных преобразователей для понимания языка». arXiv : 1810.04805 [cs.CL].
  26. ^ «Корпус лингвистической приемлемости (CoLA)» . ню-mll.github.io . Архивировано из оригинала 7 декабря 2020 года . Проверено 25 февраля 2019 г.
  27. ^ "Эталон КЛЕЯ" . www.glubenchmark.com . Архивировано из оригинала 4 ноября 2020 года . Проверено 25 февраля 2019 г.
  28. ^ "Корпус парафразов исследований Microsoft" . Центр загрузки Microsoft . Архивировано из оригинала 25 октября 2020 года . Проверено 25 февраля 2019 г.
  29. ^ Агаебрахимян, Ахмад (2017), «Набор данных ответов на вопросы Quora», Текст, речь и диалог , Конспекты лекций по информатике, том. 10415, Springer International Publishing, стр. 66–73, номер номера : 10.1007/978-3-319-64206-2_8, ISBN. 9783319642055
  30. ^ Саммонс, В.Г.Винод Видисваран, Дэн Рот, Марк; Выдисваран, В.Г.; Рот, Дэн. «Распознавание текстовых последствий» (PDF) . Архивировано из оригинала (PDF) 9 августа 2017 года . Проверено 24 февраля 2019 г.{{cite web}}: CS1 maint: multiple names: authors list (link)
  31. ^ "Стэнфордский набор данных для ответов на вопросы" . rajpurkar.github.io . Архивировано из оригинала 30 октября 2020 года . Проверено 25 февраля 2019 г.
  32. ^ «Рекурсивные глубокие модели семантической композиционности в древовидном банке настроений». nlp.stanford.edu . Архивировано из оригинала 27 октября 2020 года . Проверено 25 февраля 2019 г.
  33. Хендрикс, Дэн (14 марта 2023 г.), «Измерение понимания языка в условиях многозадачности» , заархивировано из оригинала 15 марта 2023 г. , получено 15 марта 2023 г.

дальнейшее чтение