Большая языковая модель

Большая языковая модель ( LLM ) — это языковая модель , отличающаяся способностью генерировать языки общего назначения. LLM приобретают эти способности, изучая статистические взаимосвязи из текстовых документов в ходе интенсивного вычислительного процесса обучения с самоконтролем и полуконтролем . ^[1] LLM — это искусственные нейронные сети , самые большие и наиболее производительные из которых построены на базе трансформаторной архитектуры. Некоторые недавние реализации основаны на других архитектурах, таких как варианты рекуррентных нейронных сетей и Mamba ( модель пространства состояний ). ^[2]^[3]^[4]

LLM можно использовать для генерации текста — формы генеративного искусственного интеллекта — путем взятия входного текста и многократного прогнозирования следующего токена или слова. ^[5] До 2020 года точная настройка была единственным способом адаптировать модель для выполнения конкретных задач. Однако модели большего размера, такие как GPT-3 , могут быть быстро спроектированы для достижения аналогичных результатов. ^[6] Считается, что они приобретают знания о синтаксисе, семантике и «онтологии», присущих корпусам человеческого языка, а также о неточностях и предвзятости, присутствующих в корпусах. ^[7]

Некоторые известные LLM — это серия моделей GPT OpenAI (например, GPT-3.5 и GPT-4 , используемые в ChatGPT и Microsoft Copilot ), PaLM и Gemini от Google (используемые в Bard ), семейство открытых моделей LLaMA от Meta . исходные модели и модели Claude от Anthropic .

История

Иллюстрация основных компонентов модели трансформатора из оригинальной статьи, где слои были нормализованы после (а не до) многоголового внимания.

На конференции NeurIPS 2017 года исследователи Google представили архитектуру трансформатора в своей знаковой статье « Внимание — это все, что вам нужно ». Целью этой статьи было улучшение технологии Seq2seq 2014 года ^[8] и она была основана главным образом на механизме внимания , разработанном Bahdanau et. ал. в 2014 году. ^[9] В следующем, 2018 году, BERT был представлен и быстро стал «повсеместным». ^[10] Хотя исходный преобразователь имеет блоки кодера и декодера, BERT представляет собой модель только для кодера.

Хотя GPT-1 , предназначенный только для декодера , был представлен в 2018 году, именно GPT-2 в 2019 году привлек всеобщее внимание, поскольку OpenAI сначала сочла его слишком мощным, чтобы публиковать его публично, из-за опасений злонамеренного использования. ^[11] GPT-3 в 2020 году пошел еще дальше и с 2024 года ^[update]доступен только через API без предложения загрузки модели для локального выполнения. Но именно браузерный ChatGPT , ориентированный на потребителя в 2022 году , захватил воображение широких слоев населения и вызвал некоторую шумиху в СМИ и онлайн-ажиотаж. ^[12]GPT-4 2023 года получил высокую оценку за повышенную точность и как «Святой Грааль» за свои мультимодальные возможности. ^[13] OpenAI не раскрыл высокоуровневую архитектуру и количество параметров GPT-4.

Между тем, конкурирующие языковые модели по большей части догоняют серию GPT, по крайней мере, с точки зрения количества параметров. ^[14] Заметными исключениями с точки зрения количества параметров являются Google T5-11B 2019 года и PaLM-E 2022 года . По рейтингам Эло 26 января 2024 года Google Bard (Gemini Pro) превзошёл обычный GPT-4, но не ограниченно доступный GPT-4-Turbo. ^[15]

С 2022 года модели с доступными исходниками набирают популярность, особенно поначалу с BLOOM и LLaMA , хотя обе имеют ограничения по области использования. Модели Mistral AI Mistral 7B и Mixtral 8x7b имеют более либеральную лицензию Apache . По состоянию на январь 2024 года ^[update]Mixtral 8x7b является самым мощным открытым LLM согласно таблице лидеров LMSYS Chatbot Arena: он более мощный, чем GPT-3.5, но не такой мощный, как GPT-4. ^[16]

Предварительная обработка набора данных

Вероятностная токенизация

Используя модификацию парного байтового кодирования , на первом этапе все уникальные символы (включая пробелы и знаки препинания ) обрабатываются как начальный набор n -грамм (т.е. начальный набор униграмм). Последовательно наиболее часто встречающаяся пара соседних символов объединяется в биграмму и все экземпляры пары заменяются ею. Все вхождения соседних пар (ранее объединенных) n -грамм, которые чаще всего встречаются вместе, затем снова многократно объединяются в еще более длинные n -граммы, пока не будет получен словарь заданного размера (в случае GPT-3 размер равен 50257). . ^[17] Словарь токенов состоит из целых чисел , начиная от нуля и заканчивая размером словаря токенов. Новые слова всегда можно интерпретировать как комбинации токенов и униграмм исходного набора. ^[18]

Словарь токенов, основанный на частотах, извлеченных в основном из корпусов английского языка, использует как можно меньше токенов для среднего английского слова. Однако среднее слово на другом языке, закодированное таким оптимизированным для английского языка токенизатором, разделяется на неоптимальное количество токенов.

tokenizer: texts -> series of numerical "tokens"можно разделить на:

Вероятностная токенизация также сжимает наборы данных, что является причиной использования алгоритма кодирования пар байтов в качестве токенизатора. Поскольку LLM обычно требует, чтобы входные данные представляли собой незубчатый массив , более короткие тексты должны быть «дополнены», пока они не совпадут с длиной самого длинного. Сколько токенов в среднем требуется на одно слово, зависит от языка набора данных. ^[19]^[20]

Очистка набора данных

В контексте обучения LLM наборы данных обычно очищаются путем удаления из набора данных токсичных отрывков, удаления некачественных данных и дедупликации. ^[21] Очищенные наборы данных могут повысить эффективность обучения и привести к улучшению производительности последующих этапов. ^[22]^[23]

С увеличением доли контента, созданного LLM, в сети очистка данных в будущем может включать фильтрацию такого контента. Контент, сгенерированный LLM, может создать проблему, если контент похож на человеческий текст (что затрудняет фильтрацию), но имеет более низкое качество (снижает производительность моделей, обученных на нем). ^[24]

Обучение и архитектура

Обучение с подкреплением на основе отзывов людей (RLHF)

Обучение с подкреплением на основе обратной связи с человеком (RLHF) с помощью таких алгоритмов, как оптимизация проксимальной политики , используется для дальнейшей точной настройки модели на основе набора данных о предпочтениях человека. ^[25]

Инструкция по настройке

Используя подходы «самообучения», LLM смогли получить правильные ответы, заменяя любые наивные ответы, начиная с исправлений нескольких случаев, внесенных человеком. Например, в инструкции «Написать сочинение на основные темы, представленные в «Гамлете»» первоначальным наивным завершением может быть «Если вы сдадите сочинение после 17 марта, ваша оценка будет снижена на 10% за каждый день просрочки». на основе частоты данной текстовой последовательности в корпусе ^{[26] .}

Смесь экспертов

Обучение и непосредственное использование крупнейшего LLM может быть слишком дорогим. Для таких моделей можно применить смесь экспертов (MoE) — направление исследований, проводимое исследователями Google с 2017 года для обучения моделей, охватывающих до 1 триллиона параметров. ^[27]^[28]^[29]

Быстрое проектирование, механизм внимания и контекстное окно

Большинство результатов, ранее достижимых только путем (дорогостоящей) тонкой настройки, могут быть достигнуты с помощью оперативного проектирования , хотя и ограничены рамками одного разговора (точнее, ограничены областью контекстного окна). ^[30]

Чтобы выяснить, какие токены релевантны друг другу в пределах контекстного окна, механизм внимания вычисляет «мягкие» веса для каждого токена, точнее, для его внедрения, используя несколько головок внимания, каждая из которых имеет свою собственную «релевантность». " для расчета собственных мягких весов. Например, небольшая (т.е. размер параметра 117M) модель GPT-2 имела двенадцать голов внимания и контекстное окно размером всего в 1 тыс. токенов. ^[32] В средней версии он имеет 345 миллионов параметров и содержит 24 слоя, каждый с 12 головами внимания. Для обучения с градиентным спуском использовался размер пакета 512. ^[18]

Самые большие модели могут иметь размер контекстного окна до 200к (например, Claude 2.1 ). ^[33] Другие модели с большими контекстными окнами включают GPT-4 Turbo с контекстным окном, вмещающим до 128 тыс. токенов. ^[34] Обратите внимание, что этот максимум относится к количеству входных токенов и что максимальное количество выходных токенов отличается от входных и часто меньше. Например, модель GPT-4 Turbo имеет максимальную мощность 4096 токенов. Кроме того, по состоянию на январь 2024 года ^[update]GPT-4 Turbo для всех уровней обслуживания «в настоящее время находится на стадии предварительной версии с ограничительными ограничениями по скорости , которые делают их подходящими для тестирования и оценки, но не для производственного использования». ^[35]

Продолжительность разговора, которую модель может принять во внимание при формировании следующего ответа, также ограничена размером контекстного окна. Если продолжительность разговора, например, с Chat-GPT , превышает его контекстное окно, при генерации следующего ответа учитываются только части внутри контекстного окна, или модели необходимо применить некоторый алгоритм для суммирования слишком отдаленные части разговора.

К недостаткам увеличения контекстного окна относятся более высокие вычислительные затраты и, возможно, ослабление внимания к локальному контексту, тогда как его уменьшение может привести к тому, что модель упустит важную долгосрочную зависимость. Их балансировка — это вопрос экспериментов и соображений, специфичных для конкретной области.

Модель может быть предварительно обучена либо для прогнозирования продолжения сегмента, либо для прогнозирования того, чего в сегменте не хватает, учитывая сегмент из набора обучающих данных. ^[36] Это может быть либо

авторегрессия (т. е. прогнозирование продолжения сегмента, как это делают GPT ): например, для сегмента «Я люблю поесть» модель прогнозирует «мороженое» или «суши».
« замаскированный » (т.е. заполнение недостающих частей в сегменте, как это делает «BERT» ^[37] ): например, для сегмента «Я люблю [__] [__]сливки» модель предсказывает, что «есть» и «лед» не хватает.

Модели можно обучать на вспомогательных задачах, которые проверяют их понимание распределения данных, таких как прогнозирование следующего предложения (NSP), в котором представлены пары предложений, и модель должна предсказать, будут ли они появляться последовательно в обучающем корпусе. ^[37] Во время обучения потеря регуляризации также используется для стабилизации обучения. Однако потери регуляризации обычно не используются во время тестирования и оценки.

Стоимость обучения

Достижения в области программного и аппаратного обеспечения существенно снизили затраты с 2020 года, так что в 2023 году стоимость обучения LLM с 12 миллиардами параметров составит 72 300 часов A100-GPU , а в 2020 году стоимость обучения LLM с 1,5 миллиардами параметров (что на два порядка меньше, чем в 2020 году) составляло от 80 тысяч до 1,6 миллиона долларов. ^[38]^[39]^[40] С 2020 года большие суммы инвестировались во все более крупные модели. Например, обучение GPT-2 (то есть модели с 1,5 миллиардами параметров) в 2019 году стоило 50 000 долларов, а обучение PaLM (то есть модели с 540 миллиардами параметров) в 2022 году стоило 8 миллионов долларов. ^[41]

Для LLM на основе трансформатора стоимость обучения намного выше, чем стоимость вывода. Обучение на одном токене стоит 6 флопов на каждый параметр, тогда как на вывод на одном токене уходит от 1 до 2 флопов на каждый параметр. ^[42]

Использование инструмента

Есть определенные задачи, которые в принципе не может решить ни один LLM, по крайней мере, без использования внешних инструментов или дополнительного программного обеспечения. Примером такой задачи является ответ на ввод пользователя «354 * 139 =», при условии, что LLM еще не встретил продолжение этого расчета в своем обучающем корпусе. В таких случаях LLM необходимо прибегнуть к запуску программного кода, вычисляющего результат, который затем может быть включен в его ответ. Другой пример: «Сколько сейчас время?» Это ', когда отдельный интерпретатор программы должен выполнить код, чтобы получить системное время на компьютере, чтобы LLM могла включить его в свой ответ. ^[43]^[44] Эта базовая стратегия может быть усовершенствована с помощью нескольких попыток сгенерированных программ и других стратегий выборки. ^[45] Экономия затрат и снижение зависимости от поставщиков

Как правило, чтобы заставить LLM использовать инструменты, необходимо настроить его на использование инструментов. Если количество инструментов конечно, то точную настройку можно выполнить только один раз. Если количество инструментов может расти произвольно, как в случае с онлайн- сервисами API , то LLM можно настроить так, чтобы он мог читать документацию API и правильно вызывать API. ^[46]^[47]

Более простой формой использования инструмента является поисковая расширенная генерация : дополнить LLM поиском документов , иногда с использованием векторной базы данных . По запросу вызывается средство извлечения документов для извлечения наиболее релевантных документов (обычно это измеряется путем сначала кодирования запроса и документов в векторы, а затем поиска документов с векторами, наиболее близкими по евклидовой норме к вектору запроса). Затем LLM генерирует выходные данные на основе запроса и полученных документов. ^[48]

Агентство

LLM — это языковая модель, которая не является агентом, поскольку не имеет цели, но может использоваться как компонент интеллектуального агента . ^[49] Исследователи описали несколько методов такой интеграции.

Метод ReAct («Причина + Действие») создает агента из LLM, используя LLM в качестве планировщика. LLM предлагается «думать вслух». В частности, языковая модель запрашивается с текстовым описанием окружающей среды, целью, списком возможных действий и записью действий и наблюдений на данный момент. Он генерирует одну или несколько мыслей, прежде чем генерировать действие, которое затем выполняется в окружающей среде. ^[50] Лингвистическое описание окружающей среды, данное планировщику LLM, может даже представлять собой код LaTeX статьи, описывающей окружающую среду. ^[51]

В методе DEPS («Описывать, объяснять, планировать и выбирать») LLM сначала подключается к визуальному миру посредством описаний изображений, затем ему предлагается составить планы для сложных задач и действий на основе предварительно подготовленных знаний и обратной связи с окружающей средой. получает. ^[52]

Метод рефлексии ^[53] создает агента, который обучается на протяжении нескольких эпизодов. В конце каждого эпизода LLM предоставляется запись эпизода и предлагается обдумать «извлеченные уроки», которые помогут ему лучше работать в следующем эпизоде. Эти «извлеченные уроки» передаются агенту в последующих эпизодах.

Поиск по дереву Монте-Карло может использовать LLM в качестве эвристики развертывания. Если программная модель мира недоступна, LLM также может быть предложено ввести описание среды, которая будет выступать в качестве модели мира. ^[54]

Для открытого исследования LLM можно использовать для оценки наблюдений на предмет их «интересности», что можно использовать в качестве сигнала вознаграждения для руководства обычным (не LLM) агентом обучения с подкреплением. ^[55] Альтернативно, он может предлагать все более сложные задачи для изучения учебной программы. ^[56] Вместо вывода отдельных действий планировщик LLM может также создавать «навыки» или функции для сложных последовательностей действий. Навыки можно сохранять и впоследствии использовать, что позволяет повысить уровень абстракции при планировании. ^[56]

Агенты на базе LLM могут хранить долговременную память о своих предыдущих контекстах, и эту память можно извлечь таким же способом, как и при извлечении дополненной генерации. Несколько таких агентов могут взаимодействовать социально. ^[57]

Сжатие

Обычно LLM обучается с помощью чисел с плавающей запятой полной или половинной точности (float32 и float16). Один float16 имеет 16 бит или 2 байта, поэтому для одного миллиарда параметров требуется 2 гигабайта. Самые крупные модели обычно имеют 100 миллиардов параметров, для загрузки которых требуется 200 гигабайт, что ставит их за пределы возможностей большинства бытовой электроники.

Квантование после обучения ^[58] направлено на уменьшение требований к пространству за счет снижения точности параметров обученной модели, сохраняя при этом большую часть ее производительности. ^[59]^[60] Самая простая форма квантования просто усекает все числа до заданного количества бит. Его можно улучшить, используя разные кодовые книги квантования для каждого слоя. Дальнейшее улучшение может быть достигнуто путем применения различной точности к различным параметрам, с более высокой точностью для особенно важных параметров («выбросов веса»). ^[61]

Хотя квантованные модели обычно замораживаются и точной настройке подвергаются только предварительно квантованные модели, квантованные модели все равно можно точно настроить. ^[62]

Мультимодальность

Мультимодальность означает «наличие нескольких модальностей», а «модальность» относится к типу ввода или вывода, такому как видео, изображение, аудио, текст, проприоцепция и т. д. ^[63] Было создано множество моделей ИИ, специально обученных для приема одной модальности. модальность и выводить другую модальность, например AlexNet для изображения для метки, ^[64] визуальный ответ на вопрос для изображения-текста в тексте, ^[65] и распознавание речи для преобразования речи в текст.

Распространенный метод создания мультимодальных моделей на основе LLM — «токенизация» выходных данных обученного кодировщика. Конкретно, можно построить LLM, который может понимать изображения следующим образом: возьмите обученный LLM и возьмите обученный кодировщик изображений . Сделайте небольшой многослойный перцептрон , чтобы для любого изображения постобработанный вектор имел те же размеры, что и закодированный токен. Это «токен изображения». Затем можно чередовать текстовые токены и токены изображений. Затем составная модель настраивается на наборе данных изображения и текста. Эту базовую конструкцию можно применять с большей сложностью для улучшения модели. Кодер изображения можно заморозить для повышения стабильности. ^[66] $E$ $f$ $y$ $f(E(y))$

Flamingo продемонстрировал эффективность метода токенизации, настроив пару предварительно обученной языковой модели и кодировщика изображений, чтобы они лучше справлялись с визуальными ответами на вопросы, чем модели, обученные с нуля. ^{[67] Модель} Google PaLM была доработана до мультимодальной модели PaLM-E с использованием метода токенизации и применена к роботизированному управлению. ^{[68] Модели} LLaMA также стали мультимодальными с использованием метода токенизации, чтобы обеспечить ввод изображений, ^[69] и видеовходов. ^[70]

GPT-4 может использовать как текст, так и изображение в качестве входных данных ^[71] (хотя компонент изображения не был опубликован до GPT-4V ^[72] ); Gemini от Google DeepMind также является мультимодальным. ^[73]

Характеристики

Законы масштабирования

Следующие четыре гиперпараметра характеризуют LLM:

стоимость (предварительного) обучения ( ), $C$
размер самой искусственной нейронной сети , например количество параметров (т. е. количество нейронов в ее слоях, количество весов между ними и смещений), $N$
размер набора данных (предварительного) обучения (т. е. количество токенов в корпусе, ), $D$
производительность после (предварительной) тренировки.

Они связаны простыми статистическими законами , называемыми «законами масштабирования». Один конкретный закон масштабирования (« Шиншилловое масштабирование ») для LLM, авторегрессионно обученного в течение одной эпохи, с логарифмическим графиком скорости обучения , гласит, что: ^[74]

{\begin{cases}C=C_{0}ND\\[6pt]L={\frac {A}{N^{\alpha }}}+{\frac {B}{D^{\beta }}}+L_{0}\end{cases}}

$C$ — стоимость обучения модели в флопах .
$N$ количество параметров в модели.
$D$ — количество токенов в обучающем наборе.
$L$ — это средняя отрицательная логарифмическая потеря правдоподобия на токен ( nats /token), достигнутая обученным LLM на тестовом наборе данных.

и статистические гиперпараметры

$C_{0}=6$ Это означает, что обучение на одном токене стоит 6 флопов на каждый параметр. Обратите внимание, что стоимость обучения намного выше, чем стоимость вывода, где для вывода одного токена требуется от 1 до 2 флопов на каждый параметр. ^[42]
$\alpha =0.34,\beta =0.28,A=406.4,B=410.7,L_{0}=1.69$

Новые способности

Если вычесть из оси Y наилучшую производительность, которая может быть достигнута даже при бесконечном масштабировании величины по оси X, производительность больших моделей, измеренная в различных задачах, кажется линейной экстраполяцией других (меньших размеров и среднего размера) производительность моделей на логарифмическом графике. Однако иногда наклон линии переходит от одного наклона к другому в точке(ях), называемой разрывом(ами) ^[75] в законах масштабирования ниже по течению, представляя собой серию линейных сегментов, соединенных дугами; кажется, что на этом этапе более крупные модели приобретают «новые способности». ^[30]^[76] Эти способности обнаруживаются, а не программируются или разрабатываются, в некоторых случаях только после того, как LLM был публично развернут. ^[5]

Наиболее интригующей среди новых способностей является контекстное обучение на демонстрационных примерах. ^[77] Контекстное обучение предполагает решение таких задач, как:

сообщенная арифметика, расшифровка международного фонетического алфавита , расшифровка букв слова, устранение неоднозначности слова в контексте, ^[30]^[78]^[79] преобразование пространственных слов, стороны света (например, ответ «северо-восток» на [0, 0, 1; 0, 0, 0; 0, 0, 0]), цветовые термины, представленные в тексте. ^[80]
Подсказки по цепочке мыслей : выходные данные модели улучшаются за счет подсказок по цепочке мыслей только в том случае, если размер модели превышает 62 байт. Меньшие модели работают лучше, когда им предлагается ответить немедленно, без цепочки мыслей. ^[81]
выявление оскорбительного содержания в абзацах на хинглише (сочетании хинди и английского языка) и создание аналогичного английского эквивалента пословиц суахили . ^[82]

Шеффер и др. ал. утверждают, что возникающие способности не приобретаются непредсказуемо, а предсказуемо приобретаются в соответствии с законом плавного масштабирования . Авторы рассмотрели игрушечную статистическую модель LLM, решающую вопросы с несколькими вариантами ответов, и показали, что эта статистическая модель, модифицированная для учета других типов задач, применима и к этим задачам. ^[83]

Пусть это количество параметров и производительность модели. $x$ $y$

Когда , то это экспоненциальная кривая (прежде чем она достигнет плато в единице), которая выглядит как эмерджентность. $y={\text{average }}\Pr({\text{correct token}})$ $(\log x,y)$
Когда , то график представляет собой прямую линию (до того, как она достигнет нулевого плато), что не похоже на эмерджентность. $y={\text{average }}\log(\Pr({\text{correct token}}))$ $(\log x,y)$
Когда , то есть ступенчатая функция, имеющая вид эмерджентности. $y={\text{average }}\Pr({\text{the most likely token is correct}})$ $(\log x,y)$

Интерпретация

Большие языковые модели сами по себе являются « черными ящиками », и неясно, как они могут выполнять лингвистические задачи. Существует несколько способов понять, как работает LLM.

Механистическая интерпретируемость направлена на реверс-инжиниринг LLM путем открытия символических алгоритмов, которые аппроксимируют вывод, выполняемый LLM. Одним из примеров является Othello-GPT, где небольшой Трансформер обучен предсказывать законные ходы Отелло . Обнаружено, что существует линейное представление доски Отелло, и изменение этого представления меняет предсказанные законные ходы Отелло правильным образом. ^[84]^[85] В другом примере небольшой Трансформер обучается на программах Karel . Как и в примере с Othello-GPT, существует линейное представление семантики программы Karel, и изменение представления меняет выходные данные правильным образом. Модель также генерирует правильные программы, которые в среднем короче программ в обучающей выборке. ^[86]

В другом примере авторы обучали небольшие преобразователи модульному арифметическому сложению . Полученные модели были подвергнуты реверс-инжинирингу, и оказалось, что они использовали дискретное преобразование Фурье . ^[87]

Понимание и интеллект

Исследователи НЛП разделились поровну, когда в опросе 2022 года их спросили, могут ли (ненастроенные) студенты магистратуры «(когда-либо) понимать естественный язык в каком-то нетривиальном смысле». ^[88] Сторонники «понимания LLM» считают, что некоторые способности LLM, такие как математические рассуждения, подразумевают способность «понимать» определенные концепции. В 2023 году команда Microsoft утверждала, что GPT-4 «может решать новые и сложные задачи, охватывающие математику, программирование, видение, медицину, право, психологию и многое другое» и что GPT-4 «можно разумно рассматривать как раннюю (но все еще неполную) версию ) версия системы искусственного общего интеллекта »: «Можно ли разумно сказать, что система, которая сдает экзамены для кандидатов в инженеры-программисты, на самом деле не интеллектуальна?» ^[89]^[90] Некоторые исследователи характеризуют LLM как «инопланетный интеллект». ^[91]^[92] Например, генеральный директор Conjecture Коннор Лихи считает, что ненастроенные LLM подобны непостижимым инопланетным « шогготам », и считает, что настройка RLHF создает «улыбающийся фасад», скрывающий внутреннюю работу LLM: «Если вы этого не сделаете, если зайти слишком далеко, смайлик останется. Но затем вы дадите ему [неожиданную] подсказку, и внезапно вы увидите это огромное подбрюшье безумия, странных мыслительных процессов и явно нечеловеческого понимания». ^[93]^[94]

Напротив, некоторые сторонники школы «LLM не понимают» полагают, что существующие LLM «просто смешивают и рекомбинируют существующее письмо» ^[92] или указывают на дефицит существующих LLM в навыках прогнозирования, навыках рассуждения, агентности и объяснимость. ^[88] Например, GPT-4 имеет естественные недостатки в планировании и обучении в реальном времени. ^[90] Было замечено, что генеративные LLM уверенно заявляют о фактах, которые, по-видимому, не подтверждаются данными их обучения , - явление, которое было названо « галлюцинацией ». ^[95] В частности, галлюцинации в контексте LLM соответствуют генерации текста или ответов, которые кажутся синтаксически обоснованными, беглыми и естественными, но на самом деле являются неверными, бессмысленными или не соответствуют предоставленному исходному материалу. ^[96] Нейробиолог Терренс Сейновски утверждал, что «разные мнения экспертов по поводу интеллекта студентов-магистров предполагают, что наши старые идеи, основанные на естественном интеллекте, неадекватны». ^[88]

Вопрос о том, как LLM демонстрирует интеллект или понимание, имеет два основных аспекта: первый — это то, как моделировать мышление и язык в компьютерной системе, а второй — как позволить компьютерной системе генерировать язык, подобный человеческому. ^[88] Эти аспекты языка как модели познания были разработаны в области когнитивной лингвистики . Американский лингвист Джордж Лакофф представил нейронную теорию языка (NTL) ^[97] как вычислительную основу для использования языка в качестве модели задач обучения и понимания. Модель NTL описывает, как конкретные нейронные структуры человеческого мозга формируют природу мышления и языка и, в свою очередь, каковы вычислительные свойства таких нейронных систем, которые можно применять для моделирования мышления и языка в компьютерной системе. После того, как была создана основа моделирования языка в компьютерных системах, акцент сместился на создание рамок для компьютерных систем, позволяющих генерировать язык с приемлемой грамматикой. В своей книге 2014 года под названием «Языковой миф: почему язык не является инстинктом» британский когнитивный лингвист и технолог цифровых коммуникаций Вивиан Эванс наметил роль вероятностной контекстно-свободной грамматики (PCFG), позволяющей НЛП моделировать когнитивные шаблоны и генерировать человекоподобный язык. . ^[98] ^[99]

Оценка

Растерянность

Наиболее часто используемой мерой производительности языковой модели является ее сложность в данном текстовом корпусе. Недоумение — это мера того, насколько хорошо модель способна предсказать содержимое набора данных; чем выше вероятность, которую модель присваивает набору данных, тем меньше недоумение. Математически недоумение определяется как экспонента средней отрицательной логарифмической вероятности на токен:

\log({\text{Perplexity}})=-{\frac {1}{N}}\sum _{i=1}^{N}\log(\Pr({\text{token}}_{i}\mid {\text{context for token}}_{i}))

N

i

i

i

i

i

Поскольку языковые модели могут не соответствовать обучающим данным, модели обычно оцениваются по степени их недоумения на тестовом наборе невидимых данных. ^[37] Это создает особые проблемы для оценки больших языковых моделей. Поскольку они обучаются на все более крупных массивах текста, в основном извлеченных из Интернета, становится все более вероятным, что данные обучения моделей непреднамеренно включают части любого заданного набора тестов. ^[6]

BPW, BPC и BPT

В теории информации концепция энтропии неразрывно связана с недоумением, связь, установленная Клодом Шенноном . ^[100] Эта зависимость математически выражается как . ${\text{Entropy}}=\log _{2}({\text{Perplexity}})$

Энтропия в этом контексте обычно выражается количественно в битах на слово (BPW) или битах на символ (BPC), что зависит от того, использует ли языковая модель токенизацию на основе слов или символов.

Примечательно, что в случае более крупных языковых моделей, в которых преимущественно используется токенизация подслов, бит на токен (BPT), по-видимому, является более подходящей мерой. Однако из-за различий в методах токенизации в разных моделях большого языка (LLM) BPT не может служить надежным показателем для сравнительного анализа различных моделей. Чтобы преобразовать BPT в BPW, его можно умножить на среднее количество токенов в слове.

При оценке и сравнении языковых моделей перекрестная энтропия обычно является более предпочтительным показателем, чем энтропия. Основной принцип заключается в том, что более низкое значение BPW указывает на расширенные возможности модели по сжатию. Это, в свою очередь, отражает умение модели делать точные прогнозы.

Наборы данных и тесты для конкретных задач

Также было разработано большое количество тестовых наборов данных и тестов для оценки возможностей языковых моделей для решения более конкретных последующих задач. Тесты могут быть разработаны для оценки различных способностей, включая общие знания, здравое рассуждение и решение математических задач.

Одной из широких категорий наборов оценочных данных являются наборы данных с ответами на вопросы, состоящие из пар вопросов и правильных ответов, например («Выиграли ли «Сан-Хосе Шаркс» Кубок Стэнли?», «Нет»). ^[101] Задача ответа на вопрос считается «открытой книгой», если подсказка модели включает текст, из которого можно получить ожидаемый ответ (например, к предыдущему вопросу может быть добавлен текст, включающий предложение «Акулы продвинулись к один раз в финале Кубка Стэнли, проиграв «Питтсбург Пингвинз» в 2016 году». ^[101] ). В противном случае задача считается «закрытой книгой», и модель должна опираться на знания, полученные во время обучения. ^[102] Некоторые примеры часто используемых наборов данных для ответов на вопросы включают TruthfulQA, Web Questions, TriviaQA и SQuAD. ^[102]

Наборы оценочных данных также могут принимать форму завершения текста: модель выбирает наиболее подходящее слово или предложение для завершения подсказки, например: «Алиса дружила с Бобом. Алиса пошла навестить своего друга ____». ^[6]

Также были разработаны некоторые комплексные критерии, которые сочетают в себе множество различных наборов оценочных данных и задач. Примеры включают GLUE, SuperGLUE, MMLU, BIG-bench и HELM. ^[103]^[102]

Раньше было стандартным сообщать результаты по отложенной части набора оценочных данных после выполнения контролируемой точной настройки оставшейся части. Сейчас более распространено оценивать предварительно обученную модель напрямую с помощью методов подсказки, хотя исследователи различаются в деталях того, как они формулируют подсказки для конкретных задач, особенно в отношении того, сколько примеров решенных задач прилагается к подсказке (т.е. значение n в подсказке n -shot).

Состязательно построенные оценки

Из-за быстрых темпов совершенствования больших языковых моделей тесты оценки имеют короткую продолжительность жизни, при этом современные модели быстро «насыщают» существующие тесты, превосходя производительность людей-аннотаторов, что приводит к попыткам заменить или дополнить тест более сложные задачи. ^[104] Кроме того, существуют случаи «быстрого обучения», когда ИИ иногда «обманывают» в тестах с множественным выбором, используя статистические корреляции в поверхностных формулировках тестовых вопросов, чтобы угадать правильные ответы, без обязательного понимания фактического задаваемого вопроса. . ^[88]

Некоторые наборы данных были построены состязательно, с упором на конкретные проблемы, в решении которых существующие языковые модели кажутся необычайно плохими по сравнению с людьми. Одним из примеров является набор данных TruthfulQA, набор данных с ответами на вопросы, состоящий из 817 вопросов, на которые языковые модели склонны давать неправильные ответы, имитируя ложь, с которой они неоднократно сталкивались во время обучения. Например, степень магистра права может ответить «Нет» на вопрос «Можете ли вы научить старую собаку новым трюкам?» из-за того, что она подвержена английской идиоме, вы не сможете научить старую собаку новым трюкам , хотя это не совсем так. ^[105]

Другим примером набора данных состязательной оценки является Swag и его преемник HellaSwag, наборы задач, в которых для завершения отрывка текста необходимо выбрать один из нескольких вариантов. Неправильные дополнения были получены путем выборки из языковой модели и фильтрации с помощью набора классификаторов. Возникающие в результате проблемы тривиальны для людей, но на момент создания наборов данных современные языковые модели имели низкую точность. Например:

Видим вывеску фитнес-центра. Затем мы видим мужчину, разговаривающего с камерой, сидящего и лежащего на мяче для упражнений. Мужчина...
а) демонстрирует, как повысить эффективность физических упражнений, бегая по мячам вверх и вниз.
б) двигает всеми руками и ногами и наращивает много мышц.
в) затем играет в мяч, и мы видим графику и демонстрацию обрезки живой изгороди.
г) выполняет приседания, находясь на мяче и разговаривая. ^[106]

BERT выбирает b) как наиболее вероятное завершение, хотя правильный ответ — d). ^[106]

Более широкое воздействие

В 2023 году журнал Nature Biomedical Engineering написал, что «больше невозможно точно отличить» написанный человеком текст от текста, созданного с помощью больших языковых моделей, и что «почти наверняка, что большие языковые модели общего назначения будут быстро распространяться. ... Можно с уверенностью сказать, что со временем они изменят многие отрасли». ^{[107] В 2023 году} Goldman Sachs предположил, что генеративный языковой ИИ может увеличить мировой ВВП на 7% в ближайшие десять лет и может привести к автоматизации 300 миллионов рабочих мест по всему миру. ^[108]^[109]

Авторские права

Запоминание — это возникающее поведение в LLM, в котором длинные строки текста иногда дословно выводятся из обучающих данных, в отличие от типичного поведения традиционных искусственных нейронных сетей. Оценки контролируемых результатов LLM измеряют объем, запомненный из обучающих данных (с акцентом на модели серии GPT-2), по-разному: более 1% для точных дубликатов ^[110] или примерно до 7%. ^[111]

Безопасность

Некоторые комментаторы выразили обеспокоенность по поводу случайного или преднамеренного создания дезинформации или других форм неправильного использования. ^[112] Например, наличие больших языковых моделей может снизить уровень навыков, необходимых для совершения биотерроризма; Исследователь биобезопасности Кевин Эсвелт предложил создателям LLM исключить из своих учебных материалов материалы по созданию или усилению патогенов. ^[113]

Исследование, проведенное исследователями Google и нескольких университетов, в том числе Корнельского университета и Калифорнийского университета в Беркли , показало, что существуют потенциальные угрозы безопасности в таких языковых моделях, как ChatGPT . В своем исследовании они изучили возможность того, что спрашивающие могут получить из ChatGPT данные обучения, которые использовала модель ИИ; они обнаружили, что могут получить обучающие данные из модели ИИ. Например, попросив ChatGPT 3.5 турбо вечно повторять слово «стихотворение», модель ИИ будет говорить «стихотворение» сотни раз, а затем расходиться, отклоняясь от стандартного стиля диалога и выплескивая бессмысленные фразы, выплескивая таким образом обучающие данные. как есть. Исследователи видели более 10 000 примеров модели ИИ, предоставляющей данные обучения аналогичным методом. Исследователи заявили, что трудно сказать, действительно ли модель ИИ безопасна или нет. ^[114]

Потенциальное присутствие «спящих агентов» в моделях LLM является еще одной новой проблемой безопасности. Это скрытые функции, встроенные в модель, которые остаются бездействующими до тех пор, пока не будут активированы определенным событием или условием. После активации LLM отклоняется от ожидаемого поведения и совершает небезопасные действия. ^[115]

Алгоритмическое смещение

Хотя LLM продемонстрировали замечательные возможности в создании текста, похожего на человеческий, они подвержены наследованию и усилению систематических ошибок, присутствующих в их обучающих данных. Это может проявляться в искаженном представлении или несправедливом обращении с различными демографическими группами, например, на основе расы, пола, языка и культурных групп. ^[116] Поскольку данные на английском языке слишком представлены в обучающих данных текущих крупных языковых моделей, это также может преуменьшать значение неанглоязычных представлений. ^[117]

Стереотипирование

Модели ИИ могут усилить широкий спектр стереотипов, в том числе основанных на поле, этнической принадлежности, возрасте, национальности, религии или профессии. Это может привести к результатам, которые несправедливо обобщают или карикатурно изображают группы людей, иногда вредными или уничижительными способами. ^[118]

Примечательно, что гендерная предвзятость означает тенденцию этих моделей давать результаты, которые несправедливо предвзято относятся к одному полу по сравнению с другим. Эта предвзятость обычно возникает из-за данных, на которых обучаются эти модели. Большие языковые модели часто назначают роли и характеристики на основе традиционных гендерных норм. ^[116] Например, медсестры или секретари могут ассоциироваться преимущественно с женщинами, а инженеры или генеральные директора — с мужчинами. ^[119]

Политическая предвзятость

Политическая предвзятость означает тенденцию алгоритмов систематически отдавать предпочтение определенным политическим точкам зрения, идеологиям или результатам перед другими. Языковые модели могут также проявлять политическую предвзятость. Поскольку данные обучения включают широкий спектр политических взглядов и охвата, модели могут генерировать ответы, склоняющиеся к конкретным политическим идеологиям или точкам зрения, в зависимости от преобладания этих взглядов в данных. ^[120]

Список

Для столбца стоимости обучения 1 петафлопс-день = 1 петафлопс/сек × 1 день = 8,64E19 флоп.

Смотрите также

Модели фундамента

Примечания

^ Это дата, когда была впервые выпущена документация, описывающая архитектуру модели.
^ Во многих случаях исследователи публикуют или сообщают о нескольких версиях модели разных размеров. В этих случаях здесь указан размер самой большой модели.
^ Это лицензия на предварительно обученные веса модели. Почти во всех случаях сам обучающий код имеет открытый исходный код или может быть легко воспроизведен.
^ Меньшие модели, включая 66B, общедоступны, а модель 175B доступна по запросу.
^ Схема лицензирования и распространения Facebook ограничила доступ утвержденным исследователям, но веса моделей просочились и стали широко доступны.
^ Как указано в техническом отчете: «Учитывая как конкурентную среду, так и последствия для безопасности крупномасштабных моделей, таких как GPT-4, этот отчет не содержит дополнительных подробностей об архитектуре (включая размер модели), аппаратном обеспечении, обучающих вычислениях, построении набора данных, метод тренировки...» ^[169]

дальнейшее чтение

Джурафски, Дэн , Мартин, Джеймс. H. Обработка речи и языка: введение в обработку естественного языка, компьютерную лингвистику и распознавание речи, черновик 3-го издания, 2023 г.
Фуонг, Мэри; Хаттер, Маркус (2022). «Формальные алгоритмы трансформаторов». arXiv : 2207.09238 [cs.LG].
Элунду, Тайна; Мэннинг, Сэм; Мишкин, Памела; Рок, Дэниел (2023). «GPT - это GPT: ранний взгляд на потенциал воздействия больших языковых моделей на рынок труда». arXiv : 2303.10130 [econ.GN].
Эльдан, Ронен; Ли, Юаньчжи (2023). «TinyStories: насколько маленькими могут быть языковые модели и при этом говорить на связном английском языке?». arXiv : 2305.07759 [cs.CL].
Фрэнк, Майкл К. (27 июня 2023 г.). «Малые шаги в оценке возможностей больших языковых моделей». Обзоры природы Психология . 2 (8): 451–452. дои : 10.1038/s44159-023-00211-x. ISSN 2731-0574. S2CID 259713140 . Проверено 2 июля 2023 г.
Чжао, Уэйн Синь; и другие. (2023). «Обзор больших языковых моделей». arXiv : 2303.18223 [cs.CL].
Каддур, Жан; и другие. (2023). «Проблемы и приложения больших языковых моделей». arXiv : 2307.10169 [cs.CL].
Инь, Шукан; Фу, Чаою; Чжао, Сируи; Нравиться; Сунь, Син; Сюй, Тонг; Чен, Эньхун (01 июня 2023 г.). «Обзор мультимодальных моделей большого языка». arXiv : 2306.13549 [cs.CV].
Откройте репозиторий LLM на GitHub .