Большая языковая модель

Модель большого языка ( LLM ) — это вычислительная модель , отличающаяся способностью генерировать языки общего назначения и выполнять другие задачи обработки естественного языка, такие как классификация . Основываясь на языковых моделях , студенты LLM приобретают эти способности, изучая статистические взаимосвязи из огромных объемов текста в ходе интенсивного вычислительного процесса обучения с самоконтролем и полуконтролем . ^[1] LLM можно использовать для генерации текста, формы генеративного искусственного интеллекта , путем взятия входного текста и многократного прогнозирования следующего токена или слова. ^[2]

LLM — это искусственные нейронные сети , использующие архитектуру трансформатора , изобретенную в 2017 году. Самые крупные и наиболее мощные LLM по состоянию на июнь 2024 года ^[update]построены на основе архитектуры на основе только декодера, которая обеспечивает эффективную обработку и генерацию крупномасштабного текста. данные.

Исторически сложилось так, что до 2020 года точная настройка была основным методом адаптации модели под конкретные задачи. Однако более крупные модели, такие как GPT-3, продемонстрировали способность достигать аналогичных результатов за счет разработки подсказок , которая включает в себя создание конкретных подсказок для ввода, которые будут определять ответы модели. ^[3] Эти модели приобретают знания о синтаксисе, семантике и онтологиях ^[4] , присущие корпусам человеческого языка, но они также наследуют неточности и предвзятости, присутствующие в данных, на которых они обучаются. ^[5]

Некоторые известные LLM — это серия моделей GPT OpenAI (например, GPT - 3.5 и GPT-4 , используемые в ChatGPT и Microsoft Copilot ), Gemini от Google (последняя из которых в настоящее время используется в одноименном чат-боте ) . , семейство моделей LLaMA от Meta , модели Claude от Anthropic и модели Mistral AI .

История

До 2017 года существовало несколько языковых моделей, которые были большими по сравнению с доступными на тот момент возможностями. В 1990-х годах модели выравнивания IBM стали пионерами статистического языкового моделирования. Сглаженная n-граммная модель в 2001 году, обученная на 0,3 миллиарда слов, достигла тогдашней SOTA-задачи. ^[6] В 2000-х годах, когда использование Интернета стало широко распространенным, некоторые исследователи создали наборы языковых данных интернет-масштаба («сеть как корпус» ^[7] ), на которых они обучали статистические языковые модели. ^[8]^[9] В 2009 году в большинстве задач языковой обработки статистические языковые модели доминировали над символьными языковыми моделями, поскольку они могут с пользой обрабатывать большие наборы данных. ^[10]

После того, как примерно в 2012 году нейронные сети стали доминировать в обработке изображений, их стали применять и для языкового моделирования. Google преобразовал свой сервис перевода на нейронный машинный перевод в 2016 году. Как и до «Трансформеров», это выполнялось с помощью глубоких сетей LSTM seq2seq.

Иллюстрация основных компонентов модели трансформатора из оригинальной статьи, где слои были нормализованы после (а не до) многоголового внимания.

На конференции NeurIPS 2017 года исследователи Google представили архитектуру трансформатора в своей знаковой статье « Внимание — это все, что вам нужно ». Целью этой статьи было улучшение технологии Seq2seq 2014 года ^[11] и она была основана главным образом на механизме внимания , разработанном Bahdanau et al. в 2014 году. ^[12] В следующем, 2018 году, BERT был представлен и быстро стал «повсеместным». ^[13] Хотя исходный преобразователь имеет блоки кодера и декодера, BERT представляет собой модель только для кодера.

Хотя GPT-1 , предназначенный только для декодера , был представлен в 2018 году, именно GPT-2 в 2019 году привлек всеобщее внимание, поскольку OpenAI сначала сочла его слишком мощным, чтобы публиковать его публично, из-за опасений злонамеренного использования. ^[14] GPT-3 в 2020 году пошел еще дальше и с 2024 года ^[update]доступен только через API без предложения загрузки модели для локального выполнения. Но именно браузерный ChatGPT , ориентированный на потребителя в 2022 году , захватил воображение широких слоев населения и вызвал некоторую шумиху в СМИ и онлайн-ажиотаж. ^[15]GPT-4 2023 года получил высокую оценку за повышенную точность и как «Святой Грааль» за свои мультимодальные возможности. ^[16] OpenAI не раскрыл высокоуровневую архитектуру и количество параметров GPT-4.

Конкурирующие языковые модели по большей части пытались сравняться с серией GPT, по крайней мере, с точки зрения количества параметров. ^[17]

С 2022 года модели с доступными исходниками набирают популярность, особенно поначалу с BLOOM и LLaMA , хотя обе имеют ограничения по области использования. Модели Mistral AI Mistral 7B и Mixtral 8x7b имеют более либеральную лицензию Apache . По состоянию на июнь 2024 года ^[update]вариант модели Llama 3 с 70 миллиардами параметров, настроенный по инструкции, является самым мощным открытым LLM согласно таблице лидеров LMSYS Chatbot Arena, он более мощный, чем GPT-3.5, но не такой мощный, как GPT-4. ^[18]

По состоянию на 2024 год все самые крупные и мощные модели будут основаны на архитектуре Transformer. Некоторые недавние реализации основаны на других архитектурах, таких как варианты рекуррентных нейронных сетей и Mamba ( модель пространства состояний ). ^[19]^[20]^[21]

Предварительная обработка набора данных

Вероятностная токенизация

Поскольку алгоритмы машинного обучения обрабатывают числа, а не текст, текст необходимо преобразовать в числа. На первом этапе определяется словарь, затем каждой статье словаря произвольно, но однозначно присваиваются целочисленные индексы, и, наконец, с целочисленным индексом связывается вложение . Алгоритмы включают кодирование пар байтов и WordPiece .

Вероятностная токенизация также сжимает наборы данных. Поскольку LLM обычно требует , чтобы входные данные представляли собой незубчатый массив , более короткие тексты должны быть «дополнены», пока они не совпадут с длиной самого длинного. Сколько токенов в среднем требуется на одно слово, зависит от языка набора данных. ^[22]^[23]

БПЭ

Используя модификацию парного байтового кодирования, на первом этапе все уникальные символы (включая пробелы и знаки препинания ) обрабатываются как начальный набор n -грамм (т.е. начальный набор униграмм). Последовательно наиболее часто встречающаяся пара соседних символов объединяется в биграмму и все экземпляры пары заменяются ею. Все вхождения соседних пар (ранее объединенных) n -грамм, которые чаще всего встречаются вместе, затем снова многократно объединяются в еще более длинные n -граммы, пока не будет получен словарь заданного размера (в случае GPT-3 размер равен 50257). . ^[24] Словарь токенов состоит из целых чисел , начиная от нуля и заканчивая размером словаря токенов. Новые слова всегда можно интерпретировать как комбинации токенов и униграмм исходного набора. ^[25]

Словарь токенов, основанный на частотах, извлеченных в основном из корпусов английского языка, использует как можно меньше токенов для среднего английского слова. Однако среднее слово на другом языке, закодированное таким оптимизированным для английского языка токенизатором, разделяется на неоптимальное количество токенов. Токенизатор GPT-2 может использовать до 15 раз больше токенов на слово для некоторых языков, например для языка Шан из Мьянмы . Даже более распространенные языки, такие как португальский и немецкий, имеют «премию в 50%» по сравнению с английским. ^[26]

Например, вот как токенизатор, используемый GPT-3 (Legacy), разделяет следующее предложение tokenizer: texts -> series of numerical "tokens".

Очистка набора данных

В контексте обучения LLM наборы данных обычно очищаются путем удаления из набора данных токсичных отрывков, удаления некачественных данных и дедупликации. ^[27] Очищенные наборы данных могут повысить эффективность обучения и привести к улучшению последующих показателей. ^[28]^[29] Обученный LLM можно использовать для очистки наборов данных для обучения следующего LLM. ^[30]

С увеличением доли контента, созданного LLM, в сети очистка данных в будущем может включать фильтрацию такого контента. Контент, сгенерированный LLM, может создать проблему, если контент похож на человеческий текст (что затрудняет фильтрацию), но имеет более низкое качество (снижает производительность моделей, обученных на нем). ^[31]

Синтетические данные

Для обучения крупнейших языковых моделей может потребоваться больше лингвистических данных, чем доступно в природе, или же данные, встречающиеся в природе, имеют недостаточное качество. В этих случаях могут использоваться синтетические данные. Серия программ LLM от Microsoft Phi обучается на данных, подобных учебникам, сгенерированных другим LLM. ^[32]

Обучение и архитектура

Обучение с подкреплением на основе отзывов людей (RLHF)

Обучение с подкреплением на основе обратной связи с человеком (RLHF) с помощью таких алгоритмов, как оптимизация проксимальной политики , используется для дальнейшей точной настройки модели на основе набора данных о предпочтениях человека. ^[33]

Инструкция по настройке

Используя подходы «самообучения», LLM смогли получить правильные ответы, заменяя любые наивные ответы, начиная с исправлений нескольких случаев, внесенных человеком. Например, в инструкции «Написать сочинение на основные темы, представленные в «Гамлете» » первоначальным наивным завершением может быть «Если вы сдадите сочинение после 17 марта, ваша оценка будет снижена на 10% за каждый день просрочки». на основе частоты этой текстовой последовательности в корпусе. ^[34]

Смесь экспертов

Обучение и непосредственное использование крупнейшего LLM может быть слишком дорогим. Для таких моделей можно применить смесь экспертов (MoE) — направление исследований, проводимое исследователями Google с 2017 года для обучения моделей, охватывающих до 1 триллиона параметров. ^[35]^[36]^[37]

Быстрое проектирование, механизм внимания и контекстное окно

Большинство результатов, ранее достижимых только путем (дорогостоящей) тонкой настройки, могут быть достигнуты с помощью быстрого проектирования , хотя и ограничены рамками одного разговора (точнее, ограничены областью контекстного окна). ^[38]

Чтобы выяснить, какие токены релевантны друг другу в пределах контекстного окна, механизм внимания вычисляет «мягкие» веса для каждого токена, точнее, для его внедрения, используя несколько головок внимания, каждая из которых имеет свою собственную «релевантность». " для расчета собственных мягких весов. Например, небольшая (т.е. размер параметра 117M) модель GPT-2 имела двенадцать голов внимания и контекстное окно размером всего в 1 тыс. токенов. ^[40] В средней версии он имеет 345 миллионов параметров и содержит 24 слоя, каждый с 12 головами внимания. Для обучения с градиентным спуском использовался размер пакета 512. ^[25]

Самые крупные модели, такие как Gemini 1.5 от Google , представленные в феврале 2024 года, могут иметь размер контекстного окна до 1 миллиона (контекстное окно размером 10 миллионов также было «успешно протестировано»). ^[41] Другие модели с большими контекстными окнами включают Claude 2.1 от Anthropic с контекстным окном, вмещающим до 200 тысяч токенов. ^[42] Обратите внимание, что этот максимум относится к количеству входных токенов и что максимальное количество выходных токенов отличается от входных и часто меньше. Например, модель GPT-4 Turbo имеет максимальную мощность 4096 токенов. ^[43]

Продолжительность разговора, которую модель может принять во внимание при формировании следующего ответа, также ограничена размером контекстного окна. Если длина разговора, например с ChatGPT , длиннее, чем его контекстное окно, при генерации следующего ответа учитываются только части внутри контекстного окна, или модели необходимо применить некоторый алгоритм для суммирования слишком удаленных частей. разговора.

К недостаткам увеличения контекстного окна относятся более высокие вычислительные затраты и, возможно, ослабление внимания к локальному контексту, тогда как его уменьшение может привести к тому, что модель упустит важную долгосрочную зависимость. Их балансировка — это вопрос экспериментов и соображений, специфичных для конкретной области.

Модель может быть предварительно обучена либо для прогнозирования продолжения сегмента, либо для прогнозирования того, чего в сегменте не хватает, учитывая сегмент из набора обучающих данных. ^[44] Это может быть либо

авторегрессия (т. е. прогнозирование продолжения сегмента, как это делают GPT ): например, для сегмента «Я люблю поесть» модель прогнозирует «мороженое» или «суши».
« замаскированный » (т.е. заполнение недостающих частей в сегменте, как это делает «BERT» ^[45] ): например, для сегмента «Я люблю [__] [__]сливки» модель предсказывает, что «есть» и «лед» не хватает.

Модели можно обучать на вспомогательных задачах, которые проверяют их понимание распределения данных, таких как прогнозирование следующего предложения (NSP), в котором представлены пары предложений, и модель должна предсказать, будут ли они появляться последовательно в обучающем корпусе. ^[45] Во время обучения потеря регуляризации также используется для стабилизации обучения. Однако потери регуляризации обычно не используются во время тестирования и оценки.

Стоимость обучения

Достижения в области программного и аппаратного обеспечения существенно снизили затраты с 2020 года, так что в 2023 году стоимость обучения LLM с 12 миллиардами параметров составит 72 300 часов A100-GPU , а в 2020 году стоимость обучения LLM с 1,5 миллиардами параметров (что на два порядка меньше, чем в 2020 году) составляло от 80 тысяч до 1,6 миллиона долларов. ^[46]^[47]^[48] С 2020 года большие суммы инвестировались во все более крупные модели. Например, обучение GPT-2 (то есть модели с 1,5 миллиардами параметров) в 2019 году стоило 50 000 долларов, тогда как обучение PaLM (то есть модели с 540 миллиардами параметров) в 2022 году стоило 8 миллионов долларов, а Megatron-Turing NLG 530B (в 2021 году) будет стоить около 11 миллионов долларов. ^[49]

Для LLM на основе трансформатора стоимость обучения намного выше, чем стоимость вывода. Обучение на одном токене стоит 6 флопов на каждый параметр, тогда как на вывод на одном токене уходит от 1 до 2 флопов на каждый параметр. ^[50]

Использование инструмента

Есть определенные задачи, которые в принципе не может решить ни один LLM, по крайней мере, без использования внешних инструментов или дополнительного программного обеспечения. Примером такой задачи является ответ на ввод пользователя «354 * 139 =», при условии, что LLM еще не встретил продолжение этого расчета в своем обучающем корпусе. В таких случаях LLM необходимо прибегнуть к запуску программного кода, вычисляющего результат, который затем может быть включен в его ответ. Другой пример: «Сколько сейчас время?» Это ', когда отдельный интерпретатор программы должен выполнить код, чтобы получить системное время на компьютере, чтобы LLM могла включить его в свой ответ. ^[51]^[52] Эту базовую стратегию можно усовершенствовать с помощью нескольких попыток сгенерированных программ и других стратегий выборки. ^[53]

Как правило, чтобы заставить LLM использовать инструменты, необходимо настроить его на использование инструментов. Если количество инструментов конечно, то точную настройку можно выполнить только один раз. Если количество инструментов может расти произвольно, как в случае с онлайн -сервисами API , то LLM можно настроить так, чтобы он мог читать документацию по API и правильно вызывать API. ^[54]^[55]

Более простой формой использования инструмента является поисковая расширенная генерация : дополнить LLM поиском документов , иногда с использованием векторной базы данных . По запросу вызывается средство извлечения документов для извлечения наиболее релевантных документов (обычно это измеряется путем сначала кодирования запроса и документов в векторы, а затем поиска документов с векторами, наиболее близкими по евклидовой норме к вектору запроса). Затем LLM генерирует выходные данные на основе запроса и полученных документов. ^[56]

Агентство

LLM — это языковая модель, которая не является агентом, поскольку не имеет цели, но может использоваться как компонент интеллектуального агента . ^[57] Исследователи описали несколько методов такой интеграции. ^{[ нужна цитата ]}

Метод ReAct («Причина + Действие») создает агента из LLM, используя LLM в качестве планировщика. LLM предлагается «думать вслух». В частности, языковая модель запрашивается с текстовым описанием окружающей среды, целью, списком возможных действий и записью действий и наблюдений на данный момент. Он генерирует одну или несколько мыслей, прежде чем генерировать действие, которое затем выполняется в окружающей среде. ^[58] Лингвистическое описание окружающей среды, данное планировщику LLM, может даже представлять собой код LaTeX статьи, описывающей окружающую среду. ^[59]

В методе DEPS («Описывать, объяснять, планировать и выбирать») LLM сначала подключается к визуальному миру посредством описаний изображений, затем ему предлагается составить планы для сложных задач и действий на основе предварительно подготовленных знаний и обратной связи с окружающей средой. получает. ^[60]

Метод рефлексии ^[61] создает агента, который обучается на протяжении нескольких эпизодов. В конце каждого эпизода LLM предоставляется запись эпизода и предлагается обдумать «извлеченные уроки», которые помогут ему лучше работать в следующем эпизоде. Эти «извлеченные уроки» передаются агенту в последующих эпизодах. ^{[ нужна цитата ]}

Поиск по дереву Монте-Карло может использовать LLM в качестве эвристики развертывания. Если программная модель мира недоступна, LLM также может быть предложено ввести описание среды, которая будет выступать в качестве модели мира. ^[62]

Для открытого исследования LLM можно использовать для оценки наблюдений на предмет их «интересности», что можно использовать в качестве сигнала вознаграждения для руководства обычным (не LLM) агентом обучения с подкреплением. ^[63] Альтернативно, он может предлагать все более сложные задачи для изучения учебной программы . ^[64] Вместо вывода отдельных действий планировщик LLM также может создавать «навыки» или функции для сложных последовательностей действий. Навыки можно сохранять и впоследствии использовать, что позволяет повысить уровень абстракции при планировании. ^[64]

Агенты на базе LLM могут хранить долговременную память о своих предыдущих контекстах, и эту память можно извлечь так же, как и при извлечении дополненной генерации. Несколько таких агентов могут взаимодействовать социально. ^[65]

Сжатие

Обычно LLM обучается с помощью чисел с плавающей запятой одинарной или половинной точности (float32 и float16). Один float16 имеет 16 бит или 2 байта, поэтому для одного миллиарда параметров требуется 2 гигабайта. Самые крупные модели обычно имеют 100 миллиардов параметров, для загрузки которых требуется 200 гигабайт, что ставит их за пределы возможностей большинства бытовой электроники. ^[66]

Квантование после обучения ^[67] направлено на уменьшение требований к пространству за счет снижения точности параметров обученной модели, сохраняя при этом большую часть ее производительности. ^[68]^[69] Самая простая форма квантования просто усекает все числа до заданного количества бит. Его можно улучшить, используя разные кодовые книги квантования для каждого слоя. Дальнейшее улучшение может быть достигнуто путем применения различной точности к различным параметрам, с более высокой точностью для особенно важных параметров («выбросов веса»). ^[70]

Хотя квантованные модели обычно замораживаются, а точной настройке подвергаются только предварительно квантованные модели, квантованные модели все равно можно точно настроить. ^[71]

Мультимодальность

Мультимодальность означает «наличие нескольких модальностей», а «модальность» относится к типу ввода или вывода, такому как видео, изображение, аудио, текст, проприоцепция и т. д. ^[72] Было создано множество моделей ИИ, специально обученных для приема одной модальности. модальность и выводить другую модальность, например AlexNet для изображения для метки, ^[73] визуальный ответ на вопрос для преобразования изображения в текст, ^[74] и распознавание речи для преобразования речи в текст.

Распространенный метод создания мультимодальных моделей на основе LLM — «токенизация» выходных данных обученного кодировщика. Конкретно, можно построить LLM, который сможет понимать изображения следующим образом: возьмите обученный LLM и возьмите обученный кодировщик изображений . Сделайте небольшой многослойный перцептрон , чтобы для любого изображения постобработанный вектор имел те же размеры, что и закодированный токен. Это «токен изображения». Затем можно чередовать текстовые токены и токены изображений. Затем составная модель настраивается на наборе данных изображения и текста. Эту базовую конструкцию можно применять с большей сложностью для улучшения модели. Кодер изображения можно заморозить для повышения стабильности. ^[75] $E$ $f$ $y$ $f(E(y))$

Flamingo продемонстрировал эффективность метода токенизации, настроив пару предварительно обученной языковой модели и кодировщика изображений, чтобы они лучше справлялись с визуальными ответами на вопросы, чем модели, обученные с нуля. ^{[76] Модель} Google PaLM была доработана до мультимодальной модели PaLM-E с использованием метода токенизации и применена к роботизированному управлению. ^{[77] Модели} LLaMA также стали мультимодальными с использованием метода токенизации, чтобы обеспечить ввод изображений, ^[78] и видеовходов. ^[79]

GPT-4 может использовать как текст, так и изображение в качестве входных данных ^[80] (хотя компонент изображения не был опубликован до появления GPT-4V ^[81] ); Gemini от Google DeepMind также является мультимодальным. ^[82]

Характеристики

Законы масштабирования

Следующие четыре гиперпараметра характеризуют LLM:

стоимость (предварительного) обучения ( ), $C$
размер самой искусственной нейронной сети , например количество параметров (т. е. количество нейронов в ее слоях, количество весов между ними и смещений), $N$
размер набора данных (предварительного) обучения (т. е. количество токенов в корпусе, ), $D$
производительность после (предварительной) тренировки.

Они связаны простыми статистическими законами , называемыми «законами масштабирования». Один конкретный закон масштабирования (« Шиншилловое масштабирование ») для LLM, авторегрессионно обученного в течение одной эпохи, с логарифмическим графиком скорости обучения , гласит, что: ^[83] где переменные ${\begin{cases}C=C_{0}ND\\[6pt]L={\frac {A}{N^{\alpha }}}+{\frac {B}{D^{\beta }}}+L_{0}\end{cases}}$

$C$ — стоимость обучения модели в флопах .
$N$ количество параметров в модели.
$D$ — количество токенов в обучающем наборе.
$L$ — это средняя отрицательная логарифмическая потеря правдоподобия на токен ( nats /token), достигнутая обученным LLM на тестовом наборе данных.

и статистические гиперпараметры

$C_{0}=6$ Это означает, что обучение на одном токене стоит 6 флопов на каждый параметр. Обратите внимание, что стоимость обучения намного выше, чем стоимость вывода, где для вывода одного токена требуется от 1 до 2 флопов на каждый параметр. ^[50]
$\alpha =0.34,\beta =0.28,A=406.4,B=410.7,L_{0}=1.69$

Новые способности

Производительность более крупных моделей при выполнении различных задач, построенная в логарифмическом масштабе, выглядит как линейная экстраполяция производительности, достигнутой меньшими моделями. Однако эта линейность может быть акцентирована « разрывами » ^[84] в законе масштабирования, когда наклон линии резко меняется и где более крупные модели приобретают «появляющиеся способности». ^[38]^[85] Они возникают в результате сложного взаимодействия компонентов модели и не запрограммированы или спроектированы явно. ^[2]

Наиболее интригующей среди новых способностей является контекстное обучение на демонстрационных примерах. ^[86] Контекстное обучение включает в себя решение таких задач, как:

сообщаемая арифметика, расшифровка международного фонетического алфавита , расшифровка букв слова, устранение неоднозначности слова в контексте, ^[38]^[87]^[88] преобразование пространственных слов, стороны света (например, ответ «северо-восток» на [0, 0, 1; 0, 0, 0; 0, 0, 0]), цветовые термины, представленные в тексте. ^[89]
Подсказки по цепочке мыслей : выходные данные модели улучшаются за счет подсказок по цепочке мыслей только в том случае, если размер модели превышает 62 байт. Меньшие модели работают лучше, когда им предлагается ответить немедленно, без цепочки мыслей. ^[90]
выявление оскорбительного содержания в абзацах на хинглише (комбинация хинди и английского языка) и создание аналогичного английского эквивалента пословиц суахили . ^[91]

Шеффер и др. ал. утверждают, что возникающие способности не приобретаются непредсказуемо, а предсказуемо приобретаются в соответствии с законом плавного масштабирования . Авторы рассмотрели игрушечную статистическую модель LLM, решающую вопросы с несколькими вариантами ответов, и показали, что эта статистическая модель, модифицированная для учета других типов задач, применима и к этим задачам. ^[92]

Пусть это количество параметров и производительность модели. $x$ $y$

Когда , то это экспоненциальная кривая (прежде чем она достигнет плато в единице), которая выглядит как эмерджентность. $y={\text{average }}\Pr({\text{correct token}})$ $(\log x,y)$
Когда , то график представляет собой прямую линию (до того, как она достигнет нулевого плато), что не похоже на эмерджентность. $y={\text{average }}\log(\Pr({\text{correct token}}))$ $(\log x,y)$
Когда , то есть ступенчатая функция, имеющая вид эмерджентности. $y={\text{average }}\Pr({\text{the most likely token is correct}})$ $(\log x,y)$

Интерпретация

Большие языковые модели сами по себе являются « черными ящиками », и неясно, как они могут выполнять лингвистические задачи. Существует несколько способов понять, как работает LLM.

Механистическая интерпретируемость направлена на реверс-инжиниринг LLM путем открытия символических алгоритмов, которые аппроксимируют вывод, выполняемый LLM. Одним из примеров является Othello-GPT, где небольшой Трансформер обучен предсказывать законные ходы Отелло . Обнаружено, что существует линейное представление доски Отелло, и изменение этого представления меняет предсказанные законные ходы Отелло правильным образом. ^[93]^[94] В другом примере небольшой Трансформер обучается на программах Karel . Как и в примере с Othello-GPT, существует линейное представление семантики программы Karel, и изменение представления меняет выходные данные правильным образом. Модель также генерирует правильные программы, которые в среднем короче программ в обучающей выборке. ^[95]

В другом примере авторы обучали небольшие преобразователи модульному арифметическому сложению . Полученные модели были подвергнуты реверс-инжинирингу, и оказалось, что они использовали дискретное преобразование Фурье . ^[96]

Понимание и интеллект

Исследователи НЛП разделились поровну, когда в опросе 2022 года их спросили, могут ли (ненастроенные) выпускники магистратуры «(когда-либо) понимать естественный язык в каком-то нетривиальном смысле». ^[97] Сторонники «понимания LLM» считают, что некоторые способности LLM, такие как математические рассуждения, подразумевают способность «понимать» определенные концепции. В 2023 году команда Microsoft утверждала, что GPT-4 «может решать новые и сложные задачи, охватывающие математику, программирование, зрение, медицину, право, психологию и многое другое» и что GPT-4 «можно разумно рассматривать как раннюю (но все еще неполную) версию ) версия системы искусственного общего интеллекта »: «Можно ли разумно сказать, что система, которая сдает экзамены для кандидатов в инженеры-программисты, на самом деле не интеллектуальна?» ^[98]^[99] Некоторые исследователи характеризуют LLM как «инопланетный интеллект». ^[100]^[101] Например, генеральный директор Conjecture Коннор Лихи считает ненастроенные LLM подобными непостижимым инопланетным « шогготам » и считает, что настройка RLHF создает «улыбающийся фасад», скрывающий внутреннюю работу LLM: «Если вы этого не сделаете, если зайти слишком далеко, смайлик останется, но затем вы дадите ему [неожиданную] подсказку, и внезапно вы увидите это огромное подбрюшье безумия, странных мыслительных процессов и явно нечеловеческого понимания». ^[102]^[103]

Напротив, некоторые сторонники школы «недопонимания LLM» полагают, что существующие LLM «просто смешивают и рекомбинируют существующее письмо», ^[101] явление, известное как стохастический попугай , или указывают на недостатки существующих LLM в прогнозировании. навыки, навыки рассуждения, агентность и объяснимость. ^[97] Например, GPT-4 имеет естественные недостатки в планировании и обучении в реальном времени. ^[99] Было замечено, что генеративные LLM уверенно заявляют о фактах, которые, по-видимому, не подтверждаются данными их обучения , - явление, которое было названо « галлюцинацией ». ^[104] В частности, галлюцинации в контексте LLM соответствуют генерации текста или ответов, которые кажутся синтаксически обоснованными, беглыми и естественными, но на самом деле являются неверными, бессмысленными или не соответствуют предоставленному исходному материалу. ^[105] Нейробиолог Терренс Сейновски утверждал, что «разные мнения экспертов об интеллекте студентов-магистров предполагают, что наши старые идеи, основанные на естественном интеллекте, неадекватны». ^[97]

Вопрос о том, как LLM демонстрирует интеллект или понимание, имеет два основных аспекта: первый — это то, как моделировать мышление и язык в компьютерной системе, а второй — как позволить компьютерной системе генерировать язык, подобный человеческому. ^[97] Эти аспекты языка как модели познания были разработаны в области когнитивной лингвистики . Американский лингвист Джордж Лакофф представил нейронную теорию языка (NTL) ^[106] как вычислительную основу для использования языка в качестве модели задач обучения и понимания. Модель NTL описывает, как конкретные нейронные структуры человеческого мозга формируют природу мышления и языка и, в свою очередь, каковы вычислительные свойства таких нейронных систем, которые можно применять для моделирования мышления и языка в компьютерной системе. После того, как была создана основа моделирования языка в компьютерных системах, акцент сместился на создание рамок для компьютерных систем, позволяющих генерировать язык с приемлемой грамматикой. В своей книге 2014 года под названием « Языковой миф: почему язык не является инстинктом» британский когнитивный лингвист и технолог цифровых коммуникаций Вивиан Эванс наметил роль вероятностной контекстно-свободной грамматики (PCFG), позволяющей НЛП моделировать когнитивные паттерны и генерировать человекоподобный язык. . ^[107]^[108]

Оценка

Растерянность

Наиболее часто используемой мерой производительности языковой модели является ее сложность в данном текстовом корпусе. Недоумение — это мера того, насколько хорошо модель способна предсказать содержимое набора данных; чем выше вероятность, которую модель присваивает набору данных, тем меньше недоумение. Математически недоумение определяется как экспонента средней отрицательной логарифмической вероятности на токен: здесь указано количество токенов в текстовом корпусе, а «контекст для токена » зависит от конкретного типа используемого LLM. Если LLM является авторегрессивным, то «контекст для токена » — это сегмент текста, появляющийся перед токеном . Если LLM замаскирован, то «контекстом для токена » является сегмент текста, окружающий токен . $\log({\text{Perplexity}})=-{\frac {1}{N}}\sum _{i=1}^{N}\log(\Pr({\text{token}}_{i}\mid {\text{context for token}}_{i}))$ $N$ $i$ $i$ $i$ $i$ $i$

Поскольку языковые модели могут соответствовать обучающим данным, модели обычно оцениваются по степени их недоумения на тестовом наборе невидимых данных. ^[45] Это создает особые проблемы для оценки больших языковых моделей. Поскольку они обучаются на все более крупных массивах текста, в основном извлеченных из Интернета, становится все более вероятным, что данные обучения моделей непреднамеренно включают части любого заданного набора тестов. ^[3]

BPW, BPC и BPT

В теории информации концепция энтропии неразрывно связана с недоумением, связь, установленная Клодом Шенноном . ^[109] Эта связь математически выражается как . ${\text{Entropy}}=\log _{2}({\text{Perplexity}})$

Энтропия в этом контексте обычно выражается количественно в битах на слово (BPW) или битах на символ (BPC), что зависит от того, использует ли языковая модель токенизацию на основе слов или символов.

Примечательно, что в случае более крупных языковых моделей, в которых преимущественно используется токенизация подслов, бит на токен (BPT), по-видимому, является более подходящей мерой. Однако из-за различий в методах токенизации в разных моделях большого языка (LLM) BPT не может служить надежным показателем для сравнительного анализа различных моделей. Чтобы преобразовать BPT в BPW, его можно умножить на среднее количество токенов в слове.

При оценке и сравнении языковых моделей перекрестная энтропия обычно является более предпочтительным показателем, чем энтропия. Основной принцип заключается в том, что более низкое значение BPW указывает на расширенные возможности модели по сжатию. Это, в свою очередь, отражает способность модели делать точные прогнозы.

Наборы данных и тесты для конкретных задач

Также было разработано большое количество тестовых наборов данных и тестов для оценки возможностей языковых моделей для решения более конкретных последующих задач. Тесты могут быть разработаны для оценки различных способностей, включая общие знания, здравое рассуждение и решение математических задач.

Одной из широких категорий наборов оценочных данных являются наборы данных с ответами на вопросы, состоящие из пар вопросов и правильных ответов, например («Выиграли ли «Сан-Хосе Шаркс» Кубок Стэнли?», «Нет»). ^[110] Задача ответа на вопрос считается «открытой книгой», если подсказка модели включает текст, из которого можно получить ожидаемый ответ (например, к предыдущему вопросу может быть добавлен текст, включающий предложение «Акулы подошли к однажды финал Кубка Стэнли, проиграв «Питтсбург Пингвинз» в 2016 году». ^[110] ). В противном случае задача считается «закрытой книгой», и модель должна опираться на знания, полученные во время обучения. ^[111] Некоторые примеры часто используемых наборов данных для ответов на вопросы включают TruthfulQA, Web Questions, TriviaQA и SQuAD. ^[111]

Наборы оценочных данных также могут принимать форму завершения текста: модель выбирает наиболее подходящее слово или предложение для завершения подсказки, например: «Алиса дружила с Бобом. Алиса пошла навестить своего друга ____». ^[3]

Также были разработаны некоторые комплексные критерии, которые сочетают в себе множество различных наборов оценочных данных и задач. Примеры включают GLUE, SuperGLUE, MMLU , BIG-bench и HELM. ^[109]^[111] OpenAI выпустила инструменты для запуска составных тестов, но отметила, что результаты оценки чувствительны к методу подсказки. ^[112]^[113]

Раньше было стандартным сообщать результаты по отложенной части набора оценочных данных после выполнения контролируемой точной настройки оставшейся части. Сейчас более распространена оценка предварительно обученной модели непосредственно с помощью методов подсказки, хотя исследователи различаются в деталях того, как они формулируют подсказки для конкретных задач, особенно в отношении того, сколько примеров решенных задач примыкает к подсказке (т.е. значение n в подсказке n -shot).

Состязательно построенные оценки

Из-за быстрых темпов совершенствования больших языковых моделей тесты оценки имеют короткую продолжительность жизни, при этом современные модели быстро «насыщают» существующие тесты, превосходя производительность людей-аннотаторов, что приводит к попыткам заменить или дополнить тест более сложные задачи. ^[114] Кроме того, существуют случаи «быстрого обучения», когда ИИ иногда «обманывают» в тестах с множественным выбором, используя статистические корреляции в поверхностных формулировках тестовых вопросов, чтобы угадать правильные ответы, без обязательного понимания фактического задаваемого вопроса. . ^[97]

Некоторые наборы данных были построены состязательно, с упором на конкретные проблемы, в решении которых существующие языковые модели кажутся необычайно плохими по сравнению с людьми. Одним из примеров является набор данных TruthfulQA, набор данных с ответами на вопросы, состоящий из 817 вопросов, на которые языковые модели склонны давать неправильные ответы, имитируя ложь, с которой они неоднократно сталкивались во время обучения. Например, степень магистра права может ответить «Нет» на вопрос «Можете ли вы научить старую собаку новым трюкам?» из-за того, что она подвержена английской идиоме, вы не сможете научить старую собаку новым трюкам , хотя это не совсем так. ^[115]

Другим примером набора данных состязательной оценки является Swag и его преемник HellaSwag, наборы задач, в которых для завершения отрывка текста необходимо выбрать один из нескольких вариантов. Неправильные дополнения были получены путем выборки из языковой модели и фильтрации с помощью набора классификаторов. Возникающие в результате проблемы тривиальны для людей, но на момент создания наборов данных современные языковые модели имели низкую точность. Например:

Видим вывеску фитнес-центра. Затем мы видим мужчину, разговаривающего с камерой, сидящего и лежащего на мяче для упражнений. Мужчина...
а) демонстрирует, как повысить эффективность физических упражнений, бегая по мячам вверх и вниз.
б) двигает всеми руками и ногами и наращивает много мышц.
в) затем играет в мяч, и мы видим графику и демонстрацию обрезки живой изгороди.
г) выполняет приседания, находясь на мяче и разговаривая. ^[116]

BERT выбирает b) как наиболее вероятное завершение, хотя правильный ответ — d). ^[116]

Более широкое воздействие

В 2023 году журнал Nature Biomedical Engineering написал, что «больше невозможно точно отличить» написанный человеком текст от текста, созданного с помощью больших языковых моделей, и что «почти наверняка, что большие языковые модели общего назначения будут быстро распространяться. Можно с уверенностью сказать, что со временем они изменят многие отрасли». ^{[117] В 2023 году} Goldman Sachs предположил, что генеративный языковой ИИ может увеличить мировой ВВП на 7% в ближайшие десять лет и может привести к автоматизации 300 миллионов рабочих мест по всему миру. ^[118]^[119]

Запоминание и авторские права

Запоминание — это возникающее поведение в LLM, в котором длинные строки текста иногда дословно выводятся из обучающих данных, в отличие от типичного поведения традиционных искусственных нейронных сетей. Оценки контролируемых результатов LLM измеряют объем, запомненный из обучающих данных (с акцентом на модели серии GPT-2), по-разному: более 1% для точных дубликатов ^[120] или примерно до 7%. ^[121]

Безопасность

Некоторые комментаторы выразили обеспокоенность по поводу случайного или преднамеренного создания дезинформации или других форм неправильного использования. ^[122] Например, наличие больших языковых моделей может снизить уровень навыков, необходимых для совершения биотерроризма; Исследователь биобезопасности Кевин Эсвелт предложил создателям LLM исключить из своих учебных материалов материалы по созданию или усилению патогенов. ^[123]

Исследование, проведенное исследователями Google и нескольких университетов, в том числе Корнельского университета и Калифорнийского университета в Беркли , показало, что существуют потенциальные угрозы безопасности в таких языковых моделях, как ChatGPT . В своем исследовании они изучили и подтвердили возможность того, что спрашивающие могут получить из ChatGPT данные обучения, которые использовала модель ИИ. Например, попросив ChatGPT 3.5 турбо вечно повторять слово «стихотворение», модель ИИ будет говорить «стихотворение» сотни раз, а затем расходиться, отклоняясь от стандартного стиля диалога и выплескивая бессмысленные фразы, выплескивая таким образом обучающие данные. как есть. Исследователи видели более 10 000 примеров модели ИИ, предоставляющей данные обучения аналогичным методом. Исследователи заявили, что трудно сказать, действительно ли модель ИИ безопасна или нет. ^[124]

Потенциальное присутствие «спящих агентов» в моделях LLM является еще одной новой проблемой безопасности. Это скрытые функции, встроенные в модель, которые остаются бездействующими до тех пор, пока не будут активированы определенным событием или условием. После активации LLM отклоняется от ожидаемого поведения и совершает небезопасные действия. ^[125]

Приложения большой языковой модели (LLM), доступные для общественности, такие как ChatGPT или Claude, обычно включают меры безопасности, предназначенные для фильтрации вредоносного контента. Однако эффективное внедрение этих мер контроля оказалось сложной задачей. Например, исследование Kang et al. ^[126] продемонстрировали метод обхода систем безопасности LLM. Аналогичным образом, Ван ^[127] проиллюстрировал, как потенциальный преступник может потенциально обойти меры безопасности ChatGPT 4o, чтобы получить информацию об организации операции по незаконному обороту наркотиков.

Алгоритмическое смещение

Хотя LLM продемонстрировали замечательные возможности в создании текста, похожего на человеческий, они подвержены наследованию и усилению предвзятостей, присутствующих в их обучающих данных. Это может проявляться в искаженном представлении или несправедливом обращении с различными демографическими группами, например, на основе расы, пола, языка и культурных групп. ^[128] Поскольку данные на английском языке слишком представлены в обучающих данных текущих крупных языковых моделей, это также может преуменьшать значение неанглоязычных представлений. ^[129]

Стереотипы

Модели ИИ могут усилить широкий спектр стереотипов, в том числе основанных на поле, этнической принадлежности, возрасте, национальности, религии или профессии. Это может привести к результатам, которые несправедливо обобщают или карикатурно изображают группы людей, иногда вредными или уничижительными способами. ^[130]

Примечательно, что гендерная предвзятость означает тенденцию этих моделей давать результаты, которые несправедливо предвзято относятся к одному полу по сравнению с другим. Эта предвзятость обычно возникает из-за данных, на которых обучаются эти модели. Большие языковые модели часто назначают роли и характеристики на основе традиционных гендерных норм. ^[128] Например, медсестры или секретари могут ассоциироваться преимущественно с женщинами, а инженеры или генеральные директора — с мужчинами. ^[131]

Политическая предвзятость

Политическая предвзятость означает тенденцию алгоритмов систематически отдавать предпочтение определенным политическим точкам зрения, идеологиям или результатам над другими. Языковые модели могут также проявлять политическую предвзятость. Поскольку данные обучения включают в себя широкий спектр политических взглядов и охвата, модели могут генерировать ответы, склоняющиеся к конкретным политическим идеологиям или точкам зрения, в зависимости от преобладания этих взглядов в данных. ^[132]

Список

Для столбца стоимости обучения 1 петафлопс-день = 1 петафлопс/сек × 1 день = 8,64E19 флоп.

Смотрите также

Модели фундамента

Примечания

^ Это дата, когда была впервые выпущена документация, описывающая архитектуру модели.
^ Во многих случаях исследователи публикуют или сообщают о нескольких версиях модели разных размеров. В этих случаях здесь указан размер самой большой модели.
^ Это лицензия на предварительно обученные веса модели. Почти во всех случаях сам обучающий код имеет открытый исходный код или может быть легко воспроизведен.
^ Меньшие модели, включая 66B, общедоступны, а модель 175B доступна по запросу.
^ Схема лицензирования и распространения Facebook ограничила доступ утвержденным исследователям, но веса моделей просочились и стали широко доступны.
^ Как указано в техническом отчете: «Учитывая как конкурентную среду, так и последствия для безопасности крупномасштабных моделей, таких как GPT-4, этот отчет не содержит дополнительных подробностей об архитектуре (включая размер модели), аппаратном обеспечении, обучающих вычислениях, построении набора данных, метод тренировки...» ^[184]

дальнейшее чтение

Джурафски, Дэн , Мартин, Джеймс. H. Обработка речи и языка: введение в обработку естественного языка, компьютерную лингвистику и распознавание речи, черновик 3-го издания, 2023 г.
Чжао, Уэйн Синь; и другие. (2023). «Обзор больших языковых моделей». arXiv : 2303.18223 [cs.CL].
Каддур, Жан; и другие. (2023). «Проблемы и приложения больших языковых моделей». arXiv : 2307.10169 [cs.CL].
Инь, Шукан; Фу, Чаою; Чжао, Сируи; Нравиться; Сунь, Син; Сюй, Тонг; Чен, Эньхун (01 июня 2023 г.). «Обзор мультимодальных моделей большого языка». arXiv : 2306.13549 [cs.CV].
Откройте репозиторий LLM на GitHub .
«Отчет об индексе искусственного интеллекта за 2024 год - Индекс искусственного интеллекта». aiindex.stanford.edu . Проверено 5 мая 2024 г.
Фрэнк, Майкл К. (27 июня 2023 г.). «Малые шаги в оценке возможностей больших языковых моделей». Обзоры природы Психология . 2 (8): 451–452. дои : 10.1038/s44159-023-00211-x. ISSN 2731-0574. S2CID 259713140 . Проверено 2 июля 2023 г.