Самые большие и наиболее способные LLM — это искусственные нейронные сети, построенные с архитектурой, основанной только на декодере и трансформаторе , что позволяет эффективно обрабатывать и генерировать крупномасштабные текстовые данные. Современные модели можно настраивать для конкретных задач или направлять с помощью оперативной инженерии . [2] Эти модели приобретают предсказательную силу относительно синтаксиса , семантики и онтологий [3], присущих корпусам человеческого языка, но они также наследуют неточности и предубеждения, присутствующие в данных , на которых они обучаются. [4]
История
До 2017 года существовало несколько языковых моделей, которые были большими по сравнению с доступными тогда возможностями. В 1990-х годах модели выравнивания IBM стали пионерами статистического моделирования языка. Сглаженная модель n-грамм в 2001 году, обученная на 0,3 миллиарда слов, достигла тогдашней SOTA (современной) перплексии. [5] В 2000-х годах, когда использование Интернета стало распространенным, некоторые исследователи создали языковые наборы данных в масштабе Интернета («веб как корпус» [6] ), на которых они обучали статистические языковые модели. [7] [8] В 2009 году в большинстве задач обработки языка статистические языковые модели доминировали над символическими языковыми моделями, поскольку они могли с пользой поглощать большие наборы данных. [9]
После того, как нейронные сети стали доминировать в обработке изображений около 2012 года, [10] они также стали применяться для моделирования языка. Google преобразовал свой сервис перевода в Neural Machine Translation в 2016 году. Как и до Transformers, это было сделано с помощью глубоких LSTM-сетей seq2seq.
На конференции NeurIPS 2017 года исследователи Google представили архитектуру трансформатора в своей знаковой статье « Внимание — это все, что вам нужно ». Целью этой статьи было усовершенствование технологии Seq2seq 2014 года [11] , и она была основана в основном на механизме внимания, разработанном Багданау и др. в 2014 году. [12] В следующем году, в 2018 году, был представлен BERT , который быстро стал «повсеместным». [13] Хотя оригинальный трансформатор имеет как блоки кодера, так и декодера, BERT представляет собой модель только кодера.
Хотя GPT-1 , работающий только с декодером, был представлен в 2018 году, именно GPT-2 в 2019 году привлек всеобщее внимание, поскольку OpenAI сначала посчитала его слишком мощным для публичного выпуска из-за страха злонамеренного использования. [14] GPT-3 в 2020 году пошла на шаг дальше и с 2024 года [update]доступна только через API без предложения загрузки модели для локального выполнения. Но именно ориентированный на потребителя браузерный ChatGPT 2022 года захватил воображение широких слоев населения и вызвал некоторую шумиху в СМИ и онлайн-шумиху. [15] GPT-4 2023 года хвалили за его повышенную точность и называли «святым Граалем» за его мультимодальные возможности. [16] OpenAI не раскрыла высокоуровневую архитектуру и количество параметров GPT-4.
Конкурирующие языковые модели по большей части пытались сравняться с серией GPT, по крайней мере, с точки зрения количества параметров. [17]
С 2022 года модели с исходным кодом набирают популярность, особенно в первую очередь с BLOOM и LLaMA , хотя обе имеют ограничения по области использования. Модели Mistral AI Mistral 7B и Mixtral 8x7b имеют более разрешительную лицензию Apache . По состоянию на июнь 2024 года [update]тонко настроенный вариант The Instruction модели Llama 3 с 70 миллиардами параметров является самой мощной открытой LLM согласно LMSYS Chatbot Arena Leaderboard, будучи более мощной, чем GPT-3.5, но не такой мощной, как GPT-4. [18]
По состоянию на 2024 год, все самые большие и наиболее эффективные модели основаны на архитектуре Transformer. Некоторые недавние реализации основаны на других архитектурах, таких как варианты рекуррентных нейронных сетей и Mamba ( модель пространства состояний ). [19] [20] [21]
Предварительная обработка набора данных
Токенизация
Поскольку алгоритмы машинного обучения обрабатывают числа, а не текст, текст должен быть преобразован в числа. На первом этапе выбирается словарь, затем целочисленные индексы произвольно, но уникально назначаются каждой записи словаря, и, наконец, встраивание связывается с целочисленным индексом. Алгоритмы включают кодирование пар байтов (BPE) и WordPiece . Существуют также специальные токены, служащие в качестве управляющих символов , например, [MASK]для замаскированного токена (используемого в BERT ) и [UNK](«неизвестно») для символов, не встречающихся в словаре. Кроме того, некоторые специальные символы используются для обозначения специального форматирования текста. Например, «Ġ» обозначает предшествующий пробел в RoBERTa и GPT. «##» обозначает продолжение предшествующего слова в BERT. [22]
Например, токенизатор BPE, используемый GPT-3 (Legacy), будет разделен tokenizer: texts -> series of numerical "tokens"следующим образом:
Токенизация также сжимает наборы данных. Поскольку LLM обычно требуют, чтобы входные данные были массивом , который не является зазубренным , более короткие тексты должны быть «дополнены» до тех пор, пока они не будут соответствовать длине самого длинного. Сколько токенов в среднем требуется для одного слова, зависит от языка набора данных. [23] [24]
БПЭ
В качестве примера рассмотрим токенизатор, основанный на кодировании пар байтов. На первом этапе все уникальные символы (включая пробелы и знаки препинания ) обрабатываются как начальный набор n -грамм (т. е. начальный набор уни-грамм). Последовательно наиболее частая пара смежных символов объединяется в би-грамму, и все экземпляры пары заменяются ею. Все вхождения смежных пар (ранее объединенных) n -грамм, которые чаще всего встречаются вместе, затем снова объединяются в еще более длинную n -грамму, пока не будет получен словарь заданного размера (в случае GPT-3 размер составляет 50257). [25] После обучения токенизатора он может токенизировать любой текст, если только он не содержит символов, не встречающихся в начальном наборе уни-грамм. [26]
Проблемы
Словарь токенов, основанный на частотах, извлеченных в основном из английских корпусов, использует как можно меньше токенов для среднего английского слова. Среднее слово на другом языке, закодированное таким оптимизированным для английского языка токенизатором, однако, разбивается на неоптимальное количество токенов. Токенизатор GPT-2 может использовать до 15 раз больше токенов на слово для некоторых языков, например, для языка шанс из Мьянмы . Даже более распространенные языки, такие как португальский и немецкий, имеют «премию в 50%» по сравнению с английским. [27]
Жадная токенизация также вызывает тонкие проблемы с завершением текста. [28]
Очистка набора данных
В контексте обучения LLM наборы данных обычно очищаются путем удаления токсичных фрагментов из набора данных, отбрасывания некачественных данных и дедупликации. [29] Очищенные наборы данных могут повысить эффективность обучения и привести к улучшению производительности в дальнейшем. [30] [31] Обученный LLM может использоваться для очистки наборов данных для обучения следующего LLM. [32]
С ростом доли контента, сгенерированного LLM в Интернете, очистка данных в будущем может включать в себя фильтрацию такого контента. Контент, сгенерированный LLM, может представлять проблему, если он похож на человеческий текст (что затрудняет фильтрацию), но имеет более низкое качество (снижая производительность моделей, обученных на нем). [33]
Синтетические данные
Обучение самых больших языковых моделей может потребовать больше лингвистических данных, чем доступно естественным образом, или что естественные данные недостаточного качества. В этих случаях могут использоваться синтетические данные. Серия LLM Phi от Microsoft обучается на данных, подобных учебникам, сгенерированных другим LLM. [34]
Обучение и архитектура
Обучение с подкреплением на основе обратной связи с человеком (RLHF)
Обучение с подкреплением на основе обратной связи с человеком (RLHF) с помощью алгоритмов, таких как оптимизация проксимальной политики , используется для дальнейшей тонкой настройки модели на основе набора данных о человеческих предпочтениях. [35]
Инструкция по настройке
Используя подходы «самообучения», LLM смогли загружать правильные ответы, заменяя любые наивные ответы, начиная с человеческих исправлений нескольких случаев. Например, в инструкции «Напишите эссе об основных темах, представленных в Гамлете », первоначальное наивное завершение может быть «Если вы отправите эссе после 17 марта, ваша оценка будет снижена на 10% за каждый день задержки», исходя из частоты этой текстовой последовательности в корпусе. [36]
Смесь экспертов
Самый большой LLM может быть слишком дорогим для обучения и использования напрямую. Для таких моделей может быть применена смесь экспертов (MoE), направление исследований, проводимых исследователями Google с 2017 года для обучения моделей, достигающих до 1 триллиона параметров. [37] [38] [39]
Инженерное обеспечение подсказок, механизм внимания и контекстное окно
Большинство результатов, которые ранее можно было получить только путем (дорогостоящей) тонкой настройки, могут быть достигнуты посредством оперативной разработки , хотя и ограничены рамками одного разговора (точнее, ограничены рамками контекстного окна). [40]
Чтобы выяснить, какие токены релевантны друг другу в рамках контекстного окна, механизм внимания вычисляет «мягкие» веса для каждого токена, точнее для его внедрения, используя несколько головок внимания, каждая со своей собственной «релевантностью» для вычисления своих собственных мягких весов. Например, маленькая (т.е. размером 117 млн параметров) модель GPT-2 имела двенадцать головок внимания и контекстное окно всего из 1 тыс. токенов. [42] В своей средней версии она имеет 345 млн параметров и содержит 24 слоя, каждый с 12 головками внимания. Для обучения с градиентным спуском использовался размер пакета 512. [26]
Самые большие модели, такие как Gemini 1.5 от Google , представленная в феврале 2024 года, могут иметь контекстное окно размером до 1 миллиона (контекстное окно размером 10 миллионов также было «успешно протестировано»). [43] Другие модели с большими контекстными окнами включают Claude 2.1 от Anthropic с контекстным окном размером до 200 тыс. токенов. [44] Обратите внимание, что этот максимум относится к количеству входных токенов и что максимальное количество выходных токенов отличается от входного и часто меньше. Например, модель GPT-4 Turbo имеет максимальный выход в 4096 токенов. [45]
Длина разговора, которую модель может учесть при генерации следующего ответа, также ограничена размером контекстного окна. Если длина разговора, например, с ChatGPT , больше, чем его контекстное окно, то при генерации следующего ответа учитываются только части внутри контекстного окна, или модели необходимо применить какой-то алгоритм для суммирования слишком далеких частей разговора.
Недостатки увеличения контекстного окна включают более высокие вычислительные затраты и возможное ослабление фокуса на локальном контексте, в то время как уменьшение может привести к тому, что модель упустит важную зависимость на дальнем расстоянии. Их балансировка — это вопрос экспериментов и соображений, специфичных для домена.
Модель может быть предварительно обучена либо для прогнозирования того, как сегмент продолжается, либо для прогнозирования того, чего не хватает в сегменте, учитывая сегмент из его обучающего набора данных. [46] Это может быть либо
авторегрессионный (т.е. предсказывающий, как продолжится сегмент, как это делают GPT ): например, если задан сегмент «Я люблю поесть», модель предскажет «мороженое» или «суши».
« замаскированный » (т.е. заполняющий отсутствующие части сегмента, как это делает «BERT» [47] ): например, если задан сегмент «Мне нравится взбивать [__] [__]сливки», модель предсказывает, что отсутствуют «есть» и «лед».
Модели могут обучаться на вспомогательных задачах, которые проверяют их понимание распределения данных, таких как предсказание следующего предложения (NSP), в котором представлены пары предложений, и модель должна предсказать, появляются ли они последовательно в обучающем корпусе. [47] Во время обучения потеря регуляризации также используется для стабилизации обучения. Однако потеря регуляризации обычно не используется во время тестирования и оценки.
Инфраструктура
Для обучения самых больших моделей необходима существенная инфраструктура. [48] [49] [50]
Стоимость обучения
Достижения в области программного и аппаратного обеспечения существенно снизили стоимость с 2020 года, так что в 2023 году вычислительная стоимость обучения LLM с 12 миллиардами параметров составила 72 300 A100-GPU -часов, в то время как в 2020 году стоимость обучения LLM с 1,5 миллиардами параметров (что было на два порядка меньше, чем в 2020 году) составляла от 80 тысяч до 1,6 миллиона долларов. [51] [52] [53] С 2020 года большие суммы инвестировались во все более крупные модели. Например, обучение GPT-2 (т. е. модели с 1,5 миллиардами параметров) в 2019 году стоило 50 000 долларов, тогда как обучение PaLM (т. е. модели с 540 миллиардами параметров) в 2022 году стоило 8 миллионов долларов, а Megatron-Turing NLG 530B (в 2021 году) стоило около 11 миллионов долларов. [54]
Для LLM на основе Transformer стоимость обучения намного выше стоимости вывода. Обучение на одном токене стоит 6 FLOP на параметр, тогда как вывод на одном токене стоит 1-2 FLOP на параметр. [55]
Использование инструмента
Существуют определенные задачи, которые в принципе не может решить ни один LLM, по крайней мере, без использования внешних инструментов или дополнительного программного обеспечения. Примером такой задачи является ответ на ввод пользователя '354 * 139 = ', при условии, что LLM еще не столкнулся с продолжением этого вычисления в своем обучающем корпусе. [ dubious – discussion ] В таких случаях LLM необходимо прибегнуть к запуску программного кода, который вычисляет результат, который затем может быть включен в его ответ. [ dubious – discussion ] : Другой пример – 'Сколько сейчас времени? Это ', где отдельному программному интерпретатору необходимо выполнить код, чтобы получить системное время на компьютере, чтобы LLM мог включить его в свой ответ. [56] [57] Эта базовая стратегия может быть усложнена с помощью нескольких попыток сгенерированных программ и других стратегий выборки. [58]
Обычно, чтобы LLM мог использовать инструменты, его необходимо настроить для использования инструментов. Если количество инструментов конечно, то настройка может быть выполнена только один раз. Если количество инструментов может произвольно увеличиваться, как в случае с онлайн- сервисами API , то LLM можно настроить так, чтобы он мог читать документацию API и правильно вызывать API. [59] [60]
Более простая форма использования инструмента — это генерация дополненного поиска : дополнение LLM с помощью поиска документов . При наличии запроса вызывается извлекатель документов для извлечения наиболее релевантных документов. Обычно это делается путем кодирования запроса и документов в векторы, а затем поиска документов с векторами (обычно хранящимися в векторной базе данных ), наиболее похожими на вектор запроса. Затем LLM генерирует вывод на основе как запроса, так и контекста, включенного в извлеченные документы. [61]
Агентство
LLM — это языковая модель, которая не является агентом, поскольку не имеет цели, но может использоваться как компонент интеллектуального агента . [62] Исследователи описали несколько методов для такой интеграции. [ необходима цитата ]
Шаблон ReAct, портманто от «Reason + Act», конструирует агента из LLM, используя LLM в качестве планировщика. LLM предлагается «думать вслух». В частности, языковая модель предлагается с текстовым описанием среды, целью, списком возможных действий и записью действий и наблюдений на данный момент. Она генерирует одну или несколько мыслей перед созданием действия, которое затем выполняется в среде. [63] Лингвистическое описание среды, предоставленное планировщику LLM, может быть даже кодом LaTeX статьи, описывающей среду. [64]
В методе DEPS («Опишите, объясните, спланируйте и выберите») LLM сначала подключается к визуальному миру с помощью описаний изображений, затем ему предлагается разработать планы для сложных задач и поведения на основе его предварительно обученных знаний и получаемой им обратной связи из окружающей среды. [65]
Метод Reflexion [66] создает агента, который обучается на протяжении нескольких эпизодов. В конце каждого эпизода LLM получает запись эпизода и побуждается придумать «усвоенные уроки», которые помогут ему лучше выступить в последующем эпизоде. Эти «усвоенные уроки» предоставляются агенту в последующих эпизодах. [ необходима цитата ]
Поиск дерева Монте-Карло может использовать LLM в качестве эвристики развертывания. Когда программная модель мира недоступна, LLM также может быть предложено с описанием среды, чтобы действовать как модель мира. [67]
Для открытого исследования LLM может использоваться для оценки наблюдений за их «интересностью», которая может использоваться в качестве сигнала вознаграждения для руководства обычным (не LLM) агентом обучения с подкреплением. [68] В качестве альтернативы он может предлагать все более сложные задачи для изучения учебной программы . [69] Вместо вывода отдельных действий планировщик LLM может также конструировать «навыки» или функции для сложных последовательностей действий. Навыки могут быть сохранены и позже вызваны, что позволяет повысить уровень абстракции в планировании. [69]
Агенты, работающие на LLM, могут сохранять долгосрочную память о своих предыдущих контекстах, и память может быть извлечена таким же образом, как и Retrieval Augmented Generation. Несколько таких агентов могут взаимодействовать социально. [70]
Сжатие
Обычно LLM обучаются с помощью чисел с плавающей точкой одинарной или половинной точности (float32 и float16). Один float16 имеет 16 бит или 2 байта, поэтому для одного миллиарда параметров требуется 2 гигабайта. Самые большие модели обычно имеют 100 миллиардов параметров, требующих 200 гигабайт для загрузки, что выводит их за пределы диапазона большинства потребительских электронных устройств. [71]
Квантование после обучения [72] направлено на уменьшение требуемого пространства за счет снижения точности параметров обученной модели, при этом сохраняя большую часть ее производительности. [73] [74] Простейшая форма квантования просто усекает все числа до заданного количества бит. Ее можно улучшить, используя другую кодовую книгу квантования для каждого слоя. Дальнейшее улучшение можно осуществить, применяя разные точности к разным параметрам, с более высокой точностью для особенно важных параметров («веса выбросов»). [75] См. [76] для визуального руководства.
В то время как квантованные модели обычно заморожены, и только предварительно квантованные модели могут быть точно настроены, квантованные модели все еще могут быть точно настроены. [77]
Мультимодальность
Мультимодальность означает «наличие нескольких модальностей», а «модальность» относится к типу ввода или вывода, например, видео, изображение, аудио, текст, проприорецепция и т. д. [78] Было много моделей ИИ, специально обученных для приема одной модальности и вывода другой модальности, например, AlexNet для преобразования изображения в метку, [79] визуальный ответ на вопрос для преобразования изображения в текст, [80] и распознавание речи для преобразования речи в текст.
Распространенным методом создания мультимодальных моделей из LLM является «токенизация» выходных данных обученного кодировщика. Конкретно, можно построить LLM, который может понимать изображения следующим образом: возьмите обученный LLM и обученный кодировщик изображений . Создайте небольшой многослойный персептрон , так что для любого изображения вектор после обработки будет иметь те же размеры, что и закодированный токен. Это «токен изображения». Затем можно чередовать текстовые токены и токены изображений. Затем составная модель тонко настраивается на наборе данных изображение-текст. Эту базовую конструкцию можно применять с большей сложностью для улучшения модели. Кодер изображения может быть заморожен для повышения стабильности. [81]
Flamingo продемонстрировал эффективность метода токенизации, настроив пару предварительно обученной языковой модели и кодировщика изображений для более эффективного ответа на визуальные вопросы, чем модели, обученные с нуля. [82] Модель Google PaLM была настроена в мультимодальную модель PaLM-E с использованием метода токенизации и применена к роботизированному управлению. [83] Модели LLaMA также были преобразованы в мультимодальные с использованием метода токенизации, чтобы разрешить ввод изображений, [84] и видеовходов. [85]
GPT-4 может использовать как текст, так и изображение в качестве входных данных [86] (хотя компонент зрения не был представлен публике до GPT-4V [87] ); Gemini от Google DeepMind также является многомодальным. [88] Mistral представила свою собственную многомодельную модель Pixtral 12B в сентябре 2024 года. [89]
Характеристики
Законы масштабирования
Следующие четыре гиперпараметра характеризуют LLM:
стоимость (пред)подготовки ( ),
размер самой искусственной нейронной сети , такой как количество параметров (т.е. количество нейронов в ее слоях, количество весов между ними и смещения),
размер его (пред)тренировочного набора данных (т.е. количество токенов в корпусе ),
— это средняя отрицательная логарифмическая потеря правдоподобия на токен ( nats /token ), достигнутая обученным LLM на тестовом наборе данных.
и статистические гиперпараметры
, что означает, что обучение на одном токене стоит 6 FLOP на параметр. Обратите внимание, что стоимость обучения намного выше стоимости вывода, где для вывода на одном токене требуется 1-2 FLOP на параметр. [55]
Новые способности
Производительность более крупных моделей при выполнении различных задач, при построении в логарифмическом масштабе, выглядит как линейная экстраполяция производительности, достигнутой более мелкими моделями. Однако эта линейность может прерываться «перерывами » [ 91] в законе масштабирования, где наклон линии резко меняется, и где более крупные модели приобретают «возникающие способности». [40] [92] Они возникают из сложного взаимодействия компонентов модели и не запрограммированы и не спроектированы явно. [93]
Наиболее интригующей среди возникающих способностей является контекстное обучение на основе демонстрационных примеров. [94] Контекстное обучение подразумевает выполнение таких задач, как:
сообщаемая арифметика, расшифровка международного фонетического алфавита , расшифровка букв слова, устранение неоднозначности слова в контексте, [40] [95] [96] преобразование пространственных слов, основные направления (например, ответ «северо-восток» на [0, 0, 1; 0, 0, 0; 0, 0, 0]), цветовые обозначения, представленные в тексте. [97]
Подсказка цепочки мыслей : Выходные данные модели улучшаются с помощью подсказки цепочки мыслей только тогда, когда размер модели превышает 62 Б. Меньшие модели работают лучше, когда их подсказывают ответить немедленно, без цепочки мыслей. [98]
выявление оскорбительного содержания в абзацах на хинглише (комбинация хинди и английского) и создание аналогичного английского эквивалента пословиц на языке суахили . [99]
Шеффер и др. утверждают, что возникающие способности не приобретаются непредсказуемо, а приобретаются предсказуемо в соответствии с законом плавного масштабирования . Авторы рассмотрели игрушечную статистическую модель LLM, решающего вопросы с множественным выбором, и показали, что эта статистическая модель, модифицированная для учета других типов задач, применима и к этим задачам. [100]
Пусть — количество параметров, а — производительность модели.
Когда , то это экспоненциальная кривая (до того, как она достигнет плато в точке 1), которая выглядит как возникновение.
Если , то график представляет собой прямую линию (до достижения плато в нуле), что не похоже на возникновение.
Когда , то — ступенчатая функция, которая выглядит как эмерджентность.
Интерпретация
Большие языковые модели сами по себе являются черными ящиками , и неясно, как они могут выполнять лингвистические задачи. Существует несколько методов понимания того, как работают LLM.
Механистическая интерпретируемость направлена на обратную разработку LLM путем обнаружения символических алгоритмов, которые аппроксимируют вывод, выполняемый LLM. Одним из примеров является Othello-GPT, где небольшой Transformer обучается предсказывать допустимые ходы Othello . Обнаружено, что существует линейное представление доски Othello, и изменение представления изменяет предсказанные допустимые ходы Othello правильным образом. [101] [102] В другом примере небольшой Transformer обучается на программах Karel . Подобно примеру Othello-GPT, существует линейное представление семантики программы Karel, и изменение представления изменяет вывод правильным образом. Модель также генерирует правильные программы, которые в среднем короче, чем в обучающем наборе. [103]
Исследователи NLP разделились поровну, когда в опросе 2022 года их спросили, могут ли (ненастроенные) LLM «когда-либо понимать естественный язык в каком-то нетривиальном смысле». [105] Сторонники «понимания LLM» считают, что некоторые способности LLM, такие как математическое рассуждение, подразумевают способность «понимать» определенные концепции. Команда Microsoft утверждала в 2023 году, что GPT-4 «может решать новые и сложные задачи, которые охватывают математику, кодирование, зрение, медицину, юриспруденцию, психологию и многое другое» и что GPT-4 «можно обоснованно рассматривать как раннюю (но все еще неполную) версию системы искусственного общего интеллекта »: «Можно ли обоснованно сказать, что система, которая сдает экзамены для кандидатов на должность инженера-программиста, на самом деле не является разумной?» [106] [107] Некоторые исследователи характеризуют LLM как «инопланетный интеллект». [108] [109] Например, генеральный директор Conjecture Коннор Лихи считает, что ненастроенные LLM похожи на непостижимых инопланетных « шогготов », и полагает, что настройка RLHF создает «улыбающийся фасад», скрывающий внутреннюю работу LLM: «Если вы не заходите слишком далеко, смайлик остается. Но затем вы даете ему [неожиданную] подсказку, и внезапно вы видите это огромное подбрюшье безумия, странных мыслительных процессов и явно нечеловеческого понимания». [110] [111]
Напротив, некоторые сторонники школы «LLM не понимают» полагают, что существующие LLM «просто перерабатывают и рекомбинируют существующие тексты» [109], явление, известное как стохастический попугай , или указывают на дефициты, которые существующие LLM продолжают иметь в навыках прогнозирования, навыках рассуждения, агентстве и объяснимости. [105] Например, GPT-4 имеет естественные дефициты в планировании и обучении в реальном времени. [107] Было замечено, что генеративные LLM уверенно утверждают утверждения о фактах, которые, по-видимому, не подтверждаются их учебными данными , явление, которое было названо « галлюцинацией ». [112] В частности, галлюцинации в контексте LLM соответствуют генерации текста или ответов, которые кажутся синтаксически верными, плавными и естественными, но фактически являются неверными, бессмысленными или неверными предоставленному исходному вводу. [113] Нейробиолог Терренс Сейновски утверждает, что «расхождение мнений экспертов относительно интеллекта LLM свидетельствует о том, что наши старые идеи, основанные на естественном интеллекте, неадекватны». [105]
Вопрос о том, демонстрирует ли LLM интеллект или понимание, имеет два основных аспекта: первый — как моделировать мысль и язык в компьютерной системе, а второй — как дать возможность компьютерной системе генерировать язык, подобный человеческому. [105] Эти аспекты языка как модели познания были разработаны в области когнитивной лингвистики . Американский лингвист Джордж Лакофф представил Нейронную теорию языка (NTL) [114] как вычислительную основу для использования языка в качестве модели задач обучения и понимания. Модель NTL описывает, как конкретные нейронные структуры человеческого мозга формируют природу мысли и языка, и, в свою очередь, каковы вычислительные свойства таких нейронных систем, которые можно применять для моделирования мысли и языка в компьютерной системе. После того, как была создана структура для моделирования языка в компьютерных системах, фокус сместился на создание структур для компьютерных систем для генерации языка с приемлемой грамматикой. В своей книге 2014 года под названием «Миф о языке: почему язык не является инстинктом » британский когнитивный лингвист и специалист по цифровым коммуникациям Вивиан Эванс описал роль вероятностной контекстно-свободной грамматики (PCFG) в предоставлении возможности NLP моделировать когнитивные шаблоны и генерировать язык, подобный человеческому. [115] [116]
Оценка
Недоумение
Канонической мерой производительности LLM является ее озадаченность на заданном корпусе текстов. Озадаченность измеряет, насколько хорошо модель предсказывает содержимое набора данных; чем выше вероятность, которую модель назначает набору данных, тем ниже озадаченность. В математических терминах озадаченность — это экспоненциальная функция среднего отрицательного логарифмического правдоподобия на токен.
Здесь — количество токенов в текстовом корпусе, а «контекст для токена » зависит от конкретного типа LLM. Если LLM авторегрессивный, то «контекст для токена » — это сегмент текста, появляющийся перед токеном . Если LLM замаскирован, то «контекст для токена » — это сегмент текста, окружающий токен .
Поскольку языковые модели могут переобучать обучающие данные, модели обычно оцениваются по их сложности на тестовом наборе . [47] Такая оценка потенциально проблематична для более крупных моделей, которые, поскольку они обучаются на все более крупных корпусах текстов, все чаще непреднамеренно включают части любого заданного тестового набора. [2]
BPW, BPC и BPT
В теории информации понятие энтропии неразрывно связано с недоумением, связь, установленная, в частности, Клодом Шенноном . [117] Эта связь математически выражается как .
В этом контексте энтропия обычно количественно определяется в терминах бит на слово (BPW) или бит на символ (BPC), что зависит от того, использует ли языковая модель токенизацию на основе слов или символов.
Примечательно, что в случае более крупных языковых моделей, которые преимущественно используют токенизацию подслов, биты на токен (BPT) оказываются, по-видимому, более подходящей мерой. Однако из-за различий в методах токенизации в различных крупных языковых моделях (LLM) BPT не служит надежной метрикой для сравнительного анализа различных моделей. Чтобы преобразовать BPT в BPW, можно умножить его на среднее количество токенов на слово.
При оценке и сравнении языковых моделей перекрестная энтропия обычно является предпочтительной метрикой по сравнению с энтропией. Основной принцип заключается в том, что более низкий BPW указывает на улучшенные возможности модели по сжатию. Это, в свою очередь, отражает способность модели делать точные прогнозы.
Наборы данных и контрольные показатели для конкретных задач
Большое количество тестовых наборов данных и бенчмарков также были разработаны для оценки возможностей языковых моделей на более конкретных нисходящих задачах. Тесты могут быть разработаны для оценки различных возможностей, включая общие знания, здравый смысл и решение математических задач.
Одной из широких категорий оценочных наборов данных являются наборы данных с ответами на вопросы, состоящие из пар вопросов и правильных ответов, например, («Выиграли ли «Сан-Хосе Шаркс» Кубок Стэнли?», «Нет»). [118] Задача с ответами на вопросы считается «открытой книгой», если подсказка модели включает текст, из которого можно вывести ожидаемый ответ (например, предыдущий вопрос может быть дополнен текстом, который включает предложение ««Акулы» вышли в финал Кубка Стэнли один раз, проиграв «Питтсбург Пингвинз» в 2016 году». [118] ). В противном случае задача считается «закрытой книгой», и модель должна опираться на знания, сохраненные во время обучения. [119] Некоторые примеры часто используемых наборов данных с ответами на вопросы включают TruthfulQA, Web Questions, TriviaQA и SQuAD. [119]
Оценочные наборы данных могут также принимать форму завершения текста, когда модель выбирает наиболее вероятное слово или предложение для завершения подсказки, например: «Алиса дружила с Бобом. Алиса пошла в гости к своему другу, ____». [2]
Также были разработаны некоторые составные бенчмарки, которые объединяют множество различных наборов данных оценки и задач. Примерами являются GLUE, SuperGLUE, MMLU , BIG-bench и HELM. [117] [119] OpenAI выпустила инструменты для запуска составных бенчмарков, но отметила, что результаты оценки чувствительны к методу подсказки. [120] [121] Некоторые общедоступные наборы данных содержат вопросы, которые неправильно помечены, неоднозначны, не имеют ответа или иным образом имеют низкое качество, которые можно очистить, чтобы получить более надежные оценки бенчмарков. [122]
Ранее было стандартом сообщать результаты по удерживаемой части набора данных оценки после выполнения контролируемой тонкой настройки оставшейся части. Теперь более распространено оценивать предварительно обученную модель напрямую с помощью методов подсказок, хотя исследователи различаются в деталях того, как они формулируют подсказки для конкретных задач, особенно в отношении того, сколько примеров решенных задач присоединено к подсказке (т. е. значение n в n -шотовой подсказке).
Оценки, построенные состязательно
Из-за быстрых темпов совершенствования больших языковых моделей оценочные тесты страдают от короткого срока службы, поскольку современные модели быстро «насыщают» существующие тесты, превосходя производительность людей-аннотаторов, что приводит к попыткам заменить или дополнить тест более сложными задачами. [123] Кроме того, существуют случаи «обучения по сокращенной схеме», когда ИИ иногда «обманывают» в тестах с множественным выбором, используя статистические корреляции в поверхностной формулировке тестовых вопросов, чтобы угадать правильные ответы, не обязательно понимая фактический заданный вопрос. [105]
Некоторые наборы данных были созданы состязательно, с упором на конкретные проблемы, в которых существующие языковые модели, по-видимому, показывают необычно низкую производительность по сравнению с людьми. Одним из примеров является набор данных TruthfulQA, набор данных с ответами на вопросы, состоящий из 817 вопросов, на которые языковые модели склонны отвечать неправильно, имитируя ложь, которой они неоднократно подвергались во время обучения. Например, LLM может ответить «Нет» на вопрос «Можете ли вы научить старую собаку новым трюкам?» из-за его воздействия английской идиомы you can't teach an old dog new tricks , хотя это не является буквальной правдой. [124]
Другим примером набора данных состязательной оценки является Swag и его преемник HellaSwag, коллекции задач, в которых для завершения текстового отрывка необходимо выбрать один из нескольких вариантов. Неправильные завершения были получены путем выборки из языковой модели и фильтрации с помощью набора классификаторов. Полученные проблемы являются тривиальными для людей, но на момент создания наборов данных современные языковые модели имели низкую точность. Например:
Мы видим вывеску фитнес-центра. Затем мы видим мужчину, говорящего в камеру, сидящего и лежащего на гимнастическом мяче. Мужчина... а) демонстрирует, как повысить эффективность упражнений, бегая вверх и вниз по мячу. б) двигает всеми руками и ногами и наращивает массу мышц. в) затем играет в мяч, и мы видим графику и демонстрацию стрижки живой изгороди. г) выполняет приседания, находясь на мяче и разговаривая. [125]
BERT выбирает b) как наиболее вероятное завершение, хотя правильный ответ — d). [125]
Более широкое воздействие
В 2023 году журнал Nature Biomedical Engineering написал, что «больше невозможно точно отличить» текст, написанный человеком, от текста, созданного большими языковыми моделями, и что «почти наверняка большие языковые модели общего назначения будут быстро распространяться... Можно с уверенностью сказать, что со временем они изменят многие отрасли». [126] Goldman Sachs предположил в 2023 году, что генеративный язык ИИ может увеличить мировой ВВП на 7% в течение следующих десяти лет и может подвергнуть автоматизации 300 миллионов рабочих мест по всему миру. [127] [128]
Запоминание и авторское право
Запоминание — это эмерджентное поведение в LLM, в котором длинные строки текста иногда выводятся дословно из обучающих данных, в отличие от типичного поведения традиционных искусственных нейронных сетей. Оценки контролируемого вывода LLM измеряют объем, запомненный из обучающих данных (сосредоточенных на моделях серии GPT-2), как более 1% для точных дубликатов [129] или до около 7%. [130]
Безопасность
Некоторые комментаторы выразили обеспокоенность по поводу случайного или преднамеренного создания дезинформации или других форм злоупотребления. [131] Например, доступность больших языковых моделей может снизить уровень навыков, требуемый для совершения биотерроризма; исследователь по биобезопасности Кевин Эсвельт предложил создателям LLM исключить из своих учебных данных документы по созданию или улучшению патогенов. [132]
Исследование, проведенное исследователями из Google и нескольких университетов, включая Корнельский университет и Калифорнийский университет в Беркли , показало, что в языковых моделях, таких как ChatGPT, существуют потенциальные риски безопасности . В своем исследовании они изучили и подтвердили возможность того, что спрашивающие могут получить из ChatGPT данные обучения, которые использовала модель ИИ. Например, если попросить ChatGPT 3.5 turbo повторить слово «поэма» вечно, модель ИИ скажет «поэма» сотни раз, а затем отклонится, отклонившись от стандартного стиля диалога и выдав бессмысленные фразы, тем самым выдав данные обучения такими, какие они есть. Исследователи увидели более 10 000 примеров того, как модель ИИ раскрывала свои данные обучения аналогичным способом. Исследователи заявили, что трудно сказать, была ли модель ИИ на самом деле безопасной или нет. [133]
Потенциальное присутствие «спящих агентов» в моделях LLM является еще одной новой проблемой безопасности. Это скрытые функции, встроенные в модель, которые остаются бездействующими до тех пор, пока не будут активированы определенным событием или условием. После активации LLM отклоняется от своего ожидаемого поведения, чтобы совершать небезопасные действия. [134]
Приложения с большой языковой моделью (LLM), доступные для общественности, такие как ChatGPT или Claude, обычно включают меры безопасности, предназначенные для фильтрации вредоносного контента. Однако эффективная реализация этих мер контроля оказалась сложной. Например, исследование Канга и др. [135] продемонстрировало метод обхода систем безопасности LLM. Аналогичным образом, Ван [136] проиллюстрировал, как потенциальный преступник может потенциально обойти меры безопасности ChatGPT 4o, чтобы получить информацию об организации операции по незаконному обороту наркотиков.
Алгоритмическая предвзятость
Хотя LLM продемонстрировали замечательные способности в создании текстов, похожих на человеческие, они подвержены наследованию и усилению предубеждений, присутствующих в их обучающих данных. Это может проявляться в искаженных представлениях или несправедливом отношении к различным демографическим группам, например, основанным на расе, поле, языке и культурных группах. [137] Поскольку английские данные перепредставлены в обучающих данных текущих больших языковых моделей, они также могут преуменьшать неанглийские взгляды. [138]
Стереотипы
Модели ИИ могут усиливать широкий спектр стереотипов, включая основанные на гендере, этнической принадлежности, возрасте, национальности, религии или роде занятий. Это может привести к результатам, которые несправедливо обобщают или карикатурно изображают группы людей, иногда вредным или уничижительным образом. [139]
В частности, гендерная предвзятость относится к тенденции этих моделей производить результаты, которые несправедливо предвзяты по отношению к одному полу по сравнению с другим. Эта предвзятость обычно возникает из данных, на которых обучаются эти модели. Большие языковые модели часто назначают роли и характеристики на основе традиционных гендерных норм. [137] Например, она может ассоциировать медсестер или секретарей преимущественно с женщинами, а инженеров или генеральных директоров — с мужчинами. [140]
Политическая предвзятость
Политическая предвзятость относится к тенденции алгоритмов систематически отдавать предпочтение определенным политическим точкам зрения, идеологиям или результатам по сравнению с другими. Языковые модели также могут демонстрировать политическую предвзятость. Поскольку данные обучения включают широкий спектр политических мнений и охвата, модели могут генерировать ответы, которые склоняются к определенным политическим идеологиям или точкам зрения, в зависимости от распространенности этих взглядов в данных. [141]
Список крупных языковых моделей
Для столбца стоимости обучения 1 петафлоп-день = 1 петафлоп/сек × 1 день = 8.64E19 FLOP. Также, записана только стоимость самой большой модели.
^ Это дата первого выпуска документации, описывающей архитектуру модели.
^ Во многих случаях исследователи выпускают или сообщают о нескольких версиях модели, имеющих разные размеры. В этих случаях здесь указан размер самой большой модели.
^ Это лицензия весов предварительно обученной модели. Почти во всех случаях сам код обучения является открытым или может быть легко воспроизведен.
^ Меньшие модели, включая 66B, доступны для приобретения, а модель 175B доступна по запросу.
^ Лицензия и схема распространения Facebook ограничивали доступ только одобренным исследователям, но веса моделей просочились в сеть и стали широко доступны.
^ Как указано в Техническом отчете: «Учитывая как конкурентную среду, так и последствия безопасности крупномасштабных моделей, таких как GPT-4, этот отчет не содержит дополнительных подробностей об архитектуре (включая размер модели), оборудовании, вычислительных процессах обучения, построении набора данных, методе обучения ...» [196]
Ссылки
^ "Лучшие языковые модели и их последствия". OpenAI . 2019-02-14. Архивировано из оригинала 2020-12-19 . Получено 2019-08-25 .
^ abc Браун, Том Б.; Манн, Бенджамин; Райдер, Ник; Суббиа, Мелани; Каплан, Джаред; Дхаривал, Прафулла; Нилакантан, Арвинд; Шьям, Пранав; Шастри, Гириш; Аскелл, Аманда; Агарвал, Сандхини; Герберт-Фосс, Ариэль; Крюгер, Гретхен; Хенигхан, Том; Чайлд, Ревон; Рамеш, Адитья; Циглер, Дэниел М.; Ву, Джеффри; Винтер, Клеменс; Гессе, Кристофер; Чен, Марк; Сиглер, Эрик; Литвин, Матеуш; Грей, Скотт; Чесс, Бенджамин; Кларк, Джек; Бернер, Кристофер; Маккэндлиш, Сэм; Рэдфорд, Алек; Суцкевер, Илья; Амодеи, Дарио (декабрь 2020 г.). Ларошель, Х.; Ranzato, M.; Hadsell, R.; Balcan, MF; Lin, H. (ред.). «Языковые модели — это малошумные ученики» (PDF) . Достижения в области нейронных систем обработки информации . 33 . Curran Associates, Inc.: 1877–1901. Архивировано (PDF) из оригинала 2023-11-17 . Получено 2023-03-14 .
^ Фатхаллах, Надин; Дас, Арунав; Де Гиоргис, Стефано; Полтроньери, Андреа; Хаазе, Питер; Ковригина, Любовь (2024-05-26). NeOn-GPT: большой конвейер на основе языковой модели для изучения онтологий (PDF) . Конференция по расширенной семантической паутине 2024. Херсониссос, Греция.
^ ab Manning, Christopher D. (2022). «Понимание и рассуждение человеческого языка». Daedalus . 151 (2): 127–138. doi : 10.1162/daed_a_01905 . S2CID 248377870. Архивировано из оригинала 17.11.2023 . Получено 09.03.2023 .
^ Гудман, Джошуа (2001-08-09), Немного прогресса в языковом моделировании , arXiv : cs/0108005 , Bibcode :2001cs........8005G
^ Килгаррифф, Адам; Грефенстет, Грегори (сентябрь 2003 г.). «Введение в специальный выпуск о вебе как корпусе». Computational Linguistics . 29 (3): 333–347. doi :10.1162/089120103322711569. ISSN 0891-2017.
^ Банко, Мишель; Брилл, Эрик (2001). «Масштабирование до очень очень больших корпусов для устранения неоднозначности естественного языка». Труды 39-го ежегодного собрания Ассоциации компьютерной лингвистики — ACL '01 . Морристаун, Нью-Джерси, США: Ассоциация компьютерной лингвистики: 26–33. doi :10.3115/1073012.1073017.
^ Resnik, Philip; Smith, Noah A. (сентябрь 2003 г.). «The Web as a Parallel Corpus». Computational Linguistics . 29 (3): 349–380. doi : 10.1162/089120103322711578 . ISSN 0891-2017. Архивировано из оригинала 2024-06-07 . Получено 2024-06-07 .
^ Халеви, Алон; Норвиг, Питер; Перейра, Фернандо (март 2009 г.). «Необоснованная эффективность данных». IEEE Intelligent Systems . 24 (2): 8–12. doi :10.1109/MIS.2009.36. ISSN 1541-1672.
^ https://www.mdpi.com/2072-4292/13/22/4712.
^ Васвани, Ашиш ; Шазир, Ноам; Пармар, Ники; Ушкорейт, Якоб; Джонс, Ллион; Гомес, Эйдан Н ; Кайзер, Лукаш; Полосухин, Илья (2017). «Внимание — это все, что вам нужно» (PDF) . Достижения в области нейронных систем обработки информации . 30. Curran Associates, Inc. Архивировано (PDF) из оригинала 21.02.2024 . Получено 21.01.2024 .
^ Богданау, Дмитрий; Чо, Кёнхён; Бенгио, Йошуа (2014). «Нейронный машинный перевод путем совместного обучения выравниванию и переводу». arXiv : 1409.0473 [cs.CL].
^ Роджерс, Анна; Ковалева, Ольга; Румшиски, Анна (2020). «A Primer in BERTology: What We Know About How BERT Works». Transactions of the Association for Computational Linguistics . 8 : 842–866. arXiv : 2002.12327 . doi :10.1162/tacl_a_00349. S2CID 211532403. Архивировано из оригинала 2022-04-03 . Получено 2024-01-21 .
^ Херн, Алекс (14 февраля 2019 г.). «Новый фальшивый текстовый генератор на основе ИИ может оказаться слишком опасным для выпуска, говорят его создатели». The Guardian . Архивировано из оригинала 14 февраля 2019 г. Получено 20 января 2024 г.
^ "ChatGPT год спустя: 3 способа, которыми чат-бот на основе искусственного интеллекта полностью изменил мир за 12 месяцев". Euronews . 30 ноября 2023 г. Архивировано из оригинала 14 января 2024 г. Получено 20 января 2024 г.
↑ Heaven, Will (14 марта 2023 г.). «GPT-4 больше и лучше, чем ChatGPT, но OpenAI не скажет, почему». MIT Technology Review . Архивировано из оригинала 17 марта 2023 г. Получено 20 января 2024 г.
^ «Параметры в известных системах искусственного интеллекта». ourworldindata.org . 30 ноября 2023 г. . Получено 20 января 2024 г. .
^ "LMSYS Chatbot Arena Leaderboard". huggingface.co . Архивировано из оригинала 10 июня 2024 г. . Получено 12 июня 2024 г. .
^ Пэн, Бо и др. (2023). «RWKV: переосмысление RNNS для эпохи трансформаторов». arXiv : 2305.13048 [cs.CL].
^ Мерритт, Рик (2022-03-25). «Что такое модель трансформатора?». Блог NVIDIA . Архивировано из оригинала 2023-11-17 . Получено 2023-07-25 .
^ Гу, Альберт; Дао, Три (2023-12-01), Mamba: Моделирование линейно-временной последовательности с использованием пространств выборочных состояний , arXiv : 2312.00752
^ Каушал, Аюш; Маховальд, Кайл (2022-06-06), Что токены знают о своих персонажах и откуда они это знают? , arXiv : 2206.02608
^ Йенни Джун (2023-05-03). «Все языки НЕ созданы (токенизированы) равными». Языковые модели в некоторых языках стоят гораздо дороже, чем в других . Архивировано из оригинала 2023-08-17 . Получено 2023-08-17 . Другими словами, для выражения одного и того же чувства в некоторых языках требуется в 10 раз больше токенов.
^ Петров, Александр; Мальфа, Эмануэле Ла; Торр, Филипп; Биби, Адель (23 июня 2023 г.). «Токенизаторы языковых моделей вносят несправедливость между языками». NeurIPS . arXiv : 2305.15425 . Архивировано из оригинала 15 декабря 2023 г. . Получено 16 сентября 2023 г. – через openreview.net.
^ "OpenAI API". platform.openai.com . Архивировано из оригинала 23 апреля 2023 г. Получено 2023-04-30 .
^ ab Paaß, Gerhard; Giesselbach, Sven (2022). «Предварительно обученные языковые модели». Базовые модели для обработки естественного языка . Искусственный интеллект: основы, теория и алгоритмы. стр. 19–78. doi :10.1007/978-3-031-23190-2_2. ISBN9783031231902. Архивировано из оригинала 3 августа 2023 г. . Получено 3 августа 2023 г. .
^ Петров, Александр; Эмануэле Ла Мальфа; Торр, Филипп ХС; Биби, Адель (2023). «Токенизаторы языковых моделей вносят несправедливость между языками». arXiv : 2305.15425 [cs.CL].
^ Ландберг, Скотт (2023-12-12). «Искусство быстрого дизайна: быстрые границы и исцеление токенов». Medium . Получено 2024-08-05 .
^ Лепихин, Дмитрий; Ли, Хёкджун; Сюй, Юаньчжун; Чен, Дехао; Фират, Орхан; Хуан, Яньпин; Крикун, Максим; Шазир, Ноам; Чен, Чжифэн (12 января 2021 г.). «GShard: масштабирование гигантских моделей с помощью условных вычислений и автоматического сегментирования». arXiv : 2006.16668 [cs.CL].
^ abcd Dai, Andrew M; Du, Nan (9 декабря 2021 г.). «Более эффективное контекстное обучение с GLaM». ai.googleblog.com . Архивировано из оригинала 2023-03-12 . Получено 2023-03-09 .
^ abc Wei, Jason; Tay, Yi; Bommasani, Rishi; Raffel, Colin; Zoph, Barret; Borgeaud, Sebastian; Yogatama, Dani; Bosma, Maarten; Zhou, Denny; Metzler, Donald; Chi, Ed H.; Hashimoto, Tatsunori; Vinyals, Oriol; Liang, Percy; Dean, Jeff; Fedus, William (31 августа 2022 г.). "Emergent Abilities of Large Language Models". Transactions on Machine Learning Research . ISSN 2835-8856. Архивировано из оригинала 22 марта 2023 г. . Получено 19 марта 2023 г. .
^ Алламар, Джей. «Иллюстрированная GPT-2 (визуализация моделей языка Transformer)» . Получено 01.08.2023 .
^ "Наша модель следующего поколения: Gemini 1.5". Google . 15 февраля 2024 г. Архивировано из оригинала 18 февраля 2024 г. Получено 18 февраля 2024 г.
^ "Длинная контекстная подсказка для Claude 2.1". 6 декабря 2023 г. Архивировано из оригинала 27 августа 2024 г. Получено 20 января 2024 г.
^ "Ограничения скорости". openai.com . Архивировано из оригинала 2 февраля 2024 г. Получено 20 января 2024 г.
^ Zaib, Munazza; Sheng, Quan Z.; Emma Zhang, Wei (4 февраля 2020 г.). «Краткий обзор предварительно обученных языковых моделей для разговорного ИИ — новый век в обработке естественного языка». Труды мультиконференции Australasian Computer Science Week . стр. 1–4. arXiv : 2104.10810 . doi :10.1145/3373017.3373028. ISBN9781450376976. S2CID 211040895.
^ abc Jurafsky, Dan; Martin, James H. (7 января 2023 г.). Обработка речи и языка (PDF) (3-е издание, черновой вариант). Архивировано (PDF) из оригинала 23 марта 2023 г. Получено 24 мая 2022 г.
^ "От bare metal до модели 70B: настройка инфраструктуры и скрипты". imbue.com . Архивировано из оригинала 2024-07-26 . Получено 2024-07-24 .
^ "metaseq/projects/OPT/chronicles at main · facebookresearch/metaseq". GitHub . Архивировано из оригинала 2024-01-24 . Получено 2024-07-24 .
^ Альбрехт, Джош (2024-07-23). «Современное состояние дел: обучение >70B LLM на 10 000 кластерах H100». www.latent.space . Получено 2024-07-24 .
^ ab Wiggers, Kyle (28 апреля 2022 г.). «Появляющиеся типы языковых моделей и почему они важны». TechCrunch . Архивировано из оригинала 16 марта 2023 г. Получено 9 марта 2023 г.
^ Бидерман, Стелла; Шелькопф, Хейли; Энтони, Квентин; Брэдли, Херби; Хан, Мохаммад Афлах; Пурохит, Шиваншу; Прашант, USVSN Sai (апрель 2023 г.). «Pythia: набор для анализа больших языковых моделей в процессе обучения и масштабирования». arXiv : 2304.01373 [cs.CL].
^ Паранджапе, Бхаргави; Лундберг, Скотт; Сингх, Самир; Хаджиширзи, Ханнане; Зеттлмойер, Люк; Тулио Рибейро, Марко (01 марта 2023 г.). «ART: Автоматическое многоэтапное рассуждение и использование инструментов для больших языковых моделей». arXiv : 2303.09014 [cs.CL].
^ Лян, Яобо; Ву, Чэньфэй; Сонг, Тинг; У, Вэньшань; Ся, Ян; Лю, Ю; Оу, Ян; Лу, Шуай; Цзи, Лей; Мао, Шаогуан; Ван, Юн; Шоу, Линцзюнь; Гонг, Мин; Дуань, Нань (01 марта 2023 г.). «TaskMatrix.AI: выполнение задач путем соединения базовых моделей с миллионами API». arXiv : 2303.16434 [cs.AI].
^ Льюис, Патрик; Перес, Итан; Пиктус, Александра; Петрони, Фабио; Карпухин, Владимир; Гойал, Наман; Кюттлер, Генрих; Льюис, Майк; Йих, Вэнь-тау; Роктешель, Тим; Ридель, Себастьян; Киела, Доуве (2020). "Генерация дополненной последовательности для задач НЛП, требующих больших знаний". Достижения в области систем обработки нейронной информации . 33. Curran Associates, Inc.: 9459–9474. arXiv : 2005.11401 . Архивировано из оригинала 12.06.2023 . Получено 12.06.2023 .
^ Хуан, Вэньлун; Аббель, Питер; Патхак, Дипак; Мордач, Игорь (28.06.2022). «Языковые модели как планировщики с нулевой скоростью: извлечение применимых на практике знаний для воплощенных агентов». Труды 39-й Международной конференции по машинному обучению . PMLR: 9118–9147. arXiv : 2201.07207 .
^ Яо, Шунюй; Чжао, Джеффри; Ю, Дайан; Ду, Нэн; Шафран, Ицхак; Нарасимхан, Картик; Цао, Юань (01 октября 2022 г.). «ReAct: синергия рассуждений и действий в языковых моделях». arXiv : 2210.03629 [cs.CL].
^ У, Юэ; Прабхумойе, Шримай; Мин, Со Ён (24 мая 2023 г.). «ВЕСНА: GPT-4 превосходит алгоритмы RL по изучению статей и рассуждений». arXiv : 2305.15486 [cs.AI].
^ Ван, Цзыхао; Цай, Шаофэй; Лю, Аньцзи; Ма, Сяоцзянь; Лян, Итао (2023-02-03). «Опишите, объясните, спланируйте и выберите: интерактивное планирование с большими языковыми моделями позволяет использовать многозадачных агентов открытого мира». arXiv : 2302.01560 [cs.AI].
^ Хао, Сибо; Гу, Йи; Ма, Хаоди; Цзяхуа Хун, Джошуа; Ван, Чжэнь; Чжэ Ван, Дейзи; Ху, Чжитинг (01 мая 2023 г.). «Рассуждение с помощью языковой модели — это планирование с помощью модели мира». arXiv : 2305.14992 [cs.CL].
^ Чжан, Дженни; Леман, Джоэл; Стэнли, Кеннет; Клун, Джефф (2 июня 2023 г.). «OMNI: Открытость через модели человеческих представлений об интересности». arXiv : 2306.01711 [cs.AI].
^ ab "Voyager | Открытый воплощенный агент с большими языковыми моделями". voyager.minedojo.org . Архивировано из оригинала 2023-06-08 . Получено 2023-06-09 .
^ Пак, Джун Сон; О'Брайен, Джозеф С.; Кай, Кэрри Дж.; Рингель Моррис, Мередит; Лян, Перси; Бернстайн, Майкл С. (01.04.2023). «Генеративные агенты: интерактивные симулякры человеческого поведения». arXiv : 2304.03442 [cs.HC].
^ Манн, Тобиас. «Как запустить LLM локально на вашем ПК менее чем за 10 минут». www.theregister.com . Получено 17.05.2024 .
^ Нагель, Маркус; Амджад, Рана Али; Баален, Март Ван; Луизос, Христос; Бланкворт, Тиджмен (21.11.2020). «Вверх или вниз? Адаптивное округление для квантования после обучения». Труды 37-й Международной конференции по машинному обучению . PMLR: 7197–7206. Архивировано из оригинала 14.06.2023 . Получено 14.06.2023 .
^ Полино, Антонио; Пашкану, Разван; Алистарх, Дэн (01 февраля 2018 г.). «Сжатие модели посредством дистилляции и квантования». arXiv : 1802.05668 [cs.NE].
^ Франтар, Элиас; Ашкбус, Салех; Хёфлер, Торстен; Алистарх, Дэн (01.10.2022). «GPTQ: точное квантование после обучения для генеративных предварительно обученных трансформаторов». arXiv : 2210.17323 [cs.LG].
^ Деттмерс, Тим; Свирщевский, Руслан; Егиазарян, Ваге; Кузнеделев, Денис; Франтар, Элиас; Ашкбус, Салех; Борзунов, Александр; Хефлер, Торстен; Алистарх, Дэн (01.06.2023). "SpQR: разреженное квантованное представление для сжатия веса LLM почти без потерь". arXiv : 2306.03078 [cs.CL].
^ Гроотендорст, Маартен. "Визуальное руководство по квантованию". newsletter.maartengrootendorst.com . Архивировано из оригинала 31 июля 2024 г. Получено 31 июля 2024 г.
^ Кирос, Райан; Салахутдинов, Руслан; Земель, Рич (2014-06-18). «Мультимодальные нейронные языковые модели». Труды 31-й Международной конференции по машинному обучению . PMLR: 595–603. Архивировано из оригинала 2023-07-02 . Получено 2023-07-02 .
^ Крижевский, Алекс; Суцкевер, Илья; Хинтон, Джеффри Э. (2012). «Классификация ImageNet с глубокими сверточными нейронными сетями». Достижения в области нейронных систем обработки информации . 25. Curran Associates, Inc. Архивировано из оригинала 2023-07-02 . Получено 2023-07-02 .
^ Антол, Станислав; Агравал, Айшвария; Лу, Джиасен; Митчелл, Маргарет; Батра, Дхрув; Зитник, К. Лоуренс; Парих, Деви (2015). «VQA: Визуальный ответ на вопрос». ICCV : 2425–2433. Архивировано из оригинала 2023-07-02 . Получено 2023-07-02 .
^ Ли, Джуннан; Ли, Донгсю; Саварезе, Сильвио; Хой, Стивен (01.01.2023). «BLIP-2: Начальная загрузка предварительного обучения языка и изображения с помощью кодировщиков замороженных изображений и больших языковых моделей». arXiv : 2301.12597 [cs.CV].
^ Alayrac, Jean-Baptiste; Donahue, Jeff; Luc, Pauline; Miech, Antoine; Barr, Iain; Hasson, Yana; Lenc, Karel; Mensch, Arthur; Millican, Katherine; Reynolds, Malcolm; Ring, Roman; Rutherford, Eliza; Cabi, Serkan; Han, Tengda; Gong, Zhitao (2022-12-06). "Flamingo: a Visual Language Model for Few-Shot Learning". Advances in Neural Information Processing Systems . 35 : 23716–23736. arXiv : 2204.14198 . Архивировано из оригинала 2023-07-02 . Получено 2023-07-02 .
^ Боуман, Сэмюэл Р. (2023). «Восемь вещей, которые нужно знать о больших языковых моделях». arXiv : 2304.00612 [cs.CL].
^ Хан, Майкл; Гойал, Навин (2023-03-14). «Теория эмерджентного контекстного обучения как неявной структурной индукции». arXiv : 2303.07971 [cs.LG].
^ Пилехвар, Мохаммад Тахер; Камачо-Колладос, Хосе (июнь 2019 г.). «Труды конференции Севера 2019 г.». Труды конференции Североамериканского отделения Ассоциации компьютерной лингвистики 2019 г.: Технологии человеческого языка, том 1 (длинные и короткие статьи) . Миннеаполис, Миннесота: Ассоциация компьютерной лингвистики: 1267–1273. doi :10.18653/v1/N19-1128. S2CID 102353817. Архивировано из оригинала 27.06.2023 . Получено 27.06.2023 .
^ "WiC: The Word-in-Context Dataset". pilehvar.github.io . Архивировано из оригинала 2023-06-27 . Получено 2023-06-27 .
^ Патель, Рома; Павлик, Элли (2021-10-06). «Отображение языковых моделей в обоснованные концептуальные пространства». ICLR . Архивировано из оригинала 2023-06-24 . Получено 2023-06-27 .
^ Более пристальный взгляд на большие языковые модели. Новые способности. Архивировано 24 июня 2023 г. на Wayback Machine (Яо Фу, 20 ноября 2022 г.)
^ Орнес, Стивен (16 марта 2023 г.). «Непредсказуемые способности, возникающие в больших моделях искусственного интеллекта». Журнал Quanta . Архивировано из оригинала 16 марта 2023 г. Получено 16 марта 2023 г.
^ Шеффер, Райлан; Миранда, Брандо; Коеджо, Санми (01 апреля 2023 г.). «Являются ли новые способности больших языковых моделей миражом?». arXiv : 2304.15004 [cs.AI].
^ Ли, Кеннет; Хопкинс, Аспен К.; Бау, Дэвид; Виегас, Фернанда; Пфистер, Ханспетер; Ваттенберг, Мартин (01.10.2022). «Эмерджентные представления мира: исследование модели последовательности, обученной на синтетической задаче». arXiv : 2210.13382 [cs.LG].
^ "Большая языковая модель: мировые модели или поверхностная статистика?". The Gradient . 2023-01-21 . Получено 2023-06-12 .
^ Джин, Чарльз; Ринард, Мартин (2023-05-01). «Доказательства смысла в языковых моделях, обученных на программах». arXiv : 2305.11169 [cs.LG].
^ abcde Митчелл, Мелани; Кракауэр, Дэвид К. (28 марта 2023 г.). «Дебаты о понимании в больших языковых моделях ИИ». Труды Национальной академии наук . 120 (13): e2215907120. arXiv : 2210.13966 . Bibcode : 2023PNAS..12015907M. doi : 10.1073/pnas.2215907120. PMC 10068812. PMID 36943882 .
^ Метц, Кейд (16 мая 2023 г.). «Microsoft заявляет, что новый ИИ демонстрирует признаки человеческого мышления». The New York Times .
^ аб Бубек, Себастьян; Чандрасекаран, Варун; Эльдан, Ронен; Герке, Йоханнес; Хорвиц, Эрик; Камар, Эдже; Ли, Питер; Ли, Инь Тат; Ли, Юаньчжи; Лундберг, Скотт; Нори, Харша; Паланги, Хамид; Рибейро, Марко Тулио; Чжан, И (2023). «Искры общего искусственного интеллекта: ранние эксперименты с GPT-4». arXiv : 2303.12712 [cs.CL].
^ «ChatGPT больше похож на «инопланетный разум», чем на человеческий мозг, говорит футурист». ZDNET . 2023. Архивировано из оригинала 12 июня 2023 года . Получено 12 июня 2023 года .
^ ab Newport, Cal (13 апреля 2023 г.). «Какой тип ума у ChatGPT?». The New Yorker . Архивировано из оригинала 12 июня 2023 г. . Получено 12 июня 2023 г. .
^ Руз, Кевин (30 мая 2023 г.). «Почему существо, похожее на осьминога, стало символом состояния ИИ» The New York Times . Архивировано из оригинала 30 мая 2023 г. Получено 12 июня 2023 г.
^ «Искусственный интеллект от А до Я». Журнал Time . 13 апреля 2023 г. Архивировано из оригинала 16 июня 2023 г. Получено 12 июня 2023 г.
^ Ji, Ziwei; Lee, Nayeon; Frieske, Rita; Yu, Tiezheng; Su, Dan; Xu, Yan; Ishii, Etsuko; Bang, Yejin; Dai, Wenliang; Madotto, Andrea; Fung, Pascale (ноябрь 2022 г.). "Survey of Hallucination in Natural Language Generation" (pdf) . ACM Computing Surveys . 55 (12). Association for Computing Machinery : 1–38. arXiv : 2202.03629 . doi :10.1145/3571730. S2CID 246652372. Архивировано из оригинала 26 марта 2023 г. . Получено 15 января 2023 г. .
^ Варшни, Нирадж; Яо, Вэньлинь; Чжан, Хунмин; Чэнь, Цзяньшу; Ю, Дун (2023). «Время сделанный стежок спасает девять: обнаружение и смягчение галлюцинаций у LLM путем проверки генерации низкой уверенности». arXiv : 2307.03987 [cs.CL].
^ Лакофф, Джордж (1999). Философия во плоти: воплощенный разум и его вызов западной философии; Приложение: нейронная теория языковой парадигмы . New York Basic Books. С. 569–583. ISBN978-0-465-05674-3.
^ Фристон, Карл Дж. (2022). Активный вывод: принцип свободной энергии в разуме, мозге и поведении; Глава 4. Генеративные модели активного вывода . Издательство MIT. ISBN978-0-262-36997-8.
^ ab Huyen, Chip (18 октября 2019 г.). «Метрики оценки для моделирования языка». The Gradient . Получено 14 января 2024 г. .
^ ab Кларк, Кристофер; Ли, Кентон; Чанг, Мин-Вэй; Квятковски, Том; Коллинз, Майкл; Тутанова, Кристина (2019). «BoolQ: исследование удивительной сложности естественных вопросов «да/нет»». arXiv : 1905.10044 [cs.CL].
^ «Очищенные наборы данных с открытым исходным кодом для понимания естественного языка и кода: как мы оценили нашу модель 70B». imbue.com . Архивировано из оригинала 2024-07-26 . Получено 2024-07-24 .
^ Шривастава, Аарохи и др. (2022). «За пределами имитационной игры: количественная оценка и экстраполяция возможностей языковых моделей». arXiv : 2206.04615 [cs.CL].
^ Лин, Стефани; Хилтон, Джейкоб; Эванс, Оуайн (2021). «TruthfulQA: Измерение того, как модели имитируют человеческую ложь». arXiv : 2109.07958 [cs.CL].
^ ab Zellers, Rowan; Holtzman, Ari; Bisk, Yonatan; Farhadi, Ali; Choi, Yejin (2019). «HellaSwag: может ли машина действительно закончить ваше предложение?». arXiv : 1905.07830 [cs.CL].
^ «Подготовьтесь к действительно полезным большим языковым моделям». Nature Biomedical Engineering . 7 (2): 85–86. 7 марта 2023 г. doi :10.1038/s41551-023-01012-6. PMID 36882584. S2CID 257403466.
^ «Ваша работа (вероятно) защищена от искусственного интеллекта». The Economist . 7 мая 2023 г. Архивировано из оригинала 17 июня 2023 г. Получено 18 июня 2023 г.
^ "Generative AI Could Raise Global GDP by 7%". Goldman Sachs . Архивировано из оригинала 18 июня 2023 г. . Получено 18 июня 2023 г. .
^ Пэн, Чжэньцань; Ван, Чжижи; Дэн, Донг (13 июня 2023 г.). «Поиск почти дублирующих последовательностей в масштабе для оценки запоминания больших языковых моделей» (PDF) . Труды ACM по управлению данными . 1 (2): 1–18. doi :10.1145/3589324. S2CID 259213212. Архивировано (PDF) из оригинала 27.08.2024 . Получено 20.01.2024 .Ссылаясь на Ли и др. 2022.
^ Пэн, Ван и Дэн 2023, с. 8.
^ Альба, Дэйви (1 мая 2023 г.). «ИИ-чатботы использовались для создания десятков новостных контент-ферм». The Japan Times . Получено 18 июня 2023 г.
^ «Могут ли чат-боты помочь разработать следующий пандемический вирус?». Наука . 14 июня 2023 г. doi :10.1126/science.adj2463. Архивировано из оригинала 18 июня 2023 г. Получено 18 июня 2023 г.
^ Стивен Каунсил (1 декабря 2023 г.). «Как Googlers взломали техническую модель конкурента из Сан-Франциско одним словом». SFGATE. Архивировано из оригинала 16 декабря 2023 г.
^ Хабингер, Эван (10 января 2024 г.). «Спящие агенты: обучение обманчивых LLM, которые сохраняются благодаря обучению безопасности». arXiv : 2401.05566 [cs.CR].
^ Канг, Дэниел (2023). «Эксплуатация программного поведения LLM: двойное использование посредством стандартных атак безопасности». arXiv : 2302.05733 [cs.CR].
^ Ван, Юнге (20 июня 2024 г.). «Скрытый канал на основе шифрования для больших языковых моделей» (PDF) . IACR ePrint 2024/586. Архивировано (PDF) из оригинала 24 июня 2024 г. . Получено 24 июня 2024 г. .
^ ab Stokel-Walker, Chris (22 ноября 2023 г.). «ChatGPT воспроизводит гендерную предвзятость в рекомендательных письмах». Scientific American . Архивировано из оригинала 29.12.2023 . Получено 29.12.2023 .
^ Луо, Куини; Пуэтт, Майкл Дж.; Смит, Майкл Д. (28.03.2023). «Перспективное зеркало слона: исследование языковых предубеждений в Google, ChatGPT, Wikipedia и YouTube». arXiv : 2303.16281v2 [cs.CY].
^ Ченг, Майра; Дурмус, Эсин; Джурафски, Дэн (2023-05-29), Отмеченные персоны: использование подсказок естественного языка для измерения стереотипов в языковых моделях , arXiv : 2305.18189
^ Котек, Хадас; Докум, Риккер; Сан, Дэвид (2023-11-05). «Гендерные предубеждения и стереотипы в больших языковых моделях». Труды конференции ACM Collective Intelligence . CI '23. Нью-Йорк, штат Нью-Йорк, США: Ассоциация вычислительной техники. стр. 12–24. doi :10.1145/3582269.3615599. ISBN979-8-4007-0113-9.
^ Хейккиля, Мелисса (7 августа 2023 г.). «Модели языка ИИ изобилуют различными политическими предубеждениями». MIT Technology Review . Получено 29 декабря 2023 г.
^ "Улучшение понимания языка с помощью неконтролируемого обучения". openai.com . 11 июня 2018 г. Архивировано из оригинала 2023-03-18 . Получено 2023-03-18 .
^ "finetune-transformer-lm". GitHub . Архивировано из оригинала 19 мая 2023 г. Получено 2 января 2024 г.
^ ab Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton; Toutanova, Kristina (11 октября 2018 г.). «BERT: Предварительное обучение глубоких двунаправленных преобразователей для понимания языка». arXiv : 1810.04805v2 [cs.CL].
^ "BERT". 13 марта 2023 г. Архивировано из оригинала 13 января 2021 г. Получено 13 марта 2023 г. – через GitHub.
^ Патель, Аджай; Ли, Брайан; Расули, Мохаммад Садег; Констант, Ноа; Раффель, Колин; Каллисон-Берч, Крис (2022). «Двунаправленные языковые модели также являются маломощными обучаемыми». arXiv : 2209.14500 [cs.LG].
^ Девлин, Джейкоб; Чанг, Мин-Вэй; Ли, Кентон; Тутанова, Кристина (11 октября 2018 г.). «BERT: Предварительная подготовка глубоких двунаправленных преобразователей для понимания языка». arXiv : 1810.04805v2 [cs.CL].
^ ab Раффель, Колин; Шазир, Ноам; Робертс, Адам; Ли, Кэтрин; Наранг, Шаран; Матена, Майкл; Чжоу, Яньци; Ли, Вэй; Лю, Питер Дж. (2020). «Изучение пределов трансферного обучения с помощью унифицированного преобразователя текста в текст». Журнал исследований машинного обучения . 21 (140): 1–67. arXiv : 1910.10683 . ISSN 1533-7928.
^ google-research/text-to-text-transfer-transformer, Google Research, 2024-04-02, заархивировано из оригинала 2024-03-29 , извлечено 2024-04-04
^ "Imagen: Модели диффузии текста в изображение". imagen.research.google . Архивировано из оригинала 2024-03-27 . Получено 2024-04-04 .
^ "Лучшие языковые модели и их последствия". openai.com . Архивировано из оригинала 2023-03-16 . Получено 2023-03-13 .
^ ab "Модель языка OpenAI GPT-3: технический обзор". lambdalabs.com . 3 июня 2020 г. Архивировано из оригинала 27 марта 2023 г. Получено 13 марта 2023 г.
^ ab "openai-community/gpt2-xl · Hugging Face". huggingface.co . Архивировано из оригинала 2024-07-24 . Получено 2024-07-24 .
^ "gpt-2". GitHub . Архивировано из оригинала 11 марта 2023 г. Получено 13 марта 2023 г.
^ Таблица D.1 в Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Child, Rewon; Ramesh, Aditya; Ziegler, Daniel M.; Wu, Jeffrey; Winter, Clemens; Hesse, Christopher; Chen, Mark; Sigler, Eric; Litwin, Mateusz; Gray, Scott; Chess, Benjamin; Clark, Jack; Berner, Christopher; McCandlish, Sam; Radford, Alec; Sutskever, Ilya; Amodei, Dario (28 мая 2020 г.). «Языковые модели усваиваются за несколько попыток». arXiv : 2005.14165v4 [cs.CL].
^ "ChatGPT: Оптимизация языковых моделей для диалога". OpenAI . 2022-11-30. Архивировано из оригинала 2022-11-30 . Получено 2023-01-13 .
^ "GPT Neo". 15 марта 2023 г. Архивировано из оригинала 12 марта 2023 г. Получено 12 марта 2023 г. – через GitHub.
^ abc Гао, Лео; Бидерман, Стелла; Блэк, Сид; Голдинг, Лоуренс; Хоппе, Трэвис; Фостер, Чарльз; Фанг, Джейсон; Хе, Хорас; Тайт, Аниш; Набешима, Ноа; Прессер, Шон; Лихи, Коннор (31 декабря 2020 г.). «Куча: набор данных разнообразного текста объемом 800 ГБ для моделирования языка». arXiv : 2101.00027 [cs.CL].
^ ab Iyer, Abhishek (15 мая 2021 г.). «Бесплатная альтернатива GPT-3 GPT-Neo — это нечто, от чего стоит волноваться». VentureBeat . Архивировано из оригинала 9 марта 2023 г. . Получено 13 марта 2023 г. .
^ "GPT-J-6B: Введение в самую большую модель GPT с открытым исходным кодом | Forefront". www.forefront.ai . Архивировано из оригинала 2023-03-09 . Получено 2023-02-28 .
^ Альви, Али; Харья, Пареш (11 октября 2021 г.). «Использование DeepSpeed и Megatron для обучения Megatron-Turing NLG 530B, самой большой и мощной в мире модели генеративного языка». Microsoft Research . Архивировано из оригинала 13 марта 2023 г. . Получено 13 марта 2023 г. .
^ Аб Смит, Шаден; Патвари, Мостофа; Норик, Брэндон; ЛеГресли, Патрик; Раджбхандари, Самьям; Каспер, Джаред; Лю, Чжун; Прабхумойе, Шримаи; Зервеас, Джордж; Кортиканти, Виджай; Чжан, Элтон; Дитя, Ревон; Аминабади, Реза Яздани; Бернауэр, Джули; Сун, Ся (04 февраля 2022 г.). «Использование DeepSpeed и Megatron для обучения Megatron-Turing NLG 530B, крупномасштабной модели генеративного языка». arXiv : 2201.11990 [cs.CL].
^ ab Rajbhandari, Samyam; Li, Conglong; Yao, Zhewei; Zhang, Minjia; Aminabadi, Reza Yazdani; Awan, Ammar Ahmad; Rasley, Jeff; He, Yuxiong (2022-07-21), DeepSpeed-MoE: Advancing Mixture-of-Experts Inference and Training to Power Next-Generation AI Scale, doi : 10.48550/arXiv.2201.05596 , получено 2024-10-18
^ "Product". Anthropic . Архивировано из оригинала 16 марта 2023 г. Получено 14 марта 2023 г.
^ аб Аскелл, Аманда; Бай, Юньтао; Чен, Анна; и др. (9 декабря 2021 г.). «Ассистент общего языка как лаборатория выравнивания». arXiv : 2112.00861 [cs.CL].
^ Бай, Юньтао; Кадават, Саурав; Кунду, Сандипан; и др. (15 декабря 2022 г.). «Конституционный ИИ: безвредность от обратной связи ИИ». arXiv : 2212.08073 [cs.CL].
^ «Масштабное моделирование языка: Gopher, этические аспекты и поиск». www.deepmind.com . 8 декабря 2021 г. Архивировано из оригинала 20 марта 2023 г. Получено 20 марта 2023 г.
^ abc Хоффманн, Джордан; Борго, Себастьян; Менш, Артур; и др. (29 марта 2022 г.). «Обучение вычислительно-оптимальных больших языковых моделей». arXiv : 2203.15556 [cs.CL].
^ abcd Таблица 20 и страница 66 PaLM: Масштабирование языкового моделирования с помощью путей Архивировано 10 июня 2023 г. на Wayback Machine
^ ab Cheng, Heng-Tze; Thoppilan, Romal (21 января 2022 г.). «LaMDA: на пути к безопасным, обоснованным и высококачественным моделям диалога для всего». ai.googleblog.com . Архивировано из оригинала 2022-03-25 . Получено 2023-03-09 .
^ Топпилан, Ромал; Де Фрейтас, Даниэль; Холл, Джейми; Шазир, Ноам; Кулшрешта, Апурв; Ченг, Хэн-Цзы; Джин, Алисия; Бос, Тейлор; Бейкер, Лесли; Ду, Ю; Ли, ЯГуан; Ли, Хонгрэ; Чжэн, Хуайсю Стивен; Гафури, Амин; Менегали, Марсело (1 января 2022 г.). «LaMDA: языковые модели для диалоговых приложений». arXiv : 2201.08239 [cs.CL].
^ Блэк, Сидни; Бидерман, Стелла; Халлахан, Эрик; и др. (2022-05-01). GPT-NeoX-20B: модель языка авторегрессии с открытым исходным кодом. Труды BigScience Эпизод № 5 – Семинар по проблемам и перспективам создания больших языковых моделей. Том. Труды BigScience Эпизод № 5 – Семинар по проблемам и перспективам создания больших языковых моделей. стр. 95–136. Архивировано из оригинала 10.12.2022 . Получено 19.12.2022 .
^ abc Хоффманн, Джордан; Борго, Себастьян; Менш, Артур; Сифре, Лоран (12 апреля 2022 г.). «Эмпирический анализ обучения вычислительно-оптимальной большой языковой модели». Блог Deepmind . Архивировано из оригинала 13 апреля 2022 г. Получено 9 марта 2023 г.
^ Narang, Sharan; Chowdhery, Aakanksha (4 апреля 2022 г.). «Модель языка путей (PaLM): масштабирование до 540 миллиардов параметров для достижения прорывной производительности». ai.googleblog.com . Архивировано из оригинала 2022-04-04 . Получено 2023-03-09 .
^ Сьюзан Чжан; Мона Диаб; Люк Зеттлмойер. «Демократизация доступа к крупномасштабным языковым моделям с помощью OPT-175B». ai.facebook.com . Архивировано из оригинала 2023-03-12 . Получено 2023-03-12 .
^ "metaseq/projects/OPT/chronicles на главной · facebookresearch/metaseq". GitHub . Получено 2024-10-18 .
^ аб Хрущев, Михаил; Васильев, Руслан; Петров, Алексей; Зинов, Николай (22 июня 2022 г.), ЯЛМ 100Б, заархивировано из оригинала 16 июня 2023 г. , получено 18 марта 2023 г.
^ ab Левковиц, Айтор; Андреассен, Андерс; Дохан, Дэвид; Дайер, Итан; Михалевски, Хенрик; Рамасеш, Винай; Слоун, Эмброуз; Анил, Джем; Шлаг, Иманол; Гутман-Соло, Тео; Ву, Юхуай; Нейшабур, Бехнам; Гур-Ари, Гай; Мисра, Ведант (30 июня 2022 г.). «Решение задач количественного рассуждения с помощью языковых моделей». arXiv : 2206.14858 [cs.CL].
^ "Minerva: Решение проблем количественного рассуждения с помощью языковых моделей". ai.googleblog.com . 30 июня 2022 г. . Получено 20 марта 2023 г. .
^ Ananthaswamy, Anil (8 марта 2023 г.). «In AI, is larger always better?». Nature . 615 (7951): 202–205. Bibcode :2023Natur.615..202A. doi :10.1038/d41586-023-00641-w. PMID 36890378. S2CID 257380916. Архивировано из оригинала 16 марта 2023 г. Получено 9 марта 2023 г.
^ Тейлор, Росс; Кардас, Марцин; Кукурулл, Гиллем; Сиалом, Томас; Хартшорн, Энтони; Саравиа, Элвис; Поултон, Эндрю; Керкез, Виктор; Стойнич, Роберт (16 ноября 2022 г.). «Галактика: большая языковая модель для науки». arXiv : 2211.09085 [cs.CL].
^ «Модель Alexa с 20B-параметрами устанавливает новые отметки в обучении с несколькими попытками». Amazon Science . 2 августа 2022 г. Архивировано из оригинала 15 марта 2023 г. Получено 12 марта 2023 г.
^ Солтан, Салех; Анантакришнан, Шанкар; Фицджеральд, Джек; и др. (3 августа 2022 г.). «AlexaTM 20B: маломощное обучение с использованием крупномасштабной многоязыковой модели Seq2Seq». arXiv : 2208.01448 [cs.CL].
^ "AlexaTM 20B теперь доступна в Amazon SageMaker JumpStart | Блог AWS Machine Learning". aws.amazon.com . 17 ноября 2022 г. Архивировано из оригинала 13 марта 2023 г. Получено 13 марта 2023 г.
^ abc "Введение в LLaMA: фундаментальную модель большого языка с 65 миллиардами параметров". Meta AI . 24 февраля 2023 г. Архивировано из оригинала 3 марта 2023 г. Получено 9 марта 2023 г.
^ abc "Сокол приземлился в экосистеме Hugging Face". huggingface.co . Архивировано из оригинала 2023-06-20 . Получено 2023-06-20 .
^ "Технический отчет GPT-4" (PDF) . OpenAI . 2023. Архивировано (PDF) из оригинала 14 марта 2023 г. . Получено 14 марта 2023 г. .
^ Шрайнер, Максимилиан (2023-07-11). "Утечка архитектуры GPT-4, наборов данных, затрат и многого другого". ДЕКОДЕР . Архивировано из оригинала 2023-07-12 . Получено 2024-07-26 .
^ «Инсайты: Анализ трансформационного пути моделей GPT в ИИ, от GPT-1 до GPT-4».
^ Диксон, Бен (22 мая 2024 г.). «Meta представляет Chameleon — современную мультимодальную модель». VentureBeat .
^ Дей, Нолан (28 марта 2023 г.). «Cerebras-GPT: Семейство открытых, вычислительно эффективных, больших языковых моделей». Cerebras . Архивировано из оригинала 28 марта 2023 г. . Получено 28 марта 2023 г. .
^ "ATII из Абу-Даби запускает собственную версию ChatGPT". tii.ae . Архивировано из оригинала 2023-04-03 . Получено 2023-04-03 .
^ Пенедо, Гильерме; Малартик, Квентин; Хесслоу, Дэниел; Кожокару, Руксандра; Каппелли, Алессандро; Алобейдли, Хамза; Паннье, Батист; Алмазруи, Эбтесам; Лоне, Жюльен (1 июня 2023 г.). «Набор данных RefinedWeb для Falcon LLM: превосходство курируемых корпораций с использованием веб-данных и только веб-данных». arXiv : 2306.01116 [cs.CL].
^ Falcon 40B из ОАЭ, ведущая в мире модель искусственного интеллекта по версии Института технологических инноваций, теперь не требует лицензионных отчислений. Архивировано 08.02.2024 на Wayback Machine , 31 мая 2023 г.
^ Ву, Шицзе; Ирсой, Озан; Лу, Стивен; Добровольский, Вадим; Дредзе, Марк; Германн, Себастьян; Камбадур, Прабханджан; Розенберг, Дэвид; Манн, Гидеон (30 марта 2023 г.). «BloombergGPT: большая языковая модель для финансов». arXiv : 2303.17564 [cs.LG].
^ Рен, Сяочжэ; Чжоу, Пиньи; Мэн, Синьфан; Хуан, Синьцзин; Ван, Ядао; Ван, Вэйчао; Ли, Пэнфэй; Чжан, Сяода; Подольский, Александр; Аршинов, Григорий; Бут, Андрей; Пионтковская Ирина; Вэй, Цзяньшэн; Цзян, Синь; Су, Тэн; Лю, Цюнь; Яо, Цзюнь (19 марта 2023 г.). «PanGu-Σ: к языковой модели с триллионом параметров с разреженными гетерогенными вычислениями». arXiv : 2303.10845 [cs.CL].
^ Кёпф, Андреас; Килчер, Янник; фон Рютте, Дмитрий; Анагностидис, Сотирис; Там, Чжи-Жуй; Стивенс, Кейт; Бархум, Абдулла; Дык, Нгуен Минь; Стэнли, Оливер; Надьфи, Ричард; ES, Шахул; Сури, Самир; Глушков, Давид; Дантулури, Арнав; Магуайр, Эндрю (14 апреля 2023 г.). «Беседы OpenAssistant - демократизация согласования модели большого языка». arXiv : 2304.07327 [cs.CL].
^ Вробель, Шарон. «Стартап из Тель-Авива выпускает новую усовершенствованную языковую модель ИИ, чтобы составить конкуренцию OpenAI». www.timesofisrael.com . Архивировано из оригинала 24.07.2023 . Получено 24.07.2023 .
^ Wiggers, Kyle (2023-04-13). «С Bedrock Amazon входит в гонку генеративного ИИ». TechCrunch . Архивировано из оригинала 2023-07-24 . Получено 2023-07-24 .
^ ab Elias, Jennifer (16 мая 2023 г.). «Новейшая модель искусственного интеллекта Google использует почти в пять раз больше текстовых данных для обучения, чем ее предшественница». CNBC . Архивировано из оригинала 16 мая 2023 г. . Получено 18 мая 2023 г. .
^ "Представляем PaLM 2". Google . 10 мая 2023 г. Архивировано из оригинала 18 мая 2023 г. Получено 18 мая 2023 г.
^ ab "Представляем Llama 2: следующее поколение нашей модели большого языка с открытым исходным кодом". Meta AI . 2023. Архивировано из оригинала 2024-01-05 . Получено 2023-07-19 .
^ "llama/MODEL_CARD.md at main · meta-llama/llama". GitHub . Архивировано из оригинала 2024-05-28 . Получено 2024-05-28 .
^ "Клод 2". anthropic.com . Архивировано из оригинала 15 декабря 2023 г. . Получено 12 декабря 2023 г. .
^ Нирмал, Динеш (2023-09-07). "Создание ИИ для бизнеса: модели фундамента IBM Granite". Блог IBM . Архивировано из оригинала 2024-07-22 . Получено 2024-08-11 .
^ "Grok-1 model card". x.ai . Получено 12 декабря 2023 г. .
^ "Gemini – Google DeepMind". deepmind.google . Архивировано из оригинала 8 декабря 2023 г. Получено 12 декабря 2023 г.
^ Франзен, Карл (11 декабря 2023 г.). «Mistral потрясает сообщество ИИ, поскольку последняя модель с открытым исходным кодом превосходит производительность GPT-3.5». VentureBeat . Архивировано из оригинала 11 декабря 2023 г. Получено 12 декабря 2023 г.
^ "Mixtral of expertise". mistral.ai . 11 декабря 2023 г. Архивировано из оригинала 13 февраля 2024 г. Получено 12 декабря 2023 г.
^ ab Hughes, Alyssa (12 декабря 2023 г.). "Phi-2: удивительная сила небольших языковых моделей". Microsoft Research . Архивировано из оригинала 12 декабря 2023 г. Получено 13 декабря 2023 г.
^ "Наша модель следующего поколения: Gemini 1.5". Google . 15 февраля 2024 г. Архивировано из оригинала 16 февраля 2024 г. Получено 16 февраля 2024 г. Это означает, что 1.5 Pro может обрабатывать огромные объемы информации за один раз — включая 1 час видео, 11 часов аудио, кодовые базы с более чем 30 000 строк кода или более 700 000 слов. В нашем исследовании мы также успешно протестировали до 10 миллионов токенов.
^ «Финансирование генеративного ИИ достигнет 25,2 млрд долларов в 2023 году, сообщается в отчете».
^ «Стадо моделей Llama 3» (23 июля 2024 г.) Команда Llama, AI @ Meta
^ "llama-models/models/llama3_1/MODEL_CARD.md на главной · meta-llama/llama-models". GitHub . Архивировано из оригинала 2024-07-23 . Получено 2024-07-23 .
Дальнейшее чтение
Джурафски, Дэн , Мартин, Джеймс. Х. Обработка речи и языка: введение в обработку естественного языка, компьютерную лингвистику и распознавание речи, черновик 3-го издания, 2023 г.
Чжао, Уэйн Синь и др. (2023). «Обзор больших языковых моделей». arXiv : 2303.18223 [cs.CL].
Каддур, Жан и др. (2023). «Проблемы и применение больших языковых моделей». arXiv : 2307.10169 [cs.CL].
Инь, Шукан; Фу, Чаою; Чжао, Сируи; Нравиться; Сунь, Син; Сюй, Тонг; Чен, Эньхун (01 июня 2023 г.). «Обзор мультимодальных моделей большого языка». arXiv : 2306.13549 [cs.CV].
«Отчет об индексе искусственного интеллекта 2024 г. – Индекс искусственного интеллекта». aiindex.stanford.edu . Получено 05.05.2024 .
Фрэнк, Майкл С. (27 июня 2023 г.). «Baby steps in evaluating the capabilities of large language models». Nature Reviews Psychology . 2 (8): 451–452. doi :10.1038/s44159-023-00211-x. ISSN 2731-0574. S2CID 259713140 . Получено 2 июля 2023 г. .