stringtranslate.com

Большая языковая модель

Модель большого языка ( LLM ) — это вычислительная модель , отличающаяся способностью генерировать языки общего назначения и выполнять другие задачи обработки естественного языка, такие как классификация . Основываясь на языковых моделях , студенты LLM приобретают эти способности, изучая статистические взаимосвязи из огромных объемов текста в ходе интенсивного вычислительного процесса обучения с самоконтролем и полуконтролем . [1] LLM можно использовать для генерации текста, формы генеративного искусственного интеллекта , путем взятия входного текста и многократного прогнозирования следующего токена или слова. [2]

LLM — это искусственные нейронные сети , использующие архитектуру трансформатора , изобретенную в 2017 году. Самые крупные и наиболее мощные LLM по состоянию на июнь 2024 года построены на основе архитектуры на основе только декодера, которая обеспечивает эффективную обработку и генерацию крупномасштабного текста. данные.

Исторически сложилось так, что до 2020 года точная настройка была основным методом адаптации модели под конкретные задачи. Однако более крупные модели, такие как GPT-3, продемонстрировали способность достигать аналогичных результатов за счет разработки подсказок , которая включает в себя создание конкретных подсказок для ввода, которые будут определять ответы модели. [3] Эти модели приобретают знания о синтаксисе, семантике и онтологиях [4] , присущие корпусам человеческого языка, но они также наследуют неточности и предвзятости, присутствующие в данных, на которых они обучаются. [5]

Некоторые известные LLM — это серия моделей GPT OpenAI (например, GPT - 3.5 и GPT-4 , используемые в ChatGPT и Microsoft Copilot ), Gemini от Google (последняя из которых в настоящее время используется в одноименном чат-боте ) . , семейство моделей LLaMA от Meta , модели Claude от Anthropic и модели Mistral AI .

История

До 2017 года существовало несколько языковых моделей, которые были большими по сравнению с доступными на тот момент возможностями. В 1990-х годах модели выравнивания IBM стали пионерами статистического языкового моделирования. Сглаженная n-граммная модель в 2001 году, обученная на 0,3 миллиарда слов, достигла тогдашней SOTA-задачи. [6] В 2000-х годах, когда использование Интернета стало широко распространенным, некоторые исследователи создали наборы языковых данных интернет-масштаба («сеть как корпус» [7] ), на которых они обучали статистические языковые модели. [8] [9] В 2009 году в большинстве задач языковой обработки статистические языковые модели доминировали над символьными языковыми моделями, поскольку они могут с пользой обрабатывать большие наборы данных. [10]

После того, как примерно в 2012 году нейронные сети стали доминировать в обработке изображений, их стали применять и для языкового моделирования. Google преобразовал свой сервис перевода на нейронный машинный перевод в 2016 году. Как и до «Трансформеров», это выполнялось с помощью глубоких сетей LSTM seq2seq.

Иллюстрация основных компонентов модели трансформатора из оригинальной статьи, где слои были нормализованы после (а не до) многоголового внимания.

На конференции NeurIPS 2017 года исследователи Google представили архитектуру трансформатора в своей знаковой статье « Внимание — это все, что вам нужно ». Целью этой статьи было улучшение технологии Seq2seq 2014 года [11] и она была основана главным образом на механизме внимания , разработанном Bahdanau et al. в 2014 году. [12] В следующем, 2018 году, BERT был представлен и быстро стал «повсеместным». [13] Хотя исходный преобразователь имеет блоки кодера и декодера, BERT представляет собой модель только для кодера.

Хотя GPT-1 , предназначенный только для декодера , был представлен в 2018 году, именно GPT-2 в 2019 году привлек всеобщее внимание, поскольку OpenAI сначала сочла его слишком мощным, чтобы публиковать его публично, из-за опасений злонамеренного использования. [14] GPT-3 в 2020 году пошел еще дальше и с 2024 года доступен только через API без предложения загрузки модели для локального выполнения. Но именно браузерный ChatGPT , ориентированный на потребителя в 2022 году , захватил воображение широких слоев населения и вызвал некоторую шумиху в СМИ и онлайн-ажиотаж. [15] GPT-4 2023 года получил высокую оценку за повышенную точность и как «Святой Грааль» за свои мультимодальные возможности. [16] OpenAI не раскрыл высокоуровневую архитектуру и количество параметров GPT-4.

Конкурирующие языковые модели по большей части пытались сравняться с серией GPT, по крайней мере, с точки зрения количества параметров. [17]

С 2022 года модели с доступными исходниками набирают популярность, особенно поначалу с BLOOM и LLaMA , хотя обе имеют ограничения по области использования. Модели Mistral AI Mistral 7B и Mixtral 8x7b имеют более либеральную лицензию Apache . По состоянию на июнь 2024 года вариант модели Llama 3 с 70 миллиардами параметров, настроенный по инструкции, является самым мощным открытым LLM согласно таблице лидеров LMSYS Chatbot Arena, он более мощный, чем GPT-3.5, но не такой мощный, как GPT-4. [18]

По состоянию на 2024 год все самые крупные и мощные модели будут основаны на архитектуре Transformer. Некоторые недавние реализации основаны на других архитектурах, таких как варианты рекуррентных нейронных сетей и Mamba ( модель пространства состояний ). [19] [20] [21]

Предварительная обработка набора данных

Вероятностная токенизация

Поскольку алгоритмы машинного обучения обрабатывают числа, а не текст, текст необходимо преобразовать в числа. На первом этапе определяется словарь, затем каждой статье словаря произвольно, но однозначно присваиваются целочисленные индексы, и, наконец, с целочисленным индексом связывается вложение . Алгоритмы включают кодирование пар байтов и WordPiece .

Вероятностная токенизация также сжимает наборы данных. Поскольку LLM обычно требует , чтобы входные данные представляли собой незубчатый массив , более короткие тексты должны быть «дополнены», пока они не совпадут с длиной самого длинного. Сколько токенов в среднем требуется на одно слово, зависит от языка набора данных. [22] [23]

БПЭ

Используя модификацию парного байтового кодирования, на первом этапе все уникальные символы (включая пробелы и знаки препинания ) обрабатываются как начальный набор n -грамм (т.е. начальный набор униграмм). Последовательно наиболее часто встречающаяся пара соседних символов объединяется в биграмму и все экземпляры пары заменяются ею. Все вхождения соседних пар (ранее объединенных) n -грамм, которые чаще всего встречаются вместе, затем снова многократно объединяются в еще более длинные n -граммы, пока не будет получен словарь заданного размера (в случае GPT-3 размер равен 50257). . [24] Словарь токенов состоит из целых чисел , начиная от нуля и заканчивая размером словаря токенов. Новые слова всегда можно интерпретировать как комбинации токенов и униграмм исходного набора. [25]

Словарь токенов, основанный на частотах, извлеченных в основном из корпусов английского языка, использует как можно меньше токенов для среднего английского слова. Однако среднее слово на другом языке, закодированное таким оптимизированным для английского языка токенизатором, разделяется на неоптимальное количество токенов. Токенизатор GPT-2 может использовать до 15 раз больше токенов на слово для некоторых языков, например для языка Шан из Мьянмы . Даже более распространенные языки, такие как португальский и немецкий, имеют «премию в 50%» по сравнению с английским. [26]

Например, вот как токенизатор, используемый GPT-3 (Legacy), разделяет следующее предложение tokenizer: texts -> series of numerical "tokens".

Очистка набора данных

В контексте обучения LLM наборы данных обычно очищаются путем удаления из набора данных токсичных отрывков, удаления некачественных данных и дедупликации. [27] Очищенные наборы данных могут повысить эффективность обучения и привести к улучшению последующих показателей. [28] [29] Обученный LLM можно использовать для очистки наборов данных для обучения следующего LLM. [30]

С увеличением доли контента, созданного LLM, в сети очистка данных в будущем может включать фильтрацию такого контента. Контент, сгенерированный LLM, может создать проблему, если контент похож на человеческий текст (что затрудняет фильтрацию), но имеет более низкое качество (снижает производительность моделей, обученных на нем). [31]

Синтетические данные

Для обучения крупнейших языковых моделей может потребоваться больше лингвистических данных, чем доступно в природе, или же данные, встречающиеся в природе, имеют недостаточное качество. В этих случаях могут использоваться синтетические данные. Серия программ LLM от Microsoft Phi обучается на данных, подобных учебникам, сгенерированных другим LLM. [32]

Обучение и архитектура

Обучение с подкреплением на основе отзывов людей (RLHF)

Обучение с подкреплением на основе обратной связи с человеком (RLHF) с помощью таких алгоритмов, как оптимизация проксимальной политики , используется для дальнейшей точной настройки модели на основе набора данных о предпочтениях человека. [33]

Инструкция по настройке

Используя подходы «самообучения», LLM смогли получить правильные ответы, заменяя любые наивные ответы, начиная с исправлений нескольких случаев, внесенных человеком. Например, в инструкции «Написать сочинение на основные темы, представленные в «Гамлете» » первоначальным наивным завершением может быть «Если вы сдадите сочинение после 17 марта, ваша оценка будет снижена на 10% за каждый день просрочки». на основе частоты этой текстовой последовательности в корпусе. [34]

Смесь экспертов

Обучение и непосредственное использование крупнейшего LLM может быть слишком дорогим. Для таких моделей можно применить смесь экспертов (MoE) — направление исследований, проводимое исследователями Google с 2017 года для обучения моделей, охватывающих до 1 триллиона параметров. [35] [36] [37]

Быстрое проектирование, механизм внимания и контекстное окно

Большинство результатов, ранее достижимых только путем (дорогостоящей) тонкой настройки, могут быть достигнуты с помощью быстрого проектирования , хотя и ограничены рамками одного разговора (точнее, ограничены областью контекстного окна). [38]

Когда каждая голова вычисляет, согласно своим собственным критериям, сколько других токенов имеют отношение к токену «it_», обратите внимание, что вторая голова внимания, представленная вторым столбцом, больше всего концентрируется на первых двух строках, т.е. токенах « «» и «животное», тогда как в третьем столбце больше всего внимания уделяется двум нижним строкам, т.е. слову «устал», которое было разбито на два токена. [39]

Чтобы выяснить, какие токены релевантны друг другу в пределах контекстного окна, механизм внимания вычисляет «мягкие» веса для каждого токена, точнее, для его внедрения, используя несколько головок внимания, каждая из которых имеет свою собственную «релевантность». " для расчета собственных мягких весов. Например, небольшая (т.е. размер параметра 117M) модель GPT-2 имела двенадцать голов внимания и контекстное окно размером всего в 1 тыс. токенов. [40] В средней версии он имеет 345 миллионов параметров и содержит 24 слоя, каждый с 12 головами внимания. Для обучения с градиентным спуском использовался размер пакета 512. [25]

Самые крупные модели, такие как Gemini 1.5 от Google , представленные в феврале 2024 года, могут иметь размер контекстного окна до 1 миллиона (контекстное окно размером 10 миллионов также было «успешно протестировано»). [41] Другие модели с большими контекстными окнами включают Claude 2.1 от Anthropic с контекстным окном, вмещающим до 200 тысяч токенов. [42] Обратите внимание, что этот максимум относится к количеству входных токенов и что максимальное количество выходных токенов отличается от входных и часто меньше. Например, модель GPT-4 Turbo имеет максимальную мощность 4096 токенов. [43]

Продолжительность разговора, которую модель может принять во внимание при формировании следующего ответа, также ограничена размером контекстного окна. Если длина разговора, например с ChatGPT , длиннее, чем его контекстное окно, при генерации следующего ответа учитываются только части внутри контекстного окна, или модели необходимо применить некоторый алгоритм для суммирования слишком удаленных частей. разговора.

К недостаткам увеличения контекстного окна относятся более высокие вычислительные затраты и, возможно, ослабление внимания к локальному контексту, тогда как его уменьшение может привести к тому, что модель упустит важную долгосрочную зависимость. Их балансировка — это вопрос экспериментов и соображений, специфичных для конкретной области.

Модель может быть предварительно обучена либо для прогнозирования продолжения сегмента, либо для прогнозирования того, чего в сегменте не хватает, учитывая сегмент из набора обучающих данных. [44] Это может быть либо

Модели можно обучать на вспомогательных задачах, которые проверяют их понимание распределения данных, таких как прогнозирование следующего предложения (NSP), в котором представлены пары предложений, и модель должна предсказать, будут ли они появляться последовательно в обучающем корпусе. [45] Во время обучения потеря регуляризации также используется для стабилизации обучения. Однако потери регуляризации обычно не используются во время тестирования и оценки.

Стоимость обучения

Достижения в области программного и аппаратного обеспечения существенно снизили затраты с 2020 года, так что в 2023 году стоимость обучения LLM с 12 миллиардами параметров составит 72 300 часов A100-GPU , а в 2020 году стоимость обучения LLM с 1,5 миллиардами параметров (что на два порядка меньше, чем в 2020 году) составляло от 80 тысяч до 1,6 миллиона долларов. [46] [47] [48] С 2020 года большие суммы инвестировались во все более крупные модели. Например, обучение GPT-2 (то есть модели с 1,5 миллиардами параметров) в 2019 году стоило 50 000 долларов, тогда как обучение PaLM (то есть модели с 540 миллиардами параметров) в 2022 году стоило 8 миллионов долларов, а Megatron-Turing NLG 530B (в 2021 году) будет стоить около 11 миллионов долларов. [49]

Для LLM на основе трансформатора стоимость обучения намного выше, чем стоимость вывода. Обучение на одном токене стоит 6 флопов на каждый параметр, тогда как на вывод на одном токене уходит от 1 до 2 флопов на каждый параметр. [50]

Использование инструмента

Есть определенные задачи, которые в принципе не может решить ни один LLM, по крайней мере, без использования внешних инструментов или дополнительного программного обеспечения. Примером такой задачи является ответ на ввод пользователя «354 * 139 =», при условии, что LLM еще не встретил продолжение этого расчета в своем обучающем корпусе. В таких случаях LLM необходимо прибегнуть к запуску программного кода, вычисляющего результат, который затем может быть включен в его ответ. Другой пример: «Сколько сейчас время?» Это ', когда отдельный интерпретатор программы должен выполнить код, чтобы получить системное время на компьютере, чтобы LLM могла включить его в свой ответ. [51] [52] Эту базовую стратегию можно усовершенствовать с помощью нескольких попыток сгенерированных программ и других стратегий выборки. [53]

Как правило, чтобы заставить LLM использовать инструменты, необходимо настроить его на использование инструментов. Если количество инструментов конечно, то точную настройку можно выполнить только один раз. Если количество инструментов может расти произвольно, как в случае с онлайн -сервисами API , то LLM можно настроить так, чтобы он мог читать документацию по API и правильно вызывать API. [54] [55]

Более простой формой использования инструмента является поисковая расширенная генерация : дополнить LLM поиском документов , иногда с использованием векторной базы данных . По запросу вызывается средство извлечения документов для извлечения наиболее релевантных документов (обычно это измеряется путем сначала кодирования запроса и документов в векторы, а затем поиска документов с векторами, наиболее близкими по евклидовой норме к вектору запроса). Затем LLM генерирует выходные данные на основе запроса и полученных документов. [56]

Агентство

LLM — это языковая модель, которая не является агентом, поскольку не имеет цели, но может использоваться как компонент интеллектуального агента . [57] Исследователи описали несколько методов такой интеграции. [ нужна цитата ]

Метод ReAct («Причина + Действие») создает агента из LLM, используя LLM в качестве планировщика. LLM предлагается «думать вслух». В частности, языковая модель запрашивается с текстовым описанием окружающей среды, целью, списком возможных действий и записью действий и наблюдений на данный момент. Он генерирует одну или несколько мыслей, прежде чем генерировать действие, которое затем выполняется в окружающей среде. [58] Лингвистическое описание окружающей среды, данное планировщику LLM, может даже представлять собой код LaTeX статьи, описывающей окружающую среду. [59]

В методе DEPS («Описывать, объяснять, планировать и выбирать») LLM сначала подключается к визуальному миру посредством описаний изображений, затем ему предлагается составить планы для сложных задач и действий на основе предварительно подготовленных знаний и обратной связи с окружающей средой. получает. [60]

Метод рефлексии [61] создает агента, который обучается на протяжении нескольких эпизодов. В конце каждого эпизода LLM предоставляется запись эпизода и предлагается обдумать «извлеченные уроки», которые помогут ему лучше работать в следующем эпизоде. Эти «извлеченные уроки» передаются агенту в последующих эпизодах. [ нужна цитата ]

Поиск по дереву Монте-Карло может использовать LLM в качестве эвристики развертывания. Если программная модель мира недоступна, LLM также может быть предложено ввести описание среды, которая будет выступать в качестве модели мира. [62]

Для открытого исследования LLM можно использовать для оценки наблюдений на предмет их «интересности», что можно использовать в качестве сигнала вознаграждения для руководства обычным (не LLM) агентом обучения с подкреплением. [63] Альтернативно, он может предлагать все более сложные задачи для изучения учебной программы . [64] Вместо вывода отдельных действий планировщик LLM также может создавать «навыки» или функции для сложных последовательностей действий. Навыки можно сохранять и впоследствии использовать, что позволяет повысить уровень абстракции при планировании. [64]

Агенты на базе LLM могут хранить долговременную память о своих предыдущих контекстах, и эту память можно извлечь так же, как и при извлечении дополненной генерации. Несколько таких агентов могут взаимодействовать социально. [65]

Сжатие

Обычно LLM обучается с помощью чисел с плавающей запятой одинарной или половинной точности (float32 и float16). Один float16 имеет 16 бит или 2 байта, поэтому для одного миллиарда параметров требуется 2 гигабайта. Самые крупные модели обычно имеют 100 миллиардов параметров, для загрузки которых требуется 200 гигабайт, что ставит их за пределы возможностей большинства бытовой электроники. [66]

Квантование после обучения [67] направлено на уменьшение требований к пространству за счет снижения точности параметров обученной модели, сохраняя при этом большую часть ее производительности. [68] [69] Самая простая форма квантования просто усекает все числа до заданного количества бит. Его можно улучшить, используя разные кодовые книги квантования для каждого слоя. Дальнейшее улучшение может быть достигнуто путем применения различной точности к различным параметрам, с более высокой точностью для особенно важных параметров («выбросов веса»). [70]

Хотя квантованные модели обычно замораживаются, а точной настройке подвергаются только предварительно квантованные модели, квантованные модели все равно можно точно настроить. [71]

Мультимодальность

Мультимодальность означает «наличие нескольких модальностей», а «модальность» относится к типу ввода или вывода, такому как видео, изображение, аудио, текст, проприоцепция и т. д. [72] Было создано множество моделей ИИ, специально обученных для приема одной модальности. модальность и выводить другую модальность, например AlexNet для изображения для метки, [73] визуальный ответ на вопрос для преобразования изображения в текст, [74] и распознавание речи для преобразования речи в текст.

Распространенный метод создания мультимодальных моделей на основе LLM — «токенизация» выходных данных обученного кодировщика. Конкретно, можно построить LLM, который сможет понимать изображения следующим образом: возьмите обученный LLM и возьмите обученный кодировщик изображений . Сделайте небольшой многослойный перцептрон , чтобы для любого изображения постобработанный вектор имел те же размеры, что и закодированный токен. Это «токен изображения». Затем можно чередовать текстовые токены и токены изображений. Затем составная модель настраивается на наборе данных изображения и текста. Эту базовую конструкцию можно применять с большей сложностью для улучшения модели. Кодер изображения можно заморозить для повышения стабильности. [75]

Flamingo продемонстрировал эффективность метода токенизации, настроив пару предварительно обученной языковой модели и кодировщика изображений, чтобы они лучше справлялись с визуальными ответами на вопросы, чем модели, обученные с нуля. [76] Модель Google PaLM была доработана до мультимодальной модели PaLM-E с использованием метода токенизации и применена к роботизированному управлению. [77] Модели LLaMA также стали мультимодальными с использованием метода токенизации, чтобы обеспечить ввод изображений, [78] и видеовходов. [79]

GPT-4 может использовать как текст, так и изображение в качестве входных данных [80] (хотя компонент изображения не был опубликован до появления GPT-4V [81] ); Gemini от Google DeepMind также является мультимодальным. [82]

Характеристики

Законы масштабирования

Следующие четыре гиперпараметра характеризуют LLM:

Они связаны простыми статистическими законами , называемыми «законами масштабирования». Один конкретный закон масштабирования (« Шиншилловое масштабирование ») для LLM, авторегрессионно обученного в течение одной эпохи, с логарифмическим графиком скорости обучения , гласит, что: [83] где переменные

и статистические гиперпараметры

Новые способности

В точках, называемых разрывами , [84] линии меняют свой наклон, появляясь на логарифмическом графике как серия линейных сегментов, соединенных дугами.

Производительность более крупных моделей при выполнении различных задач, построенная в логарифмическом масштабе, выглядит как линейная экстраполяция производительности, достигнутой меньшими моделями. Однако эта линейность может быть акцентирована « разрывами » [84] в законе масштабирования, когда наклон линии резко меняется и где более крупные модели приобретают «появляющиеся способности». [38] [85] Они возникают в результате сложного взаимодействия компонентов модели и не запрограммированы или спроектированы явно. [2]

Наиболее интригующей среди новых способностей является контекстное обучение на демонстрационных примерах. [86] Контекстное обучение включает в себя решение таких задач, как:

Шеффер и др. ал. утверждают, что возникающие способности не приобретаются непредсказуемо, а предсказуемо приобретаются в соответствии с законом плавного масштабирования . Авторы рассмотрели игрушечную статистическую модель LLM, решающую вопросы с несколькими вариантами ответов, и показали, что эта статистическая модель, модифицированная для учета других типов задач, применима и к этим задачам. [92]

Пусть это количество параметров и производительность модели.

Интерпретация

Большие языковые модели сами по себе являются « черными ящиками », и неясно, как они могут выполнять лингвистические задачи. Существует несколько способов понять, как работает LLM.

Механистическая интерпретируемость направлена ​​на реверс-инжиниринг LLM путем открытия символических алгоритмов, которые аппроксимируют вывод, выполняемый LLM. Одним из примеров является Othello-GPT, где небольшой Трансформер обучен предсказывать законные ходы Отелло . Обнаружено, что существует линейное представление доски Отелло, и изменение этого представления меняет предсказанные законные ходы Отелло правильным образом. [93] [94] В другом примере небольшой Трансформер обучается на программах Karel . Как и в примере с Othello-GPT, существует линейное представление семантики программы Karel, и изменение представления меняет выходные данные правильным образом. Модель также генерирует правильные программы, которые в среднем короче программ в обучающей выборке. [95]

В другом примере авторы обучали небольшие преобразователи модульному арифметическому сложению . Полученные модели были подвергнуты реверс-инжинирингу, и оказалось, что они использовали дискретное преобразование Фурье . [96]

Понимание и интеллект

Исследователи НЛП разделились поровну, когда в опросе 2022 года их спросили, могут ли (ненастроенные) выпускники магистратуры «(когда-либо) понимать естественный язык в каком-то нетривиальном смысле». [97] Сторонники «понимания LLM» считают, что некоторые способности LLM, такие как математические рассуждения, подразумевают способность «понимать» определенные концепции. В 2023 году команда Microsoft утверждала, что GPT-4 «может решать новые и сложные задачи, охватывающие математику, программирование, зрение, медицину, право, психологию и многое другое» и что GPT-4 «можно разумно рассматривать как раннюю (но все еще неполную) версию ) версия системы искусственного общего интеллекта »: «Можно ли разумно сказать, что система, которая сдает экзамены для кандидатов в инженеры-программисты, на самом деле не интеллектуальна?» [98] [99] Некоторые исследователи характеризуют LLM как «инопланетный интеллект». [100] [101] Например, генеральный директор Conjecture Коннор Лихи считает ненастроенные LLM подобными непостижимым инопланетным « шогготам » и считает, что настройка RLHF создает «улыбающийся фасад», скрывающий внутреннюю работу LLM: «Если вы этого не сделаете, если зайти слишком далеко, смайлик останется, но затем вы дадите ему [неожиданную] подсказку, и внезапно вы увидите это огромное подбрюшье безумия, странных мыслительных процессов и явно нечеловеческого понимания». [102] [103]

Напротив, некоторые сторонники школы «недопонимания LLM» полагают, что существующие LLM «просто смешивают и рекомбинируют существующее письмо», [101] явление, известное как стохастический попугай , или указывают на недостатки существующих LLM в прогнозировании. навыки, навыки рассуждения, агентность и объяснимость. [97] Например, GPT-4 имеет естественные недостатки в планировании и обучении в реальном времени. [99] Было замечено, что генеративные LLM уверенно заявляют о фактах, которые, по-видимому, не подтверждаются данными их обучения , - явление, которое было названо « галлюцинацией ». [104] В частности, галлюцинации в контексте LLM соответствуют генерации текста или ответов, которые кажутся синтаксически обоснованными, беглыми и естественными, но на самом деле являются неверными, бессмысленными или не соответствуют предоставленному исходному материалу. [105] Нейробиолог Терренс Сейновски утверждал, что «разные мнения экспертов об интеллекте студентов-магистров предполагают, что наши старые идеи, основанные на естественном интеллекте, неадекватны». [97]

Вопрос о том, как LLM демонстрирует интеллект или понимание, имеет два основных аспекта: первый — это то, как моделировать мышление и язык в компьютерной системе, а второй — как позволить компьютерной системе генерировать язык, подобный человеческому. [97] Эти аспекты языка как модели познания были разработаны в области когнитивной лингвистики . Американский лингвист Джордж Лакофф представил нейронную теорию языка (NTL) [106] как вычислительную основу для использования языка в качестве модели задач обучения и понимания. Модель NTL описывает, как конкретные нейронные структуры человеческого мозга формируют природу мышления и языка и, в свою очередь, каковы вычислительные свойства таких нейронных систем, которые можно применять для моделирования мышления и языка в компьютерной системе. После того, как была создана основа моделирования языка в компьютерных системах, акцент сместился на создание рамок для компьютерных систем, позволяющих генерировать язык с приемлемой грамматикой. В своей книге 2014 года под названием « Языковой миф: почему язык не является инстинктом» британский когнитивный лингвист и технолог цифровых коммуникаций Вивиан Эванс наметил роль вероятностной контекстно-свободной грамматики (PCFG), позволяющей НЛП моделировать когнитивные паттерны и генерировать человекоподобный язык. . [107] [108]

Оценка

Растерянность

Наиболее часто используемой мерой производительности языковой модели является ее сложность в данном текстовом корпусе. Недоумение — это мера того, насколько хорошо модель способна предсказать содержимое набора данных; чем выше вероятность, которую модель присваивает набору данных, тем меньше недоумение. Математически недоумение определяется как экспонента средней отрицательной логарифмической вероятности на токен: здесь указано количество токенов в текстовом корпусе, а «контекст для токена » зависит от конкретного типа используемого LLM. Если LLM является авторегрессивным, то «контекст для токена » — это сегмент текста, появляющийся перед токеном . Если LLM замаскирован, то «контекстом для токена » является сегмент текста, окружающий токен .

Поскольку языковые модели могут соответствовать обучающим данным, модели обычно оцениваются по степени их недоумения на тестовом наборе невидимых данных. [45] Это создает особые проблемы для оценки больших языковых моделей. Поскольку они обучаются на все более крупных массивах текста, в основном извлеченных из Интернета, становится все более вероятным, что данные обучения моделей непреднамеренно включают части любого заданного набора тестов. [3]

BPW, BPC и BPT

В теории информации концепция энтропии неразрывно связана с недоумением, связь, установленная Клодом Шенноном . [109] Эта связь математически выражается как .

Энтропия в этом контексте обычно выражается количественно в битах на слово (BPW) или битах на символ (BPC), что зависит от того, использует ли языковая модель токенизацию на основе слов или символов.

Примечательно, что в случае более крупных языковых моделей, в которых преимущественно используется токенизация подслов, бит на токен (BPT), по-видимому, является более подходящей мерой. Однако из-за различий в методах токенизации в разных моделях большого языка (LLM) BPT не может служить надежным показателем для сравнительного анализа различных моделей. Чтобы преобразовать BPT в BPW, его можно умножить на среднее количество токенов в слове.

При оценке и сравнении языковых моделей перекрестная энтропия обычно является более предпочтительным показателем, чем энтропия. Основной принцип заключается в том, что более низкое значение BPW указывает на расширенные возможности модели по сжатию. Это, в свою очередь, отражает способность модели делать точные прогнозы.

Наборы данных и тесты для конкретных задач

Также было разработано большое количество тестовых наборов данных и тестов для оценки возможностей языковых моделей для решения более конкретных последующих задач. Тесты могут быть разработаны для оценки различных способностей, включая общие знания, здравое рассуждение и решение математических задач.

Одной из широких категорий наборов оценочных данных являются наборы данных с ответами на вопросы, состоящие из пар вопросов и правильных ответов, например («Выиграли ли «Сан-Хосе Шаркс» Кубок Стэнли?», «Нет»). [110] Задача ответа на вопрос считается «открытой книгой», если подсказка модели включает текст, из которого можно получить ожидаемый ответ (например, к предыдущему вопросу может быть добавлен текст, включающий предложение «Акулы подошли к однажды финал Кубка Стэнли, проиграв «Питтсбург Пингвинз» в 2016 году». [110] ). В противном случае задача считается «закрытой книгой», и модель должна опираться на знания, полученные во время обучения. [111] Некоторые примеры часто используемых наборов данных для ответов на вопросы включают TruthfulQA, Web Questions, TriviaQA и SQuAD. [111]

Наборы оценочных данных также могут принимать форму завершения текста: модель выбирает наиболее подходящее слово или предложение для завершения подсказки, например: «Алиса дружила с Бобом. Алиса пошла навестить своего друга ____». [3]

Также были разработаны некоторые комплексные критерии, которые сочетают в себе множество различных наборов оценочных данных и задач. Примеры включают GLUE, SuperGLUE, MMLU , BIG-bench и HELM. [109] [111] OpenAI выпустила инструменты для запуска составных тестов, но отметила, что результаты оценки чувствительны к методу подсказки. [112] [113]

Раньше было стандартным сообщать результаты по отложенной части набора оценочных данных после выполнения контролируемой точной настройки оставшейся части. Сейчас более распространена оценка предварительно обученной модели непосредственно с помощью методов подсказки, хотя исследователи различаются в деталях того, как они формулируют подсказки для конкретных задач, особенно в отношении того, сколько примеров решенных задач примыкает к подсказке (т.е. значение n в подсказке n -shot).

Состязательно построенные оценки

Из-за быстрых темпов совершенствования больших языковых моделей тесты оценки имеют короткую продолжительность жизни, при этом современные модели быстро «насыщают» существующие тесты, превосходя производительность людей-аннотаторов, что приводит к попыткам заменить или дополнить тест более сложные задачи. [114] Кроме того, существуют случаи «быстрого обучения», когда ИИ иногда «обманывают» в тестах с множественным выбором, используя статистические корреляции в поверхностных формулировках тестовых вопросов, чтобы угадать правильные ответы, без обязательного понимания фактического задаваемого вопроса. . [97]

Некоторые наборы данных были построены состязательно, с упором на конкретные проблемы, в решении которых существующие языковые модели кажутся необычайно плохими по сравнению с людьми. Одним из примеров является набор данных TruthfulQA, набор данных с ответами на вопросы, состоящий из 817 вопросов, на которые языковые модели склонны давать неправильные ответы, имитируя ложь, с которой они неоднократно сталкивались во время обучения. Например, степень магистра права может ответить «Нет» на вопрос «Можете ли вы научить старую собаку новым трюкам?» из-за того, что она подвержена английской идиоме, вы не сможете научить старую собаку новым трюкам , хотя это не совсем так. [115]

Другим примером набора данных состязательной оценки является Swag и его преемник HellaSwag, наборы задач, в которых для завершения отрывка текста необходимо выбрать один из нескольких вариантов. Неправильные дополнения были получены путем выборки из языковой модели и фильтрации с помощью набора классификаторов. Возникающие в результате проблемы тривиальны для людей, но на момент создания наборов данных современные языковые модели имели низкую точность. Например:

Видим вывеску фитнес-центра. Затем мы видим мужчину, разговаривающего с камерой, сидящего и лежащего на мяче для упражнений. Мужчина...
а) демонстрирует, как повысить эффективность физических упражнений, бегая по мячам вверх и вниз.
б) двигает всеми руками и ногами и наращивает много мышц.
в) затем играет в мяч, и мы видим графику и демонстрацию обрезки живой изгороди.
г) выполняет приседания, находясь на мяче и разговаривая. [116]

BERT выбирает b) как наиболее вероятное завершение, хотя правильный ответ — d). [116]

Более широкое воздействие

В 2023 году журнал Nature Biomedical Engineering написал, что «больше невозможно точно отличить» написанный человеком текст от текста, созданного с помощью больших языковых моделей, и что «почти наверняка, что большие языковые модели общего назначения будут быстро распространяться. Можно с уверенностью сказать, что со временем они изменят многие отрасли». [117] В 2023 году Goldman Sachs предположил, что генеративный языковой ИИ может увеличить мировой ВВП на 7% в ближайшие десять лет и может привести к автоматизации 300 миллионов рабочих мест по всему миру. [118] [119]

Запоминание и авторские права

Запоминание — это возникающее поведение в LLM, в котором длинные строки текста иногда дословно выводятся из обучающих данных, в отличие от типичного поведения традиционных искусственных нейронных сетей. Оценки контролируемых результатов LLM измеряют объем, запомненный из обучающих данных (с акцентом на модели серии GPT-2), по-разному: более 1% для точных дубликатов [120] или примерно до 7%. [121]

Безопасность

Некоторые комментаторы выразили обеспокоенность по поводу случайного или преднамеренного создания дезинформации или других форм неправильного использования. [122] Например, наличие больших языковых моделей может снизить уровень навыков, необходимых для совершения биотерроризма; Исследователь биобезопасности Кевин Эсвелт предложил создателям LLM исключить из своих учебных материалов материалы по созданию или усилению патогенов. [123]

Исследование, проведенное исследователями Google и нескольких университетов, в том числе Корнельского университета и Калифорнийского университета в Беркли , показало, что существуют потенциальные угрозы безопасности в таких языковых моделях, как ChatGPT . В своем исследовании они изучили и подтвердили возможность того, что спрашивающие могут получить из ChatGPT данные обучения, которые использовала модель ИИ. Например, попросив ChatGPT 3.5 турбо вечно повторять слово «стихотворение», модель ИИ будет говорить «стихотворение» сотни раз, а затем расходиться, отклоняясь от стандартного стиля диалога и выплескивая бессмысленные фразы, выплескивая таким образом обучающие данные. как есть. Исследователи видели более 10 000 примеров модели ИИ, предоставляющей данные обучения аналогичным методом. Исследователи заявили, что трудно сказать, действительно ли модель ИИ безопасна или нет. [124]

Потенциальное присутствие «спящих агентов» в моделях LLM является еще одной новой проблемой безопасности. Это скрытые функции, встроенные в модель, которые остаются бездействующими до тех пор, пока не будут активированы определенным событием или условием. После активации LLM отклоняется от ожидаемого поведения и совершает небезопасные действия. [125]

Приложения большой языковой модели (LLM), доступные для общественности, такие как ChatGPT или Claude, обычно включают меры безопасности, предназначенные для фильтрации вредоносного контента. Однако эффективное внедрение этих мер контроля оказалось сложной задачей. Например, исследование Kang et al. [126] продемонстрировали метод обхода систем безопасности LLM. Аналогичным образом, Ван [127] проиллюстрировал, как потенциальный преступник может потенциально обойти меры безопасности ChatGPT 4o, чтобы получить информацию об организации операции по незаконному обороту наркотиков.

Алгоритмическое смещение

Хотя LLM продемонстрировали замечательные возможности в создании текста, похожего на человеческий, они подвержены наследованию и усилению предвзятостей, присутствующих в их обучающих данных. Это может проявляться в искаженном представлении или несправедливом обращении с различными демографическими группами, например, на основе расы, пола, языка и культурных групп. [128] Поскольку данные на английском языке слишком представлены в обучающих данных текущих крупных языковых моделей, это также может преуменьшать значение неанглоязычных представлений. [129]

Стереотипы

Модели ИИ могут усилить широкий спектр стереотипов, в том числе основанных на поле, этнической принадлежности, возрасте, национальности, религии или профессии. Это может привести к результатам, которые несправедливо обобщают или карикатурно изображают группы людей, иногда вредными или уничижительными способами. [130]

Примечательно, что гендерная предвзятость означает тенденцию этих моделей давать результаты, которые несправедливо предвзято относятся к одному полу по сравнению с другим. Эта предвзятость обычно возникает из-за данных, на которых обучаются эти модели. Большие языковые модели часто назначают роли и характеристики на основе традиционных гендерных норм. [128] Например, медсестры или секретари могут ассоциироваться преимущественно с женщинами, а инженеры или генеральные директора — с мужчинами. [131]

Политическая предвзятость

Политическая предвзятость означает тенденцию алгоритмов систематически отдавать предпочтение определенным политическим точкам зрения, идеологиям или результатам над другими. Языковые модели могут также проявлять политическую предвзятость. Поскольку данные обучения включают в себя широкий спектр политических взглядов и охвата, модели могут генерировать ответы, склоняющиеся к конкретным политическим идеологиям или точкам зрения, в зависимости от преобладания этих взглядов в данных. [132]

Список

Для столбца стоимости обучения 1 петафлопс-день = 1 петафлопс/сек × 1 день = 8,64E19 флоп.

Смотрите также

Примечания

  1. ^ Это дата, когда была впервые выпущена документация, описывающая архитектуру модели.
  2. ^ Во многих случаях исследователи публикуют или сообщают о нескольких версиях модели разных размеров. В этих случаях здесь указан размер самой большой модели.
  3. ^ Это лицензия на предварительно обученные веса модели. Почти во всех случаях сам обучающий код имеет открытый исходный код или может быть легко воспроизведен.
  4. ^ Меньшие модели, включая 66B, общедоступны, а модель 175B доступна по запросу.
  5. ^ Схема лицензирования и распространения Facebook ограничила доступ утвержденным исследователям, но веса моделей просочились и стали широко доступны.
  6. ^ Как указано в техническом отчете: «Учитывая как конкурентную среду, так и последствия для безопасности крупномасштабных моделей, таких как GPT-4, этот отчет не содержит дополнительных подробностей об архитектуре (включая размер модели), аппаратном обеспечении, обучающих вычислениях, построении набора данных, метод тренировки...» [184]

Рекомендации

  1. ^ «Лучшие языковые модели и их последствия». ОпенАИ . 14 февраля 2019 г. Архивировано из оригинала 19 декабря 2020 г. Проверено 25 августа 2019 г.
  2. ^ аб Боуман, Сэмюэл Р. (2023). «Восемь вещей, которые нужно знать о больших языковых моделях». arXiv : 2304.00612 [cs.CL].
  3. ^ abc Браун, Том Б.; Манн, Бенджамин; Райдер, Ник; Суббия, Мелани; Каплан, Джаред; Дхаривал, Прафулла; Нилакантан, Арвинд; Шьям, Пранав; Састри, Гириш; Аскелл, Аманда; Агарвал, Сандхини; Герберт-Восс, Ариэль; Крюгер, Гретхен; Хениган, Том; Дитя, Ревон; Рамеш, Адитья; Зиглер, Дэниел М.; Ву, Джеффри; Зима, Клеменс; Гессен, Кристофер; Чен, Марк; Сиглер, Эрик; Литвин, Матеуш; Грей, Скотт; Шахматы, Бенджамин; Кларк, Джек; Бернер, Кристофер; МакКэндлиш, Сэм; Рэдфорд, Алек; Суцкевер, Илья; Амодей, Дарио (декабрь 2020 г.). Ларошель, Х.; Ранзато, М.; Хадселл, Р.; Балкан, МФ; Лин, Х. (ред.). «Языковые модели мало кто изучает» (PDF) . Достижения в области нейронных систем обработки информации . 33 . Curran Associates, Inc.: 1877–1901.
  4. ^ Фаталлах, Надин; Дас, Арунав; Де Джорджис, Стефано; Полтроньери, Андреа; Хаазе, Питер; Ковригина, Любовь (26 мая 2024 г.). NeOn-GPT: большой конвейер на основе языковых моделей для обучения онтологии (PDF) . Расширенная семантическая веб-конференция 2024. Херсониссос, Греция.
  5. ^ аб Мэннинг, Кристофер Д. (2022). «Понимание и рассуждение человеческого языка». Дедал . 151 (2): 127–138. дои : 10.1162/daed_a_01905 . S2CID  248377870.
  6. ^ Гудман, Джошуа (09 августа 2001 г.), Небольшой прогресс в языковом моделировании , arXiv : cs/0108005
  7. ^ Килгаррифф, Адам; Грефенштетт, Грегори (сентябрь 2003 г.). «Введение в специальный выпуск в Интернете как корпусе». Компьютерная лингвистика . 29 (3): 333–347. дои : 10.1162/089120103322711569. ISSN  0891-2017.
  8. ^ Банко, Микеле; Брилл, Эрик (2001). «Масштабирование до очень-очень больших корпусов для устранения неоднозначности на естественном языке». Материалы 39-го ежегодного собрания Ассоциации компьютерной лингвистики - ACL '01 . Морристаун, Нью-Джерси, США: Ассоциация компьютерной лингвистики: 26–33. дои : 10.3115/1073012.1073017.
  9. ^ Резник, Филип; Смит, Ной А. (сентябрь 2003 г.). «Интернет как параллельный корпус». Компьютерная лингвистика . 29 (3): 349–380. дои : 10.1162/089120103322711578 . ISSN  0891-2017.
  10. ^ Халеви, Алон; Норвиг, Питер; Перейра, Фернандо (март 2009 г.). «Необоснованная эффективность данных». Интеллектуальные системы IEEE . 24 (2): 8–12. дои :10.1109/MIS.2009.36. ISSN  1541-1672.
  11. ^ Васвани, Ашиш ; Шазир, Ноам; Пармар, Ники; Ушкорейт, Якоб; Джонс, Лион; Гомес, Эйдан Н ; Кайзер, Лукаш; Полосухин, Илья (2017). «Внимание — это все, что вам нужно» (PDF) . Достижения в области нейронных систем обработки информации . 30 . Карран Ассошиэйтс, Инк.
  12. ^ Богданов, Дмитрий; Чо, Кёнхён; Бенджио, Йошуа (2014). «Нейронный машинный перевод путем совместного обучения выравниванию и переводу». arXiv : 1409.0473 [cs.CL].
  13. ^ Роджерс, Анна; Ковалева, Ольга; Румшиский, Анна (2020). «Букварь по BERTологии: что мы знаем о том, как работает BERT». Труды Ассоциации компьютерной лингвистики . 8 : 842–866. arXiv : 2002.12327 . дои : 10.1162/tacl_a_00349. S2CID  211532403.
  14. Херн, Алекс (14 февраля 2019 г.). «Новый генератор фальшивых текстов с использованием искусственного интеллекта может оказаться слишком опасным, чтобы его выпускать, — говорят создатели». Хранитель . Проверено 20 января 2024 г.
  15. ^ «ChatGPT год спустя: 3 способа, которыми чат-бот с искусственным интеллектом полностью изменил мир за 12 месяцев» . Евроньюс . 30 ноября 2023 г. . Проверено 20 января 2024 г.
  16. Небеса, Уилл (14 марта 2023 г.). «GPT-4 больше и лучше, чем ChatGPT, но OpenAI не говорит, почему». Обзор технологий Массачусетского технологического института . Проверено 20 января 2024 г.
  17. ^ «Параметры известных систем искусственного интеллекта» . Ourworldindata.org . 30 ноября 2023 г. . Проверено 20 января 2024 г.
  18. ^ "Таблица лидеров арены чат-ботов LMSYS" . Huggingface.co . Проверено 12 июня 2024 г.
  19. ^ Пэн, Бо; и другие. (2023). «RWKV: новое изобретение RNNS для эры трансформаторов». arXiv : 2305.13048 [cs.CL].
  20. ^ Мерритт, Рик (25 марта 2022 г.). «Что такое модель-трансформер?». Блог NVIDIA . Проверено 25 июля 2023 г.
  21. ^ Гу, Альберт; Дао, Три (01 декабря 2023 г.), Мамба: моделирование линейно-временных последовательностей с выборочными пространствами состояний , arXiv : 2312.00752
  22. ^ Йенни Джун (3 мая 2023 г.). «Все языки НЕ созданы (токенизированы) равными». Языковые модели на некоторых языках стоят гораздо дороже, чем на других . Архивировано из оригинала 17 августа 2023 г. Проверено 17 августа 2023 г. Другими словами, для выражения одного и того же чувства в некоторых языках требуется в 10 раз больше токенов.
  23. ^ Петров, Александр; Мальфа, Эмануэле Ла; Торр, Филип; Биби, Адель (23 июня 2023 г.). «Токенизаторы языковых моделей вводят несправедливость между языками». НейриПС . arXiv : 2305.15425 – через openreview.net.
  24. ^ «API OpenAI». платформа.openai.com . Архивировано из оригинала 23 апреля 2023 года . Проверено 30 апреля 2023 г.
  25. ^ аб Паас, Герхард; Гиссельбах, Свен (2022). «Предварительно обученные языковые модели». Базовые модели обработки естественного языка . Искусственный интеллект: основы, теория и алгоритмы. стр. 19–78. дои : 10.1007/978-3-031-23190-2_2. ISBN 9783031231902. Проверено 3 августа 2023 г.
  26. ^ Петров, Александр; Эмануэле Ла Мальфа; Торр, Филип Х.С.; Биби, Адель (2023). «Токенизаторы языковых моделей вводят несправедливость между языками». arXiv : 2305.15425 [cs.CL].
  27. ^ Додж, Джесси; Сап, Мартен; Марасович, Ана; Агнью, Уильям; Ильхарко, Габриэль; Груневельд, Дирк; Митчелл, Маргарет; Гарднер, Мэтт (2021). «Документирование больших веб-текстовых корпораций: пример колоссального чистого просканированного корпуса». arXiv : 2104.08758 [cs.CL].
  28. ^ Ли, Кэтрин; Ипполито, Дафна; Нистром, Эндрю; Чжан, Чиюань; Эк, Дуглас; Каллисон-Берч, Крис; Карлини, Николас (май 2022 г.). «Дедупликация обучающих данных делает языковые модели лучше» (PDF) . Материалы 60-го ежегодного собрания Ассоциации компьютерной лингвистики . 1: Длинные статьи: 8424–8445. doi : 10.18653/v1/2022.acl-long.577.
  29. ^ Ли, Юаньчжи; Бубек, Себастьен; Эльдан, Ронен; Дель Джорно, Элли; Гунасекар, Сурия; Ли, Инь Тат (11 сентября 2023 г.), Учебники - все, что вам нужно II: технический отчет phi-1.5 , arXiv : 2309.05463
  30. ^ Линь, Чжэнхао; Гоу, Жибин; Гонг, Еюн; Лю, Сяо; Шен, Йелун; Сюй, Руочен; Линь, Чен; Ян, Юджиу; Цзяо, Цзянь (11 апреля 2024 г.). «Ро-1: не все токены — то, что вам нужно». arXiv : 2404.07965 [cs.CL].
  31. ^ Браун, Том Б.; и другие. (2020). «Языковые модели изучаются немногими». arXiv : 2005.14165 [cs.CL].
  32. ^ Абдин, Мара; Джейкобс, Сэм Эйд; Аван, Аммар Ахмад; Анеха, Джьоти; Авадаллах, Ахмед; Авадалла, Хани; Бах, Нгуен; Бахри, Амит; Бахтиари, Араш (23 апреля 2024 г.). «Технический отчет Phi-3: высокопроизводительная языковая модель, локально на вашем телефоне». arXiv : 2404.14219 [cs.CL].
  33. ^ Оуян, Лонг; Ву, Джефф; Цзян, Сюй; Алмейда, Диого; Уэйнрайт, Кэрролл Л.; Мишкин, Памела; Чжан, Чонг; Агарвал, Сандхини; Слама, Катарина; Рэй, Алекс; Шульман, Джон; Хилтон, Джейкоб; Келтон, Фрейзер; Миллер, Люк; Сименс, Мэдди; Аскелл, Аманда; Велиндер, Питер; Кристиано, Пол; Лейке, Ян; Лоу, Райан (2022). «Обучение языковых моделей следованию инструкциям с обратной связью от человека». arXiv : 2203.02155 [cs.CL].
  34. ^ Ван, Ичжун; Корди, Йегане; Мишра, Сваруп; Лю, Алиса; Смит, Ной А.; Хашаби, Дэниел; Хаджиширзи, Ханнане (2022). «Самообучение: согласование языковой модели с самостоятельно сгенерированными инструкциями». arXiv : 2212.10560 [cs.CL].
  35. ^ Шазир, Ноам; Мирхосейни, Азалия; Мазиарц, Кшиштоф; Дэвис, Энди; Ле, Куок; Хинтон, Джеффри; Дин, Джефф (01 января 2017 г.). «Невероятно большие нейронные сети: редкий слой смешанных экспертов». arXiv : 1701.06538 [cs.LG].
  36. ^ Лепихин, Дмитрий; Ли, Хёкджун; Сюй, Юаньчжун; Чен, Дехао; Фират, Орхан; Хуан, Яньпин; Крикун, Максим; Шазир, Ноам; Чен, Чжифэн (12 января 2021 г.). «GShard: масштабирование гигантских моделей с помощью условных вычислений и автоматического сегментирования». arXiv : 2006.16668 [cs.CL].
  37. ^ abcd Dai, Эндрю М; Ду, Нан (9 декабря 2021 г.). «Более эффективное контекстное обучение с GLaM». ai.googleblog.com . Проверено 9 марта 2023 г.
  38. ^ abc Вэй, Джейсон; Тай, Йи; Боммасани, Риши; Раффель, Колин; Зоф, Баррет; Боржо, Себастьян; Йогатама, Дэни; Босма, Мартен; Чжоу, Денни; Мецлер, Дональд; Чи, Эд Х.; Хасимото, Тацунори; Виньялс, Ориол; Лян, Перси; Дин, Джефф; Федус, Уильям (31 августа 2022 г.). «Новые возможности больших языковых моделей». Труды по исследованиям машинного обучения . ISSN  2835-8856.
  39. ^ Алламар, Джей. «Иллюстрированный трансформер» . Проверено 29 июля 2023 г.
  40. ^ Алламар, Джей. «Иллюстрированный GPT-2 (визуализация языковых моделей трансформеров)» . Проверено 1 августа 2023 г.
  41. ^ «Наша модель следующего поколения: Gemini 1.5» . Google . 15 февраля 2024 г. Проверено 18 февраля 2024 г.
  42. ^ «Длинные контекстные подсказки для Клода 2.1» . 6 декабря 2023 г. . Проверено 20 января 2024 г.
  43. ^ «Ограничения ставок» . openai.com . Проверено 20 января 2024 г.
  44. ^ Заиб, Мунацца; Шэн, Цюань Цз.; Эмма Чжан, Вэй (4 февраля 2020 г.). «Краткий обзор предварительно обученных языковых моделей для разговорного ИИ – новый век в НЛП». Материалы мультиконференции Австралазийской недели информатики . стр. 1–4. arXiv : 2104.10810 . дои : 10.1145/3373017.3373028. ISBN 9781450376976. S2CID  211040895.
  45. ^ abc Джурафски, Дэн; Мартин, Джеймс Х. (7 января 2023 г.). Обработка речи и языка (PDF) (3-е издание, черновой вариант) . Проверено 24 мая 2022 г.
  46. ↑ Аб Виггерс, Кайл (28 апреля 2022 г.). «Новые типы языковых моделей и почему они имеют значение». ТехКранч .
  47. ^ Шарир, Ор; Пелег, Барак; Шохам, Йоав (2020). «Стоимость обучения моделей НЛП: краткий обзор». arXiv : 2004.08900 [cs.CL].
  48. ^ Бидерман, Стелла; Шелькопф, Хейли; Энтони, Квентин; Брэдли, Херби; Хан, Мохаммед Афла; Пурохит, Шиваншу; Прашант, USVSN Сай (апрель 2023 г.). «Pythia: пакет для анализа больших языковых моделей при обучении и масштабировании». arXiv : 2304.01373 [cs.CL].
  49. ^ Маслей, Нестор; Фатторини, Лоредана; Бриньольфссон, Эрик; Этчеменди, Джон; Лигетт, Катрина; Лайонс, Тера; Маньика, Джеймс; Нго, Хелен; Ниблс, Хуан Карлос (05.10.2023), Отчет об индексе искусственного интеллекта за 2023 г. , arXiv : 2310.03715
  50. ^ ab Раздел 2.1 и Таблица 1, Каплан, Джаред; МакКэндлиш, Сэм; Хениган, Том; Браун, Том Б.; Шахматы, Бенджамин; Дитя, Ревон; Грей, Скотт; Рэдфорд, Алек; Ву, Джеффри; Амодей, Дарио (2020). «Законы масштабирования для моделей нейронного языка». arXiv : 2001.08361 [cs.LG].
  51. ^ Гао, Лую; Мадаан, Аман; Чжоу, Шуян; Алон, Ури; Лю, Пэнфэй; Ян, Имин; Каллан, Джейми; Нойбиг, Грэм (1 ноября 2022 г.). «PAL: Программные языковые модели». arXiv : 2211.10435 [cs.CL].
  52. ^ «PAL: Программные языковые модели» . ReasonwithPal.com . Проверено 12 июня 2023 г.
  53. ^ Паранджапе, Бхаргави; Лундберг, Скотт; Сингх, Самир; Хаджиширзи, Ханнане; Зеттлмойер, Люк; Тулио Рибейро, Марко (01 марта 2023 г.). «ART: Автоматическое многоэтапное рассуждение и использование инструментов для больших языковых моделей». arXiv : 2303.09014 [cs.CL].
  54. ^ Лян, Яобо; Ву, Чэньфэй; Сонг, Тинг; У, Вэньшань; Ся, Ян; Лю, Ю; Оу, Ян; Лу, Шуай; Цзи, Лей; Мао, Шаогуан; Ван, Юн; Шоу, Линцзюнь; Гонг, Мин; Дуань, Нань (01 марта 2023 г.). «TaskMatrix.AI: выполнение задач путем соединения базовых моделей с миллионами API». arXiv : 2303.16434 [cs.AI].
  55. ^ Патил, Шишир Г.; Чжан, Тяньцзюнь; Ван, Синь; Гонсалес, Джозеф Э. (01 мая 2023 г.). «Горилла: большая языковая модель, связанная с массивными API». arXiv : 2305.15334 [cs.CL].
  56. ^ Льюис, Патрик; Перес, Итан; Пиктус, Александра; Петрони, Фабио; Карпухин Владимир; Гоял, Наман; Кюттлер, Генрих; Льюис, Майк; Йи, Вен-тау; Роктешель, Тим; Ридель, Себастьян; Киела, Доуве (2020). «Расширенная поисковая генерация для наукоемких задач НЛП». Достижения в области нейронных систем обработки информации . 33 . Curran Associates, Inc.: 9459–9474. arXiv : 2005.11401 .
  57. ^ Хуан, Вэньлун; Аббель, Питер; Патак, Дипак; Мордач, Игорь (28 июня 2022 г.). «Языковые модели как планировщики с нулевым выстрелом: извлечение практических знаний для воплощенных агентов». Материалы 39-й Международной конференции по машинному обучению . ПМЛР: 9118–9147. arXiv : 2201.07207 .
  58. ^ Яо, Шунюй; Чжао, Джеффри; Ю, Дайан; Ду, Нэн; Шафран, Ицхак; Нарасимхан, Картик; Цао, Юань (01 октября 2022 г.). «ReAct: синергия рассуждений и действий в языковых моделях». arXiv : 2210.03629 [cs.CL].
  59. ^ Ву, Юэ; Прабхумойе, Шримаи; Мин Со Ён (24 мая 2023 г.). «ВЕСНА: GPT-4 превосходит алгоритмы RL при изучении статей и рассуждениях». arXiv : 2305.15486 [cs.AI].
  60. ^ Ван, Цзыхао; Цай, Шаофэй; Лю, Анжи; Ма, Сяоцзянь; Лян, Итао (3 февраля 2023 г.). «Описывать, объяснять, планировать и выбирать: интерактивное планирование с использованием больших языковых моделей позволяет использовать многозадачные агенты в открытом мире». arXiv : 2302.01560 [cs.AI].
  61. ^ Шинн, Ной; Кассано, Федерико; Лабаш, Бек; Гопинатх, Ашвин; Нарасимхан, Картик; Яо, Шуньюй (01 марта 2023 г.). «Рефлексия: языковые агенты с вербальным подкреплением». arXiv : 2303.11366 [cs.AI].
  62. ^ Хао, Сибо; Гу, Йи; Ма, Хаоди; Цзяхуа Хун, Джошуа; Ван, Чжэнь; Чжэ Ван, Дейзи; Ху, Чжитинг (01 мая 2023 г.). «Рассуждение с помощью языковой модели — это планирование с помощью модели мира». arXiv : 2305.14992 [cs.CL].
  63. ^ Чжан, Дженни; Леман, Джоэл; Стэнли, Кеннет; Клюн, Джефф (2 июня 2023 г.). «OMNI: открытость через модели человеческих представлений об интересе». arXiv : 2306.01711 [cs.AI].
  64. ^ ab «Вояджер | Открытый воплощенный агент с большими языковыми моделями». voyager.minedojo.org . Проверено 9 июня 2023 г.
  65. ^ Пак, Джун Сон; О'Брайен, Джозеф К.; Кай, Кэрри Дж.; Рингел Моррис, Мередит; Лян, Перси; Бернштейн, Майкл С. (01 апреля 2023 г.). «Генераторные агенты: интерактивные симулякры человеческого поведения». arXiv : 2304.03442 [cs.HC].
  66. ^ Манн, Тобиас. «Как запустить LLM локально на вашем компьютере менее чем за 10 минут». www.theregister.com . Проверено 17 мая 2024 г.
  67. ^ Нагель, Маркус; Амджад, Рана Али; Баален, Март Ван; Луисос, Христос; Бланкеворт, Теймен (21 ноября 2020 г.). «Вверх или вниз? Адаптивное округление для квантования после обучения». Материалы 37-й Международной конференции по машинному обучению . ПМЛР: 7197–7206.
  68. ^ Полино, Антонио; Пашкану, Разван; Алистарх, Дэн (01 февраля 2018 г.). «Сжатие модели посредством дистилляции и квантования». arXiv : 1802.05668 [cs.NE].
  69. ^ Франтар, Элиас; Ашкбус, Салех; Хефлер, Торстен; Алистарх, Дэн (01 октября 2022 г.). «GPTQ: точное квантование после обучения для генеративных предварительно обученных трансформаторов». arXiv : 2210.17323 [cs.LG].
  70. ^ Деттмерс, Тим; Свирщевский, Руслан; Егиазарян, Ваге; Кузнеделев Денис; Франтар, Элиас; Ашкбус, Салех; Борзунов, Александр; Хефлер, Торстен; Алистарх, Дэн (01 июня 2023 г.). «SpQR: разреженное квантованное представление для сжатия веса LLM практически без потерь». arXiv : 2306.03078 [cs.CL].
  71. ^ Деттмерс, Тим; Паньони, Артидоро; Хольцман, Ари ; Зеттлмойер, Люк (01 мая 2023 г.). «QLoRA: эффективная точная настройка квантованных LLM». arXiv : 2305.14314 [cs.LG].
  72. ^ Кирос, Райан; Салахутдинов Руслан; Земель, Рич (18 июня 2014 г.). «Мультимодальные модели нейронного языка». Материалы 31-й Международной конференции по машинному обучению . ПМЛР: 595–603.
  73. ^ Крижевский, Алекс; Суцкевер, Илья; Хинтон, Джеффри Э (2012). «Классификация ImageNet с глубокими сверточными нейронными сетями». Достижения в области нейронных систем обработки информации . 25 . Карран Ассошиэйтс, Инк.
  74. ^ Антол, Станислав; Агравал, Айшвария; Лу, Цзясэн; Митчелл, Маргарет; Батра, Дхрув; Зитник, К. Лоуренс; Парих, Деви (2015). «VQA: Визуальный ответ на вопрос». ICCV : 2425–2433.
  75. ^ Ли, Джуннан; Ли, Дунсюй; Саварезе, Сильвио; Хой, Стивен (1 января 2023 г.). «BLIP-2: Начальная подготовка языка-изображения с помощью кодировщиков замороженных изображений и больших языковых моделей». arXiv : 2301.12597 [cs.CV].
  76. ^ Алайрак, Жан-Батист; Донахью, Джефф; Люк, Полина; Миш, Антуан; Барр, Иэн; Хассон, Яна; Ленц, Карел; Менш, Артур; Милликан, Кэтрин; Рейнольдс, Малькольм; Кольцо, Роман; Резерфорд, Элиза; Каби, Серкан; Хан, Тенгда; Гун, Чжитао (06 декабря 2022 г.). «Фламинго: модель визуального языка для кратковременного обучения». Достижения в области нейронных систем обработки информации . 35 : 23716–23736. arXiv : 2204.14198 .
  77. ^ Дрисс, Дэнни; Ся, Фэй; Саджади, Мехди С.М.; Линч, Кори; Чоудери, Ааканша; Ихтер, Брайан; Вахид, Айзаан; Томпсон, Джонатан; Выонг, Куан; Ю, Тяньхэ; Хуан, Вэньлун; Чеботарь, Евгений; Сермане, Пьер; Дакворт, Дэниел; Левин, Сергей (01 марта 2023 г.). «PaLM-E: воплощенная мультимодальная языковая модель». arXiv : 2303.03378 [cs.LG].
  78. ^ Лю, Хаотянь; Ли, Чуньюань; У, Цинъян; Ли, Ён Джэ (01 апреля 2023 г.). «Настройка визуальных инструкций». arXiv : 2304.08485 [cs.CV].
  79. ^ Чжан, Ханг; Ли, Синь; Бинг, Лидун (01 июня 2023 г.). «Видео-LLaMA: настроенная на инструкции модель аудиовизуального языка для понимания видео». arXiv : 2306.02858 [cs.CL].
  80. ^ OpenAI (27 марта 2023 г.). «Технический отчет GPT-4». arXiv : 2303.08774 [cs.CL].
  81. ^ OpenAI (25 сентября 2023 г.). «Системная карта GPT-4V(ision)» (PDF) .
  82. Пичаи, Сундар (10 мая 2023 г.), Google Keynote (Google I/O '23), временная метка 15:31 , получено 2 июля 2023 г.
  83. ^ Хоффманн, Джордан; Боржо, Себастьян; Менш, Артур; Бучацкая Елена; Кай, Тревор; Резерфорд, Элиза; Касас, Диего де Лас; Хендрикс, Лиза Энн; Вельбл, Йоханнес; Кларк, Эйдан; Хенниган, Том; Ноланд, Эрик; Милликан, Кэти; Дрессе, Джордж ван ден; Дамок, Богдан (29 марта 2022 г.). «Обучение оптимальных для вычислений моделей большого языка». arXiv : 2203.15556 [cs.CL].
  84. ^ аб Кабальеро, Итан; Гупта, Кшитидж; Риш, Ирина; Крюгер, Дэвид (2022). «Нарушенные законы нейронного масштабирования». arXiv : 2210.14891 [cs.LG].
  85. ^ «137 новых способностей больших языковых моделей». Джейсон Вэй . Проверено 24 июня 2023 г.
  86. ^ Хан, Майкл; Гоял, Навин (14 марта 2023 г.). «Теория возникающего контекстного обучения как индукция неявной структуры». arXiv : 2303.07971 [cs.LG].
  87. ^ Пилехвар, Мохаммад Тахер; Камачо-Колладос, Хосе (июнь 2019 г.). «Материалы конференции Севера 2019». Материалы конференции Североамериканского отделения Ассоциации компьютерной лингвистики 2019 года: технологии человеческого языка, том 1 (длинные и короткие статьи) . Миннеаполис, Миннесота: Ассоциация компьютерной лингвистики: 1267–1273. дои : 10.18653/v1/N19-1128. S2CID  102353817.
  88. ^ «WiC: Набор данных «Слово в контексте»» . Pilehvar.github.io . Проверено 27 июня 2023 г.
  89. ^ Патель, Рома; Павлик, Элли (06 октября 2021 г.). «Сопоставление языковых моделей с обоснованными концептуальными пространствами». ИКЛР .
  90. ^ Более пристальный взгляд на новые способности больших языковых моделей (Яо Фу, 20 ноября 2022 г.)
  91. Орнес, Стивен (16 марта 2023 г.). «Непредсказуемые способности, возникающие из больших моделей искусственного интеллекта». Журнал Кванта .
  92. ^ Шеффер, Райлан; Миранда, Брандо; Коеджо, Санми (01 апреля 2023 г.). «Являются ли новые способности больших языковых моделей миражом?». arXiv : 2304.15004 [cs.AI].
  93. ^ Ли, Кеннет; Хопкинс, Аспен К.; Бау, Дэвид; Вьегас, Фернанда; Пфистер, Ханспетер; Ваттенберг, Мартин (01 октября 2022 г.). «Эмерджентные представления мира: исследование модели последовательности, обученной на синтетической задаче». arXiv : 2210.13382 [cs.LG].
  94. ^ «Большая языковая модель: модели мира или поверхностная статистика?». Градиент . 21 января 2023 г. Проверено 12 июня 2023 г.
  95. ^ Джин, Чарльз; Ринар, Мартин (01 мая 2023 г.). «Свидетельство значения языковых моделей, обученных на программах». arXiv : 2305.11169 [cs.LG].
  96. ^ Нанда, Нил; Чан, Лоуренс; Либерум, Том; Смит, Джесс; Стейнхардт, Джейкоб (1 января 2023 г.). «Меры прогресса в грокке через механистическую интерпретируемость». arXiv : 2301.05217 [cs.LG].
  97. ^ abcde Митчелл, Мелани; Кракауэр, Дэвид К. (28 марта 2023 г.). «Дебаты по поводу понимания больших языковых моделей ИИ». Труды Национальной академии наук . 120 (13): e2215907120. arXiv : 2210.13966 . Бибкод : 2023PNAS..12015907M. дои : 10.1073/pnas.2215907120. ПМЦ 10068812 . ПМИД  36943882. 
  98. Мец, Кейд (16 мая 2023 г.). «Microsoft заявляет, что новый искусственный интеллект демонстрирует признаки человеческого мышления». Нью-Йорк Таймс .
  99. ^ аб Бубек, Себастьян; Чандрасекаран, Варун; Эльдан, Ронен; Герке, Йоханнес; Хорвиц, Эрик; Камар, Эдже; Ли, Питер; Ли, Инь Тат; Ли, Юаньчжи; Лундберг, Скотт; Нори, Харша; Паланги, Хамид; Рибейро, Марко Тулио; Чжан, И (2023). «Искры общего искусственного интеллекта: ранние эксперименты с GPT-4». arXiv : 2303.12712 [cs.CL].
  100. ^ «ChatGPT больше похож на «инопланетный интеллект», чем на человеческий мозг, — говорит футурист». ЗДНЕТ . 2023 . Проверено 12 июня 2023 г.
  101. ^ аб Ньюпорт, Калифорния (13 апреля 2023 г.). «Какой ум у ChatGPT?». Житель Нью-Йорка . Проверено 12 июня 2023 г.
  102. Руз, Кевин (30 мая 2023 г.). «Почему существо, похожее на осьминога, стало символом государства искусственного интеллекта», The New York Times . Проверено 12 июня 2023 г.
  103. ^ «Искусственный интеллект от А до Я». Журнал Тайм . 13 апреля 2023 г. Проверено 12 июня 2023 г.
  104. ^ Цзи, Цивэй; Ли, Наён; Фриске, Рита; Ю, Течжэн; Су, Дэн; Сюй, Ян; Исии, Эцуко; Банг, Еджин; Дай, Вэньлян; Мадто, Андреа; Фунг, Паскаль (ноябрь 2022 г.). «Обзор галлюцинаций при формировании естественного языка» (pdf) . Обзоры вычислительной техники ACM . 55 (12). Ассоциация вычислительной техники : 1–38. arXiv : 2202.03629 . дои : 10.1145/3571730. S2CID  246652372 . Проверено 15 января 2023 г.
  105. ^ Варшни, Нирадж; Яо, Вэньлинь; Чжан, Хунмин; Чен, Цзяньшу; Ю, Донг (2023). «Сшивание во времени экономит девять: обнаружение и смягчение галлюцинаций LLM путем проверки генерации с низкой достоверностью». arXiv : 2307.03987 [cs.CL].
  106. ^ Лакофф, Джордж (1999). Философия во плоти: воплощенный разум и его вызов западной философии; Приложение: Нейронная теория языковой парадигмы . Основные книги Нью-Йорка. стр. 569–583. ISBN 978-0-465-05674-3.
  107. ^ Эванс, Вивиан. (2014). Языковой миф . Издательство Кембриджского университета. ISBN 978-1-107-04396-1.
  108. ^ Фристон, Карл Дж. (2022). Активный вывод: принцип свободной энергии в разуме, мозге и поведении; Глава 4. Генеративные модели активного вывода . Массачусетский технологический институт Пресс. ISBN 978-0-262-36997-8.
  109. ↑ Аб Хуен, Чип (18 октября 2019 г.). «Метрики оценки языкового моделирования». Градиент . Проверено 14 января 2024 г.
  110. ^ аб Кларк, Кристофер; Ли, Кентон; Чанг, Мин-Вэй; Квятковски, Том; Коллинз, Майкл; Тутанова, Кристина (2019). «BoolQ: исследование удивительной сложности естественных вопросов типа «да/нет»». arXiv : 1905.10044 [cs.CL].
  111. ^ abc Уэйн Синь Чжао; Чжоу, Кун; Ли, Цзюньи; Тан, Тяньи; Ван, Сяолэй; Хоу, Юпэн; Мин, Инцянь; Чжан, Бэйчен; Чжан, Цзюньцзе; Донг, Зикан; Ду, Ифань; Ян, Чен; Чен, Юшо; Чен, Чжипенг; Цзян, Цзиньхао; Рен, Жуйян; Ли, Ифань; Тан, Синьюй; Лю, Цзыкан; Лю, Пейю; Не, Цзянь-Юнь; Вэнь, Цзи-Ронг (2023). «Обзор больших языковых моделей». arXiv : 2303.18223 [cs.CL].
  112. ^ openai/simple-evals, OpenAI, 28 мая 2024 г. , получено 28 мая 2024 г.
  113. ^ openai/evals, OpenAI, 28 мая 2024 г. , получено 28 мая 2024 г.
  114. ^ Шривастава, Аарохи; и другие. (2022). «За пределами игры в имитацию: количественная оценка и экстраполяция возможностей языковых моделей». arXiv : 2206.04615 [cs.CL].
  115. ^ Лин, Стефани; Хилтон, Джейкоб; Эванс, Оуайн (2021). «TruthfulQA: измерение того, как модели имитируют человеческую ложь». arXiv : 2109.07958 [cs.CL].
  116. ^ аб Зеллерс, Роуэн; Хольцман, Ари; Биск, Йонатан; Фархади, Али; Чой, Еджин (2019). «HellaSwag: Может ли машина действительно закончить ваше предложение?». arXiv : 1905.07830 [cs.CL].
  117. ^ «Приготовьтесь к действительно полезным большим языковым моделям» . Природная биомедицинская инженерия . 7 (2): 85–86. 7 марта 2023 г. doi : 10.1038/s41551-023-01012-6. PMID  36882584. S2CID  257403466.
  118. ^ «Ваша работа (вероятно) защищена от искусственного интеллекта» . Экономист . 7 мая 2023 г. Проверено 18 июня 2023 г.
  119. ^ «Генераторный ИИ может повысить мировой ВВП на 7%» . Голдман Сакс . Проверено 18 июня 2023 г.
  120. ^ Пэн, Чжэньцань; Ван, Чжижи; Дэн, Донг (13 июня 2023 г.). «Поиск почти повторяющихся последовательностей в масштабе для оценки запоминания больших языковых моделей» (PDF) . Труды ACM по управлению данными . 1 (2): 1–18. дои : 10.1145/3589324. S2CID  259213212 . Проверено 20 января 2024 г.Цитируя Ли и др., 2022 г.
  121. ^ Пэн, Ван и Дэн 2023, с. 8.
  122. Альба, Дэйви (1 мая 2023 г.). «Чат-боты с искусственным интеллектом использовались для создания десятков ферм новостного контента». Джапан Таймс . Проверено 18 июня 2023 г.
  123. ^ «Могут ли чат-боты помочь разработать следующий пандемический вирус?». Наука . 14 июня 2023 г. doi : 10.1126/science.adj2463.
  124. ^ Стивен Совет (1 декабря 2023 г.). «Как сотрудники Google взломали технологическую модель конкурента в научной фантастике одним словом» . СФГЕЙТ.
  125. ^ Хубингер, Эван (10 января 2024 г.). «Спящие агенты: обучение обманщиков-магистров права, которые упорствуют в обучении технике безопасности». arXiv : 2401.05566 [cs.CR].
  126. ^ Канг, Дэниел (2023). «Использование программного поведения LLM: двойное использование посредством стандартных атак безопасности». arXiv : 2302.05733 [cs.CR].
  127. Ван, Юнге (20 июня 2024 г.). «Скрытый канал на основе шифрования для больших языковых моделей» (PDF) . Электронная печать IACR 2024/586.
  128. ^ аб Стокел-Уокер, Крис (22 ноября 2023 г.). «ChatGPT воспроизводит гендерную предвзятость в рекомендательных письмах». Научный американец . Проверено 29 декабря 2023 г.
  129. ^ Луо, Куини; Пуэтт, Майкл Дж.; Смит, Майкл Д. (28 марта 2023 г.). «Перспективное зеркало слона: исследование языковой предвзятости в Google, ChatGPT, Википедии и YouTube». arXiv : 2303.16281v2 [cs.CY].
  130. ^ Ченг, Майра; Дурмус, Есин; Джурафски, Дэн (29 мая 2023 г.), Отмеченные личности: использование подсказок естественного языка для измерения стереотипов в языковых моделях , arXiv : 2305.18189
  131. ^ Котек, Хадас; Докум, Риккер; Сан, Дэвид (05.11.2023). «Гендерная предвзятость и стереотипы в моделях большого языка». Материалы конференции по коллективному разуму ACM . КИ '23. Нью-Йорк, штат Нью-Йорк, США: Ассоциация вычислительной техники. стр. 12–24. дои : 10.1145/3582269.3615599. ISBN 979-8-4007-0113-9.
  132. Хейккиля, Мелисса (7 августа 2023 г.). «Языковые модели искусственного интеллекта изобилуют различными политическими предубеждениями». Обзор технологий Массачусетского технологического института . Проверено 29 декабря 2023 г.
  133. ^ «Улучшение понимания языка с помощью обучения без учителя». openai.com . 11 июня 2018 г. Архивировано из оригинала 18 марта 2023 г. Проверено 18 марта 2023 г.
  134. ^ "тонкая настройка-трансформер-лм" . Гитхаб . Проверено 2 января 2024 г.
  135. ^ аб Девлин, Джейкоб; Чанг, Мин-Вэй; Ли, Кентон; Тутанова Кристина (11 октября 2018 г.). «BERT: Предварительная подготовка глубоких двунаправленных преобразователей для понимания языка». arXiv : 1810.04805v2 [cs.CL].
  136. ^ Прикетт, Николь Хемсот (24 августа 2021 г.). «Cerebras меняет архитектуру для соответствия масштабным моделям искусственного интеллекта и машинного обучения». Следующая платформа . Проверено 20 июня 2023 г.
  137. ^ "БЕРТ". 13 марта 2023 г. — через GitHub.
  138. ^ Патель, Аджай; Ли, Брайан; Расули, Мохаммад Садег; Констант, Ной; Раффель, Колин; Каллисон-Берч, Крис (2022). «Двунаправленные языковые модели также мало учатся». arXiv : 2209.14500 [cs.LG].
  139. ^ Аб Раффель, Колин; Шазир, Ноам; Робертс, Адам; Ли, Кэтрин; Наранг, Шаран; Матена, Майкл; Чжоу, Яньци; Ли, Вэй; Лю, Питер Дж. (2020). «Изучение границ трансферного обучения с помощью унифицированного преобразователя текста в текст». Журнал исследований машинного обучения . 21 (140): 1–67. arXiv : 1910.10683 . ISSN  1533-7928.
  140. ^ google-research/text-to-text-transfer-transformer, Google Research, 2 апреля 2024 г. , получено 4 апреля 2024 г.
  141. ^ «Imagen: модели распространения текста в изображение» . imagen.research.google . Проверено 4 апреля 2024 г.
  142. ^ «BERT, RoBERTa, DistilBERT, XLNet: какой использовать?». КДнаггетс .[ постоянная мертвая ссылка ]
  143. Ссылки Гитхаб . Проверено 2 января 2024 г.
  144. ^ Наик, Амит Раджа (23 сентября 2021 г.). «Google представляет новую архитектуру для снижения стоимости трансформаторов» . Журнал Analytics India Magazine .
  145. ^ Ян, Жилин; Дай, Цзихан; Ян, Имин; Карбонелл, Хайме; Салахутдинов Руслан; Ле, Куок В. (2 января 2020 г.). «XLNet: Обобщенная авторегрессионная предварительная тренировка для понимания языка». arXiv : 1906.08237 [cs.CL].
  146. ^ «GPT-2: Версия 1.5B» . ОпенАИ . 05.11.2019. Архивировано из оригинала 14 ноября 2019 г. Проверено 14 ноября 2019 г.
  147. ^ «Лучшие языковые модели и их последствия». openai.com .
  148. ^ ab «Языковая модель OpenAI GPT-3: технический обзор» . Lambdalabs.com . 3 июня 2020 г.
  149. ^ "ГПТ-2". Гитхаб . Проверено 13 марта 2023 г.
  150. ^ Таблица D.1 в книге Браун, Том Б.; Манн, Бенджамин; Райдер, Ник; Суббия, Мелани; Каплан, Джаред; Дхаривал, Прафулла; Нилакантан, Арвинд; Шьям, Пранав; Састри, Гириш; Аскелл, Аманда; Агарвал, Сандхини; Герберт-Восс, Ариэль; Крюгер, Гретхен; Хениган, Том; Дитя, Ревон; Рамеш, Адитья; Зиглер, Дэниел М.; Ву, Джеффри; Зима, Клеменс; Гессен, Кристофер; Чен, Марк; Сиглер, Эрик; Литвин, Матеуш; Грей, Скотт; Шахматы, Бенджамин; Кларк, Джек; Бернер, Кристофер; МакКэндлиш, Сэм; Рэдфорд, Алек; Суцкевер, Илья; Амодей, Дарио (28 мая 2020 г.). «Языковые модели изучаются немногими». arXiv : 2005.14165v4 [cs.CL].
  151. ^ «ChatGPT: оптимизация языковых моделей для диалога» . ОпенАИ . 30 ноября 2022 г. Проверено 13 января 2023 г.
  152. ^ "GPT Neo". 15 марта 2023 г. – через GitHub.
  153. ^ abc Гао, Лео; Бидерман, Стелла; Блэк, Сид; Голдинг, Лоуренс; Хоппе, Трэвис; Фостер, Чарльз; Пханг, Джейсон; Он, Гораций; Тите, Аниш; Набешима, Ноа; Прессер, Шон; Лихи, Коннор (31 декабря 2020 г.). «Куча: набор данных разнообразного текста объемом 800 ГБ для языкового моделирования». arXiv : 2101.00027 [cs.CL].
  154. ↑ Аб Айер, Абхишек (15 мая 2021 г.). «Бесплатная альтернатива GPT-3 GPT-Neo заслуживает восхищения». ВенчурБит .
  155. ^ «GPT-J-6B: Введение в крупнейшую модель GPT с открытым исходным кодом | Forefront» . www.forefront.ai . Архивировано из оригинала 9 марта 2023 г. Проверено 28 февраля 2023 г.
  156. ^ abcd Дей, Нолан; Госал, Гурприт; Чжимин; Чен; Хачане, Хемант; Маршалл, Уильям; Патрия, Рибху; Том, Марвин; Хестнесс, Джоэл (1 апреля 2023 г.). «Cerebras-GPT: открытые оптимальные для вычислений языковые модели, обученные на кластере Cerebras Wafer Scale». arXiv : 2304.03208 [cs.LG].
  157. ^ Алви, Али; Харья, Пареш (11 октября 2021 г.). «Использование DeepSpeed ​​и Megatron для обучения Megatron-Turing NLG 530B, самой большой и мощной в мире модели генеративного языка». Исследования Майкрософт .
  158. ^ Аб Смит, Шаден; Патвари, Мостофа; Норик, Брэндон; ЛеГресли, Патрик; Раджбхандари, Самьям; Каспер, Джаред; Лю, Чжун; Прабхумойе, Шримаи; Зервеас, Джордж; Кортиканти, Виджай; Чжан, Элтон; Дитя, Ревон; Аминабади, Реза Яздани; Бернауэр, Джули; Сун, Ся (04 февраля 2022 г.). «Использование DeepSpeed ​​и Megatron для обучения Megatron-Turing NLG 530B, крупномасштабной модели генеративного языка». arXiv : 2201.11990 [cs.CL].
  159. ^ Ван, Шуохуань; Сунь, Ю; Сян, Ян; Ву, Чжихуа; Дин, Сию; Гонг, Вейбао; Фэн, Шикун; Шан, Цзюньюань; Чжао, Яньбинь; Панг, Чао; Лю, Цзясян; Чен, Сюйи; Лу, Юйсян; Лю, Вэйсинь; Ван, Си; Бай, Янфань; Чен, Цюлян; Чжао, Ли; Ли, Шийонг; Сунь, Пэн; Ю, Дяньхай; Ма, Яньцзюнь; Тянь, Хао; Ву, Хуа; Ву, Тянь; Цзэн, Вэй; Ли, Ге; Гао, Вэнь; Ван, Хайфэн (23 декабря 2021 г.). «ЭРНИ 3.0 Титан: изучение более масштабных знаний, расширенная предварительная подготовка для понимания и генерации языков». arXiv : 2112.12731 [cs.CL].
  160. ^ «Продукт». Антропный . Проверено 14 марта 2023 г.
  161. ^ аб Аскелл, Аманда; Бай, Юньтао; Чен, Анна; и другие. (9 декабря 2021 г.). «Ассистент общего языка как лаборатория выравнивания». arXiv : 2112.00861 [cs.CL].
  162. ^ Бай, Юньтао; Кадават, Саурав; Кунду, Сандипан; и другие. (15 декабря 2022 г.). «Конституционный ИИ: безвредность от обратной связи ИИ». arXiv : 2212.08073 [cs.CL].
  163. ^ «Языковое моделирование в масштабе: Gopher, этические соображения и поиск». www.deepmind.com . 8 декабря 2021 г. Проверено 20 марта 2023 г.
  164. ^ abc Хоффманн, Иордания; Боржо, Себастьян; Менш, Артур; и другие. (29 марта 2022 г.). «Обучение оптимальных для вычислений моделей большого языка». arXiv : 2203.15556 [cs.CL].
  165. ^ abcd Таблица 20 и страница 66 PaLM: Масштабирование языкового моделирования с помощью путей
  166. ^ Аб Ченг, Хенг-Цзы; Топпилан, Ромал (21 января 2022 г.). «LaMDA: к безопасным, обоснованным и высококачественным моделям диалога для всего». ai.googleblog.com . Проверено 9 марта 2023 г.
  167. ^ Топпилан, Ромал; Де Фрейтас, Даниэль; Холл, Джейми; Шазир, Ноам; Кулшрешта, Апурв; Ченг, Хэн-Цзы; Джин, Алисия; Бос, Тейлор; Бейкер, Лесли; Ду, Ю; Ли, ЯГуан; Ли, Хонгрэ; Чжэн, Хуайсю Стивен; Гафури, Амин; Менегали, Марсело (1 января 2022 г.). «LaMDA: языковые модели для диалоговых приложений». arXiv : 2201.08239 [cs.CL].
  168. ^ Блэк, Сидни; Бидерман, Стелла; Халлахан, Эрик; и другие. (01.05.2022). GPT-NeoX-20B: модель авторегрессионного языка с открытым исходным кодом. Труды BigScience, эпизод № 5 – Семинар по проблемам и перспективам создания больших языковых моделей. Том. Труды BigScience, эпизод № 5 – Семинар по проблемам и перспективам создания больших языковых моделей. стр. 95–136 . Проверено 19 декабря 2022 г.
  169. ^ abc Хоффманн, Иордания; Боржо, Себастьян; Менш, Артур; Сифре, Лоран (12 апреля 2022 г.). «Эмпирический анализ оптимального для вычислений обучения модели большого языка». Блог Deepmind .
  170. ^ Наранг, Шаран; Чоудери, Ааканша (4 апреля 2022 г.). «Языковая модель Pathways (PaLM): масштабирование до 540 миллиардов параметров для достижения революционной производительности». ai.googleblog.com . Проверено 9 марта 2023 г.
  171. ^ «Демократизация доступа к крупномасштабным языковым моделям с помощью OPT-175B». ai.facebook.com .
  172. ^ Чжан, Сьюзен; Роллер, Стивен; Гоял, Наман; Артече, Микель; Чен, Мойя; Чен, Шуохуэй; Деван, Кристофер; Диаб, Мона; Ли, Сиань; Линь, Си Виктория; Михайлов, Тодор; Отт, Майл; Шлейфер, Сэм; Шустер, Курт; Симиг, Дэниел; Кура, Пунит Сингх; Шридхар, Анджали; Ван, Тяньлу; Зеттлмойер, Люк (21 июня 2022 г.). «OPT: открытые предварительно обученные языковые модели трансформаторов». arXiv : 2205.01068 [cs.CL].
  173. ^ аб Хрущев, Михаил; Васильев, Руслан; Петров, Алексей; Зинов, Николай (22 июня 2022 г.), ЯЛМ 100Б , получено 18 марта 2023 г.
  174. ^ аб Левкович, Айтор; Андреассен, Андерс; Дохан, Дэвид; Дайер, Итан; Михалевский, Хенрик; Рамашеш, Винай; Слон, Эмброуз; Анил, Джем; Шлаг, Иманол; Гутман-Соло, Тео; Ву, Юхуай; Нейшабур, Бехнам; Гур-Ари, Гай; Мисра, Ведант (30 июня 2022 г.). «Решение задач количественного рассуждения с помощью языковых моделей». arXiv : 2206.14858 [cs.CL].
  175. ^ «Минерва: Решение проблем количественного рассуждения с помощью языковых моделей». ai.googleblog.com . 30 июня 2022 г. Проверено 20 марта 2023 г.
  176. Анантасвами, Анил (8 марта 2023 г.). «В ИИ чем больше, тем лучше?». Природа . 615 (7951): 202–205. Бибкод : 2023Natur.615..202A. doi : 10.1038/d41586-023-00641-w. PMID  36890378. S2CID  257380916.
  177. ^ "большая наука/блум · Обнимающее лицо" . Huggingface.co .
  178. ^ Тейлор, Росс; Кардас, Марцин; Кукурулл, Гиллем; Сиалом, Томас; Хартшорн, Энтони; Саравиа, Элвис; Поултон, Эндрю; Керкез, Виктор; Стойнич, Роберт (16 ноября 2022 г.). «Галактика: большая языковая модель для науки». arXiv : 2211.09085 [cs.CL].
  179. ^ «Модель Alexa с 20B-параметрами устанавливает новые стандарты в обучении за несколько кадров» . Амазонская наука . 2 августа 2022 г.
  180. ^ Солтан, Салех; Анантакришнан, Шанкар; Фитцджеральд, Джек; и другие. (3 августа 2022 г.). «AlexaTM 20B: обучение в несколько этапов с использованием крупномасштабной многоязычной модели Seq2Seq». arXiv : 2208.01448 [cs.CL].
  181. ^ «AlexaTM 20B теперь доступен в Amazon SageMaker JumpStart | Блог AWS Machine Learning» . aws.amazon.com . 17 ноября 2022 г. Проверено 13 марта 2023 г.
  182. ^ abc «Представляем LLaMA: фундаментальную модель большого языка с 65 миллиардами параметров». Мета ИИ . 24 февраля 2023 г.
  183. ^ abc «Сокол приземлился в экосистеме Обнимающего Лица» . Huggingface.co . Проверено 20 июня 2023 г.
  184. ^ «Технический отчет GPT-4» (PDF) . ОпенАИ . 2023. Архивировано (PDF) из оригинала 14 марта 2023 года . Проверено 14 марта 2023 г.
  185. Дей, Нолан (28 марта 2023 г.). «Cerebras-GPT: семейство открытых, эффективных в вычислениях больших языковых моделей». Церебрас .
  186. ^ «Находящаяся в Абу-Даби компания TII запускает собственную версию ChatGPT» . tii.ae .
  187. ^ Пенедо, Гильерме; Малартик, Квентин; Хесслоу, Дэниел; Кожокару, Руксандра; Каппелли, Алессандро; Алобейдли, Хамза; Паннье, Батист; Алмазруи, Эбтесам; Лоне, Жюльен (1 июня 2023 г.). «Набор данных RefinedWeb для Falcon LLM: превосходство курируемых корпораций с использованием веб-данных и только веб-данных». arXiv : 2306.01116 [cs.CL].
  188. ^ "tiiuae/falcon-40b · Обнимающее лицо" . Huggingface.co . 09.06.2023 . Проверено 20 июня 2023 г.
  189. ^ Falcon 40B из ОАЭ, лучшая в мире модель искусственного интеллекта от Института технологических инноваций, теперь доступна без лицензионных отчислений, 31 мая 2023 г.
  190. ^ Ву, Шицзе; Ирсой, Озан; Лу, Стивен; Добровольский, Вадим; Дредзе, Марк; Германн, Себастьян; Камбадур, Прабханджан; Розенберг, Дэвид; Манн, Гидеон (30 марта 2023 г.). «BloombergGPT: большая языковая модель для финансов». arXiv : 2303.17564 [cs.LG].
  191. ^ Рен, Сяочжэ; Чжоу, Пиньи; Мэн, Синьфан; Хуан, Синьцзин; Ван, Ядао; Ван, Вэйчао; Ли, Пэнфэй; Чжан, Сяода; Подольский, Александр; Аршинов, Григорий; Бут, Андрей; Пионтковская Ирина; Вэй, Цзяньшэн; Цзян, Синь; Су, Тэн; Лю, Цюнь; Яо, Цзюнь (19 марта 2023 г.). «PanGu-Σ: к языковой модели с триллионом параметров с разреженными гетерогенными вычислениями». arXiv : 2303.10845 [cs.CL].
  192. ^ Кёпф, Андреас; Килчер, Янник; фон Рютте, Дмитрий; Анагностидис, Сотирис; Там, Чжи-Жуй; Стивенс, Кейт; Бархум, Абдулла; Дык, Нгуен Минь; Стэнли, Оливер; Надьфи, Ричард; ES, Шахул; Сури, Самир; Глушков, Давид; Дантулури, Арнав; Магуайр, Эндрю (14 апреля 2023 г.). «Беседы OpenAssistant - демократизация согласования модели большого языка». arXiv : 2304.07327 [cs.CL].
  193. ^ Врубель, Шэрон. «Тель-Авивский стартап представляет новую продвинутую языковую модель искусственного интеллекта, способную конкурировать с OpenAI». www.timesofisrael.com . Проверено 24 июля 2023 г.
  194. ^ Виггерс, Кайл (13 апреля 2023 г.). «С Bedrock Amazon вступает в гонку генеративного искусственного интеллекта». ТехКранч . Проверено 24 июля 2023 г.
  195. ↑ аб Элиас, Дженнифер (16 мая 2023 г.). «Новейшая модель искусственного интеллекта Google использует для обучения почти в пять раз больше текстовых данных, чем ее предшественница». CNBC . Проверено 18 мая 2023 г.
  196. ^ «Представляем PaLM 2» . Google . 10 мая 2023 г.
  197. ^ ab «Представляем Llama 2: следующее поколение нашей модели большого языка с открытым исходным кодом». Мета ИИ . 2023 . Проверено 19 июля 2023 г.
  198. ^ "llama/MODEL_CARD.md на главной · мета-лама/лама" . Гитхаб . Проверено 28 мая 2024 г.
  199. ^ "Клод 2". антропный сайт . Проверено 12 декабря 2023 г.
  200. ^ «Анонсируем Мистраль 7Б». Мистраль . 2023 . Проверено 6 октября 2023 г.
  201. ^ «Представляем Клода 2.1». антропный сайт . Проверено 12 декабря 2023 г.
  202. ^ xai-org/grok-1, xai-org, 19 марта 2024 г. , получено 19 марта 2024 г.
  203. ^ "Карточка модели Грока-1" . х.ай. ​Проверено 12 декабря 2023 г.
  204. ^ "Близнецы - Google DeepMind" . deepmind.google . Проверено 12 декабря 2023 г.
  205. ^ Франзен, Карл (11 декабря 2023 г.). «Mistral шокирует сообщество искусственного интеллекта, поскольку последняя модель с открытым исходным кодом превосходит производительность GPT-3.5». ВенчурБит . Проверено 12 декабря 2023 г.
  206. ^ "Микстраль экспертов". мистраль.ай . 11 декабря 2023 г. Проверено 12 декабря 2023 г.
  207. ^ AI, Мистраль (17 апреля 2024 г.). «Дешевле, лучше, быстрее, сильнее». мистраль.ай . Проверено 5 мая 2024 г.
  208. ↑ Аб Хьюз, Алисса (12 декабря 2023 г.). «Фи-2: удивительная сила малых языковых моделей». Исследования Майкрософт . Проверено 13 декабря 2023 г.
  209. ^ «Наша модель следующего поколения: Gemini 1.5» . Google . 15 февраля 2024 г. Проверено 16 февраля 2024 г. Это означает, что 1.5 Pro может обрабатывать огромные объемы информации за один раз, включая 1 час видео, 11 часов аудио, кодовые базы с более чем 30 000 строк кода или более 700 000 слов. В ходе нашего исследования мы также успешно протестировали до 10 миллионов токенов.
  210. ^ «Джемма» - через GitHub.
  211. ^ «Представляем следующее поколение Клода». www.anthropic.com . Проверено 4 марта 2024 г.
  212. ^ "Fugaku-LLM/Fugaku-LLM-13B · Обнимающее лицо" . Huggingface.co . Проверено 17 мая 2024 г.
  213. ^ «Представляем Meta Llama 3: самый мощный из открытых источников LLM на сегодняшний день» . ai.meta.com . Проверено 9 мая 2024 г.
  214. Андрей Карпатий (18 апреля 2024 г.), На карточке модели есть и более интересная информация.
  215. ^ "llama3/MODEL_CARD.md на главной · мета-лама/llama3" . Гитхаб . Проверено 28 мая 2024 г.
  216. ^ "Фи-3". azure.microsoft.com . 23 апреля 2024 г. Проверено 28 апреля 2024 г.
  217. ^ "Документация модели Phi-3" . Huggingface.co . Проверено 28 апреля 2024 г.
  218. ^ "Квен2". Гитхаб .
  219. ^ "nvidia/Nemotron-4-340B-Base · Обнимающее лицо" . Huggingface.co . 14 июня 2024 г. Проверено 15 июня 2024 г.
  220. ^ "Немотрон-4 340B | Исследования" . исследование.nvidia.com . Проверено 15 июня 2024 г.

дальнейшее чтение