stringtranslate.com

Большая языковая модель

Большая языковая модель ( LLM ) — это языковая модель , отличающаяся способностью генерировать языки общего назначения. LLM приобретают эти способности, изучая статистические взаимосвязи из текстовых документов в ходе интенсивного вычислительного процесса обучения с самоконтролем и полуконтролем . [1] LLM — это искусственные нейронные сети , самые большие и наиболее производительные из которых построены на базе трансформаторной архитектуры. Некоторые недавние реализации основаны на других архитектурах, таких как варианты рекуррентных нейронных сетей и Mamba ( модель пространства состояний ). [2] [3] [4]

LLM можно использовать для генерации текста — формы генеративного искусственного интеллекта — путем взятия входного текста и многократного прогнозирования следующего токена или слова. [5] До 2020 года точная настройка была единственным способом адаптировать модель для выполнения конкретных задач. Однако модели большего размера, такие как GPT-3 , могут быть быстро спроектированы для достижения аналогичных результатов. [6] Считается, что они приобретают знания о синтаксисе, семантике и «онтологии», присущих корпусам человеческого языка, а также о неточностях и предвзятости, присутствующих в корпусах. [7]

Некоторые известные LLM — это серия моделей GPT OpenAI (например, GPT-3.5 и GPT-4 , используемые в ChatGPT и Microsoft Copilot ), PaLM и Gemini от Google (используемые в Bard ), семейство открытых моделей LLaMA от Meta . исходные модели и модели Claude от Anthropic .

История

Иллюстрация основных компонентов модели трансформатора из оригинальной статьи, где слои были нормализованы после (а не до) многоголового внимания.

На конференции NeurIPS 2017 года исследователи Google представили архитектуру трансформатора в своей знаковой статье « Внимание — это все, что вам нужно ». Целью этой статьи было улучшение технологии Seq2seq 2014 года [8] и она была основана главным образом на механизме внимания , разработанном Bahdanau et. ал. в 2014 году. [9] В следующем, 2018 году, BERT был представлен и быстро стал «повсеместным». [10] Хотя исходный преобразователь имеет блоки кодера и декодера, BERT представляет собой модель только для кодера.

Хотя GPT-1 , предназначенный только для декодера , был представлен в 2018 году, именно GPT-2 в 2019 году привлек всеобщее внимание, поскольку OpenAI сначала сочла его слишком мощным, чтобы публиковать его публично, из-за опасений злонамеренного использования. [11] GPT-3 в 2020 году пошел еще дальше и с 2024 года доступен только через API без предложения загрузки модели для локального выполнения. Но именно браузерный ChatGPT , ориентированный на потребителя в 2022 году , захватил воображение широких слоев населения и вызвал некоторую шумиху в СМИ и онлайн-ажиотаж. [12] GPT-4 2023 года получил высокую оценку за повышенную точность и как «Святой Грааль» за свои мультимодальные возможности. [13] OpenAI не раскрыл высокоуровневую архитектуру и количество параметров GPT-4.

Между тем, конкурирующие языковые модели по большей части догоняют серию GPT, по крайней мере, с точки зрения количества параметров. [14] Заметными исключениями с точки зрения количества параметров являются Google T5-11B 2019 года и PaLM-E 2022 года . По рейтингам Эло 26 января 2024 года Google Bard (Gemini Pro) превзошёл обычный GPT-4, но не ограниченно доступный GPT-4-Turbo. [15]

С 2022 года модели с доступными исходниками набирают популярность, особенно поначалу с BLOOM и LLaMA , хотя обе имеют ограничения по области использования. Модели Mistral AI Mistral 7B и Mixtral 8x7b имеют более либеральную лицензию Apache . По состоянию на январь 2024 года Mixtral 8x7b является самым мощным открытым LLM согласно таблице лидеров LMSYS Chatbot Arena: он более мощный, чем GPT-3.5, но не такой мощный, как GPT-4. [16]

Предварительная обработка набора данных

Вероятностная токенизация

Используя модификацию парного байтового кодирования , на первом этапе все уникальные символы (включая пробелы и знаки препинания ) обрабатываются как начальный набор n -грамм (т.е. начальный набор униграмм). Последовательно наиболее часто встречающаяся пара соседних символов объединяется в биграмму и все экземпляры пары заменяются ею. Все вхождения соседних пар (ранее объединенных) n -грамм, которые чаще всего встречаются вместе, затем снова многократно объединяются в еще более длинные n -граммы, пока не будет получен словарь заданного размера (в случае GPT-3 размер равен 50257). . [17] Словарь токенов состоит из целых чисел , начиная от нуля и заканчивая размером словаря токенов. Новые слова всегда можно интерпретировать как комбинации токенов и униграмм исходного набора. [18]

Словарь токенов, основанный на частотах, извлеченных в основном из корпусов английского языка, использует как можно меньше токенов для среднего английского слова. Однако среднее слово на другом языке, закодированное таким оптимизированным для английского языка токенизатором, разделяется на неоптимальное количество токенов.

tokenizer: texts -> series of numerical "tokens"можно разделить на:

Вероятностная токенизация также сжимает наборы данных, что является причиной использования алгоритма кодирования пар байтов в качестве токенизатора. Поскольку LLM обычно требует, чтобы входные данные представляли собой незубчатый массив , более короткие тексты должны быть «дополнены», пока они не совпадут с длиной самого длинного. Сколько токенов в среднем требуется на одно слово, зависит от языка набора данных. [19] [20]

Очистка набора данных

В контексте обучения LLM наборы данных обычно очищаются путем удаления из набора данных токсичных отрывков, удаления некачественных данных и дедупликации. [21] Очищенные наборы данных могут повысить эффективность обучения и привести к улучшению производительности последующих этапов. [22] [23]

С увеличением доли контента, созданного LLM, в сети очистка данных в будущем может включать фильтрацию такого контента. Контент, сгенерированный LLM, может создать проблему, если контент похож на человеческий текст (что затрудняет фильтрацию), но имеет более низкое качество (снижает производительность моделей, обученных на нем). [24]

Обучение и архитектура

Обучение с подкреплением на основе отзывов людей (RLHF)

Обучение с подкреплением на основе обратной связи с человеком (RLHF) с помощью таких алгоритмов, как оптимизация проксимальной политики , используется для дальнейшей точной настройки модели на основе набора данных о предпочтениях человека. [25]

Инструкция по настройке

Используя подходы «самообучения», LLM смогли получить правильные ответы, заменяя любые наивные ответы, начиная с исправлений нескольких случаев, внесенных человеком. Например, в инструкции «Написать сочинение на основные темы, представленные в «Гамлете»» первоначальным наивным завершением может быть «Если вы сдадите сочинение после 17 марта, ваша оценка будет снижена на 10% за каждый день просрочки». на основе частоты данной текстовой последовательности в корпусе [26] .

Смесь экспертов

Обучение и непосредственное использование крупнейшего LLM может быть слишком дорогим. Для таких моделей можно применить смесь экспертов (MoE) — направление исследований, проводимое исследователями Google с 2017 года для обучения моделей, охватывающих до 1 триллиона параметров. [27] [28] [29]

Быстрое проектирование, механизм внимания и контекстное окно

Большинство результатов, ранее достижимых только путем (дорогостоящей) тонкой настройки, могут быть достигнуты с помощью оперативного проектирования , хотя и ограничены рамками одного разговора (точнее, ограничены областью контекстного окна). [30]

Когда каждая голова вычисляет, согласно своим собственным критериям, сколько других токенов имеют отношение к токену «it_», обратите внимание, что вторая голова внимания, представленная вторым столбцом, больше всего концентрируется на первых двух строках, т.е. токенах « «» и «животное», тогда как в третьем столбце больше всего внимания уделяется двум нижним строкам, т.е. слову «устал», которое было разбито на два токена. [31]

Чтобы выяснить, какие токены релевантны друг другу в пределах контекстного окна, механизм внимания вычисляет «мягкие» веса для каждого токена, точнее, для его внедрения, используя несколько головок внимания, каждая из которых имеет свою собственную «релевантность». " для расчета собственных мягких весов. Например, небольшая (т.е. размер параметра 117M) модель GPT-2 имела двенадцать голов внимания и контекстное окно размером всего в 1 тыс. токенов. [32] В средней версии он имеет 345 миллионов параметров и содержит 24 слоя, каждый с 12 головами внимания. Для обучения с градиентным спуском использовался размер пакета 512. [18]

Самые большие модели могут иметь размер контекстного окна до 200к (например, Claude 2.1 ). [33] Другие модели с большими контекстными окнами включают GPT-4 Turbo с контекстным окном, вмещающим до 128 тыс. токенов. [34] Обратите внимание, что этот максимум относится к количеству входных токенов и что максимальное количество выходных токенов отличается от входных и часто меньше. Например, модель GPT-4 Turbo имеет максимальную мощность 4096 токенов. Кроме того, по состоянию на январь 2024 года GPT-4 Turbo для всех уровней обслуживания «в настоящее время находится на стадии предварительной версии с ограничительными ограничениями по скорости , которые делают их подходящими для тестирования и оценки, но не для производственного использования». [35]

Продолжительность разговора, которую модель может принять во внимание при формировании следующего ответа, также ограничена размером контекстного окна. Если продолжительность разговора, например, с Chat-GPT , превышает его контекстное окно, при генерации следующего ответа учитываются только части внутри контекстного окна, или модели необходимо применить некоторый алгоритм для суммирования слишком отдаленные части разговора.

К недостаткам увеличения контекстного окна относятся более высокие вычислительные затраты и, возможно, ослабление внимания к локальному контексту, тогда как его уменьшение может привести к тому, что модель упустит важную долгосрочную зависимость. Их балансировка — это вопрос экспериментов и соображений, специфичных для конкретной области.

Модель может быть предварительно обучена либо для прогнозирования продолжения сегмента, либо для прогнозирования того, чего в сегменте не хватает, учитывая сегмент из набора обучающих данных. [36] Это может быть либо

Модели можно обучать на вспомогательных задачах, которые проверяют их понимание распределения данных, таких как прогнозирование следующего предложения (NSP), в котором представлены пары предложений, и модель должна предсказать, будут ли они появляться последовательно в обучающем корпусе. [37] Во время обучения потеря регуляризации также используется для стабилизации обучения. Однако потери регуляризации обычно не используются во время тестирования и оценки.

Стоимость обучения

Достижения в области программного и аппаратного обеспечения существенно снизили затраты с 2020 года, так что в 2023 году стоимость обучения LLM с 12 миллиардами параметров составит 72 300 часов A100-GPU , а в 2020 году стоимость обучения LLM с 1,5 миллиардами параметров (что на два порядка меньше, чем в 2020 году) составляло от 80 тысяч до 1,6 миллиона долларов. [38] [39] [40] С 2020 года большие суммы инвестировались во все более крупные модели. Например, обучение GPT-2 (то есть модели с 1,5 миллиардами параметров) в 2019 году стоило 50 000 долларов, а обучение PaLM (то есть модели с 540 миллиардами параметров) в 2022 году стоило 8 миллионов долларов. [41]

Для LLM на основе трансформатора стоимость обучения намного выше, чем стоимость вывода. Обучение на одном токене стоит 6 флопов на каждый параметр, тогда как на вывод на одном токене уходит от 1 до 2 флопов на каждый параметр. [42]

Использование инструмента

Есть определенные задачи, которые в принципе не может решить ни один LLM, по крайней мере, без использования внешних инструментов или дополнительного программного обеспечения. Примером такой задачи является ответ на ввод пользователя «354 * 139 =», при условии, что LLM еще не встретил продолжение этого расчета в своем обучающем корпусе. В таких случаях LLM необходимо прибегнуть к запуску программного кода, вычисляющего результат, который затем может быть включен в его ответ. Другой пример: «Сколько сейчас время?» Это ', когда отдельный интерпретатор программы должен выполнить код, чтобы получить системное время на компьютере, чтобы LLM могла включить его в свой ответ. [43] [44] Эта базовая стратегия может быть усовершенствована с помощью нескольких попыток сгенерированных программ и других стратегий выборки. [45] Экономия затрат и снижение зависимости от поставщиков

Как правило, чтобы заставить LLM использовать инструменты, необходимо настроить его на использование инструментов. Если количество инструментов конечно, то точную настройку можно выполнить только один раз. Если количество инструментов может расти произвольно, как в случае с онлайн- сервисами API , то LLM можно настроить так, чтобы он мог читать документацию API и правильно вызывать API. [46] [47]

Более простой формой использования инструмента является поисковая расширенная генерация : дополнить LLM поиском документов , иногда с использованием векторной базы данных . По запросу вызывается средство извлечения документов для извлечения наиболее релевантных документов (обычно это измеряется путем сначала кодирования запроса и документов в векторы, а затем поиска документов с векторами, наиболее близкими по евклидовой норме к вектору запроса). Затем LLM генерирует выходные данные на основе запроса и полученных документов. [48]

Агентство

LLM — это языковая модель, которая не является агентом, поскольку не имеет цели, но может использоваться как компонент интеллектуального агента . [49] Исследователи описали несколько методов такой интеграции.

Метод ReAct («Причина + Действие») создает агента из LLM, используя LLM в качестве планировщика. LLM предлагается «думать вслух». В частности, языковая модель запрашивается с текстовым описанием окружающей среды, целью, списком возможных действий и записью действий и наблюдений на данный момент. Он генерирует одну или несколько мыслей, прежде чем генерировать действие, которое затем выполняется в окружающей среде. [50] Лингвистическое описание окружающей среды, данное планировщику LLM, может даже представлять собой код LaTeX статьи, описывающей окружающую среду. [51]

В методе DEPS («Описывать, объяснять, планировать и выбирать») LLM сначала подключается к визуальному миру посредством описаний изображений, затем ему предлагается составить планы для сложных задач и действий на основе предварительно подготовленных знаний и обратной связи с окружающей средой. получает. [52]

Метод рефлексии [53] создает агента, который обучается на протяжении нескольких эпизодов. В конце каждого эпизода LLM предоставляется запись эпизода и предлагается обдумать «извлеченные уроки», которые помогут ему лучше работать в следующем эпизоде. Эти «извлеченные уроки» передаются агенту в последующих эпизодах.

Поиск по дереву Монте-Карло может использовать LLM в качестве эвристики развертывания. Если программная модель мира недоступна, LLM также может быть предложено ввести описание среды, которая будет выступать в качестве модели мира. [54]

Для открытого исследования LLM можно использовать для оценки наблюдений на предмет их «интересности», что можно использовать в качестве сигнала вознаграждения для руководства обычным (не LLM) агентом обучения с подкреплением. [55] Альтернативно, он может предлагать все более сложные задачи для изучения учебной программы. [56] Вместо вывода отдельных действий планировщик LLM может также создавать «навыки» или функции для сложных последовательностей действий. Навыки можно сохранять и впоследствии использовать, что позволяет повысить уровень абстракции при планировании. [56]

Агенты на базе LLM могут хранить долговременную память о своих предыдущих контекстах, и эту память можно извлечь таким же способом, как и при извлечении дополненной генерации. Несколько таких агентов могут взаимодействовать социально. [57]

Сжатие

Обычно LLM обучается с помощью чисел с плавающей запятой полной или половинной точности (float32 и float16). Один float16 имеет 16 бит или 2 байта, поэтому для одного миллиарда параметров требуется 2 гигабайта. Самые крупные модели обычно имеют 100 миллиардов параметров, для загрузки которых требуется 200 гигабайт, что ставит их за пределы возможностей большинства бытовой электроники.

Квантование после обучения [58] направлено на уменьшение требований к пространству за счет снижения точности параметров обученной модели, сохраняя при этом большую часть ее производительности. [59] [60] Самая простая форма квантования просто усекает все числа до заданного количества бит. Его можно улучшить, используя разные кодовые книги квантования для каждого слоя. Дальнейшее улучшение может быть достигнуто путем применения различной точности к различным параметрам, с более высокой точностью для особенно важных параметров («выбросов веса»). [61]

Хотя квантованные модели обычно замораживаются и точной настройке подвергаются только предварительно квантованные модели, квантованные модели все равно можно точно настроить. [62]

Мультимодальность

Мультимодальность означает «наличие нескольких модальностей», а «модальность» относится к типу ввода или вывода, такому как видео, изображение, аудио, текст, проприоцепция и т. д. [63] Было создано множество моделей ИИ, специально обученных для приема одной модальности. модальность и выводить другую модальность, например AlexNet для изображения для метки, [64] визуальный ответ на вопрос для изображения-текста в тексте, [65] и распознавание речи для преобразования речи в текст.

Распространенный метод создания мультимодальных моделей на основе LLM — «токенизация» выходных данных обученного кодировщика. Конкретно, можно построить LLM, который может понимать изображения следующим образом: возьмите обученный LLM и возьмите обученный кодировщик изображений . Сделайте небольшой многослойный перцептрон , чтобы для любого изображения постобработанный вектор имел те же размеры, что и закодированный токен. Это «токен изображения». Затем можно чередовать текстовые токены и токены изображений. Затем составная модель настраивается на наборе данных изображения и текста. Эту базовую конструкцию можно применять с большей сложностью для улучшения модели. Кодер изображения можно заморозить для повышения стабильности. [66]

Flamingo продемонстрировал эффективность метода токенизации, настроив пару предварительно обученной языковой модели и кодировщика изображений, чтобы они лучше справлялись с визуальными ответами на вопросы, чем модели, обученные с нуля. [67] Модель Google PaLM была доработана до мультимодальной модели PaLM-E с использованием метода токенизации и применена к роботизированному управлению. [68] Модели LLaMA также стали мультимодальными с использованием метода токенизации, чтобы обеспечить ввод изображений, [69] и видеовходов. [70]

GPT-4 может использовать как текст, так и изображение в качестве входных данных [71] (хотя компонент изображения не был опубликован до GPT-4V [72] ); Gemini от Google DeepMind также является мультимодальным. [73]

Характеристики

Законы масштабирования

Следующие четыре гиперпараметра характеризуют LLM:

Они связаны простыми статистическими законами , называемыми «законами масштабирования». Один конкретный закон масштабирования (« Шиншилловое масштабирование ») для LLM, авторегрессионно обученного в течение одной эпохи, с логарифмическим графиком скорости обучения , гласит, что: [74]

и статистические гиперпараметры

Новые способности

В точках, называемых разрывами , [ 75] линии меняют свой наклон, появляясь на логарифмическом графике как серия линейных сегментов, соединенных дугами.

Если вычесть из оси Y наилучшую производительность, которая может быть достигнута даже при бесконечном масштабировании величины по оси X, производительность больших моделей, измеренная в различных задачах, кажется линейной экстраполяцией других (меньших размеров и среднего размера) производительность моделей на логарифмическом графике. Однако иногда наклон линии переходит от одного наклона к другому в точке(ях), называемой разрывом(ами) [75] в законах масштабирования ниже по течению, представляя собой серию линейных сегментов, соединенных дугами; кажется, что на этом этапе более крупные модели приобретают «новые способности». [30] [76] Эти способности обнаруживаются, а не программируются или разрабатываются, в некоторых случаях только после того, как LLM был публично развернут. [5]

Наиболее интригующей среди новых способностей является контекстное обучение на демонстрационных примерах. [77] Контекстное обучение предполагает решение таких задач, как:

Шеффер и др. ал. утверждают, что возникающие способности не приобретаются непредсказуемо, а предсказуемо приобретаются в соответствии с законом плавного масштабирования . Авторы рассмотрели игрушечную статистическую модель LLM, решающую вопросы с несколькими вариантами ответов, и показали, что эта статистическая модель, модифицированная для учета других типов задач, применима и к этим задачам. [83]

Пусть это количество параметров и производительность модели.

Интерпретация

Большие языковые модели сами по себе являются « черными ящиками », и неясно, как они могут выполнять лингвистические задачи. Существует несколько способов понять, как работает LLM.

Механистическая интерпретируемость направлена ​​на реверс-инжиниринг LLM путем открытия символических алгоритмов, которые аппроксимируют вывод, выполняемый LLM. Одним из примеров является Othello-GPT, где небольшой Трансформер обучен предсказывать законные ходы Отелло . Обнаружено, что существует линейное представление доски Отелло, и изменение этого представления меняет предсказанные законные ходы Отелло правильным образом. [84] [85] В другом примере небольшой Трансформер обучается на программах Karel . Как и в примере с Othello-GPT, существует линейное представление семантики программы Karel, и изменение представления меняет выходные данные правильным образом. Модель также генерирует правильные программы, которые в среднем короче программ в обучающей выборке. [86]

В другом примере авторы обучали небольшие преобразователи модульному арифметическому сложению . Полученные модели были подвергнуты реверс-инжинирингу, и оказалось, что они использовали дискретное преобразование Фурье . [87]

Понимание и интеллект

Исследователи НЛП разделились поровну, когда в опросе 2022 года их спросили, могут ли (ненастроенные) студенты магистратуры «(когда-либо) понимать естественный язык в каком-то нетривиальном смысле». [88] Сторонники «понимания LLM» считают, что некоторые способности LLM, такие как математические рассуждения, подразумевают способность «понимать» определенные концепции. В 2023 году команда Microsoft утверждала, что GPT-4 «может решать новые и сложные задачи, охватывающие математику, программирование, видение, медицину, право, психологию и многое другое» и что GPT-4 «можно разумно рассматривать как раннюю (но все еще неполную) версию ) версия системы искусственного общего интеллекта »: «Можно ли разумно сказать, что система, которая сдает экзамены для кандидатов в инженеры-программисты, на самом деле не интеллектуальна?» [89] [90] Некоторые исследователи характеризуют LLM как «инопланетный интеллект». [91] [92] Например, генеральный директор Conjecture Коннор Лихи считает, что ненастроенные LLM подобны непостижимым инопланетным « шогготам », и считает, что настройка RLHF создает «улыбающийся фасад», скрывающий внутреннюю работу LLM: «Если вы этого не сделаете, если зайти слишком далеко, смайлик останется. Но затем вы дадите ему [неожиданную] подсказку, и внезапно вы увидите это огромное подбрюшье безумия, странных мыслительных процессов и явно нечеловеческого понимания». [93] [94]

Напротив, некоторые сторонники школы «LLM не понимают» полагают, что существующие LLM «просто смешивают и рекомбинируют существующее письмо» [92] или указывают на дефицит существующих LLM в навыках прогнозирования, навыках рассуждения, агентности и объяснимость. [88] Например, GPT-4 имеет естественные недостатки в планировании и обучении в реальном времени. [90] Было замечено, что генеративные LLM уверенно заявляют о фактах, которые, по-видимому, не подтверждаются данными их обучения , - явление, которое было названо « галлюцинацией ». [95] В частности, галлюцинации в контексте LLM соответствуют генерации текста или ответов, которые кажутся синтаксически обоснованными, беглыми и естественными, но на самом деле являются неверными, бессмысленными или не соответствуют предоставленному исходному материалу. [96] Нейробиолог Терренс Сейновски утверждал, что «разные мнения экспертов по поводу интеллекта студентов-магистров предполагают, что наши старые идеи, основанные на естественном интеллекте, неадекватны». [88]

Вопрос о том, как LLM демонстрирует интеллект или понимание, имеет два основных аспекта: первый — это то, как моделировать мышление и язык в компьютерной системе, а второй — как позволить компьютерной системе генерировать язык, подобный человеческому. [88] Эти аспекты языка как модели познания были разработаны в области когнитивной лингвистики . Американский лингвист Джордж Лакофф представил нейронную теорию языка (NTL) [97] как вычислительную основу для использования языка в качестве модели задач обучения и понимания. Модель NTL описывает, как конкретные нейронные структуры человеческого мозга формируют природу мышления и языка и, в свою очередь, каковы вычислительные свойства таких нейронных систем, которые можно применять для моделирования мышления и языка в компьютерной системе. После того, как была создана основа моделирования языка в компьютерных системах, акцент сместился на создание рамок для компьютерных систем, позволяющих генерировать язык с приемлемой грамматикой. В своей книге 2014 года под названием «Языковой миф: почему язык не является инстинктом» британский когнитивный лингвист и технолог цифровых коммуникаций Вивиан Эванс наметил роль вероятностной контекстно-свободной грамматики (PCFG), позволяющей НЛП моделировать когнитивные шаблоны и генерировать человекоподобный язык. . [98] [99]

Оценка

Растерянность

Наиболее часто используемой мерой производительности языковой модели является ее сложность в данном текстовом корпусе. Недоумение — это мера того, насколько хорошо модель способна предсказать содержимое набора данных; чем выше вероятность, которую модель присваивает набору данных, тем меньше недоумение. Математически недоумение определяется как экспонента средней отрицательной логарифмической вероятности на токен:

Поскольку языковые модели могут не соответствовать обучающим данным, модели обычно оцениваются по степени их недоумения на тестовом наборе невидимых данных. [37] Это создает особые проблемы для оценки больших языковых моделей. Поскольку они обучаются на все более крупных массивах текста, в основном извлеченных из Интернета, становится все более вероятным, что данные обучения моделей непреднамеренно включают части любого заданного набора тестов. [6]

BPW, BPC и BPT

В теории информации концепция энтропии неразрывно связана с недоумением, связь, установленная Клодом Шенноном . [100] Эта зависимость математически выражается как .

Энтропия в этом контексте обычно выражается количественно в битах на слово (BPW) или битах на символ (BPC), что зависит от того, использует ли языковая модель токенизацию на основе слов или символов.

Примечательно, что в случае более крупных языковых моделей, в которых преимущественно используется токенизация подслов, бит на токен (BPT), по-видимому, является более подходящей мерой. Однако из-за различий в методах токенизации в разных моделях большого языка (LLM) BPT не может служить надежным показателем для сравнительного анализа различных моделей. Чтобы преобразовать BPT в BPW, его можно умножить на среднее количество токенов в слове.

При оценке и сравнении языковых моделей перекрестная энтропия обычно является более предпочтительным показателем, чем энтропия. Основной принцип заключается в том, что более низкое значение BPW указывает на расширенные возможности модели по сжатию. Это, в свою очередь, отражает умение модели делать точные прогнозы.

Наборы данных и тесты для конкретных задач

Также было разработано большое количество тестовых наборов данных и тестов для оценки возможностей языковых моделей для решения более конкретных последующих задач. Тесты могут быть разработаны для оценки различных способностей, включая общие знания, здравое рассуждение и решение математических задач.

Одной из широких категорий наборов оценочных данных являются наборы данных с ответами на вопросы, состоящие из пар вопросов и правильных ответов, например («Выиграли ли «Сан-Хосе Шаркс» Кубок Стэнли?», «Нет»). [101] Задача ответа на вопрос считается «открытой книгой», если подсказка модели включает текст, из которого можно получить ожидаемый ответ (например, к предыдущему вопросу может быть добавлен текст, включающий предложение «Акулы продвинулись к один раз в финале Кубка Стэнли, проиграв «Питтсбург Пингвинз» в 2016 году». [101] ). В противном случае задача считается «закрытой книгой», и модель должна опираться на знания, полученные во время обучения. [102] Некоторые примеры часто используемых наборов данных для ответов на вопросы включают TruthfulQA, Web Questions, TriviaQA и SQuAD. [102]

Наборы оценочных данных также могут принимать форму завершения текста: модель выбирает наиболее подходящее слово или предложение для завершения подсказки, например: «Алиса дружила с Бобом. Алиса пошла навестить своего друга ____». [6]

Также были разработаны некоторые комплексные критерии, которые сочетают в себе множество различных наборов оценочных данных и задач. Примеры включают GLUE, SuperGLUE, MMLU, BIG-bench и HELM. [103] [102]

Раньше было стандартным сообщать результаты по отложенной части набора оценочных данных после выполнения контролируемой точной настройки оставшейся части. Сейчас более распространено оценивать предварительно обученную модель напрямую с помощью методов подсказки, хотя исследователи различаются в деталях того, как они формулируют подсказки для конкретных задач, особенно в отношении того, сколько примеров решенных задач прилагается к подсказке (т.е. значение n в подсказке n -shot).

Состязательно построенные оценки

Из-за быстрых темпов совершенствования больших языковых моделей тесты оценки имеют короткую продолжительность жизни, при этом современные модели быстро «насыщают» существующие тесты, превосходя производительность людей-аннотаторов, что приводит к попыткам заменить или дополнить тест более сложные задачи. [104] Кроме того, существуют случаи «быстрого обучения», когда ИИ иногда «обманывают» в тестах с множественным выбором, используя статистические корреляции в поверхностных формулировках тестовых вопросов, чтобы угадать правильные ответы, без обязательного понимания фактического задаваемого вопроса. . [88]

Некоторые наборы данных были построены состязательно, с упором на конкретные проблемы, в решении которых существующие языковые модели кажутся необычайно плохими по сравнению с людьми. Одним из примеров является набор данных TruthfulQA, набор данных с ответами на вопросы, состоящий из 817 вопросов, на которые языковые модели склонны давать неправильные ответы, имитируя ложь, с которой они неоднократно сталкивались во время обучения. Например, степень магистра права может ответить «Нет» на вопрос «Можете ли вы научить старую собаку новым трюкам?» из-за того, что она подвержена английской идиоме, вы не сможете научить старую собаку новым трюкам , хотя это не совсем так. [105]

Другим примером набора данных состязательной оценки является Swag и его преемник HellaSwag, наборы задач, в которых для завершения отрывка текста необходимо выбрать один из нескольких вариантов. Неправильные дополнения были получены путем выборки из языковой модели и фильтрации с помощью набора классификаторов. Возникающие в результате проблемы тривиальны для людей, но на момент создания наборов данных современные языковые модели имели низкую точность. Например:

Видим вывеску фитнес-центра. Затем мы видим мужчину, разговаривающего с камерой, сидящего и лежащего на мяче для упражнений. Мужчина...
а) демонстрирует, как повысить эффективность физических упражнений, бегая по мячам вверх и вниз.
б) двигает всеми руками и ногами и наращивает много мышц.
в) затем играет в мяч, и мы видим графику и демонстрацию обрезки живой изгороди.
г) выполняет приседания, находясь на мяче и разговаривая. [106]

BERT выбирает b) как наиболее вероятное завершение, хотя правильный ответ — d). [106]

Более широкое воздействие

В 2023 году журнал Nature Biomedical Engineering написал, что «больше невозможно точно отличить» написанный человеком текст от текста, созданного с помощью больших языковых моделей, и что «почти наверняка, что большие языковые модели общего назначения будут быстро распространяться. ... Можно с уверенностью сказать, что со временем они изменят многие отрасли». [107] В 2023 году Goldman Sachs предположил, что генеративный языковой ИИ может увеличить мировой ВВП на 7% в ближайшие десять лет и может привести к автоматизации 300 миллионов рабочих мест по всему миру. [108] [109]

Авторские права

Запоминание — это возникающее поведение в LLM, в котором длинные строки текста иногда дословно выводятся из обучающих данных, в отличие от типичного поведения традиционных искусственных нейронных сетей. Оценки контролируемых результатов LLM измеряют объем, запомненный из обучающих данных (с акцентом на модели серии GPT-2), по-разному: более 1% для точных дубликатов [110] или примерно до 7%. [111]

Безопасность

Некоторые комментаторы выразили обеспокоенность по поводу случайного или преднамеренного создания дезинформации или других форм неправильного использования. [112] Например, наличие больших языковых моделей может снизить уровень навыков, необходимых для совершения биотерроризма; Исследователь биобезопасности Кевин Эсвелт предложил создателям LLM исключить из своих учебных материалов материалы по созданию или усилению патогенов. [113]

Исследование, проведенное исследователями Google и нескольких университетов, в том числе Корнельского университета и Калифорнийского университета в Беркли , показало, что существуют потенциальные угрозы безопасности в таких языковых моделях, как ChatGPT . В своем исследовании они изучили возможность того, что спрашивающие могут получить из ChatGPT данные обучения, которые использовала модель ИИ; они обнаружили, что могут получить обучающие данные из модели ИИ. Например, попросив ChatGPT 3.5 турбо вечно повторять слово «стихотворение», модель ИИ будет говорить «стихотворение» сотни раз, а затем расходиться, отклоняясь от стандартного стиля диалога и выплескивая бессмысленные фразы, выплескивая таким образом обучающие данные. как есть. Исследователи видели более 10 000 примеров модели ИИ, предоставляющей данные обучения аналогичным методом. Исследователи заявили, что трудно сказать, действительно ли модель ИИ безопасна или нет. [114]

Потенциальное присутствие «спящих агентов» в моделях LLM является еще одной новой проблемой безопасности. Это скрытые функции, встроенные в модель, которые остаются бездействующими до тех пор, пока не будут активированы определенным событием или условием. После активации LLM отклоняется от ожидаемого поведения и совершает небезопасные действия. [115]

Алгоритмическое смещение

Хотя LLM продемонстрировали замечательные возможности в создании текста, похожего на человеческий, они подвержены наследованию и усилению систематических ошибок, присутствующих в их обучающих данных. Это может проявляться в искаженном представлении или несправедливом обращении с различными демографическими группами, например, на основе расы, пола, языка и культурных групп. [116] Поскольку данные на английском языке слишком представлены в обучающих данных текущих крупных языковых моделей, это также может преуменьшать значение неанглоязычных представлений. [117]

Стереотипирование

Модели ИИ могут усилить широкий спектр стереотипов, в том числе основанных на поле, этнической принадлежности, возрасте, национальности, религии или профессии. Это может привести к результатам, которые несправедливо обобщают или карикатурно изображают группы людей, иногда вредными или уничижительными способами. [118]

Примечательно, что гендерная предвзятость означает тенденцию этих моделей давать результаты, которые несправедливо предвзято относятся к одному полу по сравнению с другим. Эта предвзятость обычно возникает из-за данных, на которых обучаются эти модели. Большие языковые модели часто назначают роли и характеристики на основе традиционных гендерных норм. [116] Например, медсестры или секретари могут ассоциироваться преимущественно с женщинами, а инженеры или генеральные директора — с мужчинами. [119]

Политическая предвзятость

Политическая предвзятость означает тенденцию алгоритмов систематически отдавать предпочтение определенным политическим точкам зрения, идеологиям или результатам перед другими. Языковые модели могут также проявлять политическую предвзятость. Поскольку данные обучения включают широкий спектр политических взглядов и охвата, модели могут генерировать ответы, склоняющиеся к конкретным политическим идеологиям или точкам зрения, в зависимости от преобладания этих взглядов в данных. [120]

Список

Для столбца стоимости обучения 1 петафлопс-день = 1 петафлопс/сек × 1 день = 8,64E19 флоп.

Смотрите также

Примечания

  1. ^ Это дата, когда была впервые выпущена документация, описывающая архитектуру модели.
  2. ^ Во многих случаях исследователи публикуют или сообщают о нескольких версиях модели разных размеров. В этих случаях здесь указан размер самой большой модели.
  3. ^ Это лицензия на предварительно обученные веса модели. Почти во всех случаях сам обучающий код имеет открытый исходный код или может быть легко воспроизведен.
  4. ^ Меньшие модели, включая 66B, общедоступны, а модель 175B доступна по запросу.
  5. ^ Схема лицензирования и распространения Facebook ограничила доступ утвержденным исследователям, но веса моделей просочились и стали широко доступны.
  6. ^ Как указано в техническом отчете: «Учитывая как конкурентную среду, так и последствия для безопасности крупномасштабных моделей, таких как GPT-4, этот отчет не содержит дополнительных подробностей об архитектуре (включая размер модели), аппаратном обеспечении, обучающих вычислениях, построении набора данных, метод тренировки...» [169]

Рекомендации

  1. ^ «Лучшие языковые модели и их последствия». ОпенАИ . 14 февраля 2019 г. Архивировано из оригинала 19 декабря 2020 г. Проверено 25 августа 2019 г.
  2. ^ Пэн, Бо; и другие. (2023). «RWKV: новое изобретение RNNS для эры трансформаторов». arXiv : 2305.13048 [cs.CL].
  3. ^ Мерритт, Рик (25 марта 2022 г.). «Что такое модель-трансформер?». Блог NVIDIA . Проверено 25 июля 2023 г.
  4. ^ Гу, Альберт; Дао, Три (01 декабря 2023 г.), Мамба: моделирование линейно-временных последовательностей с выборочными пространствами состояний , arXiv : 2312.00752
  5. ^ аб Боуман, Сэмюэл Р. (2023). «Восемь вещей, которые нужно знать о больших языковых моделях». arXiv : 2304.00612 [cs.CL].
  6. ^ abc Браун, Том Б.; Манн, Бенджамин; Райдер, Ник; Суббия, Мелани; Каплан, Джаред; Дхаривал, Прафулла; Нилакантан, Арвинд; Шьям, Пранав; Састри, Гириш; Аскелл, Аманда; Агарвал, Сандхини; Герберт-Восс, Ариэль; Крюгер, Гретхен; Хениган, Том; Дитя, Ревон; Рамеш, Адитья; Зиглер, Дэниел М.; Ву, Джеффри; Зима, Клеменс; Гессен, Кристофер; Чен, Марк; Сиглер, Эрик; Литвин, Матеуш; Грей, Скотт; Шахматы, Бенджамин; Кларк, Джек; Бернер, Кристофер; МакКэндлиш, Сэм; Рэдфорд, Алек; Суцкевер, Илья; Амодей, Дарио (декабрь 2020 г.). Ларошель, Х.; Ранзато, М.; Хадселл, Р.; Балкан, МФ; Лин, Х. (ред.). «Языковые модели мало кто изучает» (PDF) . Достижения в области нейронных систем обработки информации . Curran Associates, Inc. 33 : 1877–1901.
  7. ^ аб Мэннинг, Кристофер Д. (2022). «Понимание и рассуждение человеческого языка». Дедал . 151 (2): 127–138. дои : 10.1162/daed_a_01905 . S2CID  248377870.
  8. ^ Васвани, Ашиш ; Шазир, Ноам; Пармар, Ники; Ушкорейт, Якоб; Джонс, Лион; Гомес, Эйдан Н ; Кайзер, Лукаш; Полосухин, Илья (2017). «Внимание — это все, что вам нужно» (PDF) . Достижения в области нейронных систем обработки информации . Карран Ассошиэйтс, Инк. 30 .
  9. ^ Богданов, Дмитрий; Чо, Кёнхён; Бенджио, Йошуа (2014). «Нейронный машинный перевод путем совместного обучения выравниванию и переводу». arXiv : 1409.0473 [cs.CL].
  10. ^ Роджерс, Анна; Ковалева, Ольга; Румшиский, Анна (2020). «Букварь по BERTологии: что мы знаем о том, как работает BERT». Труды Ассоциации компьютерной лингвистики . 8 : 842–866. arXiv : 2002.12327 . дои : 10.1162/tacl_a_00349. S2CID  211532403.
  11. Херн, Алекс (14 февраля 2019 г.). «Новый генератор фальшивых текстов с использованием искусственного интеллекта может оказаться слишком опасным, чтобы его выпускать, — говорят создатели». Хранитель . Проверено 20 января 2024 г.
  12. ^ «ChatGPT год спустя: 3 способа, которыми чат-бот с искусственным интеллектом полностью изменил мир за 12 месяцев» . Евроньюс . 30 ноября 2023 г. . Проверено 20 января 2024 г.
  13. Небеса, Уилл (14 марта 2023 г.). «GPT-4 больше и лучше, чем ChatGPT, но OpenAI не говорит, почему». Обзор технологий Массачусетского технологического института . Проверено 20 января 2024 г.
  14. ^ «Параметры известных систем искусственного интеллекта» . Ourworldindata.org . 30 ноября 2023 г. . Проверено 20 января 2024 г.
  15. ^ «Google Gemini Pro превосходит GPT-4» . www.analyticsindiamag.com . 27 января 2024 г. . Проверено 29 января 2024 г.
  16. ^ "Таблица лидеров арены чат-ботов LMSYS" . Huggingface.co . Проверено 20 января 2024 г.
  17. ^ «API OpenAI». платформа.openai.com . Архивировано из оригинала 23 апреля 2023 года . Проверено 30 апреля 2023 г.
  18. ^ аб Паас, Герхард; Гиссельбах, Свен (2022). «Предварительно обученные языковые модели». Базовые модели обработки естественного языка . Искусственный интеллект: основы, теория и алгоритмы. стр. 19–78. дои : 10.1007/978-3-031-23190-2_2. ISBN 9783031231902. Проверено 3 августа 2023 г.
  19. ^ Йенни Джун (3 мая 2023 г.). «Все языки НЕ созданы (токенизированы) равными». Языковые модели на некоторых языках стоят гораздо дороже, чем на других . Проверено 17 августа 2023 г. Другими словами, для выражения одного и того же чувства в некоторых языках требуется в 10 раз больше токенов.
  20. ^ Петров, Александр; Мальфа, Эмануэле Ла; Торр, Филип; Биби, Адель (23 июня 2023 г.). «Токенизаторы языковых моделей вводят несправедливость между языками». НейриПС . arXiv : 2305.15425 – через openreview.net.
  21. ^ Додж, Джесси; Сап, Мартен; Марасович, Ана; Агнью, Уильям; Ильхарко, Габриэль; Груневельд, Дирк; Митчелл, Маргарет; Гарднер, Мэтт (2021). «Документирование больших веб-текстовых корпораций: пример колоссального чистого просканированного корпуса». arXiv : 2104.08758 [cs.CL].
  22. ^ Ли, Кэтрин; Ипполито, Дафна; Нистром, Эндрю; Чжан, Чиюань; Эк, Дуглас; Каллисон-Берч, Крис; Карлини, Николас (май 2022 г.). «Дедупликация обучающих данных делает языковые модели лучше» (PDF) . Материалы 60-го ежегодного собрания Ассоциации компьютерной лингвистики . 1: Длинные статьи: 8424–8445. doi : 10.18653/v1/2022.acl-long.577.
  23. ^ Ли, Юаньчжи; Бубек, Себастьен; Эльдан, Ронен; Дель Джорно, Элли; Гунасекар, Сурия; Ли, Инь Тат (11 сентября 2023 г.), Учебники - все, что вам нужно II: технический отчет phi-1.5, arXiv : 2309.05463 , получено 20 января 2024 г.
  24. ^ Браун, Том Б.; и другие. (2020). «Языковые модели изучаются немногими». arXiv : 2005.14165 [cs.CL].
  25. ^ Оуян, Лонг; Ву, Джефф; Цзян, Сюй; Алмейда, Диого; Уэйнрайт, Кэрролл Л.; Мишкин, Памела; Чжан, Чонг; Агарвал, Сандхини; Слама, Катарина; Рэй, Алекс; Шульман, Джон; Хилтон, Джейкоб; Келтон, Фрейзер; Миллер, Люк; Сименс, Мэдди; Аскелл, Аманда; Велиндер, Питер; Кристиано, Пол; Лейке, Ян; Лоу, Райан (2022). «Обучение языковых моделей следованию инструкциям с обратной связью от человека». arXiv : 2203.02155 [cs.CL].
  26. ^ Ван, Ичжун; Корди, Йегане; Мишра, Сваруп; Лю, Алиса; Смит, Ной А.; Хашаби, Дэниел; Хаджиширзи, Ханнане (2022). «Самообучение: согласование языковой модели с самостоятельно сгенерированными инструкциями». arXiv : 2212.10560 [cs.CL].
  27. ^ Шазир, Ноам; Мирхосейни, Азалия; Мазиарц, Кшиштоф; Дэвис, Энди; Ле, Куок; Хинтон, Джеффри; Дин, Джефф (01 января 2017 г.). «Невероятно большие нейронные сети: редкий слой смешанных экспертов». arXiv : 1701.06538 [cs.LG].
  28. ^ Лепихин, Дмитрий; Ли, Хёкджун; Сюй, Юаньчжун; Чен, Дехао; Фират, Орхан; Хуан, Яньпин; Крикун, Максим; Шазир, Ноам; Чен, Чжифэн (12 января 2021 г.). «GShard: масштабирование гигантских моделей с помощью условных вычислений и автоматического сегментирования». arXiv : 2006.16668 [cs.CL].
  29. ^ abcd Dai, Эндрю М; Ду, Нан (9 декабря 2021 г.). «Более эффективное контекстное обучение с GLaM». ai.googleblog.com . Проверено 9 марта 2023 г.
  30. ^ abc Вэй, Джейсон; Тай, Йи; Боммасани, Риши; Раффель, Колин; Зоф, Баррет; Боржо, Себастьян; Йогатама, Дэни; Босма, Мартен; Чжоу, Денни; Мецлер, Дональд; Чи, Эд Х.; Хасимото, Тацунори; Виньялс, Ориол; Лян, Перси; Дин, Джефф; Федус, Уильям (31 августа 2022 г.). «Новые возможности больших языковых моделей». Труды по исследованиям машинного обучения . ISSN  2835-8856.
  31. ^ Алламар, Джей. «Иллюстрированный трансформер» . Проверено 29 июля 2023 г.
  32. ^ Алламар, Джей. «Иллюстрированный GPT-2 (визуализация языковых моделей трансформеров)» . Проверено 1 августа 2023 г.
  33. ^ «Длинные контекстные подсказки для Клода 2.1» . 6 декабря 2023 г. . Проверено 20 января 2024 г.
  34. ^ Шаде, Майкл. «GPT-4 Turbo: Наша последняя модель» . Проверено 20 января 2024 г.
  35. ^ «Ограничения ставок» . openai.com . Проверено 20 января 2024 г.
  36. ^ Заиб, Мунацца; Шэн, Цюань Цз.; Эмма Чжан, Вэй (4 февраля 2020 г.). «Краткий обзор предварительно обученных языковых моделей для разговорного ИИ – новый век в НЛП». Материалы мультиконференции Австралазийской недели информатики . стр. 1–4. arXiv : 2104.10810 . дои : 10.1145/3373017.3373028. ISBN 9781450376976. S2CID  211040895.
  37. ^ abc Джурафски, Дэн; Мартин, Джеймс Х. (7 января 2023 г.). Обработка речи и языка (PDF) (3-е издание, черновой вариант) . Проверено 24 мая 2022 г.
  38. ↑ Аб Виггерс, Кайл (28 апреля 2022 г.). «Новые типы языковых моделей и почему они имеют значение». ТехКранч .
  39. ^ Шарир, Ор; Пелег, Барак; Шохам, Йоав (2020). «Стоимость обучения моделей НЛП: краткий обзор». arXiv : 2004.08900 [cs.CL].
  40. ^ Бидерман, Стелла; Шелькопф, Хейли; Энтони, Квентин; Брэдли, Херби; Хан, Мохаммед Афла; Пурохит, Шиваншу; Прашант, USVSN Сай (апрель 2023 г.). «Pythia: пакет для анализа больших языковых моделей при обучении и масштабировании». arXiv : 2304.01373 [cs.CL].
  41. Винсент, Джеймс (3 апреля 2023 г.). «ИИ вступает в эпоху корпоративного контроля». Грань . Проверено 19 июня 2023 г.
  42. ^ ab Раздел 2.1 и Таблица 1, Каплан, Джаред; МакКэндлиш, Сэм; Хениган, Том; Браун, Том Б.; Шахматы, Бенджамин; Дитя, Ревон; Грей, Скотт; Рэдфорд, Алек; Ву, Джеффри; Амодей, Дарио (2020). «Законы масштабирования для моделей нейронного языка». arXiv : 2001.08361 [cs.LG].
  43. ^ Гао, Лую; Мадаан, Аман; Чжоу, Шуян; Алон, Ури; Лю, Пэнфэй; Ян, Имин; Каллан, Джейми; Нойбиг, Грэм (1 ноября 2022 г.). «PAL: Программные языковые модели». arXiv : 2211.10435 [cs.CL].
  44. ^ «PAL: Программные языковые модели» . ReasonwithPal.com . Проверено 12 июня 2023 г.
  45. ^ Паранджапе, Бхаргави; Лундберг, Скотт; Сингх, Самир; Хаджиширзи, Ханнане; Зеттлмойер, Люк; Тулио Рибейро, Марко (01 марта 2023 г.). «ART: Автоматическое многоэтапное рассуждение и использование инструментов для больших языковых моделей». arXiv : 2303.09014 [cs.CL].
  46. ^ Лян, Яобо; Ву, Чэньфэй; Сонг, Тинг; У, Вэньшань; Ся, Ян; Лю, Ю; Оу, Ян; Лу, Шуай; Цзи, Лей; Мао, Шаогуан; Ван, Юн; Шоу, Линцзюнь; Гонг, Мин; Дуань, Нань (01 марта 2023 г.). «TaskMatrix.AI: выполнение задач путем соединения базовых моделей с миллионами API». arXiv : 2303.16434 [cs.AI].
  47. ^ Патил, Шишир Г.; Чжан, Тяньцзюнь; Ван, Синь; Гонсалес, Джозеф Э. (01 мая 2023 г.). «Горилла: большая языковая модель, связанная с массивными API». arXiv : 2305.15334 [cs.CL].
  48. ^ Льюис, Патрик; Перес, Итан; Пиктус, Александра; Петрони, Фабио; Карпухин Владимир; Гоял, Наман; Кюттлер, Генрих; Льюис, Майк; Йи, Вен-тау; Роктешель, Тим; Ридель, Себастьян; Киела, Доуве (2020). «Расширенная поисковая генерация для наукоемких задач НЛП». Достижения в области нейронных систем обработки информации . Curran Associates, Inc. 33 : 9459–9474. arXiv : 2005.11401 .
  49. ^ Хуан, Вэньлун; Аббель, Питер; Патак, Дипак; Мордач, Игорь (28 июня 2022 г.). «Языковые модели как планировщики с нулевым выстрелом: извлечение практических знаний для воплощенных агентов». Материалы 39-й Международной конференции по машинному обучению . ПМЛР: 9118–9147. arXiv : 2201.07207 .
  50. ^ Яо, Шуньюй; Чжао, Джеффри; Ю, Дайан; Ду, Нэн; Шафран, Ицхак; Нарасимхан, Картик; Цао, Юань (01 октября 2022 г.). «ReAct: синергия рассуждений и действий в языковых моделях». arXiv : 2210.03629 [cs.CL].
  51. ^ Ву, Юэ; Прабхумойе, Шримаи; Мин Со Ён (24 мая 2023 г.). «ВЕСНА: GPT-4 превосходит алгоритмы RL при изучении статей и рассуждениях». arXiv : 2305.15486 [cs.AI].
  52. ^ Ван, Цзихао; Цай, Шаофэй; Лю, Анжи; Ма, Сяоцзянь; Лян, Итао (3 февраля 2023 г.). «Описывать, объяснять, планировать и выбирать: интерактивное планирование с использованием больших языковых моделей позволяет использовать многозадачные агенты в открытом мире». arXiv : 2302.01560 [cs.AI].
  53. ^ Шинн, Ной; Кассано, Федерико; Лабаш, Бек; Гопинатх, Ашвин; Нарасимхан, Картик; Яо, Шуньюй (01 марта 2023 г.). «Рефлексия: языковые агенты с вербальным подкреплением». arXiv : 2303.11366 [cs.AI].
  54. ^ Хао, Сибо; Гу, Йи; Ма, Хаоди; Цзяхуа Хун, Джошуа; Ван, Чжэнь; Чжэ Ван, Дейзи; Ху, Чжитинг (01 мая 2023 г.). «Рассуждение с помощью языковой модели — это планирование с помощью модели мира». arXiv : 2305.14992 [cs.CL].
  55. ^ Чжан, Дженни; Леман, Джоэл; Стэнли, Кеннет; Клюн, Джефф (2 июня 2023 г.). «OMNI: открытость через модели человеческих представлений об интересе». arXiv : 2306.01711 [cs.AI].
  56. ^ ab «Вояджер | Открытый воплощенный агент с большими языковыми моделями». voyager.minedojo.org . Проверено 9 июня 2023 г.
  57. ^ Пак, Джун Сон; О'Брайен, Джозеф К.; Кай, Кэрри Дж.; Рингел Моррис, Мередит; Лян, Перси; Бернштейн, Майкл С. (01 апреля 2023 г.). «Генераторные агенты: интерактивные симулякры человеческого поведения». arXiv : 2304.03442 [cs.HC].
  58. ^ Нагель, Маркус; Амджад, Рана Али; Баален, Март Ван; Луисос, Христос; Бланкеворт, Теймен (21 ноября 2020 г.). «Вверх или вниз? Адаптивное округление для квантования после обучения». Материалы 37-й Международной конференции по машинному обучению . ПМЛР: 7197–7206.
  59. ^ Полино, Антонио; Пашкану, Разван; Алистарх, Дэн (01 февраля 2018 г.). «Сжатие модели посредством дистилляции и квантования». arXiv : 1802.05668 [cs.NE].
  60. ^ Франтар, Элиас; Ашкбус, Салех; Хефлер, Торстен; Алистарх, Дэн (01 октября 2022 г.). «GPTQ: точное квантование после обучения для генеративных предварительно обученных трансформаторов». arXiv : 2210.17323 [cs.LG].
  61. ^ Деттмерс, Тим; Свирщевский, Руслан; Егиазарян, Ваге; Кузнеделев Денис; Франтар, Элиас; Ашкбус, Салех; Борзунов, Александр; Хефлер, Торстен; Алистарх, Дэн (01 июня 2023 г.). «SpQR: разреженное квантованное представление для сжатия веса LLM практически без потерь». arXiv : 2306.03078 [cs.CL].
  62. ^ Деттмерс, Тим; Паньони, Артидоро; Хольцман, Ари ; Зеттлмойер, Люк (01 мая 2023 г.). «QLoRA: эффективная точная настройка квантованных LLM». arXiv : 2305.14314 [cs.LG].
  63. ^ Кирос, Райан; Салахутдинов Руслан; Земель, Рич (18 июня 2014 г.). «Мультимодальные модели нейронного языка». Материалы 31-й Международной конференции по машинному обучению . ПМЛР: 595–603.
  64. ^ Крижевский, Алекс; Суцкевер, Илья; Хинтон, Джеффри Э (2012). «Классификация ImageNet с глубокими сверточными нейронными сетями». Достижения в области нейронных систем обработки информации . Карран Ассошиэйтс, Инк. 25 .
  65. ^ Антол, Станислав; Агравал, Айшвария; Лу, Цзясэн; Митчелл, Маргарет; Батра, Дхрув; Зитник, К. Лоуренс; Парих, Деви (2015). «VQA: Визуальный ответ на вопрос». ICCV : 2425–2433.
  66. ^ Ли, Джуннан; Ли, Дунсюй; Саварезе, Сильвио; Хой, Стивен (1 января 2023 г.). «BLIP-2: Начальная подготовка языка-изображения с помощью кодировщиков замороженных изображений и больших языковых моделей». arXiv : 2301.12597 [cs.CV].
  67. ^ Алайрак, Жан-Батист; Донахью, Джефф; Люк, Полина; Миш, Антуан; Барр, Иэн; Хассон, Яна; Ленц, Карел; Менш, Артур; Милликан, Кэтрин; Рейнольдс, Малькольм; Кольцо, Роман; Резерфорд, Элиза; Каби, Серкан; Хан, Тенгда; Гун, Чжитао (06 декабря 2022 г.). «Фламинго: модель визуального языка для кратковременного обучения». Достижения в области нейронных систем обработки информации . 35 : 23716–23736. arXiv : 2204.14198 .
  68. ^ Дрисс, Дэнни; Ся, Фэй; Саджади, Мехди С.М.; Линч, Кори; Чоудери, Ааканша; Ихтер, Брайан; Вахид, Айзаан; Томпсон, Джонатан; Выонг, Куан; Ю, Тяньхэ; Хуан, Вэньлун; Чеботарь, Евгений; Сермане, Пьер; Дакворт, Дэниел; Левин, Сергей (01 марта 2023 г.). «PaLM-E: воплощенная мультимодальная языковая модель». arXiv : 2303.03378 [cs.LG].
  69. ^ Лю, Хаотянь; Ли, Чуньюань; У, Цинъян; Ли, Ён Джэ (01 апреля 2023 г.). «Настройка визуальных инструкций». arXiv : 2304.08485 [cs.CV].
  70. ^ Чжан, Ханг; Ли, Синь; Бинг, Лидун (01 июня 2023 г.). «Видео-LLaMA: настроенная на инструкции модель аудиовизуального языка для понимания видео». arXiv : 2306.02858 [cs.CL].
  71. ^ OpenAI (27 марта 2023 г.). «Технический отчет GPT-4». arXiv : 2303.08774 [cs.CL].
  72. ^ OpenAI (25 сентября 2023 г.). «Системная карта GPT-4V(ision)» (PDF) .
  73. ^ Пичаи, Сундар, Google Keynote (Google I/O '23), временная метка 15:31 , получено 2 июля 2023 г.
  74. ^ Хоффманн, Джордан; Боржо, Себастьян; Менш, Артур; Бучацкая Елена; Кай, Тревор; Резерфорд, Элиза; Касас, Диего де Лас; Хендрикс, Лиза Энн; Вельбл, Йоханнес; Кларк, Эйдан; Хенниган, Том; Ноланд, Эрик; Милликан, Кэти; Дрессе, Джордж ван ден; Дамок, Богдан (29 марта 2022 г.). «Обучение оптимальных для вычислений моделей большого языка». arXiv : 2203.15556 [cs.CL].
  75. ^ аб Кабальеро, Итан; Гупта, Кшитидж; Риш, Ирина; Крюгер, Дэвид (2022). «Нарушенные законы нейронного масштабирования». arXiv : 2210.14891 [cs.LG].
  76. ^ «137 новых способностей больших языковых моделей». Джейсон Вэй . Проверено 24 июня 2023 г.
  77. ^ Хан, Майкл; Гоял, Навин (14 марта 2023 г.). «Теория возникающего контекстного обучения как индукция неявной структуры». arXiv : 2303.07971 [cs.LG].
  78. ^ Пилехвар, Мохаммад Тахер; Камачо-Колладос, Хосе (июнь 2019 г.). «Материалы конференции Севера 2019». Материалы конференции Североамериканского отделения Ассоциации компьютерной лингвистики 2019 года: технологии человеческого языка, том 1 (длинные и короткие статьи) . Миннеаполис, Миннесота: Ассоциация компьютерной лингвистики: 1267–1273. дои : 10.18653/v1/N19-1128. S2CID  102353817.
  79. ^ «WiC: Набор данных «Слово в контексте»» . Pilehvar.github.io . Проверено 27 июня 2023 г.
  80. ^ Патель, Рома; Павлик, Элли (06 октября 2021 г.). «Сопоставление языковых моделей с обоснованными концептуальными пространствами». ИКЛР .
  81. ^ Более пристальный взгляд на новые способности больших языковых моделей (Яо Фу, 20 ноября 2022 г.)
  82. Орнес, Стивен (16 марта 2023 г.). «Непредсказуемые способности, возникающие из больших моделей искусственного интеллекта». Журнал Кванта .
  83. ^ Шеффер, Райлан; Миранда, Брандо; Коеджо, Санми (01 апреля 2023 г.). «Являются ли новые способности больших языковых моделей миражом?». arXiv : 2304.15004 [cs.AI].
  84. ^ Ли, Кеннет; Хопкинс, Аспен К.; Бау, Дэвид; Вьегас, Фернанда; Пфистер, Ханспетер; Ваттенберг, Мартин (01 октября 2022 г.). «Эмерджентные представления мира: исследование модели последовательности, обученной на синтетической задаче». arXiv : 2210.13382 [cs.LG].
  85. ^ «Большая языковая модель: модели мира или поверхностная статистика?». Градиент . 21 января 2023 г. Проверено 12 июня 2023 г.
  86. ^ Джин, Чарльз; Ринар, Мартин (01 мая 2023 г.). «Свидетельство значения языковых моделей, обученных на программах». arXiv : 2305.11169 [cs.LG].
  87. ^ Нанда, Нил; Чан, Лоуренс; Либерум, Том; Смит, Джесс; Стейнхардт, Джейкоб (1 января 2023 г.). «Меры прогресса в грокке через механистическую интерпретируемость». arXiv : 2301.05217 [cs.LG].
  88. ^ abcde Митчелл, Мелани; Кракауэр, Дэвид К. (28 марта 2023 г.). «Дебаты по поводу понимания больших языковых моделей ИИ». Труды Национальной академии наук . 120 (13): e2215907120. arXiv : 2210.13966 . Бибкод : 2023PNAS..12015907M. дои : 10.1073/pnas.2215907120. ПМЦ 10068812 . ПМИД  36943882. 
  89. Мец, Кейд (16 мая 2023 г.). «Microsoft заявляет, что новый ИИ демонстрирует признаки человеческого мышления». Нью-Йорк Таймс .
  90. ^ аб Бубек, Себастьян; Чандрасекаран, Варун; Эльдан, Ронен; Герке, Йоханнес; Хорвиц, Эрик; Камар, Эдже; Ли, Питер; Ли, Инь Тат; Ли, Юаньчжи; Лундберг, Скотт; Нори, Харша; Паланги, Хамид; Рибейро, Марко Тулио; Чжан, И (2023). «Искры общего искусственного интеллекта: ранние эксперименты с GPT-4». arXiv : 2303.12712 [cs.CL].
  91. ^ «ChatGPT больше похож на «инопланетный интеллект», чем на человеческий мозг, — говорит футурист». ЗДНЕТ . 2023 . Проверено 12 июня 2023 г.
  92. ^ аб Ньюпорт, Калифорния (13 апреля 2023 г.). «Какой ум у ChatGPT?». Житель Нью-Йорка . Проверено 12 июня 2023 г.
  93. Руз, Кевин (30 мая 2023 г.). «Почему существо, похожее на осьминога, стало символом государства искусственного интеллекта», The New York Times . Проверено 12 июня 2023 г.
  94. ^ «Искусственный интеллект от А до Я». Журнал Тайм . 13 апреля 2023 г. Проверено 12 июня 2023 г.
  95. ^ Цзи, Цивэй; Ли, Наён; Фриске, Рита; Ю, Течжэн; Су, Дэн; Сюй, Ян; Исии, Эцуко; Банг, Еджин; Дай, Вэньлян; Мадто, Андреа; Фунг, Паскаль (ноябрь 2022 г.). «Обзор галлюцинаций при формировании естественного языка» (pdf) . Обзоры вычислительной техники ACM . Ассоциация вычислительной техники . 55 (12): 1–38. arXiv : 2202.03629 . дои : 10.1145/3571730. S2CID  246652372 . Проверено 15 января 2023 г.
  96. ^ Варшни, Нирадж; Яо, Вэньлинь; Чжан, Хунмин; Чен, Цзяньшу; Ю, Донг (2023). «Сшивание во времени экономит девять: обнаружение и смягчение галлюцинаций LLM путем проверки генерации с низкой достоверностью». arXiv : 2307.03987 [cs.CL].
  97. ^ Лакофф, Джордж (1999). Философия во плоти: воплощенный разум и его вызов западной философии; Приложение: Нейронная теория языковой парадигмы . Основные книги Нью-Йорка. стр. 569–583. ISBN 978-0-465-05674-3.
  98. ^ Эванс, Вивиан. (2014). Языковой миф . Издательство Кембриджского университета. ISBN 978-1-107-04396-1.
  99. ^ Фристон, Карл Дж. (2022). Активный вывод: принцип свободной энергии в разуме, мозге и поведении; Глава 4. Генеративные модели активного вывода . Массачусетский технологический институт Пресс. ISBN 978-0-262-36997-8.
  100. ^ Хуен, Чип (2019). «Понимание показателей оценки языкового моделирования». Градиент . Проверено 14 января 2024 г.
  101. ^ аб Кларк, Кристофер; Ли, Кентон; Чанг, Мин-Вэй; Квятковски, Том; Коллинз, Майкл; Тутанова, Кристина (2019). «BoolQ: исследование удивительной сложности естественных вопросов типа «да/нет»». arXiv : 1905.10044 [cs.CL].
  102. ^ abc Уэйн Синь Чжао; Чжоу, Кун; Ли, Джуньи; Тан, Тяньи; Ван, Сяолэй; Хоу, Юпэн; Мин, Инцянь; Чжан, Бэйчен; Чжан, Цзюньцзе; Донг, Зикан; Ду, Ифань; Ян, Чен; Чен, Юшо; Чен, Чжипенг; Цзян, Цзиньхао; Рен, Жуйян; Ли, Ифань; Тан, Синьюй; Лю, Цзыкан; Лю, Пейю; Не, Цзянь-Юнь; Вэнь, Цзи-Ронг (2023). «Обзор больших языковых моделей». arXiv : 2303.18223 [cs.CL].
  103. Хуен, Чип (18 октября 2019 г.). «Метрики оценки языкового моделирования». Градиент .
  104. ^ Шривастава, Аарохи; и другие. (2022). «За пределами игры в имитацию: количественная оценка и экстраполяция возможностей языковых моделей». arXiv : 2206.04615 [cs.CL].
  105. ^ Лин, Стефани; Хилтон, Джейкоб; Эванс, Оуайн (2021). «TruthfulQA: измерение того, как модели имитируют человеческую ложь». arXiv : 2109.07958 [cs.CL].
  106. ^ аб Зеллерс, Роуэн; Хольцман, Ари; Биск, Йонатан; Фархади, Али; Чой, Еджин (2019). «HellaSwag: Может ли машина действительно закончить ваше предложение?». arXiv : 1905.07830 [cs.CL].
  107. ^ «Приготовьтесь к действительно полезным большим языковым моделям» . Природная биомедицинская инженерия . 7 (2): 85–86. 7 марта 2023 г. doi : 10.1038/s41551-023-01012-6. PMID  36882584. S2CID  257403466.
  108. ^ «Ваша работа (вероятно) защищена от искусственного интеллекта» . Экономист . 7 мая 2023 г. Проверено 18 июня 2023 г.
  109. ^ «Генераторный ИИ может повысить мировой ВВП на 7%» . Голдман Сакс . Проверено 18 июня 2023 г.
  110. ^ Пэн, Чжэньцань; Ван, Чжижи; Дэн, Донг (13 июня 2023 г.). «Поиск почти повторяющихся последовательностей в масштабе для оценки запоминания больших языковых моделей» (PDF) . Труды ACM по управлению данными . 1 (2): 1–18. дои : 10.1145/3589324. S2CID  259213212 . Проверено 20 января 2024 г.Цитируя Ли и др., 2022 г.
  111. ^ Пэн, Ван и Дэн 2023, с. 8.
  112. Альба, Дэйви (1 мая 2023 г.). «Чат-боты с искусственным интеллектом использовались для создания десятков ферм новостного контента». Джапан Таймс . Проверено 18 июня 2023 г.
  113. ^ «Могут ли чат-боты помочь разработать следующий пандемический вирус?». Наука . 14 июня 2023 г. doi : 10.1126/science.adj2463.
  114. ^ Стивен Совет (1 декабря 2023 г.). «Как сотрудники Google взломали технологическую модель конкурента в научной фантастике одним словом» . СФГЕЙТ.
  115. ^ Хубингер, Эван (10 января 2024 г.). «Спящие агенты: обучение обманщиков-магистров права, которые упорствуют в обучении технике безопасности». arXiv : 2401.05566 [cs.CR].
  116. ^ аб Стокел-Уокер, Крис (22 ноября 2023 г.). «ChatGPT воспроизводит гендерную предвзятость в рекомендательных письмах». Научный американец . Проверено 29 декабря 2023 г.
  117. ^ Луо, Куини; Пуэтт, Майкл Дж.; Смит, Майкл Д. (28 марта 2023 г.). «Перспективное зеркало слона: исследование языковой предвзятости в Google, ChatGPT, Википедии и YouTube». arXiv : 2303.16281v2 [cs.CY].
  118. ^ Ченг, Майра; Дурмус, Есин; Джурафски, Дэн (29 мая 2023 г.), Отмеченные личности: использование подсказок естественного языка для измерения стереотипов в языковых моделях , arXiv : 2305.18189
  119. ^ Котек, Хадас; Докум, Риккер; Сан, Дэвид (05.11.2023). «Гендерная предвзятость и стереотипы в моделях большого языка». Материалы конференции по коллективному разуму ACM . КИ '23. Нью-Йорк, штат Нью-Йорк, США: Ассоциация вычислительной техники. стр. 12–24. дои : 10.1145/3582269.3615599. ISBN 979-8-4007-0113-9.
  120. Хейккиля, Мелисса (7 августа 2023 г.). «Языковые модели искусственного интеллекта изобилуют различными политическими предубеждениями». Обзор технологий Массачусетского технологического института . Проверено 29 декабря 2023 г.
  121. ^ "тонкая настройка-трансформер-лм" . Гитхаб . Проверено 2 января 2024 г.
  122. ^ аб Девлин, Джейкоб; Чанг, Мин-Вэй; Ли, Кентон; Тутанова Кристина (11 октября 2018 г.). «BERT: Предварительная подготовка глубоких двунаправленных преобразователей для понимания языка». arXiv : 1810.04805v2 [cs.CL].
  123. ^ Прикетт, Николь Хемсот (24 августа 2021 г.). «Cerebras меняет архитектуру для соответствия масштабным моделям искусственного интеллекта и машинного обучения». Следующая платформа . Проверено 20 июня 2023 г.
  124. ^ "БЕРТ". 13 марта 2023 г. – через GitHub.
  125. ^ Патель, Аджай; Ли, Брайан; Расули, Мохаммад Садег; Констант, Ной; Раффель, Колин; Каллисон-Берч, Крис (2022). «Двунаправленные языковые модели также мало учатся». arXiv : 2209.14500 [cs.LG].
  126. ^ «BERT, RoBERTa, DistilBERT, XLNet: какой использовать?». КДнаггетс .
  127. Ссылки _ Гитхаб . Проверено 2 января 2024 г.
  128. ^ Наик, Амит Раджа (23 сентября 2021 г.). «Google представляет новую архитектуру для снижения стоимости трансформаторов» . Журнал Analytics India .
  129. ^ Ян, Жилин; Дай, Цзихан; Ян, Имин; Карбонелл, Хайме; Салахутдинов Руслан; Ле, Куок В. (2 января 2020 г.). «XLNet: Обобщенная авторегрессионная предварительная тренировка для понимания языка». arXiv : 1906.08237 [cs.CL].
  130. ^ «GPT-2: Версия 1.5B» . ОпенАИ . 05.11.2019. Архивировано из оригинала 14 ноября 2019 г. Проверено 14 ноября 2019 г.
  131. ^ «Лучшие языковые модели и их последствия». openai.com .
  132. ^ ab «Языковая модель OpenAI GPT-3: технический обзор» . Lambdalabs.com . 3 июня 2020 г.
  133. ^ "ГПТ-2". Гитхаб . Проверено 13 марта 2023 г.
  134. ^ Таблица D.1 в книге Браун, Том Б.; Манн, Бенджамин; Райдер, Ник; Суббия, Мелани; Каплан, Джаред; Дхаривал, Прафулла; Нилакантан, Арвинд; Шьям, Пранав; Састри, Гириш; Аскелл, Аманда; Агарвал, Сандхини; Герберт-Восс, Ариэль; Крюгер, Гретхен; Хениган, Том; Дитя, Ревон; Рамеш, Адитья; Зиглер, Дэниел М.; Ву, Джеффри; Зима, Клеменс; Гессен, Кристофер; Чен, Марк; Сиглер, Эрик; Литвин, Матеуш; Грей, Скотт; Шахматы, Бенджамин; Кларк, Джек; Бернер, Кристофер; МакКэндлиш, Сэм; Рэдфорд, Алек; Суцкевер, Илья; Амодей, Дарио (28 мая 2020 г.). «Языковые модели изучаются немногими». arXiv : 2005.14165v4 [cs.CL].
  135. ^ «ChatGPT: оптимизация языковых моделей для диалога» . ОпенАИ . 30 ноября 2022 г. Проверено 13 января 2023 г.
  136. ^ "GPT Neo". 15 марта 2023 г. – через GitHub.
  137. ^ abc Гао, Лео; Бидерман, Стелла; Блэк, Сид; Голдинг, Лоуренс; Хоппе, Трэвис; Фостер, Чарльз; Пханг, Джейсон; Он, Гораций; Тите, Аниш; Набешима, Ноа; Прессер, Шон; Лихи, Коннор (31 декабря 2020 г.). «Куча: набор данных разнообразного текста объемом 800 ГБ для языкового моделирования». arXiv : 2101.00027 [cs.CL].
  138. ↑ Аб Айер, Абхишек (15 мая 2021 г.). «Бесплатная альтернатива GPT-3 GPT-Neo заслуживает восхищения». ВенчурБит .
  139. ^ «GPT-J-6B: Введение в крупнейшую модель GPT с открытым исходным кодом | Forefront» . www.forefront.ai . Проверено 28 февраля 2023 г.
  140. ^ abcd Дей, Нолан; Госал, Гурприт; Чжимин; Чен; Хачане, Хемант; Маршалл, Уильям; Патрия, Рибху; Том, Марвин; Хестнесс, Джоэл (1 апреля 2023 г.). «Cerebras-GPT: открытые оптимальные для вычислений языковые модели, обученные на кластере Cerebras Wafer Scale». arXiv : 2304.03208 [cs.LG].
  141. ^ Алви, Али; Харья, Пареш (11 октября 2021 г.). «Использование DeepSpeed ​​и Megatron для обучения Megatron-Turing NLG 530B, самой большой и мощной в мире модели генеративного языка». Исследования Майкрософт .
  142. ^ Аб Смит, Шаден; Патвари, Мостофа; Норик, Брэндон; ЛеГресли, Патрик; Раджбхандари, Самьям; Каспер, Джаред; Лю, Чжун; Прабхумойе, Шримаи; Зервеас, Джордж; Кортиканти, Виджай; Чжан, Элтон; Дитя, Ревон; Аминабади, Реза Яздани; Бернауэр, Джули; Сун, Ся (04 февраля 2022 г.). «Использование DeepSpeed ​​и Megatron для обучения Megatron-Turing NLG 530B, крупномасштабной модели генеративного языка». arXiv : 2201.11990 [cs.CL].
  143. ^ Ван, Шуохуань; Сунь, Ю; Сян, Ян; Ву, Чжихуа; Дин, Сию; Гонг, Вейбао; Фэн, Шикун; Шан, Цзюньюань; Чжао, Яньбинь; Панг, Чао; Лю, Цзясян; Чен, Сюйи; Лу, Юйсян; Лю, Вэйсинь; Ван, Си; Бай, Янфань; Чен, Цюлян; Чжао, Ли; Ли, Шийонг; Сунь, Пэн; Ю, Дяньхай; Ма, Яньцзюнь; Тянь, Хао; Ву, Хуа; Ву, Тянь; Цзэн, Вэй; Ли, Ге; Гао, Вэнь; Ван, Хайфэн (23 декабря 2021 г.). «ЭРНИ 3.0 Титан: изучение более масштабных знаний, расширенная предварительная подготовка для понимания и генерации языков». arXiv : 2112.12731 [cs.CL].
  144. ^ «Продукт». Антропный . Проверено 14 марта 2023 г.
  145. ^ аб Аскелл, Аманда; Бай, Юньтао; Чен, Анна; и другие. (9 декабря 2021 г.). «Ассистент общего языка как лаборатория выравнивания». arXiv : 2112.00861 [cs.CL].
  146. ^ Бай, Юньтао; Кадават, Саурав; Кунду, Сандипан; и другие. (15 декабря 2022 г.). «Конституционный ИИ: безвредность от обратной связи ИИ». arXiv : 2212.08073 [cs.CL].
  147. ^ «Языковое моделирование в масштабе: Gopher, этические соображения и поиск». www.deepmind.com . 8 декабря 2021 г. Проверено 20 марта 2023 г.
  148. ^ abc Хоффманн, Иордания; Боржо, Себастьян; Менш, Артур; и другие. (29 марта 2022 г.). «Обучение оптимальных для вычислений моделей большого языка». arXiv : 2203.15556 [cs.CL].
  149. ^ abcd Таблица 20 и страница 66 PaLM: Масштабирование языкового моделирования с помощью путей
  150. ^ Аб Ченг, Хенг-Цзы; Топпилан, Ромал (21 января 2022 г.). «LaMDA: к безопасным, обоснованным и высококачественным моделям диалога для всего». ai.googleblog.com . Проверено 9 марта 2023 г.
  151. ^ Топпилан, Ромал; Де Фрейтас, Даниэль; Холл, Джейми; Шазир, Ноам; Кулшрешта, Апурв; Ченг, Хэн-Цзы; Джин, Алисия; Бос, Тейлор; Бейкер, Лесли; Ду, Ю; Ли, ЯГуан; Ли, Хонгрэ; Чжэн, Хуайсю Стивен; Гафури, Амин; Менегали, Марсело (1 января 2022 г.). «LaMDA: языковые модели для диалоговых приложений». arXiv : 2201.08239 [cs.CL].
  152. ^ Блэк, Сидни; Бидерман, Стелла; Халлахан, Эрик; и другие. (01.05.2022). GPT-NeoX-20B: модель авторегрессионного языка с открытым исходным кодом. Труды BigScience, эпизод № 5 — Семинар по проблемам и перспективам создания больших языковых моделей. Том. Труды BigScience, эпизод № 5 — Семинар по проблемам и перспективам создания больших языковых моделей. стр. 95–136 . Проверено 19 декабря 2022 г.
  153. ^ abc Хоффманн, Иордания; Боржо, Себастьян; Менш, Артур; Сифре, Лоран (12 апреля 2022 г.). «Эмпирический анализ оптимального для вычислений обучения модели большого языка». Блог Deepmind .
  154. ^ Наранг, Шаран; Чоудери, Ааканша (4 апреля 2022 г.). «Языковая модель Pathways (PaLM): масштабирование до 540 миллиардов параметров для достижения революционной производительности». ai.googleblog.com . Проверено 9 марта 2023 г.
  155. ^ «Демократизация доступа к крупномасштабным языковым моделям с помощью OPT-175B». ai.facebook.com .
  156. ^ Чжан, Сьюзен; Роллер, Стивен; Гоял, Наман; Артече, Микель; Чен, Мойя; Чен, Шуохуэй; Деван, Кристофер; Диаб, Мона; Ли, Сиань; Линь, Си Виктория; Михайлов, Тодор; Отт, Майл; Шлейфер, Сэм; Шустер, Курт; Симиг, Дэниел; Кура, Пунит Сингх; Шридхар, Анджали; Ван, Тяньлу; Зеттлмойер, Люк (21 июня 2022 г.). «OPT: открытые предварительно обученные языковые модели трансформаторов». arXiv : 2205.01068 [cs.CL].
  157. ^ аб Хрущев, Михаил; Васильев, Руслан; Петров, Алексей; Зинов, Николай (22 июня 2022 г.), ЯЛМ 100Б , получено 18 марта 2023 г.
  158. ^ аб Левкович, Айтор; Андреассен, Андерс; Дохан, Дэвид; Дайер, Итан; Михалевский, Хенрик; Рамашеш, Винай; Слон, Эмброуз; Анил, Джем; Шлаг, Иманол; Гутман-Соло, Тео; Ву, Юхуай; Нейшабур, Бехнам; Гур-Ари, Гай; Мисра, Ведант (30 июня 2022 г.). «Решение задач количественного рассуждения с помощью языковых моделей». arXiv : 2206.14858 [cs.CL].
  159. ^ «Минерва: Решение проблем количественного рассуждения с помощью языковых моделей». ai.googleblog.com . 30 июня 2022 г. Проверено 20 марта 2023 г.
  160. Анантасвами, Анил (8 марта 2023 г.). «В ИИ чем больше, тем лучше?». Природа . 615 (7951): 202–205. Бибкод : 2023Natur.615..202A. doi : 10.1038/d41586-023-00641-w. PMID  36890378. S2CID  257380916.
  161. ^ "большая наука/блум · Обнимающее лицо" . Huggingface.co .
  162. ^ Тейлор, Росс; Кардас, Марцин; Кукурулл, Гиллем; Сиалом, Томас; Хартшорн, Энтони; Саравиа, Элвис; Поултон, Эндрю; Керкез, Виктор; Стойнич, Роберт (16 ноября 2022 г.). «Галактика: большая языковая модель для науки». arXiv : 2211.09085 [cs.CL].
  163. ^ «Модель Alexa с 20B-параметрами устанавливает новые стандарты в обучении за несколько кадров» . Амазонская наука . 2 августа 2022 г.
  164. ^ Солтан, Салех; Анантакришнан, Шанкар; Фитцджеральд, Джек; и другие. (3 августа 2022 г.). «AlexaTM 20B: обучение в несколько этапов с использованием крупномасштабной многоязычной модели Seq2Seq». arXiv : 2208.01448 [cs.CL].
  165. ^ «AlexaTM 20B теперь доступен в Amazon SageMaker JumpStart | Блог AWS Machine Learning» . aws.amazon.com . 17 ноября 2022 г. Проверено 13 марта 2023 г.
  166. ^ abc «Представляем LLaMA: фундаментальную модель большого языка с 65 миллиардами параметров». Мета ИИ . 24 февраля 2023 г.
  167. ^ abc «Сокол приземлился в экосистеме Обнимающего Лица» . Huggingface.co . Проверено 20 июня 2023 г.
  168. ^ "Стэнфордский CRFM". crfm.stanford.edu .
  169. ^ «Технический отчет GPT-4» (PDF) . ОпенАИ . 2023. Архивировано (PDF) из оригинала 14 марта 2023 года . Проверено 14 марта 2023 г.
  170. Дей, Нолан (28 марта 2023 г.). «Cerebras-GPT: семейство открытых, эффективных в вычислениях больших языковых моделей». Церебрас .
  171. ^ «Находящаяся в Абу-Даби компания TII запускает собственную версию ChatGPT» . tii.ae .
  172. ^ Пенедо, Гильерме; Малартик, Квентин; Хесслоу, Дэниел; Кожокару, Руксандра; Каппелли, Алессандро; Алобейдли, Хамза; Паннье, Батист; Алмазруи, Эбтесам; Лоне, Жюльен (1 июня 2023 г.). «Набор данных RefinedWeb для Falcon LLM: превосходство курируемых корпораций с использованием веб-данных и только веб-данных». arXiv : 2306.01116 [cs.CL].
  173. ^ "tiiuae/falcon-40b · Обнимающее лицо" . Huggingface.co . 09.06.2023 . Проверено 20 июня 2023 г.
  174. ^ Falcon 40B из ОАЭ, лучшая в мире модель искусственного интеллекта от Института технологических инноваций, теперь доступна без лицензионных отчислений, 31 мая 2023 г.
  175. ^ Ву, Шицзе; Ирсой, Озан; Лу, Стивен; Добровольский, Вадим; Дредзе, Марк; Германн, Себастьян; Камбадур, Прабханджан; Розенберг, Дэвид; Манн, Гидеон (30 марта 2023 г.). «BloombergGPT: большая языковая модель для финансов». arXiv : 2303.17564 [cs.LG].
  176. ^ Рен, Сяочжэ; Чжоу, Пиньи; Мэн, Синьфан; Хуан, Синьцзин; Ван, Ядао; Ван, Вэйчао; Ли, Пэнфэй; Чжан, Сяода; Подольский, Александр; Аршинов, Григорий; Бут, Андрей; Пионтковская Ирина; Вэй, Цзяньшэн; Цзян, Синь; Су, Тэн; Лю, Цюнь; Яо, Цзюнь (19 марта 2023 г.). «PanGu-Σ: к языковой модели с триллионом параметров с разреженными гетерогенными вычислениями». arXiv : 2303.10845 [cs.CL].
  177. ^ Кёпф, Андреас; Килчер, Янник; фон Рютте, Дмитрий; Анагностидис, Сотирис; Там, Жи-Руй; Стивенс, Кейт; Бархум, Абдулла; Дык, Нгуен Минь; Стэнли, Оливер; Надьфи, Ричард; ES, Шахул; Сури, Самир; Глушков, Давид; Дантулури, Арнав; Магуайр, Эндрю (14 апреля 2023 г.). «Беседы OpenAssistant - Демократизация согласования модели большого языка». arXiv : 2304.07327 [cs.CL].
  178. ^ Врубель, Шэрон. «Тель-Авивский стартап представляет новую продвинутую языковую модель искусственного интеллекта, способную конкурировать с OpenAI». www.timesofisrael.com . Проверено 24 июля 2023 г.
  179. ^ Виггерс, Кайл (13 апреля 2023 г.). «С Bedrock Amazon вступает в гонку генеративного искусственного интеллекта». ТехКранч . Проверено 24 июля 2023 г.
  180. ↑ аб Элиас, Дженнифер (16 мая 2023 г.). «Новейшая модель искусственного интеллекта Google использует для обучения почти в пять раз больше текстовых данных, чем ее предшественница». CNBC . Проверено 18 мая 2023 г.
  181. ^ «Представляем PaLM 2» . Google . 10 мая 2023 г.
  182. ^ ab «Представляем Llama 2: следующее поколение нашей модели большого языка с открытым исходным кодом». Мета ИИ . 2023 . Проверено 19 июля 2023 г.
  183. ^ "Клод 2". антропный сайт . Проверено 12 декабря 2023 г.
  184. ^ аб "Сокол 180Б". Технологический инновационный институт . 2023 . Проверено 21 сентября 2023 г.
  185. ^ «Анонсируем Мистраль 7Б». Мистраль . 2023 . Проверено 6 октября 2023 г.
  186. ^ «Представляем Клода 2.1». антропный сайт . Проверено 12 декабря 2023 г.
  187. ^ "Карточка модели Грока-1" . х.ай. _ Проверено 12 декабря 2023 г.
  188. ^ "Близнецы - Google DeepMind" . deepmind.google . Проверено 12 декабря 2023 г.
  189. ^ "Микстраль экспертов". мистраль.ай . 11 декабря 2023 г. Проверено 12 декабря 2023 г.
  190. ^ Франзен, Карл (11 декабря 2023 г.). «Mistral шокирует сообщество искусственного интеллекта, поскольку последняя модель с открытым исходным кодом превосходит производительность GPT-3.5». ВенчурБит . Проверено 12 декабря 2023 г.
  191. Хьюз, Алисса (12 декабря 2023 г.). «Фи-2: удивительная сила малых языковых моделей». Исследования Майкрософт . Проверено 13 декабря 2023 г.
  192. ^ Чеа, Юджин. «🦅 Eagle 7B: пролетая мимо трансформеров с 1 триллионом жетонов на более чем 100 языках (RWKV-v5)» . blog.rwkv.com . Проверено 31 января 2024 г.

дальнейшее чтение