ЛАМА

LLaMA ( Large Language Model Meta AI ) — семейство авторегрессионных моделей большого языка (LLM), выпущенное Meta AI начиная с февраля 2023 года.

Для первой версии LLaMA были обучены модели четырех размеров: 7, 13, 33 и 65 миллиардов параметров. Разработчики LLaMA сообщили, что производительность модели с параметрами 13B в большинстве тестов NLP превысила производительность гораздо более крупной модели GPT-3 (с параметрами 175B) и что самая большая модель была конкурентоспособна с современными моделями, такими как PaLM и Chinchilla . ^[1] В то время как самые мощные LLM обычно были доступны только через ограниченные API (если вообще были доступны), Meta предоставила исследовательскому сообществу веса моделей LLaMA под некоммерческой лицензией. ^[2] В течение недели после выпуска LLaMA его веса были опубликованы на 4chan через BitTorrent . ^[3]

В июле 2023 года Meta выпустила несколько моделей под названием Llama 2, использующих 7, 13 и 70 миллиардов параметров.

ЛЛаМА-2

18 июля 2023 года в партнерстве с Microsoft компания Meta анонсировала LLaMA-2, следующее поколение LLaMA. Meta обучила и выпустила LLaMA-2 в трех размерах модели: 7, 13 и 70 миллиардов параметров. ^[4] Архитектура модели практически не изменилась по сравнению с моделями LLaMA-1, но для обучения базовых моделей было использовано на 40 % больше данных. ^[5] В сопроводительном препринте ^[5] также упоминается модель с параметрами 34B, которая может быть выпущена в будущем после достижения целей безопасности.

LLaMA-2 включает в себя как базовые модели, так и модели, настроенные для диалога, называемые чатом LLaMA-2. В отличие от LLaMA-1, все модели выпускаются с весами и бесплатны для многих случаев коммерческого использования. Однако из-за некоторых оставшихся ограничений описание LLaMA как открытого исходного кода оспаривается Инициативой открытого исходного кода (известной тем, что поддерживает определение открытого исходного кода ). ^[6]

В ноябре 2023 года исследование, проведенное Patronus AI, стартапом в области искусственного интеллекта, сравнило производительность LLaMA-2, GPT -4 и GPT-4-Turbo от OpenAI и Claude2 от Anthropic в двух версиях теста из 150 вопросов. об информации в документах SEC (например, форма 10-K , форма 10-Q , форма 8-K , отчеты о доходах , стенограммы звонков о доходах ), представленных публичными компаниями в агентство , где одна версия теста требовала, чтобы генеративные модели ИИ использовали поисковая система для поиска конкретного файла SEC для ответа на вопросы, в то время как другая версия предоставляла моделям конкретный файл SEC для ответа на вопрос (т. е. в длинном контекстном окне). В версии поисковой системы GPT-4-Turbo и LLaMA-2 не смогли дать правильные ответы на 81% вопросов, тогда как в версии с длинным контекстным окном GPT-4-Turbo и Claude-2 не смогли дать правильные ответы. до 21% и 24% вопросов соответственно. ^[7]^[8]

Архитектура и обучение

«Разговор Солнца и Плутона»

Сан: Эй, Плутон, как дела?
Плутон: Не так уж и много. Просто тусуюсь здесь, на краю солнечной системы.
Сан: Да, я хотел поговорить с тобой об этом. Ты больше не планета.
Плутон: Что? Давай, мужик. Это не справедливо.
Сан: Извините, но это правда. Вы просто больше не соответствуете критериям.
Плутон: Это чушь! Я был планетой более 70 лет!
Солнце: Все меняется, Плутон. Вам просто нужно это принять.
Плутон: Черт возьми, Солнце! К черту тебя и твою дурацкую солнечную систему!

– Вывод модели LLaMA с 65 миллиардами параметров после настройки инструкций с учетом подсказки «Напишите разговор между Солнцем и Плутоном» ^[1]

Архитектура

LLaMA использует архитектуру преобразователя , стандартную архитектуру языкового моделирования с 2018 года.

Есть незначительные архитектурные различия. По сравнению с GPT-3, LLaMA

использует функцию активации SwiGLU ^[9] вместо ReLU;
использует вращающееся позиционное встраивание ^[10] вместо абсолютного позиционного встраивания;
использует среднеквадратическую нормализацию слоя ^[11] вместо стандартной нормализации слоя. ^[12]
увеличивает длину контекста с 2 КБ (Лама 1) токенов до 4 КБ (Лама 2) между токенами.

Наборы обучающих данных

Разработчики LLaMA сосредоточили свои усилия на масштабировании производительности модели за счет увеличения объема обучающих данных, а не количества параметров, мотивируя это тем, что доминирующие затраты для LLM связаны с выводом на основе обученной модели, а не с вычислительными затратами процесса обучения.

Базовые модели LLaMA 1 были обучены на наборе данных из 1,4 триллиона токенов, взятых из общедоступных источников данных, в том числе: ^[1]

Веб-страницы, очищенные CommonCrawl
Репозитории исходного кода с открытым исходным кодом из GitHub.
Википедия на 20 разных языках
Книги , являющиеся общественным достоянием, от Project Gutenberg
Исходный код LaTeX для научных статей, загруженный в ArXiv.
Вопросы и ответы с сайтов Stack Exchange

Базовые модели Llama 2 были обучены на наборе данных из 2 триллионов токенов. Этот набор данных был создан для удаления веб-сайтов, которые часто раскрывают личные данные людей. Он также повышает выборку источников, которые считаются заслуживающими доверия. ^[5] Llama 2 – Chat был дополнительно доработан на основе 27 540 пар быстрого ответа, созданных для этого проекта, которые работали лучше, чем более крупные, но менее качественные сторонние наборы данных. Для согласования ИИ использовалось обучение с подкреплением и обратной связью с человеком (RLHF) с комбинацией 1 418 091 метапримера и семи небольших наборов данных. Средняя глубина диалога составила 3,9 в примерах Meta, 3,0 для наборов Anthropic Helpful и Anthropic Harmless и 1,0 для пяти других наборов, включая OpenAI Summarize, StackExchange и т. д.

Мета заявила, что применила такой подход, чтобы сделать Llama максимально доступной. Одним из преимуществ является то, что он позволяет создавать частные экземпляры, которым не нужно отправлять данные обратно в Meta или облако, чтобы ИИ мог получить к ним доступ. По этой причине, хотя его можно считать чат-ботом общего назначения с искусственным интеллектом, так же, как ChatGPT или Bard, он считается особенно полезным для создания более специализированных приложений. Сейчас доступно несколько LLM с открытым исходным кодом, но (согласно собственным тестам) Llama2 превосходит их всех. ^[13]

Тонкая настройка

Модели Llama 1 доступны только в качестве базовых моделей с самоконтролируемым обучением и без тонкой настройки. Llama 2 — модели чата были созданы на основе базовых моделей Llama 2. В отличие от GPT-4 , длина контекста которого увеличивалась во время тонкой настройки, Llama 2 и Llama 2 — Chat имеют одинаковую длину контекста — токены 4 КБ. При контролируемой точной настройке использовалась функция авторегрессии потерь, при которой потери токенов при запросах пользователя обнулялись. Размер партии составил 64.

Для согласования ИИ люди-аннотаторы писали подсказки, а затем сравнивали выходные данные двух моделей (двоичный протокол), указывая уровни достоверности и отдельные метки безопасности с правом вето. Две отдельные модели вознаграждения были обучены на основе этих предпочтений в отношении безопасности и полезности с использованием обучения с подкреплением на основе обратной связи с человеком (RLHF). Важным техническим вкладом является отказ от исключительного использования оптимизации проксимальной политики (PPO) для RLHF – был использован новый метод, основанный на выборке отклонения , а затем PPO.

Была нацелена на улучшение многоходовой последовательности в диалогах, чтобы гарантировать, что во время диалога соблюдаются «системные сообщения» (начальные инструкции, такие как «говорить по-французски» и «вести себя как Наполеон»). Это было достигнуто с использованием новой техники «Призрачного внимания» во время обучения, которая объединяет соответствующие инструкции с каждым новым сообщением пользователя, но обнуляет функцию потери для токенов в подсказке (более ранние части диалога).

Выпуск и утечка

О LLaMA было объявлено 23 февраля 2023 года в сообщении в блоге и в документе, описывающем обучение , архитектуру и производительность модели . ^[1]^[2] Код вывода, использованный для запуска модели, был публично выпущен под лицензией GPL 3 с открытым исходным кодом . ^[14] Доступ к весам модели регулировался в рамках процесса подачи заявки, при этом доступ предоставлялся «в каждом конкретном случае академическим исследователям; лицам, связанным с правительственными организациями, гражданским обществом и академическими кругами; а также отраслевым исследовательским лабораториям». во всем мире". ^[2]

2 марта 2023 года был загружен торрент, содержащий веса LLaMA, со ссылкой на торрент, размещенной на имиджборде 4chan и впоследствии распространившейся через онлайн-сообщества искусственного интеллекта. ^[3] В тот же день в основном репозитории LLaMA был открыт запрос на включение с просьбой добавить магнитную ссылку в официальную документацию. ^[15]^[16] 4 марта был открыт запрос на добавление ссылок на репозитории HuggingFace , содержащие модель. ^[17]^[15] 6 марта Meta подала запросы на удаление репозиториев HuggingFace, связанных с запросом на включение, охарактеризовав это как «несанкционированное распространение» модели. HuggingFace выполнил просьбы. ^[18] 20 марта Meta подала запрос на удаление DMCA за нарушение авторских прав в отношении репозитория, содержащего скрипт, который загружал LLaMA с зеркала, и GitHub подчинился на следующий день. ^[19] По состоянию на 25 марта Facebook не ответил на запрос на включение, содержащий магнитную ссылку. ^[16]

Реакция на утечку была разной. Некоторые предполагали, что эта модель будет использоваться в злонамеренных целях, например, для рассылки более изощренного спама . Некоторые отметили доступность модели, а также тот факт, что ее уменьшенные версии можно использовать относительно дешево, предполагая, что это будет способствовать процветанию дополнительных исследовательских разработок. ^[3] Многие комментаторы, такие как Саймон Уиллисон , сравнивали LLaMA со Stable Diffusion , моделью преобразования текста в изображение , которая, в отличие от сравнительно сложных моделей, предшествовавших ей, была открыто распространена, что привело к быстрому распространению связанных с ней инструментов, методов и программное обеспечение. ^[3]^[20]

Воспроизведение набора данных

17 апреля 2023 года TogetherAI запустила проект RedPajama по воспроизведению и распространению версии набора данных LLaMA с открытым исходным кодом . ^[21] Набор данных содержит около 1,2 триллиона токенов и доступен для скачивания. ^[22]

Приложения

Разработчик программного обеспечения Георгий Герганов выпустил llama.cpp, оптимизированную для программного обеспечения повторную реализацию LLaMa на C++. Это позволило многим запускать модели серии LLaMa локально. ^[23]

Центр исследований базовых моделей (CRFM) Института человеко -ориентированного искусственного интеллекта Стэнфордского университета (HAI) выпустил Alpaca, рецепт обучения, основанный на модели LLaMA 7B, который использует метод настройки инструкций «Самообучение» для приобретения сопоставимых возможностей. к модели OpenAI GPT-3 серии text-davinci-003 по скромной цене. ^[24]^[25] Несколько проектов с открытым исходным кодом ^[^когда?^] продолжаем работу по точной настройке LLaMA с набором данных Альпаки. ^[26]

дальнейшее чтение

Хуанг, Калли; О'Риган, Сильвия Варнхэм (5 сентября 2023 г.). «Внутри драмы искусственного интеллекта Meta: внутренние распри по поводу вычислительных мощностей» . Информация . Архивировано из оригинала 5 сентября 2023 года . Проверено 6 сентября 2023 г.