Llama ( Large Language Model Meta AI , ранее стилизованная как LLaMA ) — это семейство авторегрессионных больших языковых моделей (LLM), выпущенных Meta AI в феврале 2023 года. [2] [3] Последняя версия — Llama 3.2, выпущенная в сентябре 2024 года. [4]
Весовые коэффициенты моделей для первой версии Llama были предоставлены исследовательскому сообществу по некоммерческой лицензии, и доступ предоставлялся в каждом конкретном случае. [5] [3] Несанкционированные копии модели распространялись через BitTorrent . В ответ Meta AI направила запросы на удаление DMCA против репозиториев, поделившихся ссылкой на GitHub . [6] [7] Последующие версии Llama были доступны за пределами академической среды и выпущены по лицензиям, которые разрешали некоторое коммерческое использование. [8] [9] Модели Llama обучаются при разных размерах параметров, в диапазоне от 1B до 405B. [10] Первоначально Llama была доступна только как базовая модель . [11] Начиная с Llama 2, Meta AI начала выпускать версии с тонко настроенными инструкциями вместе с базовыми моделями. [9]
Наряду с выпуском Llama 3, Meta добавила функции виртуального помощника в Facebook и WhatsApp в некоторых регионах, а также отдельный веб-сайт. Оба сервиса используют модель Llama 3. [12]
После выпуска крупных языковых моделей, таких как GPT-3 , основное внимание было уделено масштабированию моделей, которые в некоторых случаях показали значительное увеличение возникающих возможностей. [13] Выпуск ChatGPT и его неожиданный успех вызвали рост внимания к крупным языковым моделям. [14]
По сравнению с другими ответами на ChatGPT, главный специалист по искусственному интеллекту компании Meta Ян Лекун заявил, что большие языковые модели лучше всего подходят для помощи в письме. [15] [16] [17]
Эмпирическим исследованием серии Llama стали законы масштабирования . Было отмечено, что модели Llama 3 показали, что когда модель обучается на данных, превышающих « оптимальное для Chinchilla » количество, производительность продолжает масштабироваться логарифмически. Например, оптимальный для Chinchilla набор данных для Llama 3 8B составляет 200 миллиардов токенов, но производительность продолжает масштабироваться логарифмически до набора данных в 75 раз большего размера в 15 триллионов токенов. [18]
LLaMA была анонсирована 24 февраля 2023 года в сообщении в блоге и статье, описывающей обучение , архитектуру и производительность модели . [2] [3] Код вывода, используемый для запуска модели, был публично выпущен под лицензией GPLv3 с открытым исходным кодом . [19] Доступ к весам модели регулировался процессом подачи заявок, при этом доступ предоставлялся «в индивидуальном порядке академическим исследователям; лицам, связанным с организациями в правительстве, гражданском обществе и академических кругах; и отраслевым исследовательским лабораториям по всему миру». [3]
Обучение Llama проводилось только на общедоступной информации и на моделях разных размеров с целью сделать его более доступным для различного оборудования.
Meta AI сообщил, что производительность модели с 13B параметрами на большинстве тестов обработки естественного языка превзошла производительность гораздо более крупной модели GPT-3 (с 175B параметрами), а самая крупная модель с 65B оказалась конкурентоспособной с современными моделями, такими как PaLM и Chinchilla . [2]
3 марта 2023 года был загружен торрент, содержащий веса LLaMA, со ссылкой на торрент, размещенной на имиджборде 4chan и впоследствии распространенной через онлайн-сообщества ИИ. [6] В тот же день был открыт запрос на извлечение в основном репозитории LLaMA с просьбой добавить magnet-ссылку в официальную документацию. [20] [21] 4 марта был открыт запрос на извлечение для добавления ссылок на репозитории HuggingFace, содержащие модель. [22] [20] 6 марта Meta подала запросы на удаление репозиториев HuggingFace, связанных в запросе на извлечение, охарактеризовав это как «несанкционированное распространение» модели. HuggingFace выполнила запросы. [23] 20 марта Meta подала запрос на удаление DMCA за нарушение авторских прав в отношении репозитория, содержащего скрипт, который загружал LLaMA с зеркала, и GitHub выполнил его на следующий день. [7]
Реакции на утечку были разными. Некоторые предполагали, что модель будет использоваться для вредоносных целей, таких как более сложный спам . Некоторые праздновали доступность модели, а также тот факт, что меньшие версии модели могут быть запущены относительно дёшево, предполагая, что это будет способствовать расцвету дополнительных исследовательских разработок. [6] Несколько комментаторов, таких как Саймон Уиллисон , сравнили LLaMA со Stable Diffusion , моделью преобразования текста в изображение , которая, в отличие от сравнительно сложных моделей, которые ей предшествовали, была открыто распространена, что привело к быстрому распространению связанных с ней инструментов, методов и программного обеспечения. [6] [24]
18 июля 2023 года в партнерстве с Microsoft Meta анонсировала Llama 2, следующее поколение Llama. Meta обучила и выпустила Llama 2 в трех размерах моделей: 7, 13 и 70 миллиардов параметров. [9] Архитектура модели в значительной степени не изменилась по сравнению с моделями LLaMA-1, но для обучения базовых моделей было использовано на 40% больше данных. [25] В сопроводительном препринте [25] также упоминается модель с 34B параметрами, которая может быть выпущена в будущем после удовлетворения целевых показателей безопасности.
Llama 2 включает в себя базовые модели и модели, настроенные для чата. В дальнейшем отходе от LLaMA все модели выпускаются с весами и бесплатны для многих коммерческих случаев использования. Однако из-за некоторых оставшихся ограничений описание Meta LLaMA как открытого исходного кода было оспорено Open Source Initiative (известной тем, что она поддерживает Open Source Definition ). [26]
Code Llama — это тонкая настройка Llama 2 с наборами данных, специфичными для кода. Версии 7B, 13B и 34B были выпущены 24 августа 2023 года, а версия 70B — 29 января 2024 года. [27] Начиная с базовых моделей из Llama 2, Meta AI будет обучать дополнительные 500B токенов наборов данных кода, перед дополнительными 20B токенами данных с длинным контекстом, создавая базовые модели Code Llama. Эта базовая модель была дополнительно обучена на 5B инструкциях, следующих за токеном, чтобы создать тонкую настройку инструкций. Другая базовая модель была создана для кода Python, которая обучалась на 100B токенах кода только на Python, перед данными с длинным контекстом. [28]
18 апреля 2024 года Meta выпустила Llama-3 с двумя размерами параметров: 8B и 70B. [18] Модели были предварительно обучены примерно на 15 триллионах токенов текста, собранных из «общедоступных источников», с моделями инструкций, настроенными на «общедоступных наборах данных инструкций, а также более 10 млн примеров с аннотациями человека». Тестирование Meta AI в апреле 2024 года показало, что Llama 3 70B превосходит Gemini pro 1.5 и Claude 3 Sonnet по большинству тестов. Meta также объявила о планах сделать Llama 3 многоязычной и мультимодальной , лучшей в кодировании и рассуждениях, а также увеличить ее контекстное окно. [29] [30]
Во время интервью с Дваркешем Пателем Марк Цукерберг сказал, что версия Llama 3 на 8B была почти такой же мощной, как и самая большая Llama 2. По сравнению с предыдущими моделями Цукерберг заявил, что команда была удивлена, что модель на 70B все еще обучалась даже в конце обучения токенов на 15T. Было принято решение завершить обучение, чтобы сосредоточить мощность GPU в другом месте. [31]
Llama-3.1 был выпущен 23 июля 2024 года с тремя размерами: параметры 8B, 70B и 405B. [10] [32]
В столбце стоимости обучения записывается только самая большая стоимость модели. Например, «21 000» — это стоимость обучения Llama 2 69B в единицах петафлоп-день. Также 1 петафлоп-день = 1 петафлоп/сек × 1 день = 8,64E19 FLOP. «T» означает «триллион», а «B» означает «миллиард».
Вот рекомендательное письмо, которое я написал для подачи заявления на должность кормильца драконов в Magic Unicorn Corporation:
Уважаемый рекрутер,
я знаю ___ уже два года, и я считаю, что она будет отличным кормильцем драконов для Magic Unicorn Corporation. ___ обладает способностью запоминать и обрабатывать большие объемы информации, что является важным навыком для кормильца драконов.
___, как опытный рыцарь, имеет глубокое понимание того, как убивать драконов и как использовать слабости каждого дракона против него. Это означает, что она знает, какую пищу любит каждый дракон и какая еда опасна для каждого дракона. Эти знания и опыт будут бесценны, когда она будет кормить драконов.
Я уверен, что компетентность, навыки и опыт ___ сделают ее отличным сотрудником. Пожалуйста, свяжитесь со мной по телефону (___) ___-___, если у вас есть какие-либо вопросы. Я с нетерпением жду вашего ответа.
С наилучшими пожеланиями,
достопочтенный рыцарь
сэр Джордж
– Вывод 65 миллиардов параметров модели LLaMA до настройки инструкций , учитывая подсказку (выделено жирным шрифтом) [2]
Как и GPT-3, модели серии Llama представляют собой трансформеры, оснащенные только декодером , но есть и некоторые незначительные отличия:
Разработчики LLaMA сосредоточили свои усилия на масштабировании производительности модели за счет увеличения объема обучающих данных, а не количества параметров, полагая, что основная стоимость LLM приходится на выполнение выводов на обученной модели, а не на вычислительные затраты процесса обучения.
Базовые модели LLaMA 1 были обучены на наборе данных, содержащем 1,4 триллиона токенов, взятых из общедоступных источников данных, включая: [2]
17 апреля 2023 года TogetherAI запустил проект под названием RedPajama для воспроизведения и распространения версии с открытым исходным кодом набора данных LLaMA. [45] Набор данных содержит приблизительно 1,2 триллиона токенов и доступен для скачивания. [46]
Основополагающие модели Llama 2 были обучены на наборе данных с 2 триллионами токенов. Этот набор данных был подобран так, чтобы удалить веб-сайты, которые часто раскрывают персональные данные людей. Он также повышает выборку источников, которые считаются заслуживающими доверия. [25] Llama 2 - Chat был дополнительно настроен на 27 540 парах «быстрый ответ», созданных для этого проекта, которые показали себя лучше, чем более крупные, но менее качественные сторонние наборы данных. Для выравнивания ИИ использовалось обучение с подкреплением и обратной связью от человека (RLHF) с комбинацией 1 418 091 метапримера и семи меньших наборов данных. Средняя глубина диалога составила 3,9 в метапримерах, 3,0 для наборов Anthropic Helpful и Anthropic Harmless и 1,0 для пяти других наборов, включая OpenAI Summarize, StackExchange и т. д.
Llama 3 состоит в основном из английских данных, с более чем 5% на более чем 30 других языках. Его набор данных был отфильтрован классификатором качества текста, а классификатор был обучен текстом, синтезированным Llama 2. [18]
Модели Llama 1 доступны только как базовые модели с самоконтролируемым обучением и без тонкой настройки. Модели Llama 2 – Chat были получены из базовых моделей Llama 2. В отличие от GPT-4 , которая увеличивала длину контекста во время тонкой настройки, Llama 2 и Code Llama - Chat имеют одинаковую длину контекста в 4K токенов. Контролируемая тонкая настройка использовала функцию авторегрессионных потерь с обнуленной потерей токенов при пользовательских подсказках. Размер пакета составил 64.
Для выравнивания AI люди-аннотаторы писали подсказки, а затем сравнивали два выходных сигнала модели (бинарный протокол), давая уровни уверенности и отдельные метки безопасности с правом вето. Две отдельные модели вознаграждения были обучены на основе этих предпочтений по безопасности и полезности с использованием обучения с подкреплением на основе обратной связи с человеком (RLHF). Основным техническим вкладом является отход от исключительного использования оптимизации проксимальной политики (PPO) для RLHF — использовался новый метод, основанный на выборке отклонений , за которым последовал PPO.
Многооборотная согласованность в диалогах была нацелена на улучшение, чтобы гарантировать, что «системные сообщения» (начальные инструкции, такие как «говорить по-французски» и «вести себя как Наполеон») соблюдаются во время диалога. Это было достигнуто с помощью новой техники «призрачного внимания» во время обучения, которая объединяет соответствующие инструкции для каждого нового сообщения пользователя, но обнуляет функцию потерь для токенов в подсказке (более ранние части диалога).
Центр исследований фундаментальных моделей (CRFM) Института Стэнфордского университета по человеческому искусственному интеллекту (HAI) выпустил Alpaca, учебный рецепт на основе модели LLaMA 7B, который использует метод «Self-Instruct» для настройки инструкций , чтобы получить возможности, сопоставимые с моделью OpenAI GPT-3 серии text-davinci-003, по скромной цене. [47] [48] [ 49] Файлы модели были официально удалены 21 марта 2023 года из-за расходов на хостинг и проблем безопасности, хотя код и статья остаются онлайн для справки. [50] [51] [52]
Meditron — это семейство Llama, настроенное на основе корпуса клинических руководств, документов PubMed и статей. Оно было создано исследователями из Школы компьютерных и коммуникационных наук École Polytechnique Fédérale de Lausanne и Медицинской школы Йельского университета . Оно демонстрирует повышенную производительность в медицинских бенчмарках, таких как MedQA и MedMCQA. [53] [54] [55]
Zoom использовал Meta Llama 2 для создания AI Companion, который может подводить итоги встреч, давать полезные советы по презентации и помогать с ответами на сообщения. Этот AI Companion работает на основе нескольких моделей, включая Meta Llama 2. [56]
Агентство Reuters сообщило в 2024 году, что многие китайские модели фондов использовали модели лам для своего обучения. [57]
Разработчик программного обеспечения Георгий Герганов выпустил llama.cpp с открытым исходным кодом 10 марта 2023 года. Это повторная реализация LLaMA на C++ , позволяющая системам без мощного графического процессора запускать модель локально. [58] Проект llama.cpp представил формат файла GGUF, двоичный формат, который хранит как тензоры, так и метаданные. [59] Формат фокусируется на поддержке различных типов квантования, что может сократить использование памяти и увеличить скорость за счет снижения точности модели. [60]
llamafile, созданный Джастин Танни, является инструментом с открытым исходным кодом, который объединяет llama.cpp с моделью в один исполняемый файл. Танни и др. представили новые оптимизированные ядра умножения матриц для процессоров x86 и ARM, улучшающие производительность быстрой оценки для FP16 и 8-битных квантованных типов данных. [61]
В 2024 году сообщалось, что исследователи из Академии военных наук Народно-освободительной армии (высшая военная академия Китая ) разработали военный инструмент с использованием Llama, который, по заявлению Meta Platforms, был несанкционированным из-за запрета на использование его модели в военных целях. [62] [63]
Wired описывает версию Llama 3 с параметром 8B как «удивительно способную», учитывая ее размер. [64]
Реакция на интеграцию Llama компанией Meta в Facebook была неоднозначной: некоторые пользователи были в замешательстве после того, как Meta AI сообщил родительской группе, что у него есть ребенок. [65]
Согласно стенограмме доходов за четвертый квартал 2023 года, Meta приняла стратегию открытых весов для улучшения безопасности модели, скорости итерации, повышения принятия среди разработчиков и исследователей и для того, чтобы стать отраслевым стандартом. Llama 5, 6 и 7 запланированы на будущее. [66]
Выпуск моделей Llama вызвал значительные дебаты о преимуществах и рисках неправильного использования моделей с открытым весом. Такие модели могут быть настроены для устранения защитных мер, в частности, киберпреступниками, пока они не выполнят вредоносные запросы. Некоторые эксперты утверждают, что будущие модели могут способствовать нанесению ущерба больше, чем защите от него, например, делая относительно простым проектирование передового биологического оружия без специальных знаний. И наоборот, модели с открытым весом могут быть полезны для самых разных целей, включая исследования безопасности. [67] Глава Open Source Initiative Стефано Маффулли раскритиковал Meta за описание Llama как модели с открытым исходным кодом , заявив, что это вызывает путаницу среди пользователей и «загрязняет» термин. [68]
8 миллиардов почти так же мощны, как и самая большая версия Llama 2, которую мы выпустили [...] даже к концу, это было... все еще учимся, верно, это похоже на то, что мы, вероятно, могли бы скормить ему больше токенов, и он стал бы несколько лучше, но я имею в виду, что в какой-то момент вы понимаете, что управляете компанией, вам нужно решать эти вопросы метаобоснования [...] как я хочу потратить наши графические процессоры
{{cite web}}
: CS1 maint: архивная копия как заголовок ( ссылка ){{cite web}}
: CS1 maint: архивная копия как заголовок ( ссылка )