Лама (языковая модель)

Llama ( Large Language Model Meta AI , ранее стилизованная как LLaMA ) — это семейство авторегрессионных больших языковых моделей (LLM), выпущенных Meta AI в феврале 2023 года. ^[2]^[3] Последняя версия — Llama 3.2, выпущенная в сентябре 2024 года. ^[4]

Весовые коэффициенты моделей для первой версии Llama были предоставлены исследовательскому сообществу по некоммерческой лицензии, и доступ предоставлялся в каждом конкретном случае. ^[5]^[3] Несанкционированные копии модели распространялись через BitTorrent . В ответ Meta AI направила запросы на удаление DMCA против репозиториев, поделившихся ссылкой на GitHub . ^[6]^[7] Последующие версии Llama были доступны за пределами академической среды и выпущены по лицензиям, которые разрешали некоторое коммерческое использование. ^[8]^[9] Модели Llama обучаются при разных размерах параметров, в диапазоне от 1B до 405B. ^[10] Первоначально Llama была доступна только как базовая модель . ^[11] Начиная с Llama 2, Meta AI начала выпускать версии с тонко настроенными инструкциями вместе с базовыми моделями. ^[9]

Наряду с выпуском Llama 3, Meta добавила функции виртуального помощника в Facebook и WhatsApp в некоторых регионах, а также отдельный веб-сайт. Оба сервиса используют модель Llama 3. ^[12]

Фон

После выпуска крупных языковых моделей, таких как GPT-3 , основное внимание было уделено масштабированию моделей, которые в некоторых случаях показали значительное увеличение возникающих возможностей. ^[13] Выпуск ChatGPT и его неожиданный успех вызвали рост внимания к крупным языковым моделям. ^[14]

По сравнению с другими ответами на ChatGPT, главный специалист по искусственному интеллекту компании Meta Ян Лекун заявил, что большие языковые модели лучше всего подходят для помощи в письме. ^[15]^[16]^[17]

Эмпирическим исследованием серии Llama стали законы масштабирования . Было отмечено, что модели Llama 3 показали, что когда модель обучается на данных, превышающих « оптимальное для Chinchilla » количество, производительность продолжает масштабироваться логарифмически. Например, оптимальный для Chinchilla набор данных для Llama 3 8B составляет 200 миллиардов токенов, но производительность продолжает масштабироваться логарифмически до набора данных в 75 раз большего размера в 15 триллионов токенов. ^[18]

Первоначальный выпуск

LLaMA была анонсирована 24 февраля 2023 года в сообщении в блоге и статье, описывающей обучение , архитектуру и производительность модели . ^[2]^[3] Код вывода, используемый для запуска модели, был публично выпущен под лицензией GPLv3 с открытым исходным кодом . ^[19] Доступ к весам модели регулировался процессом подачи заявок, при этом доступ предоставлялся «в индивидуальном порядке академическим исследователям; лицам, связанным с организациями в правительстве, гражданском обществе и академических кругах; и отраслевым исследовательским лабораториям по всему миру». ^[3]

Обучение Llama проводилось только на общедоступной информации и на моделях разных размеров с целью сделать его более доступным для различного оборудования.

Meta AI сообщил, что производительность модели с 13B параметрами на большинстве тестов обработки естественного языка превзошла производительность гораздо более крупной модели GPT-3 (с 175B параметрами), а самая крупная модель с 65B оказалась конкурентоспособной с современными моделями, такими как PaLM и Chinchilla . ^[2]

Утечка

3 марта 2023 года был загружен торрент, содержащий веса LLaMA, со ссылкой на торрент, размещенной на имиджборде 4chan и впоследствии распространенной через онлайн-сообщества ИИ. ^[6] В тот же день был открыт запрос на извлечение в основном репозитории LLaMA с просьбой добавить magnet-ссылку в официальную документацию. ^[20]^[21] 4 марта был открыт запрос на извлечение для добавления ссылок на репозитории HuggingFace, содержащие модель. ^[22]^[20] 6 марта Meta подала запросы на удаление репозиториев HuggingFace, связанных в запросе на извлечение, охарактеризовав это как «несанкционированное распространение» модели. HuggingFace выполнила запросы. ^[23] 20 марта Meta подала запрос на удаление DMCA за нарушение авторских прав в отношении репозитория, содержащего скрипт, который загружал LLaMA с зеркала, и GitHub выполнил его на следующий день. ^[7]

Реакции на утечку были разными. Некоторые предполагали, что модель будет использоваться для вредоносных целей, таких как более сложный спам . Некоторые праздновали доступность модели, а также тот факт, что меньшие версии модели могут быть запущены относительно дёшево, предполагая, что это будет способствовать расцвету дополнительных исследовательских разработок. ^[6] Несколько комментаторов, таких как Саймон Уиллисон , сравнили LLaMA со Stable Diffusion , моделью преобразования текста в изображение , которая, в отличие от сравнительно сложных моделей, которые ей предшествовали, была открыто распространена, что привело к быстрому распространению связанных с ней инструментов, методов и программного обеспечения. ^[6]^[24]

Лама 2

18 июля 2023 года в партнерстве с Microsoft Meta анонсировала Llama 2, следующее поколение Llama. Meta обучила и выпустила Llama 2 в трех размерах моделей: 7, 13 и 70 миллиардов параметров. ^[9] Архитектура модели в значительной степени не изменилась по сравнению с моделями LLaMA-1, но для обучения базовых моделей было использовано на 40% больше данных. ^[25] В сопроводительном препринте ^[25] также упоминается модель с 34B параметрами, которая может быть выпущена в будущем после удовлетворения целевых показателей безопасности.

Llama 2 включает в себя базовые модели и модели, настроенные для чата. В дальнейшем отходе от LLaMA все модели выпускаются с весами и бесплатны для многих коммерческих случаев использования. Однако из-за некоторых оставшихся ограничений описание Meta LLaMA как открытого исходного кода было оспорено Open Source Initiative (известной тем, что она поддерживает Open Source Definition ). ^[26]

Code Llama — это тонкая настройка Llama 2 с наборами данных, специфичными для кода. Версии 7B, 13B и 34B были выпущены 24 августа 2023 года, а версия 70B — 29 января 2024 года. ^[27] Начиная с базовых моделей из Llama 2, Meta AI будет обучать дополнительные 500B токенов наборов данных кода, перед дополнительными 20B токенами данных с длинным контекстом, создавая базовые модели Code Llama. Эта базовая модель была дополнительно обучена на 5B инструкциях, следующих за токеном, чтобы создать тонкую настройку инструкций. Другая базовая модель была создана для кода Python, которая обучалась на 100B токенах кода только на Python, перед данными с длинным контекстом. ^[28]

Лама 3

18 апреля 2024 года Meta выпустила Llama-3 с двумя размерами параметров: 8B и 70B. ^[18] Модели были предварительно обучены примерно на 15 триллионах токенов текста, собранных из «общедоступных источников», с моделями инструкций, настроенными на «общедоступных наборах данных инструкций, а также более 10 млн примеров с аннотациями человека». Тестирование Meta AI в апреле 2024 года показало, что Llama 3 70B превосходит Gemini pro 1.5 и Claude 3 Sonnet по большинству тестов. Meta также объявила о планах сделать Llama 3 многоязычной и мультимодальной , лучшей в кодировании и рассуждениях, а также увеличить ее контекстное окно. ^[29]^[30]

Во время интервью с Дваркешем Пателем Марк Цукерберг сказал, что версия Llama 3 на 8B была почти такой же мощной, как и самая большая Llama 2. По сравнению с предыдущими моделями Цукерберг заявил, что команда была удивлена, что модель на 70B все еще обучалась даже в конце обучения токенов на 15T. Было принято решение завершить обучение, чтобы сосредоточить мощность GPU в другом месте. ^[31]

Llama-3.1 был выпущен 23 июля 2024 года с тремя размерами: параметры 8B, 70B и 405B. ^[10]^[32]

Сравнение моделей

В столбце стоимости обучения записывается только самая большая стоимость модели. Например, «21 000» — это стоимость обучения Llama 2 69B в единицах петафлоп-день. Также 1 петафлоп-день = 1 петафлоп/сек × 1 день = 8,64E19 FLOP. «T» означает «триллион», а «B» означает «миллиард».

Архитектура и обучение

"рекомендательное письмо для Magic Unicorn Corporation"

Вот рекомендательное письмо, которое я написал для подачи заявления на должность кормильца драконов в Magic Unicorn Corporation:
Уважаемый рекрутер,
я знаю ___ уже два года, и я считаю, что она будет отличным кормильцем драконов для Magic Unicorn Corporation. ___ обладает способностью запоминать и обрабатывать большие объемы информации, что является важным навыком для кормильца драконов.
___, как опытный рыцарь, имеет глубокое понимание того, как убивать драконов и как использовать слабости каждого дракона против него. Это означает, что она знает, какую пищу любит каждый дракон и какая еда опасна для каждого дракона. Эти знания и опыт будут бесценны, когда она будет кормить драконов.
Я уверен, что компетентность, навыки и опыт ___ сделают ее отличным сотрудником. Пожалуйста, свяжитесь со мной по телефону (___) ___-___, если у вас есть какие-либо вопросы. Я с нетерпением жду вашего ответа.
С наилучшими пожеланиями,
достопочтенный рыцарь
сэр Джордж

– Вывод 65 миллиардов параметров модели LLaMA до настройки инструкций , учитывая подсказку (выделено жирным шрифтом) ^[2]

Архитектура

Как и GPT-3, модели серии Llama представляют собой трансформеры, оснащенные только декодером , но есть и некоторые незначительные отличия:

Функция активации SwiGLU ^[41] вместо GeLU;
вращательные позиционные вложения (RoPE) ^[42] вместо абсолютных позиционных вложений;
RMSNorm ^[43] вместо нормализации слоя ; ^[44]

Наборы данных для обучения

Разработчики LLaMA сосредоточили свои усилия на масштабировании производительности модели за счет увеличения объема обучающих данных, а не количества параметров, полагая, что основная стоимость LLM приходится на выполнение выводов на обученной модели, а не на вычислительные затраты процесса обучения.

Базовые модели LLaMA 1 были обучены на наборе данных, содержащем 1,4 триллиона токенов, взятых из общедоступных источников данных, включая: ^[2]

Веб-страницы, полученные с помощью CommonCrawl
Открытые репозитории исходного кода с GitHub
Википедия на 20 языках
Книги, находящиеся в общественном достоянии, от Project Gutenberg
Books3 набор данных книг
Исходный код LaTeX для научных статей, загруженных в ArXiv
Вопросы и ответы с сайтов Stack Exchange

17 апреля 2023 года TogetherAI запустил проект под названием RedPajama для воспроизведения и распространения версии с открытым исходным кодом набора данных LLaMA. ^[45] Набор данных содержит приблизительно 1,2 триллиона токенов и доступен для скачивания. ^[46]

Основополагающие модели Llama 2 были обучены на наборе данных с 2 триллионами токенов. Этот набор данных был подобран так, чтобы удалить веб-сайты, которые часто раскрывают персональные данные людей. Он также повышает выборку источников, которые считаются заслуживающими доверия. ^[25] Llama 2 - Chat был дополнительно настроен на 27 540 парах «быстрый ответ», созданных для этого проекта, которые показали себя лучше, чем более крупные, но менее качественные сторонние наборы данных. Для выравнивания ИИ использовалось обучение с подкреплением и обратной связью от человека (RLHF) с комбинацией 1 418 091 метапримера и семи меньших наборов данных. Средняя глубина диалога составила 3,9 в метапримерах, 3,0 для наборов Anthropic Helpful и Anthropic Harmless и 1,0 для пяти других наборов, включая OpenAI Summarize, StackExchange и т. д.

Llama 3 состоит в основном из английских данных, с более чем 5% на более чем 30 других языках. Его набор данных был отфильтрован классификатором качества текста, а классификатор был обучен текстом, синтезированным Llama 2. ^[18]

Тонкая настройка

Модели Llama 1 доступны только как базовые модели с самоконтролируемым обучением и без тонкой настройки. Модели Llama 2 – Chat были получены из базовых моделей Llama 2. В отличие от GPT-4 , которая увеличивала длину контекста во время тонкой настройки, Llama 2 и Code Llama - Chat имеют одинаковую длину контекста в 4K токенов. Контролируемая тонкая настройка использовала функцию авторегрессионных потерь с обнуленной потерей токенов при пользовательских подсказках. Размер пакета составил 64.

Для выравнивания AI люди-аннотаторы писали подсказки, а затем сравнивали два выходных сигнала модели (бинарный протокол), давая уровни уверенности и отдельные метки безопасности с правом вето. Две отдельные модели вознаграждения были обучены на основе этих предпочтений по безопасности и полезности с использованием обучения с подкреплением на основе обратной связи с человеком (RLHF). Основным техническим вкладом является отход от исключительного использования оптимизации проксимальной политики (PPO) для RLHF — использовался новый метод, основанный на выборке отклонений , за которым последовал PPO.

Многооборотная согласованность в диалогах была нацелена на улучшение, чтобы гарантировать, что «системные сообщения» (начальные инструкции, такие как «говорить по-французски» и «вести себя как Наполеон») соблюдаются во время диалога. Это было достигнуто с помощью новой техники «призрачного внимания» во время обучения, которая объединяет соответствующие инструкции для каждого нового сообщения пользователя, но обнуляет функцию потерь для токенов в подсказке (более ранние части диалога).

Приложения

Центр исследований фундаментальных моделей (CRFM) Института Стэнфордского университета по человеческому искусственному интеллекту (HAI) выпустил Alpaca, учебный рецепт на основе модели LLaMA 7B, который использует метод «Self-Instruct» для настройки инструкций , чтобы получить возможности, сопоставимые с моделью OpenAI GPT-3 серии text-davinci-003, по скромной цене. ^[47]^{[48] [}^49] Файлы модели были официально удалены 21 марта 2023 года из-за расходов на хостинг и проблем безопасности, хотя код и статья остаются онлайн для справки. ^[50]^[51]^[52]

Meditron — это семейство Llama, настроенное на основе корпуса клинических руководств, документов PubMed и статей. Оно было создано исследователями из Школы компьютерных и коммуникационных наук École Polytechnique Fédérale de Lausanne и Медицинской школы Йельского университета . Оно демонстрирует повышенную производительность в медицинских бенчмарках, таких как MedQA и MedMCQA. ^[53]^[54]^[55]

Zoom использовал Meta Llama 2 для создания AI Companion, который может подводить итоги встреч, давать полезные советы по презентации и помогать с ответами на сообщения. Этот AI Companion работает на основе нескольких моделей, включая Meta Llama 2. ^[56]

Агентство Reuters сообщило в 2024 году, что многие китайские модели фондов использовали модели лам для своего обучения. ^[57]

llama.cpp

Разработчик программного обеспечения Георгий Герганов выпустил llama.cpp с открытым исходным кодом 10 марта 2023 года. Это повторная реализация LLaMA на C++ , позволяющая системам без мощного графического процессора запускать модель локально. ^[58] Проект llama.cpp представил формат файла GGUF, двоичный формат, который хранит как тензоры, так и метаданные. ^[59] Формат фокусируется на поддержке различных типов квантования, что может сократить использование памяти и увеличить скорость за счет снижения точности модели. ^[60]

llamafile, созданный Джастин Танни, является инструментом с открытым исходным кодом, который объединяет llama.cpp с моделью в один исполняемый файл. Танни и др. представили новые оптимизированные ядра умножения матриц для процессоров x86 и ARM, улучшающие производительность быстрой оценки для FP16 и 8-битных квантованных типов данных. ^[61]

Военный

В 2024 году сообщалось, что исследователи из Академии военных наук Народно-освободительной армии разработали военный инструмент с использованием Llama, который, по заявлению Meta Platforms, был несанкционированным из-за запрета на использование его модели в военных целях. ^[62]^[63]

Прием

Wired описывает версию Llama 3 с параметром 8B как «удивительно способную», учитывая ее размер. ^[64]

Реакция на интеграцию Llama компанией Meta в Facebook была неоднозначной: некоторые пользователи были в замешательстве после того, как Meta AI сообщил родительской группе, что у него есть ребенок. ^[65]

Согласно стенограмме доходов за четвертый квартал 2023 года, Meta приняла стратегию открытых весов для улучшения безопасности модели, скорости итерации, повышения принятия среди разработчиков и исследователей и для того, чтобы стать отраслевым стандартом. Llama 5, 6 и 7 запланированы на будущее. ^[66]

Выпуск моделей Llama вызвал значительные дебаты о преимуществах и рисках неправильного использования моделей с открытым весом. Такие модели могут быть настроены для устранения защитных мер, в частности, киберпреступниками, пока они не выполнят вредоносные запросы. Некоторые эксперты утверждают, что будущие модели могут способствовать нанесению ущерба больше, чем защите от него, например, делая относительно простым проектирование передового биологического оружия без специальных знаний. И наоборот, модели с открытым весом могут быть полезны для самых разных целей, включая исследования безопасности. ^{[67] Глава} Open Source Initiative Стефано Маффулли раскритиковал Meta за описание Llama как модели с открытым исходным кодом , заявив, что это вызывает путаницу среди пользователей и «загрязняет» термин. ^[68]

Смотрите также

Ссылки

^ "llama-models/models/llama3_2/LICENSE на главной · meta-llama/llama-models · GitHub". GitHub . Архивировано из оригинала 2024-09-29 . Получено 2024-10-20 .
^ abcde Туврон, Гюго; Лавриль, Тибо; Изакар, Готье; Мартине, Ксавье; Лашо, Мари-Анн; Лакруа, Тимоти; Розьер, Батист; Гоял, Наман; Хамбро, Эрик; Ажар, Фейсал; Родригес, Орельен; Жулен, Арман; Грейв, Эдуард; Лампле, Гийом (2023). «LLaMA: открытые и эффективные базовые языковые модели». arXiv : 2302.13971 [cs.CL].
^ abcd "Введение в LLaMA: фундаментальную модель большого языка с 65 миллиардами параметров". Meta AI . 24 февраля 2023 г. Архивировано из оригинала 3 марта 2023 г. Получено 16 марта 2023 г.
^ Найт, Уилл. «Meta выпускает Llama 3.2 и дает своему ИИ голос». Wired . ISSN 1059-1028 . Получено 25.09.2024 .
^ Малик, Юврадж; Пол, Кэти (25 февраля 2023 г.). «Meta подогревает гонку вооружений ИИ-компаний Big Tech с помощью новой языковой модели». Reuters.
^ abcd Винсент, Джеймс (8 марта 2023 г.). «Мощная языковая модель искусственного интеллекта Meta просочилась в сеть — что теперь происходит?». The Verge . Архивировано из оригинала 3 ноября 2023 г. Получено 16 марта 2023 г.
^ ab OpSec Online LLC (21 марта 2023 г.). "github/dmca - Уведомление о заявленном нарушении по электронной почте". GitHub. Архивировано из оригинала 10 апреля 2023 г. Получено 25 марта 2023 г.
^ Дэвид, Эмилия (30 октября 2023 г.). «Руководитель исследований ИИ в Meta хочет изменить лицензирование с открытым исходным кодом». The Verge . Архивировано из оригинала 14 сентября 2024 г. Получено 20 октября 2024 г.
^ abc "Meta и Microsoft представляют следующее поколение LLaMA". Meta . 18 июля 2023 г. Архивировано из оригинала 14 сентября 2023 г. Получено 21 июля 2023 г.
^ ab "Представляем Llama 3.1: наши самые эффективные модели на сегодняшний день". ai.meta.com . 23 июля 2024 г. Архивировано из оригинала 2024-07-23 . Получено 2024-07-23 .
^ Питерс, Джей; Винсент, Джеймс (24 февраля 2023 г.). «Meta имеет новую модель языка машинного обучения, чтобы напомнить вам, что она также занимается ИИ». The Verge .
^ «Встречайте своего нового помощника: Meta AI, созданный с помощью Llama 3». Meta . 18 апреля 2024 г. Архивировано из оригинала 7 октября 2024 г. Получено 20 октября 2024 г.
^ «Изучение возникающих способностей в больших языковых моделях». hai.stanford.edu . 13 сентября 2022 г.
^ "Внутренняя история создания ChatGPT от людей, которые его создали". MIT Technology Review . Архивировано из оригинала 2023-03-03 . Получено 2024-10-20 .
^ «ChatGPT не является «особенно инновационным» и «ничего революционного», говорит главный ученый Meta по искусственному интеллекту». ZDNET . Архивировано из оригинала 2023-02-17 . Получено 2024-10-20 .
^ Бадминтон, Ник (13 февраля 2023 г.). «Янн Лекун из Meta об авторегрессивных больших языковых моделях (LLM)». Futurist.com . Архивировано из оригинала 22 июля 2024 г. Получено 20 октября 2024 г.
^ "Янн Лекун на LinkedIn: Мое непоколебимое мнение о текущих (авторегрессивных) LLM". www.linkedin.com . Архивировано из оригинала 2024-09-17 . Получено 2024-10-20 .
^ abc "Представляем Meta Llama 3: самый эффективный из доступных LLM на сегодняшний день". ai.meta.com . 18 апреля 2024 г. Архивировано из оригинала 15.05.2024 . Получено 21.04.2024 .
^ "llama". GitHub . Архивировано из оригинала 15 марта 2023 . Получено 16 марта 2023 .
^ ab VK, Anirudh (6 марта 2023 г.). «Meta's LLaMA утекла в публичную сеть благодаря 4chan». Analytics India Magazine . Архивировано из оригинала 26 марта 2023 г. Получено 17 марта 2023 г.
^ "Экономьте пропускную способность, используя торрент для более эффективного распространения от ChristopherKing42 · Запрос на извлечение № 73 · facebookresearch/llama". GitHub . Архивировано из оригинала 10 апреля 2023 г. Получено 25 марта 2023 г.
^ "Загрузите веса из обнимающего лица, чтобы помочь нам сэкономить пропускную способность от Jainam213 · Запрос на извлечение № 109 · facebookresearch/llama". GitHub . Архивировано из оригинала 21 марта 2023 г. Получено 17 марта 2023 г.
^ Кокс, Джозеф (7 марта 2023 г.). «Мощная большая языковая модель Facebook просочилась в сеть». Vice . Архивировано из оригинала 6 апреля 2023 г. . Получено 17 марта 2023 г. .
^ Уиллисон, Саймон (11 марта 2023 г.). «Большие языковые модели переживают момент стабильной диффузии». Веблог Саймона Уиллисона . Архивировано из оригинала 16 марта 2023 г. Получено 16 марта 2023 г.
^ abc Туврон, Хьюго; Мартин, Луи; и др. (18 июля 2023 г.). «LLaMA-2: Open Foundation и тонко настроенные модели чата». arXiv : 2307.09288 [cs.CL].
^ Эдвардс, Бендж (2023-07-18). "Meta запускает LLaMA-2, исходно-доступную модель ИИ, которая допускает коммерческие приложения [Обновлено]". Ars Technica . Архивировано из оригинала 2023-11-07 . Получено 2023-08-08 .
^ "Представляем Code Llama, современную большую языковую модель для кодирования". ai.meta.com . Архивировано из оригинала 2024-09-27 . Получено 2024-10-20 .
^ Розьер, Батист; Геринг, Йонас; Глёкле, Фабиан; Сутла, Стен; Гат, Итай; Тан, Сяоцин Эллен; Ади, Йосси; Лю, Цзинъюй; Совестр, Ромен (31.01.2024). «Code Llama: модели открытого фундамента для кода». arXiv : 2308.12950 [cs.CL].
^ Wiggers, Kyle (18 апреля 2024 г.). «Meta выпускает Llama 3, утверждает, что это одна из лучших доступных открытых моделей». TechCrunch . Архивировано из оригинала 18 сентября 2024 г. Получено 20 октября 2024 г.
^ Манн, Тобиас (19 апреля 2024 г.). «Meta дебютирует с моделью большого языка Llama третьего поколения». The Register . Архивировано из оригинала 25 августа 2024 г. . Получено 20 октября 2024 г. .
^ Патель, Дваркеш (24.07.2024). «Марк Цукерберг — Llama 3, модели с открытым исходным кодом стоимостью 10 млрд долларов и Цезарь Август». www.dwarkeshpatel.com . Архивировано из оригинала 16.07.2024 . Получено 01.08.2024 . 8 миллиардов почти так же мощны, как и самая большая версия Llama 2, которую мы выпустили [...] даже к концу, это было... все еще учимся, верно, это похоже на то, что мы, вероятно, могли бы скормить ему больше токенов, и он стал бы несколько лучше, но я имею в виду, что в какой-то момент вы понимаете, что управляете компанией, вам нужно решать эти вопросы метаобоснования [...] как я хочу потратить наши графические процессоры
^ аб Дубей, Абхиманью; Джаухри, Абхинав; Пандей, Абхинав; Кадиан, Абхишек; Аль-Дахле, Ахмад; Летман, Аиша; Матур, Ахил; Шелтен, Алан; Ян, Эми (31 июля 2024 г.), The Llama 3 Стадо моделей , arXiv : 2407.21783
^ "Сокол приземлился в экосистеме Hugging Face". huggingface.co . Архивировано из оригинала 2023-06-20 . Получено 2023-06-20 .
^ "llama/MODEL_CARD.md at main · meta-llama/llama". GitHub . Архивировано из оригинала 2024-05-28 . Получено 2024-05-28 .
^ "Andrej Karpathy (18 апреля 2024 г.), Карточка модели также содержит более интересную информацию". Архивировано из оригинала 17 августа 2024 г. Получено 20 октября 2024 г.
^ "llama3/MODEL_CARD.md at main · meta-llama/llama3". GitHub . Архивировано из оригинала 2024-05-21 . Получено 2024-05-28 .
^ "llama-models/models/llama3_1/MODEL_CARD.md на главной · meta-llama/llama-models". GitHub . Архивировано из оригинала 2024-07-23 . Получено 2024-07-23 .
^ Робинсон, Кайли (2024-09-25). «Meta выпускает свою первую открытую модель ИИ, которая может обрабатывать изображения». The Verge . Получено 2024-09-25 .
^ Виггерс, Кайл (2024-09-25). "Модели искусственного интеллекта Llama от Meta становятся мультимодальными". TechCrunch . Архивировано из оригинала 2024-09-25 . Получено 2024-09-25 .
^ "Архивная копия". ai.meta.com . Архивировано из оригинала 2024-09-25 . Получено 2024-09-26 .{{cite web}}: CS1 maint: архивная копия как заголовок ( ссылка )
^ Шазир, Ноам (01.02.2020). «Варианты GLU улучшают Transformer». arXiv : 2002.05202 [cs.CL].
^ Су, Цзяньлинь; Лу, Ю; Пан, Шэнфэн; Муртадха, Ахмед; Вэнь, Бо; Лю, Юньфэн (01 апреля 2021 г.). «RoFormer: улучшенный трансформатор с встраиванием поворотного положения». arXiv : 2104.09864 [cs.CL].
^ Чжан, Бяо; Сеннрих, Рико (2019-10-01). "Среднеквадратическая нормализация слоя". arXiv : 1910.07467 [cs.LG].
^ Лей Ба, Джимми; Кирос, Джейми Райан; Хинтон, Джеффри Э. (2016-07-01). «Нормализация слоев». arXiv : 1607.06450 [stat.ML].
^ "RedPajama-Data: рецепт с открытым исходным кодом для воспроизведения набора данных обучения LLaMA". GitHub . Together. Архивировано из оригинала 7 ноября 2023 г. Получено 4 мая 2023 г.
^ "RedPajama-Data-1T". Hugging Face . Together. Архивировано из оригинала 3 ноября 2023 года . Получено 4 мая 2023 года .
^ Таори, Рохан; Гулраджани, Ишаан; Чжан, Тяньи; Дюбуа, Янь; Ли, Сюэчэнь; Гестрин, Карлос; Лян, Перси; Хашимото, Тацунори Б. (13 марта 2023 г.). «Альпака: сильная, воспроизводимая модель следования инструкциям». Стэнфордский центр исследований фундаментальных моделей. Архивировано из оригинала 6 апреля 2023 г.
^ Ван, Ичжун; Корди, Еганех; Мишра, Сваруп; Лю, Алиса; Смит, Ноа А.; Хашаби, Дэниел; Хаджиширзи, Ханнанех (2022). «Самообучение: согласование языковых моделей с самогенерируемыми инструкциями». arXiv : 2212.10560 [cs.CL].
^ "Stanford CRFM". crfm.stanford.edu . Архивировано из оригинала 2023-04-06 . Получено 2023-03-20 .
^ Куах, Катянна. «Стэнфорд переводит дорогостоящую и рискованную модель искусственного интеллекта Альпака в автономный режим». www.theregister.com .
^ "Исследователи Стэнфорда отвергли ИИ Альпака из-за стоимости и галлюцинаций". Gizmodo . 21 марта 2023 г. Архивировано из оригинала 12 мая 2024 г. Получено 20 октября 2024 г.
^ "alpaca-lora". GitHub . Архивировано из оригинала 4 апреля 2023 г. . Получено 5 апреля 2023 г. .
^ "Meditron: LLM-пакет для медицинских учреждений с ограниченными ресурсами, использующий Meta Llama". ai.meta.com .
^ Петерсен, Таня (28 ноября 2023 г.). «Новая большая языковая модель EPFL для медицинских знаний». Архивировано из оригинала 17 сентября 2024 г. Получено 20 октября 2024 г.
^ "epfLLM/meditron". epfLLM. 11 мая 2024 г. Архивировано из оригинала 27 сентября 2024 г. Получено 20 октября 2024 г.
^ «Как компании используют Meta Llama». Meta . 7 мая 2024 г. Архивировано из оригинала 27 сентября 2024 г. Получено 20 октября 2024 г.
^ «Насколько Китай зависит от технологий искусственного интеллекта США?». Reuters . 9 мая 2024 г.
^ Эдвардс, Бендж (2023-03-13). «Теперь вы можете запустить модель ИИ уровня GPT-3 на своем ноутбуке, телефоне и Raspberry Pi». Ars Technica . Архивировано из оригинала 2024-01-09 . Получено 2024-01-04 .
^ "GGUF". huggingface.co . Получено 9 мая 2024 г. .
^ Лабонн, Максим (29 ноября 2023 г.). «Quantize Llama models with GGUF and llama.cpp». Medium . Towards Data Science. Архивировано из оригинала 9 мая 2024 г. . Получено 9 мая 2024 г. .
^ Коннатсер, Мэтью. «Проект драйвера LLMafile LLM повышает производительность ядер ЦП». www.theregister.com . Архивировано из оригинала 10 мая 2024 г. . Получено 10 мая 2024 г. .
^ Чунг, Санни (31 октября 2024 г.). «PRC адаптирует Llama от Meta для военных и систем безопасности ИИ-приложений». Jamestown Foundation . Получено 2024-11-03 .
^ Помфрет, Джеймс; Панг, Джесси (1 ноября 2024 г.). «Китайские исследователи разрабатывают модель ИИ для военного использования на спине ламы Меты». Reuters . Получено 1 ноября 2024 г.
^ Найт, Уилл. «Meta's Open Source Llama 3 уже наступает на пятки OpenAI». Wired . Архивировано из оригинала 27.09.2024 . Получено 20.10.2024 .
^ "Усиленные агенты искусственного интеллекта Meta сбивают с толку пользователей Facebook". ABC News . 19 апреля 2024 г. Архивировано из оригинала 2024-09-17 . Получено 2024-10-20 .
^ "Архивная копия" (PDF) . Архивировано (PDF) из оригинала 2024-09-17 . Получено 2024-10-20 .{{cite web}}: CS1 maint: архивная копия как заголовок ( ссылка )
^ Найт, Уилл. «Новая модель искусственного интеллекта Llama 3.1 от Meta — бесплатная, мощная и рискованная». Wired . ISSN 1059-1028. Архивировано из оригинала 03.08.2024 . Получено 04.08.2024 .
^ Уотерс, Ричард (17 октября 2024 г.). «Meta под огнем критики за «загрязнение» открытого исходного кода». Financial Times .

Дальнейшее чтение

Хуан, Калли; О'Реган, Сильвия Варнем (5 сентября 2023 г.). «Внутри драмы искусственного интеллекта Меты: внутренние распри из-за вычислительной мощности» . Информация . Архивировано из оригинала 5 сентября 2023 г. . Получено 6 сентября 2023 г.

Внешние ссылки

Официальный сайт
Официальная организация Hugging Face для моделей Llama, Llama Guard и Prompt Guard