Ладонь

PaLM ( языковая модель путей ) — это большая языковая модель на основе преобразователя с 540 миллиардами параметров, разработанная Google AI . ^[1] Исследователи также обучили уменьшенные версии PaLM, модели с 8 и 62 миллиардами параметров, чтобы проверить влияние масштаба модели. ^[2]

PaLM способен решать широкий спектр задач, включая рассуждения на основе здравого смысла , арифметические рассуждения, объяснение шуток , генерацию кода и перевод . ^[2]^[3]^[4]^[5] В сочетании с подсказками по цепочке мыслей PaLM достиг значительно лучшей производительности при работе с наборами данных, требующими рассуждения из нескольких шагов, таких как словесные задачи и логические вопросы . ^[1]^[2]

Модель была впервые анонсирована в апреле 2022 года и оставалась частной до марта 2023 года, когда Google запустил API для PaLM и ряда других технологий. ^[6] Первоначально API был доступен ограниченному числу разработчиков, которые присоединились к списку ожидания, прежде чем он был выпущен для широкой публики. ^[7]

Google и DeepMind разработали версию PaLM 540B под названием Med-PaLM , которая точно настроена на медицинские данные и превосходит предыдущие модели по критериям ответов на медицинские вопросы . ^[8]^[9] Med-PaLM был первым, кто получил проходной балл по вопросам медицинского лицензирования в США, и помимо точных ответов как на вопросы с множественным выбором, так и на открытые вопросы, он также предоставляет аргументацию и способен оценить свои собственные ответы. . ^[10]

Google также расширила PaLM, используя преобразователь зрения, для создания PaLM-E , современной модели языка видения, которую можно использовать для роботизированных манипуляций . ^[11]^[12] Модель может выполнять задачи по робототехнике на конкурентной основе без необходимости переобучения или доводки . ^[13]

В мае 2023 года Google анонсировала PaLM 2 на ежегодной конференции Google I/O . ^[14] Сообщается, что PaLM 2 представляет собой модель с 340 миллиардами параметров, обученную на 3,6 триллионах токенов. ^[15]

В июне 2023 года Google анонсировала AudioPaLM для перевода речи в речь, который использует архитектуру и инициализацию PaLM-2. ^[16]

Обучение

PaLM предварительно обучен на высококачественном корпусе из 780 миллиардов токенов, которые включают в себя различные задачи на естественном языке и варианты использования. Этот набор данных включает в себя отфильтрованные веб-страницы, книги, статьи Википедии , новостные статьи, исходный код, полученный из репозиториев с открытым исходным кодом на GitHub , и разговоры в социальных сетях . ^[1]^[2] Он основан на наборе данных, который использовался для обучения модели Google LaMDA . ^[2] Часть набора данных, посвященная разговорам в социальных сетях, составляет 50% корпуса, что помогает модели в ее диалоговых возможностях. ^[2]

PaLM 540B обучался на двух модулях TPU v4 с 3072 чипами TPU v4 в каждом модуле, подключенных к 768 хостам, подключенным с использованием комбинации параллелизма модели и данных , что было самой большой конфигурацией TPU. ^[2]^[17] Это позволило провести эффективное обучение в большом масштабе с использованием 6144 чипов и ознаменовало рекорд самой высокой эффективности обучения, достигнутой для LLM в этом масштабе: использование аппаратных FLOP 57,8%. ^[3]

Смотрите также

LaMDA , предшественник PaLM
Gemini , преемник PaLM
Шиншилла

Ладонь

Обучение

Смотрите также

Рекомендации