PaLM ( Pathways Language Model ) — это большая языковая модель на основе преобразователя с 540 миллиардами параметров , разработанная Google AI . [1] Исследователи также обучили меньшие версии PaLM, модели с 8 и 62 миллиардами параметров, чтобы проверить эффекты масштабирования модели. [2]
PaLM способен выполнять широкий спектр задач, включая рассуждения на основе здравого смысла , арифметические рассуждения, объяснение шуток , генерацию кода и перевод . [2] [3] [4] [5] В сочетании с подсказками в виде цепочки мыслей PaLM достиг значительно более высокой производительности при работе с наборами данных, требующими рассуждений в несколько шагов, такими как текстовые задачи и вопросы на логику . [1] [2]
Модель была впервые анонсирована в апреле 2022 года и оставалась закрытой до марта 2023 года, когда Google запустил API для PaLM и нескольких других технологий. [6] Первоначально API был доступен ограниченному числу разработчиков, которые присоединились к списку ожидания, прежде чем он был выпущен для публики. [7]
Google и DeepMind разработали версию PaLM 540B под названием Med-PaLM , которая точно настроена на медицинские данные и превосходит предыдущие модели по показателям ответов на медицинские вопросы . [8] [9] Med-PaLM была первой, получившей проходной балл по вопросам медицинского лицензирования в США, и в дополнение к точным ответам как на вопросы с множественным выбором, так и на открытые вопросы, она также обеспечивает рассуждение и способна оценивать свои собственные ответы. [10]
Google также расширила PaLM, используя преобразователь зрения , чтобы создать PaLM-E , современную модель языка зрения, которая может использоваться для роботизированной манипуляции . [11] [12] Модель может выполнять задачи в робототехнике на конкурентном уровне без необходимости переподготовки или тонкой настройки . [13]
В мае 2023 года Google анонсировала PaLM 2 на ежегодной конференции Google I/O . [14] Сообщается, что PaLM 2 представляет собой модель с 340 миллиардами параметров, обученную на 3,6 триллионах токенов. [15]
В июне 2023 года Google анонсировала AudioPaLM для перевода речи в речь, который использует архитектуру и инициализацию PaLM-2. [16]
PaLM предварительно обучен на высококачественном корпусе из 780 миллиардов токенов, которые включают различные задачи и варианты использования естественного языка . Этот набор данных включает отфильтрованные веб-страницы, книги, статьи Википедии , новостные статьи, исходный код, полученный из репозиториев с открытым исходным кодом на GitHub , и разговоры в социальных сетях . [1] [2] Он основан на наборе данных, используемом для обучения модели LaMDA Google . [2] Часть набора данных, посвященная разговорам в социальных сетях, составляет 50% корпуса, что помогает модели в ее разговорных возможностях. [2]
PaLM 540B обучался на двух модулях TPU v4 с 3072 чипами TPU v4 в каждом модуле, подключенных к 768 хостам, подключенным с использованием комбинации параллелизма модели и данных , что стало крупнейшей конфигурацией TPU. [2] [17] Это позволило провести эффективное обучение в масштабе, используя 6144 чипа, и ознаменовало рекорд самой высокой эффективности обучения, достигнутой для LLM в этом масштабе: использование оборудования FLOPs составило 57,8%. [3]