Ладонь

PaLM ( Pathways Language Model ) — это большая языковая модель на основе преобразователя с 540 миллиардами параметров , разработанная Google AI . ^[1] Исследователи также обучили меньшие версии PaLM, модели с 8 и 62 миллиардами параметров, чтобы проверить эффекты масштабирования модели. ^[2]

PaLM способен выполнять широкий спектр задач, включая рассуждения на основе здравого смысла , арифметические рассуждения, объяснение шуток , генерацию кода и перевод . ^[2]^[3]^[4]^[5] В сочетании с подсказками в виде цепочки мыслей PaLM достиг значительно более высокой производительности при работе с наборами данных, требующими рассуждений в несколько шагов, такими как текстовые задачи и вопросы на логику . ^[1]^[2]

Модель была впервые анонсирована в апреле 2022 года и оставалась закрытой до марта 2023 года, когда Google запустил API для PaLM и нескольких других технологий. ^[6] Первоначально API был доступен ограниченному числу разработчиков, которые присоединились к списку ожидания, прежде чем он был выпущен для публики. ^[7]

Google и DeepMind разработали версию PaLM 540B под названием Med-PaLM , которая точно настроена на медицинские данные и превосходит предыдущие модели по показателям ответов на медицинские вопросы . ^[8]^[9] Med-PaLM была первой, получившей проходной балл по вопросам медицинского лицензирования в США, и в дополнение к точным ответам как на вопросы с множественным выбором, так и на открытые вопросы, она также обеспечивает рассуждение и способна оценивать свои собственные ответы. ^[10]

Google также расширила PaLM, используя преобразователь зрения , чтобы создать PaLM-E , современную модель языка зрения, которая может использоваться для роботизированной манипуляции . ^[11]^[12] Модель может выполнять задачи в робототехнике на конкурентном уровне без необходимости переподготовки или тонкой настройки . ^[13]

В мае 2023 года Google анонсировала PaLM 2 на ежегодной конференции Google I/O . ^[14] Сообщается, что PaLM 2 представляет собой модель с 340 миллиардами параметров, обученную на 3,6 триллионах токенов. ^[15]

В июне 2023 года Google анонсировала AudioPaLM для перевода речи в речь, который использует архитектуру и инициализацию PaLM-2. ^[16]

Обучение

PaLM предварительно обучен на высококачественном корпусе из 780 миллиардов токенов, которые включают различные задачи и варианты использования естественного языка . Этот набор данных включает отфильтрованные веб-страницы, книги, статьи Википедии , новостные статьи, исходный код, полученный из репозиториев с открытым исходным кодом на GitHub , и разговоры в социальных сетях . ^[1]^[2] Он основан на наборе данных, используемом для обучения модели LaMDA Google . ^[2] Часть набора данных, посвященная разговорам в социальных сетях, составляет 50% корпуса, что помогает модели в ее разговорных возможностях. ^[2]

PaLM 540B обучался на двух модулях TPU v4 с 3072 чипами TPU v4 в каждом модуле, подключенных к 768 хостам, подключенным с использованием комбинации параллелизма модели и данных , что стало крупнейшей конфигурацией TPU. ^[2]^[17] Это позволило провести эффективное обучение в масштабе, используя 6144 чипа, и ознаменовало рекорд самой высокой эффективности обучения, достигнутой для LLM в этом масштабе: использование оборудования FLOPs составило 57,8%. ^[3]

Смотрите также

LaMDA , предшественник PaLM
Gemini , преемник PaLM
Шиншилла

Ссылки

^ abc Narang, Sharan; Chowdhery, Aakanksha. «Модель языка путей (PaLM): масштабирование до 540 миллиардов параметров для прорывной производительности». ai.googleblog.com . Получено 17 марта 2023 г. .
^ abcdefg Чоудхери, Ааканша; Наранг, Шаран; Девлин, Джейкоб; и др. (2022). «PaLM: масштабирование языкового моделирования с помощью путей». arXiv : 2204.02311 [cs.CL].
^ ab Anadiotis, George (12 апреля 2022 г.). «Google устанавливает планку для языковых моделей ИИ с помощью PaLM». VentureBeat . Получено 17 марта 2023 г. .
^ Бастиан, Маттиас (5 апреля 2022 г.). «Google PaLM: гигантский языковой ИИ может объяснять шутки». декодер . Получено 17 марта 2023 г.
^ "Google: Почему никто не говорит о PaLM". seekingalpha.com . 12 декабря 2022 г. . Получено 17 марта 2023 г. .
^ Винсент, Джеймс (14 марта 2023 г.). «Google открывает свою языковую модель ИИ PaLM, чтобы бросить вызов OpenAI и GPT-3». The Verge . Получено 17 марта 2023 г.
^ Хаффман, Скотт; Вудворд, Джош. «PaLM API & MakerSuite: доступный способ начать прототипирование и создание приложений генеративного ИИ» . Получено 17 марта 2023 г.
^ Сингхал, Каран; Азизи, Шекуфе; Ту, Дао; и др. (2022). «Большие языковые модели кодируют клинические знания». arXiv : 2212.13138 [cs.CL].
^ "MedPaLM: Новые чат-боты скоро будут лучше, чем ожидание врача". The Medical Futurist . 17 января 2023 г. Получено 17 марта 2023 г.
^ Матиас, Йосси; Коррадо, Грег (14 марта 2023 г.). «Наши последние обновления исследований ИИ в области здравоохранения». Google . Получено 17 марта 2023 г. .
^ Дрисс, Дэнни; Ся, Фэй; Саджади, Мехди С.М.; и др. (2023). «PaLM-E: воплощенная мультимодальная языковая модель». arXiv : 2303.03378 [cs.LG].
^ Дрисс, Дэнни; Флоренс, Пит. «PaLM-E: воплощенная мультимодальная языковая модель». ai.googleblog.com . Получено 17 марта 2023 г. .
^ Эдвардс, Бендж (7 марта 2023 г.). «PaLM-E от Google — это универсальный роботизированный мозг, который принимает команды». Ars Technica . Получено 17 марта 2023 г.
^ Лардинойс, Фредерик (10 мая 2023 г.). «Google запускает PaLM 2, свою следующую модель большого языка». TechCrunch . Архивировано из оригинала 10 мая 2023 г. Получено 10 мая 2023 г.
^ Элиас, Дженнифер (16 мая 2023 г.). «Новейшая модель искусственного интеллекта Google использует почти в пять раз больше текстовых данных для обучения, чем ее предшественница». CNBC . Получено 18 мая 2023 г.
^ "AudioPaLM". google-research.github.io . Получено 2023-06-30 .
^ "Эмпирический анализ обучения вычислительно-оптимальной большой языковой модели". www.deepmind.com . Получено 17 марта 2023 г. .