stringtranslate.com

БЛУМ (языковая модель)

Большая многоязычная языковая модель открытого доступа BigScience ( BLOOM ) [1] [2] представляет собой авторегрессионную модель большого языка (LLM) на основе преобразователя со 176 миллиардами параметров . Модель, а также кодовая база и данные, используемые для ее обучения, распространяются по свободным лицензиям. [3] С марта по июль 2022 года BLOOM прошел обучение примерно на 366 миллиардах (1,6 ТБ) токенов. [4] [5]

BLOOM — это главный результат совместной инициативы BigScience [6] — годового исследовательского семинара, который проходил с мая 2021 по май 2022 года. BigScience возглавлялась HuggingFace , в нем приняли участие несколько сотен исследователей и инженеров из Франции и других стран, представляющих как академические круги, так и частный сектор. BigScience была поддержана крупномасштабным государственным грантом на вычисления на французском государственном суперкомпьютере Jean Zay, которым управляют GENCI и IDRIS ( CNRS ), на котором она проходила обучение.

Учебный корпус BLOOM, получивший название ROOTS, объединяет данные, извлеченные из последней на тот момент версии веб-корпуса OSCAR (38% ROOTS), и недавно собранные данные, извлеченные из вручную выбранного и документированного списка языковых источников данных. Он охватывает 46 естественных языков (в количествах от 30% всего набора данных для английского до 0,00002% для Чи Тумбука) и 13 языков программирования. [7]

Рекомендации

  1. ^ «BigScience Большая многоязычная языковая модель открытого доступа с открытой наукой» . Проверено 1 октября 2022 г.
  2. ^ Ле Скао Т, Фан А, Акики С, Павлик Э, Илич С, Хесслоу Д, Кастанье Р, Луччиони А, Ивон Ф, Галле М, Тоу Дж, Раш AM, Бидерман С, Вебсон А, Сасанка Амманаманчи П, Ван Т , Саго Б, Мюннигхофф Н, Вилланова дель Мораль А, Рувасе О, Боуден Р, Бекман С, Макмиллан-Мейджор А, Бельтаги И, Нгуен Х, Солнье Л, Тан С, Ортис Суарес П, Сан В, Лоренсон Х, Джернит Ю , Лоней Дж., Митчелл М., Раффель С. и др. (2022). «BLOOM: многоязычная языковая модель открытого доступа с 176 параметрами». arXiv : 2211.05100 .
  3. ^ "Лицензия BigScience RAIL" . Проверено 10 января 2024 г.
  4. ^ Хейккиля, Мелисса (12 июля 2022 г.). «БЛУМ: Внутри радикально нового проекта по демократизации ИИ». Обзор технологий Массачусетского технологического института . Проверено 26 декабря 2023 г.
  5. ^ «Выпуск крупнейшей в истории обученной многоязычной языковой модели открытой науки» . Французский национальный центр научных исследований . 12 июля 2022 г. Проверено 26 декабря 2023 г.
  6. ^ "Большая наука" . Проверено 10 января 2024 г.
  7. ^ Лоуренсон Х, Солнье Л, Ван Т, Акики С, Вилланова дель Мораль А, Ле Скао Т, Фон Верра Л, Моу С, Гонсалес Понферрада С, Нгуен Х, Фроберг Дж, Шашко М, Лёст Q, Макмиллан-Майор А, Дюпон Г, Бидерман С, Роджерс А, Беналлал Л, Де Тони Ф, Пистилли Г, Нгуен О, Никпур С, Масуд М, Коломбо П, де ла Роза Дж, Вильегас П, Дрозд Т, Лонгпре С, Нагель С, Вебер Л, Муньос М, Чжу Дж, Ван Стриен Д, Аляфеай З, Альмубарак К, Ву МК, Гонсалес-Диос И, Сороа А, Ло К, Дей М, Ортис Суарес П, Гокаслан А, Бозе С, Аделани Д, Фан Л , Тран Х, Ю И, Пай С, Чим Дж, Леперк В, Илич С, Митчелл М, Луччиони С, Джернит Й (2022). «Корпус BigScience ROOTS: составной многоязычный набор данных объемом 1,6 ТБ». arXiv : 2303.03915 .