stringtranslate.com

Закон нейронного масштабирования

В машинном обучении закон нейронного масштабирования — это закон масштабирования, связывающий параметры семейства нейронных сетей. [1] [2]

Введение

В целом нейронную модель можно охарактеризовать 4 параметрами: размер модели, размер набора обучающих данных, стоимость обучения, производительность после обучения. Каждую из этих четырех переменных можно точно определить как действительное число, и эмпирически установлено, что они связаны простыми статистическими законами , называемыми «законами масштабирования». [ нужна ссылка ] Обычно они записываются как (количество параметров, размер набора данных, вычислительные затраты, потери).

Размер модели

В большинстве случаев размер модели — это просто количество параметров. Однако при использовании разреженных моделей, таких как модели смешанных экспертов, возникает одна сложность . [3] В разреженных моделях во время каждого вывода используется только часть параметров. Для сравнения, большинство других типов нейронных сетей, таких как сети-трансформеры, всегда используют все свои параметры во время каждого вывода.

Размер набора обучающих данных

Размер набора обучающих данных обычно определяется количеством содержащихся в нем точек данных. Обычно предпочтительнее использовать более крупные наборы обучающих данных, поскольку они предоставляют более богатый и разнообразный источник информации для модели, на которой можно учиться. Это, в свою очередь, может привести к повышению производительности обобщения, когда модель применяется к невидимым данным. [4] Однако увеличение размера набора обучающих данных также увеличивает вычислительные ресурсы и время, необходимые для обучения модели.

При использовании метода «предварительное обучение, затем точная настройка», используемого в большинстве больших языковых моделей , существует два типа набора обучающих данных: набор данных для предварительного обучения и набор данных для точной настройки. Их размеры будут по-разному влиять на производительность модели. Как правило, размер набора данных точной настройки составляет менее 1% от размера набора данных предварительной настройки. [5]

В некоторых случаях для точной настройки достаточно небольшого объема данных высокого качества, а увеличение количества данных не приводит к повышению производительности. [5]

Стоимость обучения

Стоимость обучения обычно измеряется временем (сколько времени требуется для обучения модели) и вычислительными ресурсами (сколько вычислительной мощности и памяти требуется для обучения модели). Важно отметить, что стоимость обучения можно значительно снизить за счет эффективных алгоритмов обучения, оптимизированных программных библиотек и параллельных вычислений на специализированном оборудовании, таком как графические процессоры или TPU .

Стоимость обучения нейронной модели зависит от нескольких факторов, включая размер модели, размер набора обучающих данных, сложность алгоритма обучения и доступные вычислительные ресурсы. [4] В частности, удвоение набора обучающих данных не обязательно удваивает стоимость обучения, поскольку можно обучать модель несколько раз на одном и том же наборе данных (каждый из которых представляет собой « эпоху »).

Производительность

Производительность нейронной модели оценивается на основе ее способности точно прогнозировать выходные данные с учетом входных данных. Общие метрики для оценки эффективности модели включают: [4]

Производительность можно повысить, используя больше данных, более крупные модели, различные алгоритмы обучения, регуляризацию модели во избежание переобучения и раннюю остановку с использованием набора проверки.

Примеры

(Хестнесс, Наранг и др., 2017 г.)

Статья 2017 года [2] является общим ориентиром для законов нейронного масштабирования, подобранных с помощью статистического анализа экспериментальных данных. Предыдущие работы до 2000-х годов, как цитируется в статье, были либо теоретическими, либо на несколько порядков меньшими по масштабу. В то время как предыдущие работы обычно находили, что показатель масштабирования масштабируется как , с , в статье обнаружено, что .

Из факторов, которые они варьировали, только задача может изменить показатель степени . Изменение оптимизаторов архитектуры, регуляризаторов и функций потерь приведет только к изменению коэффициента пропорциональности, а не показателя степени. Например, для одной и той же задачи одна архитектура может иметь . Также было обнаружено, что для данной архитектуры количество параметров, необходимых для достижения минимального уровня потерь при фиксированном размере набора данных, растет, как и для другой экспоненты .

Они изучали машинный перевод с помощью LSTM ( ), генеративное языковое моделирование с помощью LSTM ( ), классификацию ImageNet с помощью ResNet ( ) и распознавание речи ( ).

(Хениган, Каплан и др., 2020 г.)

В ходе анализа 2020 года [8] были изучены статистические связи между значениями в широком диапазоне значений и обнаружены схожие законы масштабирования в диапазоне , и для нескольких модальностей (текст, видео, изображение, преобразование текста в изображение и т. д.). [8]

В частности, найденные им законы масштабирования таковы (Таблица 1 из [8] ):

Закон масштабирования был подтвержден в ходе обучения GPT-3 (рис. 3.1 [9] ).

Чешуйка шиншиллы (Хоффманн и др., 2022 г.)

Один конкретный закон масштабирования (« Шиншилловое масштабирование ») гласит, что для большой языковой модели (LLM), авторегрессионно обученной для одной эпохи, с косинусным графиком скорости обучения , мы имеем: [10]

а статистические параметры

Хотя [12] утверждает, что статистическая оценка немного неточна и должна составлять 0,000 .

Статистические законы аппроксимировались экспериментальными данными с .

Поскольку существует 4 переменные, связанные двумя уравнениями, наложение 1 дополнительного ограничения и 1 дополнительной цели оптимизации позволяет нам найти решение для всех четырех переменных. В частности, для любого фиксированного мы можем однозначно решить все 4 переменные, что минимизирует . Это дает нам оптимальное значение для любого фиксированного :

Существуют и другие оценки размера «эффективной для шиншиллы» модели и размера набора обучающих данных. Вышеупомянутое основано на статистической модели . Можно также напрямую подобрать статистический закон, не проходя обходного пути, для чего получим:

Проще говоря, закон масштабирования Chinchilla для обучения моделей языка Transformer предполагает, что при увеличении бюджета (в FLOP ) для достижения оптимального по вычислениям количества параметров модели (N) и количества токенов для обучения модели (D ) должно масштабироваться примерно в равных пропорциях. Этот вывод отличается от предыдущего закона масштабирования для моделей нейронного языка [11] , который гласит, что N должно масштабироваться быстрее, чем D. Несоответствие возникает из-за установки различной длины цикла для планировщиков скорости косинусного обучения . При оценке масштабирования Шиншиллы авторы установили длину цикла такой же, как и шаги обучения, поскольку экспериментальные результаты показывают, что более крупные циклы переоценивают потери моделей.

За пределами масштабирования шиншиллы

Поскольку масштабирование Шиншиллы было ориентиром для многих крупномасштабных тренировочных запусков, одновременно предпринимались попытки выйти «за рамки масштабирования Шиншиллы», то есть изменить некоторые части обучающего конвейера, чтобы получить те же потери с меньшими усилиями, или намеренно тренируйтесь дольше, чем «оптимально для шиншиллы».

Обычно цель состоит в том, чтобы увеличить показатель закона масштабирования, что означает, что те же потери можно обучить с гораздо меньшими вычислительными затратами. Например, фильтрация данных может увеличить показатель закона масштабирования. [13]

Другое направление исследований посвящено тому, как обращаться с ограниченными данными: согласно законам масштабирования Шиншиллы, размер обучающего набора данных для крупнейших языковых моделей уже приближается к тому, что доступно в Интернете. [14] обнаружили, что дополнение набора данных набором «целей шумоподавления», построенных на основе набора данных, повышает производительность. [15] изучает оптимальное масштабирование, когда все доступные данные уже исчерпаны (например, в редких языках), поэтому необходимо обучать несколько эпох на одном и том же наборе данных (тогда как для масштабирования Шиншиллы требуется только одна эпоха). Серия небольших языковых моделей Phi была обучена на данных, подобных учебникам, сгенерированных большими языковыми моделями, для которых данные ограничены только объемом доступных вычислений. [16]

Оптимальность шиншиллы была определена как «оптимальная для обучающих вычислений», тогда как в реальных моделях производственного качества после завершения обучения будет сделано много выводов. «Перетренированность» во время тренировки означает лучшую производительность при выводе. [17] По этой причине модели LLaMA были перетренированы. Последующие исследования обнаружили законы масштабирования в режиме переобучения для размеров наборов данных до 32 раз больше, чем оптимальный для Шиншиллы. [18]

Нарушенные законы нейронного масштабирования (BNSL)

Анализ 2022 года [19] показал, что многие масштабируемые поведения искусственных нейронных сетей следуют плавно нарушенной функциональной форме степенного закона :

в котором относится к масштабируемой величине (т . е . , количеству шагов обучения, числу шагов вывода или размеру входных данных модели) и относится к интересующей метрике оценки производительности нисходящего (или восходящего потока) (например, ошибка прогнозирования, перекрестная энтропия , ошибка калибровки, AUROC , процент баллов BLEU , балл F1 , награда, рейтинг Elo , уровень решения или балл FID ) в настройках с нулевым выстрелом , по запросу или с точной настройкой . Параметры находятся методом статистической аппроксимации.

На логарифмическом графике , когда оно не слишком велико и вычитается из оси Y, эта функциональная форма выглядит как серия линейных сегментов, соединенных дугами; переходы между сегментами называются «разрывами», отсюда и название « Законы сломанного нейронного масштабирования» (BNSL) .

Сценарии, в которых масштабируемое поведение искусственных нейронных сетей соответствует этой функциональной форме, включают крупномасштабное зрение , язык , аудио, видео, диффузию , генеративное моделирование , мультимодальное обучение , контрастное обучение , согласование ИИ , возможности ИИ, робототехнику и т. д. обобщение нераспределенного распределения (OOD), непрерывное обучение, трансферное обучение , оценка / калибровка неопределенности , обнаружение внераспределения , состязательная устойчивость , дистилляция , разреженность, извлечение, квантование, обрезка , справедливость , молекулы, компьютерное программирование/кодирование, математика словесные задачи, арифметика, возникающие способности , двойное спуск , обучение с учителем , обучение без учителя / самоконтроля и обучение с подкреплением (один агент и несколько агентов ).

Архитектуры, для которых поведение масштабирования искусственных нейронных сетей соответствует этой функциональной форме, включают ResNets , Transformers , MLP , MLP-Mixers, рекуррентные нейронные сети , сверточные нейронные сети , графовые нейронные сети , U-сети , кодировщик-декодер (и Модели только для кодировщика (и только для декодера), ансамбли (и не-ансамбли), модели MoE (смешанные эксперты) (и не-MoE), а также модели с разреженным сокращением (и неразреженным необрезанным).

Другие примеры

Трансформаторы зрения

Трансформаторы зрения , как и преобразователи языка, демонстрируют законы масштабирования. Исследование 2022 года обучило преобразователи зрения с подсчетом параметров на наборах изображений размеров для вычислений (в единицах TPUv3-core-days). [20]

После обучения модели она настраивается на обучающем наборе ImageNet . Пусть – вероятность ошибки точно настроенной модели, классифицирующей набор тестов ImageNet. Они нашли .

Нейронный машинный перевод

Горбани, Бехруз и др. [21] изучали законы масштабирования для нейронного машинного перевода (в частности, английский в качестве источника и немецкий в качестве целевого) в моделях кодировщика-декодера Transformer , обученных до сходимости на одних и тех же наборах данных (таким образом, они не соответствовали законам масштабирования для вычисления стоимости или размера набора данных). ). Они варьировались. Они нашли три результата:

Авторы предполагают, что наборы данных, основанные на исходных данных, имеют однородные и скучные целевые предложения, и поэтому модель, обученная прогнозировать целевые предложения, быстро переобучится.

[23] обучили Трансформаторы для машинного перевода с размерами по размерам наборов данных . Они обнаружили закон масштабирования Каплана и др. (2020) [11] , применимый к машинному переводу: . Они также обнаружили, что показатель BLEU оценивается как .

Трансферное обучение

Эрнандес, Дэнни и др. [24] изучали законы масштабирования для трансферного обучения в языковых моделях. Они обучали семью Трансформеров тремя способами:

Идея состоит в том, что предварительное обучение английскому языку должно помочь модели добиться минимальных потерь на тестовом наборе текста Python. Предположим, что модель имеет параметр count , и после точной настройки на токенах Python в ней возникают некоторые потери . Мы говорим, что его «количество переданных токенов» равно , если другая модель с тем же самым достигает того же результата после обучения на токенах Python.

Они нашли для предварительного обучения английскому тексту, а также для предварительного обучения английскому и коду, отличному от Python.

Рекомендации

  1. ^ Бахри, Ясаман; Дайер, Итан; Каплан, Джаред; Ли, Джэхун; Шарма, Уткарш (12 февраля 2021 г.). «Объяснение законов нейронного масштабирования». arXiv : 2102.06701 [cs.LG].
  2. ^ аб Хестнесс, Джоэл; Наранг, Шаран; Ардалани, Ньюша; Диамос, Грегори; Джун, Хиу; Кианинежад, Хасан; Патвари, доктор Мостофа Али; Ян, Ян; Чжоу, Яньци (01 декабря 2017 г.). «Масштабирование глубокого обучения предсказуемо эмпирически». arXiv : 1712.00409 [cs.LG].
  3. ^ Раджбхандари, Самьям; Ли, Цунлун; Яо, Чжэвэй; Чжан, Минцзя; Аминабади, Реза Яздани; Аван, Аммар Ахмад; Рэсли, Джефф; Хэ, Юйсюн (28 июня 2022 г.). «DeepSpeed-MoE: развитие умозаключений и обучения смешанных экспертов для создания масштабов искусственного интеллекта следующего поколения». Материалы 39-й Международной конференции по машинному обучению . ПМЛР: 18332–18346. arXiv : 2201.05596 .
  4. ^ abc Гудфеллоу И., Бенджио Ю. и Курвиль А. (2016). Глубокое обучение. МТИ Пресс.
  5. ^ Аб Чжоу, Чунтинг; Лю, Пэнфэй; Сюй, Пусинь; Айер, Шрини; Сунь, Цзяо; Мао, Юнин; Ма, Сюэчжэ; Эфрат, Авиа; Ю, Пин; Ю, Лили; Чжан, Сьюзен; Гош, Гарги; Льюис, Майк; Зеттлмойер, Люк; Леви, Омер (1 мая 2023 г.). «ЛИМА: для согласования меньше, да лучше». arXiv : 2305.11206 [cs.CL].
  6. ^ Джонс, Энди Л. (2021). «Масштабирование законов масштабирования с помощью настольных игр». arXiv : 2104.03113 [cs.LG].
  7. ^ Таблица лидеров чат-бота LMSYS
  8. ^ abc Сэм, Хениган, Том Каплан, Джаред Кац, Мор Чен, Марк Хессе, Кристофер Джексон, Джейкоб Джун, Хиву Браун, Том Б. Дхаривал, Прафулла Грей, Скотт Халси, Крис Манн, Бенджамин Рэдфорд, Алек Рамеш, Адитья Райдер, Ник Зиглер, Дэниел М. Шульман, Джон Амодей, Дарио МакКэндлиш (27 октября 2020 г.). Законы масштабирования для авторегрессионного генеративного моделирования. ОКЛК  1228442047.{{cite book}}: CS1 maint: multiple names: authors list (link)
  9. ^ Браун, Том Б.; Манн, Бенджамин; Райдер, Ник; Суббия, Мелани; Каплан, Дж.; Дхаривал, Прафулла; Нилакантан, Арвинд; Шьям, Пранав; Састри, Гириш; Аскелл, Аманда; Агарвал, Сандхини; Герберт-Восс, Ариэль; Крюгер, Гретхен; Хениган, Т.; Чайлд, Ревон (28 мая 2020 г.). «Языковые модели изучаются немногими». arXiv : 2005.14165 [cs.CL].
  10. ^ Хоффманн, Джордан; Боржо, Себастьян; Менш, Артур; Бучацкая Елена; Кай, Тревор; Резерфорд, Элиза; Касас, Диего де Лас; Хендрикс, Лиза Энн; Вельбл, Йоханнес; Кларк, Эйдан; Хенниган, Том; Ноланд, Эрик; Милликан, Кэти; Дрессе, Джордж ван ден; Дамок, Богдан (29 марта 2022 г.). «Обучение оптимальных для вычислений моделей большого языка». arXiv : 2203.15556 [cs.CL].
  11. ^ abc Каплан, Джаред; МакКэндлиш, Сэм; Хениган, Том; Браун, Том Б.; Шахматы, Бенджамин; Дитя, Ревон; Грей, Скотт; Рэдфорд, Алек; Ву, Джеффри; Амодей, Дарио (2020). «Законы масштабирования для моделей нейронного языка». КОРР . абс/2001.08361. arXiv : 2001.08361 .
  12. ^ Бесироглу, Тамай; Эрдил, Эге; Барнетт, Мэтью; Вы, Джош (15 апреля 2024 г.), Масштабирование шиншиллы: попытка репликации, arXiv : 2404.10102 , получено 25 апреля 2024 г.
  13. ^ Соршер, Бен; Гейрос, Роберт; Шекхар, Шашанк; Гангули, Сурья; Моркос, Ари С. (21 апреля 2023 г.), За пределами законов нейронного масштабирования: масштабирование по степенному закону посредством обрезки данных , arXiv : 2206.14486
  14. ^ Тай, Йи; Вэй, Джейсон; Чунг, Хён Вон; Тран, Винь К.; Итак, Дэвид Р.; Шакери, Сиамак; Гарсия, Ксавьер; Чжэн, Хуайсю Стивен; Рао, Цзиньфэн (16 ноября 2022 г.), Преодоление законов масштабирования с дополнительными вычислениями на 0,1% , arXiv : 2210.11399
  15. ^ Мюннигофф, Никлас; Раш, Александр; Барак, Вооз; Ле Скао, Тевен; Тази, Нуаман; Пиктус, Александра; Пыйсало, Сампо; Вольф, Томас; Раффель, Колин А. (15 декабря 2023 г.). «Масштабирование языковых моделей с ограничением данных». Достижения в области нейронных систем обработки информации . 36 : 50358–50376. arXiv : 2305.16264 .
  16. ^ Ли, Юаньчжи; Бубек, Себастьен; Эльдан, Ронен; Дель Джорно, Элли; Гунасекар, Сурия; Ли, Инь Тат (11 сентября 2023 г.), Учебники - все, что вам нужно II: технический отчет phi-1.5 , arXiv : 2309.05463
  17. ^ Сардана, Нихил; Франкл, Джонатан (31 декабря 2023 г.), За пределами оптимального для шиншиллы: учет выводов в законах масштабирования языковой модели , arXiv : 2401.00448
  18. ^ Гадре, Самир Ицхак; Смирнис, Георгиос; Шанкар, Вайшаал; Гуруранган, Сучин; Вортсман, Митчелл; Шао, Рулин; Меркат, Жан; Фанг, Алекс; Ли, Джеффри (13 марта 2024 г.), Языковые модели надежно масштабируются при чрезмерном обучении и выполнении последующих задач , arXiv : 2403.08540
  19. ^ Кабальеро, Итан; Гупта, Кшитидж; Риш, Ирина; Крюгер, Дэвид (2022). «Нарушенные законы нейронного масштабирования». arXiv : 2210.14891 [cs.LG].
  20. ^ Чжай, Сяохуа; Колесников, Александр; Хоулсби, Нил; Бейер, Лукас (2022). «Масштабирующие преобразователи зрения»: 12104–12113. {{cite journal}}: Требуется цитировать журнал |journal=( помощь )
  21. ^ аб Горбани, Бехруз; Фират, Орхан; Фрайтаг, Маркус; Бапна, Анкур; Крикун, Максим; Гарсия, Ксавьер; Чельба, Киприан; Черри, Колин (01 сентября 2021 г.). «Законы масштабирования для нейронного машинного перевода». arXiv : 2109.07740 [cs.LG].
  22. ^ Чен, Миа Сюй; Фират, Орхан; Бапна, Анкур; Джонсон, Мелвин; Машери, Вольфганг; Фостер, Джордж; Джонс, Лион; Шустер, Майк; Шазир, Ноам; Пармар, Ники; Васвани, Ашиш; Ушкорейт, Якоб; Кайзер, Лукаш; Чен, Чжифэн; У, Юнхуэй (июль 2018 г.). «Лучшее из обоих миров: объединение последних достижений в области нейронного машинного перевода». Материалы 56-го ежегодного собрания Ассоциации компьютерной лингвистики (Том 1: Длинные статьи) . Мельбурн, Австралия: Ассоциация компьютерной лингвистики: 76–86. arXiv : 1804.09849 . дои : 10.18653/v1/P18-1008.
  23. ^ Гордон, Митчелл А; Да, Кевин; Каплан, Джаред (2021). «Законы масштабирования данных и параметров для нейронного машинного перевода». Материалы конференции 2021 года по эмпирическим методам обработки естественного языка . Страудсбург, Пенсильвания, США: Ассоциация компьютерной лингвистики. стр. 5915–5922. doi : 10.18653/v1/2021.emnlp-main.478 .
  24. ^ Эрнандес, Дэнни; Каплан, Джаред; Хениган, Том; МакКэндлиш, Сэм (01 февраля 2021 г.). «Законы масштабирования для передачи». arXiv : 2102.01293 [cs.LG].