Закон нейронного масштабирования

В машинном обучении закон нейронного масштабирования — это закон масштабирования, связывающий параметры семейства нейронных сетей. ^[1]^[2]

Введение

В целом нейронную модель можно охарактеризовать 4 параметрами: размер модели, размер набора обучающих данных, стоимость обучения, производительность после обучения. Каждую из этих четырех переменных можно точно определить как действительное число, и эмпирически установлено, что они связаны простыми статистическими законами , называемыми «законами масштабирования». ^{[ нужна ссылка ]} Обычно они записываются как (количество параметров, размер набора данных, вычислительные затраты, потери). $N,D,C,L$

Размер модели

В большинстве случаев размер модели — это просто количество параметров. Однако при использовании разреженных моделей, таких как модели смешанных экспертов, возникает одна сложность . ^[3] В разреженных моделях во время каждого вывода используется только часть параметров. Для сравнения, большинство других типов нейронных сетей, таких как сети-трансформеры, всегда используют все свои параметры во время каждого вывода.

Размер набора обучающих данных

Размер набора обучающих данных обычно определяется количеством содержащихся в нем точек данных. Обычно предпочтительнее использовать более крупные наборы обучающих данных, поскольку они предоставляют более богатый и разнообразный источник информации для модели, на которой можно учиться. Это, в свою очередь, может привести к повышению производительности обобщения, когда модель применяется к невидимым данным. ^[4] Однако увеличение размера набора обучающих данных также увеличивает вычислительные ресурсы и время, необходимые для обучения модели.

При использовании метода «предварительное обучение, затем точная настройка», используемого в большинстве больших языковых моделей , существует два типа набора обучающих данных: набор данных для предварительного обучения и набор данных для точной настройки. Их размеры будут по-разному влиять на производительность модели. Как правило, размер набора данных точной настройки составляет менее 1% от размера набора данных предварительной настройки. ^[5]

В некоторых случаях для точной настройки достаточно небольшого объема данных высокого качества, а увеличение количества данных не приводит к повышению производительности. ^[5]

Стоимость обучения

Стоимость обучения обычно измеряется временем (сколько времени требуется для обучения модели) и вычислительными ресурсами (сколько вычислительной мощности и памяти требуется для обучения модели). Важно отметить, что стоимость обучения можно значительно снизить за счет эффективных алгоритмов обучения, оптимизированных программных библиотек и параллельных вычислений на специализированном оборудовании, таком как графические процессоры или TPU .

Стоимость обучения нейронной модели зависит от нескольких факторов, включая размер модели, размер набора обучающих данных, сложность алгоритма обучения и доступные вычислительные ресурсы. ^[4] В частности, удвоение набора обучающих данных не обязательно удваивает стоимость обучения, поскольку можно обучать модель несколько раз на одном и том же наборе данных (каждый из которых представляет собой « эпоху »).

Производительность

Производительность нейронной модели оценивается на основе ее способности точно прогнозировать выходные данные с учетом входных данных. Общие метрики для оценки эффективности модели включают: ^[4]

точность , точность, отзыв и оценка F1 для задач классификации;
среднеквадратическая ошибка (MSE) или средняя абсолютная ошибка (MAE) для задач регрессии;
отрицательное логарифмическое правдоподобие на токен (логарифм недоумения ) для языкового моделирования .
Рейтинг Эло в соревновании с другими моделями, такими как игровой процесс ^[6] или предпочтение судьи-человека ^[7]

Производительность можно повысить, используя больше данных, более крупные модели, различные алгоритмы обучения, регуляризацию модели во избежание переобучения и раннюю остановку с использованием набора проверки.

Примеры

(Хестнесс, Наранг и др., 2017 г.)

Статья 2017 года ^[2] является общим ориентиром для законов нейронного масштабирования, подобранных с помощью статистического анализа экспериментальных данных. Предыдущие работы до 2000-х годов, как цитируется в статье, были либо теоретическими, либо на несколько порядков меньшими по масштабу. В то время как предыдущие работы обычно находили, что показатель масштабирования масштабируется как , с , в статье обнаружено, что . $L\propto D^{-\alpha }$ $\alpha \in \{0,5,1,2\}$ $\alpha \in [0,07,0,35]$

Из факторов, которые они варьировали, только задача может изменить показатель степени . Изменение оптимизаторов архитектуры, регуляризаторов и функций потерь приведет только к изменению коэффициента пропорциональности, а не показателя степени. Например, для одной и той же задачи одна архитектура может иметь . Также было обнаружено, что для данной архитектуры количество параметров, необходимых для достижения минимального уровня потерь при фиксированном размере набора данных, растет, как и для другой экспоненты . $\альфа$ $L=1000D^{-0,3}$ $L=500D^{-0,3}$ $N\propto D^{\beta }$ $\бета$

Они изучали машинный перевод с помощью LSTM ( ), генеративное языковое моделирование с помощью LSTM ( ), классификацию ImageNet с помощью ResNet ( ) и распознавание речи ( ). $\alpha \sim 0.13$ $\alpha \in [0.06,0.09],\beta \approx 0,7$ $\alpha \in [0,3,0,5],\beta \approx 0,6$ $\альфа \приблизительно 0,3$

(Хениган, Каплан и др., 2020 г.)

В ходе анализа 2020 года ^[8] были изучены статистические связи между значениями в широком диапазоне значений и обнаружены схожие законы масштабирования в диапазоне , и для нескольких модальностей (текст, видео, изображение, преобразование текста в изображение и т. д.). ^[8] $C,N,D,L$ $N\in [10^{3},10^{9}]$ $C\in [10^{12},10^{21}]$

В частности, найденные им законы масштабирования таковы (Таблица 1 из ^[8] ):

Для каждой модальности они фиксировали одну из двух и, варьируя другую ( изменяется с помощью ), достижимая потеря теста удовлетворяет $C,N$ $D$ $D=C/6N$
$L=L_{0}+\left({\frac {x_{0}}{x}}\right)^{\alpha }$
где – варьируемая переменная, а – параметры, которые необходимо найти путем статистической аппроксимации. Параметр является самым важным. $х$ $L_{0},x_{0},\alpha$ $\альфа$
- When – варьируемая переменная, колеблется от до в зависимости от модальности модели. Это соответствует бумаге для чешуи шиншиллы. $N$ $\альфа$ $0.037$ $0.24$ $\alpha =0.34$
- When – варьируемая переменная, колеблется от до в зависимости от модальности модели. Это соответствует бумаге для чешуи шиншиллы. $C$ $\alpha$ $0.048$ $0.19$ $\beta =0.28$
При фиксированном вычислительном бюджете оптимальное количество параметров модели постоянно составляет около $N_{opt}(C)=\left({\frac {C}{5\times 10^{-12}{\text{petaFLOP-day}}}}\right)^{0.7}=9.0\times 10^{-7}C^{0.7}$ Для разных модальностей этот параметр варьируется до 10 раз. Параметр экспоненты варьируется от до для разных модальностей. Этот показатель соответствует шкале из бумаги о масштабировании Шиншиллы. $9.0\times 10^{-7}$ $0.7$ $0.64$ $0.75$ $\approx 0.5$
«Настоятельно рекомендуется» (но не проверено статистически), что . Этот показатель соответствует шкале из бумаги о масштабировании Шиншиллы. $D_{opt}(C)\propto N_{opt}(C)^{0.4}\propto C^{0.28}$ $\approx 0.5$

Закон масштабирования был подтвержден в ходе обучения GPT-3 (рис. 3.1 ^[9] ). $L=L_{0}+(C_{0}/C)^{0.048}$

Чешуйка шиншиллы (Хоффманн и др., 2022 г.)

Один конкретный закон масштабирования (« Шиншилловое масштабирование ») гласит, что для большой языковой модели (LLM), авторегрессионно обученной для одной эпохи, с косинусным графиком скорости обучения , мы имеем: ^[10]

{\begin{cases}C=C_{0}ND\\L={\frac {A}{N^{\alpha }}}+{\frac {B}{D^{\beta }}}+L_{0}\end{cases}}

$C$ — стоимость обучения модели в флопах .
$N$ количество параметров в модели.
$D$ — количество токенов в обучающем наборе.
$L$ — это средняя отрицательная логарифмическая потеря правдоподобия на токен ( nats /token), достигнутая обученным LLM на тестовом наборе данных.
- $L_{0}$ представляет собой потерю идеального генеративного процесса на тестовых данных
- ${\frac {A}{N^{\alpha }}}$ отражает тот факт, что модель языка Transformer с параметрами уступает идеальному генеративному процессу. $N$
- ${\frac {B}{D^{\beta }}}$ отражает тот факт, что модель, обученная на токенах, уступает идеальному генеративному процессу $D$

а статистические параметры

$C_{0}=6$ Это означает, что обучение на одном токене стоит 6 флопов на каждый параметр. Это оценено Kaplan et al. ^[11] Обратите внимание, что стоимость обучения намного выше, чем стоимость вывода, поскольку обучение включает в себя как прямые, так и обратные проходы , тогда как вывод требует от 1 до 2 флопс на каждый параметр для вывода по одному токену.
$\alpha =0.34,\beta =0.28,A=406.4,B=410.7,L_{0}=1.69$ .

Хотя ^[12] утверждает, что статистическая оценка немного неточна и должна составлять 0,000 . $\alpha =0.34,\beta =0.28,A=406.4,B=410.7,L_{0}=1.69$

Статистические законы аппроксимировались экспериментальными данными с . $N\in [7\times 10^{7},1.6\times 10^{10}],D\in [5\times 10^{9},5\times 10^{11}],C\in [10^{18},10^{24}]$

Поскольку существует 4 переменные, связанные двумя уравнениями, наложение 1 дополнительного ограничения и 1 дополнительной цели оптимизации позволяет нам найти решение для всех четырех переменных. В частности, для любого фиксированного мы можем однозначно решить все 4 переменные, что минимизирует . Это дает нам оптимальное значение для любого фиксированного : $C$ $L$ $D_{opt}(C),N_{opt}(C)$ $C$

N_{opt}(C)=G\left({\frac {C}{6}}\right)^{a},\quad D_{opt}(C)=G^{-1}\left({\frac {C}{6}}\right)^{b},\quad {\text{ where }}\quad G=\left({\frac {\alpha A}{\beta B}}\right)^{\frac {1}{\alpha +\beta }},\quad a={\frac {\beta }{\alpha +\beta }}{\text{, and }}b={\frac {\alpha }{\alpha +\beta }}{\text{. }}

{\begin{cases}N_{opt}(C)=0.6\;C^{0.45}\\D_{opt}(C)=0.3\;C^{0.55}\\L_{opt}(C)=1070\;C^{-0.154}+1.7\end{cases}}

Существуют и другие оценки размера «эффективной для шиншиллы» модели и размера набора обучающих данных. Вышеупомянутое основано на статистической модели . Можно также напрямую подобрать статистический закон, не проходя обходного пути, для чего получим: $L={\frac {A}{N^{\alpha }}}+{\frac {B}{D^{\beta }}}+L_{0}$ $D_{opt}(C),N_{opt}(C)$

{\begin{cases}N_{opt}(C)=0.1\;C^{0.5}\\D_{opt}(C)=1.7\;C^{0.5}\end{cases}}

Проще говоря, закон масштабирования Chinchilla для обучения моделей языка Transformer предполагает, что при увеличении бюджета (в FLOP ) для достижения оптимального по вычислениям количества параметров модели (N) и количества токенов для обучения модели (D ) должно масштабироваться примерно в равных пропорциях. Этот вывод отличается от предыдущего закона масштабирования для моделей нейронного языка ^[11] , который гласит, что N должно масштабироваться быстрее, чем D. Несоответствие возникает из-за установки различной длины цикла для планировщиков скорости косинусного обучения . При оценке масштабирования Шиншиллы авторы установили длину цикла такой же, как и шаги обучения, поскольку экспериментальные результаты показывают, что более крупные циклы переоценивают потери моделей.

За пределами масштабирования шиншиллы

Поскольку масштабирование Шиншиллы было ориентиром для многих крупномасштабных тренировочных запусков, одновременно предпринимались попытки выйти «за рамки масштабирования Шиншиллы», то есть изменить некоторые части обучающего конвейера, чтобы получить те же потери с меньшими усилиями, или намеренно тренируйтесь дольше, чем «оптимально для шиншиллы».

Обычно цель состоит в том, чтобы увеличить показатель закона масштабирования, что означает, что те же потери можно обучить с гораздо меньшими вычислительными затратами. Например, фильтрация данных может увеличить показатель закона масштабирования. ^[13]

Другое направление исследований посвящено тому, как обращаться с ограниченными данными: согласно законам масштабирования Шиншиллы, размер обучающего набора данных для крупнейших языковых моделей уже приближается к тому, что доступно в Интернете. ^[14] обнаружили, что дополнение набора данных набором «целей шумоподавления», построенных на основе набора данных, повышает производительность. ^[15] изучает оптимальное масштабирование, когда все доступные данные уже исчерпаны (например, в редких языках), поэтому необходимо обучать несколько эпох на одном и том же наборе данных (тогда как для масштабирования Шиншиллы требуется только одна эпоха). Серия небольших языковых моделей Phi была обучена на данных, подобных учебникам, сгенерированных большими языковыми моделями, для которых данные ограничены только объемом доступных вычислений. ^[16]

Оптимальность шиншиллы была определена как «оптимальная для обучающих вычислений», тогда как в реальных моделях производственного качества после завершения обучения будет сделано много выводов. «Перетренированность» во время тренировки означает лучшую производительность при выводе. ^[17] По этой причине модели LLaMA были перетренированы. Последующие исследования обнаружили законы масштабирования в режиме переобучения для размеров наборов данных до 32 раз больше, чем оптимальный для Шиншиллы. ^[18]

Нарушенные законы нейронного масштабирования (BNSL)

Анализ 2022 года ^[19] показал, что многие масштабируемые поведения искусственных нейронных сетей следуют плавно нарушенной функциональной форме степенного закона :

$y=a+{\bigg (}bx^{-c_{0}}{\bigg )}\prod _{i=1}^{n}\left(1+\left({\frac {x}{d_{i}}}\right)^{1/f_{i}}\right)^{-c_{i}*f_{i}}$

в котором относится к масштабируемой величине (т . е . , количеству шагов обучения, числу шагов вывода или размеру входных данных модели) и относится к интересующей метрике оценки производительности нисходящего (или восходящего потока) (например, ошибка прогнозирования, перекрестная энтропия , ошибка калибровки, AUROC , процент баллов BLEU , балл F1 , награда, рейтинг Elo , уровень решения или балл FID ) в настройках с нулевым выстрелом , по запросу или с точной настройкой . Параметры находятся методом статистической аппроксимации. $x$ $C$ $N$ $D$ $y$ $a,b,c_{0},c_{1}...c_{n},d_{1}...d_{n},f_{1}...f_{n}$

На логарифмическом графике , когда оно не слишком велико и вычитается из оси Y, эта функциональная форма выглядит как серия линейных сегментов, соединенных дугами; переходы между сегментами называются «разрывами», отсюда и название « Законы сломанного нейронного масштабирования» (BNSL) . $f_{i}$ $a$ $n$

Сценарии, в которых масштабируемое поведение искусственных нейронных сетей соответствует этой функциональной форме, включают крупномасштабное зрение , язык , аудио, видео, диффузию , генеративное моделирование , мультимодальное обучение , контрастное обучение , согласование ИИ , возможности ИИ, робототехнику и т. д. обобщение нераспределенного распределения (OOD), непрерывное обучение, трансферное обучение , оценка / калибровка неопределенности , обнаружение внераспределения , состязательная устойчивость , дистилляция , разреженность, извлечение, квантование, обрезка , справедливость , молекулы, компьютерное программирование/кодирование, математика словесные задачи, арифметика, возникающие способности , двойное спуск , обучение с учителем , обучение без учителя / самоконтроля и обучение с подкреплением (один агент и несколько агентов ).

Архитектуры, для которых поведение масштабирования искусственных нейронных сетей соответствует этой функциональной форме, включают ResNets , Transformers , MLP , MLP-Mixers, рекуррентные нейронные сети , сверточные нейронные сети , графовые нейронные сети , U-сети , кодировщик-декодер (и Модели только для кодировщика (и только для декодера), ансамбли (и не-ансамбли), модели MoE (смешанные эксперты) (и не-MoE), а также модели с разреженным сокращением (и неразреженным необрезанным).

Другие примеры

Трансформаторы зрения

Трансформаторы зрения , как и преобразователи языка, демонстрируют законы масштабирования. Исследование 2022 года обучило преобразователи зрения с подсчетом параметров на наборах изображений размеров для вычислений (в единицах TPUv3-core-days). ^[20] $N\in [5\times 10^{6},2\times 10^{9}]$ $D\in [3\times 10^{7},3\times 10^{9}]$ $C\in [0.2,10^{4}]$

После обучения модели она настраивается на обучающем наборе ImageNet . Пусть – вероятность ошибки точно настроенной модели, классифицирующей набор тестов ImageNet. Они нашли . $L$ $\min _{N,D}L=0.09+{\frac {0.26}{(C+0.01)^{0.35}}}$

Нейронный машинный перевод

Горбани, Бехруз и др. ^[21] изучали законы масштабирования для нейронного машинного перевода (в частности, английский в качестве источника и немецкий в качестве целевого) в моделях кодировщика-декодера Transformer , обученных до сходимости на одних и тех же наборах данных (таким образом, они не соответствовали законам масштабирования для вычисления стоимости или размера набора данных). ). Они варьировались. Они нашли три результата: $C$ $D$ $N\in [10^{8},3.5\times 10^{9}]$

$L$ — функция закона масштабирования от , где — количество параметров кодера и декодера. Это не просто функция общего количества параметров . Функция имеет вид , где подогнаны параметры. Они обнаружили, что это сводит к минимуму потери, если остается фиксированным. $N_{E},N_{D}$ $N_{E},N_{D}$ $N=N_{E}+N_{D}$ $L\left(N_{e},N_{d}\right)=\alpha \left({\frac {{\bar {N}}_{e}}{N_{e}}}\right)^{p_{e}}\left({\frac {{\bar {N}}_{d}}{N_{d}}}\right)^{p_{d}}+L_{\infty }$ $\alpha ,p_{e},p_{d},L_{\infty },{\bar {N}}_{e},{\bar {N}}_{d}$ $N_{d}/N\approx 0.55$ $N$
$L$ «насыщается» (то есть достигает ) для меньших моделей, когда наборы данных обучения и тестирования являются «естественными для источника», чем «естественными для цели». Точка данных «естественный источник» означает пару англо-немецких предложений, и модель просят перевести английское предложение на немецкий, при этом английское предложение пишется писателем-естественником английского языка, а немецкое предложение переводится с английского. Английское предложение машинного переводчика. ^[22] Чтобы создать два типа наборов данных, авторы собрали в Интернете естественные английские и немецкие предложения, а затем использовали машинный перевод для их перевода. $L_{\infty }$
По мере того, как модели становятся больше, модели, обученные на исходных наборах данных, могут достичь низких потерь, но плохого показателя BLEU . Напротив, модели, обученные на целевых и исходных наборах данных, одновременно достигают низких потерь и хорошего показателя BLEU (рис. 10, 11 ^[21] ).

Авторы предполагают, что наборы данных, основанные на исходных данных, имеют однородные и скучные целевые предложения, и поэтому модель, обученная прогнозировать целевые предложения, быстро переобучится.

^[23] обучили Трансформаторы для машинного перевода с размерами по размерам наборов данных . Они обнаружили закон масштабирования Каплана и др. (2020) ^[11] , применимый к машинному переводу: . Они также обнаружили, что показатель BLEU оценивается как . $N\in [4\times 10^{5},5.6\times 10^{7}]$ $D\in [6\times 10^{5},6\times 10^{9}]$ $L(N,D)=\left[\left({\frac {N_{C}}{N}}\right)^{\frac {\alpha _{N}}{\alpha _{D}}}+{\frac {D_{C}}{D}}\right]^{\alpha _{D}}$ $BLEU\approx Ce^{-kL}$

Трансферное обучение

Эрнандес, Дэнни и др. ^[24] изучали законы масштабирования для трансферного обучения в языковых моделях. Они обучали семью Трансформеров тремя способами:

предобучение английскому языку, доводка Python
предварительное обучение английскому языку и Python, тонкая настройка Python
обучение на Python

Идея состоит в том, что предварительное обучение английскому языку должно помочь модели добиться минимальных потерь на тестовом наборе текста Python. Предположим, что модель имеет параметр count , и после точной настройки на токенах Python в ней возникают некоторые потери . Мы говорим, что его «количество переданных токенов» равно , если другая модель с тем же самым достигает того же результата после обучения на токенах Python. $N$ $D_{F}$ $L$ $D_{T}$ $N$ $L$ $D_{F}+D_{T}$

Они нашли для предварительного обучения английскому тексту, а также для предварительного обучения английскому и коду, отличному от Python. $D_{T}=1.9e4\left(D_{F}\right)^{.18}(N)^{.38}$ $D_{T}=2.1e5\left(D_{F}\right)^{.096}(N)^{.38}$