В машинном обучении закон масштабирования нейронов — это эмпирический закон масштабирования , который описывает, как производительность нейронной сети изменяется при увеличении или уменьшении ключевых факторов. Эти факторы обычно включают количество параметров, размер набора данных для обучения [1] [2] и стоимость обучения.
Введение
В общем, модель глубокого обучения можно охарактеризовать четырьмя параметрами: размер модели, размер набора данных для обучения, стоимость обучения и частота ошибок после обучения (например, частота ошибок тестового набора). Каждая из этих переменных может быть определена как действительное число, обычно записываемое как (соответственно: количество параметров, размер набора данных, стоимость вычислений и потери ).
Закон нейронного масштабирования — это теоретический или эмпирический статистический закон между этими параметрами. Существуют также другие параметры с другими законами масштабирования.
Размер модели
В большинстве случаев размер модели — это просто количество параметров. Однако при использовании разреженных моделей, таких как модели со смесью экспертов , возникает одна сложность . [3] В разреженных моделях во время вывода используется только часть их параметров. Для сравнения, большинство других видов нейронных сетей, таких как модели- трансформаторы , всегда используют все свои параметры во время вывода.
Размер обучающего набора данных
Размер обучающего набора данных обычно количественно определяется числом точек данных в нем. Обычно предпочтительны более крупные обучающие наборы данных, поскольку они предоставляют более богатый и разнообразный источник информации, на котором может обучаться модель. Это может привести к улучшению производительности обобщения, когда модель применяется к новым, невиданным данным. [4] Однако увеличение размера обучающего набора данных также увеличивает вычислительные ресурсы и время, необходимые для обучения модели.
При использовании метода «предварительная тренировка, затем тонкая настройка» для большинства больших языковых моделей существует два вида набора данных для обучения: набор данных для предварительного обучения и набор данных для тонкой настройки . Их размеры по-разному влияют на производительность модели. Обычно набор данных для тонкой настройки составляет менее 1% от размера набора данных для предварительного обучения. [5]
В некоторых случаях для тонкой настройки достаточно небольшого количества высококачественных данных, а большее количество данных не обязательно улучшает производительность. [5]
Стоимость обучения
Стоимость обучения обычно измеряется с точки зрения времени (сколько времени требуется для обучения модели) и вычислительных ресурсов (сколько требуется вычислительной мощности и памяти). Важно отметить, что стоимость обучения может быть значительно снижена с помощью эффективных алгоритмов обучения, оптимизированных библиотек программного обеспечения и параллельных вычислений на специализированном оборудовании, таком как графические процессоры или тензорные процессоры .
Стоимость обучения модели нейронной сети является функцией нескольких факторов, включая размер модели, размер набора данных для обучения, сложность алгоритма обучения и доступные вычислительные ресурсы. [4] В частности, удвоение размера набора данных для обучения не обязательно удваивает стоимость обучения, поскольку можно обучать модель несколько раз на одном и том же наборе данных (каждый раз являясь « эпохой »).
Производительность
Производительность модели нейронной сети оценивается на основе ее способности точно предсказывать выходной сигнал при наличии некоторых входных данных. Общие метрики для оценки производительности модели включают: [4]
Производительность можно повысить за счет использования большего количества данных, более крупных моделей, различных алгоритмов обучения, регуляризации модели для предотвращения переобучения и ранней остановки с использованием проверочного набора.
Примеры
(Хестнесс, Наранг и др., 2017 г.)
Статья 2017 года [2] является общепринятой точкой отсчета для законов нейронного масштабирования, подобранных статистическим анализом экспериментальных данных. Предыдущие работы до 2000-х годов, как указано в статье, были либо теоретическими, либо на порядок меньше по масштабу. В то время как предыдущие работы в целом находили показатель масштабирования для масштабирования как , с , статья обнаружила, что .
Из факторов, которые они варьировали, только задача может изменить показатель степени . Изменение оптимизаторов архитектуры, регуляризаторов и функций потерь изменит только коэффициент пропорциональности, но не показатель степени. Например, для одной и той же задачи одна архитектура может иметь , а другая может иметь . Они также обнаружили, что для заданной архитектуры количество параметров, необходимых для достижения наименьших уровней потерь, при фиксированном размере набора данных, растет как для другого показателя степени .
Они изучали машинный перевод с помощью LSTM ( ), генеративное языковое моделирование с помощью LSTM ( ), классификацию ImageNet с помощью ResNet ( ) и распознавание речи ( ).
(Хениган, Каплан и др., 2020 г.)
Анализ 2020 года [9] изучал статистические связи между широким диапазоном значений и обнаружил схожие законы масштабирования в диапазоне , , и в различных модальностях (текст, видео, изображение, текст в изображение и т. д.). [9]
В частности, были найдены следующие законы масштабирования (таблица 1 из [9] ):
Для каждой модальности они зафиксировали один из двух и варьируя другой ( изменяется вместе с использованием ), достижимая потеря теста удовлетворяет , где — варьируемая переменная, а — параметры, которые должны быть найдены путем статистической подгонки. Параметр является наиболее важным.
Когда варьируемая переменная, варьируется от до в зависимости от модальности модели. Это соответствует из масштабной бумаги Chinchilla.
Когда варьируемая переменная, варьируется от до в зависимости от модальности модели. Это соответствует из масштабной бумаги Chinchilla.
При фиксированном вычислительном бюджете оптимальное количество параметров модели постоянно около Параметр изменяется с коэффициентом до 10 для разных модальностей. Параметр показателя степени изменяется от до для разных модальностей. Этот показатель степени соответствует из статьи о масштабировании Chinchilla.
«Настоятельно предполагается» (но статистически не проверено), что . Этот показатель степени соответствует из статьи о масштабировании Chinchilla.
Закон масштабирования был подтвержден в ходе обучения GPT-3 (рисунок 3.1 [10] ).
— это средняя отрицательная логарифмическая потеря правдоподобия на токен ( nats /token ), достигнутая обученным LLM на тестовом наборе данных.
представляет собой потерю идеального генеративного процесса на тестовых данных
фиксирует тот факт, что языковая модель Transformer с параметрами не достигает идеального генеративного процесса
фиксирует тот факт, что модель, обученная на токенах, не достигает идеального генеративного процесса
и статистические параметры
, что означает, что обучение на одном токене стоит 6 FLOP на параметр. Это подсчитано Капланом и др. [13] Обратите внимание, что стоимость обучения намного выше стоимости вывода, поскольку обучение подразумевает как прямые, так и обратные проходы , тогда как вывод стоит от 1 до 2 FLOP на параметр для вывода на одном токене.
.
Хотя Бесироглу и др. [14] утверждают, что статистическая оценка немного неверна и должна быть .
Статистические законы были подобраны по экспериментальным данным с помощью .
Поскольку имеется 4 переменные, связанные 2 уравнениями, наложение 1 дополнительного ограничения и 1 дополнительной цели оптимизации позволяет нам решить для всех четырех переменных. В частности, для любого фиксированного мы можем однозначно решить для всех 4 переменных, что минимизирует . Это дает нам оптимальное для любого фиксированного : Подставляя числовые значения, мы получаем размер модели «Chinchilla efficient» и размер набора обучающих данных, а также достижимые потери теста: Аналогично мы можем найти оптимальный размер набора обучающих данных и бюджет вычислений обучения для любого фиксированного размера параметра модели и т. д.
Существуют и другие оценки размера модели "Chinchilla efficient" и размера обучающего набора данных. Вышеизложенное основано на статистической модели . Можно также напрямую подогнать статистический закон для без обходного пути, для чего получаем: или как в таблице:
Несоответствие
Закон масштабирования Чиншиллы для обучения моделей языка трансформатора предполагает, что при увеличении бюджета (в FLOPs ) для достижения оптимального вычисления количество параметров модели (N) и количество токенов для обучения модели (D) должны масштабироваться примерно в равных пропорциях. Этот вывод отличается от (Henighan, Kaplan, et al, 2020), в котором говорится, что N должно масштабироваться быстрее, чем D.
Источник этого расхождения до конца не ясен, но, возможно, это связано с настройкой гиперпараметров и графиками скорости обучения. [15] [16]
Помимо масштабирования шиншиллы
Поскольку масштабирование Chinchilla было точкой отсчета для многих крупномасштабных обучающих запусков, одновременно предпринимались попытки выйти «за рамки масштабирования Chinchilla», то есть изменить часть конвейера обучения, чтобы получить те же потери с меньшими усилиями, или намеренно тренироваться дольше, чем «оптимально для Chinchilla».
Обычно цель состоит в том, чтобы сделать показатель закона масштабирования больше, что означает, что те же потери могут быть обучены за гораздо меньшие вычисления. Например, фильтрация данных может сделать показатель закона масштабирования больше. [17]
Другое направление исследований изучает, как работать с ограниченными данными, поскольку согласно законам масштабирования Chinchilla, размер обучающего набора данных для самых больших языковых моделей уже приближается к тому, что доступно в Интернете. [18] обнаружили, что дополнение набора данных смесью «целей шумоподавления», построенных на основе набора данных, повышает производительность. [19] изучает оптимальное масштабирование, когда все доступные данные уже исчерпаны (например, в редких языках), поэтому необходимо обучать несколько эпох на одном и том же наборе данных (тогда как масштабирование Chinchilla требует только одной эпохи). Серия Phi небольших языковых моделей обучалась на данных, подобных учебникам, сгенерированных большими языковыми моделями, для которых данные ограничены только объемом доступных вычислений. [20]
Оптимальность Chinchilla была определена как «оптимальная для тренировочных вычислений», тогда как в реальных моделях производственного качества после завершения обучения будет много выводов. «Переобучение» во время обучения означает лучшую производительность во время вывода. [21] Модели LLaMA были переобучены по этой причине. Последующие исследования обнаружили законы масштабирования в режиме переобучения для размеров наборов данных до 32x больше, чем оптимальный Chinchilla. [22]
Нарушенные законы нейронного масштабирования (BNSL)
в котором относится к масштабируемой величине (т. е . , , , количеству шагов обучения, количеству шагов вывода или размеру входных данных модели) и относится к нисходящей (или восходящей) метрике оценки производительности, представляющей интерес (например, ошибка прогнозирования, перекрестная энтропия , ошибка калибровки, AUROC , процент баллов BLEU , балл F1 , вознаграждение, рейтинг Эло , скорость решения или балл FID ) в нулевых , подсказываемых или точно настроенных настройках. Параметры находятся путем статистической подгонки.
На графике в двойном логарифмическом масштабе , когда не слишком велико и вычитается из оси Y, эта функциональная форма выглядит как ряд линейных сегментов, соединенных дугами; переходы между сегментами называются «разрывами», отсюда и название — нарушенные законы нейронного масштабирования (BNSL) .
Помимо масштабирования вычислений обучения, можно также масштабировать вычисления вывода. Например, рейтинг Эло AlphaGo неуклонно улучшается, поскольку ему разрешено тратить больше времени на поиск по дереву Монте-Карло за игру. [24] : Рис. 4 Для AlphaGo Zero увеличение Эло на 120 требует либо удвоения размера модели и обучения, либо удвоения времени поиска теста. [25] Аналогично, языковая модель для решения задач кодирования соревновательного уровня, AlphaCode, постоянно улучшается в производительности с увеличением времени поиска. [26]
Для Hex 10-кратное время обучения вычислений обменивается на 15-кратное время тестирования вычислений. [27] Для Libratus для хедз-ап безлимитного техасского холдема и Cicero для дипломатии , а также для многих других абстрактных игр с частичной информацией, поиск во время вывода улучшает производительность при аналогичном соотношении компромиссов, обеспечивая до 100 000-кратного эффективного увеличения времени обучения вычислений. [25]
В 2024 году отчет OpenAI o1 задокументировал, что производительность o1 постоянно улучшалась как за счет увеличения вычислений во время обучения, так и за счет вычислений во время тестирования, и привел многочисленные примеры масштабирования вычислений во время тестирования в задачах математики, научного обоснования и кодирования. [28] [29]
Другие примеры
Трансформаторы зрения
Трансформаторы зрения , подобно преобразователям языка, демонстрируют законы масштабирования. Исследование 2022 года обучило преобразователи зрения с подсчетами параметров на наборах изображений размеров для вычислений (в единицах TPUv3-core-days). [30]
После обучения модели она настраивается на обучающем наборе ImageNet . Пусть будет вероятностью ошибки настраиваемой модели, классифицирующей тестовый набор ImageNet. Они нашли .
Нейронный машинный перевод
Горбани, Бехруз и др. [31] изучали законы масштабирования для нейронного машинного перевода (в частности, английский как исходный язык и немецкий как целевой) в моделях Трансформера кодировщика-декодера , обученных до сходимости на тех же наборах данных (таким образом, они не соответствовали законам масштабирования для стоимости вычислений или размера набора данных ). Они варьировались Они обнаружили три результата:
является функцией закона масштабирования от , где — параметры кодера и декодера. Это не просто функция общего количества параметров . Функция имеет вид , где — подогнанных параметров. Они обнаружили, что минимизирует потери, если удерживается фиксированным.
«насыщается» (то есть достигает ) для меньших моделей, когда обучающие и тестовые наборы данных являются «исходно-естественными», чем «целевыми-естественными». Точка данных «исходно-естественная» означает пару предложений на английском и немецком языках, и модель просит перевести английское предложение на немецкий язык, и английское предложение пишется естественным английским писателем, в то время как немецкое предложение переводится с английского предложения машинным переводчиком. [32] Чтобы построить два вида наборов данных, авторы собрали предложения на естественном английском и немецком языках онлайн, затем использовали машинный перевод для создания своих переводов.
По мере того, как модели становятся больше, модели, обученные на исходных исходных наборах данных, могут достигать низких потерь, но плохой оценки BLEU . Напротив, модели, обученные на целевых исходных наборах данных, достигают низких потерь и хорошей оценки BLEU одновременно (рисунок 10, 11 [31] ).
Авторы выдвигают гипотезу, что исходные естественные наборы данных содержат однородные и скучные целевые предложения, и поэтому модель, обученная предсказывать целевые предложения, быстро переобучится.
[33] обучили Transformers для машинного перевода с размерами на размерах наборов данных . Они обнаружили, что закон масштабирования Каплана и др. (2020) [13] применяется к машинному переводу: . Они также обнаружили, что оценка BLEU масштабируется как .
Передача обучения
Эрнандес, Дэнни и др. [34] изучали законы масштабирования для переноса обучения в языковых моделях. Они обучили семью Трансформеров тремя способами:
предварительная подготовка по английскому языку, тонкая настройка по Python
предварительная подготовка на равном содержании английского и Python, тонкая настройка на Python
обучение по Python
Идея заключается в том, что предварительное обучение на английском языке должно помочь модели достичь низких потерь на тестовом наборе текста Python. Предположим, что модель имеет количество параметров , и после тонкой настройки на токенах Python она достигает некоторой потери . Мы говорим, что ее «переданное количество токенов» равно , если другая модель с тем же самым достигает того же после обучения на токенах Python.
Они нашли для предварительного обучения на английском тексте, а также для предварительного обучения на английском и не-Python-коде.
^ Пирс, Тим; Сон, Джинёп (2024), Согласование законов масштабирования Каплана и Шиншиллы, arXiv : 2406.12907 , получено 10 ноября 2024 г.
^ Соршер, Бен; Гейрос, Роберт; Шекхар, Шашанк; Гангули, Сурья; Моркос, Ари С. (21 апреля 2023 г.). «За пределами нейронных законов масштабирования: превосходя степенное масштабирование посредством сокращения данных». arXiv : 2206.14486 [cs.LG].
^ Тай, Йи; Вэй, Джейсон; Чон, Хён Вон; Тран, Винь К.; Итак, Дэвид Р.; Шакери, Сиамак; Гарсия, Ксавьер; Чжэн, Хуайсю Стивен; Рао, Цзиньфэн (16 ноября 2022 г.). «Преодоление законов масштабирования с дополнительными вычислениями на 0,1%». arXiv : 2210.11399 [cs.CL].
^ Muennighoff, Niklas; Rush, Alexander; Barak, Boaz; Le Scao, Teven; Tazi, Nouamane; Piktus, Aleksandra; Pyysalo, Sampo; Wolf, Thomas; Raffel, Colin A. (2023-12-15). "Масштабирование языковых моделей с ограничениями по данным". Advances in Neural Information Processing Systems . 36 : 50358–50376. arXiv : 2305.16264 .
^ Ли, Юаньчжи; Бубек, Себастьен; Эльдан, Ронен; Дель Джорно, Элли; Гунасекар, Сурия; Ли, Инь Тат (11 сентября 2023 г.). «Учебники - это все, что вам нужно II: технический отчет фи-1,5». arXiv : 2309.05463 [cs.CL].
^ Сардана, Нихил; Франкл, Джонатан (31.12.2023). «За пределами оптимальности Шиншиллы: учет вывода в законах масштабирования языковой модели». arXiv : 2401.00448 [cs.LG].
^ Гадре, Самир Ицхак; Смирнис, Георгиос; Шанкар, Вайшааль; Гуруранган, Сучин; Вортсман, Митчелл; Шао, Рулин; Меркат, Джин; Фанг, Алекс; Ли, Джеффри (13.03.2024). «Языковые модели надежно масштабируются при переобучении и на последующих задачах». arXiv : 2403.08540 [cs.CL].
^ Кабальеро, Итан; Гупта, Кшитидж; Риш, Ирина; Крюгер, Дэвид (2022). «Нарушенные законы нейронного масштабирования». arXiv : 2210.14891 [cs.LG].
^ Сильвер, Дэвид; Хуанг, Аджа; Мэддисон, Крис Дж.; Гез, Артур; Сифре, Лоран; ван ден Дриссе, Джордж; Шритвизер, Джулиан; Антоноглу, Иоаннис; Паннеершелвам, Веда; Ланкто, Марк; Дилеман, Сандер; Греве, Доминик; Нхам, Джон; Кальхбреннер, Нал; Суцкевер, Илья (январь 2016 г.). «Освоение игры в го с помощью глубоких нейронных сетей и поиска по дереву». Природа . 529 (7587): 484–489. Бибкод : 2016Natur.529..484S. дои : 10.1038/nature16961. ISSN 1476-4687. ПМИД 26819042.
^ ab Noam, Brown (2024-09-17). Притчи о силе планирования в ИИ: от покера до дипломатии: Ноам Браун (OpenAI) (видео) . Получено 24.09.2024 – через YouTube.Лекция в школе Пола Г. Аллена в четверг, 23 мая 2024 г., 15:30
^ ab Ghorbani, Behrooz; Firat, Orhan; Freitag, Markus; Bapna, Ankur; Krikun, Maxim; Garcia, Xavier; Chelba, Ciprian; Cherry, Colin (2021-09-01). "Законы масштабирования для нейронного машинного перевода". arXiv : 2109.07740 [cs.LG].
^ Чен, Миа Сюй; Фират, Орхан; Бапна, Анкур; Джонсон, Мелвин; Машери, Вольфганг; Фостер, Джордж; Джонс, Ллион; Шустер, Майк; Шазир, Ноам; Пармар, Ники; Васвани, Ашиш; Ушкорейт, Якоб; Кайзер, Лукаш; Чен, Чжифэн; У, Йонгхуэй (июль 2018 г.). «Лучшее из обоих миров: объединение последних достижений в области нейронного машинного перевода». Труды 56-го ежегодного собрания Ассоциации компьютерной лингвистики (том 1: длинные статьи) . Мельбурн, Австралия: Ассоциация компьютерной лингвистики: 76–86. arXiv : 1804.09849 . doi :10.18653/v1/P18-1008.
^ Гордон, Митчелл А.; Да, Кевин; Каплан, Джаред (2021). «Законы масштабирования данных и параметров для нейронного машинного перевода». Труды конференции 2021 года по эмпирическим методам в обработке естественного языка . Страудсбург, Пенсильвания, США: Ассоциация компьютерной лингвистики. стр. 5915–5922. doi : 10.18653/v1/2021.emnlp-main.478 .