stringtranslate.com

Закон нейронного масштабирования

Эффективность моделей ИИ в различных тестах с 1998 по 2024 год.

В машинном обучении закон масштабирования нейронов — это эмпирический закон масштабирования , который описывает, как производительность нейронной сети изменяется при увеличении или уменьшении ключевых факторов. Эти факторы обычно включают количество параметров, размер набора данных для обучения [1] [2] и стоимость обучения.

Введение

В общем, модель глубокого обучения можно охарактеризовать четырьмя параметрами: размер модели, размер набора данных для обучения, стоимость обучения и частота ошибок после обучения (например, частота ошибок тестового набора). Каждая из этих переменных может быть определена как действительное число, обычно записываемое как (соответственно: количество параметров, размер набора данных, стоимость вычислений и потери ).

Закон нейронного масштабирования — это теоретический или эмпирический статистический закон между этими параметрами. Существуют также другие параметры с другими законами масштабирования.

Размер модели

В большинстве случаев размер модели — это просто количество параметров. Однако при использовании разреженных моделей, таких как модели со смесью экспертов , возникает одна сложность . [3] В разреженных моделях во время вывода используется только часть их параметров. Для сравнения, большинство других видов нейронных сетей, таких как модели- трансформаторы , всегда используют все свои параметры во время вывода.

Размер обучающего набора данных

Размер обучающего набора данных обычно количественно определяется числом точек данных в нем. Обычно предпочтительны более крупные обучающие наборы данных, поскольку они предоставляют более богатый и разнообразный источник информации, на котором может обучаться модель. Это может привести к улучшению производительности обобщения, когда модель применяется к новым, невиданным данным. [4] Однако увеличение размера обучающего набора данных также увеличивает вычислительные ресурсы и время, необходимые для обучения модели.

При использовании метода «предварительная тренировка, затем тонкая настройка» для большинства больших языковых моделей существует два вида набора данных для обучения: набор данных для предварительного обучения и набор данных для тонкой настройки . Их размеры по-разному влияют на производительность модели. Обычно набор данных для тонкой настройки составляет менее 1% от размера набора данных для предварительного обучения. [5]

В некоторых случаях для тонкой настройки достаточно небольшого количества высококачественных данных, а большее количество данных не обязательно улучшает производительность. [5]

Стоимость обучения

С течением времени снижаются затраты на оборудование и электроэнергию для обучения передовых моделей ИИ.

Стоимость обучения обычно измеряется с точки зрения времени (сколько времени требуется для обучения модели) и вычислительных ресурсов (сколько требуется вычислительной мощности и памяти). Важно отметить, что стоимость обучения может быть значительно снижена с помощью эффективных алгоритмов обучения, оптимизированных библиотек программного обеспечения и параллельных вычислений на специализированном оборудовании, таком как графические процессоры или тензорные процессоры .

Стоимость обучения модели нейронной сети является функцией нескольких факторов, включая размер модели, размер набора данных для обучения, сложность алгоритма обучения и доступные вычислительные ресурсы. [4] В частности, удвоение размера набора данных для обучения не обязательно удваивает стоимость обучения, поскольку можно обучать модель несколько раз на одном и том же наборе данных (каждый раз являясь « эпохой »).

Производительность

Производительность MMLU против масштаба ИИ
Производительность BIF-Bench (hard) [6] по сравнению с масштабом ИИ.

Производительность модели нейронной сети оценивается на основе ее способности точно предсказывать выходной сигнал при наличии некоторых входных данных. Общие метрики для оценки производительности модели включают: [4]

Производительность можно повысить за счет использования большего количества данных, более крупных моделей, различных алгоритмов обучения, регуляризации модели для предотвращения переобучения и ранней остановки с использованием проверочного набора.

Примеры

(Хестнесс, Наранг и др., 2017 г.)

Статья 2017 года [2] является общепринятой точкой отсчета для законов нейронного масштабирования, подобранных статистическим анализом экспериментальных данных. Предыдущие работы до 2000-х годов, как указано в статье, были либо теоретическими, либо на порядок меньше по масштабу. В то время как предыдущие работы в целом находили показатель масштабирования для масштабирования как , с , статья обнаружила, что .

Из факторов, которые они варьировали, только задача может изменить показатель степени . Изменение оптимизаторов архитектуры, регуляризаторов и функций потерь изменит только коэффициент пропорциональности, но не показатель степени. Например, для одной и той же задачи одна архитектура может иметь , а другая может иметь . Они также обнаружили, что для заданной архитектуры количество параметров, необходимых для достижения наименьших уровней потерь, при фиксированном размере набора данных, растет как для другого показателя степени .

Они изучали машинный перевод с помощью LSTM ( ), генеративное языковое моделирование с помощью LSTM ( ), классификацию ImageNet с помощью ResNet ( ) и распознавание речи ( ).

(Хениган, Каплан и др., 2020 г.)

Анализ 2020 года [9] изучал статистические связи между широким диапазоном значений и обнаружил схожие законы масштабирования в диапазоне , , и в различных модальностях (текст, видео, изображение, текст в изображение и т. д.). [9]

В частности, были найдены следующие законы масштабирования (таблица 1 из [9] ):

Закон масштабирования был подтвержден в ходе обучения GPT-3 (рисунок 3.1 [10] ).

Масштабирование шиншиллы (Хоффманн и др., 2022)

Оптимальное соотношение обучающих токенов к параметрам модели для закона масштабирования Chinchilla. Это показывает, что в целом «оптимальное для Chinchilla» масштабирование равно , и существенно отличается от (Hoffmann et al, 2022). Анализ данных с помощью Epoch AI. [11]

Один конкретный закон масштабирования (« масштабирование Шиншиллы ») гласит, что для большой языковой модели (LLM), авторегрессионно обученной в течение одной эпохи, с косинусоидальным графиком скорости обучения , мы имеем: [12] где переменные

и статистические параметры

Хотя Бесироглу и др. [14] утверждают, что статистическая оценка немного неверна и должна быть .

Статистические законы были подобраны по экспериментальным данным с помощью .

Поскольку имеется 4 переменные, связанные 2 уравнениями, наложение 1 дополнительного ограничения и 1 дополнительной цели оптимизации позволяет нам решить для всех четырех переменных. В частности, для любого фиксированного мы можем однозначно решить для всех 4 переменных, что минимизирует . Это дает нам оптимальное для любого фиксированного : Подставляя числовые значения, мы получаем размер модели «Chinchilla efficient» и размер набора обучающих данных, а также достижимые потери теста: Аналогично мы можем найти оптимальный размер набора обучающих данных и бюджет вычислений обучения для любого фиксированного размера параметра модели и т. д.

Существуют и другие оценки размера модели "Chinchilla efficient" и размера обучающего набора данных. Вышеизложенное основано на статистической модели . Можно также напрямую подогнать статистический закон для без обходного пути, для чего получаем: или как в таблице:

Несоответствие

Закон масштабирования Чиншиллы для обучения моделей языка трансформатора предполагает, что при увеличении бюджета (в FLOPs ) для достижения оптимального вычисления количество параметров модели (N) и количество токенов для обучения модели (D) должны масштабироваться примерно в равных пропорциях. Этот вывод отличается от (Henighan, Kaplan, et al, 2020), в котором говорится, что N должно масштабироваться быстрее, чем D.

Источник этого расхождения до конца не ясен, но, возможно, это связано с настройкой гиперпараметров и графиками скорости обучения. [15] [16]

Помимо масштабирования шиншиллы

Поскольку масштабирование Chinchilla было точкой отсчета для многих крупномасштабных обучающих запусков, одновременно предпринимались попытки выйти «за рамки масштабирования Chinchilla», то есть изменить часть конвейера обучения, чтобы получить те же потери с меньшими усилиями, или намеренно тренироваться дольше, чем «оптимально для Chinchilla».

Обычно цель состоит в том, чтобы сделать показатель закона масштабирования больше, что означает, что те же потери могут быть обучены за гораздо меньшие вычисления. Например, фильтрация данных может сделать показатель закона масштабирования больше. [17]

Другое направление исследований изучает, как работать с ограниченными данными, поскольку согласно законам масштабирования Chinchilla, размер обучающего набора данных для самых больших языковых моделей уже приближается к тому, что доступно в Интернете. [18] обнаружили, что дополнение набора данных смесью «целей шумоподавления», построенных на основе набора данных, повышает производительность. [19] изучает оптимальное масштабирование, когда все доступные данные уже исчерпаны (например, в редких языках), поэтому необходимо обучать несколько эпох на одном и том же наборе данных (тогда как масштабирование Chinchilla требует только одной эпохи). Серия Phi небольших языковых моделей обучалась на данных, подобных учебникам, сгенерированных большими языковыми моделями, для которых данные ограничены только объемом доступных вычислений. [20]

Оптимальность Chinchilla была определена как «оптимальная для тренировочных вычислений», тогда как в реальных моделях производственного качества после завершения обучения будет много выводов. «Переобучение» во время обучения означает лучшую производительность во время вывода. [21] Модели LLaMA были переобучены по этой причине. Последующие исследования обнаружили законы масштабирования в режиме переобучения для размеров наборов данных до 32x больше, чем оптимальный Chinchilla. [22]

Нарушенные законы нейронного масштабирования (BNSL)

Анализ 2022 года [23] показал, что многие модели поведения искусственных нейронных сетей при масштабировании следуют плавно ломаной функциональной форме степенного закона :

в котором относится к масштабируемой величине (т. е . , , , количеству шагов обучения, количеству шагов вывода или размеру входных данных модели) и относится к нисходящей (или восходящей) метрике оценки производительности, представляющей интерес (например, ошибка прогнозирования, перекрестная энтропия , ошибка калибровки, AUROC , процент баллов BLEU , балл F1 , вознаграждение, рейтинг Эло , скорость решения или балл FID ) в нулевых , подсказываемых или точно настроенных настройках. Параметры находятся путем статистической подгонки.

На графике в двойном логарифмическом масштабе , когда не слишком велико и вычитается из оси Y, эта функциональная форма выглядит как ряд линейных сегментов, соединенных дугами; переходы между сегментами называются «разрывами», отсюда и название — нарушенные законы нейронного масштабирования (BNSL) .

Сценарии, в которых было обнаружено, что поведение масштабирования искусственных нейронных сетей следует этой функциональной форме, включают крупномасштабное зрение , язык , аудио, видео, диффузию , генеративное моделирование , мультимодальное обучение , контрастное обучение , выравнивание ИИ , возможности ИИ, робототехнику , обобщение вне распределения (OOD), непрерывное обучение, трансферное обучение , оценку / калибровку неопределенности , обнаружение вне распределения , состязательную надежность , дистилляцию , разреженность, извлечение, квантизацию, обрезку , справедливость , молекулы, компьютерное программирование/кодирование, текстовые математические задачи, арифметику, возникающие способности , двойной спуск , контролируемое обучение , неконтролируемое / самоконтролируемое обучение и обучение с подкреплением (одноагентное и многоагентное ).

Архитектуры, для которых было обнаружено, что поведение масштабирования искусственных нейронных сетей следует этой функциональной форме, включают остаточные нейронные сети , трансформаторы , многослойные перцепторы (MLP) , многослойные перцепторы (MLP-миксеры), рекуррентные нейронные сети , сверточные нейронные сети , графовые нейронные сети , U-сети , модели кодер-декодертолько кодер ) (и только декодер), ансамбли (и не-ансамбли), модели MoE (смесь экспертов) (и не-MoE) и разреженные сокращенные (и неразреженные несокращенные) модели.

Масштабирование вывода

Рейтинг Эло различных агентов AlphaZero, обученных играть в настольную игру Hex, при различном времени обучения и времени тестирования.

Помимо масштабирования вычислений обучения, можно также масштабировать вычисления вывода. Например, рейтинг Эло AlphaGo неуклонно улучшается, поскольку ему разрешено тратить больше времени на поиск по дереву Монте-Карло за игру. [24] : Рис. 4  Для AlphaGo Zero увеличение Эло на 120 требует либо удвоения размера модели и обучения, либо удвоения времени поиска теста. [25] Аналогично, языковая модель для решения задач кодирования соревновательного уровня, AlphaCode, постоянно улучшается в производительности с увеличением времени поиска. [26]

Для Hex 10-кратное время обучения вычислений обменивается на 15-кратное время тестирования вычислений. [27] Для Libratus для хедз-ап безлимитного техасского холдема и Cicero для дипломатии , а также для многих других абстрактных игр с частичной информацией, поиск во время вывода улучшает производительность при аналогичном соотношении компромиссов, обеспечивая до 100 000-кратного эффективного увеличения времени обучения вычислений. [25]

В 2024 году отчет OpenAI o1 задокументировал, что производительность o1 постоянно улучшалась как за счет увеличения вычислений во время обучения, так и за счет вычислений во время тестирования, и привел многочисленные примеры масштабирования вычислений во время тестирования в задачах математики, научного обоснования и кодирования. [28] [29]

Другие примеры

Трансформаторы зрения

Трансформаторы зрения , подобно преобразователям языка, демонстрируют законы масштабирования. Исследование 2022 года обучило преобразователи зрения с подсчетами параметров на наборах изображений размеров для вычислений (в единицах TPUv3-core-days). [30]

После обучения модели она настраивается на обучающем наборе ImageNet . Пусть будет вероятностью ошибки настраиваемой модели, классифицирующей тестовый набор ImageNet. Они нашли .

Нейронный машинный перевод

Горбани, Бехруз и др. [31] изучали законы масштабирования для нейронного машинного перевода (в частности, английский как исходный язык и немецкий как целевой) в моделях Трансформера кодировщика-декодера , обученных до сходимости на тех же наборах данных (таким образом, они не соответствовали законам масштабирования для стоимости вычислений или размера набора данных ). Они варьировались Они обнаружили три результата:

Авторы выдвигают гипотезу, что исходные естественные наборы данных содержат однородные и скучные целевые предложения, и поэтому модель, обученная предсказывать целевые предложения, быстро переобучится.

[33] обучили Transformers для машинного перевода с размерами на размерах наборов данных . Они обнаружили, что закон масштабирования Каплана и др. (2020) [13] применяется к машинному переводу: . Они также обнаружили, что оценка BLEU масштабируется как .

Передача обучения

Эрнандес, Дэнни и др. [34] изучали законы масштабирования для переноса обучения в языковых моделях. Они обучили семью Трансформеров тремя способами:

Идея заключается в том, что предварительное обучение на английском языке должно помочь модели достичь низких потерь на тестовом наборе текста Python. Предположим, что модель имеет количество параметров , и после тонкой настройки на токенах Python она достигает некоторой потери . Мы говорим, что ее «переданное количество токенов» равно , если другая модель с тем же самым достигает того же после обучения на токенах Python.

Они нашли для предварительного обучения на английском тексте, а также для предварительного обучения на английском и не-Python-коде.

Смотрите также

Ссылки

  1. ^ Бахри, Ясаман; Дайер, Итан; Каплан, Джаред; Ли, Джейхун; Шарма, Уткарш (2024). «Объяснение законов нейронного масштабирования». Труды Национальной академии наук . 121 (27): e2311878121. arXiv : 2102.06701 . Bibcode : 2024PNAS..12111878B. doi : 10.1073/pnas.2311878121 . PMC  11228526. PMID  38913889 .
  2. ^ аб Хестнесс, Джоэл; Наранг, Шаран; Ардалани, Ньюша; Диамос, Грегори; Джун, Хиву; Кианинежад, Хасан; Патвари, доктор Мостофа Али; Ян, Ян; Чжоу, Яньци (01 декабря 2017 г.). «Масштабирование глубокого обучения предсказуемо эмпирически». arXiv : 1712.00409 [cs.LG].
  3. ^ Раджбхандари, Самьям; Ли, Конлонг; Яо, Чжевэй; Чжан, Миньцзя; Аминабади, Реза Яздани; Аван, Аммар Ахмад; Расли, Джефф; Хэ, Юйсян (28.06.2022). «DeepSpeed-MoE: усовершенствование смешанного экспертного вывода и обучения для обеспечения масштабирования ИИ следующего поколения». Труды 39-й Международной конференции по машинному обучению . PMLR: 18332–18346. arXiv : 2201.05596 .
  4. ^ abc Гудфеллоу, И., Бенджио, И. и Курвилль, А. (2016). Глубокое обучение. MIT Press.
  5. ^ Аб Чжоу, Чунтинг; Лю, Пэнфэй; Сюй, Пусинь; Айер, Шрини; Сунь, Цзяо; Мао, Юнин; Ма, Сюэчжэ; Эфрат, Авиа; Ю, Пин; Ю, Лили; Чжан, Сьюзен; Гош, Гарги; Льюис, Майк; Зеттлмойер, Люк; Леви, Омер (1 мая 2023 г.). «ЛИМА: для согласования меньше, да лучше». arXiv : 2305.11206 [cs.CL].
  6. ^ "google/BIG-bench". Google. 2024-09-24 . Получено 2024-09-25 .
  7. ^ Джонс, Энди Л. (2021). «Масштабирование законов масштабирования с помощью настольных игр». arXiv : 2104.03113 [cs.LG].
  8. ^ Таблица лидеров чат-бота LMSYS
  9. ^ abc Сэм, Хениган, Том Каплан, Джаред Кац, Мор Чен, Марк Гессе, Кристофер Джексон, Джейкоб Джун, Хиву Браун, Том Б. Дхаривал, Прафулла Грей, Скотт Халласи, Крис Манн, Бенджамин Рэдфорд, Алек Рамеш, Адитья Райдер, Ник Циглер, Дэниел М. Шульман, Джон Амодеи, Дарио МакКэндлиш (2020-10-27). Законы масштабирования для авторегрессионного генеративного моделирования. OCLC  1228442047.{{cite book}}: CS1 maint: multiple names: authors list (link)
  10. ^ Браун, Том Б.; Манн, Бенджамин; Райдер, Ник; Суббиа, Мелани; Каплан, Дж.; Дхаривал, Прафулла; Нилакантан, Арвинд; Шьям, Пранав; Шастри, Гириш; Аскелл, Аманда; Агарвал, Сандхини; Герберт-Восс, Ариэль; Крюгер, Гретхен; Хенигхан, Т.; Чайлд, Ревон (28.05.2020). «Языковые модели — это ученики с небольшим количеством попыток». arXiv : 2005.14165 [cs.CL].
  11. ^ Besiroglu, Tamay (2024-04-17). "Шкалирование Chinchilla: попытка репликации". Epoch AI . Получено 2024-09-24 .
  12. ^ Хоффманн, Джордан; Боржо, Себастьян; Менш, Артур; Бучацкая Елена; Кай, Тревор; Резерфорд, Элиза; Касас, Диего де Лас; Хендрикс, Лиза Энн; Вельбл, Йоханнес; Кларк, Эйдан; Хенниган, Том; Ноланд, Эрик; Милликан, Кэти; Дрессе, Джордж ван ден; Дамок, Богдан (29 марта 2022 г.). «Обучение оптимальных для вычислений моделей большого языка». arXiv : 2203.15556 [cs.CL].
  13. ^ ab Каплан, Джаред; МакКэндлиш, Сэм; Хениган, Том; Браун, Том Б.; Чесс, Бенджамин; Чайлд, Ревон; Грей, Скотт; Рэдфорд, Алек; Ву, Джеффри; Амодеи, Дарио (2020). «Законы масштабирования для нейронных языковых моделей». CoRR . abs/2001.08361. arXiv : 2001.08361 .
  14. ^ Бесироглу, Тамай; Эрдил, Эге; Барнетт, Мэтью; Ю, Джош (15.04.2024). «Масштабирование шиншиллы: попытка репликации». arXiv : 2404.10102 [cs.AI].
  15. ^ Porian, Tomer; Wortsman, Mitchell; Jitsev, Jenia; Schmidt, Ludwig; Carmon, Yair (2024-07-25), Разрешение расхождений в вычислительно-оптимальном масштабировании языковых моделей, arXiv : 2406.19146 , получено 2024-10-22
  16. ^ Пирс, Тим; Сон, Джинёп (2024), Согласование законов масштабирования Каплана и Шиншиллы, arXiv : 2406.12907 , получено 10 ноября 2024 г.
  17. ^ Соршер, Бен; Гейрос, Роберт; Шекхар, Шашанк; Гангули, Сурья; Моркос, Ари С. (21 апреля 2023 г.). «За пределами нейронных законов масштабирования: превосходя степенное масштабирование посредством сокращения данных». arXiv : 2206.14486 [cs.LG].
  18. ^ Тай, Йи; Вэй, Джейсон; Чон, Хён Вон; Тран, Винь К.; Итак, Дэвид Р.; Шакери, Сиамак; Гарсия, Ксавьер; Чжэн, Хуайсю Стивен; Рао, Цзиньфэн (16 ноября 2022 г.). «Преодоление законов масштабирования с дополнительными вычислениями на 0,1%». arXiv : 2210.11399 [cs.CL].
  19. ^ Muennighoff, Niklas; Rush, Alexander; Barak, Boaz; Le Scao, Teven; Tazi, Nouamane; Piktus, Aleksandra; Pyysalo, Sampo; Wolf, Thomas; Raffel, Colin A. (2023-12-15). "Масштабирование языковых моделей с ограничениями по данным". Advances in Neural Information Processing Systems . 36 : 50358–50376. arXiv : 2305.16264 .
  20. ^ Ли, Юаньчжи; Бубек, Себастьен; Эльдан, Ронен; Дель Джорно, Элли; Гунасекар, Сурия; Ли, Инь Тат (11 сентября 2023 г.). «Учебники - это все, что вам нужно II: технический отчет фи-1,5». arXiv : 2309.05463 [cs.CL].
  21. ^ Сардана, Нихил; Франкл, Джонатан (31.12.2023). «За пределами оптимальности Шиншиллы: учет вывода в законах масштабирования языковой модели». arXiv : 2401.00448 [cs.LG].
  22. ^ Гадре, Самир Ицхак; Смирнис, Георгиос; Шанкар, Вайшааль; Гуруранган, Сучин; Вортсман, Митчелл; Шао, Рулин; Меркат, Джин; Фанг, Алекс; Ли, Джеффри (13.03.2024). «Языковые модели надежно масштабируются при переобучении и на последующих задачах». arXiv : 2403.08540 [cs.CL].
  23. ^ Кабальеро, Итан; Гупта, Кшитидж; Риш, Ирина; Крюгер, Дэвид (2022). «Нарушенные законы нейронного масштабирования». arXiv : 2210.14891 [cs.LG].
  24. ^ Сильвер, Дэвид; Хуанг, Аджа; Мэддисон, Крис Дж.; Гез, Артур; Сифре, Лоран; ван ден Дриссе, Джордж; Шритвизер, Джулиан; Антоноглу, Иоаннис; Паннеершелвам, Веда; Ланкто, Марк; Дилеман, Сандер; Греве, Доминик; Нхам, Джон; Кальхбреннер, Нал; Суцкевер, Илья (январь 2016 г.). «Освоение игры в го с помощью глубоких нейронных сетей и поиска по дереву». Природа . 529 (7587): 484–489. Бибкод : 2016Natur.529..484S. дои : 10.1038/nature16961. ISSN  1476-4687. ПМИД  26819042.
  25. ^ ab Noam, Brown (2024-09-17). Притчи о силе планирования в ИИ: от покера до дипломатии: Ноам Браун (OpenAI) (видео) . Получено 24.09.2024 – через YouTube.Лекция в школе Пола Г. Аллена в четверг, 23 мая 2024 г., 15:30
  26. ^ Ли, Юцзя; Чой, Дэвид; Чунг, Джуньёнг; Кушман, Нейт; Шриттвизер, Джулиан; Леблон, Реми; Экклс, Том; Килинг, Джеймс; Химено, Феликс; Даль Лаго, Агустин; Юбер, Томас; Чой, Питер; де Массон д'Отюм, Сиприен; Бабушкин, Игорь; Чэнь, Синьюнь (2022-12-09). "Генерация кода соревновательного уровня с помощью AlphaCode". Science . 378 (6624): 1092–1097. arXiv : 2203.07814 . Bibcode :2022Sci...378.1092L. doi :10.1126/science.abq1158. ISSN  0036-8075. PMID  36480631.
  27. ^ Джонс, Энди Л. (15.04.2021). «Масштабирование законов масштабирования с помощью настольных игр». arXiv : 2104.03113 [cs.LG].
  28. ^ Вильялобос, Пабло (28.07.2023). «Компромисс между вычислениями в обучении и выводе». Epoch AI . Получено 24.09.2024 .
  29. ^ "Учимся рассуждать с LLM". OpenAI . Получено 2024-09-16 .
  30. ^ Чжай, Сяохуа; Колесников, Александр; Хоулсби, Нил; Бейер, Лукас (2022). «Масштабирование Трансформаторов Зрения». CVPR : 12104–12113.
  31. ^ ab Ghorbani, Behrooz; Firat, Orhan; ​​Freitag, Markus; Bapna, Ankur; Krikun, Maxim; Garcia, Xavier; Chelba, Ciprian; Cherry, Colin (2021-09-01). "Законы масштабирования для нейронного машинного перевода". arXiv : 2109.07740 [cs.LG].
  32. ^ Чен, Миа Сюй; Фират, Орхан; Бапна, Анкур; Джонсон, Мелвин; Машери, Вольфганг; Фостер, Джордж; Джонс, Ллион; Шустер, Майк; Шазир, Ноам; Пармар, Ники; Васвани, Ашиш; Ушкорейт, Якоб; Кайзер, Лукаш; Чен, Чжифэн; У, Йонгхуэй (июль 2018 г.). «Лучшее из обоих миров: объединение последних достижений в области нейронного машинного перевода». Труды 56-го ежегодного собрания Ассоциации компьютерной лингвистики (том 1: длинные статьи) . Мельбурн, Австралия: Ассоциация компьютерной лингвистики: 76–86. arXiv : 1804.09849 . doi :10.18653/v1/P18-1008.
  33. ^ Гордон, Митчелл А.; Да, Кевин; Каплан, Джаред (2021). «Законы масштабирования данных и параметров для нейронного машинного перевода». Труды конференции 2021 года по эмпирическим методам в обработке естественного языка . Страудсбург, Пенсильвания, США: Ассоциация компьютерной лингвистики. стр. 5915–5922. doi : 10.18653/v1/2021.emnlp-main.478 .
  34. ^ Эрнандес, Дэнни; ​​Каплан, Джаред; Хениган, Том; МакКэндлиш, Сэм (01.02.2021). «Законы масштабирования для переноса». arXiv : 2102.01293 [cs.LG].