stringtranslate.com

Двойной спуск

Пример явления двойного спуска в двухслойной нейронной сети: при увеличении отношения параметров к точкам данных ошибка теста сначала падает, затем растет, затем снова падает. [1] Вертикальная линия отмечает границу «порога интерполяции» между недопараметризованным режимом (больше точек данных, чем параметров) и перепараметризованным режимом (больше параметров, чем точек данных).

В статистике и машинном обучении двойной спуск — это явление, при котором статистическая модель с небольшим числом параметров и модель с чрезвычайно большим числом параметров имеют небольшую ошибку теста , но модель, число параметров которой примерно равно числу точек данных, используемых для обучения модели, будет иметь большую ошибку. [2] Это явление считалось неожиданным, поскольку оно противоречит предположениям о переобучении в классическом машинном обучении. [1]

История

Ранние наблюдения того, что позже будет названо двойным спуском в конкретных моделях, датируются 1989 годом. [3] [4]

Термин «двойной спуск» был придуман Белкиным и др. [5] в 2019 году, [1] когда это явление как более широкая концепция, разделяемая многими моделями, приобрело популярность. [6] [7] Последнее развитие было вызвано воспринимаемым противоречием между общепринятым мнением о том, что слишком большое количество параметров в модели приводит к значительной ошибке переобучения (экстраполяция компромисса смещения-дисперсии ) [8] и эмпирическими наблюдениями 2010-х годов о том, что некоторые современные модели машинного обучения, как правило, работают лучше с более крупными моделями. [5] [9]

Теоретические модели

Двойной спуск происходит в линейной регрессии с изотропными гауссовыми ковариатами и изотропным гауссовым шумом. [10]

Модель двойного спуска на термодинамическом пределе была проанализирована методом реплик , и результат был подтвержден численно. [11]

Эмпирические примеры

Было обнаружено, что поведение масштабирования двойного спуска следует функциональной форме нарушенного закона нейронного масштабирования [12] .

Ссылки

  1. ^ abc Шеффер, Райлан; Хона, Микаил; Робертсон, Захари; Бупати, Ахилан; Пистунова, Катерина; Рокс, Джейсон В.; Фите, Ила Рани; Коеджо, Олувасанми (24.03.2023). «Демистификация двойного спуска: выявление, интерпретация и устранение источников головоломки глубокого обучения». arXiv : 2303.14151v1 [cs.LG].
  2. ^ "Глубокий двойной спуск". OpenAI . 2019-12-05 . Получено 2022-08-12 .
  3. ^ Vallet, F.; Cailton, J.-G.; Refregier, Ph (июнь 1989). "Линейное и нелинейное расширение псевдообратного решения для изучения булевых функций". Europhysics Letters . 9 (4): 315. Bibcode : 1989EL......9..315V. doi : 10.1209/0295-5075/9/4/003. ISSN  0295-5075.
  4. ^ Loog, Marco; Viering, Tom; Mey, Alexander; Krijthe, Jesse H.; Tax, David MJ (2020-05-19). «Краткая предыстория двойного происхождения». Труды Национальной академии наук . 117 (20): 10625–10626. arXiv : 2004.04328 . Bibcode : 2020PNAS..11710625L. doi : 10.1073/pnas.2001875117 . ISSN  0027-8424. PMC 7245109. PMID 32371495  . 
  5. ^ ab Белкин, Михаил; Сюй, Даниэль; Ма, Сыюань; Мандал, Соумик (2019-08-06). «Согласование современной практики машинного обучения и компромисса смещения и дисперсии». Труды Национальной академии наук . 116 (32): 15849–15854. arXiv : 1812.11118 . doi : 10.1073/pnas.1903070116 . ISSN  0027-8424. PMC 6689936. PMID 31341078  . 
  6. ^ Спиглер, Стефано; Гейгер, Марио; Д'Асколи, Стефан; Сагун, Левент; Бироли, Джулио; Вайарт, Матье (2019-11-22). «Переход с защемлением от недостаточной к избыточной параметризации влияет на ландшафт потерь и обобщение». Журнал физики A: Математическое и теоретическое . 52 (47): 474001. arXiv : 1810.09665 . doi : 10.1088/1751-8121/ab4c8b. ISSN  1751-8113.
  7. ^ Viering, Tom; Loog, Marco (2023-06-01). «Форма кривых обучения: обзор». IEEE Transactions on Pattern Analysis and Machine Intelligence . 45 (6): 7799–7819. arXiv : 2103.10948 . doi : 10.1109/TPAMI.2022.3220744. ISSN  0162-8828. PMID  36350870.
  8. ^ Geman, Stuart ; Bienenstock, Élie; Doursat, René (1992). «Нейронные сети и дилемма смещения/дисперсии» (PDF) . Neural Computation . 4 : 1–58. doi :10.1162/neco.1992.4.1.1. S2CID  14215320.
  9. ^ Preetum Nakkiran; Gal Kaplun; Yamini Bansal; Tristan Yang; Boaz Barak; Ilya Sutskever (29 декабря 2021 г.). «Глубокий двойной спуск: где большие модели и больше данных вредят». Журнал статистической механики: теория и эксперимент . 2021 (12). IOP Publishing Ltd и SISSA Medialab srl: 124003. arXiv : 1912.02292 . Bibcode : 2021JSMTE2021l4003N. doi : 10.1088/1742-5468/ac3a74. S2CID  207808916.
  10. ^ Наккиран, Преетум (16.12.2019). «Больше данных может навредить линейной регрессии: двойной спуск по выборке». arXiv : 1912.07242v1 [stat.ML].
  11. ^ Advani, Madhu S.; Saxe, Andrew M.; Sompolinsky, Haim (2020-12-01). «Высокоразмерная динамика ошибки обобщения в нейронных сетях». Neural Networks . 132 : 428–446. doi : 10.1016/j.neunet.2020.08.022 . ISSN  0893-6080. PMC 7685244. PMID  33022471 . 
  12. ^ Кабальеро, Итан; Гупта, Кшитидж; Риш, Ирина; Крюгер, Дэвид (2022). «Нарушенные законы нейронного масштабирования». Международная конференция по представлениям обучения (ICLR), 2023.

Дальнейшее чтение

Внешние ссылки