Двойной спуск

В статистике и машинном обучении двойной спуск — это явление, при котором статистическая модель с небольшим числом параметров и модель с чрезвычайно большим числом параметров имеют небольшую ошибку теста , но модель, число параметров которой примерно равно числу точек данных, используемых для обучения модели, будет иметь большую ошибку. ^[2] Это явление считалось неожиданным, поскольку оно противоречит предположениям о переобучении в классическом машинном обучении. ^[1]

История

Ранние наблюдения того, что позже будет названо двойным спуском в конкретных моделях, датируются 1989 годом. ^[3]^[4]

Термин «двойной спуск» был придуман Белкиным и др. ^[5] в 2019 году, ^[1] когда это явление как более широкая концепция, разделяемая многими моделями, приобрело популярность. ^[6]^[7] Последнее развитие было вызвано воспринимаемым противоречием между общепринятым мнением о том, что слишком большое количество параметров в модели приводит к значительной ошибке переобучения (экстраполяция компромисса смещения-дисперсии ) ^[8] и эмпирическими наблюдениями 2010-х годов о том, что некоторые современные модели машинного обучения, как правило, работают лучше с более крупными моделями. ^[5]^[9]

Теоретические модели

Двойной спуск происходит в линейной регрессии с изотропными гауссовыми ковариатами и изотропным гауссовым шумом. ^[10]

Модель двойного спуска на термодинамическом пределе была проанализирована методом реплик , и результат был подтвержден численно. ^[11]

Эмпирические примеры

Было обнаружено, что поведение масштабирования двойного спуска следует функциональной форме нарушенного закона нейронного масштабирования ^[12] .

Ссылки

^ abc Шеффер, Райлан; Хона, Микаил; Робертсон, Захари; Бупати, Ахилан; Пистунова, Катерина; Рокс, Джейсон В.; Фите, Ила Рани; Коеджо, Олувасанми (24.03.2023). «Демистификация двойного спуска: выявление, интерпретация и устранение источников головоломки глубокого обучения». arXiv : 2303.14151v1 [cs.LG].
^ "Глубокий двойной спуск". OpenAI . 2019-12-05 . Получено 2022-08-12 .
^ Vallet, F.; Cailton, J.-G.; Refregier, Ph (июнь 1989). "Линейное и нелинейное расширение псевдообратного решения для изучения булевых функций". Europhysics Letters . 9 (4): 315. Bibcode : 1989EL......9..315V. doi : 10.1209/0295-5075/9/4/003. ISSN 0295-5075.
^ Loog, Marco; Viering, Tom; Mey, Alexander; Krijthe, Jesse H.; Tax, David MJ (2020-05-19). «Краткая предыстория двойного происхождения». Труды Национальной академии наук . 117 (20): 10625–10626. arXiv : 2004.04328 . Bibcode : 2020PNAS..11710625L. doi : 10.1073/pnas.2001875117 . ISSN 0027-8424. PMC 7245109. PMID 32371495 .
^ ab Белкин, Михаил; Сюй, Даниэль; Ма, Сыюань; Мандал, Соумик (2019-08-06). «Согласование современной практики машинного обучения и компромисса смещения и дисперсии». Труды Национальной академии наук . 116 (32): 15849–15854. arXiv : 1812.11118 . doi : 10.1073/pnas.1903070116 . ISSN 0027-8424. PMC 6689936. PMID 31341078 .
^ Спиглер, Стефано; Гейгер, Марио; Д'Асколи, Стефан; Сагун, Левент; Бироли, Джулио; Вайарт, Матье (2019-11-22). «Переход с защемлением от недостаточной к избыточной параметризации влияет на ландшафт потерь и обобщение». Журнал физики A: Математическое и теоретическое . 52 (47): 474001. arXiv : 1810.09665 . doi : 10.1088/1751-8121/ab4c8b. ISSN 1751-8113.
^ Viering, Tom; Loog, Marco (2023-06-01). «Форма кривых обучения: обзор». IEEE Transactions on Pattern Analysis and Machine Intelligence . 45 (6): 7799–7819. arXiv : 2103.10948 . doi : 10.1109/TPAMI.2022.3220744. ISSN 0162-8828. PMID 36350870.
^ Geman, Stuart ; Bienenstock, Élie; Doursat, René (1992). «Нейронные сети и дилемма смещения/дисперсии» (PDF) . Neural Computation . 4 : 1–58. doi :10.1162/neco.1992.4.1.1. S2CID 14215320.
^ Preetum Nakkiran; Gal Kaplun; Yamini Bansal; Tristan Yang; Boaz Barak; Ilya Sutskever (29 декабря 2021 г.). «Глубокий двойной спуск: где большие модели и больше данных вредят». Журнал статистической механики: теория и эксперимент . 2021 (12). IOP Publishing Ltd и SISSA Medialab srl: 124003. arXiv : 1912.02292 . Bibcode : 2021JSMTE2021l4003N. doi : 10.1088/1742-5468/ac3a74. S2CID 207808916.
^ Наккиран, Преетум (16.12.2019). «Больше данных может навредить линейной регрессии: двойной спуск по выборке». arXiv : 1912.07242v1 [stat.ML].
^ Advani, Madhu S.; Saxe, Andrew M.; Sompolinsky, Haim (2020-12-01). «Высокоразмерная динамика ошибки обобщения в нейронных сетях». Neural Networks . 132 : 428–446. doi : 10.1016/j.neunet.2020.08.022 . ISSN 0893-6080. PMC 7685244. PMID 33022471 .
^ Кабальеро, Итан; Гупта, Кшитидж; Риш, Ирина; Крюгер, Дэвид (2022). «Нарушенные законы нейронного масштабирования». Международная конференция по представлениям обучения (ICLR), 2023.

Дальнейшее чтение

Михаил Белкин; Дэниел Сюй; Цзи Сюй (2020). «Две модели двойного спуска для слабых признаков». Журнал SIAM по математике в науке о данных . 2 (4): 1167–1180. arXiv : 1903.07571 . doi : 10.1137/20M1336072 .
Маунт, Джон (3 апреля 2024 г.). «Аномалия машинного обучения m = n».
Preetum Nakkiran; Gal Kaplun; Yamini Bansal; Tristan Yang; Boaz Barak; Ilya Sutskever (29 декабря 2021 г.). «Глубокий двойной спуск: где большие модели и больше данных вредят». Журнал статистической механики: теория и эксперимент . 2021 (12). IOP Publishing Ltd и SISSA Medialab srl: 124003. arXiv : 1912.02292 . Bibcode : 2021JSMTE2021l4003N. doi : 10.1088/1742-5468/ac3a74. S2CID 207808916.
Song Mei; Andrea Montanari (апрель 2022 г.). «Ошибка обобщения регрессии случайных признаков: точная асимптотика и кривая двойного спуска». Сообщения по чистой и прикладной математике . 75 (4): 667–766. arXiv : 1908.05355 . doi : 10.1002/cpa.22008. S2CID 199668852.
Сянъюй Чан; Инконг Ли; Самет Оймак; Христос Трампулидис (2021). «Доказуемые преимущества сверхпараметризации при сжатии моделей: от двойного спуска до обрезки нейронных сетей». Труды конференции AAAI по искусственному интеллекту . 35 (8). arXiv : 2012.08749 .

Внешние ссылки

Брент Вернесс; Джаред Уилбер. «Двойной спуск: Часть 1: Визуальное введение».
Брент Вернесс; Джаред Уилбер. «Двойной спуск: Часть 2: Математическое объяснение».
Понимание «глубокого двойного спуска» на evhub.