stringtranslate.com

Переобучение

Рисунок 1. Зеленая линия представляет переобученную модель, а черная линия представляет регуляризованную модель. Хотя зеленая линия лучше всего следует данным обучения, она слишком зависит от этих данных и, вероятно, будет иметь более высокий уровень ошибок на новых невидимых данных, проиллюстрированных черными точками, по сравнению с черной линией.
Рисунок 2. Зашумленные (приблизительно линейные) данные подгоняются под линейную функцию и полиномиальную функцию. Хотя полиномиальная функция идеально подходит, можно ожидать, что линейная функция будет обобщать лучше: если бы две функции использовались для экстраполяции за пределами подогнанных данных, линейная функция должна была бы делать лучшие прогнозы.
Рисунок 3. Синяя пунктирная линия представляет недообученную модель. Прямая линия никогда не может соответствовать параболе. Эта модель слишком проста.

В математическом моделировании переобучение — это «производство анализа, который слишком близко или точно соответствует определенному набору данных и, следовательно, может не соответствовать дополнительным данным или надежно предсказывать будущие наблюдения». [1] Переобученна модель — это математическая модель , которая содержит больше параметров , чем может быть обосновано данными. [2] В математическом смысле эти параметры представляют степень полинома . Суть переобучения заключается в неосознанном извлечении некоторой остаточной вариации (т. е. шума ), как если бы эта вариация представляла собой базовую структуру модели. [3] : 45 

Недообучение происходит, когда математическая модель не может адекватно охватить базовую структуру данных. Недообученна модель — это модель, в которой отсутствуют некоторые параметры или термины, которые могли бы появиться в правильно определенной модели. [2] Недообучение происходит, например, при подгонке линейной модели к нелинейным данным. Такая модель, как правило, имеет плохую предсказательную эффективность.

Возможность переобучения существует, поскольку критерий, используемый для выбора модели , не совпадает с критерием, используемым для оценки пригодности модели. Например, модель может быть выбрана путем максимизации ее производительности на некотором наборе обучающих данных , и все же ее пригодность может определяться ее способностью хорошо работать на невидимых данных; переобучение происходит, когда модель начинает «запоминать» обучающие данные, а не «учиться» обобщать из тенденции.

В качестве крайнего примера, если количество параметров равно или больше количества наблюдений, то модель может идеально предсказать обучающие данные, просто запомнив данные целиком. (Для иллюстрации см. Рисунок 2.) Однако такая модель, как правило, будет давать серьезные сбои при составлении прогнозов.

Переобучение напрямую связано с ошибкой аппроксимации выбранного класса функций и ошибкой оптимизации процедуры оптимизации. Класс функций, который слишком велик, в подходящем смысле, относительно размера набора данных, скорее всего, будет переобучен. [4] Даже если подобранная модель не имеет чрезмерного количества параметров, следует ожидать, что подобранное отношение будет работать хуже на новом наборе данных, чем на наборе данных, использованном для подгонки (явление, иногда называемое усадкой ). [2] В частности, значение коэффициента детерминации уменьшится относительно исходных данных.

Чтобы уменьшить вероятность или объем переобучения, доступны несколько методов (например, сравнение моделей , перекрестная проверка , регуляризация , ранняя остановка , обрезка , байесовские априорные данные или исключение ). Основой некоторых методов является либо (1) явное наказание за слишком сложные модели, либо (2) проверка способности модели к обобщению путем оценки ее производительности на наборе данных, не используемых для обучения, который, как предполагается, аппроксимирует типичные невидимые данные, с которыми столкнется модель.

Статистический вывод

В статистике вывод делается на основе статистической модели , которая была выбрана с помощью некоторой процедуры. Бернхэм и Андерсон в своем часто цитируемом тексте по выбору модели утверждают, что для того, чтобы избежать переобучения, мы должны придерживаться « Принципа бережливости ». [3] Авторы также утверждают следующее. [3] : 32–33 

Переобученные модели... часто свободны от смещения в оценках параметров, но имеют оцененные (и фактические) дисперсии выборки, которые неоправданно велики (точность оценок плохая по сравнению с тем, чего можно было бы достичь с помощью более экономной модели). Ложные эффекты обработки, как правило, выявляются, и ложные переменные включаются в переобученные модели. ... Наилучшая аппроксимирующая модель достигается путем надлежащего балансирования ошибок недообучения и переобучения.

Переобучение, скорее всего, станет серьезной проблемой, когда мало теории, которая могла бы направлять анализ, отчасти потому, что тогда, как правило, есть большое количество моделей, из которых можно выбирать. В книге « Выбор модели и усреднение модели» (2008) это описывается следующим образом. [5]

Имея набор данных, вы можете подогнать тысячи моделей одним нажатием кнопки, но как выбрать лучшую? При таком количестве моделей-кандидатов переобучение становится реальной опасностью. Является ли обезьяна, которая напечатала Гамлета, на самом деле хорошим писателем?

Регрессия

В регрессионном анализе часто происходит переобучение. [6] В качестве крайнего примера, если в линейной регрессии с p точками данных есть p переменных , подобранная линия может точно проходить через каждую точку. [7] Для логистической регрессии или моделей пропорциональных рисков Кокса существует множество эмпирических правил (например, 5–9, [8] 10 [9] и 10–15 [10] — правило 10 наблюдений на независимую переменную известно как « правило одного из десяти »). В процессе выбора регрессионной модели среднеквадратическая ошибка случайной функции регрессии может быть разделена на случайный шум, смещение аппроксимации и дисперсию в оценке функции регрессии. Компромисс между смещением и дисперсией часто используется для преодоления моделей переобучения.

При большом наборе объясняющих переменных , которые на самом деле не имеют никакого отношения к предсказываемой зависимой переменной , некоторые переменные в целом будут ложно признаны статистически значимыми , и исследователь может таким образом сохранить их в модели, тем самым переобучив модель. Это известно как парадокс Фридмана .

Машинное обучение

Рисунок 4. Переобучение/перетренировка в контролируемом обучении (например, нейронная сеть ). Ошибка обучения показана синим цветом, а ошибка проверки — красным, обе как функция количества циклов обучения. Если ошибка проверки увеличивается (положительный наклон), а ошибка обучения неуклонно уменьшается (отрицательный наклон), то, возможно, произошла ситуация переобучения. Лучшая предиктивная и подогнанная модель будет такой, где ошибка проверки имеет свой глобальный минимум.

Обычно обучающий алгоритм обучается с использованием некоторого набора «обучающих данных»: образцовых ситуаций, для которых известен желаемый результат. Цель состоит в том, чтобы алгоритм также хорошо предсказывал результат при подаче «проверочных данных», которые не встречались во время его обучения.

Переобучение — это использование моделей или процедур, которые нарушают бритву Оккама , например, путем включения большего количества регулируемых параметров, чем в конечном итоге оптимально, или путем использования более сложного подхода, чем в конечном итоге оптимально. В качестве примера, когда имеется слишком много регулируемых параметров, рассмотрим набор данных, где обучающие данные для y могут быть адекватно предсказаны линейной функцией двух независимых переменных. Такая функция требует только трех параметров (свободного члена и двух наклонов). Замена этой простой функции новой, более сложной квадратичной функцией или новой, более сложной линейной функцией более чем двух независимых переменных несет в себе риск: бритва Оккама подразумевает, что любая заданная сложная функция априори менее вероятна, чем любая заданная простая функция. Если вместо простой функции выбрана новая, более сложная функция, и если не было достаточно большого прироста в обучающих данных, чтобы компенсировать увеличение сложности, то новая сложная функция «переобучает» данные, и сложная переобучаемая функция, вероятно, будет работать хуже, чем более простая функция на проверочных данных за пределами обучающего набора данных, даже если сложная функция работала так же хорошо, или, возможно, даже лучше, на обучающем наборе данных. [11]

При сравнении различных типов моделей сложность нельзя измерить только подсчетом количества параметров в каждой модели; необходимо также учитывать экспрессивность каждого параметра. Например, нетривиально напрямую сравнивать сложность нейронной сети (которая может отслеживать криволинейные отношения) с m параметрами с регрессионной моделью с n параметрами. [11]

Переобучение особенно вероятно в случаях, когда обучение выполнялось слишком долго или когда обучающие примеры редки, заставляя обучающегося подстраиваться под очень специфические случайные особенности обучающих данных, которые не имеют причинно-следственной связи с целевой функцией . В этом процессе переобучения производительность на обучающих примерах все еще увеличивается, в то время как производительность на невидимых данных ухудшается.

В качестве простого примера рассмотрим базу данных розничных покупок, которая включает купленный товар, покупателя, дату и время покупки. Легко построить модель, которая будет идеально соответствовать обучающему набору, используя дату и время покупки для прогнозирования других атрибутов, но эта модель вообще не будет обобщаться на новые данные, потому что эти прошлые разы больше никогда не произойдут.

Обычно говорят, что обучающийся алгоритм переобучен относительно более простого, если он точнее подгоняет известные данные (ретроспективно), но менее точен в прогнозировании новых данных (предвидение). Интуитивно переобучение можно понять из того факта, что информацию из всего прошлого опыта можно разделить на две группы: информацию, которая имеет отношение к будущему, и нерелевантную информацию («шум»). При прочих равных условиях, чем сложнее предсказать критерий (т. е. чем выше его неопределенность), тем больше шума в прошлой информации, который нужно игнорировать. Проблема заключается в определении того, какую часть игнорировать. Обучающийся алгоритм, который может снизить риск подгонки шума, называется « надежным ».

Последствия

Переобученные генеративные модели могут давать результаты, которые практически идентичны примерам из их обучающего набора. [12]

Наиболее очевидным последствием переобучения является плохая производительность на наборе данных проверки. Другие негативные последствия включают:

Средство

Оптимальная функция обычно требует проверки на больших или совершенно новых наборах данных. Однако существуют такие методы, как минимальное остовное дерево или время жизни корреляции , которые применяют зависимость между коэффициентами корреляции и временным рядом (шириной окна). Всякий раз, когда ширина окна достаточно велика, коэффициенты корреляции стабильны и больше не зависят от размера ширины окна. Поэтому матрицу корреляции можно создать, вычислив коэффициент корреляции между исследуемыми переменными. Эту матрицу можно представить топологически как сложную сеть, в которой визуализируются прямые и косвенные влияния между переменными.

Регуляризация исключения (случайное удаление данных обучающего набора) также может повысить надежность и, следовательно, снизить переобучение за счет вероятностного удаления входных данных из слоя.

Недообучение

Рисунок 5. Красная линия представляет собой недообученную модель точек данных, представленных синим цветом. Мы ожидали бы увидеть линию в форме параболы, представляющую кривизну точек данных.
Рисунок 6. Синяя линия представляет собой подобранную модель точек данных, представленных зеленым цветом.

Недообучение — это обратная сторона переобучения, то есть статистическая модель или алгоритм машинного обучения слишком упрощены, чтобы точно улавливать закономерности в данных. Признаком недообучения является то, что в текущей используемой модели или алгоритме обнаружены высокое смещение и низкая дисперсия (обратная сторона переобучения: низкое смещение и высокая дисперсия ). Это можно понять из компромисса смещения-дисперсии , который является методом анализа модели или алгоритма на предмет ошибки смещения, ошибки дисперсии и неустранимой ошибки. При высоком смещении и низкой дисперсии результатом модели является то, что она будет неточно представлять точки данных и, таким образом, недостаточно способна предсказывать будущие результаты данных (см. Ошибка обобщения ). Как показано на рисунке 5, линейная линия не может представлять все заданные точки данных из-за того, что линия не напоминает кривизну точек. Мы ожидали бы увидеть линию в форме параболы, как показано на рисунках 6 и 1. Если бы мы использовали рисунок 5 для анализа, мы получили бы ложные прогностические результаты, противоречащие результатам, полученным при анализе рисунка 6.

Бернхэм и Андерсон утверждают следующее. [3] : 32 

... недообученная модель будет игнорировать некоторые важные воспроизводимые (т. е. концептуально воспроизводимые в большинстве других образцов) структуры в данных и, таким образом, не сможет идентифицировать эффекты, которые фактически поддерживаются данными. В этом случае смещение в оценках параметров часто бывает существенным, а дисперсия выборки недооценивается, оба фактора приводят к плохому охвату доверительного интервала. Недообученные модели, как правило, упускают важные эффекты лечения в экспериментальных условиях.

Разрешение проблемы недообучения

Существует несколько способов борьбы с недообучением:

  1. Увеличьте сложность модели: Если модель слишком проста, может потребоваться увеличить ее сложность, добавив больше признаков, увеличив количество параметров или используя более гибкую модель. Однако это следует делать осторожно, чтобы избежать переобучения. [14]
  2. Используйте другой алгоритм: Если текущий алгоритм не может уловить закономерности в данных, может потребоваться попробовать другой. Например, нейронная сеть может быть более эффективной, чем модель линейной регрессии для некоторых типов данных. [14]
  3. Увеличьте количество обучающих данных: Если модель не соответствует требованиям из-за недостатка данных, увеличение количества обучающих данных может помочь. Это позволит модели лучше улавливать базовые закономерности в данных. [14]
  4. Регуляризация: Регуляризация — это метод, используемый для предотвращения переобучения путем добавления штрафного члена к функции потерь, который препятствует большим значениям параметров. Его также можно использовать для предотвращения недообучения путем управления сложностью модели. [15]
  5. Методы ансамбля : Методы ансамбля объединяют несколько моделей для создания более точного прогноза. Это может помочь уменьшить недообучение, позволяя нескольким моделям работать вместе для захвата базовых закономерностей в данных.
  6. Разработка признаков : Разработка признаков подразумевает создание новых признаков модели из существующих, которые могут быть более релевантными для рассматриваемой проблемы. Это может помочь повысить точность модели и предотвратить недообучение. [14]

Доброкачественное переобучение

Доброкачественное переобучение описывает явление статистической модели, которая, по-видимому, хорошо обобщает невидимые данные, даже когда она идеально подходит для зашумленных обучающих данных (т. е. достигает идеальной точности предсказания на обучающем наборе). Это явление представляет особый интерес для глубоких нейронных сетей , но изучается с теоретической точки зрения в контексте гораздо более простых моделей, таких как линейная регрессия . В частности, было показано, что сверхпараметризация имеет важное значение для доброкачественного переобучения в этой обстановке. Другими словами, количество направлений в пространстве параметров, которые не важны для прогнозирования, должно значительно превышать размер выборки. [16]

Смотрите также

Примечания

  1. ^ Определение термина «переобучение» на OxfordDictionaries.com : это определение предназначено специально для статистики.
  2. ^ abc Everitt BS, Skrondal A. (2010), Кембриджский словарь статистики , Cambridge University Press .
  3. ^ abcd Бернхэм, К. П.; Андерсон, Д. Р. (2002), Выбор модели и вывод мультимодельных моделей (2-е изд.), Springer-Verlag.
  4. ^ Ботту, Леон; Буске, Оливье (2011-09-30), «Компромиссы крупномасштабного обучения», Оптимизация для машинного обучения , The MIT Press, стр. 351–368, doi :10.7551/mitpress/8996.003.0015, ISBN 978-0-262-29877-3, получено 2023-12-08
  5. ^ Claeskens, G. ; Hjort, NL (2008), Выбор модели и усреднение модели , Cambridge University Press.
  6. ^ Харрелл, FE Jr. (2001), Стратегии регрессионного моделирования , Springer.
  7. ^ Марта К. Смит (13.06.2014). «Переобучение». Техасский университет в Остине . Получено 31.07.2016 .
  8. ^ Виттингхофф, Э.; Маккалок, К. Э. (2007). «Ослабление правила десяти событий на переменную в логистической регрессии и регрессии Кокса». Американский журнал эпидемиологии . 165 (6): 710–718. doi :10.1093/aje/kwk052. PMID  17182981.
  9. ^ Дрейпер, Норман Р.; Смит, Гарри (1998). Прикладной регрессионный анализ (3-е изд.). Wiley . ISBN 978-0471170822.
  10. ^ Джим Фрост (2015-09-03). "Опасность переобучения регрессионных моделей" . Получено 2016-07-31 .
  11. ^ abcd Хокинс, Дуглас М (2004). «Проблема переобучения». Журнал химической информации и моделирования . 44 (1): 1–12. doi :10.1021/ci0342472. PMID  14741005. S2CID  12440383.
  12. ^ ab Lee, Timothy B. (3 апреля 2023 г.). «Судебные иски об авторских правах Stable Diffusion могут стать правовым землетрясением для ИИ». Ars Technica .
  13. ^ Винсент, Джеймс (2022-11-08). «Судебный процесс, который может переписать правила авторского права на ИИ». The Verge . Получено 2022-12-07 .
  14. ^ abcd "ML | Недообучение и переобучение". GeeksforGeeks . 2017-11-23 . Получено 2023-02-27 .
  15. ^ Нусрат, Исмоилов; Джанг, Сунг-Бонг (ноябрь 2018 г.). «Сравнение методов регуляризации в глубоких нейронных сетях». Симметрия . 10 (11): 648. Bibcode : 2018Symm...10..648N. doi : 10.3390/sym10110648 . ISSN  2073-8994.
  16. ^ Bartlett, PL, Long, PM, Lugosi, G., & Tsigler, A. (2019). Доброкачественная переподгонка в линейной регрессии. Труды Национальной академии наук, 117, 30063 - 30070.

Ссылки

Дальнейшее чтение

Внешние ссылки