В математическом моделировании переоснащение — это «проведение анализа, который слишком близко или точно соответствует определенному набору данных и, следовательно, может не соответствовать дополнительным данным или надежно предсказать будущие наблюдения». [1] Переоснащенная модель — это математическая модель , которая содержит больше параметров , чем можно оправдать данными. [2] В математическом смысле эти параметры представляют собой степень многочлена . Суть переоснащения состоит в том, чтобы неосознанно извлечь часть остаточных вариаций (т. е. шума ) , как если бы эта вариация представляла собой основную структуру модели. [3] : 45
Недостаточное соответствие происходит, когда математическая модель не может адекватно отразить основную структуру данных. Недостаточно подобранная модель — это модель, в которой отсутствуют некоторые параметры или термины, которые присутствовали бы в правильно заданной модели. [2] Недостаточная подгонка может произойти, например, при подгонке линейной модели к нелинейным данным. Такая модель будет иметь плохую предсказательную эффективность.
Возможность переобучения существует, поскольку критерий, используемый для выбора модели, не совпадает с критерием, используемым для оценки пригодности модели. Например, модель может быть выбрана путем максимизации ее производительности на некотором наборе обучающих данных , но ее пригодность может определяться ее способностью хорошо работать на невидимых данных; затем происходит переобучение, когда модель начинает «запоминать» обучающие данные, а не «учиться» делать обобщения на основе тренда.
В крайнем случае, если количество параметров равно количеству наблюдений или превышает его, то модель может идеально предсказать обучающие данные, просто запомнив данные целиком. (Иллюстрацию см. на рис. 2.) Однако такая модель обычно дает серьезные сбои при составлении прогнозов.
Переоснащение напрямую связано с ошибкой аппроксимации выбранного класса функций и ошибкой оптимизации процедуры оптимизации. Класс функции, который в соответствующем смысле слишком велик по отношению к размеру набора данных, скорее всего, будет переобучен. [4] Даже если подобранная модель не имеет чрезмерного количества параметров, следует ожидать, что подобранная зависимость будет работать менее эффективно на новом наборе данных, чем на наборе данных, используемом для подбора (феномен, иногда известный как в виде усадки ). [2] В частности , значение коэффициента детерминации уменьшится относительно исходных данных.
Чтобы уменьшить вероятность или количество переобучения, доступно несколько методов (например, сравнение моделей , перекрестная проверка , регуляризация , ранняя остановка , обрезка , байесовские априорные вычисления или отсев ). В основе некоторых методов лежит либо (1) явное наложение штрафов за слишком сложные модели, либо (2) проверка способности модели к обобщению путем оценки ее производительности на наборе данных, не используемых для обучения, который, как предполагается, аппроксимирует типичные невидимые данные. с которым столкнется модель.
В статистике вывод делается на основе статистической модели , выбранной с помощью некоторой процедуры. Бёрнем и Андерсон в своей часто цитируемой работе по выбору модели утверждают, что во избежание переобучения нам следует придерживаться «принципа бережливости ». [3] Авторы также утверждают следующее. [3] : 32–33
Переоснащенные модели ... часто не имеют смещения в средствах оценки параметров, но имеют неоправданно большие оцененные (и фактические) отклонения выборки (точность средств оценки низкая по сравнению с тем, чего можно было бы достичь с помощью более экономной модели) . Ложные эффекты лечения, как правило, выявляются, а ложные переменные включаются в переоснащенные модели. ... Модель наилучшего приближения достигается путем правильного балансирования ошибок недостаточного и переоснащения.
Переобучение, скорее всего, станет серьезной проблемой, когда имеется мало теории для проведения анализа, отчасти потому, что тогда существует большое количество моделей для выбора. В книге «Выбор модели и усреднение модели» (2008) об этом говорится так. [5]
Имея набор данных, вы можете подобрать тысячи моделей одним нажатием кнопки, но как выбрать лучшую? При таком большом количестве моделей-кандидатов переобучение представляет собой реальную опасность. Является ли обезьяна, напечатавшая «Гамлета», хорошим писателем?
В регрессионном анализе часто происходит переобучение. [6] В качестве крайнего примера: если в линейной регрессии имеется p переменных с p точками данных, подобранная линия может проходить точно через каждую точку. [7] Для моделей логистической регрессии или моделей пропорциональных рисков Кокса существуют различные эмпирические правила (например, 5–9, [8] 10 [9] и 10–15 [10] — правило, состоящее из 10 наблюдений на каждую независимую переменную, составляет известное как « правило одного из десяти »). В процессе выбора модели регрессии среднеквадратическая ошибка случайной функции регрессии может быть разделена на случайный шум, погрешность аппроксимации и дисперсию оценки функции регрессии. Компромисс смещения и дисперсии часто используется для преодоления моделей переобучения.
При большом наборе объясняющих переменных , которые на самом деле не имеют никакого отношения к прогнозируемой зависимой переменной , некоторые переменные, как правило, будут ошибочно признаны статистически значимыми , и исследователь может, таким образом, сохранить их в модели, тем самым переобучив модель. Это известно как парадокс Фридмана .
Обычно алгоритм обучения обучается с использованием некоторого набора «обучающих данных»: примерных ситуаций, для которых известен желаемый результат. Цель состоит в том, чтобы алгоритм также хорошо работал при прогнозировании выходных данных при подаче «данных проверки», которые не встречались во время его обучения.
Переоснащение — это использование моделей или процедур, которые нарушают принцип бритвы Оккама , например, путем включения большего количества регулируемых параметров, чем в конечном итоге оптимально, или использования более сложного подхода, чем в конечном итоге оптимально. В качестве примера, когда имеется слишком много настраиваемых параметров, рассмотрим набор данных, в котором данные обучения для y могут быть адекватно предсказаны с помощью линейной функции двух независимых переменных. Такая функция требует всего три параметра (точка пересечения и два наклона). Замена этой простой функции новой, более сложной квадратичной функцией или новой, более сложной линейной функцией от более чем двух независимых переменных сопряжена с риском: бритва Оккама подразумевает, что любая данная сложная функция априори менее вероятна, чем любая заданная простая функция. функция. Если вместо простой функции выбирается новая, более сложная функция, и если не было достаточно большого прироста в подгонке обучающих данных, чтобы компенсировать увеличение сложности, то новая сложная функция «подгоняется» к данным, а комплексная переоснащается. Функция, скорее всего, будет работать хуже, чем более простая функция, на проверочных данных вне набора обучающих данных, даже если сложная функция работает так же или, возможно, даже лучше, на наборе обучающих данных. [11]
При сравнении различных типов моделей сложность нельзя измерить только путем подсчета количества параметров в каждой модели; Необходимо также учитывать выразительность каждого параметра. Например, нетривиально напрямую сравнить сложность нейронной сети (которая может отслеживать криволинейные связи) с m параметрами с регрессионной моделью с n параметрами. [11]
Переобучение особенно вероятно в тех случаях, когда обучение выполнялось слишком долго или когда примеры обучения редки, что заставляет учащегося приспосабливаться к очень специфическим случайным особенностям обучающих данных, которые не имеют причинно-следственной связи с целевой функцией . В этом процессе переобучения производительность на обучающих примерах по-прежнему увеличивается, а производительность на невидимых данных ухудшается.
В качестве простого примера рассмотрим базу данных розничных покупок, которая включает купленный товар, покупателя, а также дату и время покупки. Легко построить модель, которая будет идеально соответствовать обучающему набору, используя дату и время покупки для прогнозирования других атрибутов, но эта модель вообще не будет обобщаться на новые данные, потому что прошлые события никогда не повторятся.
Обычно говорят, что алгоритм обучения переобучен по сравнению с более простым, если он более точен в подборе известных данных (рефсайт), но менее точен в прогнозировании новых данных (форсайт). Интуитивно понять переоснащение можно из того факта, что информацию из всего прошлого опыта можно разделить на две группы: информацию, актуальную для будущего, и нерелевантную информацию («шум»). При прочих равных условиях, чем сложнее предсказать критерий (т. е. чем выше его неопределенность), тем больше шума существует в прошлой информации, которую необходимо игнорировать. Проблема заключается в том, какую часть игнорировать. Алгоритм обучения, который может снизить риск подгонки шума, называется « робастным ».
Наиболее очевидным последствием переоснащения является низкая производительность набора проверочных данных. К другим негативным последствиям относятся:
Оптимальная функция обычно требует проверки на более крупных или совершенно новых наборах данных. Однако существуют такие методы, как минимальное остовное дерево или время жизни корреляции , которые применяют зависимость между коэффициентами корреляции и временными рядами (шириной окна). Когда ширина окна достаточно велика, коэффициенты корреляции стабильны и больше не зависят от размера ширины окна. Следовательно, корреляционная матрица может быть создана путем расчета коэффициента корреляции между исследуемыми переменными. Топологически эту матрицу можно представить как сложную сеть, в которой визуализируются прямые и косвенные влияния между переменными. Регуляризация отсева также может повысить надежность и, следовательно, уменьшить переобучение за счет вероятностного удаления входных данных в слой.
Недостаточное оснащение — это противоположность переобучения, означающее, что статистическая модель или алгоритм машинного обучения слишком упрощены, чтобы точно отразить закономерности в данных. Признаком недостаточного подбора является то, что в текущей используемой модели или алгоритме обнаружена высокая систематическая ошибка и низкая дисперсия (обратная сторона переобучения: низкое смещение и высокая дисперсия ). Это можно получить из компромисса смещения и дисперсии , который представляет собой метод анализа модели или алгоритма на предмет ошибки смещения, ошибки дисперсии и неуменьшаемой ошибки. При высокой систематической ошибке и низкой дисперсии результат модели заключается в том, что она будет неточно представлять точки данных и, следовательно, не сможет предсказать будущие результаты данных (см. Ошибка обобщения ). Показанная на рисунке 5 линейная линия не может представлять все заданные точки данных из-за того, что линия не напоминает кривизну точек. Мы ожидали бы увидеть линию в форме параболы, как показано на рисунках 6 и 1. Как упоминалось ранее, если бы мы использовали рисунок 5 для анализа, мы получили бы ложные прогнозные результаты, противоположные результатам, если бы мы проанализировали рисунок 6.
Бернэм и Андерсон утверждают следующее. [3] : 32
...недооснащенная модель будет игнорировать некоторую важную воспроизводимую (т. е. концептуально воспроизводимую в большинстве других образцов) структуру данных и, таким образом, не сможет выявить эффекты, которые фактически подтверждаются данными. В этом случае смещение в средствах оценки параметров часто бывает значительным, а дисперсия выборки недооценивается, причем оба фактора приводят к плохому охвату доверительного интервала. Недооснащенные модели имеют тенденцию упускать из виду важные эффекты лечения в экспериментальных условиях.
Есть несколько способов борьбы с недостаточностью:
Доброкачественное переобучение описывает феномен статистической модели, которая, по-видимому, хорошо обобщает невидимые данные, даже если она идеально подходит для зашумленных обучающих данных (т. е. обеспечивает идеальную точность прогнозирования на обучающем наборе). Это явление представляет особый интерес для глубоких нейронных сетей , но изучается с теоретической точки зрения в контексте гораздо более простых моделей, таких как линейная регрессия . В частности, было показано, что чрезмерная параметризация важна для доброкачественного переобучения в этой ситуации. Другими словами, количество направлений в пространстве параметров, не имеющих значения для прогнозирования, должно значительно превышать размер выборки. [17]