Компромисс смещения и дисперсии

Функция (красный) аппроксимируется с использованием радиальных базисных функций (синий). На каждом графике показано несколько испытаний. Для каждого испытания в качестве обучающего набора предоставляется несколько зашумленных точек данных (вверху). Для широкого разброса (изображение 2) смещение велико: RBF не могут полностью аппроксимировать функцию (особенно центральный провал), но дисперсия между различными испытаниями низкая. По мере уменьшения разброса (изображения 3 и 4) смещение уменьшается: синие кривые более точно приближаются к красным. Однако в зависимости от шума в разных испытаниях дисперсия между испытаниями увеличивается. На самом нижнем изображении аппроксимированные значения x=0 сильно различаются в зависимости от того, где были расположены точки данных.

В статистике и машинном обучении компромисс между смещением и дисперсией описывает взаимосвязь между сложностью модели, точностью ее прогнозов и тем, насколько хорошо она может делать прогнозы на основе ранее невидимых данных, которые не использовались для обучения модели. В целом, когда мы увеличиваем количество настраиваемых параметров в модели, она становится более гибкой и может лучше соответствовать набору обучающих данных. Говорят, что он имеет меньшую ошибку или предвзятость . Однако для более гибких моделей будет иметь место большая дисперсия модели каждый раз, когда мы берем набор выборок для создания нового набора обучающих данных. Говорят, что существует большая дисперсия в расчетных параметрах модели .

Дилемма смещения -дисперсии или проблема смещения-дисперсии представляет собой конфликт в попытке одновременно минимизировать эти два источника ошибок , которые не позволяют алгоритмам обучения с учителем обобщать результаты за пределами своего обучающего набора : ^[1]^[2]

Ошибка смещения — это ошибка, вызванная ошибочными предположениями в алгоритме обучения . Высокая погрешность может привести к тому, что алгоритм упустит соответствующие связи между функциями и целевыми результатами (недостаточное оснащение).
Дисперсия — это ошибка из-за чувствительности к небольшим колебаниям обучающего набора. Высокая дисперсия может быть результатом алгоритма, моделирующего случайный шум в обучающих данных ( переоснащение ).

Разложение смещения -дисперсии — это способ анализа ожидаемой ошибки обобщения алгоритма обучения относительно конкретной проблемы как суммы трех слагаемых: смещения, дисперсии и величины, называемой неуменьшаемой ошибкой , возникающей в результате шума в самой задаче.

Мотивация

Высокая предвзятость, низкая дисперсия
Высокая предвзятость, высокая дисперсия
Низкое смещение, низкая дисперсия
Низкая предвзятость, высокая дисперсия

Компромисс между предвзятостью и дисперсией является центральной проблемой контролируемого обучения. В идеале нужно выбрать модель , которая не только точно отражает закономерности обучающих данных, но и хорошо обобщает невидимые данные. К сожалению, обычно невозможно сделать и то, и другое одновременно. Методы обучения с высокой дисперсией могут хорошо представлять свой обучающий набор, но подвержены риску переобучения зашумленным или нерепрезентативным обучающим данным. Напротив, алгоритмы с высоким смещением обычно создают более простые модели, которые могут не уловить важные закономерности (т. е. недостаточное соответствие) данных.

Часто ошибочно [ ^3]^[4] полагать, что сложные модели должны иметь высокую дисперсию. Модели с высокой дисперсией в некотором смысле «сложны», но обратное не обязательно верно. ^[5] Кроме того, нужно быть осторожным при определении сложности. В частности, количество параметров, используемых для описания модели, не является плохим показателем сложности. Это иллюстрируется примером, адаптированным из: ^[6] Модель имеет только два параметра ( ), но она может интерполировать любое количество точек, колеблясь с достаточно высокой частотой, что приводит как к высокому смещению, так и к высокой дисперсии. $f_{a,b}(x)=a\sin(bx)$ $a,b$

Можно провести аналогию с соотношением точности и прецизионности . Точность представляет собой описание предвзятости, и ее можно интуитивно повысить, выбирая только локальную информацию. Следовательно, выборка будет выглядеть точной (т.е. иметь низкую систематическую ошибку) при вышеупомянутых условиях отбора, но может привести к недостаточному подгонке. Другими словами, тестовые данные могут не так точно совпадать с данными обучения, что будет указывать на неточность и, следовательно, на завышенную дисперсию. Графическим примером может служить прямая линия, соответствующая данным, демонстрирующим в целом квадратичное поведение. Точность — это описание дисперсии, и ее обычно можно повысить только путем отбора информации из сравнительно большего пространства. Возможность выбрать множество точек данных в широком пространстве выборки является идеальным условием для любого анализа. Однако внутренние ограничения (физические, теоретические, вычислительные и т. д.) всегда будут играть ограничивающую роль. Предельный случай, когда в широком пространстве выборки выбирается только конечное число точек данных, может привести к повышению точности и снижению дисперсии в целом, но также может привести к чрезмерной зависимости от обучающих данных (переобучение). Это означает, что тестовые данные также не будут так близко согласовываться с данными обучения, но в данном случае причиной является неточность или высокая систематическая погрешность. Если позаимствовать из предыдущего примера, графическое представление будет выглядеть как полином высокого порядка, соответствующий тем же данным, демонстрирующий квадратичное поведение. Обратите внимание, что ошибка в каждом случае измеряется одним и тем же способом, но причина, объясняющая ошибку, различна в зависимости от баланса между смещением и дисперсией. Чтобы уменьшить объем использования информации из соседних наблюдений, модель можно сгладить с помощью явной регуляризации , например сжатия .

Разложение среднеквадратической ошибки по смещению и дисперсии

Предположим, что у нас есть обучающий набор, состоящий из набора точек и реальных значений, связанных с каждой точкой . Мы предполагаем, что данные генерируются такой функцией, как , где шум имеет нулевое среднее значение и дисперсию . $x_{1},\dots ,x_{n}$ $y_{i}$ $x_{i}$ $f(x)$ $y=f(x)+\varepsilon$ $\varepsilon$ $\sigma ^{2}$

Мы хотим найти функцию , которая максимально приближает истинную функцию , с помощью некоторого алгоритма обучения, основанного на наборе обучающих данных (выборке) . Мы делаем «насколько это возможно» точным, измеряя среднеквадратическую ошибку между и : мы хотим быть минимальной как для точек, так и для точек за пределами нашей выборки . Конечно, мы не можем надеяться, что сможем сделать это идеально, поскольку метод содержит шум ; это означает, что мы должны быть готовы допустить неустранимую ошибку в любой придуманной нами функции. ${\hat {f}}(x;D)$ $f(x)$ $D=\{(x_{1},y_{1})\dots ,(x_{n},y_{n})\}$ $y$ ${\hat {f}}(x;D)$ $(y-{\hat {f}}(x;D))^{2}$ $x_{1},\dots ,x_{n}$ $y_{i}$ $\varepsilon$

Найти алгоритм , обобщающий точки за пределами обучающего набора, можно с помощью любого из бесчисленных алгоритмов, используемых для обучения с учителем. Оказывается, какую бы функцию мы ни выбрали, мы можем разложить ее ожидаемую ошибку на невидимой выборке ( т. е. при условии x ) следующим образом: ^[7]^{: 34}^[8]^{: 223} ${\hat {f}}$ ${\hat {f}}$ $x$

\operatorname {E} _{D,\varepsilon }{\Big [}{\big (}y-{\hat {f}}(x;D){\big )}^{2}{\Big ]}={\Big (}\operatorname {Bias} _{D}{\big [}{\hat {f}}(x;D){\big ]}{\Big )}^{2}+\operatorname {Var} _{D}{\big [}{\hat {f}}(x;D){\big ]}+\sigma ^{2}

где

\operatorname {Bias} _{D}{\big [}{\hat {f}}(x;D){\big ]}=\operatorname {E} _{D}{\big [}{\hat {f}}(x;D)-f(x){\big ]}=\operatorname {E} _{D}{\big [}{\hat {f}}(x;D){\big ]}-\operatorname {E} _{y|x}{\big [}y(x){\big ]},

\operatorname {Var} _{D}{\big [}{\hat {f}}(x;D){\big ]}=\operatorname {E} _{D}[{\big (}\operatorname {E} _{D}[{\hat {f}}(x;D)]-{\hat {f}}(x;D){\big )}^{2}].

\sigma ^{2}=\operatorname {E} _{y}[(y-\underbrace {f(x)} _{E_{y|x}[y]})^{2}]

Ожидания варьируются в зависимости от выбора обучающего набора , все они выбираются из одного и того же совместного распределения , что может быть выполнено, например, с помощью начальной загрузки . Эти три термина представляют собой: $D=\{(x_{1},y_{1})\dots ,(x_{n},y_{n})\}$ $P(x,y)$

квадрат смещения метода обучения, который можно рассматривать как ошибку, вызванную упрощающими предположениями, встроенными в метод. Например, при аппроксимации нелинейной функции с использованием метода обучения для линейных моделей из-за этого предположения будет ошибка в оценках ; $f(x)$ ${\hat {f}}(x)$
отклонение метода обучения или, интуитивно, насколько метод обучения будет отклоняться от своего среднего значения ; ${\hat {f}}(x)$
неустранимая ошибка . $\sigma ^{2}$

Поскольку все три члена неотрицательны, неуменьшаемая ошибка образует нижнюю границу ожидаемой ошибки на невидимых выборках. ^[7]^{: 34}

Чем сложнее модель , тем больше точек данных она будет собирать и тем меньше будет смещение. Однако сложность заставит модель больше «двигаться» для захвата точек данных, и, следовательно, ее дисперсия будет больше. ${\hat {f}}(x)$

Вывод

Вывод разложения смещения на дисперсию для квадрата ошибки происходит следующим образом. ^[9]^[10] Для удобства обозначений мы сокращаем и опускаем нижний индекс у наших операторов ожидания. $f=f(x)$ ${\hat {f}}={\hat {f}}(x;D)$ $D$

Запишем среднеквадратическую ошибку нашей модели:

{\text{MSE}}\triangleq \operatorname {E} {\big [}(y-{\hat {f}})^{2}{\big ]}=\operatorname {E} {\big [}y^{2}-2y{\hat {f}}+{\hat {f}}^{2}{\big ]}=\operatorname {E} {\big [}y^{2}{\big ]}-2\operatorname {E} {\big [}y{\hat {f}}{\big ]}+\operatorname {E} {\big [}{\hat {f}}^{2}{\big ]}

Во-первых, поскольку мы моделируем , мы показываем, что $y=f+\varepsilon$

{\begin{aligned}\operatorname {E} {\big [}y^{2}{\big ]}&=\operatorname {E} {\big [}(f+\varepsilon )^{2}{\big ]}\\&=\operatorname {E} [f^{2}]+2\operatorname {E} [f\varepsilon ]+\operatorname {E} [\varepsilon ^{2}]&&{\text{by linearity of }}\operatorname {E} \\&=f^{2}+2f\operatorname {E} [\varepsilon ]+\operatorname {E} [\varepsilon ^{2}]&&{\text{since }}f{\text{ does not depend on the data}}\\&=f^{2}+2f\cdot 0+\sigma ^{2}&&{\text{since }}\varepsilon {\text{ has zero mean and variance }}\sigma ^{2}\end{aligned}}

Во-вторых,

{\begin{aligned}\operatorname {E} {\big [}y{\hat {f}}{\big ]}&=\operatorname {E} {\big [}(f+\varepsilon ){\hat {f}}{\big ]}\\&=\operatorname {E} [f{\hat {f}}]+\operatorname {E} [\varepsilon {\hat {f}}]&&{\text{by linearity of }}\operatorname {E} \\&=\operatorname {E} [f{\hat {f}}]+\operatorname {E} [\varepsilon ]\operatorname {E} [{\hat {f}}]&&{\text{since }}{\hat {f}}{\text{ and }}\varepsilon {\text{ are independent}}\\&=f\operatorname {E} [{\hat {f}}]&&{\text{since }}\operatorname {E} [\varepsilon ]=0\end{aligned}}

Наконец,

{\begin{aligned}\operatorname {E} {\big [}{\hat {f}}^{2}{\big ]}&=\operatorname {Var} ({\hat {f}})+\operatorname {E} [{\hat {f}}]^{2}&&{\text{since }}\operatorname {Var} [X]\triangleq \operatorname {E} {\Big [}(X-\operatorname {E} [X])^{2}{\Big ]}=\operatorname {E} [X^{2}]-\operatorname {E} [X]^{2}{\text{ for any random variable }}X\end{aligned}}

В конце концов мы подключаем эти три формулы к нашему предыдущему выводу и, таким образом, показываем, что: ${\text{MSE}}$

{\begin{aligned}{\text{MSE}}&=f^{2}+\sigma ^{2}-2f\operatorname {E} [{\hat {f}}]+\operatorname {Var} [{\hat {f}}]+\operatorname {E} [{\hat {f}}]^{2}\\&=(f-\operatorname {E} [{\hat {f}}])^{2}+\sigma ^{2}+\operatorname {Var} {\big [}{\hat {f}}{\big ]}\\[5pt]&=\operatorname {Bias} [{\hat {f}}]^{2}+\sigma ^{2}+\operatorname {Var} {\big [}{\hat {f}}{\big ]}\end{aligned}}

Наконец, функция потерь MSE (или отрицательная логарифмическая вероятность) получается путем принятия математического ожидания за : $x\sim P$

{\text{MSE}}=\operatorname {E} _{x}{\bigg \{}\operatorname {Bias} _{D}[{\hat {f}}(x;D)]^{2}+\operatorname {Var} _{D}{\big [}{\hat {f}}(x;D){\big ]}{\bigg \}}+\sigma ^{2}.

Подходы

Уменьшение размерности и выбор признаков могут уменьшить дисперсию за счет упрощения моделей. Аналогичным образом, больший обучающий набор имеет тенденцию уменьшать дисперсию. Добавление функций (предсказателей) имеет тенденцию уменьшать систематическую ошибку за счет введения дополнительной дисперсии. Алгоритмы обучения обычно имеют некоторые настраиваемые параметры, которые контролируют смещение и дисперсию; например,

линейные и обобщенно-линейные модели можно регуляризовать , чтобы уменьшить их дисперсию за счет увеличения их систематической ошибки. ^[11]
В искусственных нейронных сетях дисперсия увеличивается, а смещение уменьшается по мере увеличения количества скрытых единиц ^[12] , хотя это классическое предположение было предметом недавних дискуссий. ^[4] Как и в GLM, обычно применяется регуляризация.
В моделях k -ближайшего соседа высокое значение $k$ приводит к большому смещению и низкой дисперсии (см. ниже).
При обучении на основе экземпляров регуляризации можно добиться, варьируя смесь прототипов и образцов. ^[13]
В деревьях решений глубина дерева определяет дисперсию. Деревья решений обычно сокращаются, чтобы контролировать дисперсию. ^[7]^{: 307}

Одним из способов решения этой проблемы является использование смешанных моделей и ансамблевого обучения . ^[14]^[15] Например, повышение объединяет множество «слабых» (с высоким смещением) моделей в ансамбль, который имеет меньшую предвзятость, чем отдельные модели, в то время как пакетирование объединяет «сильных» учащихся таким образом, чтобы уменьшить их дисперсию.

Методы проверки модели , такие как перекрестная проверка (статистика), могут использоваться для настройки моделей с целью оптимизации компромисса.

к-ближайшие соседи

В случае регрессии $k$ -ближайших соседей , когда ожидание принимается за возможную маркировку фиксированного обучающего набора, существует выражение в замкнутой форме , которое связывает разложение смещения-дисперсии с параметром $k$ : ^[8]^{: 37, 223}

\operatorname {E} \left[(y-{\hat {f}}(x))^{2}\mid X=x\right]=\left(f(x)-{\frac {1}{k}}\sum _{i=1}^{k}f(N_{i}(x))\right)^{2}+{\frac {\sigma ^{2}}{k}}+\sigma ^{2}

где $k$ ближайших соседей x $в$ обучающем наборе. Смещение (первый член) представляет собой монотонно возрастающую функцию $k$ , тогда как дисперсия (второй член) падает по мере увеличения $k$ . Фактически, при «разумных предположениях» смещение оценки первого ближайшего соседа (1-NN) полностью исчезает, когда размер обучающего набора приближается к бесконечности. ^[12] $N_{1}(x),\dots ,N_{k}(x)$

Приложения

В регрессии

Разложение смещения-дисперсии формирует концептуальную основу для методов регуляризации регрессии , таких как Лассо и гребневая регрессия . Методы регуляризации вносят смещение в решение регрессии, что может значительно уменьшить дисперсию по сравнению с обычным решением наименьших квадратов (OLS) . Хотя решение OLS обеспечивает несмещенные оценки регрессии, решения с более низкой дисперсией, полученные с помощью методов регуляризации, обеспечивают превосходную производительность MSE.

В классификации

Разложение смещения-дисперсии изначально было сформулировано для регрессии наименьших квадратов. Для случая классификации по потерям 0–1 (коэффициент ошибочной классификации) можно найти аналогичное разложение. ^[16]^[17] Альтернативно, если проблему классификации можно сформулировать как вероятностную классификацию , то ожидаемую квадратичную ошибку предсказанных вероятностей относительно истинных вероятностей можно разложить, как и раньше. ^[18]

Утверждалось, что по мере увеличения обучающих данных дисперсия изученных моделей будет иметь тенденцию к уменьшению, и, следовательно, по мере увеличения количества обучающих данных ошибка минимизируется с помощью методов, которые обучают модели с меньшим смещением, и наоборот, для меньших объемов обучающих данных. становится все более важным минимизировать дисперсию. ^[19]

В обучении с подкреплением

Несмотря на то, что декомпозиция смещения-дисперсии не применяется напрямую в обучении с подкреплением , аналогичный компромисс также может характеризовать обобщение. Когда агент имеет ограниченную информацию о своем окружении, неоптимальность алгоритма RL можно разложить на сумму двух слагаемых: члена, связанного с асимптотическим смещением, и члена, связанного с переоснащением. Асимптотическое смещение напрямую связано с алгоритмом обучения (независимо от количества данных), тогда как термин переобучения возникает из-за того, что объем данных ограничен. ^[20]

В человеческом обучении

Дилемма смещения-дисперсии широко обсуждается в контексте машинного обучения, но она исследовалась в контексте человеческого познания , особенно Гердом Гигеренцером и его коллегами в контексте изученной эвристики. Они утверждали (см. ссылки ниже), что человеческий мозг решает дилемму в случае обычно скудных, плохо охарактеризованных обучающих наборов, полученных на основе опыта, путем принятия эвристики с высокой предвзятостью / низкой дисперсией. Это отражает тот факт, что подход с нулевой предвзятостью плохо обобщается на новые ситуации, а также необоснованно предполагает точное знание истинного состояния мира. Получающиеся в результате эвристики относительно просты, но дают более точные выводы в более широком спектре ситуаций. ^[21]

Геман и др. ^[12] утверждают, что дилемма предвзятости-дисперсии подразумевает, что такие способности, как распознавание общих объектов, не могут быть изучены с нуля, а требуют определенной степени «жесткой связи», которая позже настраивается с опытом. Это связано с тем, что немодальные подходы к выводу требуют непрактично больших обучающих наборов, чтобы избежать высокой дисперсии.

Смотрите также

Внешние ссылки

MLU-Explain: Компромисс дисперсии смещения — интерактивная визуализация компромисса дисперсии смещения в регрессии LOESS и K-Nearest Neighbours.

Литература

Гарри Л. Ван Трис; Кристин Л. Белл, «Исследование компромиссов между смещением оценщика с использованием однородной границы CR», в книге «Байесовские границы для оценки параметров и нелинейной фильтрации/отслеживания», IEEE, 2007, стр. 451–466, doi: 10.1109/9780470544198.ch40.