stringtranslate.com

Компромисс между смещением и дисперсией

Смещение и дисперсия как функция сложности модели

В статистике и машинном обучении компромисс смещения-дисперсии описывает связь между сложностью модели, точностью ее предсказаний и тем, насколько хорошо она может делать предсказания на ранее неизвестных данных, которые не использовались для обучения модели. В целом, по мере увеличения количества настраиваемых параметров в модели она становится более гибкой и может лучше соответствовать набору обучающих данных. Говорят, что она имеет меньшую ошибку или смещение . Однако для более гибких моделей будет наблюдаться большая дисперсия в подгонке модели каждый раз, когда мы берем набор образцов для создания нового набора обучающих данных. Говорят, что существует большая дисперсия в оценочных параметрах модели .

Дилемма смещения–дисперсии или проблема смещения–дисперсии представляет собой конфликт при попытке одновременно минимизировать эти два источника ошибок , которые не позволяют алгоритмам контролируемого обучения обобщать данные за пределами их обучающего набора : [1] [2]

Разложение смещения -дисперсии — это способ анализа ожидаемой ошибки обобщения алгоритма обучения по отношению к конкретной задаче как суммы трех членов: смещения, дисперсии и величины, называемой неприводимой ошибкой , возникающей из-за шума в самой задаче.

Функция (красная) аппроксимируется с использованием радиальных базисных функций (синяя). На каждом графике показано несколько испытаний. Для каждого испытания в качестве обучающего набора (вверху) предоставлено несколько зашумленных точек данных. Для широкого разброса (изображение 2) смещение велико: RBF не могут полностью аппроксимировать функцию (особенно центральный провал), но дисперсия между различными испытаниями низкая. По мере уменьшения разброса (изображения 3 и 4) смещение уменьшается: синие кривые более точно приближаются к красным. Однако в зависимости от шума в различных испытаниях дисперсия между испытаниями увеличивается. На самом нижнем изображении приближенные значения для x=0 сильно различаются в зависимости от того, где были расположены точки данных.

Мотивация

Компромисс между смещением и дисперсией является центральной проблемой в контролируемом обучении. В идеале нужно выбрать модель , которая и точно улавливает закономерности в своих обучающих данных, и хорошо обобщает на невидимые данные. К сожалению, обычно невозможно сделать и то, и другое одновременно. Методы обучения с высокой дисперсией могут хорошо представлять свой обучающий набор, но подвержены риску переобучения шумным или нерепрезентативным обучающим данным. Напротив, алгоритмы с высоким смещением обычно создают более простые модели, которые могут не улавливать важные закономерности (т. е. недообучать) в данных.

Частое заблуждение [ 3] [4] заключается в том, что предполагается, что сложные модели должны иметь высокую дисперсию. Модели с высокой дисперсией являются «сложными» в некотором смысле, но обратное не обязательно должно быть верным. [5] Кроме того, нужно быть осторожным в определении сложности. В частности, количество параметров, используемых для описания модели, является плохой мерой сложности. Это иллюстрирует пример, адаптированный из: [6] Модель имеет только два параметра ( ), но она может интерполировать любое количество точек, осциллируя с достаточно высокой частотой, что приводит как к высокому смещению, так и к высокой дисперсии.

Можно провести аналогию с отношением между точностью и прецизионностью . Точность — это описание смещения и может быть интуитивно улучшена путем выбора только из локальной информации. Следовательно, выборка будет казаться точной (т. е. иметь низкое смещение) при вышеупомянутых условиях выбора, но может привести к недообучению. Другими словами, тестовые данные могут не так близко согласовываться с данными обучения, что будет указывать на неточность и, следовательно, завышенную дисперсию. Графическим примером будет прямая линия, соответствующая данным, демонстрирующим квадратичное поведение в целом. Точность — это описание дисперсии и, как правило, может быть улучшена только путем выбора информации из сравнительно большего пространства. Возможность выбора множества точек данных в широком пространстве выборки является идеальным условием для любого анализа. Однако внутренние ограничения (будь то физические, теоретические, вычислительные и т. д.) всегда будут играть ограничивающую роль. Предельный случай, когда только конечное число точек данных выбирается в широком пространстве выборки, может привести к повышению точности и снижению дисперсии в целом, но также может привести к чрезмерной зависимости от данных обучения (переобучению). Это означает, что тестовые данные также не будут так близко согласовываться с данными обучения, но в этом случае причина заключается в неточности или высоком смещении. Если заимствовать из предыдущего примера, графическое представление будет выглядеть как полином высокого порядка, соответствующий тем же данным, демонстрирующим квадратичное поведение. Обратите внимание, что ошибка в каждом случае измеряется одинаково, но причина, приписываемая ошибке, отличается в зависимости от баланса между смещением и дисперсией. Чтобы уменьшить объем информации, используемой из соседних наблюдений, модель можно сгладить с помощью явной регуляризации , такой как сжатие .

Разложение смещения и дисперсии среднеквадратической ошибки

Разложение смещения-дисперсии в случае среднеквадратичной потери. Зеленые точки — это образцы тестовой метки при фиксированном тестовом признаке . Их дисперсия вокруг среднего значения — это неприводимая ошибка . Красные точки — это предсказания тестовых меток , поскольку обучающий набор выбирается случайным образом. Их дисперсия вокруг среднего значения — это дисперсия . Разница между красной и зеленой чертой — это смещение . Разложение смещения-дисперсии тогда визуально понятно: среднеквадратическая ошибка между красными и зелеными точками — это сумма трех компонентов.

Предположим, что у нас есть обучающий набор, состоящий из набора точек и реальных значений, связанных с каждой точкой . Мы предполагаем, что данные генерируются функцией, такой как , где шум, , имеет нулевое среднее значение и дисперсию .

Мы хотим найти функцию , которая приближает истинную функцию как можно лучше, с помощью некоторого обучающего алгоритма, основанного на обучающем наборе данных (выборке) . Мы делаем «как можно лучше» точным, измеряя среднеквадратичную ошибку между и : мы хотим быть минимальными как для , так и для точек за пределами нашей выборки . Конечно, мы не можем надеяться сделать это идеально, так как содержат шум ; это означает, что мы должны быть готовы принять неустранимую ошибку в любой функции, которую мы придумаем.

Найти , который обобщает точки за пределами обучающего набора, можно с помощью любого из бесчисленных алгоритмов, используемых для контролируемого обучения. Оказывается, какую бы функцию мы ни выбрали, мы можем разложить ее ожидаемую ошибку на невидимый образец ( т.е. условный для x ) следующим образом: [7] : 34  [8] : 223 

где

и

и

Ожидание варьируется в зависимости от различных вариантов обучающего набора , все из которых взяты из одного и того же совместного распределения , что может быть сделано, например, с помощью бутстреппинга . Три термина представляют:

Поскольку все три члена неотрицательны, неприводимая ошибка образует нижнюю границу ожидаемой ошибки на невидимых образцах. [7] : 34 

Чем сложнее модель , тем больше точек данных она захватит, и тем меньше будет смещение. Однако сложность заставит модель больше «двигаться», чтобы захватить точки данных, и, следовательно, ее дисперсия будет больше.

Вывод

Вывод разложения смещения–дисперсии для квадратичной ошибки происходит следующим образом. [9] [10] Для удобства мы опускаем нижний индекс в следующих строках, так что .

Запишем среднеквадратичную ошибку нашей модели:

Мы можем показать, что второй член этого уравнения равен нулю:

Более того, третий член этого уравнения есть не что иное, как , стандартное отклонение .

Давайте теперь расширим оставшийся член:

Мы показываем, что:

Эта последняя серия равенств исходит из того факта, что — не случайная величина, а фиксированная, детерминированная функция от . Следовательно, . Аналогично , и . Используя те же рассуждения, мы можем разложить второй член и показать, что он равен нулю:

В конце концов мы подставляем наши выводы обратно в исходное уравнение и определяем каждый член:


Наконец, функция потерь MSE (или отрицательная логарифмическая вероятность) получается путем взятия ожидаемого значения по :

Подходы

Сокращение размерности и выбор признаков могут уменьшить дисперсию за счет упрощения моделей. Аналогично, больший обучающий набор имеет тенденцию уменьшать дисперсию. Добавление признаков (предикторов) имеет тенденцию уменьшать смещение за счет введения дополнительной дисперсии. Алгоритмы обучения обычно имеют некоторые настраиваемые параметры, которые контролируют смещение и дисперсию; например,

Одним из способов решения этой проблемы является использование смешанных моделей и ансамблевого обучения . [14] [15] Например, бустинг объединяет множество «слабых» (с высоким смещением) моделей в ансамбль, который имеет меньшее смещение, чем отдельные модели, в то время как бэггинг объединяет «сильных» обучающихся таким образом, чтобы уменьшить их дисперсию.

Методы проверки модели, такие как перекрестная проверка (статистика), могут использоваться для настройки моделей с целью оптимизации компромисса.

к-ближайшие соседи

В случае регрессии k -ближайших соседей , когда ожидание берется по возможной маркировке фиксированного обучающего набора, существует выражение в замкнутой форме , которое связывает разложение смещения-дисперсии с параметром k : [8] : 37, 223 

где k ближайших соседей x в обучающем наборе. Смещение (первый член) является монотонно возрастающей функцией k , в то время как дисперсия (второй член) падает с ростом k . Фактически, при «разумных предположениях» смещение оценки первого ближайшего соседа (1-NN) полностью исчезает, когда размер обучающего набора приближается к бесконечности. [12]

Приложения

В регрессе

Разложение смещения–дисперсии формирует концептуальную основу для методов регуляризации регрессии , таких как LASSO и гребневая регрессия . Методы регуляризации вносят смещение в решение регрессии, что может значительно снизить дисперсию по сравнению с обычным решением наименьших квадратов (OLS) . Хотя решение OLS обеспечивает несмещенные оценки регрессии, решения с более низкой дисперсией, полученные с помощью методов регуляризации, обеспечивают превосходную производительность MSE.

В классификации

Разложение смещения–дисперсии было первоначально сформулировано для регрессии наименьших квадратов. Для случая классификации при потере 0-1 (скорость ошибочной классификации) можно найти похожее разложение с оговоркой, что член дисперсии становится зависимым от целевой метки. [16] [17] В качестве альтернативы, если проблема классификации может быть сформулирована как вероятностная классификация , то ожидаемая перекрестная энтропия может быть вместо этого разложена, чтобы дать члены смещения и дисперсии с той же семантикой, но принимающие другую форму.

Утверждалось, что по мере увеличения объема обучающих данных дисперсия изученных моделей будет иметь тенденцию к уменьшению, и, следовательно, по мере увеличения объема обучающих данных ошибка минимизируется с помощью методов, которые обучают модели с меньшим смещением, и что, наоборот, для меньших объемов обучающих данных минимизация дисперсии становится все более важной. [18]

В обучении с подкреплением

Несмотря на то, что разложение смещения-дисперсии не применяется напрямую в обучении с подкреплением , аналогичный компромисс может также характеризовать обобщение. Когда агент имеет ограниченную информацию о своей среде, субоптимальность алгоритма RL может быть разложена на сумму двух членов: члена, связанного с асимптотическим смещением, и члена, обусловленного переобучением. Асимптотическое смещение напрямую связано с алгоритмом обучения (независимо от количества данных), в то время как член переобучения исходит из того факта, что количество данных ограничено. [19]

В человеческом обучении

Хотя дилемма смещения-дисперсии широко обсуждалась в контексте машинного обучения, она была исследована в контексте человеческого познания , в частности Гердом Гигеренцером и его коллегами в контексте обученных эвристик. Они утверждали (см. ссылки ниже), что человеческий мозг решает дилемму в случае типично разреженных, плохо охарактеризованных обучающих наборов, предоставляемых опытом, принимая эвристики с высоким смещением/низкой дисперсией. Это отражает тот факт, что подход с нулевым смещением имеет плохую обобщаемость для новых ситуаций, а также необоснованно предполагает точное знание истинного состояния мира. Полученные эвристики относительно просты, но производят лучшие выводы в более широком диапазоне ситуаций. [20]

Geman et al. [12] утверждают, что дилемма смещения-дисперсии подразумевает, что такие способности, как общее распознавание объектов, не могут быть изучены с нуля, а требуют определенной степени «жесткой проводки», которая позже настраивается опытом. Это связано с тем, что подходы к выводу без моделей требуют непрактично больших обучающих наборов, если они хотят избежать высокой дисперсии.

Смотрите также

Ссылки

  1. ^ Кохави, Рон; Вольперт, Дэвид Х. (1996). «Разложение смещения плюс дисперсия для функций потерь ноль-один». ICML . 96 .
  2. ^ Люксбург, Ульрике В.; Шёлькопф, Б. (2011). «Статистическая теория обучения: модели, концепции и результаты». Справочник по истории логики . 10 : Раздел 2.4.
  3. ^ Нил, Брэди (2019). «О компромиссе смещения и дисперсии: учебники нуждаются в обновлении». arXiv : 1912.08286 [cs.LG].
  4. ^ ab Нил, Брэди; Миттал, Сартак; Баратин, Аристид; Тантия, Винаяк; Шиклуна, Мэтью; Лакост-Жюльен, Саймон; Митлиагкас, Иоаннис (2018). «Современный взгляд на компромисс между смещением и дисперсией в нейронных сетях». arXiv : 1810.08591 [cs.LG].
  5. ^ Нил, Брэди; Миттал, Сартак; Баратин, Аристид; Тантия, Винаяк; Шиклуна, Мэтью; Лакост-Жюльен, Саймон; Митлиагкас, Иоаннис (2019). Современный взгляд на компромисс смещения-дисперсии в нейронных сетях. Международная конференция по представлениям обучения (ICLR) 2019.
  6. ^ Вапник, Владимир (2000). Природа статистической теории обучения. Нью-Йорк: Springer-Verlag. doi :10.1007/978-1-4757-3264-1. ISBN 978-1-4757-3264-1. S2CID  7138354.
  7. ^ abc Джеймс, Гарет; Виттен, Даниэла ; Хасти, Тревор ; Тибширани, Роберт (2013). Введение в статистическое обучение. Springer.
  8. ^ ab Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome H. (2009). Элементы статистического обучения. Архивировано из оригинала 2015-01-26 . Получено 2014-08-20 .
  9. ^ Виджаякумар, Сету (2007). "The Bias–Variance Tradeoff" (PDF) . Эдинбургский университет . Получено 19 августа 2014 г. .
  10. ^ Шахнарович, Грег (2011). "Заметки о выводе разложения смещения-дисперсии в линейной регрессии" (PDF) . Архивировано из оригинала (PDF) 21 августа 2014 года . Получено 20 августа 2014 года .
  11. ^ Белсли, Дэвид (1991). Диагностика обусловленности: коллинеарность и слабые данные в регрессии . Нью-Йорк (NY): Wiley. ISBN 978-0471528890.
  12. ^ abc Герман, Стюарт ; Биненшток, Эли; Дурса, Рене (1992). «Нейронные сети и дилемма смещения/дисперсии» (PDF) . Нейронные вычисления . 4 : 1–58. doi :10.1162/neco.1992.4.1.1. S2CID  14215320.
  13. ^ Гальярди, Франческо (май 2011 г.). «Классификаторы на основе экземпляров, применяемые к медицинским базам данных: диагностика и извлечение знаний». Искусственный интеллект в медицине . 52 (3): 123–139. doi :10.1016/j.artmed.2011.04.002. PMID  21621400.
  14. ^ Тинг, Джо-Энн; Виджайкумар, Сету; Шааль, Стефан (2011). «Локально взвешенная регрессия для управления». В Саммут, Клод; Уэбб, Джеффри И. (ред.). Энциклопедия машинного обучения (PDF) . Springer. стр. 615. Bibcode :2010eoml.book.....S.
  15. ^ Фортманн-Роу, Скотт (2012). «Понимание компромисса между смещением и дисперсией».
  16. ^ Домингос, Педро (2000). Унифицированное разложение смещения-дисперсии (PDF) . ICML.
  17. ^ Валентини, Джорджио; Дитерих, Томас Г. (2004). «Анализ смещения–дисперсии опорных векторных машин для разработки ансамблевых методов на основе SVM» (PDF) . Журнал исследований машинного обучения . 5 : 725–775.
  18. ^ Брэйн, Дэмиан; Уэбб, Джеффри (2002). Потребность в алгоритмах с низким смещением при обучении классификации на основе больших наборов данных (PDF) . Труды Шестой европейской конференции по принципам интеллектуального анализа данных и обнаружения знаний (PKDD 2002).
  19. ^ Франсуа-Лаве, Венсан; Рабюссо, Гийом; Пино, Жоэль; Эрнст, Дамиен; Фонтено, Рафаэль (2019). «О переобучении и асимптотическом смещении в пакетном обучении с подкреплением и частичной наблюдаемостью». Журнал исследований искусственного интеллекта . 65 : 1–30. arXiv : 1709.07796 . doi : 10.1613/jair.1.11478 .
  20. ^ Гигеренцер, Герд ; Брайтон, Генри (2009). «Homo Heuristicus: Почему предвзятые умы делают лучшие выводы». Темы когнитивной науки . 1 (1): 107–143. doi : 10.1111/j.1756-8765.2008.01006.x. hdl : 11858/00-001M-0000-0024-F678-0 . PMID  25164802.

Внешние ссылки