stringtranslate.com

Компромисс смещения и дисперсии

Функция (красный) аппроксимируется с использованием радиальных базисных функций (синий). На каждом графике показано несколько испытаний. Для каждого испытания в качестве обучающего набора предоставляется несколько зашумленных точек данных (вверху). Для широкого разброса (изображение 2) смещение велико: RBF не могут полностью аппроксимировать функцию (особенно центральный провал), но дисперсия между различными испытаниями низкая. По мере уменьшения разброса (изображения 3 и 4) смещение уменьшается: синие кривые более точно приближаются к красным. Однако в зависимости от шума в разных испытаниях дисперсия между испытаниями увеличивается. На самом нижнем изображении аппроксимированные значения x=0 сильно различаются в зависимости от того, где были расположены точки данных.
Смещение и дисперсия как функция сложности модели

В статистике и машинном обучении компромисс между смещением и дисперсией описывает взаимосвязь между сложностью модели, точностью ее прогнозов и тем, насколько хорошо она может делать прогнозы на основе ранее невидимых данных, которые не использовались для обучения модели. В целом, когда мы увеличиваем количество настраиваемых параметров в модели, она становится более гибкой и может лучше соответствовать набору обучающих данных. Говорят, что он имеет меньшую ошибку или предвзятость . Однако для более гибких моделей будет иметь место большая дисперсия модели каждый раз, когда мы берем набор выборок для создания нового набора обучающих данных. Говорят, что существует большая дисперсия в расчетных параметрах модели .

Дилемма смещения -дисперсии или проблема смещения-дисперсии представляет собой конфликт в попытке одновременно минимизировать эти два источника ошибок , которые не позволяют алгоритмам обучения с учителем обобщать результаты за пределами своего обучающего набора : [1] [2]

Разложение смещения -дисперсии — это способ анализа ожидаемой ошибки обобщения алгоритма обучения относительно конкретной проблемы как суммы трех слагаемых: смещения, дисперсии и величины, называемой неуменьшаемой ошибкой , возникающей в результате шума в самой задаче.

Мотивация

Компромисс между предвзятостью и дисперсией является центральной проблемой контролируемого обучения. В идеале нужно выбрать модель , которая не только точно отражает закономерности обучающих данных, но и хорошо обобщает невидимые данные. К сожалению, обычно невозможно сделать и то, и другое одновременно. Методы обучения с высокой дисперсией могут хорошо представлять свой обучающий набор, но подвержены риску переобучения зашумленным или нерепрезентативным обучающим данным. Напротив, алгоритмы с высоким смещением обычно создают более простые модели, которые могут не уловить важные закономерности (т. е. недостаточное соответствие) данных.

Часто ошибочно [ 3] [4] полагать, что сложные модели должны иметь высокую дисперсию. Модели с высокой дисперсией в некотором смысле «сложны», но обратное не обязательно верно. [5] Кроме того, нужно быть осторожным при определении сложности. В частности, количество параметров, используемых для описания модели, не является плохим показателем сложности. Это иллюстрируется примером, адаптированным из: [6] Модель имеет только два параметра ( ), но она может интерполировать любое количество точек, колеблясь с достаточно высокой частотой, что приводит как к высокому смещению, так и к высокой дисперсии.

Можно провести аналогию с соотношением точности и прецизионности . Точность представляет собой описание предвзятости, и ее можно интуитивно повысить, выбирая только локальную информацию. Следовательно, выборка будет выглядеть точной (т.е. иметь низкую систематическую ошибку) при вышеупомянутых условиях отбора, но может привести к недостаточному подгонке. Другими словами, тестовые данные могут не так точно совпадать с данными обучения, что будет указывать на неточность и, следовательно, на завышенную дисперсию. Графическим примером может служить прямая линия, соответствующая данным, демонстрирующим в целом квадратичное поведение. Точность — это описание дисперсии, и ее обычно можно повысить только путем отбора информации из сравнительно большего пространства. Возможность выбрать множество точек данных в широком пространстве выборки является идеальным условием для любого анализа. Однако внутренние ограничения (физические, теоретические, вычислительные и т. д.) всегда будут играть ограничивающую роль. Предельный случай, когда в широком пространстве выборки выбирается только конечное число точек данных, может привести к повышению точности и снижению дисперсии в целом, но также может привести к чрезмерной зависимости от обучающих данных (переобучение). Это означает, что тестовые данные также не будут так близко согласовываться с данными обучения, но в данном случае причиной является неточность или высокая систематическая погрешность. Если позаимствовать из предыдущего примера, графическое представление будет выглядеть как полином высокого порядка, соответствующий тем же данным, демонстрирующий квадратичное поведение. Обратите внимание, что ошибка в каждом случае измеряется одним и тем же способом, но причина, объясняющая ошибку, различна в зависимости от баланса между смещением и дисперсией. Чтобы уменьшить объем использования информации из соседних наблюдений, модель можно сгладить с помощью явной регуляризации , например сжатия .

Разложение среднеквадратической ошибки по смещению и дисперсии

Предположим, что у нас есть обучающий набор, состоящий из набора точек и реальных значений, связанных с каждой точкой . Мы предполагаем, что данные генерируются такой функцией, как , где шум имеет нулевое среднее значение и дисперсию .

Мы хотим найти функцию , которая максимально приближает истинную функцию , с помощью некоторого алгоритма обучения, основанного на наборе обучающих данных (выборке) . Мы делаем «насколько это возможно» точным, измеряя среднеквадратическую ошибку между и : мы хотим быть минимальной как для точек, так и для точек за пределами нашей выборки . Конечно, мы не можем надеяться, что сможем сделать это идеально, поскольку метод содержит шум ; это означает, что мы должны быть готовы допустить неустранимую ошибку в любой придуманной нами функции.

Найти алгоритм , обобщающий точки за пределами обучающего набора, можно с помощью любого из бесчисленных алгоритмов, используемых для обучения с учителем. Оказывается, какую бы функцию мы ни выбрали, мы можем разложить ее ожидаемую ошибку на невидимой выборке ( т. е. при условии x ) следующим образом: [7] : 34  [8] : 223 

где

и

Ожидания варьируются в зависимости от выбора обучающего набора , все они выбираются из одного и того же совместного распределения , что может быть выполнено, например, с помощью начальной загрузки . Эти три термина представляют собой:

Поскольку все три члена неотрицательны, неуменьшаемая ошибка образует нижнюю границу ожидаемой ошибки на невидимых выборках. [7] : 34 

Чем сложнее модель , тем больше точек данных она будет собирать и тем меньше будет смещение. Однако сложность заставит модель больше «двигаться» для захвата точек данных, и, следовательно, ее дисперсия будет больше.

Вывод

Вывод разложения смещения на дисперсию для квадрата ошибки происходит следующим образом. [9] [10] Для удобства обозначений мы сокращаем и опускаем нижний индекс у наших операторов ожидания.

Запишем среднеквадратическую ошибку нашей модели:

Во-первых, поскольку мы моделируем , мы показываем, что

Во-вторых,

Наконец,

В конце концов мы подключаем эти три формулы к нашему предыдущему выводу и, таким образом, показываем, что:

Наконец, функция потерь MSE (или отрицательная логарифмическая вероятность) получается путем принятия математического ожидания за :

Подходы

Уменьшение размерности и выбор признаков могут уменьшить дисперсию за счет упрощения моделей. Аналогичным образом, больший обучающий набор имеет тенденцию уменьшать дисперсию. Добавление функций (предсказателей) имеет тенденцию уменьшать систематическую ошибку за счет введения дополнительной дисперсии. Алгоритмы обучения обычно имеют некоторые настраиваемые параметры, которые контролируют смещение и дисперсию; например,

Одним из способов решения этой проблемы является использование смешанных моделей и ансамблевого обучения . [14] [15] Например, повышение объединяет множество «слабых» (с высоким смещением) моделей в ансамбль, который имеет меньшую предвзятость, чем отдельные модели, в то время как пакетирование объединяет «сильных» учащихся таким образом, чтобы уменьшить их дисперсию.

Методы проверки модели , такие как перекрестная проверка (статистика), могут использоваться для настройки моделей с целью оптимизации компромисса.

к-ближайшие соседи

В случае регрессии k -ближайших соседей , когда ожидание принимается за возможную маркировку фиксированного обучающего набора, существует выражение в замкнутой форме , которое связывает разложение смещения-дисперсии с параметром k : [8] : 37, 223 

где k ближайших соседей x в обучающем наборе. Смещение (первый член) представляет собой монотонно возрастающую функцию k , тогда как дисперсия (второй член) падает по мере увеличения k . Фактически, при «разумных предположениях» смещение оценки первого ближайшего соседа (1-NN) полностью исчезает, когда размер обучающего набора приближается к бесконечности. [12]

Приложения

В регрессии

Разложение смещения-дисперсии формирует концептуальную основу для методов регуляризации регрессии , таких как Лассо и гребневая регрессия . Методы регуляризации вносят смещение в решение регрессии, что может значительно уменьшить дисперсию по сравнению с обычным решением наименьших квадратов (OLS) . Хотя решение OLS обеспечивает несмещенные оценки регрессии, решения с более низкой дисперсией, полученные с помощью методов регуляризации, обеспечивают превосходную производительность MSE.

В классификации

Разложение смещения-дисперсии изначально было сформулировано для регрессии наименьших квадратов. Для случая классификации по потерям 0–1 (коэффициент ошибочной классификации) можно найти аналогичное разложение. [16] [17] Альтернативно, если проблему классификации можно сформулировать как вероятностную классификацию , то ожидаемую квадратичную ошибку предсказанных вероятностей относительно истинных вероятностей можно разложить, как и раньше. [18]

Утверждалось, что по мере увеличения обучающих данных дисперсия изученных моделей будет иметь тенденцию к уменьшению, и, следовательно, по мере увеличения количества обучающих данных ошибка минимизируется с помощью методов, которые обучают модели с меньшим смещением, и наоборот, для меньших объемов обучающих данных. становится все более важным минимизировать дисперсию. [19]

В обучении с подкреплением

Несмотря на то, что декомпозиция смещения-дисперсии не применяется напрямую в обучении с подкреплением , аналогичный компромисс также может характеризовать обобщение. Когда агент имеет ограниченную информацию о своем окружении, неоптимальность алгоритма RL можно разложить на сумму двух слагаемых: члена, связанного с асимптотическим смещением, и члена, связанного с переоснащением. Асимптотическое смещение напрямую связано с алгоритмом обучения (независимо от количества данных), тогда как термин переобучения возникает из-за того, что объем данных ограничен. [20]

В человеческом обучении

Дилемма смещения-дисперсии широко обсуждается в контексте машинного обучения, но она исследовалась в контексте человеческого познания , особенно Гердом Гигеренцером и его коллегами в контексте изученной эвристики. Они утверждали (см. ссылки ниже), что человеческий мозг решает дилемму в случае обычно скудных, плохо охарактеризованных обучающих наборов, полученных на основе опыта, путем принятия эвристики с высокой предвзятостью / низкой дисперсией. Это отражает тот факт, что подход с нулевой предвзятостью плохо обобщается на новые ситуации, а также необоснованно предполагает точное знание истинного состояния мира. Получающиеся в результате эвристики относительно просты, но дают более точные выводы в более широком спектре ситуаций. [21]

Геман и др. [12] утверждают, что дилемма предвзятости-дисперсии подразумевает, что такие способности, как распознавание общих объектов, не могут быть изучены с нуля, а требуют определенной степени «жесткой связи», которая позже настраивается с опытом. Это связано с тем, что немодальные подходы к выводу требуют непрактично больших обучающих наборов, чтобы избежать высокой дисперсии.

Смотрите также

Рекомендации

  1. ^ Кохави, Рон; Вулперт, Дэвид Х. (1996). «Разложение смещения плюс дисперсия для функций потерь ноль-единица». ИКМЛ . 96 .
  2. ^ Люксбург, Ульрике В.; Шёлкопф, Б. (2011). «Статистическая теория обучения: модели, концепции и результаты». Справочник по истории логики . 10 : Раздел 2.4.
  3. ^ Нил, Брэди (2019). «О компромиссе смещения и дисперсии: учебники нуждаются в обновлении». arXiv : 1912.08286 [cs.LG].
  4. ^ аб Нил, Брэди; Миттал, Сартак; Баратин, Аристид; Тантия, Винаяк; Шиклуна, Мэтью; Лакост-Жюльен, Симон; Митлягкас, Иоаннис (2018). «Современный взгляд на компромисс между смещением и дисперсией в нейронных сетях». arXiv : 1810.08591 [cs.LG].
  5. ^ Нил, Брэди; Миттал, Сартак; Баратин, Аристид; Тантия, Винаяк; Шиклуна, Мэтью; Лакост-Жюльен, Симон; Митлягкас, Иоаннис (2019). Современный взгляд на компромисс между смещением и дисперсией в нейронных сетях. Международная конференция по обучению представлений (ICLR) 2019.
  6. ^ Вапник, Владимир (2000). Природа статистической теории обучения. Нью-Йорк: Springer-Verlag. дои : 10.1007/978-1-4757-3264-1. ISBN 978-1-4757-3264-1. S2CID  7138354.
  7. ^ abc Джеймс, Гарет; Виттен, Даниэла ; Хасти, Тревор ; Тибширани, Роберт (2013). Введение в статистическое обучение. Спрингер.
  8. ^ аб Хасти, Тревор; Тибширани, Роберт; Фридман, Джером Х. (2009). Элементы статистического обучения. Архивировано из оригинала 26 января 2015 г. Проверено 20 августа 2014 г.
  9. ^ Виджаякумар, Сету (2007). «Компромисс смещения и дисперсии» (PDF) . Эдинбургский университет . Проверено 19 августа 2014 г.
  10. ^ Шахнарович, Грег (2011). «Заметки о выводе разложения смещения-дисперсии в линейной регрессии» (PDF) . Архивировано из оригинала (PDF) 21 августа 2014 года . Проверено 20 августа 2014 г.
  11. ^ Белсли, Дэвид (1991). Диагностика обусловленности: коллинеарность и слабые данные в регрессии . Нью-Йорк (Нью-Йорк): Уайли. ISBN 978-0471528890.
  12. ^ abc Геман, Стюарт ; Биненшток, Эли; Дурса, Рене (1992). «Нейронные сети и дилемма предвзятости/дисперсии» (PDF) . Нейронные вычисления . 4 : 1–58. дои : 10.1162/neco.1992.4.1.1. S2CID  14215320.
  13. ^ Гальярди, Франческо (май 2011 г.). «Классификаторы на основе экземпляров, применяемые к медицинским базам данных: диагностика и извлечение знаний». Искусственный интеллект в медицине . 52 (3): 123–139. doi :10.1016/j.artmed.2011.04.002. ПМИД  21621400.
  14. ^ Тинг, Джо-Энн; Виджайкумар, Сету; Шааль, Стефан (2011). «Локально-взвешенная регрессия для контроля». В Саммуте, Клод; Уэбб, Джеффри И. (ред.). Энциклопедия машинного обучения (PDF) . Спрингер. п. 615. Бибкод : 2010eoml.book.....S.
  15. ^ Фортманн-Роу, Скотт (2012). «Понимание компромисса смещения и дисперсии».
  16. ^ Домингос, Педро (2000). Единая декомпозиция смещения-дисперсии (PDF) . ИКМЛ.
  17. ^ Валентини, Джорджио; Диттерих, Томас Г. (2004). «Анализ смещения и дисперсии машин опорных векторов для разработки ансамблевых методов на основе SVM» (PDF) . Журнал исследований машинного обучения . 5 : 725–775.
  18. ^ Мэннинг, Кристофер Д.; Рагхаван, Прабхакар; Шютце, Хинрих (2008). «Векторная космическая классификация» (PDF) . Введение в поиск информации. Издательство Кембриджского университета. стр. 308–314.
  19. ^ Брэйн, Дамиан; Уэбб, Джеффри (2002). Потребность в алгоритмах с низким смещением при обучении классификации на основе больших наборов данных (PDF) . Материалы Шестой Европейской конференции по принципам интеллектуального анализа данных и обнаружения знаний (PKDD 2002).
  20. ^ Франсуа-Лаве, Винсент; Рабюссо, Гийом; Пино, Джоэль; Эрнст, Дэмиен; Фонтено, Рафаэль (2019). «О переоснащении и асимптотическом смещении в пакетном обучении с подкреплением с частичной наблюдаемостью». Журнал исследований искусственного интеллекта . 65 : 1–30. arXiv : 1709.07796 . дои : 10.1613/jair.1.11478 .
  21. ^ Гигеренцер, Герд ; Брайтон, Генри (2009). «Homo Heuristicus: почему предвзятые умы делают лучшие выводы». Темы когнитивной науки . 1 (1): 107–143. дои : 10.1111/j.1756-8765.2008.01006.x. hdl : 11858/00-001M-0000-0024-F678-0 . ПМИД  25164802.

Внешние ссылки

Литература