stringtranslate.com

Ошибка обобщения

Для контролируемого обучения в машинном обучении и теории статистического обучения ошибка обобщения [1] (также известная как ошибка вне выборки [2] или риск ) является мерой того, насколько точно алгоритм способен предсказывать результаты для ранее неизвестных данных. Поскольку алгоритмы обучения оцениваются на конечных выборках, оценка алгоритма обучения может быть чувствительна к ошибке выборки . В результате измерения ошибки предсказания на текущих данных могут не предоставить много информации о предсказательной способности алгоритма на новых, неизвестных данных. Ошибку обобщения можно минимизировать, избежав переобучения в алгоритме обучения. Производительность алгоритмов машинного обучения обычно визуализируется с помощью графиков кривых обучения , которые показывают оценки ошибки обобщения на протяжении всего процесса обучения.

Определение

В задаче обучения цель состоит в том, чтобы разработать функцию , которая предсказывает выходные значения для каждого входного значения . Нижний индекс указывает, что функция разработана на основе набора данных точек данных. Ошибка обобщения или ожидаемая потеря или риск конкретной функции по всем возможным значениям и является ожидаемым значением функции потерь : [1]

где — неизвестное совместное распределение вероятностей для и .

Не зная совместного распределения вероятностей , невозможно вычислить . Вместо этого мы можем вычислить ошибку на выборочных данных, которая называется эмпирической ошибкой (или эмпирическим риском ). При заданных точках данных эмпирическая ошибка функции-кандидата равна:

Говорят, что алгоритм обобщает, если:

Особое значение имеет ошибка обобщения функции, зависящей от данных , которая находится алгоритмом обучения на основе выборки. Опять же, для неизвестного распределения вероятностей, не может быть вычислена. Вместо этого целью многих задач в статистической теории обучения является ограничение или характеристика разницы ошибки обобщения и эмпирической ошибки в вероятности:

То есть, цель состоит в том, чтобы охарактеризовать вероятность того, что ошибка обобщения меньше эмпирической ошибки плюс некоторая граница ошибки (обычно зависящая от и ). Для многих типов алгоритмов было показано, что алгоритм имеет границы обобщения, если он соответствует определенным критериям устойчивости . В частности, если алгоритм симметричен (порядок входных данных не влияет на результат), имеет ограниченные потери и соответствует двум условиям устойчивости, он будет обобщать. Первое условие устойчивости, устойчивость перекрестной проверки с исключением одного , гласит, что для обеспечения устойчивости ошибка прогнозирования для каждой точки данных при использовании перекрестной проверки с исключением одного должна сходиться к нулю как . Второе условие, устойчивость ожидаемой ошибки с исключением одного (также известная как устойчивость гипотезы, если работает в норме ) выполняется, если прогноз по исключенной точке данных не изменяется при удалении одной точки данных из обучающего набора данных. [3]

Эти условия можно формализовать следующим образом:

Стабильность перекрестной проверки с исключением одного

Алгоритм обладает устойчивостью , если для каждого существует и такое, что:

и стремится к нулю, стремясь к бесконечности. [3]

Ожидаемая ошибка с исключением одного элемента Стабильность

Алгоритм обладает устойчивостью, если для каждого существуют и такие, что:

с и стремится к нулю для .

Для устойчивости с исключением по одному в норме это то же самое, что и устойчивость гипотезы:

с стремлением к нулю по мере стремления к бесконечности. [3]

Алгоритмы с доказанной стабильностью

Было доказано, что ряд алгоритмов являются стабильными и, как следствие, имеют границы для своей ошибки обобщения. Список этих алгоритмов и статей, доказавших стабильность, доступен здесь .

Отношение к переобучению

На этом рисунке показана связь между переобучением и ошибкой обобщения I [ f n ] - I S [ f n ]. Точки данных были получены из соотношения y = x с добавлением белого шума к значениям y . В левом столбце набор точек обучения показан синим цветом. Полиномиальная функция седьмого порядка была подогнана к данным обучения. В правом столбце функция тестируется на данных, выбранных из базового совместного распределения вероятностей x и y . В верхней строке функция подгоняется к выборочному набору данных из 10 точек данных. В нижней строке функция подгоняется к выборочному набору данных из 100 точек данных. Как мы видим, для небольших размеров выборки и сложных функций ошибка на обучающем наборе мала, но ошибка на базовом распределении данных велика, и мы имеем переобучение данных. В результате ошибка обобщения велика. По мере увеличения количества точек выборки ошибка прогнозирования на обучающих и тестовых данных сходится, а ошибка обобщения стремится к 0.

Понятия ошибки обобщения и переобучения тесно связаны. Переобучение происходит, когда обученная функция становится чувствительной к шуму в выборке. В результате функция будет хорошо работать на обучающем наборе, но не будет хорошо работать на других данных из совместного распределения вероятностей и . Таким образом, чем больше переобучение, тем больше ошибка обобщения.

Степень переобучения можно проверить с помощью методов перекрестной проверки , которые разделяют выборку на имитированные обучающие и проверочные выборки. Затем модель обучается на обучающей выборке и оценивается на проверочной выборке. Проверочная выборка ранее не видна алгоритму и поэтому представляет собой случайную выборку из совместного распределения вероятностей и . Эта проверочная выборка позволяет нам аппроксимировать ожидаемую ошибку и в результате аппроксимировать конкретную форму ошибки обобщения.

Существует множество алгоритмов для предотвращения переобучения. Алгоритм минимизации может штрафовать более сложные функции (известно как регуляризация Тихонова ), или пространство гипотез может быть ограничено, либо явно в форме функций, либо путем добавления ограничений к функции минимизации (регуляризация Иванова).

Подход к поиску функции, которая не переобучается, противоречит цели поиска функции, которая достаточно сложна, чтобы охватить определенные характеристики данных. Это известно как компромисс смещения-дисперсии . Сохранение функции простой для избежания переобучения может привести к смещению в полученных прогнозах, в то время как разрешение ей быть более сложной приводит к переобучению и более высокой дисперсии в прогнозах. Невозможно минимизировать и то, и другое одновременно.

Ссылки

  1. ^ ab Mohri, M., Rostamizadeh A., Talwakar A., ​​(2018) Основы машинного обучения , 2-е изд., Бостон: MIT Press
  2. ^ Y S. Абу-Мостафа, M. Магдон-Исмаил и H.-T. Лин (2012) Обучение на основе данных, AMLBook Press. ISBN  978-1600490064
  3. ^ abc Мукерджи, С.; Ниёги, П.; Поджио, Т.; Рифкин, Р.М. (2006). «Теория обучения: стабильность достаточна для обобщения и необходима и достаточна для согласованности минимизации эмпирического риска» (PDF) . Adv. Comput. Math . 25 (1–3): 161–193. doi :10.1007/s10444-004-7634-z. S2CID  2240256.

Дальнейшее чтение