В математике , статистике , финансах , [1] и информатике , особенно в машинном обучении и обратных задачах , регуляризация — это процесс, который преобразует ответ задачи в более простой. Он часто используется при решении некорректно поставленных задач или для предотвращения переобучения . [2]
Хотя процедуры регуляризации можно разделить по-разному, следующее разграничение особенно полезно:
В явной регуляризации, независимо от проблемы или модели, всегда есть термин данных, который соответствует вероятности измерения, и термин регуляризации, который соответствует априорной величине. Объединяя оба с помощью байесовской статистики, можно вычислить апостериорную величину, которая включает оба источника информации и, следовательно, стабилизирует процесс оценки. Обменяв обе цели, можно выбрать более сильное привыкание к данным или принудительное выполнение регуляризации (для предотвращения переобучения). Существует целая исследовательская ветвь, занимающаяся всеми возможными регуляризациями. На практике обычно пробуют определенную регуляризацию, а затем вычисляют плотность вероятности, которая соответствует этой регуляризации, чтобы оправдать выбор. Это также может быть физически мотивировано здравым смыслом или интуицией.
В машинном обучении термин data соответствует обучающим данным, а регуляризация — это либо выбор модели, либо модификации алгоритма. Она всегда направлена на уменьшение ошибки обобщения , т. е. оценки ошибки с обученной моделью на оценочном наборе, а не с обучающими данными. [3]
Одним из самых ранних применений регуляризации является регуляризация Тихонова (гребневая регрессия), связанная с методом наименьших квадратов.
В машинном обучении ключевой проблемой является обеспечение возможности моделям точно предсказывать результаты на неизвестных данных, а не только на знакомых обучающих данных. Регуляризация имеет решающее значение для решения проблемы переобучения — когда модель запоминает детали обучающих данных, но не может обобщить их на новые данные — и недообучения , когда модель слишком проста, чтобы охватить сложность обучающих данных. Эта концепция отражает обучение студентов применению изученных концепций к новым проблемам, а не простому воспроизведению запомненных ответов. [4] Цель регуляризации — побудить модели изучать более широкие закономерности в данных, а не запоминать их. Такие методы, как ранняя остановка , регуляризация L1 и L2 и исключение , предназначены для предотвращения переобучения и недообучения, тем самым повышая способность модели адаптироваться и хорошо работать с новыми данными, тем самым улучшая обобщение модели. [4]
Останавливает обучение, когда качество проверки ухудшается, предотвращая переобучение путем остановки до того, как модель запомнит данные обучения. [4]
Добавляет штрафные члены к функции стоимости, чтобы препятствовать использованию сложных моделей:
Случайным образом игнорирует подмножество нейронов во время обучения, имитируя обучение нескольких архитектур нейронных сетей для улучшения обобщения. [4]
Эмпирическое обучение классификаторов (на основе конечного набора данных) всегда является недоопределенной проблемой, поскольку оно пытается вывести функцию из любых заданных только примеров .
Член регуляризации (или регуляризатор) добавляется к функции потерь : где — базовая функция потерь, которая описывает стоимость прогнозирования , когда метка равна , например, квадратная потеря или потеря шарнира ; и — параметр, который контролирует важность члена регуляризации. обычно выбирается для наложения штрафа на сложность . Конкретные используемые понятия сложности включают ограничения на гладкость и границы нормы векторного пространства . [5] [ нужна страница ]
Теоретическое обоснование регуляризации заключается в том, что она пытается применить бритву Оккама к решению (как показано на рисунке выше, где зеленая функция, более простая, может быть предпочтительнее). С байесовской точки зрения многие методы регуляризации соответствуют наложению определенных априорных распределений на параметры модели. [6]
Регуляризация может служить нескольким целям, включая обучение более простым моделям, приведение моделей к разреженным и введение групповой структуры [ необходимо разъяснение ] в задачу обучения.
Та же идея возникла во многих областях науки . Простая форма регуляризации, применяемая к интегральным уравнениям ( регуляризация Тихонова ), по сути является компромиссом между подгонкой данных и уменьшением нормы решения. В последнее время стали популярны методы нелинейной регуляризации, включая регуляризацию полной вариации .
Регуляризацию можно рассматривать как метод улучшения обобщаемости изученной модели.
Цель этой обучающей задачи — найти функцию, которая соответствует или предсказывает результат (метку), который минимизирует ожидаемую ошибку по всем возможным входным данным и меткам. Ожидаемая ошибка функции равна: где и — домены входных данных и их метки соответственно.
Обычно в задачах обучения доступно только подмножество входных данных и меток, измеренное с некоторым шумом. Поэтому ожидаемая ошибка неизмерима, и лучшим доступным суррогатом является эмпирическая ошибка по доступным образцам: Без ограничений на сложность доступного функционального пространства (формально, воспроизводящего ядра Гильбертова пространства ) будет обучена модель, которая несет нулевую потерю на суррогатной эмпирической ошибке. Если измерения (например , ) были сделаны с шумом, эта модель может страдать от переобучения и показывать плохую ожидаемую ошибку. Регуляризация вводит штраф за исследование определенных областей функционального пространства, используемых для построения модели, что может улучшить обобщение.
Эти методы названы в честь Андрея Николаевича Тихонова , который применил регуляризацию к интегральным уравнениям и внес важный вклад во многие другие области.
При обучении линейной функции , характеризующейся неизвестным вектором таким, что , можно добавить -норму вектора к выражению потерь, чтобы предпочесть решения с меньшими нормами. Регуляризация Тихонова является одной из наиболее распространенных форм. Она также известна как гребневая регрессия. Она выражается как: где будет представлять образцы, используемые для обучения.
В случае общей функции норма функции в воспроизводящем ее ядре гильбертовом пространстве равна:
Поскольку норма дифференцируема , обучение можно продвигать с помощью градиентного спуска .
Задача обучения с функцией потерь наименьших квадратов и регуляризацией Тихонова может быть решена аналитически. Записанная в матричной форме, оптимальная — та, для которой градиент функции потерь относительно равен 0. где третье утверждение — условие первого порядка .
По построению задачи оптимизации другие значения дают большие значения для функции потерь. Это можно проверить, изучив вторую производную .
Во время обучения этот алгоритм занимает время . Термины соответствуют обращению матрицы и вычислению , соответственно. Тестирование занимает время.
Раннюю остановку можно рассматривать как регуляризацию во времени. Интуитивно, процедура обучения, такая как градиентный спуск, имеет тенденцию изучать все более сложные функции с увеличением итераций. Регуляризируя по времени, можно контролировать сложность модели, улучшая обобщение.
Ранняя остановка реализуется с использованием одного набора данных для обучения, одного статистически независимого набора данных для проверки и еще одного для тестирования. Модель обучается до тех пор, пока производительность на наборе проверки не перестанет улучшаться, а затем применяется к тестовому набору.
Рассмотрим конечную аппроксимацию ряда Неймана для обратимой матрицы A , где :
Это можно использовать для аппроксимации аналитического решения нерегуляризованного метода наименьших квадратов, если ввести γ , чтобы гарантировать, что норма меньше единицы.
Точное решение нерегуляризованной задачи обучения наименьшими квадратами минимизирует эмпирическую ошибку, но может потерпеть неудачу. Ограничивая T , единственный свободный параметр в алгоритме выше, задача регуляризуется по времени, что может улучшить ее обобщение.
Приведенный выше алгоритм эквивалентен ограничению числа итераций градиентного спуска для эмпирического риска с обновлением градиентного спуска:
Базовый случай тривиален. Индуктивный случай доказывается следующим образом:
Предположим, что задан словарь с размерностью, такой что функция в функциональном пространстве может быть выражена как:
Наложение ограничения разреженности может привести к более простым и интерпретируемым моделям. Это полезно во многих реальных приложениях, таких как вычислительная биология . Примером может служить разработка простого предсказательного теста на заболевание, чтобы минимизировать стоимость проведения медицинских тестов и при этом максимально увеличить предсказательную силу.
Разумное ограничение разреженности — это норма , определяемая как число ненулевых элементов в . Однако было показано, что решение регуляризованной задачи обучения является NP-трудным . [7]
Норма (см. также Нормы ) может быть использована для аппроксимации оптимальной нормы посредством выпуклой релаксации. Можно показать, что норма вызывает разреженность. В случае наименьших квадратов эта проблема известна как LASSO в статистике и поиск базиса в обработке сигналов.
Регуляризация может иногда давать неуникальные решения. Простой пример показан на рисунке, когда пространство возможных решений лежит на линии под углом 45 градусов. Это может быть проблематично для некоторых приложений и преодолевается путем объединения с регуляризацией в эластичной сетевой регуляризации , которая принимает следующую форму:
Эластичная сетевая регуляризация имеет тенденцию оказывать группирующий эффект, когда коррелированным входным признакам присваиваются равные веса.
Регуляризация эластичной сети широко применяется на практике и реализована во многих библиотеках машинного обучения.
Хотя норма не приводит к NP-трудной задаче, норма выпукла, но не строго дифференцируема из-за перегиба при x = 0. Субградиентные методы , которые опираются на субпроизводную, могут использоваться для решения регуляризованных задач обучения. Однако более быстрой сходимости можно добиться с помощью проксимальных методов.
Для такой задачи , которая является выпуклой, непрерывной, дифференцируемой, с непрерывным по Липшицу градиентом (например, функцией потерь наименьших квадратов), и является выпуклой, непрерывной и собственной, то проксимальный метод решения задачи следующий. Сначала определите проксимальный оператор , а затем выполните итерацию
Проксимальный метод итеративно выполняет градиентный спуск, а затем проецирует результат обратно в пространство, разрешенное .
Когда — регуляризатор L 1 , проксимальный оператор эквивалентен оператору мягкого порога,
Это позволяет проводить эффективные вычисления.
Группы признаков можно упорядочить с помощью ограничения разреженности, что может быть полезно для выражения определенных априорных знаний в задаче оптимизации.
В случае линейной модели с непересекающимися известными группами можно определить регуляризатор: где
Это можно рассматривать как введение регуляризатора по норме для членов каждой группы, за которым следует норма для групп.
Эту задачу можно решить с помощью проксимального метода, где проксимальный оператор представляет собой блочную функцию мягкого порога:
Алгоритм, описанный для разреженности групп без перекрытий, может быть применен к случаю, когда группы перекрываются, в определенных ситуациях. Это, скорее всего, приведет к некоторым группам со всеми нулевыми элементами, а также к другим группам с некоторыми ненулевыми и некоторыми нулевыми элементами.
Если желательно сохранить структуру группы, можно определить новый регуляризатор:
Для каждого определяется как вектор такой, что ограничение на группу равно , а все остальные элементы равны нулю. Регуляризатор находит оптимальное разложение на части. Его можно рассматривать как дублирование всех элементов, которые существуют в нескольких группах. Задачи обучения с этим регуляризатором также можно решить с помощью проксимального метода с усложнением. Проксимальный оператор не может быть вычислен в замкнутой форме, но может быть эффективно решен итеративно, вызывая внутреннюю итерацию внутри итерации проксимального метода.
Когда сбор меток обходится дороже, чем сбор входных примеров, может быть полезным полуконтролируемое обучение. Регуляризаторы были разработаны для того, чтобы направлять алгоритмы обучения для изучения моделей, которые уважают структуру неконтролируемых обучающих образцов. Если задана симметричная матрица весов, можно определить регуляризатор:
Если кодирует результат некоторой метрики расстояния для точек и , желательно, чтобы . Этот регуляризатор отражает эту интуицию и эквивалентен: где — матрица Лапласа графика, индуцированного .
Задача оптимизации может быть решена аналитически, если ограничение применяется ко всем контролируемым образцам. Помеченная часть вектора , таким образом, очевидна. Непомеченная часть решается для: Псевдообратная может быть взята, поскольку имеет тот же диапазон, что и .
В случае многозадачного обучения проблемы рассматриваются одновременно, каждая из которых связана каким-либо образом. Цель состоит в том, чтобы изучить функции, в идеале заимствуя силу из связанности задач, которые имеют предсказательную силу. Это эквивалентно изучению матрицы .
Этот регуляризатор определяет норму L2 по каждому столбцу и норму L1 по всем столбцам. Его можно решить проксимальными методами.
где — собственные значения в сингулярном разложении .
Этот регуляризатор ограничивает функции, изученные для каждой задачи, чтобы они были похожи на общее среднее значение функций по всем задачам. Это полезно для выражения предварительной информации, которой каждая задача, как ожидается, будет делиться с каждой другой задачей. Примером является прогнозирование уровня железа в крови, измеренного в разное время дня, где каждая задача представляет отдельного человека.
где находится кластер задач.
Этот регуляризатор похож на регуляризатор с ограничением по среднему, но вместо этого обеспечивает сходство между задачами в пределах одного кластера. Это может захватывать более сложную априорную информацию. Этот метод использовался для прогнозирования рекомендаций Netflix . Кластер будет соответствовать группе людей, которые разделяют схожие предпочтения.
В более общем смысле, чем выше, сходство между задачами может быть определено функцией. Регуляризатор побуждает модель изучать схожие функции для схожих задач. для заданной симметричной матрицы сходства .
Байесовские методы обучения используют априорную вероятность , которая (обычно) дает более низкую вероятность для более сложных моделей. Известные методы выбора модели включают критерий информации Акаике (AIC), минимальную длину описания (MDL) и критерий информации Байеса (BIC). Альтернативные методы контроля переобучения, не включающие регуляризацию, включают перекрестную проверку .
Примерами применения различных методов регуляризации к линейной модели являются:
Модели временной структуры могут быть регуляризированы для устранения возможностей арбитража [ sic ? ].
{{cite journal}}
: Цитировать журнал требует |journal=
( помощь )Если p > n, то обычная оценка наименьших квадратов не является уникальной и будет сильно переобучать данные. Таким образом, будет необходима форма регуляризации сложности.