Регуляризация (математика)

Зеленая и синяя функции несут нулевые потери в заданных точках данных. Изученную модель можно заставить отдать предпочтение зеленой функции, которая может лучше обобщать большее количество точек, взятых из основного неизвестного распределения, путем корректировки веса члена регуляризации. $\lambda$

В математике , статистике , финансах , ^[1] информатике , особенно в машинном обучении и обратных задачах , регуляризация — это процесс, который изменяет результат ответа на «более простой». Его часто используют для получения результатов для некорректных задач или для предотвращения переобучения . ^[2]

Хотя процедуры регуляризации можно разделить по-разному, особенно полезно следующее разграничение:

Явная регуляризация — это регуляризация всякий раз, когда к задаче оптимизации явно добавляется член. Этими условиями могут быть априоры, штрафы или ограничения. Явная регуляризация обычно используется при решении некорректных задач оптимизации. Член регуляризации, или штраф, накладывает затраты на функцию оптимизации, чтобы сделать оптимальное решение уникальным.
Неявная регуляризация — это все остальные формы регуляризации. Это включает, например, раннюю остановку, использование устойчивой функции потерь и отбрасывание выбросов. Неявная регуляризация практически повсеместно распространена в современных подходах к машинному обучению, включая стохастический градиентный спуск для обучения глубоких нейронных сетей и ансамблевые методы (такие как случайные леса и деревья с градиентным усилением).

При явной регуляризации, независимо от проблемы или модели, всегда есть термин данных, который соответствует вероятности измерения, и член регуляризации, который соответствует априорному значению. Объединив оба источника с использованием байесовской статистики, можно вычислить апостериорный результат, который включает оба источника информации и, следовательно, стабилизирует процесс оценки. Находя компромисс между обеими целями, человек выбирает либо больше привязываться к данным, либо применять обобщение (чтобы предотвратить переобучение). Существует целое направление исследований, занимающееся всеми возможными регуляризациями. На практике обычно пробуют конкретную регуляризацию, а затем определяют плотность вероятности, соответствующую этой регуляризации, чтобы оправдать свой выбор. Это также может быть физически мотивировано здравым смыслом или интуицией.

В машинном обучении термин данных соответствует обучающим данным, а регуляризация — это либо выбор модели, либо модификации алгоритма. Всегда направлено на уменьшение ошибки обобщения, т. е. оценки ошибки с обученной моделью в наборе оценок, а не с обучающими данными. ^[3]

Одним из первых применений регуляризации является регуляризация Тихонова , связанная с методом наименьших квадратов.

Регуляризация в машинном обучении

В машинном обучении ключевой задачей является предоставление моделям возможности точно предсказывать результаты на основе невидимых данных, а не только на знакомых обучающих данных. Регуляризация имеет решающее значение для решения проблемы переобучения (когда модель запоминает детали обучающих данных, но не может обобщать их на новые данные) и недостаточного подбора , когда модель слишком проста, чтобы отразить сложность обучающих данных. Эта концепция отражает обучение учащихся применять изученные концепции к новым проблемам, а не просто вспоминать заученные ответы. ^[4] Цель регуляризации — побудить модели изучать более широкие закономерности данных, а не запоминать их. Такие методы, как ранняя остановка , регуляризация L1 и L2 и Dropout, предназначены для предотвращения переобучения и недостаточного подбора, тем самым улучшая способность модели адаптироваться и хорошо работать с новыми данными, тем самым улучшая обобщение модели. ^[4]

Ранняя остановка

Останавливает обучение, когда производительность проверки ухудшается, предотвращая переобучение путем остановки до того, как модель запомнит данные обучения. ^[4]

Регуляризация L1 и L2

Добавляет штрафные санкции к функции стоимости, чтобы препятствовать созданию сложных моделей:

Регуляризация L1 приводит к разреженности моделей за счет добавления штрафа, основанного на абсолютном значении коэффициентов.
Регуляризация L2 способствует уменьшению и более равномерному распределению весов за счет добавления штрафа, основанного на квадрате коэффициентов. ^[4]

Выбывать

Случайным образом игнорируется подмножество нейронов во время обучения, имитируя обучение нескольких архитектур нейронных сетей для улучшения обобщения. ^[4]

Классификация

Эмпирическое обучение классификаторов (на основе конечного набора данных) всегда является недоопределенной проблемой, поскольку оно пытается вывести функцию из любых данных только примеров . $x$ $x_{1},x_{2},...x_{n}$

К функции потерь добавляется термин регуляризации (или регуляризатор) : $R(f)$

\min _{f}\sum _{i=1}^{n}V(f(x_{i}),y_{i})+\lambda R(f)

где — базовая функция потерь, которая описывает стоимость прогнозирования появления метки , например квадратичная потеря или шарнирная потеря ; и является параметром, который контролирует важность термина регуляризации. обычно выбирается для наложения штрафа на сложность . Используемые конкретные понятия сложности включают ограничения на гладкость и границы нормы векторного пространства . ^[5]^[^{нужна страница}^] $V$ $f(x)$ $y$ $\lambda$ $R(f)$ $f$

Теоретическим обоснованием регуляризации является то, что она пытается применить к решению бритву Оккама (как показано на рисунке выше, где может быть предпочтительнее зеленая функция, более простая). С байесовской точки зрения многие методы регуляризации соответствуют наложению определенных априорных распределений на параметры модели. ^[6]

Регуляризация может служить нескольким целям, включая изучение более простых моделей, создание разреженных моделей и введение групповой структуры ^{( необходимо разъяснение )} в задачу обучения.

Та же идея возникла во многих областях науки . Простая форма регуляризации, применяемая к интегральным уравнениям ( регуляризация Тихонова ), по сути, представляет собой компромисс между подгонкой данных и уменьшением нормы решения. Совсем недавно стали популярными методы нелинейной регуляризации, включая регуляризацию полной вариации .

Обобщение

Регуляризацию можно рассматривать как метод улучшения обобщаемости изученной модели.

Цель этой задачи обучения — найти функцию, которая соответствует или предсказывает результат (метку), которая минимизирует ожидаемую ошибку по всем возможным входным данным и меткам. Ожидаемая ошибка функции : $f_{n}$

I[f_{n}]=\int _{X\times Y}V(f_{n}(x),y)\rho (x,y)\,dx\,dy

где и — домены входных данных и их метки соответственно. $X$ $Y$ $x$ $y$

Обычно в задачах обучения доступен только подмножество входных данных и меток, измеренных с некоторым шумом. Следовательно, ожидаемая ошибка неизмерима, и лучшим доступным суррогатным показателем является эмпирическая ошибка по доступным выборкам: $N$

I_{S}[f_{n}]={\frac {1}{n}}\sum _{i=1}^{N}V(f_{n}({\hat {x}}_{i}),{\hat {y}}_{i})

Без ограничений на сложность доступного функционального пространства (формально, воспроизводящего ядра гильбертова пространства ) будет изучена модель, которая не несет нулевых потерь из-за суррогатной эмпирической ошибки. Если измерения (например , ) проводились с шумом, эта модель может страдать от переобучения и отображать плохую ожидаемую ошибку. Регуляризация вводит штраф за исследование определенных областей функционального пространства, используемого для построения модели, что может улучшить обобщение. $x_{i}$

Тихоновская регуляризация

Эти методы названы в честь Андрея Николаевича Тихонова , который применил регуляризацию к интегральным уравнениям и внес важный вклад во многие другие области.

При изучении линейной функции , характеризующейся неизвестным вектором таким образом , можно добавить -норму вектора к выражению потерь, чтобы отдать предпочтение решениям с меньшими нормами. Тихоновская регуляризация — одна из наиболее распространенных форм. Это также известно как регрессия гребня. Это выражается как: $f$ $w$ $f(x)=w\cdot x$ $L_{2}$ $w$

\min _{w}\sum _{i=1}^{n}V({\hat {x}}_{i}\cdot w,{\hat {y}}_{i})+\lambda \|w\|_{2}^{2}

где будут представлены образцы, используемые для обучения. $({\hat {x}}_{i},{\hat {y}}_{i}),\,1\leq i\leq n,$

В случае общей функции норма функции в ее воспроизводящем ядерном гильбертовом пространстве равна:

\min _{f}\sum _{i=1}^{n}V(f({\hat {x}}_{i}),{\hat {y}}_{i})+\lambda \|f\|_{\mathcal {H}}^{2}

Поскольку норма дифференцируема , обучение можно продвигать путем градиентного спуска . $L_{2}$

Регуляризованный по Тихонову метод наименьших квадратов

Задачу обучения с функцией потерь наименьших квадратов и тихоновской регуляризацией можно решить аналитически. Записанный в матричной форме, оптимальным является тот, для которого градиент функции потерь по отношению к равен 0. $w$ $w$

\min _{w}{\frac {1}{n}}({\hat {X}}w-Y)^{T}({\hat {X}}w-Y)+\lambda \|w\|_{2}^{2}

\nabla _{w}={\frac {2}{n}}{\hat {X}}^{T}({\hat {X}}w-Y)+2\lambda w

0={\hat {X}}^{T}({\hat {X}}w-Y)+n\lambda w

( условие первого порядка )

w=({\hat {X}}^{T}{\hat {X}}+\lambda nI)^{-1}({\hat {X}}^{T}Y)

По построению задачи оптимизации другие значения дают большие значения функции потерь. В этом можно убедиться, исследуя вторую производную . $w$ $\nabla _{ww}$

Во время обучения этот алгоритм требует времени . Слагаемые соответствуют обращению матрицы и вычислению соответственно. Тестирование требует времени. $O(d^{3}+nd^{2})$ $X^{T}X$ $O(nd)$

Ранняя остановка

Раннюю остановку можно рассматривать как регуляризацию во времени. Интуитивно понятно, что процедура обучения, такая как градиентный спуск, имеет тенденцию изучать все более и более сложные функции с увеличением итераций. Путем регуляризации по времени можно контролировать сложность модели, улучшая обобщение.

Ранняя остановка реализуется с использованием одного набора данных для обучения, одного статистически независимого набора данных для проверки и другого для тестирования. Модель обучается до тех пор, пока производительность проверочного набора не перестанет улучшаться, а затем применяется к тестовому набору.

Теоретическая мотивация по методу наименьших квадратов

Рассмотрим конечную аппроксимацию ряда Неймана для обратимой матрицы $A$ , где : $\|I-A\|<1$

\sum _{i=0}^{T-1}(I-A)^{i}\approx A^{-1}

Это можно использовать для аппроксимации аналитического решения нерегуляризованного метода наименьших квадратов, если $γ$ вводится для обеспечения того, чтобы норма была меньше единицы.

w_{T}={\frac {\gamma }{n}}\sum _{i=0}^{T-1}(I-{\frac {\gamma }{n}}{\hat {X}}^{T}{\hat {X}})^{i}{\hat {X}}^{T}{\hat {Y}}

Точное решение нерегуляризованной задачи обучения методом наименьших квадратов минимизирует эмпирическую ошибку, но может потерпеть неудачу. Ограничивая $T$ , единственный свободный параметр в приведенном выше алгоритме, проблема регуляризуется по времени, что может улучшить ее обобщение.

Приведенный выше алгоритм эквивалентен ограничению количества итераций градиентного спуска для эмпирического риска.

I_{s}[w]={\frac {1}{2n}}\|{\hat {X}}w-{\hat {Y}}\|_{\mathbb {R} ^{n}}^{2}

с обновлением градиентного спуска:

{\begin{aligned}w_{0}&=0\\w_{t+1}&=(I-{\frac {\gamma }{n}}{\hat {X}}^{T}{\hat {X}})w_{t}+{\frac {\gamma }{n}}{\hat {X}}^{T}{\hat {Y}}\end{aligned}}

Базовый случай тривиален. Индуктивный случай доказывается следующим образом:

{\begin{aligned}w_{T}&=(I-{\frac {\gamma }{n}}{\hat {X}}^{T}{\hat {X}}){\frac {\gamma }{n}}\sum _{i=0}^{T-2}(I-{\frac {\gamma }{n}}{\hat {X}}^{T}{\hat {X}})^{i}{\hat {X}}^{T}{\hat {Y}}+{\frac {\gamma }{n}}{\hat {X}}^{T}{\hat {Y}}\\&={\frac {\gamma }{n}}\sum _{i=1}^{T-1}(I-{\frac {\gamma }{n}}{\hat {X}}^{T}{\hat {X}})^{i}{\hat {X}}^{T}{\hat {Y}}+{\frac {\gamma }{n}}{\hat {X}}^{T}{\hat {Y}}\\&={\frac {\gamma }{n}}\sum _{i=0}^{T-1}(I-{\frac {\gamma }{n}}{\hat {X}}^{T}{\hat {X}})^{i}{\hat {X}}^{T}{\hat {Y}}\end{aligned}}

Регуляризаторы для разреженности

Предположим, что задан словарь с такой размерностью , что функция в функциональном пространстве может быть выражена как: $\phi _{j}$ $p$

f(x)=\sum _{j=1}^{p}\phi _{j}(x)w_{j}

Сравнение шара L1 и шара L2 в двух измерениях дает представление о том, как регуляризация L1 обеспечивает разреженность.

Применение ограничения разреженности может привести к созданию более простых и интерпретируемых моделей. Это полезно во многих реальных приложениях, таких как вычислительная биология . Примером может служить разработка простого прогностического теста на заболевание, чтобы минимизировать затраты на проведение медицинских тестов и одновременно максимизировать прогностическую способность. $w$

Разумным ограничением разреженности является норма , определяемая как количество ненулевых элементов в . Однако было продемонстрировано, что решение регуляризованной задачи обучения является NP-трудной задачей . ^[7] $L_{0}$ $\|w\|_{0}$ $w$ $L_{0}$

Норму (см . также Нормы ) можно использовать для аппроксимации оптимальной нормы посредством выпуклой релаксации. Можно показать, что норма вызывает разреженность. В случае метода наименьших квадратов эта проблема известна как LASSO в статистике и поиск базиса в обработке сигналов. $L_{1}$ $L_{0}$ $L_{1}$

\min _{w\in \mathbb {R} ^{p}}{\frac {1}{n}}\|{\hat {X}}w-{\hat {Y}}\|^{2}+\lambda \|w\|_{1}

$L_{1}$ регуляризация может иногда давать неуникальные решения. На рисунке представлен простой пример, когда пространство возможных решений лежит на линии под углом 45 градусов. Это может быть проблематичным для определенных приложений и преодолевается путем объединения с регуляризацией в эластичной сетевой регуляризации , которая принимает следующую форму: $L_{1}$ $L_{2}$

\min _{w\in \mathbb {R} ^{p}}{\frac {1}{n}}\|{\hat {X}}w-{\hat {Y}}\|^{2}+\lambda (\alpha \|w\|_{1}+(1-\alpha )\|w\|_{2}^{2}),\alpha \in [0,1]

Эластичная чистая регуляризация имеет тенденцию иметь эффект группировки, когда коррелированным входным объектам присваиваются равные веса.

Эластичная регуляризация сети широко используется на практике и реализована во многих библиотеках машинного обучения.

Проксимальные методы

Хотя норма не приводит к NP-трудной проблеме, норма является выпуклой, но не является строго дифференцируемой из-за перегиба при x = 0. Субградиентные методы , основанные на субпроизводной , могут использоваться для решения регуляризованных задач обучения. Однако более быстрая конвергенция может быть достигнута с помощью проксимальных методов. $L_{1}$ $L_{1}$ $L_{1}$

Для такой задачи , которая является выпуклой, непрерывной, дифференцируемой, с липшицевым непрерывным градиентом (например, функцией потерь наименьших квадратов) и является выпуклой, непрерывной и правильной, то проксимальный метод решения проблемы заключается в следующем. Сначала определите проксимальный оператор $\min _{w\in H}F(w)+R(w)$ $F$ $R$

\operatorname {prox} _{R}(v)=\operatorname {argmin} \limits _{w\in \mathbb {R} ^{D}}\{R(w)+{\frac {1}{2}}\|w-v\|^{2}\},

а затем повторить

w_{k+1}=\operatorname {prox} \limits _{\gamma ,R}(w_{k}-\gamma \nabla F(w_{k}))

Проксимальный метод итеративно выполняет градиентный спуск, а затем проецирует результат обратно в пространство, разрешенное параметром . $R$

Когда регуляризатор , проксимальный оператор эквивалентен оператору мягкого порога, $R$ $L_{1}$

S_{\lambda }(v)f(n)={\begin{cases}v_{i}-\lambda ,&{\text{if }}v_{i}>\lambda \\0,&{\text{if }}v_{i}\in [-\lambda ,\lambda ]\\v_{i}+\lambda ,&{\text{if }}v_{i}<-\lambda \end{cases}}

Это позволяет проводить эффективные вычисления.

Разреженность групп без перекрытий

Группы признаков можно регуляризовать с помощью ограничения разреженности, что может быть полезно для выражения определенных предварительных знаний в задаче оптимизации.

В случае линейной модели с непересекающимися известными группами можно определить регуляризатор:

R(w)=\sum _{g=1}^{G}\|w_{g}\|_{2},

где

\|w_{g}\|_{2}={\sqrt {\sum _{j=1}^{|G_{g}|}(w_{g}^{j})^{2}}}

Это можно рассматривать как создание регуляризатора нормы для членов каждой группы, за которым следует норма для групп. $L_{2}$ $L_{1}$

Эту проблему можно решить проксимальным методом, где проксимальный оператор представляет собой блочную функцию мягкого порога:

\operatorname {prox} \limits _{\lambda ,R,g}(w_{g})={\begin{cases}(1-{\frac {\lambda }{\|w_{g}\|_{2}}})w_{g},&{\text{if }}\|w_{g}\|_{2}>\lambda \\0,&{\text{if }}\|w_{g}\|_{2}\leq \lambda \end{cases}}

Разреженность групп с перекрытиями

Алгоритм, описанный для разреженности групп без перекрытий, в определенных ситуациях можно применить к случаю, когда группы действительно перекрываются. Скорее всего, это приведет к появлению некоторых групп со всеми нулевыми элементами, а других групп с некоторыми ненулевыми и некоторыми нулевыми элементами.

Если желательно сохранить структуру группы, можно определить новый регуляризатор:

R(w)=\inf \left\{\sum _{g=1}^{G}\|w_{g}\|_{2}:w=\sum _{g=1}^{G}{\bar {w}}_{g}\right\}

Для каждого определяется как вектор такой, что ограничение на группу равно , а все остальные элементы равны нулю. Регуляризатор находит оптимальное разбиение на части. Его можно рассматривать как дублирование всех элементов, существующих в нескольких группах. Задачи обучения с помощью этого регуляризатора также можно решить проксимальным методом с некоторым усложнением. Проксимальный оператор не может быть вычислен в закрытой форме, но может быть эффективно решен итеративно, вызывая внутреннюю итерацию внутри итерации проксимального метода. $w_{g}$ ${\bar {w}}_{g}$ ${\bar {w}}_{g}$ $g$ $w_{g}$ ${\bar {w}}_{g}$ $w$

Регуляризаторы для полуконтролируемого обучения

Когда сбор меток обходится дороже, чем входные примеры, может оказаться полезным полуконтролируемое обучение. Регуляризаторы были разработаны для управления алгоритмами обучения для изучения моделей, которые учитывают структуру неконтролируемых обучающих выборок. Если задана симметричная весовая матрица , можно определить регуляризатор: $W$

R(f)=\sum _{i,j}w_{ij}(f(x_{i})-f(x_{j}))^{2}

Если кодирует результат некоторой метрики расстояния для точек и , то желательно, чтобы . Этот регуляризатор отражает эту интуицию и эквивалентен: $W_{ij}$ $x_{i}$ $x_{j}$ $f(x_{i})\approx f(x_{j})$

R(f)={\bar {f}}^{T}L{\bar {f}}

где – матрица Лапласа графа, индуцированного .

L=D-W

W

Задачу оптимизации можно решить аналитически, если ограничение применяется ко всем контролируемым выборкам. Таким образом, помеченная часть вектора очевидна. Немаркированная часть решается следующим образом: $\min _{f\in \mathbb {R} ^{m}}R(f),m=u+l$ $f(x_{i})=y_{i}$ $f$ $f$

\min _{f_{u}\in \mathbb {R} ^{u}}f^{T}Lf=\min _{f_{u}\in \mathbb {R} ^{u}}\{f_{u}^{T}L_{uu}f_{u}+f_{l}^{T}L_{lu}f_{u}+f_{u}^{T}L_{ul}f_{l}\}

\nabla _{f_{u}}=2L_{uu}f_{u}+2L_{ul}Y

f_{u}=L_{uu}^{\dagger }(L_{ul}Y)

Псевдообратный вариант можно использовать, поскольку он имеет тот же диапазон, что и . $L_{ul}$ $L_{uu}$

Регуляризаторы для многозадачного обучения

В случае многозадачного обучения проблемы рассматриваются одновременно, каждая из которых каким-то образом связана. Цель состоит в том, чтобы изучить функции, в идеале заимствующие силу из связанности задач, обладающих предсказательной силой. Это эквивалентно изучению матрицы . $T$ $T$ $W:T\times D$

Разреженный регуляризатор по столбцам

R(w)=\sum _{i=1}^{D}\|W\|_{2,1}

Этот регуляризатор определяет норму L2 для каждого столбца и норму L1 для всех столбцов. Ее можно решить проксимальными методами.

Регуляризация ядерных норм

R(w)=\|\sigma (W)\|_{1}

где – собственные значения в сингулярном разложении .

\sigma (W)

W

Регуляризация с ограничением по среднему значению

R(f_{1}\cdots f_{T})=\sum _{t=1}^{T}\|f_{t}-{\frac {1}{T}}\sum _{s=1}^{T}f_{s}\|_{H_{k}}^{2}

Этот регуляризатор ограничивает функции, изученные для каждой задачи, похожими на общее среднее значение функций по всем задачам. Это полезно для выражения предварительной информации, которой каждая задача должна делиться друг с другом. Примером является прогнозирование уровня железа в крови, измеренного в разное время дня, где каждая задача представляет отдельного человека.

Кластерная регуляризация с ограничением по среднему

R(f_{1}\cdots f_{T})=\sum _{r=1}^{C}\sum _{t\in I(r)}\|f_{t}-{\frac {1}{I(r)}}\sum _{s\in I(r)}f_{s}\|_{H_{k}}^{2}

где кластер задач.

I(r)

Этот регуляризатор похож на регуляризатор с ограничением по среднему значению, но вместо этого обеспечивает сходство между задачами в одном кластере. Это может собирать более сложную априорную информацию. Этот метод использовался для прогнозирования рекомендаций Netflix . Кластер будет соответствовать группе людей со схожими предпочтениями.

Сходство на основе графа

В более общем смысле, чем указано выше, сходство между задачами можно определить с помощью функции. Регуляризатор побуждает модель изучать аналогичные функции для аналогичных задач.

R(f_{1}\cdots f_{T})=\sum _{t,s=1,t\neq s}^{T}\|f_{t}-f_{s}\|^{2}M_{ts}

для заданной симметричной матрицы подобия .

M

Другие варианты использования регуляризации в статистике и машинном обучении

Байесовские методы обучения используют априорную вероятность , которая (обычно) снижает вероятность более сложных моделей. Хорошо известные методы выбора модели включают информационный критерий Акаике (AIC), минимальную длину описания (MDL) и байесовский информационный критерий (BIC). Альтернативные методы контроля переобучения, не связанные с регуляризацией, включают перекрестную проверку .

Примеры применения различных методов регуляризации к линейной модели :

Смотрите также

Примечания

^ Крациос, Анастасис (2020). «Глубокое обучение без арбитража в обобщенной структуре HJM с использованием данных регуляризации арбитража». Риски. 8 (2): [1]. дои : 10.3390/risks8020040 . hdl : 20.500.11850/456375 . Модели временной структуры можно упорядочить, чтобы исключить возможности арбитража [ sic ? ]. {{cite journal}}: Требуется цитировать журнал |journal=( помощь )
^ Бюльманн, Питер; Ван Де Гир, Сара (2011). Статистика для многомерных данных . Серия Спрингера по статистике. п. 9. дои : 10.1007/978-3-642-20192-9. ISBN 978-3-642-20191-2. Если p > n, обычная оценка методом наименьших квадратов не уникальна и будет сильно переопределять данные. Таким образом, будет необходима форма регуляризации сложности.
^ "Книга глубокого обучения" . www.deeplearningbook.org . Проверено 29 января 2021 г.
^ abcde Го, Цзинру. «Заметки AI: регуляризация нейронных сетей». глубокое обучение.ай . Проверено 4 февраля 2024 г.
^ аб Бишоп, Кристофер М. (2007). Распознавание образов и машинное обучение (Корр. полиграфия. Под ред.). Нью-Йорк: Спрингер. ISBN 978-0-387-31073-2.
^ О связи между максимальной апостериорной оценкой и гребневой регрессией см. Вайнбергер, Килиан (11 июля 2018 г.). «Линейная/гребневая регрессия». CS4780 Машинное обучение Лекция 13 . Корнелл.
^ Натараджан, Б. (1 апреля 1995 г.). «Разреженные приближенные решения линейных систем». SIAM Journal по вычислительной технике . 24 (2): 227–234. дои : 10.1137/S0097539792240406. ISSN 0097-5397. S2CID 2072045.
^ Дуда, Ричард О. (2004). Классификация узоров + руководство для компьютера: комплект в твердом переплете (2-е изд.). Нью-Йорк [ua]: Уайли. ISBN 978-0-471-70350-1.
^ Артур Э. Хорл; Роберт В. Кеннард (1970). «Гребетная регрессия: смещенная оценка неортогональных задач». Технометрика . 12 (1): 55–67. дои : 10.2307/1267351. JSTOR 1267351.
^ Тибширани, Роберт (1996). «Регрессионное сжатие и отбор с помощью лассо» ( PostScript ) . Журнал Королевского статистического общества, серия B. 58 (1): 267–288. МР 1379242 . Проверено 19 марта 2009 г.
^ Ли Ван, Майкл Д. Гордон и Цзи Чжу (2006). «Регуляризованная регрессия наименьших абсолютных отклонений и эффективный алгоритм настройки параметров». Шестая международная конференция по интеллектуальному анализу данных . стр. 690–700. дои :10.1109/ICDM.2006.134. ISBN 978-0-7695-2701-7.
^ Кандес, Эммануэль ; Тао, Теренс (2007). «Селектор Данцига: статистическая оценка, когда p намного больше n ». Анналы статистики . 35 (6): 2313–2351. arXiv : math/0506081 . дои : 10.1214/009053606000001523. MR 2382644. S2CID 88524200.
^ Малгожата Богдан, Эвоут ван ден Берг, Вейджи Су и Эммануэль Дж. Кандес (2013). «Статистическая оценка и тестирование по упорядоченной норме L1». arXiv : 1310.1969 [stat.ME].{{cite arXiv}}: CS1 maint: multiple names: authors list (link)

Регуляризация (математика)

Регуляризация в машинном обучении

Ранняя остановка

Регуляризация L1 и L2

Выбывать

Классификация

Обобщение

Тихоновская регуляризация

Регуляризованный по Тихонову метод наименьших квадратов

Ранняя остановка

Теоретическая мотивация по методу наименьших квадратов

Регуляризаторы для разреженности

Проксимальные методы

Разреженность групп без перекрытий

Разреженность групп с перекрытиями

Регуляризаторы для полуконтролируемого обучения

Регуляризаторы для многозадачного обучения

Разреженный регуляризатор по столбцам

Регуляризация ядерных норм

Регуляризация с ограничением по среднему значению

Кластерная регуляризация с ограничением по среднему

Сходство на основе графа

Другие варианты использования регуляризации в статистике и машинном обучении

Смотрите также

Примечания

Рекомендации