Потеря шарнира

В машинном обучении шарнирная потеря — это функция потерь , используемая для обучения классификаторов . Потери на шарнире используются для классификации «максимального запаса», особенно для машин опорных векторов (SVM). ^[1]

Для предполагаемого результата $t = \pm1$ и оценки классификатора $y$ потеря шарнира прогноза $y$ определяется как

\ell (y)=\max(0,1-t\cdot y)

Обратите внимание, что это должен быть «необработанный» вывод функции решения классификатора, а не прогнозируемая метка класса. Например, в линейных SVM, где – параметры гиперплоскости , а – входная переменная(и). $y$ $y=\mathbf {w} \cdot \mathbf {x} +b$ $(\mathbf {w},b)$ $\mathbf {x}$

Когда $t$ и $y$ имеют одинаковый знак (это означает, что $y$ предсказывает правильный класс) и , потеря шарнира . Когда они имеют противоположные знаки, увеличивается линейно с $y$ , и аналогично, если , даже если он имеет одинаковый знак (правильный прогноз, но с недостаточным запасом). $|y|\geq 1$ $\ell (y)=0$ $\ell (у)$ $|y|<1$

Расширения

Хотя двоичные SVM обычно расширяются до многоклассовой классификации по принципу «один против всех» или «один против одного», ^[2] для этой цели также возможно расширить саму потерю шарнира. Было предложено несколько различных вариантов многоклассовой потери шарнира. ^[3] Например, Краммер и Сингер ^[4] определили его для линейного классификатора как ^[5]

\ell (y)=\max(0,1+\max _{y\neq t} \mathbf {w} _{y} \mathbf {x} -\mathbf {w} _{t}\ mathbf {x} )

где – целевая метка и – параметры модели. $т$ $\mathbf {w} _{t}$ $\mathbf {w} _{y}$

Уэстон и Уоткинс дали аналогичное определение, но с суммой, а не с максимальным значением: ^[6]^[3]

\ell (y)=\sum _{y\neq t} \max(0,1+\mathbf {w} _{y} \mathbf {x} -\mathbf {w} _{t}\ mathbf {x} )

В структурированном прогнозировании потеря шарнира может быть дополнительно распространена на структурированные выходные пространства. Структурированные SVM с масштабированием запаса используют следующий вариант, где $w$ обозначает параметры SVM, $y$ — прогнозы SVM, $φ$ — совместную функцию признаков, а $Δ$ — потери Хэмминга :

{\begin{aligned}\ell (\mathbf {y})&=\max(0,\Delta (\mathbf {y},\mathbf {t})+\langle \mathbf {w},\ phi (\mathbf {x} ,\mathbf {y} )\rangle -\langle \mathbf {w} ,\phi (\mathbf {x} ,\mathbf {t} )\rangle )\\&=\max( 0,\max _{y\in {\mathcal {Y}}}\left(\Delta (\mathbf {y},\mathbf {t})+\langle \mathbf {w},\phi (\mathbf { x} ,\mathbf {y} )\rangle \right)-\langle \mathbf {w} ,\phi (\mathbf {x} ,\mathbf {t} )\rangle )\end{aligned}}

Оптимизация

Потери шарнира — выпуклая функция , поэтому с ней могут работать многие обычные выпуклые оптимизаторы, используемые в машинном обучении. Он не дифференцируем , но имеет субградиент по отношению к параметрам модели $w$ линейной SVM с оценочной функцией, которая определяется выражением $y=\mathbf {w} \cdot \mathbf {x}$

{\frac {\partial \ell }{\partial w_{i}}}={\begin{cases}-t\cdot x_{i}&{\text{if }}t\cdot y<1,\\0&{\text{otherwise}}.\end{cases}}

Однако, поскольку производная шарнирных потерь при не определена, для оптимизации могут быть предпочтительны сглаженные версии, такие как версия Ренни и Сребро ^[7] $ty=1$

\ell (y)={\begin{cases}{\frac {1}{2}}-ty&{\text{if}}~~ty\leq 0,\\{\frac {1}{2}}(1-ty)^{2}&{\text{if}}~~0<ty<1,\\0&{\text{if}}~~1\leq ty\end{cases}}

или квадратично сглаженный

\ell _{\gamma }(y)={\begin{cases}{\frac {1}{2\gamma }}\max(0,1-ty)^{2}&{\text{if}}~~ty\geq 1-\gamma ,\\1-{\frac {\gamma }{2}}-ty&{\text{otherwise}}\end{cases}}

предложил Чжан. ^[8] Модифицированные потери Хубера являются частным случаем этой функции потерь , в частности . $L$ $\gamma =2$ $L(t,y)=4\ell _{2}(y)$

Смотрите также

Сплайн многомерной адаптивной регрессии § Шарнирные функции

Потеря шарнира

Расширения

Оптимизация

Смотрите также

Рекомендации