Вертикальная ось представляет значение шарнирной потери (синим цветом) и потери ноль-единица (зеленый цвет) для фиксированного t = 1 , в то время как горизонтальная ось представляет значение прогноза y . График показывает, что потеря шарнира наказывает предсказания y < 1 , что соответствует понятию запаса в машине опорных векторов.
Для предполагаемого результата t = ±1 и оценки классификатора y потеря шарнира прогноза y определяется как
Обратите внимание, что это должен быть «необработанный» вывод функции решения классификатора, а не прогнозируемая метка класса. Например, в линейных SVM, где – параметры гиперплоскости , а – входная переменная(и).
Когда t и y имеют одинаковый знак (это означает, что y предсказывает правильный класс) и , потеря шарнира . Когда они имеют противоположные знаки, увеличивается линейно с y , и аналогично, если , даже если он имеет одинаковый знак (правильный прогноз, но с недостаточным запасом).
Расширения
Хотя двоичные SVM обычно расширяются до многоклассовой классификации по принципу «один против всех» или «один против одного», [2]
для этой цели также возможно расширить саму потерю шарнира. Было предложено несколько различных вариантов многоклассовой потери шарнира. [3] Например, Краммер и Сингер [4]
определили его для линейного классификатора как [5]
,
где – целевая метка и – параметры модели.
Уэстон и Уоткинс дали аналогичное определение, но с суммой, а не с максимальным значением: [6] [3]
.
В структурированном прогнозировании потеря шарнира может быть дополнительно распространена на структурированные выходные пространства. Структурированные SVM с масштабированием запаса используют следующий вариант, где w обозначает параметры SVM, y — прогнозы SVM, φ — совместную функцию признаков, а Δ — потери Хэмминга :
.
Оптимизация
Потери шарнира — выпуклая функция , поэтому с ней могут работать многие обычные выпуклые оптимизаторы, используемые в машинном обучении. Он не дифференцируем , но имеет субградиент по отношению к параметрам модели w линейной SVM с оценочной функцией, которая определяется выражением
График трех вариантов потери шарнира в зависимости от z = ty : «обычный» вариант (синий), его квадрат (зеленый) и кусочно-гладкая версия Ренни и Сребро (красный). По оси Y — шарнирные потери l(y) , а по оси X — параметр t.
Однако, поскольку производная шарнирных потерь при не определена, для оптимизации могут быть предпочтительны сглаженные версии, такие как версия Ренни и Сребро [7]
или квадратично сглаженный
предложил Чжан. [8] Модифицированные потери Хубера являются частным случаем этой функции потерь , в частности .
^ Росаско, Л.; Де Вито, Эд; Капоннетто, А.; Пиана, М.; Верри, А. (2004). «Все ли функции потерь одинаковы?» (PDF) . Нейронные вычисления . 16 (5): 1063–1076. CiteSeerX 10.1.1.109.6786 . дои : 10.1162/089976604773135104. ПМИД 15070510.
^ Дуань, КБ; Кирти, СС (2005). «Какой многоклассовый метод SVM лучше всего? Эмпирическое исследование» (PDF) . Множественные системы классификаторов . ЛНКС . Том. 3541. стр. 278–285. CiteSeerX 10.1.1.110.6789 . дои : 10.1007/11494683_28. ISBN978-3-540-26306-7.
^ аб Доган, Урун; Глазмахерс, Тобиас; Игель, Кристиан (2016). «Единый взгляд на классификацию опорных векторов нескольких классов» (PDF) . Журнал исследований машинного обучения . 17 : 1–32.
^ Краммер, Коби; Певец Йорам (2001). «Об алгоритмической реализации многоклассовых векторных машин на основе ядра» (PDF) . Журнал исследований машинного обучения . 2 : 265–292.
^ Мур, Роберт С.; ДеНеро, Джон (2011). «Регуляризация L1 и L2 для многоклассовых моделей потерь шарниров» (PDF) . Учеб. Симп. по машинному обучению в обработке речи и языка .
^ Ренни, Джейсон DM; Сребро, Натан (2005). Функции потерь для уровней предпочтений: регрессия с дискретными упорядоченными метками (PDF) . Учеб. Междисциплинарный семинар IJCAI по достижениям в области обработки предпочтений.
^ Чжан, Тонг (2004). Решение крупномасштабных задач линейного прогнозирования с использованием алгоритмов стохастического градиентного спуска (PDF) . ИКМЛ.