stringtranslate.com

Потеря шарнира

Вертикальная ось представляет значение шарнирной потери (синим цветом) и потери ноль-единица (зеленый цвет) для фиксированного t = 1 , в то время как горизонтальная ось представляет значение прогноза y . График показывает, что потеря шарнира наказывает предсказания y < 1 , что соответствует понятию запаса в машине опорных векторов.

В машинном обучении шарнирная потеря — это функция потерь , используемая для обучения классификаторов . Потери на шарнире используются для классификации «максимального запаса», особенно для машин опорных векторов (SVM). [1]

Для предполагаемого результата t = ±1 и оценки классификатора y потеря шарнира прогноза y определяется как

Обратите внимание, что это должен быть «необработанный» вывод функции решения классификатора, а не прогнозируемая метка класса. Например, в линейных SVM, где – параметры гиперплоскости , а – входная переменная(и).

Когда t и y имеют одинаковый знак (это означает, что y предсказывает правильный класс) и , потеря шарнира . Когда они имеют противоположные знаки, увеличивается линейно с y , и аналогично, если , даже если он имеет одинаковый знак (правильный прогноз, но с недостаточным запасом).

Расширения

Хотя двоичные SVM обычно расширяются до многоклассовой классификации по принципу «один против всех» или «один против одного», [2] для этой цели также возможно расширить саму потерю шарнира. Было предложено несколько различных вариантов многоклассовой потери шарнира. [3] Например, Краммер и Сингер [4] определили его для линейного классификатора как [5]

,

где – целевая метка и – параметры модели.

Уэстон и Уоткинс дали аналогичное определение, но с суммой, а не с максимальным значением: [6] [3]

.

В структурированном прогнозировании потеря шарнира может быть дополнительно распространена на структурированные выходные пространства. Структурированные SVM с масштабированием запаса используют следующий вариант, где w обозначает параметры SVM, y — прогнозы SVM, φ — совместную функцию признаков, а Δ — потери Хэмминга :

.

Оптимизация

Потери шарнира — выпуклая функция , поэтому с ней могут работать многие обычные выпуклые оптимизаторы, используемые в машинном обучении. Он не дифференцируем , но имеет субградиент по отношению к параметрам модели w линейной SVM с оценочной функцией, которая определяется выражением

График трех вариантов потери шарнира в зависимости от z = ty : «обычный» вариант (синий), его квадрат (зеленый) и кусочно-гладкая версия Ренни и Сребро (красный). По оси Y — шарнирные потери l(y) , а по оси X — параметр t.

Однако, поскольку производная шарнирных потерь при не определена, для оптимизации могут быть предпочтительны сглаженные версии, такие как версия Ренни и Сребро [7]

или квадратично сглаженный

предложил Чжан. [8] Модифицированные потери Хубера являются частным случаем этой функции потерь , в частности .

Смотрите также

Рекомендации

  1. ^ Росаско, Л.; Де Вито, Эд; Капоннетто, А.; Пиана, М.; Верри, А. (2004). «Все ли функции потерь одинаковы?» (PDF) . Нейронные вычисления . 16 (5): 1063–1076. CiteSeerX  10.1.1.109.6786 . дои : 10.1162/089976604773135104. ПМИД  15070510.
  2. ^ Дуань, КБ; Кирти, СС (2005). «Какой многоклассовый метод SVM лучше всего? Эмпирическое исследование» (PDF) . Множественные системы классификаторов . ЛНКС . Том. 3541. стр. 278–285. CiteSeerX 10.1.1.110.6789 . дои : 10.1007/11494683_28. ISBN  978-3-540-26306-7.
  3. ^ аб Доган, Урун; Глазмахерс, Тобиас; Игель, Кристиан (2016). «Единый взгляд на классификацию опорных векторов нескольких классов» (PDF) . Журнал исследований машинного обучения . 17 : 1–32.
  4. ^ Краммер, Коби; Певец Йорам (2001). «Об алгоритмической реализации многоклассовых векторных машин на основе ядра» (PDF) . Журнал исследований машинного обучения . 2 : 265–292.
  5. ^ Мур, Роберт С.; ДеНеро, Джон (2011). «Регуляризация L1 и L2 для многоклассовых моделей потерь шарниров» (PDF) . Учеб. Симп. по машинному обучению в обработке речи и языка .
  6. ^ Уэстон, Джейсон; Уоткинс, Крис (1999). «Машины опорных векторов для многоклассового распознавания образов» (PDF) . Европейский симпозиум по искусственным нейронным сетям .
  7. ^ Ренни, Джейсон DM; Сребро, Натан (2005). Функции потерь для уровней предпочтений: регрессия с дискретными упорядоченными метками (PDF) . Учеб. Междисциплинарный семинар IJCAI по достижениям в области обработки предпочтений.
  8. ^ Чжан, Тонг (2004). Решение крупномасштабных задач линейного прогнозирования с использованием алгоритмов стохастического градиентного спуска (PDF) . ИКМЛ.