От машины опорных векторов к машине опорных векторов наименьших квадратов
Учитывая обучающий набор с входными данными и соответствующими метками двоичных классов , классификатор SVM [2] согласно оригинальной формулировке Вапника удовлетворяет следующим условиям:
Спиральные данные: для синей точки данных, для красной точки данных.
что эквивалентно
где – нелинейное отображение исходного пространства в многомерное или бесконечномерное пространство.
Неотделимые данные
В случае, если такой разделяющей гиперплоскости не существует, вводятся так называемые слабые переменные такие, что
Результат классификатора SVM
В соответствии с принципом минимизации структурного риска граница риска минимизируется с помощью следующей задачи минимизации:
Чтобы решить эту проблему, мы могли бы построить функцию Лагранжа :
где - множители Лагранжа . Оптимальная точка будет находиться в седле функции Лагранжа, и тогда получим
Подставив его выражение в лагранжиан, сформированный из соответствующей цели и ограничений, получим следующую задачу квадратичного программирования:
где называется функцией ядра . Решая эту задачу QP с учетом ограничений в ( 1 ), мы получим гиперплоскость в многомерном пространстве и, следовательно, классификатор в исходном пространстве.
Формулировка SVM по методу наименьших квадратов
Версия классификатора SVM по методу наименьших квадратов получается путем переформулировки задачи минимизации как
с учетом ограничений равенства
Формулировка классификатора SVM наименьших квадратов (LS-SVM), приведенная выше, неявно соответствует интерпретации регрессии с двоичными целями .
Используя , мы имеем
Обратите внимание, что эта ошибка также имеет смысл для подбора данных методом наименьших квадратов, так что те же конечные результаты справедливы и для случая регрессии.
Оба и следует рассматривать как гиперпараметры для настройки степени регуляризации по сравнению с суммой квадратов ошибок. Решение зависит только от соотношения , поэтому исходная формулировка использует его только в качестве параметра настройки. Мы используем оба и в качестве параметров, чтобы обеспечить байесовскую интерпретацию LS-SVM.
Решение регрессора LS-SVM будет получено после построения функции Лагранжа :
где множители Лагранжа. Условия оптимальности таковы.
где , , , и – константы. Обратите внимание, что условие Мерсера выполняется для всех значений и в случае полинома и RBF, но не для всех возможных вариантов выбора и в случае MLP. Параметры масштабирования и определяют масштабирование входных данных в полиномиальной, RBF и функции ядра MLP . Это масштабирование связано с пропускной способностью ядра в статистике , где показано, что пропускная способность является важным параметром поведения обобщения метода ядра.
Байесовская интерпретация LS-SVM
Байесовская интерпретация SVM была предложена Смолой и др. Они показали, что использование разных ядер в SVM можно рассматривать как определение различных априорных распределений вероятностей в функциональном пространстве, как . Здесь – константа, – оператор регуляризации, соответствующий выбранному ядру.
Общая байесовская структура доказательств была разработана Маккеем [3] [4] [5] и Маккей использовал ее для решения проблемы регрессии, прямой нейронной сети и сети классификации. При наличии набора данных , модели с вектором параметров и так называемого гиперпараметра или параметра регуляризации байесовский вывод строится с тремя уровнями вывода:
На уровне 1 для заданного значения первый уровень вывода выводит апостериорное распределение по байесовскому правилу.
Второй уровень вывода определяет значение путем максимизации
Третий уровень вывода в системе фактических данных ранжирует различные модели путем изучения их апостериорных вероятностей.
Мы видим, что байесовская структура доказательств представляет собой единую теорию обучения модели и выбора модели. Квок использовал байесовскую структуру доказательств для интерпретации формулировки SVM и выбора модели. И он также применил байесовскую систему доказательств для поддержки векторной регрессии.
Теперь, учитывая точки данных , гиперпараметры и модель , параметры модели и оцениваются путем максимизации апостериорного значения . Применяя правило Байеса, получаем
где – нормирующая константа, такая как интеграл по всем возможным и равна 1. Мы предполагаем и независимы от гиперпараметра и условно независимы, т. е. предполагаем
При , распределение будет приближаться к равномерному распределению. Кроме того, мы предполагаем, что и являются гауссовским распределением, поэтому мы получаем априорное распределение и с должно быть
Вот размерность пространства признаков, такая же, как размерность .
Предполагается , что вероятность зависит только от и . Мы предполагаем, что точки данных независимо одинаково распределены (iid), так что:
Чтобы получить функцию наименьших квадратов стоимости, предполагается, что вероятность точки данных пропорциональна:
Для ошибок принимается гауссово распределение :
Предполагается, что и определяются таким образом, что центры классов и отображаются на целевые значения -1 и +1 соответственно. Проекции элементов класса следуют многомерному гауссовскому распределению, имеющему дисперсию .
Объединив предыдущие выражения и пренебрегая всеми константами, правило Байеса принимает вид
Максимальные оценки апостериорной плотности и затем получаются путем минимизации отрицательного логарифма (26), поэтому мы приходим к (10).
^ Вапник, В. Природа статистической теории обучения. Спрингер-Верлаг, Нью-Йорк, 1995 г.
^ Маккей, DJC Байесовская интерполяция. Нейронные вычисления, 4 (3): 415–447, май 1992 г.
^ Маккей, DJC. Практическая байесовская структура для сетей обратного распространения ошибки. Нейронные вычисления, 4 (3): 448–472, май 1992 г.
^ Маккей, DJC. Структура доказательств, применяемая к классификационным сетям. Нейронные вычисления, 4 (5): 720–736, сентябрь 1992 г.
Библиография
Дж. К. Суйкенс, Т. Ван Гестель, Дж. Де Брабантер, Б. Де Мур, Дж. Вандевалле, Машины опорных векторов наименьших квадратов, World Scientific Pub. Co., Сингапур, 2002. ISBN 981-238-151-1.
Суйкенс Дж. А. К., Вандевалле Дж., Классификаторы векторных машин, поддерживающие метод наименьших квадратов, Neural Processing Letters , vol. 9, нет. 3 июня 1999 г., стр. 293–300.
Владимир Вапник. Природа статистической теории обучения . Springer-Verlag, 1995. ISBN 0-387-98780-0.
Маккей, DJC, Вероятные сети и правдоподобные предсказания — обзор практических байесовских методов для контролируемых нейронных сетей. Сеть: Вычисления в нейронных системах , вып. 6, 1995, стр. 469–505.
Внешние ссылки
www.esat.kuleuven.be/sista/lssvmlab/ «Набор инструментов Лаборатории векторных машин с поддержкой наименьших квадратов (LS-SVMlab) содержит реализации Matlab/C для ряда алгоритмов LS-SVM».
www.kernel-machines.org «Машины опорных векторов и методы на основе ядра (Смола и Шёлкопф)».
www.gaussianprocess.org «Гауссовы процессы: моделирование данных с использованием априорных значений гауссовского процесса вместо функций регрессии и классификации (Маккей, Уильямс)».
www.support-vector.net «Машины опорных векторов и методы на основе ядра (Кристианини)».
dlib: содержит реализацию SVM метода наименьших квадратов для крупномасштабных наборов данных.