stringtranslate.com

Машина опорных векторов наименьших квадратов

Машины опорных векторов наименьших квадратов (LS-SVM) для статистики и статистического моделирования представляют собой версии машин опорных векторов (SVM) с методом наименьших квадратов , которые представляют собой набор связанных контролируемых методов обучения , которые анализируют данные и распознают закономерности, и которые используются для классификации и регрессионного анализа . В этой версии решение находится путем решения набора линейных уравнений вместо задачи выпуклого квадратичного программирования (QP) для классических SVM. Классификаторы SVM по методу наименьших квадратов были предложены Йоханом Суйкенсом и Йосом Вандевалле. [1] LS-SVM — это класс методов обучения на основе ядра .

От машины опорных векторов к машине опорных векторов наименьших квадратов

Учитывая обучающий набор с входными данными и соответствующими метками двоичных классов , классификатор SVM [2] согласно оригинальной формулировке Вапника удовлетворяет следующим условиям:

Спиральные данные: для синей точки данных, для красной точки данных.

что эквивалентно

где – нелинейное отображение исходного пространства в многомерное или бесконечномерное пространство.

Неотделимые данные

В случае, если такой разделяющей гиперплоскости не существует, вводятся так называемые слабые переменные такие, что

Результат классификатора SVM

В соответствии с принципом минимизации структурного риска граница риска минимизируется с помощью следующей задачи минимизации:

Чтобы решить эту проблему, мы могли бы построить функцию Лагранжа :

где - множители Лагранжа . Оптимальная точка будет находиться в седле функции Лагранжа, и тогда получим

Подставив его выражение в лагранжиан, сформированный из соответствующей цели и ограничений, получим следующую задачу квадратичного программирования:

где называется функцией ядра . Решая эту задачу QP с учетом ограничений в ( 1 ), мы получим гиперплоскость в многомерном пространстве и, следовательно, классификатор в исходном пространстве.

Формулировка SVM по методу наименьших квадратов

Версия классификатора SVM по методу наименьших квадратов получается путем переформулировки задачи минимизации как

с учетом ограничений равенства

Формулировка классификатора SVM наименьших квадратов (LS-SVM), приведенная выше, неявно соответствует интерпретации регрессии с двоичными целями .

Используя , мы имеем

Обратите внимание, что эта ошибка также имеет смысл для подбора данных методом наименьших квадратов, так что те же конечные результаты справедливы и для случая регрессии.

Следовательно, формулировка классификатора LS-SVM эквивалентна

с и

Результат классификатора LS-SVM

Оба и следует рассматривать как гиперпараметры для настройки степени регуляризации по сравнению с суммой квадратов ошибок. Решение зависит только от соотношения , поэтому исходная формулировка использует его только в качестве параметра настройки. Мы используем оба и в качестве параметров, чтобы обеспечить байесовскую интерпретацию LS-SVM.

Решение регрессора LS-SVM будет получено после построения функции Лагранжа :

где множители Лагранжа. Условия оптимальности таковы.

Устранение и даст линейную систему вместо задачи квадратичного программирования :

с и .​ Здесь – единичная матрица , а – матрица ядра, определяемая .

Функция ядраК

Для функции ядра K (•, •) обычно есть следующие варианты:

где , , , и – константы. Обратите внимание, что условие Мерсера выполняется для всех значений и в случае полинома и RBF, но не для всех возможных вариантов выбора и в случае MLP. Параметры масштабирования и определяют масштабирование входных данных в полиномиальной, RBF и функции ядра MLP . Это масштабирование связано с пропускной способностью ядра в статистике , где показано, что пропускная способность является важным параметром поведения обобщения метода ядра.

Байесовская интерпретация LS-SVM

Байесовская интерпретация SVM была предложена Смолой и др. Они показали, что использование разных ядер в SVM можно рассматривать как определение различных априорных распределений вероятностей в функциональном пространстве, как . Здесь – константа, – оператор регуляризации, соответствующий выбранному ядру.

Общая байесовская структура доказательств была разработана Маккеем [3] [4] [5] и Маккей использовал ее для решения проблемы регрессии, прямой нейронной сети и сети классификации. При наличии набора данных , модели с вектором параметров и так называемого гиперпараметра или параметра регуляризации байесовский вывод строится с тремя уровнями вывода:

Мы видим, что байесовская структура доказательств представляет собой единую теорию обучения модели и выбора модели. Квок использовал байесовскую структуру доказательств для интерпретации формулировки SVM и выбора модели. И он также применил байесовскую систему доказательств для поддержки векторной регрессии.

Теперь, учитывая точки данных , гиперпараметры и модель , параметры модели и оцениваются путем максимизации апостериорного значения . Применяя правило Байеса, получаем

где – нормирующая константа, такая как интеграл по всем возможным и равна 1. Мы предполагаем и независимы от гиперпараметра и условно независимы, т. е. предполагаем

При , распределение будет приближаться к равномерному распределению. Кроме того, мы предполагаем, что и являются гауссовским распределением, поэтому мы получаем априорное распределение и с должно быть

Вот размерность пространства признаков, такая же, как размерность .

Предполагается , что вероятность зависит только от и . Мы предполагаем, что точки данных независимо одинаково распределены (iid), так что:

Чтобы получить функцию наименьших квадратов стоимости, предполагается, что вероятность точки данных пропорциональна:

Для ошибок принимается гауссово распределение :

Предполагается, что и определяются таким образом, что центры классов и отображаются на целевые значения -1 и +1 соответственно. Проекции элементов класса следуют многомерному гауссовскому распределению, имеющему дисперсию .

Объединив предыдущие выражения и пренебрегая всеми константами, правило Байеса принимает вид

Максимальные оценки апостериорной плотности и затем получаются путем минимизации отрицательного логарифма (26), поэтому мы приходим к (10).

Рекомендации

  1. ^ Суйкенс, JAK; Вандевалле, Дж. (1999) «Наименьшие квадраты поддерживают классификаторы векторных машин», Neural Processing Letters , 9 (3), 293–300.
  2. ^ Вапник, В. Природа статистической теории обучения. Спрингер-Верлаг, Нью-Йорк, 1995 г.
  3. ^ Маккей, DJC Байесовская интерполяция. Нейронные вычисления, 4 (3): 415–447, май 1992 г.
  4. ^ Маккей, DJC. Практическая байесовская структура для сетей обратного распространения ошибки. Нейронные вычисления, 4 (3): 448–472, май 1992 г.
  5. ^ Маккей, DJC. Структура доказательств, применяемая к классификационным сетям. Нейронные вычисления, 4 (5): 720–736, сентябрь 1992 г.

Библиография

Внешние ссылки