В машинном обучении машины ядра — это класс алгоритмов анализа шаблонов , наиболее известным представителем которого является машина опорных векторов (SVM). Эти методы предполагают использование линейных классификаторов для решения нелинейных задач. [1] Общая задача анализа шаблонов — найти и изучить общие типы отношений (например , кластеры , рейтинги , главные компоненты , корреляции , классификации ) в наборах данных. Для многих алгоритмов, решающих эти задачи, данные в необработанном представлении должны быть явно преобразованы в представления вектора признаков с помощью заданной пользователем карты признаков : напротив, методы ядра требуют только заданного пользователем ядра , т. е. функции сходства по всем пары точек данных, вычисленные с использованием внутренних продуктов . Карта признаков в машинах с ядром является бесконечномерной, но согласно теореме о представителе требуется только конечномерная матрица из пользовательского ввода . Машины ядра медленно вычисляют наборы данных размером более пары тысяч примеров без параллельной обработки.
Методы ядра получили свое название от использования функций ядра , которые позволяют им работать в многомерном, неявном пространстве признаков, даже не вычисляя координаты данных в этом пространстве, а, скорее, просто вычисляя внутренние продукты между изображениями все пары данных в пространстве признаков. Эта операция часто вычислительно дешевле, чем явное вычисление координат. Этот подход называется « трюком ядра ». [2] Функции ядра были введены для данных последовательности, графиков , текста, изображений, а также векторов.
Алгоритмы, способные работать с ядрами, включают персептрон ядра , машины опорных векторов (SVM), гауссовы процессы , анализ главных компонент (PCA), канонический корреляционный анализ , гребневую регрессию , спектральную кластеризацию , линейные адаптивные фильтры и многие другие.
Большинство алгоритмов ядра основаны на выпуклой оптимизации или собственных задачах и статистически обоснованы. Обычно их статистические свойства анализируются с помощью статистической теории обучения (например, с использованием сложности Радемахера ).
Методы ядра можно рассматривать как методы обучения на основе экземпляров : вместо изучения некоторого фиксированного набора параметров, соответствующих характеристикам их входных данных, они вместо этого «запоминают» -ый обучающий пример и изучают для него соответствующий вес . Прогноз для немаркированных входных данных, то есть тех, которые не входят в обучающий набор, обрабатывается применением функции сходства , называемой ядром , между немаркированными входными данными и каждым из обучающих входных данных . Например, ядерный двоичный классификатор обычно вычисляет взвешенную сумму сходств.
где
Ядерные классификаторы были описаны еще в 1960-х годах, с изобретением ядерного перцептрона . [3] Они приобрели большую известность благодаря популярности машины опорных векторов (SVM) в 1990-х годах, когда выяснилось, что SVM конкурирует с нейронными сетями в таких задачах, как распознавание рукописного текста .
Трюк с ядром позволяет избежать явного сопоставления, которое необходимо, чтобы заставить алгоритмы линейного обучения изучать нелинейную функцию или границу решения . Для всех и во входном пространстве определенные функции могут быть выражены как внутренний продукт в другом пространстве . Эту функцию часто называют ядром или функцией ядра . Слово «ядро» используется в математике для обозначения весовой функции для взвешенной суммы или интеграла .
Некоторые задачи машинного обучения имеют больше структуры, чем произвольная весовая функция . Вычисления становятся намного проще, если ядро можно записать в форме «карты признаков», удовлетворяющей следующим условиям:
Ключевое ограничение заключается в том, что это должен быть правильный внутренний продукт. С другой стороны, явное представление для не требуется, пока является пространством внутреннего продукта . Альтернатива следует из теоремы Мерсера : неявно определенная функция существует всякий раз, когда пространство может быть оснащено подходящей мерой , гарантирующей, что функция удовлетворяет условию Мерсера .
Теорема Мерсера похожа на обобщение результата линейной алгебры, которое сопоставляет скалярное произведение любой положительно определенной матрице . Фактически, условие Мерсера можно свести к этому более простому случаю. Если мы выберем в качестве нашей меры считающую меру для всех , которая подсчитывает количество точек внутри множества , то интеграл в теореме Мерсера сводится к суммированию
Если это суммирование справедливо для всех конечных последовательностей точек и всех выборов действительных коэффициентов (ср. положительно определенное ядро ), то функция удовлетворяет условию Мерсера.
Некоторые алгоритмы, которые зависят от произвольных отношений в собственном пространстве , фактически будут иметь линейную интерпретацию в другой настройке: пространстве диапазонов . Линейная интерпретация дает нам представление об алгоритме. Более того, часто нет необходимости выполнять вычисления непосредственно во время вычислений, как в случае с машинами опорных векторов . Некоторые называют это сокращение времени работы основным преимуществом. Исследователи также используют его для обоснования значений и свойств существующих алгоритмов.
Теоретически матрица Грама относительно (иногда также называемая «матрицей ядра» [4] ), где , должна быть положительно полуопределенной (PSD) . [5] Эмпирически для эвристики машинного обучения выбор функции , которая не удовлетворяет условию Мерсера, все равно может работать разумно, если хотя бы приближается к интуитивному представлению о сходстве. [6] Независимо от того, является ли ядро Mercer, его все равно можно называть «ядром».
Если функция ядра также является ковариационной функцией , используемой в гауссовских процессах , то матрицу Грама также можно назвать ковариационной матрицей . [7]
Области применения ядерных методов разнообразны и включают геостатистику , [8] кригинг , взвешивание обратных расстояний , 3D-реконструкцию , биоинформатику , хемоинформатику , извлечение информации и распознавание рукописного текста .