Методы ядра — это хорошо зарекомендовавший себя инструмент для анализа взаимосвязи между входными данными и соответствующим выходом функции. Ядра инкапсулируют свойства функций вычислительно эффективным способом и позволяют алгоритмам легко менять функции различной сложности.
В типичных алгоритмах машинного обучения эти функции производят скалярный вывод. Недавнее развитие методов ядра для функций с векторным выводом обусловлено, по крайней мере частично, интересом к одновременному решению связанных задач. Ядра, которые фиксируют взаимосвязь между задачами, позволяют им заимствовать силу друг у друга. Алгоритмы этого типа включают многозадачное обучение (также называемое многовыходным обучением или векторным обучением), трансферное обучение и совместный кригинг . Многометковую классификацию можно интерпретировать как сопоставление входных данных (двоичным) кодирующим векторам с длиной, равной количеству классов.
В гауссовых процессах ядра называются функциями ковариации . Функции с несколькими выходами соответствуют рассмотрению нескольких процессов. См. Байесовскую интерпретацию регуляризации для связи между двумя перспективами.
История
История обучения векторнозначным функциям тесно связана с трансферным обучением — сохранением знаний, полученных при решении одной проблемы, и применением их к другой, но связанной проблеме. Основная мотивация трансферного обучения в области машинного обучения обсуждалась на семинаре NIPS-95 по теме «Обучение обучению», который был сосредоточен на необходимости методов машинного обучения на протяжении всей жизни, которые сохраняют и повторно используют ранее полученные знания. Исследования трансферного обучения привлекали большое внимание с 1995 года под разными названиями: обучение обучению, непрерывное обучение, передача знаний, индуктивный перенос, многозадачное обучение, консолидация знаний, контекстно-зависимое обучение, индуктивное смещение на основе знаний, метаобучение и инкрементальное/кумулятивное обучение . [1] Интерес к обучению векторнозначным функциям был особенно вызван многозадачным обучением — структурой, которая пытается изучить несколько, возможно, разных задач одновременно.
Большая часть первоначальных исследований в области многозадачного обучения в сообществе машинного обучения была алгоритмической по своей природе и применялась к таким методам, как нейронные сети, деревья решений и k -ближайших соседей в 1990-х годах. [2] Использование вероятностных моделей и гауссовских процессов было впервые применено и в значительной степени разработано в контексте геостатистики, где прогнозирование по векторным выходным данным известно как кокригинг. [3] [4] [5] Геостатистические подходы к многомерному моделированию в основном сформулированы вокруг линейной модели корегионализации (LMC), генеративного подхода для разработки допустимых ковариационных функций, который использовался для многомерной регрессии и в статистике для компьютерной эмуляции дорогостоящих многомерных компьютерных кодов. Литература по регуляризации и теории ядра для векторных функций последовала в 2000-х годах. [6] [7] Хотя байесовские и регуляризационные перспективы были разработаны независимо, на самом деле они тесно связаны. [8]
Обозначение
В этом контексте задача контролируемого обучения заключается в изучении функции , которая наилучшим образом предсказывает векторные выходные данные при заданных входных данных (данных) .
- для
- , входное пространство (например )
В общем случае каждый компонент ( ) может иметь разные входные данные ( ) с разной мощностью ( ) и даже разные входные пространства ( ). [8]
В геостатистической литературе этот случай называется гетеротопным , а термин изотопный используется для обозначения того, что каждый компонент выходного вектора имеет один и тот же набор входных данных. [9]
Здесь для простоты записи мы предполагаем, что количество и выборочное пространство данных для каждого выхода одинаковы.
Перспектива регуляризации[8][10][11]
С точки зрения регуляризации проблема заключается в изучении принадлежности к воспроизводящему ядру гильбертова пространства векторнозначных функций ( ). Это похоже на скалярный случай регуляризации Тихонова , с некоторой дополнительной осторожностью в обозначениях.
Можно, хотя и нетривиально, показать, что теорема о представителе справедлива и для регуляризации Тихонова в векторнозначной постановке. [8]
Обратите внимание, что матрично-значное ядро также может быть определено скалярным ядром на пространстве . Между гильбертовыми пространствами, связанными с этими двумя ядрами, существует изометрия :
Перспектива гауссовского процесса
Оценщик векторно-значной структуры регуляризации также может быть получен с байесовской точки зрения с использованием методов гауссовского процесса в случае конечномерного воспроизводящего ядра Гильбертова пространства . Вывод аналогичен скалярно-значному случаю байесовской интерпретации регуляризации . Предполагается, что векторно-значная функция , состоящая из выходов , следует гауссовскому процессу:
где теперь — вектор средних функций для выходов, а — положительно определенная матричная функция с записью, соответствующей ковариации между выходами и .
Для набора входов априорное распределение по вектору задается как , где — вектор, который объединяет средние векторы, связанные с выходами, и представляет собой блочно-разделенную матрицу. Распределение выходов принимается гауссовым:
где — диагональная матрица с элементами, определяющими шум для каждого выхода. Используя эту форму для правдоподобия, предсказательное распределение для нового вектора равно:
где — обучающие данные, а — набор гиперпараметров для и .
Тогда можно получить уравнения для и :
где имеет записи для и . Обратите внимание, что предиктор идентичен предиктору, полученному в рамках регуляризации. Для негауссовых правдоподобий необходимы другие методы, такие как приближение Лапласа и вариационные методы, чтобы аппроксимировать оценщики.
Примеры ядер
Разделяемый
Простой, но широко применимый класс многовыходных ядер можно разделить на произведение ядра на входном пространстве и ядра, представляющего корреляции между выходами: [8]
- : скалярное ядро включено
- : скалярное ядро включено
В матричной форме:
где — симметричная и положительно полуопределенная матрица. Обратите внимание, что установка на единичную матрицу рассматривает выходы как несвязанные и эквивалентна решению задач скалярного выхода по отдельности.
Для несколько более общей формы сложение нескольких таких ядер дает сумму разделяемых ядер (ядер SoS).
Из литературы по регуляризации[8][10][12][13][14]
Получено из регуляризатора
Один из способов получения — указать регуляризатор , который ограничивает сложность желаемым образом, а затем вывести соответствующее ядро. Для некоторых регуляризаторов это ядро окажется разделимым.
Регуляризатор смешанного действия
где:
где матрица со всеми элементами, равными 1.
Этот регуляризатор представляет собой комбинацию ограничения сложности каждого компонента оценщика ( ) и принуждения каждого компонента оценщика быть близким к среднему значению всех компонентов. Настройка рассматривает все компоненты как независимые и является тем же самым, что и решение скалярных задач по отдельности. Настройка предполагает, что все компоненты объясняются одной и той же функцией.
Регуляризатор на основе кластера
где:
- это индексный набор компонентов, принадлежащих кластеру
- мощность кластера
- если и оба принадлежат кластеру ( иначе
где
Этот регуляризатор делит компоненты на кластеры и заставляет компоненты в каждом кластере быть похожими.
Регуляризатор графа
где матрица весов, кодирующая сходства между компонентами
где ,
Обратите внимание, это граф лапласиан . См. также: граф ядро .
Извлечено из данных
Было предложено несколько подходов к обучению на основе данных. [8] К ним относятся: выполнение предварительного шага вывода для оценки на основе обучающих данных, [9] предложение об обучении и совместном использовании на основе кластерного регуляризатора, [15] и подходы на основе разреженности, которые предполагают, что необходимы только некоторые из признаков. [16] [17]
Из байесовской литературы
Линейная модель корегионализации (ЛМК)
В LMC выходы выражаются как линейные комбинации независимых случайных функций, так что результирующая ковариационная функция (по всем входам и выходам) является допустимой положительной полуопределенной функцией. Предполагая выходы с , каждый выражается как:
где — скалярные коэффициенты, а независимые функции имеют нулевое среднее значение и ковариацию cov, если и 0 в противном случае. Взаимная ковариация между любыми двумя функциями и может быть записана как:
где функции , при и имеют нулевое среднее значение и ковариацию cov, если и . Но задается выражением . Таким образом, ядро теперь можно выразить как
где каждая из них известна как матрица корегионализации. Таким образом, ядро, полученное из LMC, представляет собой сумму произведений двух функций ковариации, одна из которых моделирует зависимость между выходами независимо от входного вектора (матрица корегионализации ), а другая моделирует зависимость входов независимо от (функция ковариации ).
Модель внутренней корегионализации (ICM)
ICM представляет собой упрощенную версию LMC с . ICM предполагает, что элементы матрицы корегионализации могут быть записаны как , для некоторых подходящих коэффициентов . С этой формой для :
где
В этом случае коэффициенты
и матрица ядра для множественных выходов становится . ICM гораздо более ограничительна, чем LMC, поскольку предполагает, что каждая базовая ковариация вносит равный вклад в построение автоковариаций и перекрестных ковариаций для выходов. Однако вычисления, необходимые для вывода, значительно упрощены.
Полупараметрическая модель латентного фактора (SLFM)
Другой упрощенной версией LMC является полупараметрическая модель латентного фактора (SLFM), которая соответствует настройке (вместо как в ICM). Таким образом, каждая латентная функция имеет свою собственную ковариацию.
Неразделимый
Несмотря на простоту, структура разделяемых ядер может оказаться слишком ограниченной для решения некоторых задач.
Известные примеры неразделимых ядер в литературе по регуляризации включают в себя:
- Матричнозначные экспоненциированные квадратичные (EQ) ядра, предназначенные для оценки векторных полей без дивергенции или без вихрей (или их выпуклой комбинации) [8] [18]
- Ядра, определяемые преобразованиями [8] [19]
В байесовской перспективе LMC производит разделимое ядро, поскольку выходные функции, оцененные в точке, зависят только от значений скрытых функций в . Нетривиальный способ смешивания скрытых функций — это свертывание базового процесса со сглаживающим ядром. Если базовый процесс является гауссовым процессом, свернутый процесс также является гауссовым. Поэтому мы можем использовать свертки для построения ковариационных функций. [20] Этот метод создания неразделимых ядер известен как свертка процесса. Свертки процесса были введены для множественных выходов в сообществе машинного обучения как «зависимые гауссовские процессы». [21]
Выполнение
При реализации алгоритма с использованием любого из вышеперечисленных ядер необходимо учитывать практические соображения по настройке параметров и обеспечению разумного времени вычислений.
Перспектива регуляризации
Подходя с точки зрения регуляризации, настройка параметров похожа на скалярный случай и, как правило, может быть выполнена с помощью перекрестной проверки . Решение требуемой линейной системы обычно требует больших затрат памяти и времени. Если ядро является разделимым, преобразование координат может быть преобразовано в блочно-диагональную матрицу , что значительно снижает вычислительную нагрузку за счет решения D независимых подзадач (плюс собственное разложение ) . В частности, для функции потерь наименьших квадратов (регуляризация Тихонова) существует решение в замкнутой форме для : [8] [14]
Байесовская перспектива
Существует много работ, связанных с оценкой параметров для гауссовых процессов. Некоторые методы, такие как максимизация предельного правдоподобия (также известная как аппроксимация свидетельств, максимальное правдоподобие типа II, эмпирический байесовский метод) и наименьшие квадраты, дают точечные оценки вектора параметров . Существуют также работы, использующие полный байесовский вывод путем назначения априорных значений и вычисления апостериорного распределения с помощью процедуры выборки. Для негауссовых правдоподобий не существует решения в замкнутой форме для апостериорного распределения или для предельного правдоподобия. Однако предельное правдоподобие может быть аппроксимировано в рамках аппроксимации Лапласа, вариационного байесовского метода или метода распространения ожиданий (EP) для множественной классификации выходных данных и использовано для поиска оценок гиперпараметров.
Основная вычислительная проблема с байесовской точки зрения та же самая, что и в теории регуляризации при обращении матрицы.
Этот шаг необходим для вычисления предельного правдоподобия и предсказательного распределения. Для большинства предлагаемых методов аппроксимации для сокращения вычислений полученная вычислительная эффективность не зависит от конкретного метода (например, LMC, свертка процессов), используемого для вычисления матрицы ковариации с несколькими выходами. Краткое изложение различных методов для снижения вычислительной сложности в гауссовых процессах с несколькими выходами представлено в. [8]
Ссылки
- ^ SJ Pan и Q. Yang, «Обзор трансферного обучения», IEEE Transactions on Knowledge and Data Engineering, 22, 2010
- ^ Рич Каруана, «Многозадачное обучение», Машинное обучение, 41–76, 1997
- ^ J. Ver Hoef и R. Barry, «Построение и подгонка моделей для кокригинга и многомерного пространственного прогнозирования [ нерабочая ссылка ] », Журнал статистического планирования и вывода, 69:275–294, 1998
- ^ П. Гувертс, «Геостатистика для оценки природных ресурсов», Oxford University Press, США, 1997
- ^ Н. Кресси «Статистика пространственных данных», John Wiley & Sons Inc. (пересмотренное издание), США, 1993 г.
- ^ CA Micchelli и M. Pontil, «Об изучении векторнозначных функций», Neural Computation, 17:177–204, 2005
- ^ C. Carmeli et al., "Векторнозначные воспроизводящие ядра гильбертовых пространств интегрируемых функций и теорема Мерсера", Anal. Appl. (Singap.), 4
- ^ abcdefghijk Маурисио А. Альварес, Лоренцо Росаско и Нил Д. Лоуренс, «Ядра векторных функций: обзор», Основы и тенденции в машинном обучении 4, вып. 3 (2012): 195–266. doi: 10.1561/2200000036 arXiv:1106.6251
- ^ аб Ганс Вакернагель. Многомерная геостатистика. Springer-Verlag Heidelberg, Нью-Йорк, 2003 г.
- ^ ab CA Micchelli и M. Pontil. Об обучении векторнозначных функций. Neural Computation, 17:177–204, 2005.
- ^ C.Carmeli, E.DeVito и A.Toigo. Векторнозначные воспроизводящие ядра гильбертовых пространств интегрируемых функций и теорема Мерсера. Anal. Appl. (Singap.), 4(4):377–408, 2006.
- ^ CA Micchelli и M. Pontil. Ядра для многозадачного обучения. В Advances in Neural Information Processing Systems (NIPS). MIT Press, 2004.
- ^ T.Evgeniou, CAMicchelli и M.Pontil. Изучение нескольких задач с помощью методов ядра. Журнал исследований машинного обучения, 6:615–637, 2005.
- ^ ab L. Baldassarre, L. Rosasco, A. Barla и A. Verri. Многовыходное обучение с помощью спектральной фильтрации. Технический отчет, Массачусетский технологический институт, 2011. MIT-CSAIL-TR-2011-004, CBCL-296.
- ^ Лоран Жакоб, Фрэнсис Бах и Жан-Филипп Вер. Кластерное многозадачное обучение: выпуклая формулировка. В NIPS 21, страницы 745–752, 2008.
- ^ Андреас Аргириу, Теодорос Эвгениу и Массимилиано Понтил. Выпуклое многозадачное обучение признаков. Машинное обучение, 73(3):243–272, 2008.
- ^ Андреас Аргириу, Андреас Маурер и Массимилиано Понтил. Алгоритм для переноса обучения в гетерогенной среде. В ECML/PKDD (1), страницы 71–85, 2008.
- ^ И. Маседо и Р. Кастро. Изучение векторных полей без дивергенций и роторов с матричными ядрами. Технический отчет, Instituto Nacional de Matematica Pura e Aplicada, 2008 г.
- ^ А. Капоннетто, К. А. Микелли, М. Понтил и И. Ин. Универсальные ядра для многозадачного обучения. Журнал исследований машинного обучения, 9:1615–1646, 2008.
- ^ Д. Хигдон, «Пространственное и пространственно-временное моделирование с использованием сверток процессов», Количественные методы для современных экологических проблем, 37–56, 2002
- ^ П. Бойл и М. Фреан, «Зависимые гауссовские процессы», Достижения в области нейронных систем обработки информации, 17:217–224, MIT Press, 2005