Встраивание ядра в дистрибутивы

В машинном обучении встраивание распределений в ядро (также называемое средним значением ядра или картой средних значений ) представляет собой класс непараметрических методов, в которых распределение вероятностей представляется как элемент воспроизводящего ядра гильбертова пространства (RKHS). ^[1] Обобщение отображения признаков отдельных точек данных, выполненного в классических ядерных методах , встраивание распределений в бесконечномерные пространства признаков может сохранять все статистические признаки произвольных распределений, позволяя при этом сравнивать и манипулировать распределениями с помощью операций в гильбертовом пространстве, таких как внутренние произведения , расстояния, проекции , линейные преобразования и спектральный анализ . ^[2] Эта структура обучения является очень общей и может применяться к распределениям в любом пространстве, на котором может быть определена разумная функция ядра (измеряющая сходство между элементами ). Например, были предложены различные ядра для обучения на основе данных, которые представляют собой: векторы в , дискретные классы/категории, строки , графы / сети , изображения, временные ряды , многообразия , динамические системы и другие структурированные объекты. ^[3]^[4] Теория, лежащая в основе вложений ядер распределений, была в основном разработана Алексом Смолой, Ле Сонгом, Артуром Греттоном и Бернхардом Шёлькопфом . Обзор последних работ по вложению ядер распределений можно найти в. ^[5] $\Omega$ $\Omega$ $\mathbb {R} ^{d}$

Анализ распределений является основополагающим в машинном обучении и статистике , и многие алгоритмы в этих областях опираются на информационные теоретические подходы, такие как энтропия , взаимная информация или расхождение Кульбака-Лейблера . Однако для оценки этих величин сначала необходимо либо выполнить оценку плотности, либо использовать сложные стратегии разбиения пространства/коррекции смещения, которые обычно невыполнимы для многомерных данных. ^[6] Обычно методы моделирования сложных распределений опираются на параметрические предположения, которые могут быть необоснованными или сложными в вычислительном отношении (например, модели гауссовой смеси ), в то время как непараметрические методы, такие как оценка плотности ядра (Примечание: сглаживающие ядра в этом контексте имеют другую интерпретацию, чем ядра, обсуждаемые здесь) или представление характеристической функции (через преобразование Фурье распределения), не работают в многомерных условиях. ^[2]

Методы, основанные на встраивании дистрибутивов в ядро, обходят эти проблемы, а также обладают следующими преимуществами: ^[6]

Данные могут быть смоделированы без ограничительных предположений о форме распределений и взаимосвязях между переменными.
Промежуточная оценка плотности не требуется.
Практикующие специалисты могут указать свойства распределения, наиболее соответствующие их проблеме (используя предыдущие знания посредством выбора ядра).
Если используется характеристическое ядро, то вложение может однозначно сохранить всю информацию о распределении, в то время как благодаря трюку с ядром вычисления на потенциально бесконечномерном RKHS могут быть реализованы на практике как простые операции с матрицей Грама .
Можно доказать не зависящие от размерности скорости сходимости эмпирического среднего ядра (оцененного с использованием выборок из распределения) к ядерному вложению истинного базового распределения.
Алгоритмы обучения, основанные на этой структуре, демонстрируют хорошую обобщающую способность и конечную выборочную сходимость, при этом часто являясь более простыми и эффективными, чем методы теории информации.

Таким образом, обучение посредством внедрения распределений в ядро предлагает принципиальную замену подходам теории информации и является структурой, которая не только включает в себя многие популярные методы машинного обучения и статистики как частные случаи, но и может привести к совершенно новым алгоритмам обучения.

Определения

Пусть обозначает случайную величину с областью определения и распределением . При заданном симметричном, положительно определенном ядре теорема Мура–Ароншайна утверждает существование единственного RKHS на ( гильбертовом пространстве функций, снабженном скалярным произведением и нормой ), для которого есть воспроизводящее ядро, т.е. в котором элемент удовлетворяет воспроизводящему свойству $X$ $\Omega$ $P$ $k:\Omega \times \Omega \rightarrow \mathbb {R}$ ${\mathcal {H}}$ $\Omega$ $f:\Omega \to \mathbb {R}$ $\langle \cdot ,\cdot \rangle _{\mathcal {H}}$ $\|\cdot \|_{\mathcal {H}}$ $k$ $k(x,\cdot )$

\langle f,k(x,\cdot )\rangle _{\mathcal {H}}=f(x)\qquad \forall f\in {\mathcal {H}},\quad \forall x\in \Omega .

В качестве альтернативы можно рассматривать неявное отображение признаков (которое поэтому также называется пространством признаков), так что его можно рассматривать как меру сходства между точками. Хотя мера сходства линейна в пространстве признаков, она может быть весьма нелинейной в исходном пространстве в зависимости от выбора ядра. $x\mapsto k(x,\cdot )$ $\varphi :\Omega \rightarrow {\mathcal {H}}$ $k(x,x')=\langle \varphi (x),\varphi (x')\rangle _{\mathcal {H}}$ $x,x'\in \Omega .$

Встраивание ядра

Ядерное вложение распределения (также называемое средним значением ядра или картой средних значений ) определяется по формуле: [ ^1] $P$ ${\mathcal {H}}$

\mu _{X}:=\mathbb {E} [k(X,\cdot )]=\mathbb {E} [\varphi (X)]=\int _{\Omega }\varphi (x)\ \mathrm {d} P(x)

Если допускает квадратично интегрируемую плотность , то , где — интегральный оператор Гильберта–Шмидта . Ядро является характеристическим, если среднее вложение инъективно. ^[7] Таким образом, каждое распределение может быть уникально представлено в RKHS, и все статистические особенности распределений сохраняются при вложении ядра, если используется характеристическое ядро. $P$ $p$ $\mu _{X}={\mathcal {E}}_{k}p$ ${\mathcal {E}}_{k}$ $\mu :\{{\text{family of distributions over }}\Omega \}\to {\mathcal {H}}$

Эмпирическое встраивание ядра

Приведенные обучающие примеры, взятые независимо и одинаково распределенные (iid) из ядра, можно эмпирически оценить как $n$ $\{x_{1},\ldots ,x_{n}\}$ $P,$ $P$

{\widehat {\mu }}_{X}={\frac {1}{n}}\sum _{i=1}^{n}\varphi (x_{i})

Совместное распределение встраивания

Если обозначает другую случайную величину (для простоты предположим, что область определения также имеет то же ядро , которое удовлетворяет ), то совместное распределение можно отобразить в пространство признаков тензорного произведения с помощью ^[2] $Y$ $Y$ $\Omega$ $k$ $\langle \varphi (x)\otimes \varphi (y),\varphi (x')\otimes \varphi (y')\rangle =k(x,x')k(y,y')$ $P(x,y))$ ${\mathcal {H}}\otimes {\mathcal {H}}$

{\mathcal {C}}_{XY}=\mathbb {E} [\varphi (X)\otimes \varphi (Y)]=\int _{\Omega \times \Omega }\varphi (x)\otimes \varphi (y)\ \mathrm {d} P(x,y)

В силу эквивалентности тензора и линейного отображения это совместное вложение можно интерпретировать как нецентрированный оператор кросс-ковариации , из которого кросс-ковариация функций может быть вычислена как ^[8] ${\mathcal {C}}_{XY}:{\mathcal {H}}\to {\mathcal {H}}$ $f,g\in {\mathcal {H}}$

\operatorname {Cov} (f(X),g(Y)):=\mathbb {E} [f(X)g(Y)]-\mathbb {E} [f(X)]\mathbb {E} [g(Y)]=\langle f,{\mathcal {C}}_{XY}g\rangle _{\mathcal {H}}=\langle f\otimes g,{\mathcal {C}}_{XY}\rangle _{{\mathcal {H}}\otimes {\mathcal {H}}}

Учитывая пары обучающих примеров, взятых из iid , мы также можем эмпирически оценить вложение ядра совместного распределения с помощью $n$ $\{(x_{1},y_{1}),\dots ,(x_{n},y_{n})\}$ $P$

{\widehat {\mathcal {C}}}_{XY}={\frac {1}{n}}\sum _{i=1}^{n}\varphi (x_{i})\otimes \varphi (y_{i})

Вложение условного распределения

Учитывая условное распределение, можно определить соответствующее вложение RKHS как ^[2] $P(y\mid x),$

\mu _{Y\mid x}=\mathbb {E} [\varphi (Y)\mid X]=\int _{\Omega }\varphi (y)\ \mathrm {d} P(y\mid x)

Обратите внимание, что вложение таким образом определяет семейство точек в RKHS, индексированных значениями, принимаемыми переменной условия . Фиксируя определенное значение, мы получаем один элемент в , и поэтому естественно определить оператор $P(y\mid x)$ $x$ $X$ $X$ ${\mathcal {H}}$

{\begin{cases}{\mathcal {C}}_{Y\mid X}:{\mathcal {H}}\to {\mathcal {H}}\\{\mathcal {C}}_{Y\mid X}={\mathcal {C}}_{YX}{\mathcal {C}}_{XX}^{-1}\end{cases}}

который, учитывая отображение признаков, выводит условное вложение заданного Предполагая, что для всех можно показать, что ^[8] $x$ $Y$ $X=x.$ $g\in {\mathcal {H}}:\mathbb {E} [g(Y)\mid X]\in {\mathcal {H}},$

\mu _{Y\mid x}={\mathcal {C}}_{Y\mid X}\varphi (x)

Это предположение всегда верно для конечных областей с характеристическими ядрами, но не обязательно справедливо для непрерывных областей. ^[2] Тем не менее, даже в случаях, когда предположение не выполняется, его все равно можно использовать для аппроксимации условного вложения ядра , и на практике оператор инверсии заменяется его регуляризованной версией (где обозначает единичную матрицу ). ${\mathcal {C}}_{Y\mid X}\varphi (x)$ $\mu _{Y\mid x},$ $({\mathcal {C}}_{XX}+\lambda \mathbf {I} )^{-1}$ $\mathbf {I}$

При наличии обучающих примеров оператор условного встраивания эмпирического ядра можно оценить как ^[2] $\{(x_{1},y_{1}),\dots ,(x_{n},y_{n})\},$

{\widehat {C}}_{Y\mid X}={\boldsymbol {\Phi }}(\mathbf {K} +\lambda \mathbf {I} )^{-1}{\boldsymbol {\Upsilon }}^{T}

где — неявно сформированные матрицы признаков, — матрица Грама для образцов , а — параметр регуляризации, необходимый для предотвращения переобучения . ${\boldsymbol {\Phi }}=\left(\varphi (y_{1}),\dots ,\varphi (y_{n})\right),{\boldsymbol {\Upsilon }}=\left(\varphi (x_{1}),\dots ,\varphi (x_{n})\right)$ $\mathbf {K} ={\boldsymbol {\Upsilon }}^{T}{\boldsymbol {\Upsilon }}$ $X$ $\lambda$

Таким образом, эмпирическая оценка условного вложения ядра дается взвешенной суммой выборок в пространстве признаков: $Y$

{\widehat {\mu }}_{Y\mid x}=\sum _{i=1}^{n}\beta _{i}(x)\varphi (y_{i})={\boldsymbol {\Phi }}{\boldsymbol {\beta }}(x)

где и ${\boldsymbol {\beta }}(x)=(\mathbf {K} +\lambda \mathbf {I} )^{-1}\mathbf {K} _{x}$ $\mathbf {K} _{x}=\left(k(x_{1},x),\dots ,k(x_{n},x)\right)^{T}$

Характеристики

Ожидание любой функции в RKHS можно вычислить как внутреннее произведение с использованием вложения ядра: $f$

\mathbb {E} [f(X)]=\langle f,\mu _{X}\rangle _{\mathcal {H}}

При наличии больших размеров выборки манипуляции с матрицей Грама могут быть вычислительно требовательны. Благодаря использованию низкоранговой аппроксимации матрицы Грама (такой как неполная факторизация Холецкого ), время выполнения и требования к памяти алгоритмов обучения на основе встраивания ядра могут быть радикально сокращены без большой потери точности аппроксимации. ^[2] $n\times n$

Сходимость эмпирического ядра среднего к истинному распределению вложения

Если определено таким образом, что принимает значения для всех с (как в случае широко используемых ядер радиальных базисных функций ), то с вероятностью не менее : ^[6] $k$ $f$ $[0,1]$ $f\in {\mathcal {H}}$ $\|f\|_{\mathcal {H}}\leq 1$ $1-\delta$

\|\mu _{X}-{\widehat {\mu }}_{X}\|_{\mathcal {H}}=\sup _{f\in {\mathcal {B}}(0,1)}\left|\mathbb {E} [f(X)]-{\frac {1}{n}}\sum _{i=1}^{n}f(x_{i})\right|\leq {\frac {2}{n}}\mathbb {E} \left[{\sqrt {\operatorname {tr} K}}\right]+{\sqrt {\frac {\log(2/\delta )}{2n}}}

где обозначает единичный шар в и является матрицей Грама с

{\mathcal {B}}(0,1)

{\mathcal {H}}

\mathbf {K} =(k_{ij})

k_{ij}=k(x_{i},x_{j}).

Скорость сходимости (в норме RKHS) эмпирического ядра, вложенного в его распределение, равна и не зависит от размерности . $O(n^{-1/2})$ $X$
Таким образом, статистика, основанная на ядерных вложениях, позволяет избежать проклятия размерности , и хотя истинное базовое распределение на практике неизвестно, можно (с высокой вероятностью) получить приближение в пределах истинного ядерных вложений на основе конечной выборки размера . $O(n^{-1/2})$ $n$
Для встраивания условных распределений эмпирическую оценку можно рассматривать как средневзвешенное значение отображений признаков (где веса зависят от значения переменной обусловливания и отражают влияние обусловливания на встраивание ядра). В этом случае эмпирическая оценка сходится к встраиванию условного распределения RKHS со скоростью, если параметр регуляризации уменьшается, как будто более высокие скорости сходимости могут быть достигнуты путем размещения дополнительных предположений на совместном распределении. ^[2] $\beta _{i}(x)$ $O\left(n^{-1/4}\right)$ $\lambda$ $O\left(n^{-1/2}\right),$

Универсальные ядра

Пусть — компактное метрическое пространство и множество непрерывных функций . Воспроизводящее ядро называется универсальным тогда и только тогда, когда RKHS плотен в , т.е. для любого и всех существует такое, что . ^{[9] Все универсальные ядра}, определенные на компактном пространстве, являются характеристическими ядрами, но обратное не всегда верно. ^[10] ${\mathcal {X}}$ $C({\mathcal {X}})$ $k:{\mathcal {X}}\times {\mathcal {X}}\rightarrow \mathbb {R}$ ${\mathcal {H}}$ $k$ $C({\mathcal {X}})$ $g\in C({\mathcal {X}})$ $\varepsilon >0$ $f\in {\mathcal {H}}$ $\|f-g\|_{\infty }\leq \varepsilon$
Пусть — непрерывное инвариантное относительно трансляции ядро с . Тогда теорема Бохнера гарантирует существование единственной конечной борелевской меры (называемой спектральной мерой ) на такой, что $k$ $k(x,x')=h(x-x')$ $x\in \mathbb {R} ^{b}$ $\mu$ $\mathbb {R} ^{b}$

h(t)=\int _{\mathbb {R} ^{b}}e^{-i\langle t,\omega \rangle }d\mu (\omega ),\quad \forall t\in \mathbb {R} ^{b}.

Для универсальности достаточно, чтобы непрерывная часть в ее единственном разложении Лебега была ненулевой. Кроме того, если

k

\mu

\mu =\mu _{c}+\mu _{s}

d\mu _{c}(\omega )=s(\omega )d\omega ,

тогда — спектральная плотность частот в и — преобразование Фурье . Если носитель — все , то — также характеристическое ядро. ^[11]^[12]^[13]

s

\omega

\mathbb {R} ^{b}

h

s

\mu

\mathbb {R} ^{b}

k

Если индуцирует строго положительно определенную матрицу ядра для любого набора различных точек, то это универсальное ядро. ^[6] Например, широко используемое ядро гауссовского RBF $k$

k(x,x')=\exp \left(-{\frac {1}{2\sigma ^{2}}}\|x-x'\|^{2}\right)

на компактных подмножествах является универсальным.

\mathbb {R} ^{d}

Выбор параметров для встраивания ядра условного распределения

Оператор вложения условного распределения эмпирического ядра можно также рассматривать как решение следующей регуляризованной задачи регрессии с наименьшими квадратами (функционально-значной) ^[14] ${\widehat {\mathcal {C}}}_{Y|X}$

\min _{{\mathcal {C}}:{\mathcal {H}}\to {\mathcal {H}}}\sum _{i=1}^{n}\left\|\varphi (y_{i})-{\mathcal {C}}\varphi (x_{i})\right\|_{\mathcal {H}}^{2}+\lambda \|{\mathcal {C}}\|_{HS}^{2}

где — норма Гильберта–Шмидта .

\|\cdot \|_{HS}

Таким образом, можно выбрать параметр регуляризации , выполнив перекрестную проверку на основе квадратичной функции потерь задачи регрессии. $\lambda$

Правила вероятности как операции в RKHS

В этом разделе показано, как основные вероятностные правила могут быть переформулированы как (мульти)линейные алгебраические операции в рамках встраивания ядра, и он в первую очередь основан на работе Сонга и др. ^[2]^[8]. Приняты следующие обозначения:

$P(X,Y)=$ совместное распределение случайных величин $X,Y$
$P(X)=\int _{\Omega }P(X,\mathrm {d} y)=$ предельное распределение ; предельное распределение $X$ $P(Y)=$ $Y$

$P(Y\mid X)={\frac {P(X,Y)}{P(X)}}=$ условное распределение заданного с соответствующим условным оператором вложения $Y$ $X$ ${\mathcal {C}}_{Y\mid X}$
$\pi (Y)=$ предварительное распределение по $Y$
$Q$ используется для различения распределений, которые включают априорные данные, от распределений , которые не полагаются на априорные данные $P$

На практике все вложения оцениваются эмпирически на основе данных , и предполагается, что набор выборок может быть использован для оценки вложения ядра априорного распределения . $\{(x_{1},y_{1}),\dots ,(x_{n},y_{n})\}$ $\{{\widetilde {y}}_{1},\ldots ,{\widetilde {y}}_{\widetilde {n}}\}$ $\pi (Y)$

Правило суммы ядра

В теории вероятностей предельное распределение можно вычислить путем интегрирования из совместной плотности (включая априорное распределение по ) $X$ $Y$ $Y$

Q(X)=\int _{\Omega }P(X\mid Y)\,\mathrm {d} \pi (Y)

Аналог этого правила в фреймворке встраивания ядра гласит, что встраивание RKHS может быть вычислено с помощью $\mu _{X}^{\pi },$ $Q(X)$

\mu _{X}^{\pi }=\mathbb {E} [{\mathcal {C}}_{X\mid Y}\varphi (Y)]={\mathcal {C}}_{X\mid Y}\mathbb {E} [\varphi (Y)]={\mathcal {C}}_{X\mid Y}\mu _{Y}^{\pi }

где - вложение ядра В практических реализациях правило суммы ядра принимает следующий вид $\mu _{Y}^{\pi }$ $\pi (Y).$

{\widehat {\mu }}_{X}^{\pi }={\widehat {\mathcal {C}}}_{X\mid Y}{\widehat {\mu }}_{Y}^{\pi }={\boldsymbol {\Upsilon }}(\mathbf {G} +\lambda \mathbf {I} )^{-1}{\widetilde {\mathbf {G} }}{\boldsymbol {\alpha }}

где

\mu _{Y}^{\pi }=\sum _{i=1}^{\widetilde {n}}\alpha _{i}\varphi ({\widetilde {y}}_{i})

— эмпирическое ядро вложения априорного распределения, и — матрицы Грама с записями соответственно. ${\boldsymbol {\alpha }}=(\alpha _{1},\ldots ,\alpha _{\widetilde {n}})^{T},$ ${\boldsymbol {\Upsilon }}=\left(\varphi (x_{1}),\ldots ,\varphi (x_{n})\right)$ $\mathbf {G} ,{\widetilde {\mathbf {G} }}$ $\mathbf {G} _{ij}=k(y_{i},y_{j}),{\widetilde {\mathbf {G} }}_{ij}=k(y_{i},{\widetilde {y}}_{j})$

Правило цепочки ядра

В теории вероятностей совместное распределение можно разложить на произведение условных и предельных распределений.

Q(X,Y)=P(X\mid Y)\pi (Y)

Аналог этого правила в структуре вложения ядра утверждает, что совместное вложение может быть факторизовано как композиция оператора условного вложения с оператором автоковариации, связанным с ${\mathcal {C}}_{XY}^{\pi },$ $Q(X,Y),$ $\pi (Y)$

{\mathcal {C}}_{XY}^{\pi }={\mathcal {C}}_{X\mid Y}{\mathcal {C}}_{YY}^{\pi }

где

{\mathcal {C}}_{XY}^{\pi }=\mathbb {E} [\varphi (X)\otimes \varphi (Y)],

{\mathcal {C}}_{YY}^{\pi }=\mathbb {E} [\varphi (Y)\otimes \varphi (Y)].

В практической реализации правило цепочки ядра принимает следующий вид:

{\widehat {\mathcal {C}}}_{XY}^{\pi }={\widehat {\mathcal {C}}}_{X\mid Y}{\widehat {\mathcal {C}}}_{YY}^{\pi }={\boldsymbol {\Upsilon }}(\mathbf {G} +\lambda \mathbf {I} )^{-1}{\widetilde {\mathbf {G} }}\operatorname {diag} ({\boldsymbol {\alpha }}){\boldsymbol {\widetilde {\Phi }}}^{T}

Правило Байеса ядра

В теории вероятностей апостериорное распределение можно выразить через априорное распределение и функцию правдоподобия следующим образом:

Q(Y\mid x)={\frac {P(x\mid Y)\pi (Y)}{Q(x)}}

где

Q(x)=\int _{\Omega }P(x\mid y)\,\mathrm {d} \pi (y)

Аналог этого правила в фреймворке встраивания ядра выражает встраивание ядра условного распределения в терминах операторов встраивания условия, которые изменяются предыдущим распределением.

\mu _{Y\mid x}^{\pi }={\mathcal {C}}_{Y\mid X}^{\pi }\varphi (x)={\mathcal {C}}_{YX}^{\pi }\left({\mathcal {C}}_{XX}^{\pi }\right)^{-1}\varphi (x)

где из цепного правила:

{\mathcal {C}}_{YX}^{\pi }=\left({\mathcal {C}}_{X\mid Y}{\mathcal {C}}_{YY}^{\pi }\right)^{T}.

В практических реализациях ядро правила Байеса принимает следующий вид:

{\widehat {\mu }}_{Y\mid x}^{\pi }={\widehat {\mathcal {C}}}_{YX}^{\pi }\left(\left({\widehat {\mathcal {C}}}_{XX}\right)^{2}+{\widetilde {\lambda }}\mathbf {I} \right)^{-1}{\widehat {\mathcal {C}}}_{XX}^{\pi }\varphi (x)={\widetilde {\boldsymbol {\Phi }}}{\boldsymbol {\Lambda }}^{T}\left((\mathbf {D} \mathbf {K} )^{2}+{\widetilde {\lambda }}\mathbf {I} \right)^{-1}\mathbf {K} \mathbf {D} \mathbf {K} _{x}

где

{\boldsymbol {\Lambda }}=\left(\mathbf {G} +{\widetilde {\lambda }}\mathbf {I} \right)^{-1}{\widetilde {\mathbf {G} }}\operatorname {diag} ({\boldsymbol {\alpha }}),\qquad \mathbf {D} =\operatorname {diag} \left(\left(\mathbf {G} +{\widetilde {\lambda }}\mathbf {I} \right)^{-1}{\widetilde {\mathbf {G} }}{\boldsymbol {\alpha }}\right).

В этой структуре используются два параметра регуляризации: для оценки и для оценки конечного условного оператора встраивания $\lambda$ ${\widehat {\mathcal {C}}}_{YX}^{\pi },{\widehat {\mathcal {C}}}_{XX}^{\pi }={\boldsymbol {\Upsilon }}\mathbf {D} {\boldsymbol {\Upsilon }}^{T}$ ${\widetilde {\lambda }}$

{\widehat {\mathcal {C}}}_{Y\mid X}^{\pi }={\widehat {\mathcal {C}}}_{YX}^{\pi }\left(\left({\widehat {\mathcal {C}}}_{XX}^{\pi }\right)^{2}+{\widetilde {\lambda }}\mathbf {I} \right)^{-1}{\widehat {\mathcal {C}}}_{XX}^{\pi }.

Последняя регуляризация выполняется на квадрате , поскольку может не быть положительно определенной . ${\widehat {\mathcal {C}}}_{XX}^{\pi }$ $D$

Приложения

Измерение расстояния между распределениями

Максимальное среднее расхождение (MMD) является мерой расстояния между распределениями и определяется как расстояние между их вложениями в RKHS ^[6] $P(X)$ $Q(Y)$

{\text{MMD}}(P,Q)=\left\|\mu _{X}-\mu _{Y}\right\|_{\mathcal {H}}.

В то время как большинство мер расстояния между распределениями, таких как широко используемое расхождение Кульбака-Лейблера, требуют либо оценки плотности (параметрически или непараметрически), либо стратегий разбиения пространства/коррекции смещения, ^[6] MMD легко оценивается как эмпирическое среднее, которое концентрируется вокруг истинного значения MMD. Характеристика этого расстояния как максимального среднего расхождения относится к тому факту, что вычисление MMD эквивалентно нахождению функции RKHS, которая максимизирует разницу в ожиданиях между двумя распределениями вероятностей

{\text{MMD}}(P,Q)=\sup _{\|f\|_{\mathcal {H}}\leq 1}\left(\mathbb {E} [f(X)]-\mathbb {E} [f(Y)]\right),

форма интегральной вероятностной метрики .

Ядерный двухвыборочный тест

При наличии n обучающих примеров из и m выборок из можно сформулировать тестовую статистику на основе эмпирической оценки MMD $P(X)$ $Q(Y)$

{\begin{aligned}{\widehat {\text{MMD}}}(P,Q)&=\left\|{\frac {1}{n}}\sum _{i=1}^{n}\varphi (x_{i})-{\frac {1}{m}}\sum _{i=1}^{m}\varphi (y_{i})\right\|_{\mathcal {H}}^{2}\\[5pt]&={\frac {1}{n^{2}}}\sum _{i=1}^{n}\sum _{j=1}^{n}k(x_{i},x_{j})+{\frac {1}{m^{2}}}\sum _{i=1}^{m}\sum _{j=1}^{m}k(y_{i},y_{j})-{\frac {2}{nm}}\sum _{i=1}^{n}\sum _{j=1}^{m}k(x_{i},y_{j})\end{aligned}}

для получения двухвыборочного теста ^[15] нулевой гипотезы о том, что обе выборки происходят из одного и того же распределения (т.е. ) против широкой альтернативы . $P=Q$ $P\neq Q$

Оценка плотности с помощью встраивания ядра

Хотя алгоритмы обучения в фреймворке встраивания ядра обходят необходимость промежуточной оценки плотности, тем не менее можно использовать эмпирическое встраивание для выполнения оценки плотности на основе n выборок, взятых из базового распределения . Это можно сделать, решив следующую задачу оптимизации ^[6]^[16] $P_{X}^{*}$

\max _{P_{X}}H(P_{X})

при условии

\|{\widehat {\mu }}_{X}-\mu _{X}[P_{X}]\|_{\mathcal {H}}\leq \varepsilon

где максимизация выполняется по всему пространству распределений на Здесь, - это вложение ядра предлагаемой плотности и - энтропийно-подобная величина (например, Энтропия , расхождение KL , расхождение Брегмана ). Распределение, которое решает эту оптимизацию, можно интерпретировать как компромисс между хорошей подгонкой эмпирических ядерных средних значений выборок и при этом распределением значительной части вероятностной массы по всем областям вероятностного пространства (большая часть которых может быть не представлена в обучающих примерах). На практике хорошее приближенное решение сложной оптимизации можно найти, ограничив пространство плотностей кандидатов смесью M распределений кандидатов с регуляризованными пропорциями смешивания. Связи между идеями, лежащими в основе гауссовских процессов , и условными случайными полями можно установить с помощью оценки условных распределений вероятностей таким образом, если рассматривать отображения признаков, связанные с ядром, как достаточную статистику в обобщенных (возможно, бесконечномерных) экспоненциальных семействах . ^[6] $\Omega .$ $\mu _{X}[P_{X}]$ $P_{X}$ $H$

Измерение зависимости случайных величин

Мера статистической зависимости между случайными величинами и (из любых областей, на которых могут быть определены разумные ядра) может быть сформулирована на основе критерия независимости Гильберта-Шмидта ^[17] $X$ $Y$

{\text{HSIC}}(X,Y)=\left\|{\mathcal {C}}_{XY}-\mu _{X}\otimes \mu _{Y}\right\|_{{\mathcal {H}}\otimes {\mathcal {H}}}^{2}

и может использоваться как принципиальная замена взаимной информации , корреляции Пирсона или любой другой меры зависимости, используемой в алгоритмах обучения. В частности, HSIC может обнаруживать произвольные зависимости (когда характеристическое ядро используется во вложениях, HSIC равен нулю тогда и только тогда, когда переменные независимы ), и может использоваться для измерения зависимости между различными типами данных (например, изображениями и текстовыми подписями). При наличии n iid выборок каждой случайной величины простая несмещенная оценка HSIC без параметров, которая демонстрирует концентрацию вокруг истинного значения, может быть вычислена во времени, ^[6] где матрицы Грама двух наборов данных аппроксимируются с помощью . Желаемые свойства HSIC привели к формулировке многочисленных алгоритмов, которые используют эту меру зависимости для различных общих задач машинного обучения, таких как: выбор признаков (BAHSIC ^[18] ), кластеризация (CLUHSIC ^[19] ) и снижение размерности (MUHSIC ^[20] ). $O(n(d_{f}^{2}+d_{g}^{2}))$ $\mathbf {A} \mathbf {A} ^{T},\mathbf {B} \mathbf {B} ^{T}$ $\mathbf {A} \in \mathbb {R} ^{n\times d_{f}},\mathbf {B} \in \mathbb {R} ^{n\times d_{g}}$

HSIC может быть расширен для измерения зависимости нескольких случайных величин. Вопрос о том, когда HSIC захватывает независимость в этом случае, недавно изучался: ^[21] для более чем двух переменных

на : характеристическое свойство отдельных ядер остается эквивалентным состоянием. $\mathbb {R} ^{d}$
в общих областях: характеристическое свойство компонентов ядра необходимо, но недостаточно .

Распространение убеждений ядра

Распространение убеждений является фундаментальным алгоритмом вывода в графических моделях , в которых узлы многократно передают и получают сообщения, соответствующие оценке условных ожиданий. В фреймворке встраивания ядра сообщения могут быть представлены как функции RKHS, а встраивания условного распределения могут применяться для эффективного вычисления обновлений сообщений. При наличии n выборок случайных величин, представленных узлами в марковском случайном поле , входящее сообщение узлу t от узла u может быть выражено как

m_{ut}(\cdot )=\sum _{i=1}^{n}\beta _{ut}^{i}\varphi (x_{t}^{i})

если предполагается, что он лежит в RKHS. Сообщение обновления распространения убеждения ядра от t к узлу s тогда задается как ^[2]

{\widehat {m}}_{ts}=\left(\odot _{u\in N(t)\backslash s}\mathbf {K} _{t}{\boldsymbol {\beta }}_{ut}\right)^{T}(\mathbf {K} _{s}+\lambda \mathbf {I} )^{-1}{\boldsymbol {\Upsilon }}_{s}^{T}\varphi (x_{s})

где обозначает поэлементное векторное произведение, — множество узлов, соединенных с t, за исключением узла s , — матрицы Грама выборок из переменных соответственно, а — матрица признаков для выборок из . $\odot$ $N(t)\backslash s$ ${\boldsymbol {\beta }}_{ut}=\left(\beta _{ut}^{1},\dots ,\beta _{ut}^{n}\right)$ $\mathbf {K} _{t},\mathbf {K} _{s}$ $X_{t},X_{s}$ ${\boldsymbol {\Upsilon }}_{s}=\left(\varphi (x_{s}^{1}),\dots ,\varphi (x_{s}^{n})\right)$ $X_{s}$

Таким образом, если входящие сообщения к узлу t являются линейными комбинациями сопоставленных с признаками образцов из , то исходящее сообщение из этого узла также является линейной комбинацией сопоставленных с признаками образцов из . Таким образом, это функциональное представление RKHS обновлений передачи сообщений создает эффективный алгоритм распространения убеждений, в котором потенциалы являются непараметрическими функциями, выведенными из данных, так что можно моделировать произвольные статистические отношения. ^[2] $X_{t}$ $X_{s}$

Непараметрическая фильтрация в скрытых марковских моделях

В скрытой марковской модели (HMM) двумя ключевыми величинами, представляющими интерес, являются вероятности перехода между скрытыми состояниями и вероятности эмиссии для наблюдений. Используя структуру встраивания условного распределения ядра, эти величины могут быть выражены в терминах выборок из HMM. Серьезным ограничением методов встраивания в этой области является необходимость в обучающих выборках, содержащих скрытые состояния, поскольку в противном случае вывод с произвольными распределениями в HMM невозможен. $P(S^{t}\mid S^{t-1})$ $P(O^{t}\mid S^{t})$

Одним из распространенных применений HMM является фильтрация , в которой целью является оценка апостериорного распределения по скрытому состоянию на временном шаге t с учетом истории предыдущих наблюдений из системы. При фильтрации состояние убеждения рекурсивно поддерживается посредством шага прогнозирования (где обновления вычисляются путем исключения предыдущего скрытого состояния), за которым следует шаг кондиционирования (где обновления вычисляются путем применения правила Байеса для условия нового наблюдения). ^[2] Вложение RKHS состояния убеждения на момент времени t+1 может быть рекурсивно выражено как $s^{t}$ $h^{t}=(o^{1},\dots ,o^{t})$ $P(S^{t+1}\mid h^{t+1})$ $P(S^{t+1}\mid h^{t})=\mathbb {E} [P(S^{t+1}\mid S^{t})\mid h^{t}]$ $P(S^{t+1}\mid h^{t},o^{t+1})\propto P(o^{t+1}\mid S^{t+1})P(S^{t+1}\mid h^{t})$

\mu _{S^{t+1}\mid h^{t+1}}={\mathcal {C}}_{S^{t+1}O^{t+1}}^{\pi }\left({\mathcal {C}}_{O^{t+1}O^{t+1}}^{\pi }\right)^{-1}\varphi (o^{t+1})

вычисляя вложения шага прогнозирования через правило суммы ядра и вложения шага кондиционирования через правило Байеса ядра. Предполагая, что дана обучающая выборка, можно на практике оценить $({\widetilde {s}}^{1},\dots ,{\widetilde {s}}^{T},{\widetilde {o}}^{1},\dots ,{\widetilde {o}}^{T})$

{\widehat {\mu }}_{S^{t+1}\mid h^{t+1}}=\sum _{i=1}^{T}\alpha _{i}^{t}\varphi ({\widetilde {s}}^{t})

и фильтрация с внедрением ядра, таким образом, реализуется рекурсивно с использованием следующих обновлений для весов ^[2] ${\boldsymbol {\alpha }}=(\alpha _{1},\dots ,\alpha _{T})$

\mathbf {D} ^{t+1}=\operatorname {diag} \left((G+\lambda \mathbf {I} )^{-1}{\widetilde {G}}{\boldsymbol {\alpha }}^{t}\right)

{\boldsymbol {\alpha }}^{t+1}=\mathbf {D} ^{t+1}\mathbf {K} \left((\mathbf {D} ^{t+1}K)^{2}+{\widetilde {\lambda }}\mathbf {I} \right)^{-1}\mathbf {D} ^{t+1}\mathbf {K} _{o^{t+1}}

где обозначают матрицы Грама и соответственно, — матрица переноса Грама, определяемая как и $\mathbf {G} ,\mathbf {K}$ ${\widetilde {s}}^{1},\dots ,{\widetilde {s}}^{T}$ ${\widetilde {o}}^{1},\dots ,{\widetilde {o}}^{T}$ ${\widetilde {\mathbf {G} }}$ ${\widetilde {\mathbf {G} }}_{ij}=k({\widetilde {s}}_{i},{\widetilde {s}}_{j+1}),$ $\mathbf {K} _{o^{t+1}}=(k({\widetilde {o}}^{1},o^{t+1}),\dots ,k({\widetilde {o}}^{T},o^{t+1}))^{T}.$

Поддержка измерительных машин

Машина опорных мер (SMM) является обобщением машины опорных векторов (SVM), в которой обучающие примеры представляют собой распределения вероятностей, сопряженные с метками . ^[22] SMM решают стандартную задачу двойной оптимизации SVM, используя следующее ожидаемое ядро $\{P_{i},y_{i}\}_{i=1}^{n},\ y_{i}\in \{+1,-1\}$

K\left(P(X),Q(Z)\right)=\langle \mu _{X},\mu _{Z}\rangle _{\mathcal {H}}=\mathbb {E} [k(x,z)]

которое вычисляется в замкнутой форме для многих общих конкретных распределений (таких как распределение Гаусса) в сочетании с популярными ядрами встраивания (например, ядром Гаусса или полиномиальным ядром), или может быть точно эмпирически оценено из выборок iid с помощью $P_{i}$ $k$ $\{x_{i}\}_{i=1}^{n}\sim P(X),\{z_{j}\}_{j=1}^{m}\sim Q(Z)$

{\widehat {K}}(X,Z)={\frac {1}{nm}}\sum _{i=1}^{n}\sum _{j=1}^{m}k(x_{i},z_{j})

При определенных вариантах выбора ядра внедрения SMM, применяемый к обучающим примерам, эквивалентен SVM, обученному на образцах , и, таким образом, SMM можно рассматривать как гибкую SVM, в которой различное зависящее от данных ядро (заданное предполагаемой формой распределения ) может быть размещено в каждой обучающей точке. ^[22] $k$ $\{P_{i},y_{i}\}_{i=1}^{n}$ $\{x_{i},y_{i}\}_{i=1}^{n}$ $P_{i}$

Адаптация домена при ковариате, цели и условном сдвиге

Целью адаптации домена является формулирование алгоритмов обучения, которые хорошо обобщают, когда обучающие и тестовые данные имеют разные распределения. При наличии обучающих примеров и тестового набора , где неизвестны, обычно предполагаются три типа различий между распределением обучающих примеров и тестовым распределением : ^[23]^[24] $\{(x_{i}^{\text{tr}},y_{i}^{\text{tr}})\}_{i=1}^{n}$ $\{(x_{j}^{\text{te}},y_{j}^{\text{te}})\}_{j=1}^{m}$ $y_{j}^{\text{te}}$ $P^{\text{tr}}(X,Y)$ $P^{\text{te}}(X,Y)$

Сдвиг ковариатов , при котором предельное распределение ковариатов изменяется по областям: $P^{\text{tr}}(X)\neq P^{\text{te}}(X)$
Сдвиг цели , при котором предельное распределение результатов изменяется по областям: $P^{\text{tr}}(Y)\neq P^{\text{te}}(Y)$
Условный сдвиг , в котором остается одинаковым во всех доменах, но условные распределения различаются: . В общем случае наличие условного сдвига приводит к некорректной постановке задачи, и для того, чтобы сделать задачу разрешимой, обычно вводят дополнительное предположение о том, что изменяется только при преобразованиях местоположение - масштаб (LS) . $P(Y)$ $P^{\text{tr}}(X\mid Y)\neq P^{\text{te}}(X\mid Y)$ $P(X\mid Y)$ $X$

Используя ядерное встраивание маргинальных и условных распределений, можно сформулировать практические подходы к работе с наличием этих типов различий между учебными и тестовыми доменами. Ковариатный сдвиг может быть учтен путем повторного взвешивания примеров с помощью оценок отношения, полученных непосредственно из ядерных встраиваний маргинальных распределений в каждом домене без какой-либо необходимости явной оценки распределений. ^[24] Целевой сдвиг, который не может быть обработан аналогичным образом, поскольку в тестовом домене нет доступных образцов из , учитывается путем взвешивания обучающих примеров с использованием вектора , который решает следующую задачу оптимизации (где на практике должны использоваться эмпирические приближения) ^[23] $P^{\text{te}}(X)/P^{\text{tr}}(X)$ $X$ $Y$ ${\boldsymbol {\beta }}^{*}(\mathbf {y} ^{\text{tr}})$

\min _{{\boldsymbol {\beta }}(y)}\left\|{\mathcal {C}}_{{(X\mid Y)}^{\text{tr}}}\mathbb {E} [{\boldsymbol {\beta }}(y)\varphi (y^{\text{tr}})]-\mu _{X^{\text{te}}}\right\|_{\mathcal {H}}^{2}

при условии

{\boldsymbol {\beta }}(y)\geq 0,\mathbb {E} [{\boldsymbol {\beta }}(y^{\text{tr}})]=1

Чтобы справиться с условным сдвигом масштаба местоположения, можно выполнить LS-преобразование точек обучения для получения новых преобразованных данных обучения (где обозначает поэлементное векторное произведение). Чтобы гарантировать схожие распределения между новыми преобразованными образцами обучения и тестовыми данными, оцениваются путем минимизации следующего эмпирического расстояния встраивания ядра ^[23] $\mathbf {X} ^{\text{new}}=\mathbf {X} ^{\text{tr}}\odot \mathbf {W} +\mathbf {B}$ $\odot$ $\mathbf {W} ,\mathbf {B}$

\left\|{\widehat {\mu }}_{X^{\text{new}}}-{\widehat {\mu }}_{X^{\text{te}}}\right\|_{\mathcal {H}}^{2}=\left\|{\widehat {\mathcal {C}}}_{(X\mid Y)^{\text{new}}}{\widehat {\mu }}_{Y^{\text{tr}}}-{\widehat {\mu }}_{X^{\text{te}}}\right\|_{\mathcal {H}}^{2}

В общем случае методы встраивания ядра для работы с условным сдвигом LS и целевым сдвигом можно объединить, чтобы найти преобразование с повторным взвешиванием обучающих данных, которое имитирует тестовое распределение, и эти методы могут хорошо работать даже при наличии условных сдвигов, отличных от изменений масштаба местоположения. ^[23]

Обобщение домена посредством представления инвариантных признаков

При наличии N наборов обучающих примеров, выбранных iid из распределений , целью обобщения домена является формулирование алгоритмов обучения, которые хорошо работают на тестовых примерах, выбранных из ранее неизвестного домена , где данные из тестового домена не были доступны во время обучения. Если предполагается, что условные распределения относительно схожи во всех доменах, то обучающийся, способный к обобщению домена, должен оценить функциональную связь между переменными, которая устойчива к изменениям в маргинальных значениях . Основываясь на ядерных вложениях этих распределений, анализ инвариантных компонент домена (DICA) представляет собой метод, который определяет преобразование обучающих данных, которое минимизирует разницу между маргинальными распределениями, сохраняя при этом общее условное распределение, общее для всех обучающих доменов. ^[25] Таким образом, DICA извлекает инварианты , признаки, которые переносятся между доменами, и может рассматриваться как обобщение многих популярных методов сокращения размерности, таких как ядерный главный компонентный анализ , анализ компонентов переноса и обратная регрессия оператора ковариации. ^[25] $P^{(1)}(X,Y),P^{(2)}(X,Y),\ldots ,P^{(N)}(X,Y)$ $P^{*}(X,Y)$ $P(Y\mid X)$ $P(X)$

Определение распределения вероятностей на RKHS с помощью ${\mathcal {P}}$ ${\mathcal {H}}$

{\mathcal {P}}\left(\mu _{X^{(i)}Y^{(i)}}\right)={\frac {1}{N}}\qquad {\text{ for }}i=1,\dots ,N,

DICA измеряет различия между доменами с помощью дисперсии распределения , которая вычисляется как

V_{\mathcal {H}}({\mathcal {P}})={\frac {1}{N}}\operatorname {tr} (\mathbf {G} )-{\frac {1}{N^{2}}}\sum _{i,j=1}^{N}\mathbf {G} _{ij}

где

\mathbf {G} _{ij}=\left\langle \mu _{X^{(i)}},\mu _{X^{(j)}}\right\rangle _{\mathcal {H}}

так же как и матрица Грама над распределениями, из которых отбираются обучающие данные. Находя ортогональное преобразование в низкоразмерное подпространство B (в пространстве признаков), которое минимизирует дисперсию распределения, DICA одновременно гарантирует, что B выравнивается с базами центрального подпространства C, для которого становится независимым от заданного во всех доменах. При отсутствии целевых значений может быть сформулирована неконтролируемая версия DICA, которая находит низкоразмерное подпространство, которое минимизирует дисперсию распределения, одновременно максимизируя дисперсию (в пространстве признаков) во всех доменах (вместо сохранения центрального подпространства). ^[25] $\mathbf {G}$ $N\times N$ $Y$ $X$ $C^{T}X$ $Y$ $X$

Регрессия распределения

В регрессии распределения цель состоит в том, чтобы регрессировать от распределений вероятностей к действительным числам (или векторам). Многие важные задачи машинного обучения и статистики вписываются в эту структуру, включая многоэкземплярное обучение и проблемы оценки точек без аналитического решения (такие как оценка гиперпараметров или энтропии ). На практике наблюдаемыми являются только выборки из выборочных распределений, и оценки должны полагаться на сходства, вычисленные между наборами точек . Регрессия распределения успешно применялась, например, в контролируемом обучении энтропии и прогнозировании аэрозолей с использованием многоспектральных спутниковых изображений. ^[26]

При наличии обучающих данных, где мешок содержит образцы из распределения вероятностей , а выходная метка — , можно решить задачу регрессии распределения, взяв вложения распределений и изучив регрессор из вложений на выходах. Другими словами, можно рассмотреть следующую задачу регрессии ядра гребня ${\left(\{X_{i,n}\}_{n=1}^{N_{i}},y_{i}\right)}_{i=1}^{\ell }$ ${\hat {X_{i}}}:=\{X_{i,n}\}_{n=1}^{N_{i}}$ $X_{i}$ $i^{\text{th}}$ $y_{i}\in \mathbb {R}$ $(\lambda >0)$

J(f)={\frac {1}{\ell }}\sum _{i=1}^{\ell }\left[f\left(\mu _{\hat {X_{i}}}\right)-y_{i}\right]^{2}+\lambda \|f\|_{{\mathcal {H}}(K)}^{2}\to \min _{f\in {\mathcal {H}}(K)},

где

\mu _{{\hat {X}}_{i}}=\int _{\Omega }k(\cdot ,u)\,\mathrm {d} {\hat {X}}_{i}(u)={\frac {1}{N_{i}}}\sum _{n=1}^{N_{i}}k(\cdot ,X_{i,n})

с ядром на домене -s , является ядром на вложенных распределениях и является RKHS, определяемым . Примерами для являются линейное ядро , гауссовское ядро , экспоненциальное ядро , ядро Коши , обобщенное ядро t-Стьюдента или ядро обратных мультиквадрик . $k$ $X_{i}$ $(k:\Omega \times \Omega \to \mathbb {R} )$ $K$ ${\mathcal {H}}(K)$ $K$ $K$ $\left[K(\mu _{P},\mu _{Q})=\langle \mu _{P},\mu _{Q}\rangle _{{\mathcal {H}}(k)}\right]$ $\left[K(\mu _{P},\mu _{Q})=e^{-\left\|\mu _{P}-\mu _{Q}\right\|_{H(k)}^{2}/(2\sigma ^{2})}\right]$ $\left[K(\mu _{P},\mu _{Q})=e^{-\left\|\mu _{P}-\mu _{Q}\right\|_{H(k)}/(2\sigma ^{2})}\right]$ $\left[K(\mu _{P},\mu _{Q})=\left(1+\left\|\mu _{P}-\mu _{Q}\right\|_{H(k)}^{2}/\sigma ^{2}\right)^{-1}\right]$ $\left[K(\mu _{P},\mu _{Q})=\left(1+\left\|\mu _{P}-\mu _{Q}\right\|_{H(k)}^{\sigma }\right)^{-1},(\sigma \leq 2)\right]$ $\left[K(\mu _{P},\mu _{Q})=\left(\left\|\mu _{P}-\mu _{Q}\right\|_{H(k)}^{2}+\sigma ^{2}\right)^{-{\frac {1}{2}}}\right]$

Прогноз нового распределения имеет простую аналитическую форму $({\hat {X}})$

{\hat {y}}{\big (}{\hat {X}}{\big )}=\mathbf {k} [\mathbf {G} +\lambda \ell ]^{-1}\mathbf {y} ,

где , , , . При условиях умеренной регулярности можно показать, что эта оценка является последовательной и может достигать одноэтапной выборочной (как если бы был доступ к истинному -s) минимаксной оптимальной скорости. ^[26] В целевой функции -s являются действительными числами; результаты также могут быть распространены на случай, когда -s являются -мерными векторами или, в более общем случае, элементами сепарабельного гильбертова пространства с использованием операторнозначных ядер. $\mathbf {k} ={\big [}K{\big (}\mu _{{\hat {X}}_{i}},\mu _{\hat {X}}{\big )}{\big ]}\in \mathbb {R} ^{1\times \ell }$ $\mathbf {G} =[G_{ij}]\in \mathbb {R} ^{\ell \times \ell }$ $G_{ij}=K{\big (}\mu _{{\hat {X}}_{i}},\mu _{{\hat {X}}_{j}}{\big )}\in \mathbb {R}$ $\mathbf {y} =[y_{1};\ldots ;y_{\ell }]\in \mathbb {R} ^{\ell }$ $X_{i}$ $J$ $y_{i}$ $y_{i}$ $d$ $K$

Пример

В этом простом примере, взятом из Song et al., ^[2] , предполагается, что это дискретные случайные величины , которые принимают значения в наборе , а ядро выбрано как дельта-функция Кронекера , поэтому . Карта признаков, соответствующая этому ядру, является стандартным базисным вектором . Вложения ядер таких распределений, таким образом, являются векторами предельных вероятностей, в то время как вложения совместных распределений в этой настройке являются матрицами, определяющими таблицы совместных вероятностей, и явная форма этих вложений есть $X,Y$ $\{1,\ldots ,K\}$ $k(x,x')=\delta (x,x')$ $\varphi (x)=\mathbf {e} _{x}$ $K\times K$

\mu _{X}=\mathbb {E} [\mathbf {e} _{X}]={\begin{pmatrix}P(X=1)\\\vdots \\P(X=K)\\\end{pmatrix}}

{\mathcal {C}}_{XY}=\mathbb {E} [\mathbf {e} _{X}\otimes \mathbf {e} _{Y}]=(P(X=s,Y=t))_{s,t\in \{1,\ldots ,K\}}

Когда для всех , оператор вложения условного распределения, $P(X=s)>0$ $s\in \{1,\ldots ,K\}$

{\mathcal {C}}_{Y\mid X}={\mathcal {C}}_{YX}{\mathcal {C}}_{XX}^{-1},

в этой настройке есть таблица условных вероятностей

{\mathcal {C}}_{Y\mid X}=(P(Y=s\mid X=t))_{s,t\in \{1,\dots ,K\}}

{\mathcal {C}}_{XX}={\begin{pmatrix}P(X=1)&\dots &0\\\vdots &\ddots &\vdots \\0&\dots &P(X=K)\\\end{pmatrix}}

Таким образом, вложения условного распределения при фиксированном значении могут быть вычислены как $X$

\mu _{Y\mid x}={\mathcal {C}}_{Y\mid X}\varphi (x)={\begin{pmatrix}P(Y=1\mid X=x)\\\vdots \\P(Y=K\mid X=x)\\\end{pmatrix}}

В этой дискретно-значной настройке с дельта-ядром Кронекера правило суммы ядра становится

\underbrace {\begin{pmatrix}P(X=1)\\\vdots \\P(X=N)\\\end{pmatrix}} _{\mu _{X}^{\pi }}=\underbrace {\begin{pmatrix}\\P(X=s\mid Y=t)\\\\\end{pmatrix}} _{{\mathcal {C}}_{X\mid Y}}\underbrace {\begin{pmatrix}\pi (Y=1)\\\vdots \\\pi (Y=N)\\\end{pmatrix}} _{\mu _{Y}^{\pi }}

Правило цепочки ядер в этом случае задается выражением

\underbrace {\begin{pmatrix}\\P(X=s,Y=t)\\\\\end{pmatrix}} _{{\mathcal {C}}_{XY}^{\pi }}=\underbrace {\begin{pmatrix}\\P(X=s\mid Y=t)\\\\\end{pmatrix}} _{{\mathcal {C}}_{X\mid Y}}\underbrace {\begin{pmatrix}\pi (Y=1)&\dots &0\\\vdots &\ddots &\vdots \\0&\dots &\pi (Y=K)\\\end{pmatrix}} _{{\mathcal {C}}_{YY}^{\pi }}

Ссылки

^ ab A. Smola, A. Gretton, L. Song, B. Schölkopf. (2007). Вложение в гильбертово пространство для распределений Архивировано 15 декабря 2013 г. в Wayback Machine . Теория алгоритмического обучения: 18-я международная конференция . Springer: 13–31.
^ abcdefghijklmn Л. Сонг, К. Фукумизу, Ф. Динуццо, А. Греттон (2013). Ядерные вложения условных распределений: унифицированная структура ядра для непараметрического вывода в графических моделях. Журнал обработки сигналов IEEE 30 : 98–111.
^ J. Shawe-Taylor, N. Christianini. (2004). Методы ядра для анализа шаблонов . Cambridge University Press, Кембридж, Великобритания.
^ Т. Хофманн, Б. Шёлькопф, А. Смола. (2008). Методы ядра в машинном обучении. Анналы статистики 36 (3):1171–1220.
^ Muandet, Krikamol; Fukumizu, Kenji; Sriperumbudur, Bharath; Schölkopf, Bernhard (2017-06-28). "Kernel Mean Embedding of Distributions: A Review and Beyond". Основы и тенденции в машинном обучении . 10 (1–2): 1–141. arXiv : 1605.09522 . doi :10.1561/2200000060. ISSN 1935-8237.
^ abcdefghi L. Song. (2008) Обучение с помощью вложения распределений в гильбертово пространство. Кандидатская диссертация, Сиднейский университет.
^ K. Fukumizu, A. Gretton, X. Sun и B. Schölkopf (2008). Ядерные меры условной независимости. Advances in Neural Information Processing Systems 20 , MIT Press, Cambridge, MA.
^ abc L. Song, J. Huang, AJ Smola, K. Fukumizu. (2009). Вложения условных распределений в гильбертовом пространстве. Proc. Int. Conf. Machine Learning . Montreal, Canada: 961–968.
^ * Стейнварт, Инго; Кристманн, Андреас (2008). Машины опорных векторов . Нью-Йорк: Спрингер. ISBN 978-0-387-77241-7.
^ Шриперумбудур, Б.К.; Фукумизу, К.; Ланкриет, Г.Р.Г. (2011). «Универсальность, характеристические ядра и вложение мер RKHS». Журнал исследований машинного обучения . 12 (70).
^ Лян, Перси (2016), CS229T/STAT231: Статистическая теория обучения (PDF) , заметки лекций Стэнфорда
^ Sriperumbudur, BK; Fukumizu, K.; Lanckriet, GRG (2010). О связи между универсальностью, характеристическими ядрами и вложением мер RKHS. Труды Тринадцатой международной конференции по искусственному интеллекту и статистике. Италия.
^ Микелли, CA; Сюй, Y.; Чжан, H. (2006). «Универсальные ядра». Журнал исследований машинного обучения . 7 (95): 2651–2667.
^ S. Grunewalder, G. Lever, L. Baldassarre, S. Patterson, A. Gretton, M. Pontil. (2012). Условные средние вложения как регрессоры. Proc. Int. Conf. Machine Learning : 1823–1830.
^ A. Gretton, K. Borgwardt, M. Rasch, B. Schölkopf, A. Smola. (2012). Тест ядра с двумя выборками. Журнал исследований машинного обучения , 13 : 723–773.
^ М. Дудик, С. Дж. Филлипс, Р. Э. Шапир. (2007). Оценка распределения максимальной энтропии с обобщенной регуляризацией и ее применение к моделированию распределения видов. Журнал исследований машинного обучения , 8 : 1217–1260.
^ A. Gretton, O. Bousquet, A. Smola, B. Schölkopf. (2005). Измерение статистической зависимости с помощью норм Гильберта–Шмидта. Proc. Intl. Conf. on Algorithmic Learning Theory : 63–78.
^ Л. Сонг, А. Смола, А. Греттон, К. Боргвардт, Дж. Бедо. (2007). Контролируемый выбор признаков с помощью оценки зависимости. Proc. Intl. Conf. Machine Learning , Omnipress: 823–830.
^ Л. Сонг, А. Смола, А. Греттон, К. Боргвардт. (2007). Взгляд на кластеризацию с точки зрения максимизации зависимости. Proc. Intl. Conf. Machine Learning . Omnipress: 815–822.
^ Л. Сонг, А. Смола, К. Боргвардт, А. Греттон. (2007). Развертывание цветной максимальной дисперсии. Нейронные системы обработки информации .
^ Золтан Сабо, Бхарат К. Шриперумбудур. Характеристические и универсальные ядра тензорного произведения. Журнал исследований машинного обучения , 19:1–29, 2018.
^ ab K. Muandet, K. Fukumizu, F. Dinuzzo, B. Schölkopf. (2012). Обучение на основе распределений с помощью машин измерения поддержки. Достижения в области нейронных систем обработки информации : 10–18.
^ abcd K. Zhang, B. Schölkopf, K. Muandet, Z. Wang. (2013). Адаптация домена при целевом и условном сдвиге. Журнал исследований машинного обучения, 28 (3): 819–827.
^ ab A. Gretton, A. Smola, J. Huang, M. Schmittfull, K. Borgwardt, B. Schölkopf. (2008). Ковариатный сдвиг и локальное обучение путем сопоставления распределений. В J. Quinonero-Candela, M. Sugiyama, A. Schwaighofer, N. Lawrence (ред.). Сдвиг набора данных в машинном обучении , MIT Press, Кембридж, Массачусетс: 131–160.
^ abc K. Muandet, D. Balduzzi, B. Schölkopf. (2013). Обобщение предметной области посредством представления инвариантных признаков. 30-я Международная конференция по машинному обучению .
^ ab Z. Szabó, B. Sriperumbudur, B. Póczos, A. Gretton. Теория обучения для регрессии распределения. Журнал исследований машинного обучения , 17(152):1–40, 2016.

Внешние ссылки

Набор инструментов для оценки теории информации (демонстрация регрессии распределения).