Сложность Радемахера

В теории вычислительного обучения ( машинное обучение и теория вычислений ) сложность Радемахера , названная в честь Ганса Радемахера , измеряет богатство класса множеств относительно распределения вероятностей . Эту концепцию также можно распространить на вещественнозначные функции.

Определения

Радемахеровская сложность множества

Для данного набора сложность Радемахера A определяется следующим образом: ^[1]^[2]^{: 326} $A\subseteq \mathbb {R} ^{m}$

\operatorname {Rad} (A):={\frac {1}{m}}\mathbb {E} _{\sigma }\left[\sup _{a\in A}\sum _{i =1}^{m}\sigma _{i}a_{i}\right]

где – независимые случайные величины, полученные из распределения Радемахера , т.е. для , и . Некоторые авторы берут абсолютное значение суммы перед взятием супремума, но если она симметрична , это не имеет значения. $\sigma _{1},\sigma _{2},\dots,\sigma _{m}$ $\Pr(\sigma _{i}=+1)=\Pr(\sigma _{i}=-1)=1/2$ ${\ Displaystyle я = 1,2, \ точки, м}$ $a=(a_{1},\ldots,a_{m})$ $А$

Радемахеровская сложность функционального класса

Пусть это выборка точек и рассмотрим функциональный класс вещественных функций над . Тогда эмпирическая сложность Радемахера данного определяется как: $S=\{z_{1},z_{2},\dots,z_{m}\}\subset Z$ ${\mathcal {F}}$ $Z$ ${\mathcal {F}}$ $S$

\operatorname {Rad} _{S}({\mathcal {F}})={\frac {1}{m}}\mathbb {E} _{\sigma }\left[\sup _{f \in {\mathcal {F}}}\sum _{i=1}^{m}\sigma _{i}f(z_{i})\right]

Это также можно записать, используя предыдущее определение: ^[2]^{: 326}

\operatorname {Rad} _{S}({\mathcal {F}})=\operatorname {Rad} ({\mathcal {F}}\circ S)

где обозначает композицию функции , т.е.: ${\mathcal {F}}\circ S$

{\mathcal {F}}\circ S:=\{(f(z_{1}),\ldots ,f(z_{m}))\mid f\in {\mathcal {F}}\ }

Пусть – распределение вероятностей по . Сложность класса функций по Радемахеру относительно размера выборки равна: $P$ $Z$ ${\mathcal {F}}$ $P$ $м$

\operatorname {Rad} _{P,m}({\mathcal {F}}):=\mathbb {E} _{S\sim P^{m}}\left[\operatorname {Rad} _ {S}({\mathcal {F}})\right]

где вышеуказанное ожидание берется за одинаково независимо распределенную (iid) выборку, сгенерированную в соответствии с . $S=(z_{1},z_{2},\dots,z_{m})$ $P$

Интуиция

Сложность Радемахера обычно применяется к функциональному классу моделей, которые используются для классификации, с целью измерения их способности классифицировать точки, взятые из вероятностного пространства с произвольными обозначениями. Когда класс функций достаточно богат, он содержит функции, которые могут соответствующим образом адаптироваться к каждому расположению меток, моделируемому случайным отбором в соответствии с ожиданием, так что это количество в сумме максимизируется. $\sigma _{i}$

Примеры

1. содержит один вектор, например, . Затем: $А$ $A=\{(a,b)\}\subset \mathbb {R} ^{2}$

\operatorname {Rad} (A)={1 \over 2}\cdot \left({1 \over 4}\cdot (a+b)+{1 \over 4}\cdot (ab)+{ 1 \over 4}\cdot (-a+b)+{1 \over 4}\cdot (-ab)\right)=0

То же самое верно для каждого класса одноэлементных гипотез. ^[3]^{: 56}

2. содержит два вектора, например, . Затем: $А$ $A=\{(1,1),(1,2)\}\subset \mathbb {R} ^{2}$

{\begin{aligned}\operatorname {Rad} (A)&={1 \over 2}\cdot \left({1 \over 4}\cdot \max(1+1,1+2)+ {1 \более 4}\cdot \max(1-1,1-2)+{1 \более 4}\cdot \max(-1+1,-1+2)+{1 \более 4}\cdot \max(-1-1,-1-2)\right)\\[5pt]&={1 \более 8}(3+0+1-2)={1 \более 4}\end{aligned} }

Использование сложности Радемахера

Сложность Радемахера можно использовать для получения зависящих от данных верхних границ обучаемости функциональных классов. Интуитивно понятно, что функциональный класс с меньшей сложностью Радемахера легче изучить.

Ограничение репрезентативности

В машинном обучении желательно иметь обучающий набор , который представляет истинное распределение некоторых выборочных данных . Это можно оценить количественно, используя понятие репрезентативности . Обозначим через распределение вероятностей , из которого взяты выборки. Обозначим через набор гипотез (потенциальные классификаторы) и обозначим соответствующий набор функций ошибок, т. е. для каждой гипотезы существует функция , которая отображает каждую обучающую выборку (признаки, метку) в ошибку классификатора (примечание в в этом случае гипотеза и классификатор используются как взаимозаменяемые). Например, в случае, когда представлен двоичный классификатор, функция ошибок представляет собой функцию потерь 0–1, т. е. функция ошибок возвращает 0, если правильно классифицирует выборку, и 1 в противном случае. Мы опускаем индекс и пишем вместо него , когда основная гипотеза не имеет значения. Определять: $S$ $P$ $H$ $F$ ${\ displaystyle h \ in H}$ $f_{h}\in F$ $ч$ $ч$ $f_{h}$ $ч$ $е$ $f_{h}$

L_{P}(f):=\mathbb {E} _{z\sim P}[f(z)]

– ожидаемая ошибка некоторой функции ошибок реального распределения ;

f\in F

P

L_{S}(f):={1 \over m}\sum _{i=1}^{m}f(z_{i})

– предполагаемая ошибка некоторой функции ошибок на выборке .

f\in F

S

Репрезентативность выборки по отношению к и определяется как: $S$ $P$ $F$

\operatorname {Rep} _{P}(F,S):=\sup _{f\in F}(L_{P}(f)-L_{S}(f))

Меньшая репрезентативность лучше, поскольку она дает возможность избежать переобучения : это означает, что истинная ошибка классификатора не намного превышает его расчетную ошибку, и поэтому выбор классификатора с низкой расчетной ошибкой гарантирует, что истинная ошибка также будет низкий. Однако обратите внимание, что понятие репрезентативности относительно и, следовательно, не может сравниваться между отдельными выборками.

Ожидаемая репрезентативность выборки может быть ограничена сверху сложностью Радемахера функционального класса: ^[2]^{: 326}

\mathbb {E} _{S\sim P^{m}}[\operatorname {Rep} _{P}(F,S)]\leq 2\cdot \mathbb {E} _{S\sim P^{m}}[\operatorname {Rad} (F\circ S)]

Ограничение ошибки обобщения

Когда сложность Радемахера невелика, можно изучить класс гипотез H, используя эмпирическую минимизацию риска .

Например, (с функцией двоичной ошибки), ^[2]^{: 328} для каждого , с вероятностью не менее , для каждой гипотезы : $\delta >0$ $1-\delta$ $h\in H$

L_{P}(h)-L_{S}(h)\leq 2\operatorname {Rad} (F\circ S)+4{\sqrt {2\ln(4/\delta ) \over m}}

Ограничение сложности Радемахера

Поскольку меньшая сложность Радемахера лучше, полезно иметь верхние границы сложности Радемахера различных наборов функций. Следующие правила можно использовать для верхней границы сложности Радемахера набора . ^[2]^{: 329–330} $A\subset \mathbb {R} ^{m}$

1. Если все векторы в перенесены на постоянный вектор , то Rad( A ) не изменится. $A$ $a_{0}\in \mathbb {R} ^{m}$

2. Если все векторы в умножаются на скаляр , то Rad( A ) умножается на . $A$ $c\in \mathbb {R}$ $|c|$

3. . ^[3]^{: 56} $\operatorname {Rad} (A+B)=\operatorname {Rad} (A)+\operatorname {Rad} (B)$

4. (Лемма Какаде и Тевари) Если все векторы в управляются функцией Липшица , то Rad( A ) (не более) умножается на константу Липшица функции. В частности, если все векторы в управляются сжимающим отображением , то Rad( A ) строго уменьшается. $A$ $A$

5. Радемахеровская сложность выпуклой оболочки равна Rad( A ). $A$

6. (Лемма Массара) Радемахеровская сложность конечного множества растет логарифмически с размером множества. Формально, пусть будет набор векторов в , и пусть будет среднее значение векторов в . Затем: $A$ $N$ $\mathbb {R} ^{m}$ ${\bar {a}}$ $A$

\operatorname {Rad} (A)\leq \max _{a\in A}\|a-{\bar {a}}\|\cdot {{\sqrt {2\log N}} \over m}

В частности, если — набор двоичных векторов, норма не превышает , поэтому: $A$ ${\sqrt {m}}$

\operatorname {Rad} (A)\leq {\sqrt {2\log N \over m}}

Границы, связанные с измерением VC

Пусть — семейство множеств , размерность VC которого равна . Известно, что функция роста ограничена следующим образом: $H$ $d$ $H$

для всех :

m>d+1

\operatorname {Growth} (H,m)\leq (em/d)^{d}

Это означает, что для каждого множества, состоящего не более чем из элементов, . Семейство set можно рассматривать как набор двоичных векторов над . Подстановка этого в лемму Массара дает: $h$ $m$ $|H\cap h|\leq (em/d)^{d}$ $H\cap h$ $\mathbb {R} ^{m}$

\operatorname {Rad} (H\cap h)\leq {\sqrt {2d\log(em/d) \over m}}

С помощью более продвинутых методов ( оценка энтропии Дадли и верхняя граница Хаусслера ^[4] ) можно показать, например, что существует константа такая, что любой класс -индикаторных функций с размерностью Вапника-Червоненкиса имеет сложность Радемахера, ограниченную сверху . $C$ $\{0,1\}$ $d$ $C{\sqrt {\frac {d}{m}}}$

Границы, связанные с линейными классами

Следующие границы относятся к линейным операциям над – постоянным набором векторов в . ^[2]^{: 332–333.} $S$ $m$ $\mathbb {R} ^{n}$

1. Определите набор скалярных произведений векторов в с векторами в единичном шаре . Затем: $A_{2}=\{(w\cdot x_{1},\ldots ,w\cdot x_{m})\mid \|w\|_{2}\leq 1\}=$ $S$

\operatorname {Rad} (A_{2})\leq {\max _{i}\|x_{i}\|_{2} \over {\sqrt {m}}}

2. Определить множество скалярных произведений векторов in с векторами единичного шара 1-нормы. Затем: $A_{1}=\{(w\cdot x_{1},\ldots ,w\cdot x_{m})\mid \|w\|_{1}\leq 1\}=$ $S$

\operatorname {Rad} (A_{1})\leq \max _{i}\|x_{i}\|_{\infty }\cdot {\sqrt {2\log(2n) \over m}}

Границы, связанные с покрытием чисел

Следующая оценка связывает сложность Радемахера набора с его внешним числом покрытия – количеством шаров заданного радиуса, объединение которых содержит . Связка приписывается Дадли. ^[2]^{: 338} $A$ $r$ $A$

Пусть задан набор векторов, длина (норма) которых не превышает . Тогда для каждого целого числа : $A\subset \mathbb {R} ^{m}$ $c$ $M>0$

\operatorname {Rad} (A)\leq {c\cdot 2^{-M} \over {\sqrt {m}}}+{6c \over m}\cdot \sum _{i=1}^{M}2^{-i}{\sqrt {\log \left(N_{c\cdot 2^{-i}}^{\text{ext}}(A)\right)}}

В частности, если лежит в d -мерном подпространстве , то: $A$ $\mathbb {R} ^{m}$

\forall r>0:N_{r}^{\text{ext}}(A)\leq (2c{\sqrt {d}}/r)^{d}

Подстановка этого значения в предыдущую оценку дает следующую оценку сложности Радемахера:

\operatorname {Rad} (A)\leq {6c \over m}\cdot {\bigg (}{\sqrt {d\log(2{\sqrt {d}})}}+2{\sqrt {d}}{\bigg )}=O{\bigg (}{c{\sqrt {d\log(d)}} \over m}{\bigg )}

Гауссова сложность

Гауссова сложность — это аналогичная сложность с аналогичным физическим смыслом, и ее можно получить из сложности Радемахера с использованием случайных величин вместо , где — гауссовские случайные величины i.id с нулевым средним и дисперсией 1, т.е. Известно, что сложности Гаусса и Радемахера эквивалентны с точностью до логарифмических множителей. $g_{i}$ $\sigma _{i}$ $g_{i}$ $g_{i}\sim {\mathcal {N}}(0,1)$

Эквивалентность Радемахера и Гауссовой сложности.

Для данного набора справедливо следующее соотношение ^[5] : Где - гауссова сложность A. В качестве примера рассмотрим радмахеровскую и гауссовскую сложности шара L1. Сложность Радемахера равна ровно 1, тогда как гауссова сложность имеет порядок (что можно показать, применяя известные свойства супремумов набора субгауссовских случайных величин). ^[5] $A\subseteq \mathbb {R} ^{n}$
${\frac {G(A)}{2{\sqrt {\log {n}}}}}\leq {\text{Rad}}(A)\leq {\sqrt {\frac {\pi }{2}}}G(A)$
$G(A)$ ${\sqrt {\log d}}$