Гауссов процесс

В теории вероятностей и статистике гауссов процесс — это случайный процесс (набор случайных величин, индексированных по времени или пространству), такой, что каждый конечный набор этих случайных величин имеет многомерное нормальное распределение . Распределение гауссовского процесса представляет собой совместное распределение всех этих (бесконечно многих) случайных величин и, как таковое, является распределением по функциям с непрерывной областью определения, например, во времени или пространстве.

Концепция гауссовских процессов названа в честь Карла Фридриха Гаусса, поскольку в ее основе лежит понятие гауссовского распределения ( нормального распределения ). Гауссовские процессы можно рассматривать как бесконечномерное обобщение многомерных нормальных распределений.

Гауссовские процессы полезны в статистическом моделировании , поскольку они извлекают выгоду из свойств, унаследованных от нормального распределения. Например, если случайный процесс моделируется как гауссовский процесс, распределения различных производных величин можно получить явно. К таким величинам относятся среднее значение процесса за определенный период времени и ошибка оценки среднего значения с использованием выборочных значений за небольшой набор периодов времени. Хотя точные модели часто плохо масштабируются по мере увеличения объема данных, было разработано несколько методов аппроксимации , которые часто сохраняют хорошую точность, резко сокращая время вычислений.

Определение

Непрерывный во времени случайный процесс является гауссовским тогда и только тогда, когда для каждого конечного набора индексов в индексном множестве $\left\{X_{t};t\in T\right\}$ $t_{1},\ldots,t_{k}$ $Т$

\mathbf {X} _{t_{1},\ldots,t_{k}}=(X_{t_{1}},\ldots,X_{t_{k}})

— многомерная гауссова случайная величина . ^[1] Это то же самое, что сказать, что каждая линейная комбинация имеет одномерное нормальное (или гауссово) распределение. $(X_{t_{1}},\ldots,X_{t_{k}})$

Используя характеристические функции случайных величин с обозначением мнимой единицы такой, что , свойство Гаусса можно сформулировать следующим образом: является гауссовым тогда и только тогда, когда для каждого конечного набора индексов существуют действительные значения , причем такие, что выполняется следующее равенство для всех , $я$ $я^{2}=-1$ $\left\{X_{t};t\in T\right\}$ $t_{1},\ldots,t_{k}$ $\sigma _ {\ell j}$ $\mu _ {\ell }$ $\sigma _{jj}>0$ $s_{1},s_{2},\ldots,s_{k}\in \mathbb {R}$

{\mathbb {E} }\left[\exp \left(i\sum _{\ell =1}^{k}s_{\ell }\,\mathbf {X} _{t_{\ell }}\right)\right]=\exp \left(-{\tfrac {1}{2}}\sum _{\ell ,j}\sigma _{\ell j}s_{\ell }s_{j }+i\sum _{\ell }\mu _{\ell }s_{\ell }\right),

или . Можно показать, что числа и являются ковариациями и средними значениями переменных в процессе. ^[2] ${\mathbb {E}}\left[{\mathrm {e} }^{i\,\mathbf {s} \,(\mathbf {X} _{t}-\mathbf {\mu }) }\right]={\mathrm {e} }^{-\mathbf {s} \,\sigma \,\mathbf {s} /2}$ $\sigma _ {\ell j}$ $\mu _ {\ell }$

Дисперсия

Дисперсия гауссовского процесса конечна в любой момент времени , формально ^[3]^{: с.}⁵¹⁵ $т$

\operatorname {var} [X(t)]={\mathbb {E} }\left[\left|X(t)-\operatorname {E} [X(t)]\right|^{2 }\right]<\infty \quad {\text{для всех }}t\in T.

Стационарность

Для общих случайных процессов стационарность в строгом смысле подразумевает стационарность в широком смысле , но не каждый стационарный случайный процесс в широком смысле является стационарным в строгом смысле. Однако для гауссовского случайного процесса эти две концепции эквивалентны. ^[3]^{: с. 518}

Гауссов случайный процесс является стационарным в строгом смысле тогда и только тогда, когда он стационарен в широком смысле.

Пример

Существует явное представление для стационарных гауссовских процессов. ^[4] Простой пример этого представления:

X_{t}=\cos(at)\,\xi _{1}+\sin(at)\,\xi _{2}

где и – независимые случайные величины со стандартным нормальным распределением . $\xi _{1}$ $\xi _{2}$

Ковариационные функции

Ключевым фактом гауссовских процессов является то, что они могут быть полностью определены их статистикой второго порядка. ^[5] Таким образом, если предполагается, что гауссовский процесс имеет нулевое среднее значение, определение ковариационной функции полностью определяет поведение процесса. Важно отметить, что неотрицательная определенность этой функции позволяет ее спектральное разложение с использованием расширения Карунена-Лоэва . Основными аспектами, которые можно определить с помощью ковариационной функции, являются стационарность , изотропность , гладкость и периодичность процесса . ^[6]^[7]

Стационарность относится к поведению процесса относительно разделения любых двух точек и . Если процесс стационарен, ковариационная функция зависит только от . Например, процесс Орнштейна–Уленбека стационарен. $х$ $х'$ $хх'$

Если процесс зависит только от евклидова расстояния (а не направления) между и , то процесс считается изотропным. Однородным считается процесс, одновременно стационарный и изотропный ; ^{В [8]} на практике эти свойства отражают различия (вернее, их отсутствие) в поведении процесса в зависимости от местоположения наблюдателя. $|xx'|$ $х$ $х'$

В конечном итоге гауссовские процессы переводятся как принятие априорных значений функций, и гладкость этих априорных значений может быть вызвана функцией ковариации. ^[6] Если мы ожидаем, что для «близких» входных точек и соответствующих им выходных точек также будет «рядом», то предположение о непрерывности присутствует . Если мы хотим учесть значительное смещение, мы можем выбрать более грубую ковариационную функцию. Крайними примерами такого поведения являются ковариационная функция Орнштейна – Уленбека и квадратичная экспонента, где первая никогда не дифференцируема, а вторая бесконечно дифференцируема. $х$ $х'$ $y$ $y'$

Периодичность означает создание периодических закономерностей в поведении процесса. Формально это достигается путем сопоставления входных данных с двумерным вектором . $х$ ${\ Displaystyle и (х) = \ влево (\ соз (х), \ грех (х) \ вправо)}$

Обычные ковариационные функции

Существует ряд общих ковариационных функций: ^[7]

Постоянный : $K_{\operatorname {C} }(x,x')=C$
Линейный: $K_{\operatorname {L} }(x,x')=x^{\mathsf {T}}x'$
белый гауссов шум: $K_{\operatorname {GN} }(x,x')=\sigma ^{2}\delta _{x,x'}$
Квадратная экспонента: $K_{\operatorname {SE} }(x,x')=\exp \left(- {\tfrac {|d|^{2}}{2\ell ^{2}}}\right)$
Орнштейн-Уленбек: $K_{\operatorname {OU} }(x,x')=\exp \left(- {\tfrac {|d|}{\ell }}\right)$
Материн: $K_{\operatorname {Matern} }(x,x')={\tfrac {2^{1-\nu }}{\Gamma (\nu )}}\left({\tfrac {{\sqrt {2\nu }}|d|}{\ell }}\right)^{\nu }K_{\nu }\left({\tfrac {{\sqrt {2\nu }}|d|}{\ элл }}\right)$
Периодический: $K_{\operatorname {P} }(x,x')=\exp \left(-{\tfrac {2}{\ell ^{2}}}\sin ^{2}(d/2)\right)$
Рациональный квадратик: $K_{\operatorname {RQ} }(x,x')=\left(1+|d|^{2}\right)^{-\alpha },\quad \alpha \geq 0$

Здесь . Параметром является характерный масштаб процесса (практически «насколько близко» должны быть две точки, чтобы существенно влиять друг на друга), это дельта Кронекера и стандартное отклонение шумовых флуктуаций. Кроме того, – модифицированная функция порядка Бесселя и – гамма-функция, оцениваемая при . Важно отметить, что сложную ковариационную функцию можно определить как линейную комбинацию других более простых ковариационных функций, чтобы учесть различные представления о имеющемся наборе данных. $d=x-x'$ $\ell$ $x$ $x'$ $\delta$ $\sigma$ $K_{\nu }$ $\nu$ $\Gamma (\nu )$ $\nu$

Результаты вывода зависят от значений гиперпараметров (например, и ), определяющих поведение модели. Популярным выбором является предоставление максимальных апостериорных оценок (MAP) с некоторыми выбранными априорными значениями. Если априор очень близок к однородному, это то же самое, что максимизировать предельную вероятность процесса; маргинализация осуществляется по наблюдаемым значениям процесса . ^[7] Этот подход также известен как метод максимального правдоподобия II , максимизация доказательств или эмпирический Байес . ^[9] $\theta$ $\ell$ $\sigma$ $\theta$ $y$

Непрерывность

Для гауссовского процесса непрерывность по вероятности эквивалентна непрерывности среднеквадратического значения [ ^10]^{: 145} , а непрерывность с вероятностью единица эквивалентна непрерывности выборки . ^[11]^{: 91 «Гауссовы процессы разрывны в фиксированных точках».}Последнее предполагает, но не подразумевает, непрерывность вероятности. Непрерывность вероятности имеет место тогда и только тогда, когда среднее значение и автоковариация являются непрерывными функциями. Напротив, непрерывность выборки была сложной задачей даже для стационарных гауссовских процессов (как, вероятно, впервые заметил Андрей Колмогоров ), и еще более сложной задачей для более общих процессов. ^[12]^{: Раздел. 2.8}^[13]^{: 69, 81}^[14]^{: 80}^[15] Как обычно, под выборочно-непрерывным процессом понимают процесс, который допускает выборочно-непрерывную модификацию .^[16]^{: 292}^[17]^{: 424}

Стационарный корпус

Для стационарного гауссовского процесса некоторые условия его спектра достаточны для непрерывности выборки, но не являются необходимыми. Необходимое и достаточное условие, иногда называемое теоремой Дадли – Фернике, включает функцию, определяемую формулой $X=(X_{t})_{t\in \mathbb {R} },$ $\sigma$

\sigma (h)={\sqrt {{\mathbb {E} }{\big [}X(t+h)-X(t){\big ]}^{2}}}

t

X

\sigma

0.

\sigma (h)

0

h\to 0

X

I(\sigma )=\int _{0}^{1}{\frac {\sigma (h)}{h{\sqrt {\log(1/h)}}}}\,dh=\int _{0}^{\infty }2\sigma (e^{-x^{2}})\,dx,

интегрированием путем подстановки.

{\textstyle h=e^{-x^{2}},}

{\textstyle x={\sqrt {\log(1/h)}}.}

h\to 0+,

I(\sigma )<\infty

I(\sigma )=\infty

{\textstyle \sigma (e^{-x^{2}})={\tfrac {1}{x^{a}}}}

x,

{\textstyle \sigma (h)=(\log(1/h))^{-a/2}}

h,

I(\sigma )<\infty

a>1,

I(\sigma )=\infty

0<a\leq 1.

\sigma

[0,\infty ),

(*) существуеттакой, которыймонотонен на

\varepsilon >0

\sigma

[0,\varepsilon ]

не следует из непрерывности и очевидных отношений (для всех ) и $\sigma$ $\sigma (h)\geq 0$ $h$ $\sigma (0)=0.$

Теорема 1. Пусть непрерывен и удовлетворяет (*). Тогда условие является необходимым и достаточным для выборочной непрерывности $\sigma$ $I(\sigma )<\infty$ $X.$

Немного истории. ^[17]^{: 424} Достаточность была объявлена Ксавье Ферником в 1964 году, но первое доказательство было опубликовано Ричардом М. Дадли в 1967 году. ^[16]^{: Теорема 7.1} Необходимость была доказана Майклом Б. Маркусом и Лоуренсом Шеппом в 1970 году. ^{[18] ]}^{: 380}

Существуют выборочные непрерывные процессы , нарушающие условие (*). Пример, найденный Маркусом и Шеппом ^[18]^{: 387} представляет собой случайный лакунарный ряд Фурье. $X$ $I(\sigma )=\infty ;$

X_{t}=\sum _{n=1}^{\infty }c_{n}(\xi _{n}\cos \lambda _{n}t+\eta _{n}\sin \lambda _{n}t),

стандартным нормальным распределением

\xi _{1},\eta _{1},\xi _{2},\eta _{2},\dots

0<\lambda _{1}<\lambda _{2}<\dots

c_{n}>0

{\textstyle \sum _{n}c_{n}<\infty .}

${\textstyle {\mathbb {E} }\sum _{n}c_{n}(|\xi _{n}|+|\eta _{n}|)=\sum _{n}c_{n}{\mathbb {E} }[|\xi _{n}|+|\eta _{n}|]={\text{const}}\cdot \sum _{n}c_{n}<\infty ,}$

откуда почти наверняка, что обеспечивает почти наверняка равномерную сходимость ряда Фурье и выборочную непрерывность ${\textstyle \sum _{n}c_{n}(|\xi _{n}|+|\eta _{n}|)<\infty }$ $X.$

Его автоковариационная функция

{\mathbb {E} }[X_{t}X_{t+h}]=\sum _{n=1}^{\infty }c_{n}^{2}\cos \lambda _{n}h

\sigma ,

\sigma (h)={\sqrt {2{\mathbb {E} }[X_{t}X_{t}]-2{\mathbb {E} }[X_{t}X_{t+h}]}}=2{\sqrt {\sum _{n=1}^{\infty }c_{n}^{2}\sin ^{2}{\frac {\lambda _{n}h}{2}}}}.

Броуновское движение как интеграл гауссовских процессов

Винеровский процесс (также известный как броуновское движение) является интегралом обобщенного гауссовского процесса белого шума . Он не стационарен , но имеет стационарные приращения .

Процесс Орнштейна -Уленбека является стационарным гауссовским процессом.

Броуновский мост (как и процесс Орнштейна-Уленбека) является примером гауссовского процесса, приращения которого не являются независимыми .

Дробное броуновское движение — это гауссов процесс, ковариационная функция которого является обобщением функции винеровского процесса.

Закон нуля и единицы Дрисколла

Закон нуля и единицы Дрисколла - это результат, характеризующий выборочные функции, генерируемые гауссовским процессом.

Пусть — гауссовский процесс со средним нулем и неотрицательно определенной ковариационной функцией . Пусть – гильбертово пространство с воспроизводящим ядром и положительно определенным ядром . $f$ $\left\{X_{t};t\in T\right\}$ $K$ ${\mathcal {H}}(R)$ $R$

Затем

\lim _{n\to \infty }\operatorname {tr} [K_{n}R_{n}^{-1}]<\infty ,

K_{n}

R_{n}

n

\Pr[f\in {\mathcal {H}}(R)]=1.

Более того,

\lim _{n\to \infty }\operatorname {tr} [K_{n}R_{n}^{-1}]=\infty

^[19]

\Pr[f\in {\mathcal {H}}(R)]=0.

Это имеет важные последствия, когда , как $K=R$

\lim _{n\to \infty }\operatorname {tr} [R_{n}R_{n}^{-1}]=\lim _{n\to \infty }\operatorname {tr} [I]=\lim _{n\to \infty }n=\infty .

Таким образом, почти все выборочные пути гауссовского процесса со средним нулем и положительно определенным ядром будут лежать за пределами гильбертова пространства . $K$ ${\mathcal {H}}(K)$

Гауссовы процессы с линейными ограничениями

Для многих представляющих интерес приложений уже имеются некоторые ранее существовавшие знания о рассматриваемой системе. Рассмотрим, например, случай, когда результат гауссовского процесса соответствует магнитному полю; здесь реальное магнитное поле ограничено уравнениями Максвелла, и был бы желателен способ включить это ограничение в формализм гауссовского процесса, поскольку это, вероятно, улучшит точность алгоритма.

Метод включения линейных ограничений в гауссовские процессы уже существует: ^[20]

Рассмотрим (векторную) выходную функцию , которая, как известно, подчиняется линейному ограничению (т. е. является линейным оператором) $f(x)$ ${\mathcal {F}}_{X}$

{\mathcal {F}}_{X}(f(x))=0.

{\mathcal {F}}_{X}

f(x)={\mathcal {G}}_{X}(g(x))

g(x)\sim {\mathcal {GP}}(\mu _{g},K_{g})

{\mathcal {G}}_{X}

{\mathcal {F}}_{X}({\mathcal {G}}_{X}(g))=0\qquad \forall g.

{\mathcal {G}}_{X}

f

{\mathcal {F}}_{X}

f(x)={\mathcal {G}}_{X}g\sim {\mathcal {GP}}({\mathcal {G}}_{X}\mu _{g},{\mathcal {G}}_{X}K_{g}{\mathcal {G}}_{X'}^{\mathsf {T}}).

Приложения

Гауссов процесс можно использовать в качестве априорного распределения вероятностей по функциям в байесовском выводе . ^[7]^[22] Учитывая любой набор из N точек в желаемой области ваших функций, возьмите многомерный гауссиан , параметром ковариационной матрицы которого является матрица Грамма ваших N точек с некоторым желаемым ядром , и выполните выборку из этого гауссиана. Для решения задачи прогнозирования с несколькими выходами была разработана регрессия гауссовского процесса для векторной функции. В этом методе строится «большая» ковариация, описывающая корреляции между всеми входными и выходными переменными, взятыми в N точках в желаемой области. ^[23] Этот подход был подробно разработан для матричных гауссовских процессов и обобщен на процессы с «более тяжелыми хвостами», такие как процессы Стьюдента . ^[24]

Вывод непрерывных значений с помощью предшествующего гауссовского процесса известен как регрессия гауссовского процесса или кригинг ; расширение регрессии гауссовского процесса на несколько целевых переменных известно как кокригинг . ^[25] Таким образом, гауссовские процессы полезны как мощный инструмент нелинейной многомерной интерполяции .

Гауссовы процессы также широко используются для решения задач численного анализа, таких как численное интегрирование, решение дифференциальных уравнений или оптимизация в области вероятностных чисел .

Гауссовские процессы также можно использовать, например, в контексте смешанных экспертных моделей. ^[26]^[27] Основное обоснование такой структуры обучения состоит в предположении, что данное отображение не может быть хорошо отражено с помощью одной модели гауссовского процесса. Вместо этого пространство наблюдения разделено на подмножества, каждое из которых характеризуется своей функцией отображения; каждый из них изучается через различные компоненты гауссовского процесса в постулируемой смеси.

В естественных науках гауссовские процессы нашли применение в качестве вероятностных моделей астрономических временных рядов и в качестве предсказателей молекулярных свойств. ^[28]

Предсказание гауссовского процесса, или кригинг

Когда речь идет об общей задаче регрессии гауссовского процесса (кригинг), предполагается, что для гауссовского процесса, наблюдаемого в координатах , вектор значений представляет собой всего лишь одну выборку из многомерного гауссовского распределения размерности, равной числу наблюдаемых координат . Следовательно, в предположении распределения с нулевым средним, где – матрица ковариации между всеми возможными парами для данного набора гиперпараметров θ . ^[7] Таким образом, логарифмическая предельная вероятность равна: $f$ $x$ $f(x)$ $n$ $f(x')\sim N(0,K(\theta ,x,x'))$ $K(\theta ,x,x')$ $(x,x')$

\log p(f(x')\mid \theta ,x)=-{\frac {1}{2}}\left(f(x)^{\mathsf {T}}K(\theta ,x,x')^{-1}f(x')+\log \det(K(\theta ,x,x'))+n\log 2\pi \right)

и максимизация этой предельной вероятности в направлении $θ$ обеспечивает полную спецификацию гауссова процесса $f$ . Здесь можно кратко отметить, что первый член соответствует штрафному члену за неспособность модели соответствовать наблюдаемым значениям, а второй член - штрафному члену, который увеличивается пропорционально сложности модели. После указания $θ$ сделать прогноз о ненаблюдаемых значениях в координатах $x$ $*$ — это всего лишь вопрос извлечения выборок из прогнозного распределения, где апостериорная средняя оценка $A$ определяется как $f(x^{*})$ $p(y^{*}\mid x^{*},f(x),x)=N(y^{*}\mid A,B)$

A=K(\theta ,x^{*},x)K(\theta ,x,x')^{-1}f(x)

B=K(\theta ,x^{*},x^{*})-K(\theta ,x^{*},x)K(\theta ,x,x')^{-1}K(\theta ,x^{*},x)^{\mathsf {T}}

θ

x

*

θ

x^[6]репрезентативного набораf^[29]^[30]модели смешанных эффектов для прогнозирования пространственных функций: этот метод^[31]

K(\theta ,x^{*},x)

K(\theta ,x,x')

f(x)

K(\theta ,x^{*},x^{*})

f(x^{*})

f(x)

f(x^{*})

f(x)

Часто ковариация имеет вид , где – параметр масштабирования. Примерами являются ковариационные функции класса Матерна. Если этот параметр масштабирования либо известен, либо неизвестен (т.е. должен быть исключен), то апостериорная вероятность, т.е. вероятность для гиперпараметров с учетом набора пар данных наблюдений и допускает аналитическое выражение. ^[32] ${\textstyle K(\theta ,x,x')={\frac {1}{\sigma ^{2}}}{\tilde {K}}(\theta ,x,x')}$ $\sigma ^{2}$ $\sigma ^{2}$ $p(\theta \mid D)$ $\theta$ $D$ $x$ $f(x)$

Байесовские нейронные сети как гауссовские процессы

Байесовские нейронные сети — это особый тип байесовских сетей , который возникает в результате вероятностной обработки моделей глубокого обучения и искусственных нейронных сетей и назначения предварительного распределения их параметрам . Вычисления в искусственных нейронных сетях обычно организованы в последовательные слои искусственных нейронов . Количество нейронов в слое называется шириной слоя. По мере увеличения ширины слоя многие байесовские нейронные сети сводятся к гауссовскому процессу с композиционным ядром закрытой формы . Этот гауссов процесс называется гауссовским процессом нейронной сети (NNGP). ^[7]^[33]^[34] Он позволяет более эффективно оценивать прогнозы байесовских нейронных сетей и предоставляет аналитический инструмент для понимания моделей глубокого обучения .

Вычислительные проблемы

В практических приложениях модели гауссовских процессов часто оцениваются на сетке, приводящей к многомерным нормальным распределениям. Использование этих моделей для прогнозирования или оценки параметров с использованием максимального правдоподобия требует оценки многомерной гауссовой плотности, которая включает в себя вычисление определителя и обратной ковариационной матрицы. Обе эти операции имеют кубическую вычислительную сложность, что означает, что даже для сеток скромных размеров обе операции могут иметь непомерно высокие вычислительные затраты. Этот недостаток привел к развитию множества методов аппроксимации .

Смотрите также

Внешние ссылки

В Wikibooks есть книга на тему: Гауссов процесс.

Литература

Веб-сайт гауссовских процессов, включая текст книги Расмуссена и Уильямса «Гауссовы процессы для машинного обучения».
Эбден, Марк (2015). «Гауссовы процессы: краткое введение». arXiv : 1505.02965 [math.ST].
Обзор гауссовских случайных полей и корреляционных функций
Эффективное обучение с подкреплением с использованием гауссовских процессов

Программное обеспечение

GPML: комплексный набор инструментов Matlab для регрессии и классификации GP.
STK: небольшой (Matlab/Octave) набор инструментов для моделирования кригинга и GP.
Модуль Кригинга в среде UQLab (Matlab)
CODES Toolbox: реализации кригинга, вариационного кригинга и моделей мультиточности (Matlab)
Функция Matlab/Octave для стационарных гауссовских полей
Yelp MOE — механизм оптимизации «черного ящика», использующий гауссово процесс обучения.
ooDACE – гибкий объектно-ориентированный набор инструментов Kriging Matlab.
GPstuff — набор инструментов для гауссовских процессов для Matlab и Octave.
GPy — структура гауссовских процессов на Python.
GSTools — набор геостатистических инструментов, включая регрессию гауссовского процесса, написанный на Python.
Интерактивная демонстрация регрессии гауссовского процесса
Базовая библиотека гауссовских процессов, написанная на C++11.
scikit-learn — библиотека машинного обучения для Python, которая включает регрессию и классификацию гауссовых процессов.
[1] - Набор инструментов Кригинга (KriKit) разработан в Институте био- и геонаук 1 (IBG-1) Forschungszentrum Jülich (FZJ).

Видеоуроки

Основы гауссовского процесса Дэвида Маккея
Обучение с помощью гауссовских процессов, Карл Эдвард Расмуссен
Байесовский вывод и гауссовские процессы Карла Эдварда Расмуссена