Гауссовский процесс

В теории вероятностей и статистике гауссовский процесс — это стохастический процесс (совокупность случайных величин, индексированных по времени или пространству), такой, что каждая конечная совокупность этих случайных величин имеет многомерное нормальное распределение . Распределение гауссовского процесса — это совместное распределение всех этих (бесконечно многих) случайных величин, и как таковое, это распределение по функциям с непрерывной областью определения, например, по времени или пространству.

Концепция гауссовских процессов названа в честь Карла Фридриха Гаусса , поскольку она основана на понятии гауссовского распределения ( нормального распределения ). Гауссовские процессы можно рассматривать как бесконечномерное обобщение многомерных нормальных распределений.

Гауссовские процессы полезны в статистическом моделировании , извлекая выгоду из свойств, унаследованных от нормального распределения. Например, если случайный процесс моделируется как гауссов процесс, распределения различных производных величин могут быть получены явно. Такие величины включают среднее значение процесса в диапазоне времен и ошибку в оценке среднего с использованием выборочных значений в небольшом наборе времен. Хотя точные модели часто плохо масштабируются по мере увеличения объема данных, были разработаны методы множественной аппроксимации , которые часто сохраняют хорошую точность, при этом радикально сокращая время вычислений.

Определение

Непрерывный во времени случайный процесс является гауссовым тогда и только тогда, когда для каждого конечного набора индексов в наборе индексов $\left\{X_{t};t\in T\right\}$ $t_{1},\ldots ,t_{k}$ $Т$

$\mathbf {X} _{t_{1},\ldots ,t_{k}}=(X_{t_{1}},\ldots ,X_{t_{k}})$

является многомерной гауссовой случайной величиной . ^[1] Это то же самое, что сказать, что каждая линейная комбинация имеет одномерное нормальное (или гауссово) распределение. $(X_{t_{1}},\ldots ,X_{t_{k}})$

Используя характеристические функции случайных величин с обозначением мнимой единицы такой, что , свойство гауссовости можно сформулировать следующим образом: является гауссовским тогда и только тогда, когда для любого конечного набора индексов существуют действительные значения , с такими, что для всех выполняется равенство $я$ $i^{2}=-1$ $\left\{X_{t};t\in T\right\}$ $t_{1},\ldots ,t_{k}$ $\sigma _{\ell j}$ $\mu _{\ell }$ $\sigma _{jj}>0$ $s_{1},s_{2},\ldots ,s_{k}\in \mathbb {R}$

${\mathbb {E} }\left[\exp \left(i\sum _{\ell =1}^{k}s_{\ell }\,\mathbf {X} _{t_{\ell }}\right)\right]=\exp \left(-{\tfrac {1}{2}}\sum _{\ell ,j}\sigma _{\ell j}s_{\ell }s_{j}+i\sum _{\ell }\mu _{\ell }s_{\ell }\right),$

или . Можно показать, что числа и являются ковариациями и средними значениями переменных в процессе. ^[2] ${\mathbb {E}}\left[{\mathrm {e} }^{i\,\mathbf {s} \,(\mathbf {X} _{t}-\mathbf {\mu }) }\right]={\mathrm {e} }^{-\mathbf {s} \,\sigma \,\mathbf {s} /2}$ $\sigma _{\ell j}$ $\mu _{\ell }$

Дисперсия

Дисперсия гауссовского процесса конечна в любой момент времени , формально ^[3]^{: стр. 515} $т$ $\operatorname {var} [X(t)]={\mathbb {E} }\left[\left|X(t)-\operatorname {E} [X(t)]\right|^{2}\right]<\infty \quad {\text{для всех }}t\in T.$

Стационарность

Для общих стохастических процессов стационарность в строгом смысле подразумевает стационарность в широком смысле , но не каждый стационарный стохастический процесс в широком смысле является стационарным в строгом смысле. Однако для гауссовского стохастического процесса эти два понятия эквивалентны. ^[3]^{: стр. 518}

Гауссовский стохастический процесс является стационарным в строгом смысле тогда и только тогда, когда он является стационарным в широком смысле.

Пример

Существует явное представление для стационарных гауссовских процессов. ^[4] Простой пример этого представления:

$X_{t}=\cos(at)\,\xi _{1}+\sin(at)\,\xi _{2}$

где и — независимые случайные величины со стандартным нормальным распределением . $\xi _{1}$ $\xi _{2}$

Ковариационные функции

Ключевым фактом гауссовых процессов является то, что они могут быть полностью определены их статистикой второго порядка. ^[5] Таким образом, если предполагается, что гауссовский процесс имеет нулевое среднее, определение ковариационной функции полностью определяет поведение процесса. Важно, что неотрицательная определенность этой функции позволяет выполнить ее спектральное разложение с использованием разложения Карунена–Лоэва . Основные аспекты, которые могут быть определены с помощью ковариационной функции, — это стационарность процесса , изотропность , гладкость и периодичность . ^[6]^[7]

Стационарность относится к поведению процесса относительно разделения любых двух точек и . Если процесс стационарен, ковариационная функция зависит только от . Например, процесс Орнштейна–Уленбека стационарен. $x$ $x'$ $xx'$

Если процесс зависит только от , евклидова расстояния (не направления) между и , то процесс считается изотропным. Процесс, который одновременно стационарен и изотропен, считается однородным ; ^[8] на практике эти свойства отражают различия (или, скорее, их отсутствие) в поведении процесса с учетом местоположения наблюдателя. $|xx'|$ $x$ $x'$

В конечном счете, гауссовские процессы переводятся как принятие априорных значений функций, и гладкость этих априорных значений может быть вызвана функцией ковариации. ^[6] Если мы ожидаем, что для «близлежащих» входных точек и соответствующих им выходных точек и также будут «близкими», то предположение о непрерывности присутствует. Если мы хотим допустить значительное смещение, то мы можем выбрать более грубую функцию ковариации. Крайними примерами поведения являются функция ковариации Орнштейна–Уленбека и квадратная экспонента, где первая никогда не дифференцируема, а вторая бесконечно дифференцируема. $x$ $x'$ $у$ $y'$

Периодичность относится к индуцированию периодических шаблонов в поведении процесса. Формально это достигается путем отображения входных данных в двумерный вектор . $x$ $u(x)=\left(\cos(x),\sin(x)\right)$

Обычные ковариационные функции

Существует ряд общих ковариационных функций: ^[7]

Постоянный : $K_{\operatorname {C} }(x,x')=C$
Линейный: $K_{\operatorname {L} }(x,x')=x^{\mathsf {T}}x'$
Белый гауссовский шум: $K_{\operatorname {GN} }(x,x')=\сигма ^{2}\дельта _{x,x'}$
Квадратная экспонента: $K_{\operatorname {SE} }(x,x')=\exp \left(-{\tfrac {d^{2}}{2\ell ^{2}}}\right)$
Орнштейн–Уленбек: $K_{\operatorname {OU} }(x,x')=\exp \left(-{\tfrac {d}{\ell }}\right)$
Мать: $K_{\operatorname {Matern} }(x,x')={\tfrac {2^{1-\nu }}{\Gamma (\nu )}}\left({\tfrac {{\sqrt {2\nu }}d}{\ell }}\right)^{\nu }K_{\nu }\left({\tfrac {{\sqrt {2\nu }}d}{\ell }}\ верно)$
Периодические: $K_{\operatorname {P} }(x,x')=\exp \left(-{\tfrac {2}{\ell ^{2}}}\sin ^{2}(d/2)\right)$
Рациональное квадратичное: $K_{\operatorname {RQ} }(x,x')=\left(1+d^{2}\right)^{-\alpha },\quad \alpha \geq 0$

Здесь . Параметром является характерная шкала длины процесса (практически, «насколько близко» должны быть две точки и, чтобы существенно влиять друг на друга), является дельта Кронекера и стандартное отклонение шумовых флуктуаций. Более того, является модифицированной функцией Бесселя порядка и является гамма-функцией, оцененной в . Важно, что сложная ковариационная функция может быть определена как линейная комбинация других более простых ковариационных функций, чтобы включить различные идеи о наборе данных под рукой. $d=|x-x'|$ $\ell$ $x$ $x'$ $\delta$ $\sigma$ $K_{\nu }$ $\nu$ $\Gamma (\nu )$ $\nu$

Выводимые результаты зависят от значений гиперпараметров (например , и ), определяющих поведение модели. Популярным выбором является предоставление оценок максимума апостериори (MAP) с некоторой выбранной априорной вероятностью. Если априорная вероятность очень близка к однородной, это то же самое, что и максимизация предельного правдоподобия процесса; маргинализация выполняется по наблюдаемым значениям процесса . ^[7] Этот подход также известен как максимальное правдоподобие II , максимизация доказательств или эмпирический Байес . ^[9] $\theta$ $\ell$ $\sigma$ $\theta$ $y$

Непрерывность

Для гауссовского процесса непрерывность по вероятности эквивалентна среднеквадратичной непрерывности , ^[10]^{: 145} , а непрерывность с вероятностью единица эквивалентна выборочной непрерывности . ^[11]^{: 91 «Гауссовские процессы разрывны в фиксированных точках».} Последнее подразумевает, но не подразумевается, непрерывность по вероятности. Непрерывность по вероятности имеет место тогда и только тогда, когда среднее значение и автоковариация являются непрерывными функциями. Напротив, выборочная непрерывность была сложной даже для стационарных гауссовских процессов (как, вероятно, впервые заметил Андрей Колмогоров ), и еще более сложной для более общих процессов. ^[12]^{: Раздел 2.8}^[13]^{: 69, 81}^[14]^{: 80}^[15] Как обычно, под выборочным непрерывным процессом подразумевается процесс, который допускает выборочную непрерывную модификацию . ^[16]^{: 292}^[17]^{: 424}

Стационарный корпус

Для стационарного гауссовского процесса некоторые условия на его спектр достаточны для непрерывности выборки, но не являются необходимыми. Необходимое и достаточное условие, иногда называемое теоремой Дадли–Ферника, включает функцию, определяемую выражением (правая часть не зависит от из-за стационарности). Непрерывность по вероятности эквивалентна непрерывности при Когда сходимость к (как ) слишком медленная, непрерывность выборки может нарушиться. Сходимость следующих интегралов имеет значение: эти два интеграла равны согласно интегрированию путем подстановки Первое подынтегральное выражение не обязательно должно быть ограничено, так как, таким образом, интеграл может сходиться ( ) или расходиться ( ). Взяв, например, для большого то есть для малого получаем когда и когда В этих двух случаях функция возрастает на , но, как правило, это не так. Более того, условие $X=(X_{t})_{t\in \mathbb {R} },$ $\sigma$ $\sigma (h)={\sqrt {{\mathbb {E} }{\big [}X(t+h)-X(t){\big ]}^{2}}}$ $t$ $X$ $\sigma$ $0.$ $\sigma (h)$ $0$ $h\to 0$ $X$ $I(\sigma )=\int _{0}^{1}{\frac {\sigma (h)}{h{\sqrt {\log(1/h)}}}}\,dh=\int _{0}^{\infty }2\sigma (e^{-x^{2}})\,dx,$ ${\textstyle h=e^{-x^{2}},}$ ${\textstyle x={\sqrt {\log(1/h)}}.}$ $h\to 0+,$ $I(\sigma )<\infty$ $I(\sigma )=\infty$ ${\textstyle \sigma (e^{-x^{2}})={\tfrac {1}{x^{a}}}}$ $x,$ ${\textstyle \sigma (h)=(\log(1/h))^{-a/2}}$ $h,$ $I(\sigma )<\infty$ $a>1,$ $I(\sigma )=\infty$ $0<a\leq 1.$ $\sigma$ $[0,\infty ),$

(*) существуеттакой, чтоявляется монотонным на

\varepsilon >0

\sigma

[0,\varepsilon ]

не следует из непрерывности и очевидных соотношений (для всех ) и $\sigma$ $\sigma (h)\geq 0$ $h$ $\sigma (0)=0.$

Теорема 1 — Пусть непрерывна и удовлетворяет (*). Тогда условие необходимо и достаточно для непрерывности выборки $\sigma$ $I(\sigma )<\infty$ $X.$

Немного истории. ^[17]^{: 424} Достаточность была объявлена Ксавье Ферником в 1964 году, но первое доказательство было опубликовано Ричардом М. Дадли в 1967 году. ^[16]^{: Теорема 7.1} Необходимость была доказана Майклом Б. Маркусом и Лоуренсом Шеппом в 1970 году. ^[18]^{: 380}

Существуют выборочные непрерывные процессы , такие, что они нарушают условие (*). Пример, найденный Маркусом и Шеппом ^[18]^{: 387} — это случайный лакунарный ряд Фурье , где — независимые случайные величины со стандартным нормальным распределением ; частоты — быстрорастущая последовательность; и коэффициенты удовлетворяют Последнее соотношение подразумевает $X$ $I(\sigma )=\infty ;$ $X_{t}=\sum _{n=1}^{\infty }c_{n}(\xi _{n}\cos \lambda _{n}t+\eta _{n}\sin \lambda _{n}t),$ $\xi _{1},\eta _{1},\xi _{2},\eta _{2},\dots$ $0<\lambda _{1}<\lambda _{2}<\dots$ $c_{n}>0$ ${\textstyle \sum _{n}c_{n}<\infty .}$

${\textstyle {\mathbb {E} }\sum _{n}c_{n}(|\xi _{n}|+|\eta _{n}|)=\sum _{n}c_{n}{\mathbb {E} }[|\xi _{n}|+|\eta _{n}|]={\text{const}}\cdot \sum _{n}c_{n}<\infty ,}$

откуда почти наверное, что обеспечивает равномерную сходимость ряда Фурье почти наверное, и непрерывность выборки ${\textstyle \sum _{n}c_{n}(|\xi _{n}|+|\eta _{n}|)<\infty }$ $X.$

Ее автоковариационная функция нигде не монотонна (см. рисунок), как и соответствующая функция ${\mathbb {E} }[X_{t}X_{t+h}]=\sum _{n=1}^{\infty }c_{n}^{2}\cos \lambda _{n}h$ $\sigma ,$ $\sigma (h)={\sqrt {2{\mathbb {E} }[X_{t}X_{t}]-2{\mathbb {E} }[X_{t}X_{t+h}]}}=2{\sqrt {\sum _{n=1}^{\infty }c_{n}^{2}\sin ^{2}{\frac {\lambda _{n}h}{2}}}}.$

Броуновское движение как интеграл гауссовых процессов

Процесс Винера (также известный как броуновское движение) — это интеграл обобщенного гауссовского процесса белого шума . Он не является стационарным , но имеет стационарные приращения .

Процесс Орнштейна–Уленбека является стационарным гауссовым процессом.

Броуновский мост (как и процесс Орнштейна–Уленбека) является примером гауссовского процесса, приращения которого не являются независимыми .

Дробное броуновское движение — это гауссовский процесс, ковариационная функция которого является обобщением ковариационной функции винеровского процесса.

Структура RKHS и гауссовский процесс

Пусть будет гауссовский процесс с нулевым средним и неотрицательно определенной ковариационной функцией , а будет симметричной и положительно полуопределенной функцией. Тогда существует гауссовский процесс , имеющий ковариацию . Более того, воспроизводящее ядро, гильбертово пространство, ассоциированное с , совпадает с теоремой Кэмерона–Мартина, ассоциированным пространством , и все пространства , и являются изометричными. ^[19] С этого момента пусть будет воспроизводящее ядро, гильбертово пространство с положительно определенным ядром . $f$ $\left\{X_{t};t\in T\right\}$ $K$ $R$ $X$ $R$ $R$ $R(H)$ $X$ $R(H)$ $H_{X}$ ${\mathcal {H}}(K)$ ${\mathcal {H}}(R)$ $R$

Закон нуля или единицы Дрисколла является результатом, характеризующим выборочные функции, генерируемые гауссовым процессом: где и — ковариационные матрицы всех возможных пар точек, следует $\lim _{n\to \infty }\operatorname {tr} [K_{n}R_{n}^{-1}]<\infty ,$ $K_{n}$ $R_{n}$ $n$ $\Pr[f\in {\mathcal {H}}(R)]=1.$

Более того, подразумевает ^[20] $\lim _{n\to \infty }\operatorname {tr} [K_{n}R_{n}^{-1}]=\infty$ $\Pr[f\in {\mathcal {H}}(R)]=0.$

Это имеет значительные последствия, когда , как $K=R$ $\lim _{n\to \infty }\operatorname {tr} [R_{n}R_{n}^{-1}]=\lim _{n\to \infty }\operatorname {tr} [I]=\lim _{n\to \infty }n=\infty .$

Таким образом, почти все траектории выборки гауссовского процесса с нулевым средним и положительно определенным ядром будут лежать за пределами гильбертова пространства . $K$ ${\mathcal {H}}(K)$

Линейно ограниченные гауссовские процессы

Для многих приложений, представляющих интерес, некоторые уже имеющиеся знания о рассматриваемой системе уже даны. Рассмотрим, например, случай, когда выход гауссовского процесса соответствует магнитному полю; здесь реальное магнитное поле ограничено уравнениями Максвелла, и было бы желательно найти способ включить это ограничение в формализм гауссовского процесса, поскольку это, вероятно, улучшит точность алгоритма.

Метод включения линейных ограничений в гауссовские процессы уже существует: ^[21]

Рассмотрим выходную функцию (векторного значения) , которая, как известно, подчиняется линейному ограничению (т. е. является линейным оператором). Тогда ограничение можно выполнить, выбрав , где моделируется как гауссовский процесс, и найдя такое, что Учитывая и используя тот факт, что гауссовские процессы замкнуты относительно линейных преобразований, гауссовский процесс для подчинения ограничению становится Следовательно, линейные ограничения можно закодировать в функцию среднего значения и ковариации гауссовского процесса. $f(x)$ ${\mathcal {F}}_{X}$ ${\mathcal {F}}_{X}(f(x))=0.$ ${\mathcal {F}}_{X}$ $f(x)={\mathcal {G}}_{X}(g(x))$ $g(x)\sim {\mathcal {GP}}(\mu _{g},K_{g})$ ${\mathcal {G}}_{X}$ ${\mathcal {F}}_{X}({\mathcal {G}}_{X}(g))=0\qquad \forall g.$ ${\mathcal {G}}_{X}$ $f$ ${\mathcal {F}}_{X}$ $f(x)={\mathcal {G}}_{X}g\sim {\mathcal {GP}}({\mathcal {G}}_{X}\mu _{g},{\mathcal {G}}_{X}K_{g}{\mathcal {G}}_{X'}^{\mathsf {T}}).$

Приложения

Гауссовский процесс может использоваться как априорное распределение вероятностей по функциям в байесовском выводе . ^[7]^[23] Учитывая любой набор из N точек в желаемой области ваших функций, возьмите многомерный гауссов , параметр матрицы ковариации которого является матрицей Грама ваших N точек с некоторым желаемым ядром , и сделайте выборку из этого гауссиана. Для решения проблемы многовыходного прогнозирования была разработана регрессия гауссовского процесса для векторнозначной функции. В этом методе строится «большая» ковариация, которая описывает корреляции между всеми входными и выходными переменными, взятыми в N точках в желаемой области. ^[24] Этот подход был подробно разработан для матричнозначных гауссовских процессов и обобщен на процессы с «более тяжелыми хвостами», такие как процессы Стьюдента-t . ^[25]

Вывод непрерывных значений с гауссовым процессом априорно известен как гауссовский процесс регрессии, или кригинг ; расширение гауссовского процесса регрессии на несколько целевых переменных известно как кокригинг . ^[26] Гауссовские процессы, таким образом, полезны как мощный нелинейный многомерный интерполятор . Кригинг также используется для расширения гауссова процесса в случае смешанных целочисленных входов. ^[27]

Гауссовские процессы также широко используются для решения задач численного анализа, таких как численное интегрирование, решение дифференциальных уравнений или оптимизация в области вероятностных чисел .

Гауссовские процессы также могут использоваться в контексте моделей смеси экспертов, например. ^[28]^[29] Основная идея такой обучающей структуры заключается в предположении, что заданное отображение не может быть хорошо захвачено одной моделью гауссовских процессов. Вместо этого пространство наблюдения делится на подмножества, каждое из которых характеризуется различной функцией отображения; каждое из них изучается посредством различного компонента гауссовских процессов в постулируемой смеси.

В естественных науках гауссовские процессы нашли применение в качестве вероятностных моделей астрономических временных рядов и в качестве предсказателей молекулярных свойств. ^[30]

Прогнозирование гауссовского процесса, или Кригинг

При рассмотрении общей проблемы регрессии гауссовского процесса (кригинга) предполагается, что для гауссовского процесса, наблюдаемого в координатах , вектор значений ⁠ ⁠ является всего лишь одним образцом из многомерного гауссовского распределения размерности, равной числу наблюдаемых координат ⁠ ⁠ . Поэтому, при предположении распределения с нулевым средним, ⁠ ⁠ , где ⁠ ⁠ — ковариационная матрица между всеми возможными парами ⁠ ⁠ для заданного набора гиперпараметров θ . ^[7] Таким образом, логарифмическое маргинальное правдоподобие равно: $f$ $x$ $f(x)$ $n$ $f(x')\sim N(0,K(\theta ,x,x'))$ $K(\theta ,x,x')$ $(x,x')$

$\log p(f(x')\mid \theta ,x)=-{\frac {1}{2}}\left(f(x)^{\mathsf {T}}K(\theta ,x,x')^{-1}f(x')+\log \det(K(\theta ,x,x'))+n\log 2\pi \right)$

и максимизация этого предельного правдоподобия по отношению к $θ$ обеспечивает полную спецификацию гауссовского процесса $f$ . В этой точке можно кратко отметить, что первый член соответствует штрафному члену за несоответствие модели наблюдаемым значениям, а второй член — штрафному члену, который увеличивается пропорционально сложности модели. Указав $θ$ , составление прогнозов относительно ненаблюдаемых значений ⁠ ⁠ $f(x^{*})$ в координатах $x *$ сводится лишь к выборке выборок из предсказательного распределения , где апостериорная средняя оценка $A$ определяется как , а апостериорная дисперсионная оценка B определяется как: где ⁠ ⁠ — ковариация между новой координатой оценки x * и всеми другими наблюдаемыми координатами x для заданного вектора гиперпараметров $θ$ , ⁠ ⁠ и ⁠ ⁠ определяются как и раньше, а ⁠ ⁠ — дисперсия в точке $x$ $*,$ определяемая $θ$ . Важно отметить, что на практике апостериорная средняя оценка ⁠ ⁠ («точечная оценка») представляет собой просто линейную комбинацию наблюдений ⁠ ⁠ ; аналогичным образом дисперсия ⁠ ⁠ фактически не зависит от наблюдений ⁠ ⁠ . Известное узкое место в прогнозировании гауссовского процесса заключается в том, что вычислительная сложность вывода и оценки правдоподобия кубична по числу точек | x |, и, как таковая, может стать неосуществимой для больших наборов данных. ^[6] Работы по разреженным гауссовым процессам, которые обычно основаны на идее построения репрезентативного набора для данного процесса f , пытаются обойти эту проблему. ^[31]^[32] Метод кригинга может использоваться на скрытом уровне нелинейной модели со смешанными эффектами для пространственного функционального прогнозирования: этот метод называется скрытым кригингом. ^[33] $p(y^{*}\mid x^{*},f(x),x)=N(y^{*}\mid A,B)$ $A=K(\theta ,x^{*},x)K(\theta ,x,x')^{-1}f(x)$ $B=K(\theta ,x^{*},x^{*})-K(\theta ,x^{*},x)K(\theta ,x,x')^{-1}K(\theta ,x^{*},x)^{\mathsf {T}}$ $K(\theta ,x^{*},x)$ $K(\theta ,x,x')$ $f(x)$ $K(\theta ,x^{*},x^{*})$ $f(x^{*})$ $f(x)$ $f(x^{*})$ $f(x)$

Часто ковариация имеет вид , где — параметр масштабирования. Примерами являются функции ковариации класса Матерна. Если этот параметр масштабирования известен или неизвестен (т.е. должен быть маргинализирован), то апостериорная вероятность, , т.е. вероятность для гиперпараметров, заданных набором пар данных наблюдений и , допускает аналитическое выражение. ^[34] ${\textstyle K(\theta ,x,x')={\frac {1}{\sigma ^{2}}}{\tilde {K}}(\theta ,x,x')}$ $\sigma ^{2}$ $\sigma ^{2}$ $p(\theta \mid D)$ $\theta$ $D$ $x$ $f(x)$

Байесовские нейронные сети как гауссовские процессы

Байесовские нейронные сети — это особый тип байесовской сети , который получается в результате вероятностной обработки моделей глубокого обучения и искусственных нейронных сетей и назначения априорного распределения их параметрам . Вычисления в искусственных нейронных сетях обычно организованы в последовательные слои искусственных нейронов . Количество нейронов в слое называется шириной слоя. По мере увеличения ширины слоя многие байесовские нейронные сети сводятся к гауссовскому процессу с композиционным ядром замкнутой формы . Этот гауссовский процесс называется гауссовым процессом нейронной сети (NNGP). ^[7]^[35]^[36] Он позволяет более эффективно оценивать прогнозы байесовских нейронных сетей и предоставляет аналитический инструмент для понимания моделей глубокого обучения .

Вычислительные проблемы

В практических приложениях модели гауссовских процессов часто оцениваются на сетке, что приводит к многомерным нормальным распределениям. Использование этих моделей для прогнозирования или оценки параметров с использованием максимального правдоподобия требует оценки многомерной гауссовой плотности, что включает вычисление определителя и обратной матрицы ковариации. Обе эти операции имеют кубическую вычислительную сложность, что означает, что даже для сеток скромных размеров обе операции могут иметь непомерно высокую вычислительную стоимость. Этот недостаток привел к разработке методов множественной аппроксимации .

Смотрите также

Ссылки

^ MacKay, David JC (2003). Теория информации, вывод и алгоритмы обучения (PDF) . Cambridge University Press . стр. 540. ISBN 9780521642989Распределение вероятностей функции является гауссовым процессом, если для любого конечного набора точек плотность является гауссовой $y(\mathbf {x} )$ $\mathbf {x} ^{(1)},\mathbf {x} ^{(2)},\ldots ,\mathbf {x} ^{(N)}$ $P(y(\mathbf {x} ^{(1)}),y(\mathbf {x} ^{(2)}),\ldots ,y(\mathbf {x} ^{(N)}))$
^ Дадли, Р. М. (1989). Действительный анализ и вероятность . Уодсворт и Брукс/Коул. ISBN 0-534-10050-3.
^ ab Amos Lapidoth (8 февраля 2017 г.). Основы цифровой коммуникации. Cambridge University Press. ISBN 978-1-107-17732-1.
^ Кац, М.; Зигерт, А. Дж. Ф. (1947). «Явное представление стационарного гауссовского процесса». Анналы математической статистики . 18 (3): 438–442. doi : 10.1214/aoms/1177730391 .
^ Бишоп, CM (2006). Распознавание образов и машинное обучение . Springer . ISBN 978-0-387-31073-2.
^ abc Барбер, Дэвид (2012). Байесовское рассуждение и машинное обучение. Cambridge University Press . ISBN 978-0-521-51814-7.
^ abcdef Расмуссен, CE; Уильямс, CKI (2006). Гауссовские процессы для машинного обучения. MIT Press . ISBN 978-0-262-18253-9.
^ Гримметт, Джеффри; Дэвид Стирзакер (2001). Вероятность и случайные процессы . Oxford University Press . ISBN 978-0198572220.
^ Сигер, Маттиас (2004). «Гауссовские процессы для машинного обучения». Международный журнал нейронных систем . 14 (2): 69–104. CiteSeerX 10.1.1.71.1079 . doi :10.1142/s0129065704001899. PMID 15112367. S2CID 52807317.
^ Дадли, Р. М. (1975). «Гауссовский процесс и как к нему подойти» (PDF) . Труды Международного конгресса математиков . Т. 2. С. 143–146.
^ Дадли, Р. М. (2010). «Примеры функций гауссовского процесса». Избранные труды Р. М. Дадли . Т. 1. С. 66–103. doi :10.1007/978-1-4419-5821-1_13. ISBN 978-1-4419-5820-4. {{cite book}}: |journal=проигнорировано ( помощь )
^ Талагранд, Мишель (2014). Верхние и нижние оценки случайных процессов: современные методы и классические задачи. Ergebnisse der Mathematik und ihrer Grenzgebiete. 3. Фольге / Серия современных обзоров по математике. Спрингер, Гейдельберг. ISBN 978-3-642-54074-5.
^ Ledoux, Michel (1996), "Изопериметрия и гауссовский анализ", в Dobrushin, Roland; Groeneboom, Piet; Ledoux, Michel (ред.), Lectures on Probability Theory and Statistics: Ecole d'Eté de Probabilités de Saint-Flour XXIV–1994 , Lecture Notes in Mathematics, т. 1648, Berlin: Springer, стр. 165–294, doi :10.1007/BFb0095676, ISBN 978-3-540-62055-6, МР 1600888
^ Адлер, Роберт Дж. (1990). Введение в непрерывность, экстремумы и смежные темы для общих гауссовских процессов . Том 12. Хейворд, Калифорния: Институт математической статистики. ISBN 0-940600-17-X. JSTOR 4355563. MR 1088478. {{cite book}}: |journal=проигнорировано ( помощь )
^ Берман, Симеон М. (1992). «Обзор: Адлер 1990 «Введение в непрерывность...»". Математические обзоры . MR 1088478.
^ ab Дадли, Р. М. (1967). «Размеры компактных подмножеств гильбертова пространства и непрерывность гауссовских процессов». Журнал функционального анализа . 1 (3): 290–330. doi : 10.1016/0022-1236(67)90017-1 .
^ ab Маркус, МБ; Шепп, Лоуренс А. (1972). "Пример поведения гауссовских процессов". Труды шестого симпозиума в Беркли по математической статистике и вероятности, т. II: теория вероятностей . Т. 6. Калифорнийский университет, Беркли. С. 423–441.
^ ab Маркус, Майкл Б.; Шепп, Лоуренс А. (1970). «Непрерывность гауссовских процессов». Труды Американского математического общества . 151 (2): 377–391. doi : 10.1090/s0002-9947-1970-0264749-1 . JSTOR 1995502.
^ Азмуде, Эхсан; Соттинен, Томми; Виитасаари, Лаури; Язиги, Адиль (2014). «Необходимые и достаточные условия гёльдеровской непрерывности гауссовских процессов». Статистика и вероятностные буквы . 94 : 230–235. arXiv : 1403.2215 . дои : 10.1016/j.spl.2014.07.030.
^ Дрисколл, Майкл Ф. (1973). «Воспроизводящее ядро структуры гильбертова пространства выборочных путей гауссовского процесса». Zeitschrift für Wahrscheinlichkeitstheorie und Verwandte Gebiete . 26 (4): 309–316. дои : 10.1007/BF00534894 . ISSN 0044-3719. S2CID 123348980.
^ Йидлинг, Карл; Вальстрём, Никлас; Уиллс, Адриан; Шён, Томас Б. (19.09.2017). «Линейно ограниченные гауссовские процессы». arXiv : 1703.00787 [stat.ML].
^ В документации scikit-learn также есть похожие примеры.
^ Лю, В.; Принсипе, Дж. К.; Хейкин, С. (2010). Kernel Adaptive Filtering: A Comprehensive Introduction. John Wiley . ISBN 978-0-470-44753-6. Архивировано из оригинала 2016-03-04 . Получено 2010-03-26 .
^ Альварес, Маурисио А.; Росаско, Лоренцо; Лоуренс, Нил Д. (2012). «Ядра для векторнозначных функций: обзор» (PDF) . Основы и тенденции в машинном обучении . 4 (3): 195–266. doi :10.1561/2200000036. S2CID 456491.
^ Чэнь, Цзэсюнь; Ван, Бо; Горбань, Александр Н. (2019). «Многомерная регрессия гауссовских и t-процессов Стьюдента для многовыходного прогнозирования». Нейронные вычисления и приложения . 32 (8): 3005–3028. arXiv : 1703.04455 . doi : 10.1007/s00521-019-04687-8 .
^ Stein, ML (1999). Интерполяция пространственных данных: некоторая теория кригинга . Springer .
^ Сэйвс, Пол; Диуан, Юсеф; Бартоли, Натали; Лефевр, Тьерри; Морлье, Жозеф (2023). «Смешанно-категориальное корреляционное ядро для гауссовского процесса». Neurocomputing . 550 : 126472. arXiv : 2211.08262 . doi :10.1016/j.neucom.2023.126472.
^ Платаниос, Эммануил А.; Хатзис, Сотириос П. (2014). «Условная гетероскедастичность смеси гауссовых процессов». Труды IEEE по анализу шаблонов и машинному интеллекту . 36 (5): 888–900. doi :10.1109/TPAMI.2013.183. PMID 26353224. S2CID 10424638.
^ Chatzis, Sotirios P. (2013). «Модель гауссовского процесса со скрытой переменной и априорными процессами Питмана–Йора для многоклассовой классификации». Neurocomputing . 120 : 482–489. doi :10.1016/j.neucom.2013.04.029.
^ Гриффитс, Райан-Рис (2022). Приложения гауссовых процессов в экстремальных масштабах длины: от молекул до черных дыр (диссертация). Кембриджский университет. arXiv : 2303.14291 . doi : 10.17863/CAM.93643.
^ Smola, AJ; Schoellkopf, B. (2000). «Аппроксимация разреженной жадной матрицы для машинного обучения». Труды семнадцатой международной конференции по машинному обучению : 911–918. CiteSeerX 10.1.1.43.3153 .
^ Csato, L.; Opper, M. (2002). «Разреженные онлайновые гауссовские процессы». Neural Computation . 14 (3): 641–668. CiteSeerX 10.1.1.335.9713 . doi :10.1162/089976602317250933. PMID 11860686. S2CID 11375333.
^ Ли, Се Юн; Маллик, Бани (2021). «Байесовское иерархическое моделирование: применение к результатам добычи в сланцевом месторождении Игл-Форд в Южном Техасе». Санкхья Б. 84 : 1–43. doi : 10.1007/s13571-020-00245-8 .
^ Ранфтл, Саша; Мелито, Джан Марко; Бадели, Вахид; Рейнбахер-Кёстингер, Элис; Эллерманн, Катрин; фон дер Линден, Вольфганг (2019-12-31). "Байесовская количественная оценка неопределенности с использованием данных с множественной точностью и гауссовых процессов для импедансной кардиографии расслоения аорты". Энтропия . 22 (1): 58. Bibcode : 2019Entrp..22...58R. doi : 10.3390/e22010058 . ISSN 1099-4300. PMC 7516489. PMID 33285833 .
^ Новак, Роман; Сяо, Лечао; Хрон, Джири; Ли, Джэхун; Алеми, Александр А.; Соль-Дикштейн, Яша; Шенхольц, Сэмюэл С. (2020). «Нейронные касательные: быстрые и простые бесконечные нейронные сети на Python». Международная конференция по представлениям обучения . arXiv : 1912.02803 .
^ Нил, Рэдфорд М. (2012). Байесовское обучение для нейронных сетей . Springer Science and Business Media.

Внешние ссылки

В Wikibooks есть книга по теме: Гауссовский процесс

Литература

Веб-сайт гауссовских процессов, включая текст книги Расмуссена и Уильямса «Гауссовские процессы для машинного обучения»
Эбден, Марк (2015). «Гауссовские процессы: краткое введение». arXiv : 1505.02965 [math.ST].
Обзор гауссовых случайных полей и корреляционных функций
Эффективное обучение с подкреплением с использованием гауссовых процессов

Программное обеспечение

GPML: комплексный набор инструментов Matlab для регрессии и классификации GP
STK: небольшой (Matlab/Octave) набор инструментов для моделирования Кригинга и ГП
Модуль Кригинга в фреймворке UQLab (Matlab)
CODES Toolbox: реализации кригинга, вариационного кригинга и моделей с множественной точностью (Matlab)
Функция Matlab/Octave для стационарных гауссовых полей
Yelp MOE – движок оптимизации черного ящика, использующий гауссов процесс обучения
ooDACE Архивировано 09.08.2020 в Wayback Machine – Гибкий объектно-ориентированный набор инструментов Matlab для кригинга.
GPstuff – набор инструментов для гауссовского процесса для Matlab и Octave
GPy – фреймворк гауссовых процессов на Python
GSTools — набор геостатистических инструментов, включая регрессию гауссовского процесса, написанный на Python.
Интерактивная демонстрация регрессии гауссовского процесса
Базовая библиотека гауссовых процессов, написанная на C++11
scikit-learn – библиотека машинного обучения для Python, включающая регрессию и классификацию гауссовых процессов
[1] - Набор инструментов Кригинга (KriKit) разработан в Институте био- и геонаук 1 (IBG-1) Forschungszentrum Jülich (FZJ).

Видеоуроки

Основы гауссовского процесса Дэвида Маккея
Обучение с помощью гауссовых процессов Карла Эдварда Расмуссена
Байесовский вывод и гауссовские процессы Карла Эдварда Расмуссена