В теории вероятностей и статистике гауссовский процесс — это стохастический процесс (совокупность случайных величин, индексированных по времени или пространству), такой, что каждая конечная совокупность этих случайных величин имеет многомерное нормальное распределение . Распределение гауссовского процесса — это совместное распределение всех этих (бесконечно многих) случайных величин, и как таковое, это распределение по функциям с непрерывной областью определения, например, по времени или пространству.
Концепция гауссовских процессов названа в честь Карла Фридриха Гаусса , поскольку она основана на понятии гауссовского распределения ( нормального распределения ). Гауссовские процессы можно рассматривать как бесконечномерное обобщение многомерных нормальных распределений.
является многомерной гауссовой случайной величиной . [1] Это то же самое, что сказать, что каждая линейная комбинация имеет одномерное нормальное (или гауссово) распределение.
Используя характеристические функции случайных величин с обозначением мнимой единицы такой, что , свойство гауссовости можно сформулировать следующим образом: является гауссовским тогда и только тогда, когда для любого конечного набора индексов существуют действительные значения , с такими, что для всех выполняется равенство
Дисперсия гауссовского процесса конечна в любой момент времени , формально [3] : стр. 515
Стационарность
Для общих стохастических процессов стационарность в строгом смысле подразумевает стационарность в широком смысле , но не каждый стационарный стохастический процесс в широком смысле является стационарным в строгом смысле. Однако для гауссовского стохастического процесса эти два понятия эквивалентны. [3] : стр. 518
Гауссовский стохастический процесс является стационарным в строгом смысле тогда и только тогда, когда он является стационарным в широком смысле.
Пример
Существует явное представление для стационарных гауссовских процессов. [4] Простой пример этого представления:
Стационарность относится к поведению процесса относительно разделения любых двух точек и . Если процесс стационарен, ковариационная функция зависит только от . Например, процесс Орнштейна–Уленбека стационарен.
Если процесс зависит только от , евклидова расстояния (не направления) между и , то процесс считается изотропным. Процесс, который одновременно стационарен и изотропен, считается однородным ; [8] на практике эти свойства отражают различия (или, скорее, их отсутствие) в поведении процесса с учетом местоположения наблюдателя.
В конечном счете, гауссовские процессы переводятся как принятие априорных значений функций, и гладкость этих априорных значений может быть вызвана функцией ковариации. [6] Если мы ожидаем, что для «близлежащих» входных точек и соответствующих им выходных точек и также будут «близкими», то предположение о непрерывности присутствует. Если мы хотим допустить значительное смещение, то мы можем выбрать более грубую функцию ковариации. Крайними примерами поведения являются функция ковариации Орнштейна–Уленбека и квадратная экспонента, где первая никогда не дифференцируема, а вторая бесконечно дифференцируема.
Периодичность относится к индуцированию периодических шаблонов в поведении процесса. Формально это достигается путем отображения входных данных в двумерный вектор .
Обычные ковариационные функции
Существует ряд общих ковариационных функций: [7]
Постоянный :
Линейный:
Белый гауссовский шум:
Квадратная экспонента:
Орнштейн–Уленбек:
Мать:
Периодические:
Рациональное квадратичное:
Здесь . Параметром является характерная шкала длины процесса (практически, «насколько близко» должны быть две точки и, чтобы существенно влиять друг на друга), является дельта Кронекера и стандартное отклонение шумовых флуктуаций. Более того, является модифицированной функцией Бесселя порядка и является гамма-функцией, оцененной в . Важно, что сложная ковариационная функция может быть определена как линейная комбинация других более простых ковариационных функций, чтобы включить различные идеи о наборе данных под рукой.
Выводимые результаты зависят от значений гиперпараметров (например , и ), определяющих поведение модели. Популярным выбором является предоставление оценок максимума апостериори (MAP) с некоторой выбранной априорной вероятностью. Если априорная вероятность очень близка к однородной, это то же самое, что и максимизация предельного правдоподобия процесса; маргинализация выполняется по наблюдаемым значениям процесса . [7] Этот подход также известен как максимальное правдоподобие II , максимизация доказательств или эмпирический Байес . [9]
Непрерывность
Для гауссовского процесса непрерывность по вероятности эквивалентна среднеквадратичной непрерывности , [10] : 145
, а непрерывность с вероятностью единица эквивалентна выборочной непрерывности . [11] : 91 «Гауссовские процессы разрывны в фиксированных точках».
Последнее подразумевает, но не подразумевается, непрерывность по вероятности. Непрерывность по вероятности имеет место тогда и только тогда, когда среднее значение и автоковариация являются непрерывными функциями. Напротив, выборочная непрерывность была сложной даже для стационарных гауссовских процессов (как, вероятно, впервые заметил Андрей Колмогоров ), и еще более сложной для более общих процессов. [12] : Раздел 2.8 [13] : 69, 81 [14] : 80 [15]
Как обычно, под выборочным непрерывным процессом подразумевается процесс, который допускает выборочную непрерывную модификацию . [16] : 292 [17] : 424
Стационарный корпус
Для стационарного гауссовского процесса некоторые условия на его спектр достаточны для непрерывности выборки, но не являются необходимыми. Необходимое и достаточное условие, иногда называемое теоремой Дадли–Ферника, включает функцию, определяемую выражением
(правая часть не зависит от из-за стационарности). Непрерывность по вероятности эквивалентна непрерывности при Когда сходимость к (как ) слишком медленная, непрерывность выборки может нарушиться. Сходимость следующих интегралов имеет значение:
эти два интеграла равны согласно интегрированию путем подстановки Первое подынтегральное выражение не обязательно должно быть ограничено, так как, таким образом, интеграл может сходиться ( ) или расходиться ( ). Взяв, например, для большого то есть для малого получаем когда и когда
В этих двух случаях функция возрастает на , но, как правило, это не так. Более того, условие
(*) существуеттакой, чтоявляется монотонным на
не следует из непрерывности и очевидных соотношений (для всех ) и
Теорема 1 — Пусть непрерывна и удовлетворяет (*). Тогда условие необходимо и достаточно для непрерывности выборки
Немного истории. [17] : 424
Достаточность была объявлена Ксавье Ферником в 1964 году, но первое доказательство было опубликовано Ричардом М. Дадли в 1967 году. [16] : Теорема 7.1
Необходимость была доказана Майклом Б. Маркусом и Лоуренсом Шеппом в 1970 году. [18] : 380
Существуют выборочные непрерывные процессы , такие, что они нарушают условие (*). Пример, найденный Маркусом и Шеппом [18] : 387 — это случайный лакунарный ряд Фурье
, где — независимые случайные величины со стандартным нормальным распределением ; частоты — быстрорастущая последовательность; и коэффициенты удовлетворяют Последнее соотношение подразумевает
откуда почти наверное, что обеспечивает равномерную сходимость ряда Фурье почти наверное, и непрерывность выборки
Ее автоковариационная функция
нигде не монотонна (см. рисунок), как и соответствующая функция
Броуновское движение как интеграл гауссовых процессов
Броуновский мост (как и процесс Орнштейна–Уленбека) является примером гауссовского процесса, приращения которого не являются независимыми .
Дробное броуновское движение — это гауссовский процесс, ковариационная функция которого является обобщением ковариационной функции винеровского процесса.
Структура RKHS и гауссовский процесс
Пусть будет гауссовский процесс с нулевым средним и неотрицательно определенной ковариационной функцией , а будет симметричной и положительно полуопределенной функцией. Тогда существует гауссовский процесс , имеющий ковариацию . Более того, воспроизводящее ядро, гильбертово пространство, ассоциированное с , совпадает с теоремой Кэмерона–Мартина, ассоциированным пространством , и все пространства , и являются изометричными. [19] С этого момента пусть будет воспроизводящее ядро, гильбертово пространство с положительно определенным ядром .
Закон нуля или единицы Дрисколла является результатом, характеризующим выборочные функции, генерируемые гауссовым процессом:
где и — ковариационные матрицы всех возможных пар точек, следует
Более того,
подразумевает [20]
Это имеет значительные последствия, когда , как
Таким образом, почти все траектории выборки гауссовского процесса с нулевым средним и положительно определенным ядром будут лежать за пределами гильбертова пространства .
Линейно ограниченные гауссовские процессы
Для многих приложений, представляющих интерес, некоторые уже имеющиеся знания о рассматриваемой системе уже даны. Рассмотрим, например, случай, когда выход гауссовского процесса соответствует магнитному полю; здесь реальное магнитное поле ограничено уравнениями Максвелла, и было бы желательно найти способ включить это ограничение в формализм гауссовского процесса, поскольку это, вероятно, улучшит точность алгоритма.
Метод включения линейных ограничений в гауссовские процессы уже существует: [21]
Рассмотрим выходную функцию (векторного значения) , которая, как известно, подчиняется линейному ограничению (т. е. является линейным оператором).
Тогда ограничение можно выполнить, выбрав , где моделируется как гауссовский процесс, и найдя такое, что
Учитывая и используя тот факт, что гауссовские процессы замкнуты относительно линейных преобразований, гауссовский процесс для подчинения ограничению становится
Следовательно, линейные ограничения можно закодировать в функцию среднего значения и ковариации гауссовского процесса.
Приложения
Гауссовский процесс может использоваться как априорное распределение вероятностей по функциям в байесовском выводе . [7] [23] Учитывая любой набор из N точек в желаемой области ваших функций, возьмите многомерный гауссов , параметр матрицы ковариации которого является матрицей Грама ваших N точек с некоторым желаемым ядром , и сделайте выборку из этого гауссиана. Для решения проблемы многовыходного прогнозирования была разработана регрессия гауссовского процесса для векторнозначной функции. В этом методе строится «большая» ковариация, которая описывает корреляции между всеми входными и выходными переменными, взятыми в N точках в желаемой области. [24] Этот подход был подробно разработан для матричнозначных гауссовских процессов и обобщен на процессы с «более тяжелыми хвостами», такие как процессы Стьюдента-t . [25]
Вывод непрерывных значений с гауссовым процессом априорно известен как гауссовский процесс регрессии, или кригинг ; расширение гауссовского процесса регрессии на несколько целевых переменных известно как кокригинг . [26] Гауссовские процессы, таким образом, полезны как мощный нелинейный многомерный интерполятор . Кригинг также используется для расширения гауссова процесса в случае смешанных целочисленных входов. [27]
Гауссовские процессы также широко используются для решения задач численного анализа, таких как численное интегрирование, решение дифференциальных уравнений или оптимизация в области вероятностных чисел .
Гауссовские процессы также могут использоваться в контексте моделей смеси экспертов, например. [28] [29] Основная идея такой обучающей структуры заключается в предположении, что заданное отображение не может быть хорошо захвачено одной моделью гауссовских процессов. Вместо этого пространство наблюдения делится на подмножества, каждое из которых характеризуется различной функцией отображения; каждое из них изучается посредством различного компонента гауссовских процессов в постулируемой смеси.
В естественных науках гауссовские процессы нашли применение в качестве вероятностных моделей астрономических временных рядов и в качестве предсказателей молекулярных свойств. [30]
Прогнозирование гауссовского процесса, или Кригинг
При рассмотрении общей проблемы регрессии гауссовского процесса (кригинга) предполагается, что для гауссовского процесса, наблюдаемого в координатах , вектор значений является всего лишь одним образцом из многомерного гауссовского распределения размерности, равной числу наблюдаемых координат . Поэтому, при предположении распределения с нулевым средним, , где — ковариационная матрица между всеми возможными парами для заданного набора гиперпараметров θ . [7]
Таким образом, логарифмическое маргинальное правдоподобие равно:
и максимизация этого предельного правдоподобия по отношению к θ обеспечивает полную спецификацию гауссовского процесса f . В этой точке можно кратко отметить, что первый член соответствует штрафному члену за несоответствие модели наблюдаемым значениям, а второй член — штрафному члену, который увеличивается пропорционально сложности модели. Указав θ , составление прогнозов относительно ненаблюдаемых значений в координатах x * сводится лишь к выборке выборок из предсказательного распределения , где апостериорная средняя оценка A определяется как
, а апостериорная дисперсионная оценка B определяется как:
где — ковариация между новой координатой оценки x * и всеми другими наблюдаемыми координатами x для заданного вектора гиперпараметров θ , и определяются как и раньше, а — дисперсия в точке x *, определяемая θ . Важно отметить, что на практике апостериорная средняя оценка («точечная оценка») представляет собой просто линейную комбинацию наблюдений ; аналогичным образом дисперсия фактически не зависит от наблюдений . Известное узкое место в прогнозировании гауссовского процесса заключается в том, что вычислительная сложность вывода и оценки правдоподобия кубична по числу точек | x |, и, как таковая, может стать неосуществимой для больших наборов данных. [6] Работы по разреженным гауссовым процессам, которые обычно основаны на идее построения репрезентативного набора для данного процесса f , пытаются обойти эту проблему. [31] [32] Метод кригинга может использоваться на скрытом уровне нелинейной модели со смешанными эффектами для пространственного функционального прогнозирования: этот метод называется скрытым кригингом. [33]
Часто ковариация имеет вид , где — параметр масштабирования. Примерами являются функции ковариации класса Матерна. Если этот параметр масштабирования известен или неизвестен (т.е. должен быть маргинализирован), то апостериорная вероятность, , т.е. вероятность для гиперпараметров, заданных набором пар данных наблюдений и , допускает аналитическое выражение. [34]
Байесовские нейронные сети как гауссовские процессы
Байесовские нейронные сети — это особый тип байесовской сети , который получается в результате вероятностной обработки моделей глубокого обучения и искусственных нейронных сетей и назначения априорного распределения их параметрам . Вычисления в искусственных нейронных сетях обычно организованы в последовательные слои искусственных нейронов . Количество нейронов в слое называется шириной слоя. По мере увеличения ширины слоя многие байесовские нейронные сети сводятся к гауссовскому процессу с композиционным ядром замкнутой формы . Этот гауссовский процесс называется гауссовым процессом нейронной сети (NNGP). [7] [35] [36] Он позволяет более эффективно оценивать прогнозы байесовских нейронных сетей и предоставляет аналитический инструмент для понимания моделей глубокого обучения .
Вычислительные проблемы
В практических приложениях модели гауссовских процессов часто оцениваются на сетке, что приводит к многомерным нормальным распределениям. Использование этих моделей для прогнозирования или оценки параметров с использованием максимального правдоподобия требует оценки многомерной гауссовой плотности, что включает вычисление определителя и обратной матрицы ковариации. Обе эти операции имеют кубическую вычислительную сложность, что означает, что даже для сеток скромных размеров обе операции могут иметь непомерно высокую вычислительную стоимость. Этот недостаток привел к разработке методов множественной аппроксимации .
^ MacKay, David JC (2003). Теория информации, вывод и алгоритмы обучения (PDF) . Cambridge University Press . стр. 540. ISBN 9780521642989Распределение вероятностей функции является гауссовым процессом, если для любого конечного набора точек плотность является гауссовой
^ Дадли, Р. М. (1989). Действительный анализ и вероятность . Уодсворт и Брукс/Коул. ISBN0-534-10050-3.
^ ab Amos Lapidoth (8 февраля 2017 г.). Основы цифровой коммуникации. Cambridge University Press. ISBN978-1-107-17732-1.
^ Кац, М.; Зигерт, А. Дж. Ф. (1947). «Явное представление стационарного гауссовского процесса». Анналы математической статистики . 18 (3): 438–442. doi : 10.1214/aoms/1177730391 .
^ Сигер, Маттиас (2004). «Гауссовские процессы для машинного обучения». Международный журнал нейронных систем . 14 (2): 69–104. CiteSeerX 10.1.1.71.1079 . doi :10.1142/s0129065704001899. PMID 15112367. S2CID 52807317.
^ Дадли, Р. М. (1975). «Гауссовский процесс и как к нему подойти» (PDF) . Труды Международного конгресса математиков . Т. 2. С. 143–146.
^ Дадли, Р. М. (2010). «Примеры функций гауссовского процесса». Избранные труды Р. М. Дадли . Т. 1. С. 66–103. doi :10.1007/978-1-4419-5821-1_13. ISBN978-1-4419-5820-4. {{cite book}}: |journal=проигнорировано ( помощь )
^ Талагранд, Мишель (2014). Верхние и нижние оценки случайных процессов: современные методы и классические задачи. Ergebnisse der Mathematik und ihrer Grenzgebiete. 3. Фольге / Серия современных обзоров по математике. Спрингер, Гейдельберг. ISBN978-3-642-54074-5.
^ Ledoux, Michel (1996), "Изопериметрия и гауссовский анализ", в Dobrushin, Roland; Groeneboom, Piet; Ledoux, Michel (ред.), Lectures on Probability Theory and Statistics: Ecole d'Eté de Probabilités de Saint-Flour XXIV–1994 , Lecture Notes in Mathematics, т. 1648, Berlin: Springer, стр. 165–294, doi :10.1007/BFb0095676, ISBN978-3-540-62055-6, МР 1600888
^ Адлер, Роберт Дж. (1990). Введение в непрерывность, экстремумы и смежные темы для общих гауссовских процессов . Том 12. Хейворд, Калифорния: Институт математической статистики. ISBN0-940600-17-X. JSTOR 4355563. MR 1088478. {{cite book}}: |journal=проигнорировано ( помощь )
^ Берман, Симеон М. (1992). «Обзор: Адлер 1990 «Введение в непрерывность...»". Математические обзоры . MR 1088478.
^ ab Дадли, Р. М. (1967). «Размеры компактных подмножеств гильбертова пространства и непрерывность гауссовских процессов». Журнал функционального анализа . 1 (3): 290–330. doi : 10.1016/0022-1236(67)90017-1 .
^ ab Маркус, МБ; Шепп, Лоуренс А. (1972). "Пример поведения гауссовских процессов". Труды шестого симпозиума в Беркли по математической статистике и вероятности, т. II: теория вероятностей . Т. 6. Калифорнийский университет, Беркли. С. 423–441.
^ Платаниос, Эммануил А.; Хатзис, Сотириос П. (2014). «Условная гетероскедастичность смеси гауссовых процессов». Труды IEEE по анализу шаблонов и машинному интеллекту . 36 (5): 888–900. doi :10.1109/TPAMI.2013.183. PMID 26353224. S2CID 10424638.
^ Chatzis, Sotirios P. (2013). «Модель гауссовского процесса со скрытой переменной и априорными процессами Питмана–Йора для многоклассовой классификации». Neurocomputing . 120 : 482–489. doi :10.1016/j.neucom.2013.04.029.
^ Гриффитс, Райан-Рис (2022). Приложения гауссовых процессов в экстремальных масштабах длины: от молекул до черных дыр (диссертация). Кембриджский университет. arXiv : 2303.14291 . doi : 10.17863/CAM.93643.
^ Smola, AJ; Schoellkopf, B. (2000). «Аппроксимация разреженной жадной матрицы для машинного обучения». Труды семнадцатой международной конференции по машинному обучению : 911–918. CiteSeerX 10.1.1.43.3153 .
^ Ли, Се Юн; Маллик, Бани (2021). «Байесовское иерархическое моделирование: применение к результатам добычи в сланцевом месторождении Игл-Форд в Южном Техасе». Санкхья Б. 84 : 1–43. doi : 10.1007/s13571-020-00245-8 .
^ Ранфтл, Саша; Мелито, Джан Марко; Бадели, Вахид; Рейнбахер-Кёстингер, Элис; Эллерманн, Катрин; фон дер Линден, Вольфганг (2019-12-31). "Байесовская количественная оценка неопределенности с использованием данных с множественной точностью и гауссовых процессов для импедансной кардиографии расслоения аорты". Энтропия . 22 (1): 58. Bibcode : 2019Entrp..22...58R. doi : 10.3390/e22010058 . ISSN 1099-4300. PMC 7516489. PMID 33285833 .
^ Новак, Роман; Сяо, Лечао; Хрон, Джири; Ли, Джэхун; Алеми, Александр А.; Соль-Дикштейн, Яша; Шенхольц, Сэмюэл С. (2020). «Нейронные касательные: быстрые и простые бесконечные нейронные сети на Python». Международная конференция по представлениям обучения . arXiv : 1912.02803 .
^ Нил, Рэдфорд М. (2012). Байесовское обучение для нейронных сетей . Springer Science and Business Media.
Внешние ссылки
В Wikibooks есть книга по теме: Гауссовский процесс
Литература
Веб-сайт гауссовских процессов, включая текст книги Расмуссена и Уильямса «Гауссовские процессы для машинного обучения»