stringtranslate.com

Гауссов процесс

В теории вероятностей и статистике гауссов процесс — это случайный процесс (набор случайных величин, индексированных по времени или пространству), такой, что каждый конечный набор этих случайных величин имеет многомерное нормальное распределение . Распределение гауссовского процесса представляет собой совместное распределение всех этих (бесконечно многих) случайных величин и, как таковое, является распределением по функциям с непрерывной областью определения, например, во времени или пространстве.

Концепция гауссовских процессов названа в честь Карла Фридриха Гаусса, поскольку в ее основе лежит понятие гауссовского распределения ( нормального распределения ). Гауссовские процессы можно рассматривать как бесконечномерное обобщение многомерных нормальных распределений.

Гауссовские процессы полезны в статистическом моделировании , поскольку они извлекают выгоду из свойств, унаследованных от нормального распределения. Например, если случайный процесс моделируется как гауссовский процесс, распределения различных производных величин можно получить явно. К таким величинам относятся среднее значение процесса за определенный период времени и ошибка оценки среднего значения с использованием выборочных значений за небольшой набор периодов времени. Хотя точные модели часто плохо масштабируются по мере увеличения объема данных, было разработано несколько методов аппроксимации , которые часто сохраняют хорошую точность, резко сокращая время вычислений.

Определение

Непрерывный во времени случайный процесс является гауссовским тогда и только тогда, когда для каждого конечного набора индексов в индексном множестве

многомерная гауссова случайная величина . [1] Это то же самое, что сказать, что каждая линейная комбинация имеет одномерное нормальное (или гауссово) распределение.

Используя характеристические функции случайных величин с обозначением мнимой единицы такой, что , свойство Гаусса можно сформулировать следующим образом: является гауссовым тогда и только тогда, когда для каждого конечного набора индексов существуют действительные значения , причем такие, что выполняется следующее равенство для всех ,

или . Можно показать, что числа и являются ковариациями и средними значениями переменных в процессе. [2]

Дисперсия

Дисперсия гауссовского процесса конечна в любой момент времени , формально [3] : с. 515 

Стационарность

Для общих случайных процессов стационарность в строгом смысле подразумевает стационарность в широком смысле , но не каждый стационарный случайный процесс в широком смысле является стационарным в строгом смысле. Однако для гауссовского случайного процесса эти две концепции эквивалентны. [3] : с. 518 

Гауссов случайный процесс является стационарным в строгом смысле тогда и только тогда, когда он стационарен в широком смысле.

Пример

Существует явное представление для стационарных гауссовских процессов. [4] Простой пример этого представления:

где и – независимые случайные величины со стандартным нормальным распределением .

Ковариационные функции

Ключевым фактом гауссовских процессов является то, что они могут быть полностью определены их статистикой второго порядка. [5] Таким образом, если предполагается, что гауссовский процесс имеет нулевое среднее значение, определение ковариационной функции полностью определяет поведение процесса. Важно отметить, что неотрицательная определенность этой функции позволяет ее спектральное разложение с использованием расширения Карунена-Лоэва . Основными аспектами, которые можно определить с помощью ковариационной функции, являются стационарность , изотропность , гладкость и периодичность процесса . [6] [7]

Стационарность относится к поведению процесса относительно разделения любых двух точек и . Если процесс стационарен, ковариационная функция зависит только от . Например, процесс Орнштейна–Уленбека стационарен.

Если процесс зависит только от евклидова расстояния (а не направления) между и , то процесс считается изотропным. Однородным считается процесс, одновременно стационарный и изотропный ; В [8] на практике эти свойства отражают различия (вернее, их отсутствие) в поведении процесса в зависимости от местоположения наблюдателя.

В конечном итоге гауссовские процессы переводятся как принятие априорных значений функций, и гладкость этих априорных значений может быть вызвана функцией ковариации. [6] Если мы ожидаем, что для «близких» входных точек и соответствующих им выходных точек также будет «рядом», то предположение о непрерывности присутствует . Если мы хотим учесть значительное смещение, мы можем выбрать более грубую ковариационную функцию. Крайними примерами такого поведения являются ковариационная функция Орнштейна – Уленбека и квадратичная экспонента, где первая никогда не дифференцируема, а вторая бесконечно дифференцируема.

Периодичность означает создание периодических закономерностей в поведении процесса. Формально это достигается путем сопоставления входных данных с двумерным вектором .

Обычные ковариационные функции

Влияние выбора разных ядер на распределение априорной функции гауссовского процесса. Слева — квадрат экспоненциального ядра. Середина – броуновская. Справа квадратично.

Существует ряд общих ковариационных функций: [7]

Здесь . Параметром является характерный масштаб процесса (практически «насколько близко» должны быть две точки, чтобы существенно влиять друг на друга), это дельта Кронекера и стандартное отклонение шумовых флуктуаций. Кроме того, – модифицированная функция порядка Бесселя и – гамма-функция, оцениваемая при . Важно отметить, что сложную ковариационную функцию можно определить как линейную комбинацию других более простых ковариационных функций, чтобы учесть различные представления о имеющемся наборе данных.

Результаты вывода зависят от значений гиперпараметров (например, и ), определяющих поведение модели. Популярным выбором является предоставление максимальных апостериорных оценок (MAP) с некоторыми выбранными априорными значениями. Если априор очень близок к однородному, это то же самое, что максимизировать предельную вероятность процесса; маргинализация осуществляется по наблюдаемым значениям процесса . [7] Этот подход также известен как метод максимального правдоподобия II , максимизация доказательств или эмпирический Байес . [9]

Непрерывность

Для гауссовского процесса непрерывность по вероятности эквивалентна непрерывности среднеквадратического значения [ 10] : 145  , а непрерывность с вероятностью единица эквивалентна непрерывности выборки . [11] : 91 «Гауссовы процессы разрывны в фиксированных точках». Последнее предполагает, но не подразумевает, непрерывность вероятности. Непрерывность вероятности имеет место тогда и только тогда, когда среднее значение и автоковариация являются непрерывными функциями. Напротив, непрерывность выборки была сложной задачей даже для стационарных гауссовских процессов (как, вероятно, впервые заметил Андрей Колмогоров ), и еще более сложной задачей для более общих процессов. [12] : Раздел. 2.8  [13] : 69, 81  [14] : 80  [15] Как обычно, под выборочно-непрерывным процессом понимают процесс, который допускает выборочно-непрерывную модификацию .[16] : 292  [17] : 424 

Стационарный корпус

Для стационарного гауссовского процесса некоторые условия его спектра достаточны для непрерывности выборки, но не являются необходимыми. Необходимое и достаточное условие, иногда называемое теоремой Дадли – Фернике, включает функцию, определяемую формулой

интегрированием путем подстановки.
(*)   существуеттакой, которыймонотонен на

не следует из непрерывности и очевидных отношений (для всех ) и

Теорема 1.  Пусть  непрерывен и удовлетворяет (*). Тогда условие является необходимым и достаточным для выборочной непрерывности

Немного истории. [17] : 424  Достаточность была объявлена ​​Ксавье Ферником в 1964 году, но первое доказательство было опубликовано Ричардом М. Дадли в 1967 году. [16] : Теорема 7.1  Необходимость была доказана Майклом Б. Маркусом и Лоуренсом Шеппом в 1970 году. [18] ] : 380 

Существуют выборочные непрерывные процессы , нарушающие условие (*). Пример, найденный Маркусом и Шеппом [18] : 387  представляет собой случайный лакунарный ряд Фурье.

стандартным нормальным распределением

откуда почти наверняка, что обеспечивает почти наверняка равномерную сходимость ряда Фурье и выборочную непрерывность

Автокорреляция случайного лакунарного ряда Фурье

Его автоковариационная функция

Броуновское движение как интеграл гауссовских процессов

Винеровский процесс (также известный как броуновское движение) является интегралом обобщенного гауссовского процесса белого шума . Он не стационарен , но имеет стационарные приращения .

Процесс Орнштейна -Уленбека является стационарным гауссовским процессом.

Броуновский мост (как и процесс Орнштейна-Уленбека) является примером гауссовского процесса, приращения которого не являются независимыми .

Дробное броуновское движение — это гауссов процесс, ковариационная функция которого является обобщением функции винеровского процесса.

Закон нуля и единицы Дрисколла

Закон нуля и единицы Дрисколла - это результат, характеризующий выборочные функции, генерируемые гауссовским процессом.

Пусть — гауссовский процесс со средним нулем и неотрицательно определенной ковариационной функцией . Пусть – гильбертово пространство с воспроизводящим ядром и положительно определенным ядром .

Затем

Более того,

[19]

Это имеет важные последствия, когда , как

Таким образом, почти все выборочные пути гауссовского процесса со средним нулем и положительно определенным ядром будут лежать за пределами гильбертова пространства .

Гауссовы процессы с линейными ограничениями

Для многих представляющих интерес приложений уже имеются некоторые ранее существовавшие знания о рассматриваемой системе. Рассмотрим, например, случай, когда результат гауссовского процесса соответствует магнитному полю; здесь реальное магнитное поле ограничено уравнениями Максвелла, и был бы желателен способ включить это ограничение в формализм гауссовского процесса, поскольку это, вероятно, улучшит точность алгоритма.

Метод включения линейных ограничений в гауссовские процессы уже существует: [20]

Рассмотрим (векторную) выходную функцию , которая, как известно, подчиняется линейному ограничению (т. е. является линейным оператором)

Приложения

Пример регрессии гауссовского процесса (прогноз) в сравнении с другими моделями регрессии. [21]

Гауссов процесс можно использовать в качестве априорного распределения вероятностей по функциям в байесовском выводе . [7] [22] Учитывая любой набор из N точек в желаемой области ваших функций, возьмите многомерный гауссиан , параметром ковариационной матрицы которого является матрица Грамма ваших N точек с некоторым желаемым ядром , и выполните выборку из этого гауссиана. Для решения задачи прогнозирования с несколькими выходами была разработана регрессия гауссовского процесса для векторной функции. В этом методе строится «большая» ковариация, описывающая корреляции между всеми входными и выходными переменными, взятыми в N точках в желаемой области. [23] Этот подход был подробно разработан для матричных гауссовских процессов и обобщен на процессы с «более тяжелыми хвостами», такие как процессы Стьюдента . [24]

Вывод непрерывных значений с помощью предшествующего гауссовского процесса известен как регрессия гауссовского процесса или кригинг ; расширение регрессии гауссовского процесса на несколько целевых переменных известно как кокригинг . [25] Таким образом, гауссовские процессы полезны как мощный инструмент нелинейной многомерной интерполяции .

Гауссовы процессы также широко используются для решения задач численного анализа, таких как численное интегрирование, решение дифференциальных уравнений или оптимизация в области вероятностных чисел .

Гауссовские процессы также можно использовать, например, в контексте смешанных экспертных моделей. [26] [27] Основное обоснование такой структуры обучения состоит в предположении, что данное отображение не может быть хорошо отражено с помощью одной модели гауссовского процесса. Вместо этого пространство наблюдения разделено на подмножества, каждое из которых характеризуется своей функцией отображения; каждый из них изучается через различные компоненты гауссовского процесса в постулируемой смеси.

В естественных науках гауссовские процессы нашли применение в качестве вероятностных моделей астрономических временных рядов и в качестве предсказателей молекулярных свойств. [28]

Предсказание гауссовского процесса, или кригинг

Гауссова регрессия процесса (прогноз) с квадратичным экспоненциальным ядром. Левый график основан на предыдущем распределении функции. Средние вытянуты сзади. Справа — средний прогноз с заштрихованным одним стандартным отклонением.

Когда речь идет об общей задаче регрессии гауссовского процесса (кригинг), предполагается, что для гауссовского процесса, наблюдаемого в координатах , вектор значений представляет собой всего лишь одну выборку из многомерного гауссовского распределения размерности, равной числу наблюдаемых координат . Следовательно, в предположении распределения с нулевым средним, где – матрица ковариации между всеми возможными парами для данного набора гиперпараметров θ . [7] Таким образом, логарифмическая предельная вероятность равна:

и максимизация этой предельной вероятности в направлении θ обеспечивает полную спецификацию гауссова процесса f . Здесь можно кратко отметить, что первый член соответствует штрафному члену за неспособность модели соответствовать наблюдаемым значениям, а второй член - штрафному члену, который увеличивается пропорционально сложности модели. После указания θ сделать прогноз о ненаблюдаемых значениях в координатах x * — это всего лишь вопрос извлечения выборок из прогнозного распределения, где апостериорная средняя оценка A определяется как

B
xxθx *θx[6]репрезентативного набораf[29] [30]модели смешанных эффектов для прогнозирования пространственных функций: этот метод[31]

Часто ковариация имеет вид , где – параметр масштабирования. Примерами являются ковариационные функции класса Матерна. Если этот параметр масштабирования либо известен, либо неизвестен (т.е. должен быть исключен), то апостериорная вероятность, т.е. вероятность для гиперпараметров с учетом набора пар данных наблюдений и допускает аналитическое выражение. [32]

Байесовские нейронные сети как гауссовские процессы

Байесовские нейронные сети — это особый тип байесовских сетей , который возникает в результате вероятностной обработки моделей глубокого обучения и искусственных нейронных сетей и назначения предварительного распределения их параметрам . Вычисления в искусственных нейронных сетях обычно организованы в последовательные слои искусственных нейронов . Количество нейронов в слое называется шириной слоя. По мере увеличения ширины слоя многие байесовские нейронные сети сводятся к гауссовскому процессу с композиционным ядром закрытой формы . Этот гауссов процесс называется гауссовским процессом нейронной сети (NNGP). [7] [33] [34] Он позволяет более эффективно оценивать прогнозы байесовских нейронных сетей и предоставляет аналитический инструмент для понимания моделей глубокого обучения .

Вычислительные проблемы

В практических приложениях модели гауссовских процессов часто оцениваются на сетке, приводящей к многомерным нормальным распределениям. Использование этих моделей для прогнозирования или оценки параметров с использованием максимального правдоподобия требует оценки многомерной гауссовой плотности, которая включает в себя вычисление определителя и обратной ковариационной матрицы. Обе эти операции имеют кубическую вычислительную сложность, что означает, что даже для сеток скромных размеров обе операции могут иметь непомерно высокие вычислительные затраты. Этот недостаток привел к развитию множества методов аппроксимации .

Смотрите также

Рекомендации

  1. ^ Маккей, Дэвид, JC (2003). Теория информации, вывод и алгоритмы обучения (PDF) . Издательство Кембриджского университета . п. 540. ИСБН 9780521642989. Распределение вероятностей функции является гауссовским процессом, если для любого конечного набора точек плотность является гауссовским процессом.{{cite book}}: CS1 maint: multiple names: authors list (link)
  2. ^ Дадли, RM (1989). Реальный анализ и вероятность . Уодсворт и Брукс/Коул. ISBN 0-534-10050-3.
  3. ^ аб Амос Лапидот (8 февраля 2017 г.). Фонд цифровых коммуникаций. Издательство Кембриджского университета. ISBN 978-1-107-17732-1.
  4. ^ Кац, М.; Зигерт, AJF (1947). «Явное представление стационарного гауссовского процесса». Анналы математической статистики . 18 (3): 438–442. дои : 10.1214/aoms/1177730391 .
  5. ^ Бишоп, CM (2006). Распознавание образов и машинное обучение . Спрингер . ISBN 978-0-387-31073-2.
  6. ^ abc Барбер, Дэвид (2012). Байесовское рассуждение и машинное обучение. Издательство Кембриджского университета . ISBN 978-0-521-51814-7.
  7. ^ abcdef Расмуссен, CE; Уильямс, CKI (2006). Гауссовы процессы для машинного обучения. МТИ Пресс . ISBN 978-0-262-18253-9.
  8. ^ Гриммет, Джеффри; Дэвид Стирзакер (2001). Вероятность и случайные процессы . Издательство Оксфордского университета . ISBN 978-0198572220.
  9. ^ Сигер, Матиас (2004). «Гауссовы процессы для машинного обучения». Международный журнал нейронных систем . 14 (2): 69–104. CiteSeerX 10.1.1.71.1079 . дои : 10.1142/s0129065704001899. PMID  15112367. S2CID  52807317. 
  10. ^ Дадли, РМ (1975). «Гауссов процесс и подход к нему» (PDF) . Материалы Международного конгресса математиков . Том. 2. С. 143–146.
  11. ^ Дадли, RM (2010). «Примерные функции гауссовского процесса». Избранные произведения Р. М. Дадли . Том. 1. С. 66–103. дои : 10.1007/978-1-4419-5821-1_13. ISBN 978-1-4419-5820-4. {{cite book}}: |journal=игнорируется ( помощь )
  12. ^ Талагранд, Мишель (2014). Верхние и нижние оценки случайных процессов: современные методы и классические задачи. Ergebnisse der Mathematik und ihrer Grenzgebiete. 3. Фольге / Серия современных обзоров по математике. Спрингер, Гейдельберг. ISBN 978-3-642-54074-5.
  13. ^ Леду, Мишель (1996), «Изопериметрия и гауссовский анализ», Добрушин, Роланд; Грюнбум, Пит; Леду, Мишель (ред.), Лекции по теории вероятностей и статистике: Ecole d'Eté de Probabilités de Saint-Flour XXIV–1994 , Конспекты лекций по математике, том. 1648, Берлин: Springer, стр. 165–294, номер документа : 10.1007/BFb0095676, ISBN. 978-3-540-62055-6, МР  1600888
  14. ^ Адлер, Роберт Дж. (1990). Введение в непрерывность, экстремумы и смежные темы для общих гауссовских процессов . Том. 12. Хейворд, Калифорния: Институт математической статистики. ISBN 0-940600-17-Х. JSTOR  4355563. MR  1088478. {{cite book}}: |journal=игнорируется ( помощь )
  15. ^ Берман, Симеон М. (1992). «Обзор: Адлер, 1990 г. «Введение в преемственность...»". Математические обзоры . МР  1088478.
  16. ^ Аб Дадли, RM (1967). «Размеры компактов гильбертова пространства и непрерывность гауссовских процессов». Журнал функционального анализа . 1 (3): 290–330. дои : 10.1016/0022-1236(67)90017-1 .
  17. ^ аб Маркус, МБ; Шепп, Лоуренс А. (1972). «Пример поведения гауссовских процессов». Труды шестого симпозиума Беркли по математической статистике и вероятности, вып. II: теория вероятностей . Том. 6. Университет. Калифорния, Беркли. стр. 423–441.
  18. ^ аб Маркус, Майкл Б.; Шепп, Лоуренс А. (1970). «Непрерывность гауссовских процессов». Труды Американского математического общества . 151 (2): 377–391. дои : 10.1090/s0002-9947-1970-0264749-1 . JSTOR  1995502.
  19. ^ Дрисколл, Майкл Ф. (1973). «Воспроизводящее ядро ​​структуры гильбертова пространства выборочных путей гауссовского процесса». Zeitschrift für Wahrscheinlichkeitstheorie und Verwandte Gebiete . 26 (4): 309–316. дои : 10.1007/BF00534894 . ISSN  0044-3719. S2CID  123348980.
  20. ^ Джидлинг, Карл; Вальстрем, Никлас; Уиллс, Адриан; Шен, Томас Б. (19 сентября 2017 г.). «Линейно ограниченные гауссовские процессы». arXiv : 1703.00787 [stat.ML].
  21. ^ В документации scikit-learn также есть подобные примеры.
  22. ^ Лю, В.; Принсипи, JC; Хайкин, С. (2010). Адаптивная фильтрация ядра: всестороннее введение. Джон Уайли . ISBN 978-0-470-44753-6. Архивировано из оригинала 4 марта 2016 г. Проверено 26 марта 2010 г.
  23. ^ Альварес, Маурисио А.; Росаско, Лоренцо; Лоуренс, Нил Д. (2012). «Ядра векторных функций: обзор» (PDF) . Основы и тенденции в машинном обучении . 4 (3): 195–266. дои : 10.1561/2200000036. S2CID  456491.
  24. ^ Чен, Цзэссун; Ван, Бо; Горбань, Александр Н. (2019). «Многомерная регрессия процессов Гаусса и Стьюдента для прогнозирования с несколькими выходами». Нейронные вычисления и их приложения . 32 (8): 3005–3028. arXiv : 1703.04455 . дои : 10.1007/s00521-019-04687-8 .
  25. ^ Штейн, ML (1999). Интерполяция пространственных данных: некоторые теории кригинга . Спрингер .
  26. ^ Платаниос, Эммануил А.; Хацис, Сотириос П. (2014). «Условная гетероскедастичность гауссовой смеси процессов». Транзакции IEEE по анализу шаблонов и машинному интеллекту . 36 (5): 888–900. дои : 10.1109/TPAMI.2013.183. PMID  26353224. S2CID  10424638.
  27. ^ Хацис, Сотириос П. (2013). «Модель гауссовского процесса со скрытой переменной с априорным процессом Питмана – Йора для многоклассовой классификации». Нейрокомпьютинг . 120 : 482–489. doi : 10.1016/j.neucom.2013.04.029.
  28. ^ Гриффитс, Райан-Рис (2022). Применение гауссовских процессов на экстремальных масштабах длины: от молекул к черным дырам (кандидатская диссертация). Кембриджский университет. arXiv : 2303.14291 . дои : 10.17863/CAM.93643.
  29. ^ Смола, AJ; Шелькопф, Б. (2000). «Разреженная жадная матричная аппроксимация для машинного обучения». Материалы семнадцатой международной конференции по машинному обучению : 911–918. CiteSeerX 10.1.1.43.3153 . 
  30. ^ Чато, Л.; Оппер, М. (2002). «Разреженные онлайн-гауссовские процессы». Нейронные вычисления . 14 (3): 641–668. CiteSeerX 10.1.1.335.9713 . дои : 10.1162/089976602317250933. PMID  11860686. S2CID  11375333. 
  31. ^ Ли, Се Юн; Маллик, Бани (2021). «Байесовское иерархическое моделирование: применение к результатам добычи в сланцах Игл Форд в Южном Техасе». Санкхья Б. 84 : 1–43. дои : 10.1007/s13571-020-00245-8 .
  32. ^ Ранфтл, Саша; Мелито, Джан Марко; Бадели, Вахид; Рейнбахер-Кёстингер, Алиса; Эллерманн, Катрин; фон дер Линден, Вольфганг (31 декабря 2019 г.). «Количественная оценка байесовской неопределенности с использованием данных разной точности и гауссовских процессов для импедансной кардиографии расслоения аорты». Энтропия . 22 (1): 58. Бибкод : 2019Entrp..22...58R. дои : 10.3390/e22010058 . ISSN  1099-4300. ПМЦ 7516489 . ПМИД  33285833. 
  33. ^ Новак, Роман; Сяо, Лечао; Хрон, Иржи; Ли, Джехун; Алеми, Александр А.; Золь-Дикштейн, Яша; Шенхольц, Сэмюэл С. (2020). «Нейронные касательные: быстрые и простые бесконечные нейронные сети в Python». Международная конференция по обучению представлений . arXiv : 1912.02803 .
  34. ^ Нил, Рэдфорд М. (2012). Байесовское обучение для нейронных сетей . Springer Science and Business Media.

Внешние ссылки

Литература

Программное обеспечение

Видеоуроки