В теории вероятностей и статистике гауссов процесс — это случайный процесс (набор случайных величин, индексированных по времени или пространству), такой, что каждый конечный набор этих случайных величин имеет многомерное нормальное распределение . Распределение гауссовского процесса представляет собой совместное распределение всех этих (бесконечно многих) случайных величин и, как таковое, является распределением по функциям с непрерывной областью определения, например, во времени или пространстве.
Концепция гауссовских процессов названа в честь Карла Фридриха Гаусса, поскольку в ее основе лежит понятие гауссовского распределения ( нормального распределения ). Гауссовские процессы можно рассматривать как бесконечномерное обобщение многомерных нормальных распределений.
Гауссовские процессы полезны в статистическом моделировании , поскольку они извлекают выгоду из свойств, унаследованных от нормального распределения. Например, если случайный процесс моделируется как гауссовский процесс, распределения различных производных величин можно получить явно. К таким величинам относятся среднее значение процесса за определенный период времени и ошибка оценки среднего значения с использованием выборочных значений за небольшой набор периодов времени. Хотя точные модели часто плохо масштабируются по мере увеличения объема данных, было разработано несколько методов аппроксимации , которые часто сохраняют хорошую точность, резко сокращая время вычислений.
— многомерная гауссова случайная величина . [1] Это то же самое, что сказать, что каждая линейная комбинация имеет одномерное нормальное (или гауссово) распределение.
Используя характеристические функции случайных величин с обозначением мнимой единицы такой, что , свойство Гаусса можно сформулировать следующим образом: является гауссовым тогда и только тогда, когда для каждого конечного набора индексов существуют действительные значения , причем такие, что выполняется следующее равенство для всех ,
или . Можно показать, что числа и являются ковариациями и средними значениями переменных в процессе. [2]
Дисперсия
Дисперсия гауссовского процесса конечна в любой момент времени , формально [3] : с. 515
Стационарность
Для общих случайных процессов стационарность в строгом смысле подразумевает стационарность в широком смысле , но не каждый стационарный случайный процесс в широком смысле является стационарным в строгом смысле. Однако для гауссовского случайного процесса эти две концепции эквивалентны. [3] : с. 518
Гауссов случайный процесс является стационарным в строгом смысле тогда и только тогда, когда он стационарен в широком смысле.
Пример
Существует явное представление для стационарных гауссовских процессов. [4] Простой пример этого представления:
Стационарность относится к поведению процесса относительно разделения любых двух точек и . Если процесс стационарен, ковариационная функция зависит только от . Например, процесс Орнштейна–Уленбека стационарен.
Если процесс зависит только от евклидова расстояния (а не направления) между и , то процесс считается изотропным. Однородным считается процесс, одновременно стационарный и изотропный ; В [8] на практике эти свойства отражают различия (вернее, их отсутствие) в поведении процесса в зависимости от местоположения наблюдателя.
В конечном итоге гауссовские процессы переводятся как принятие априорных значений функций, и гладкость этих априорных значений может быть вызвана функцией ковариации. [6] Если мы ожидаем, что для «близких» входных точек и соответствующих им выходных точек также будет «рядом», то предположение о непрерывности присутствует . Если мы хотим учесть значительное смещение, мы можем выбрать более грубую ковариационную функцию. Крайними примерами такого поведения являются ковариационная функция Орнштейна – Уленбека и квадратичная экспонента, где первая никогда не дифференцируема, а вторая бесконечно дифференцируема.
Периодичность означает создание периодических закономерностей в поведении процесса. Формально это достигается путем сопоставления входных данных с двумерным вектором .
Обычные ковариационные функции
Существует ряд общих ковариационных функций: [7]
Постоянный :
Линейный:
белый гауссов шум:
Квадратная экспонента:
Орнштейн-Уленбек:
Материн:
Периодический:
Рациональный квадратик:
Здесь . Параметром является характерный масштаб процесса (практически «насколько близко» должны быть две точки, чтобы существенно влиять друг на друга), это дельта Кронекера и стандартное отклонение шумовых флуктуаций. Кроме того, – модифицированная функция порядка Бесселя и – гамма-функция, оцениваемая при . Важно отметить, что сложную ковариационную функцию можно определить как линейную комбинацию других более простых ковариационных функций, чтобы учесть различные представления о имеющемся наборе данных.
Результаты вывода зависят от значений гиперпараметров (например, и ), определяющих поведение модели. Популярным выбором является предоставление максимальных апостериорных оценок (MAP) с некоторыми выбранными априорными значениями. Если априор очень близок к однородному, это то же самое, что максимизировать предельную вероятность процесса; маргинализация осуществляется по наблюдаемым значениям процесса . [7] Этот подход также известен как метод максимального правдоподобия II , максимизация доказательств или эмпирический Байес . [9]
Непрерывность
Для гауссовского процесса непрерывность по вероятности эквивалентна непрерывности среднеквадратического значения [ 10] : 145
, а непрерывность с вероятностью единица эквивалентна непрерывности выборки . [11] : 91 «Гауссовы процессы разрывны в фиксированных точках». Последнее предполагает, но не подразумевает, непрерывность вероятности. Непрерывность вероятности имеет место тогда и только тогда, когда среднее значение и автоковариация являются непрерывными функциями. Напротив, непрерывность выборки была сложной задачей даже для стационарных гауссовских процессов (как, вероятно, впервые заметил Андрей Колмогоров ), и еще более сложной задачей для более общих процессов. [12] : Раздел. 2.8 [13] : 69, 81 [14] : 80 [15]
Как обычно, под выборочно-непрерывным процессом понимают процесс, который допускает выборочно-непрерывную модификацию .[16] : 292 [17] : 424
Стационарный корпус
Для стационарного гауссовского процесса некоторые условия его спектра достаточны для непрерывности выборки, но не являются необходимыми. Необходимое и достаточное условие, иногда называемое теоремой Дадли – Фернике, включает функцию, определяемую формулой
не следует из непрерывности и очевидных отношений (для всех ) и
Теорема 1. Пусть непрерывен и удовлетворяет (*). Тогда условие является необходимым и достаточным для выборочной непрерывности
Немного истории. [17] : 424
Достаточность была объявлена Ксавье Ферником в 1964 году, но первое доказательство было опубликовано Ричардом М. Дадли в 1967 году. [16] : Теорема 7.1
Необходимость была доказана Майклом Б. Маркусом и Лоуренсом Шеппом в 1970 году. [18] ] : 380
Существуют выборочные непрерывные процессы , нарушающие условие (*). Пример, найденный Маркусом и Шеппом [18] : 387 представляет собой случайный лакунарный ряд Фурье.
Броуновский мост (как и процесс Орнштейна-Уленбека) является примером гауссовского процесса, приращения которого не являются независимыми .
Дробное броуновское движение — это гауссов процесс, ковариационная функция которого является обобщением функции винеровского процесса.
Закон нуля и единицы Дрисколла
Закон нуля и единицы Дрисколла - это результат, характеризующий выборочные функции, генерируемые гауссовским процессом.
Пусть — гауссовский процесс со средним нулем и неотрицательно определенной ковариационной функцией . Пусть – гильбертово пространство с воспроизводящим ядром и положительно определенным ядром .
Затем
Более того,
[19]
Это имеет важные последствия, когда , как
Таким образом, почти все выборочные пути гауссовского процесса со средним нулем и положительно определенным ядром будут лежать за пределами гильбертова пространства .
Гауссовы процессы с линейными ограничениями
Для многих представляющих интерес приложений уже имеются некоторые ранее существовавшие знания о рассматриваемой системе. Рассмотрим, например, случай, когда результат гауссовского процесса соответствует магнитному полю; здесь реальное магнитное поле ограничено уравнениями Максвелла, и был бы желателен способ включить это ограничение в формализм гауссовского процесса, поскольку это, вероятно, улучшит точность алгоритма.
Метод включения линейных ограничений в гауссовские процессы уже существует: [20]
Рассмотрим (векторную) выходную функцию , которая, как известно, подчиняется линейному ограничению (т. е. является линейным оператором)
Приложения
Гауссов процесс можно использовать в качестве априорного распределения вероятностей по функциям в байесовском выводе . [7] [22] Учитывая любой набор из N точек в желаемой области ваших функций, возьмите многомерный гауссиан , параметром ковариационной матрицы которого является матрица Грамма ваших N точек с некоторым желаемым ядром , и выполните выборку из этого гауссиана. Для решения задачи прогнозирования с несколькими выходами была разработана регрессия гауссовского процесса для векторной функции. В этом методе строится «большая» ковариация, описывающая корреляции между всеми входными и выходными переменными, взятыми в N точках в желаемой области. [23] Этот подход был подробно разработан для матричных гауссовских процессов и обобщен на процессы с «более тяжелыми хвостами», такие как процессы Стьюдента . [24]
Вывод непрерывных значений с помощью предшествующего гауссовского процесса известен как регрессия гауссовского процесса или кригинг ; расширение регрессии гауссовского процесса на несколько целевых переменных известно как кокригинг . [25] Таким образом, гауссовские процессы полезны как мощный инструмент нелинейной многомерной интерполяции .
Гауссовы процессы также широко используются для решения задач численного анализа, таких как численное интегрирование, решение дифференциальных уравнений или оптимизация в области вероятностных чисел .
Гауссовские процессы также можно использовать, например, в контексте смешанных экспертных моделей. [26] [27] Основное обоснование такой структуры обучения состоит в предположении, что данное отображение не может быть хорошо отражено с помощью одной модели гауссовского процесса. Вместо этого пространство наблюдения разделено на подмножества, каждое из которых характеризуется своей функцией отображения; каждый из них изучается через различные компоненты гауссовского процесса в постулируемой смеси.
В естественных науках гауссовские процессы нашли применение в качестве вероятностных моделей астрономических временных рядов и в качестве предсказателей молекулярных свойств. [28]
Предсказание гауссовского процесса, или кригинг
Когда речь идет об общей задаче регрессии гауссовского процесса (кригинг), предполагается, что для гауссовского процесса, наблюдаемого в координатах , вектор значений представляет собой всего лишь одну выборку из многомерного гауссовского распределения размерности, равной числу наблюдаемых координат . Следовательно, в предположении распределения с нулевым средним, где – матрица ковариации между всеми возможными парами для данного набора гиперпараметров θ . [7]
Таким образом, логарифмическая предельная вероятность равна:
и максимизация этой предельной вероятности в направлении θ обеспечивает полную спецификацию гауссова процесса f . Здесь можно кратко отметить, что первый член соответствует штрафному члену за неспособность модели соответствовать наблюдаемым значениям, а второй член - штрафному члену, который увеличивается пропорционально сложности модели. После указания θ сделать прогноз о ненаблюдаемых значениях в координатах x * — это всего лишь вопрос извлечения выборок из прогнозного распределения, где апостериорная средняя оценка A определяется как
Часто ковариация имеет вид , где – параметр масштабирования. Примерами являются ковариационные функции класса Матерна. Если этот параметр масштабирования либо известен, либо неизвестен (т.е. должен быть исключен), то апостериорная вероятность, т.е. вероятность для гиперпараметров с учетом набора пар данных наблюдений и допускает аналитическое выражение. [32]
Байесовские нейронные сети как гауссовские процессы
Байесовские нейронные сети — это особый тип байесовских сетей , который возникает в результате вероятностной обработки моделей глубокого обучения и искусственных нейронных сетей и назначения предварительного распределения их параметрам . Вычисления в искусственных нейронных сетях обычно организованы в последовательные слои искусственных нейронов . Количество нейронов в слое называется шириной слоя. По мере увеличения ширины слоя многие байесовские нейронные сети сводятся к гауссовскому процессу с композиционным ядром закрытой формы . Этот гауссов процесс называется гауссовским процессом нейронной сети (NNGP). [7] [33] [34] Он позволяет более эффективно оценивать прогнозы байесовских нейронных сетей и предоставляет аналитический инструмент для понимания моделей глубокого обучения .
Вычислительные проблемы
В практических приложениях модели гауссовских процессов часто оцениваются на сетке, приводящей к многомерным нормальным распределениям. Использование этих моделей для прогнозирования или оценки параметров с использованием максимального правдоподобия требует оценки многомерной гауссовой плотности, которая включает в себя вычисление определителя и обратной ковариационной матрицы. Обе эти операции имеют кубическую вычислительную сложность, что означает, что даже для сеток скромных размеров обе операции могут иметь непомерно высокие вычислительные затраты. Этот недостаток привел к развитию множества методов аппроксимации .
^ Маккей, Дэвид, JC (2003). Теория информации, вывод и алгоритмы обучения (PDF) . Издательство Кембриджского университета . п. 540. ИСБН 9780521642989. Распределение вероятностей функции является гауссовским процессом, если для любого конечного набора точек плотность является гауссовским процессом.{{cite book}}: CS1 maint: multiple names: authors list (link)
^ Дадли, RM (1989). Реальный анализ и вероятность . Уодсворт и Брукс/Коул. ISBN0-534-10050-3.
^ аб Амос Лапидот (8 февраля 2017 г.). Фонд цифровых коммуникаций. Издательство Кембриджского университета. ISBN978-1-107-17732-1.
^ Сигер, Матиас (2004). «Гауссовы процессы для машинного обучения». Международный журнал нейронных систем . 14 (2): 69–104. CiteSeerX 10.1.1.71.1079 . дои : 10.1142/s0129065704001899. PMID 15112367. S2CID 52807317.
^ Дадли, РМ (1975). «Гауссов процесс и подход к нему» (PDF) . Материалы Международного конгресса математиков . Том. 2. С. 143–146.
^ Дадли, RM (2010). «Примерные функции гауссовского процесса». Избранные произведения Р. М. Дадли . Том. 1. С. 66–103. дои : 10.1007/978-1-4419-5821-1_13. ISBN978-1-4419-5820-4. {{cite book}}: |journal=игнорируется ( помощь )
^ Талагранд, Мишель (2014). Верхние и нижние оценки случайных процессов: современные методы и классические задачи. Ergebnisse der Mathematik und ihrer Grenzgebiete. 3. Фольге / Серия современных обзоров по математике. Спрингер, Гейдельберг. ISBN978-3-642-54074-5.
^ Леду, Мишель (1996), «Изопериметрия и гауссовский анализ», Добрушин, Роланд; Грюнбум, Пит; Леду, Мишель (ред.), Лекции по теории вероятностей и статистике: Ecole d'Eté de Probabilités de Saint-Flour XXIV–1994 , Конспекты лекций по математике, том. 1648, Берлин: Springer, стр. 165–294, номер документа : 10.1007/BFb0095676, ISBN.978-3-540-62055-6, МР 1600888
^ Адлер, Роберт Дж. (1990). Введение в непрерывность, экстремумы и смежные темы для общих гауссовских процессов . Том. 12. Хейворд, Калифорния: Институт математической статистики. ISBN0-940600-17-Х. JSTOR 4355563. MR 1088478. {{cite book}}: |journal=игнорируется ( помощь )
^ Берман, Симеон М. (1992). «Обзор: Адлер, 1990 г. «Введение в преемственность...»". Математические обзоры . МР 1088478.
^ Аб Дадли, RM (1967). «Размеры компактов гильбертова пространства и непрерывность гауссовских процессов». Журнал функционального анализа . 1 (3): 290–330. дои : 10.1016/0022-1236(67)90017-1 .
^ аб Маркус, МБ; Шепп, Лоуренс А. (1972). «Пример поведения гауссовских процессов». Труды шестого симпозиума Беркли по математической статистике и вероятности, вып. II: теория вероятностей . Том. 6. Университет. Калифорния, Беркли. стр. 423–441.
^ Дрисколл, Майкл Ф. (1973). «Воспроизводящее ядро структуры гильбертова пространства выборочных путей гауссовского процесса». Zeitschrift für Wahrscheinlichkeitstheorie und Verwandte Gebiete . 26 (4): 309–316. дои : 10.1007/BF00534894 . ISSN 0044-3719. S2CID 123348980.
^ Джидлинг, Карл; Вальстрем, Никлас; Уиллс, Адриан; Шен, Томас Б. (19 сентября 2017 г.). «Линейно ограниченные гауссовские процессы». arXiv : 1703.00787 [stat.ML].
^ В документации scikit-learn также есть подобные примеры.
^ Лю, В.; Принсипи, JC; Хайкин, С. (2010). Адаптивная фильтрация ядра: всестороннее введение. Джон Уайли . ISBN978-0-470-44753-6. Архивировано из оригинала 4 марта 2016 г. Проверено 26 марта 2010 г.
^ Альварес, Маурисио А.; Росаско, Лоренцо; Лоуренс, Нил Д. (2012). «Ядра векторных функций: обзор» (PDF) . Основы и тенденции в машинном обучении . 4 (3): 195–266. дои : 10.1561/2200000036. S2CID 456491.
^ Чен, Цзэссун; Ван, Бо; Горбань, Александр Н. (2019). «Многомерная регрессия процессов Гаусса и Стьюдента для прогнозирования с несколькими выходами». Нейронные вычисления и их приложения . 32 (8): 3005–3028. arXiv : 1703.04455 . дои : 10.1007/s00521-019-04687-8 .
^ Штейн, ML (1999). Интерполяция пространственных данных: некоторые теории кригинга . Спрингер .
^ Хацис, Сотириос П. (2013). «Модель гауссовского процесса со скрытой переменной с априорным процессом Питмана – Йора для многоклассовой классификации». Нейрокомпьютинг . 120 : 482–489. doi : 10.1016/j.neucom.2013.04.029.
^ Гриффитс, Райан-Рис (2022). Применение гауссовских процессов на экстремальных масштабах длины: от молекул к черным дырам (кандидатская диссертация). Кембриджский университет. arXiv : 2303.14291 . дои : 10.17863/CAM.93643.
^ Смола, AJ; Шелькопф, Б. (2000). «Разреженная жадная матричная аппроксимация для машинного обучения». Материалы семнадцатой международной конференции по машинному обучению : 911–918. CiteSeerX 10.1.1.43.3153 .
^ Ли, Се Юн; Маллик, Бани (2021). «Байесовское иерархическое моделирование: применение к результатам добычи в сланцах Игл Форд в Южном Техасе». Санкхья Б. 84 : 1–43. дои : 10.1007/s13571-020-00245-8 .
^ Ранфтл, Саша; Мелито, Джан Марко; Бадели, Вахид; Рейнбахер-Кёстингер, Алиса; Эллерманн, Катрин; фон дер Линден, Вольфганг (31 декабря 2019 г.). «Количественная оценка байесовской неопределенности с использованием данных разной точности и гауссовских процессов для импедансной кардиографии расслоения аорты». Энтропия . 22 (1): 58. Бибкод : 2019Entrp..22...58R. дои : 10.3390/e22010058 . ISSN 1099-4300. ПМЦ 7516489 . ПМИД 33285833.
^ Новак, Роман; Сяо, Лечао; Хрон, Иржи; Ли, Джехун; Алеми, Александр А.; Золь-Дикштейн, Яша; Шенхольц, Сэмюэл С. (2020). «Нейронные касательные: быстрые и простые бесконечные нейронные сети в Python». Международная конференция по обучению представлений . arXiv : 1912.02803 .
^ Нил, Рэдфорд М. (2012). Байесовское обучение для нейронных сетей . Springer Science and Business Media.
Внешние ссылки
В Wikibooks есть книга на тему: Гауссов процесс.
Литература
Веб-сайт гауссовских процессов, включая текст книги Расмуссена и Уильямса «Гауссовы процессы для машинного обучения».