Вариационные байесовские методы

Вариационные байесовские методы представляют собой семейство методов аппроксимации трудноразрешимых интегралов , возникающих в байесовском выводе и машинном обучении . Они обычно используются в сложных статистических моделях, состоящих из наблюдаемых переменных (обычно называемых «данными»), а также неизвестных параметров и скрытых переменных , с различными видами взаимосвязей между тремя типами случайных величин , как можно было бы описать графической моделью . Как типично в байесовском выводе, параметры и скрытые переменные группируются вместе как «ненаблюдаемые переменные». Вариационные байесовские методы в основном используются для двух целей:

Обеспечить аналитическое приближение апостериорной вероятности ненаблюдаемых переменных с целью сделать статистический вывод по этим переменным.
Вывести нижнюю границу для предельного правдоподобия (иногда называемого доказательством ) наблюдаемых данных (т. е. предельной вероятности данных, заданных моделью, с маргинализацией, выполненной по ненаблюдаемым переменным). Обычно это используется для выполнения выбора модели , общая идея заключается в том, что более высокое предельное правдоподобие для данной модели указывает на лучшее соответствие данных этой модели и, следовательно, большую вероятность того, что рассматриваемая модель была той, которая сгенерировала данные. (См. также статью о факторе Байеса .)

В первой цели (аппроксимации апостериорной вероятности) вариационный Байес является альтернативой методам выборки Монте-Карло , в частности, методам Монте-Карло с цепями Маркова , таким как выборка Гиббса , для принятия полностью байесовского подхода к статистическому выводу по сложным распределениям , которые трудно оценить напрямую или выборочно . В частности, тогда как методы Монте-Карло обеспечивают численное приближение к точной апостериорной вероятности с использованием набора выборок, вариационный Байес обеспечивает локально-оптимальное, точное аналитическое решение для приближения апостериорной вероятности.

Вариационный Байес можно рассматривать как расширение алгоритма ожидания-максимизации (EM) от оценки максимального правдоподобия (ML) или максимальной апостериорной оценки (MAP) единственного наиболее вероятного значения каждого параметра до полностью байесовской оценки, которая вычисляет (приближение) все апостериорное распределение параметров и скрытых переменных. Как и в EM, он находит набор оптимальных значений параметров и имеет ту же чередующуюся структуру, что и EM, основанную на наборе взаимосвязанных (взаимно зависимых) уравнений, которые не могут быть решены аналитически.

Для многих приложений вариационный Байес выдает решения, сравнимые по точности с выборкой Гиббса, на более высокой скорости. Однако вывод набора уравнений, используемых для итеративного обновления параметров, часто требует большого объема работы по сравнению с выводом сопоставимых уравнений выборки Гиббса. Это касается даже многих моделей, которые концептуально довольно просты, как показано ниже в случае базовой неиерархической модели с двумя параметрами и без скрытых переменных.

Математическое выведение

Проблема

В вариационном выводе апостериорное распределение по набору ненаблюдаемых переменных при наличии некоторых данных аппроксимируется так называемым вариационным распределением , $\mathbf {Z} =\{Z_{1}\dots Z_{n}\}$ $\mathbf {X}$ $Q(\mathbf {Z} ):$

P(\mathbf {Z} \mid \mathbf {X} )\approx Q(\mathbf {Z} ).

Распределение ограничено принадлежностью к семейству распределений более простой формы, чем (например, семейство гауссовых распределений), выбранных с намерением сделать его похожим на истинное апостериорное распределение, . $Q(\mathbf {Z} )$ $P(\mathbf {Z} \mid \mathbf {X} )$ $Q(\mathbf {Z} )$ $P(\mathbf {Z} \mid \mathbf {X} )$

Сходство (или различие) измеряется с помощью функции различия, и, следовательно, вывод выполняется путем выбора распределения , которое минимизирует . $d(Q;P)$ $Q(\mathbf {Z} )$ $d(Q;P)$

расхождение KL

Наиболее распространенный тип вариационного Байеса использует дивергенцию Кульбака-Лейблера (KL-дивергенцию) Q от P в качестве выбора функции различия. Этот выбор делает эту минимизацию поддающейся обработке. KL-дивергенция определяется как

D_{\mathrm {KL} }(Q\parallel P)\triangleq \sum _{\mathbf {Z} }Q(\mathbf {Z} )\log {\frac {Q(\mathbf {Z} )}{P(\mathbf {Z} \mid \mathbf {X} )}}.

Обратите внимание, что Q и P обратны тому, что можно было бы ожидать. Это использование обратной KL-дивергенции концептуально похоже на алгоритм ожиданий-максимизации . (Использование KL-дивергенции другим способом дает алгоритм распространения ожиданий .)

Неразрешимость

Вариационные методы обычно используются для формирования приближения для:

P(\mathbf {Z} \mid \mathbf {X} )={\frac {P(\mathbf {X} \mid \mathbf {Z} )P(\mathbf {Z} )}{P(\mathbf {X} )}}={\frac {P(\mathbf {X} \mid \mathbf {Z} )P(\mathbf {Z} )}{\int _{\mathbf {Z} }P(\mathbf {X} ,\mathbf {Z} ')\,d\mathbf {Z} '}}

Маргинализация для вычисления в знаменателе обычно неразрешима, поскольку, например, пространство поиска комбинаторно велико. Поэтому мы ищем приближение, используя . $\mathbf {Z}$ $P(\mathbf {X} )$ $\mathbf {Z}$ $Q(\mathbf {Z} )\approx P(\mathbf {Z} \mid \mathbf {X} )$

Нижняя граница доказательств

Учитывая, что , KL-дивергенция выше может быть также записана как $P(\mathbf {Z} \mid \mathbf {X} )={\frac {P(\mathbf {X} ,\mathbf {Z} )}{P(\mathbf {X} )}}$

D_{\mathrm {KL} }(Q\parallel P)=\sum _{\mathbf {Z} }Q(\mathbf {Z} )\left[\log {\frac {Q(\mathbf {Z} )}{P(\mathbf {Z} ,\mathbf {X} )}}+\log P(\mathbf {X} )\right]=\sum _{\mathbf {Z} }Q(\mathbf {Z} )\left[\log Q(\mathbf {Z} )-\log P(\mathbf {Z} ,\mathbf {X} )\right]+\sum _{\mathbf {Z} }Q(\mathbf {Z} )\left[\log P(\mathbf {X} )\right]

Поскольку является константой относительно и поскольку является распределением, мы имеем $P(\mathbf {X} )$ $\mathbf {Z}$ $\sum _{\mathbf {Z} }Q(\mathbf {Z} )=1$ $Q(\mathbf {Z} )$

D_{\mathrm {KL} }(Q\parallel P)=\sum _{\mathbf {Z} }Q(\mathbf {Z} )\left[\log Q(\mathbf {Z} )-\log P(\mathbf {Z} ,\mathbf {X} )\right]+\log P(\mathbf {X} )

что, согласно определению ожидаемого значения (для дискретной случайной величины ), можно записать следующим образом

D_{\mathrm {KL} }(Q\parallel P)=\mathbb {E} _{\mathbf {Q} }\left[\log Q(\mathbf {Z} )-\log P(\mathbf {Z} ,\mathbf {X} )\right]+\log P(\mathbf {X} )

которые можно перестроить, чтобы стать

\log P(\mathbf {X} )=D_{\mathrm {KL} }(Q\parallel P)-\mathbb {E} _{\mathbf {Q} }\left[\log Q(\mathbf {Z} )-\log P(\mathbf {Z} ,\mathbf {X} )\right]=D_{\mathrm {KL} }(Q\parallel P)+{\mathcal {L}}(Q)

Поскольку логарифмическое доказательство фиксировано относительно , максимизация конечного члена минимизирует расхождение KL от . При соответствующем выборе , становится поддающимся вычислению и максимизации. Следовательно, у нас есть как аналитическое приближение для апостериорного , так и нижняя граница для логарифмического доказательства (поскольку расхождение KL неотрицательно). $\log P(\mathbf {X} )$ $Q$ ${\mathcal {L}}(Q)$ $Q$ $P$ $Q$ ${\mathcal {L}}(Q)$ $Q$ $P(\mathbf {Z} \mid \mathbf {X} )$ ${\mathcal {L}}(Q)$ $\log P(\mathbf {X} )$

Нижняя граница известна как (отрицательная) вариационная свободная энергия по аналогии с термодинамической свободной энергией , поскольку ее также можно выразить как отрицательную энергию плюс энтропия . Термин также известен как нижняя граница доказательств , сокращенно ELBO , чтобы подчеркнуть, что это нижняя (наихудшая) граница логарифмической очевидности данных. ${\mathcal {L}}(Q)$ $\operatorname {E} _{Q}[\log P(\mathbf {Z} ,\mathbf {X} )]$ $Q$ ${\mathcal {L}}(Q)$

Доказательства

По обобщенной теореме Пифагора о дивергенции Брегмана , частным случаем которой является KL-дивергенция, можно показать, что: ^[1]^[2]

D_{\mathrm {KL} }(Q\parallel P)\geq D_{\mathrm {KL} }(Q\parallel Q^{*})+D_{\mathrm {KL} }(Q^{*}\parallel P),\forall Q^{*}\in {\mathcal {C}}

где — выпуклое множество и равенство выполняется, если: ${\mathcal {C}}$

Q=Q^{*}\triangleq \arg \min _{Q\in {\mathcal {C}}}D_{\mathrm {KL} }(Q\parallel P).

В этом случае глобальный минимизатор можно найти следующим образом: ^[1] $Q^{*}(\mathbf {Z} )=q^{*}(\mathbf {Z} _{1}\mid \mathbf {Z} _{2})q^{*}(\mathbf {Z} _{2})=q^{*}(\mathbf {Z} _{2}\mid \mathbf {Z} _{1})q^{*}(\mathbf {Z} _{1}),$ $\mathbf {Z} =\{\mathbf {Z_{1}} ,\mathbf {Z_{2}} \},$

q^{*}(\mathbf {Z} _{2})={\frac {P(\mathbf {X} )}{\zeta (\mathbf {X} )}}{\frac {P(\mathbf {Z} _{2}\mid \mathbf {X} )}{\exp(D_{\mathrm {KL} }(q^{*}(\mathbf {Z} _{1}\mid \mathbf {Z} _{2})\parallel P(\mathbf {Z} _{1}\mid \mathbf {Z} _{2},\mathbf {X} )))}}={\frac {1}{\zeta (\mathbf {X} )}}\exp \mathbb {E} _{q^{*}(\mathbf {Z} _{1}\mid \mathbf {Z} _{2})}\left(\log {\frac {P(\mathbf {Z} ,\mathbf {X} )}{q^{*}(\mathbf {Z} _{1}\mid \mathbf {Z} _{2})}}\right),

в котором нормирующая константа равна:

\zeta (\mathbf {X} )=P(\mathbf {X} )\int _{\mathbf {Z} _{2}}{\frac {P(\mathbf {Z} _{2}\mid \mathbf {X} )}{\exp(D_{\mathrm {KL} }(q^{*}(\mathbf {Z} _{1}\mid \mathbf {Z} _{2})\parallel P(\mathbf {Z} _{1}\mid \mathbf {Z} _{2},\mathbf {X} )))}}=\int _{\mathbf {Z} _{2}}\exp \mathbb {E} _{q^{*}(\mathbf {Z} _{1}\mid \mathbf {Z} _{2})}\left(\log {\frac {P(\mathbf {Z} ,\mathbf {X} )}{q^{*}(\mathbf {Z} _{1}\mid \mathbf {Z} _{2})}}\right).

На практике этот термин часто называют нижней границей доказательств ( ELBO ), поскольку ^[1] , как показано выше. $\zeta (\mathbf {X} )$ $P(\mathbf {X} )\geq \zeta (\mathbf {X} )=\exp({\mathcal {L}}(Q^{*}))$

Поменяв роли и мы можем итеративно вычислить приближенные и маргиналов истинной модели и соответственно. Хотя эта итеративная схема гарантированно сходится монотонно, ^[1] сошедшаяся является лишь локальным минимизатором . $\mathbf {Z} _{1}$ $\mathbf {Z} _{2},$ $q^{*}(\mathbf {Z} _{1})$ $q^{*}(\mathbf {Z} _{2})$ $P(\mathbf {Z} _{1}\mid \mathbf {X} )$ $P(\mathbf {Z} _{2}\mid \mathbf {X} ),$ $Q^{*}$ $D_{\mathrm {KL} }(Q\parallel P)$

Если ограниченное пространство заключено в независимое пространство, то указанная выше итерационная схема станет так называемым приближением среднего поля, как показано ниже. ${\mathcal {C}}$ $q^{*}(\mathbf {Z} _{1}\mid \mathbf {Z} _{2})=q^{*}(\mathbf {Z_{1}} ),$ $Q^{*}(\mathbf {Z} )=q^{*}(\mathbf {Z} _{1})q^{*}(\mathbf {Z} _{2}),$

Приближение среднего поля

Обычно предполагается, что вариационное распределение факторизуется по некоторому разделению скрытых переменных, т.е. для некоторого раздела скрытых переменных на , $Q(\mathbf {Z} )$ $\mathbf {Z}$ $\mathbf {Z} _{1}\dots \mathbf {Z} _{M}$

Q(\mathbf {Z} )=\prod _{i=1}^{M}q_{i}(\mathbf {Z} _{i}\mid \mathbf {X} )

Используя вариационное исчисление (отсюда и название «вариационный Байес»), можно показать , что «наилучшее» распределение для каждого из факторов (с точки зрения распределения, минимизирующего расхождение KL, как описано выше) удовлетворяет: ^[3] $q_{j}^{*}$ $q_{j}$

q_{j}^{*}(\mathbf {Z} _{j}\mid \mathbf {X} )={\frac {e^{\operatorname {E} _{q_{-j}^{*}}[\ln p(\mathbf {Z} ,\mathbf {X} )]}}{\int e^{\operatorname {E} _{q_{-j}^{*}}[\ln p(\mathbf {Z} ,\mathbf {X} )]}\,d\mathbf {Z} _{j}}}

где — ожидание логарифма совместной вероятности данных и скрытых переменных, взятое по отношению ко всем переменным, не входящим в разбиение: см. лемму 4.1 из ^[4] для вывода распределения . $\operatorname {E} _{q_{-j}^{*}}[\ln p(\mathbf {Z} ,\mathbf {X} )]$ $q^{*}$ $q_{j}^{*}(\mathbf {Z} _{j}\mid \mathbf {X} )$

На практике мы обычно работаем с логарифмами, то есть:

\ln q_{j}^{*}(\mathbf {Z} _{j}\mid \mathbf {X} )=\operatorname {E} _{q_{-j}^{*}}[\ln p(\mathbf {Z} ,\mathbf {X} )]+{\text{constant}}

Константа в приведенном выше выражении связана с нормализующей константой (знаменателем в приведенном выше выражении для ) и обычно восстанавливается путем проверки, поскольку остальная часть выражения обычно может быть распознана как известный тип распределения (например, гауссово , гамма и т. д.). $q_{j}^{*}$

Используя свойства ожиданий, выражение обычно можно упростить до функции фиксированных гиперпараметров априорных распределений по скрытым переменным и ожиданий (а иногда и более высоких моментов, таких как дисперсия ) скрытых переменных, не входящих в текущий раздел (т. е. скрытых переменных, не включенных в ). Это создает циклические зависимости между параметрами распределений по переменным в одном разделе и ожиданиями переменных в других разделах. Это, естественно, предполагает итеративный алгоритм, во многом похожий на EM ( алгоритм ожиданий-максимизации ), в котором ожидания (и, возможно, более высокие моменты) скрытых переменных инициализируются некоторым образом (возможно, случайным образом), а затем параметры каждого распределения вычисляются по очереди с использованием текущих значений ожиданий, после чего ожидание вновь вычисленного распределения устанавливается соответствующим образом в соответствии с вычисленными параметрами. Алгоритм такого рода гарантированно сходится . ^[5] $\operatorname {E} _{q_{-j}^{*}}[\ln p(\mathbf {Z} ,\mathbf {X} )]$ $\mathbf {Z} _{j}$

Другими словами, для каждого из разделов переменных, упрощая выражение для распределения по переменным раздела и исследуя функциональную зависимость распределения от рассматриваемых переменных, обычно можно определить семейство распределения (которое, в свою очередь, определяет значение константы). Формула для параметров распределения будет выражена в терминах гиперпараметров априорных распределений (которые являются известными константами), а также в терминах ожиданий функций переменных в других разделах. Обычно эти ожидания можно упростить до функций ожиданий самих переменных (т. е. средних значений) ; иногда также появляются ожидания квадратов переменных (которые могут быть связаны с дисперсией переменных ) или ожидания более высоких степеней (т. е. более высоких моментов ). В большинстве случаев распределения других переменных будут из известных семейств, и формулы для соответствующих ожиданий можно найти. Однако эти формулы зависят от параметров этих распределений, которые, в свою очередь, зависят от ожиданий относительно других переменных. Результатом является то, что формулы для параметров распределений каждой переменной могут быть выражены как ряд уравнений с взаимными нелинейными зависимостями между переменными. Обычно невозможно решить эту систему уравнений напрямую. Однако, как описано выше, зависимости предполагают простой итерационный алгоритм, который в большинстве случаев гарантированно сходится. Пример сделает этот процесс более понятным.

Формула двойственности для вариационного вывода

Следующая теорема называется формулой двойственности для вариационного вывода. ^[4] Она объясняет некоторые важные свойства вариационных распределений, используемых в вариационных байесовских методах.

Теорема Рассмотрим два вероятностных пространства и с . Предположим, что существует общая доминирующая вероятностная мера такая, что и . Пусть обозначает любую вещественную случайную величину на , удовлетворяющую . Тогда справедливо следующее равенство $(\Theta ,{\mathcal {F}},P)$ $(\Theta ,{\mathcal {F}},Q)$ $Q\ll P$ $\lambda$ $P\ll \lambda$ $Q\ll \lambda$ $h$ $(\Theta ,{\mathcal {F}},P)$ $h\in L_{1}(P)$

\log E_{P}[\exp h]={\text{sup}}_{Q\ll P}\{E_{Q}[h]-D_{\text{KL}}(Q\parallel P)\}.

Далее, супремум в правой части достигается тогда и только тогда, когда он выполняется

{\frac {q(\theta )}{p(\theta )}}={\frac {\exp h(\theta )}{E_{P}[\exp h]}},

почти наверное относительно вероятностной меры , где и обозначают производные Радона–Никодима вероятностных мер и относительно соответственно. $Q$ $p(\theta )=dP/d\lambda$ $q(\theta )=dQ/d\lambda$ $P$ $Q$ $\lambda$

Простой пример

Рассмотрим простую неиерархическую байесовскую модель, состоящую из набора независимых случайных величин наблюдений из гауссовского распределения с неизвестным средним значением и дисперсией . ^[6] Далее мы подробно рассмотрим эту модель, чтобы проиллюстрировать работу вариационного байесовского метода.

Для математического удобства в следующем примере мы работаем с точностью — т. е. с обратной величиной дисперсии (или в многомерной гауссовой функции, с обратной величиной ковариационной матрицы ), — а не с самой дисперсией. (С теоретической точки зрения точность и дисперсия эквивалентны, поскольку между ними существует однозначное соответствие .)

Математическая модель

Мы размещаем сопряженные априорные распределения на неизвестном среднем значении и точности , т.е. среднее значение также следует гауссовскому распределению, а точность следует гамма-распределению . Другими словами: $\mu$ $\tau$

{\begin{aligned}\tau &\sim \operatorname {Gamma} (a_{0},b_{0})\\\mu |\tau &\sim {\mathcal {N}}(\mu _{0},(\lambda _{0}\tau )^{-1})\\\{x_{1},\dots ,x_{N}\}&\sim {\mathcal {N}}(\mu ,\tau ^{-1})\\N&={\text{number of data points}}\end{aligned}}

Гиперпараметры и в априорных распределениях фиксированы, заданы значения. Они могут быть установлены на небольшие положительные числа, чтобы дать широкие априорные распределения, указывающие на незнание априорных распределений и . $\mu _{0},\lambda _{0},a_{0}$ $b_{0}$ $\mu$ $\tau$

Нам даны точки данных , и наша цель — вывести апостериорное распределение параметров и $N$ $\mathbf {X} =\{x_{1},\ldots ,x_{N}\}$ $q(\mu ,\tau )=p(\mu ,\tau \mid x_{1},\ldots ,x_{N})$ $\mu$ $\tau .$

Совместная вероятность

Совместную вероятность всех переменных можно переписать как

p(\mathbf {X} ,\mu ,\tau )=p(\mathbf {X} \mid \mu ,\tau )p(\mu \mid \tau )p(\tau )

где индивидуальные факторы

{\begin{aligned}p(\mathbf {X} \mid \mu ,\tau )&=\prod _{n=1}^{N}{\mathcal {N}}(x_{n}\mid \mu ,\tau ^{-1})\\p(\mu \mid \tau )&={\mathcal {N}}\left(\mu \mid \mu _{0},(\lambda _{0}\tau )^{-1}\right)\\p(\tau )&=\operatorname {Gamma} (\tau \mid a_{0},b_{0})\end{aligned}}

где

{\begin{aligned}{\mathcal {N}}(x\mid \mu ,\sigma ^{2})&={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}e^{\frac {-(x-\mu )^{2}}{2\sigma ^{2}}}\\\operatorname {Gamma} (\tau \mid a,b)&={\frac {1}{\Gamma (a)}}b^{a}\tau ^{a-1}e^{-b\tau }\end{aligned}}

Факторизованное приближение

Предположим, что , т.е. что апостериорное распределение факторизуется на независимые множители для и . Этот тип предположения лежит в основе вариационного байесовского метода. Истинное апостериорное распределение на самом деле не факторизуется таким образом (фактически, в этом простом случае известно, что это гауссово-гамма распределение ), и, следовательно, результат, который мы получим, будет приближением. $q(\mu ,\tau )=q(\mu )q(\tau )$ $\mu$ $\tau$

Выводq ( μ )

Затем

{\begin{aligned}\ln q_{\mu }^{*}(\mu )&=\operatorname {E} _{\tau }\left[\ln p(\mathbf {X} \mid \mu ,\tau )+\ln p(\mu \mid \tau )+\ln p(\tau )\right]+C\\&=\operatorname {E} _{\tau }\left[\ln p(\mathbf {X} \mid \mu ,\tau )\right]+\operatorname {E} _{\tau }\left[\ln p(\mu \mid \tau )\right]+\operatorname {E} _{\tau }\left[\ln p(\tau )\right]+C\\&=\operatorname {E} _{\tau }\left[\ln \prod _{n=1}^{N}{\mathcal {N}}\left(x_{n}\mid \mu ,\tau ^{-1}\right)\right]+\operatorname {E} _{\tau }\left[\ln {\mathcal {N}}\left(\mu \mid \mu _{0},(\lambda _{0}\tau )^{-1}\right)\right]+C_{2}\\&=\operatorname {E} _{\tau }\left[\ln \prod _{n=1}^{N}{\sqrt {\frac {\tau }{2\pi }}}e^{-{\frac {(x_{n}-\mu )^{2}\tau }{2}}}\right]+\operatorname {E} _{\tau }\left[\ln {\sqrt {\frac {\lambda _{0}\tau }{2\pi }}}e^{-{\frac {(\mu -\mu _{0})^{2}\lambda _{0}\tau }{2}}}\right]+C_{2}\\&=\operatorname {E} _{\tau }\left[\sum _{n=1}^{N}\left({\frac {1}{2}}(\ln \tau -\ln 2\pi )-{\frac {(x_{n}-\mu )^{2}\tau }{2}}\right)\right]+\operatorname {E} _{\tau }\left[{\frac {1}{2}}(\ln \lambda _{0}+\ln \tau -\ln 2\pi )-{\frac {(\mu -\mu _{0})^{2}\lambda _{0}\tau }{2}}\right]+C_{2}\\&=\operatorname {E} _{\tau }\left[\sum _{n=1}^{N}-{\frac {(x_{n}-\mu )^{2}\tau }{2}}\right]+\operatorname {E} _{\tau }\left[-{\frac {(\mu -\mu _{0})^{2}\lambda _{0}\tau }{2}}\right]+\operatorname {E} _{\tau }\left[\sum _{n=1}^{N}{\frac {1}{2}}(\ln \tau -\ln 2\pi )\right]+\operatorname {E} _{\tau }\left[{\frac {1}{2}}(\ln \lambda _{0}+\ln \tau -\ln 2\pi )\right]+C_{2}\\&=\operatorname {E} _{\tau }\left[\sum _{n=1}^{N}-{\frac {(x_{n}-\mu )^{2}\tau }{2}}\right]+\operatorname {E} _{\tau }\left[-{\frac {(\mu -\mu _{0})^{2}\lambda _{0}\tau }{2}}\right]+C_{3}\\&=-{\frac {\operatorname {E} _{\tau }[\tau ]}{2}}\left\{\sum _{n=1}^{N}(x_{n}-\mu )^{2}+\lambda _{0}(\mu -\mu _{0})^{2}\right\}+C_{3}\end{aligned}}

В приведенном выше выводе , и относятся к значениям, которые являются постоянными относительно . Обратите внимание, что член не является функцией и будет иметь то же значение независимо от значения . Следовательно, в строке 3 мы можем включить его в постоянный член в конце. Мы делаем то же самое в строке 7. $C$ $C_{2}$ $C_{3}$ $\mu$ $\operatorname {E} _{\tau }[\ln p(\tau )]$ $\mu$ $\mu$

Последняя строка — это просто квадратичный полином от . Поскольку это логарифм , мы можем видеть, что он сам по себе является гауссовым распределением . $\mu$ $q_{\mu }^{*}(\mu )$ $q_{\mu }^{*}(\mu )$

Применив некоторую долю утомительной математики (раскрывая квадраты внутри фигурных скобок, выделяя и группируя члены, содержащие и , и достраивая квадрат над ), мы можем вывести параметры гауссовского распределения: $\mu$ $\mu ^{2}$ $\mu$

{\begin{aligned}\ln q_{\mu }^{*}(\mu )&=-{\frac {\operatorname {E} _{\tau }[\tau ]}{2}}\left\{\sum _{n=1}^{N}(x_{n}-\mu )^{2}+\lambda _{0}(\mu -\mu _{0})^{2}\right\}+C_{3}\\&=-{\frac {\operatorname {E} _{\tau }[\tau ]}{2}}\left\{\sum _{n=1}^{N}(x_{n}^{2}-2x_{n}\mu +\mu ^{2})+\lambda _{0}(\mu ^{2}-2\mu _{0}\mu +\mu _{0}^{2})\right\}+C_{3}\\&=-{\frac {\operatorname {E} _{\tau }[\tau ]}{2}}\left\{\left(\sum _{n=1}^{N}x_{n}^{2}\right)-2\left(\sum _{n=1}^{N}x_{n}\right)\mu +\left(\sum _{n=1}^{N}\mu ^{2}\right)+\lambda _{0}\mu ^{2}-2\lambda _{0}\mu _{0}\mu +\lambda _{0}\mu _{0}^{2}\right\}+C_{3}\\&=-{\frac {\operatorname {E} _{\tau }[\tau ]}{2}}\left\{(\lambda _{0}+N)\mu ^{2}-2\left(\lambda _{0}\mu _{0}+\sum _{n=1}^{N}x_{n}\right)\mu +\left(\sum _{n=1}^{N}x_{n}^{2}\right)+\lambda _{0}\mu _{0}^{2}\right\}+C_{3}\\&=-{\frac {\operatorname {E} _{\tau }[\tau ]}{2}}\left\{(\lambda _{0}+N)\mu ^{2}-2\left(\lambda _{0}\mu _{0}+\sum _{n=1}^{N}x_{n}\right)\mu \right\}+C_{4}\\&=-{\frac {\operatorname {E} _{\tau }[\tau ]}{2}}\left\{(\lambda _{0}+N)\mu ^{2}-2\left({\frac {\lambda _{0}\mu _{0}+\sum _{n=1}^{N}x_{n}}{\lambda _{0}+N}}\right)(\lambda _{0}+N)\mu \right\}+C_{4}\\&=-{\frac {\operatorname {E} _{\tau }[\tau ]}{2}}\left\{(\lambda _{0}+N)\left(\mu ^{2}-2\left({\frac {\lambda _{0}\mu _{0}+\sum _{n=1}^{N}x_{n}}{\lambda _{0}+N}}\right)\mu \right)\right\}+C_{4}\\&=-{\frac {\operatorname {E} _{\tau }[\tau ]}{2}}\left\{(\lambda _{0}+N)\left(\mu ^{2}-2\left({\frac {\lambda _{0}\mu _{0}+\sum _{n=1}^{N}x_{n}}{\lambda _{0}+N}}\right)\mu +\left({\frac {\lambda _{0}\mu _{0}+\sum _{n=1}^{N}x_{n}}{\lambda _{0}+N}}\right)^{2}-\left({\frac {\lambda _{0}\mu _{0}+\sum _{n=1}^{N}x_{n}}{\lambda _{0}+N}}\right)^{2}\right)\right\}+C_{4}\\&=-{\frac {\operatorname {E} _{\tau }[\tau ]}{2}}\left\{(\lambda _{0}+N)\left(\mu ^{2}-2\left({\frac {\lambda _{0}\mu _{0}+\sum _{n=1}^{N}x_{n}}{\lambda _{0}+N}}\right)\mu +\left({\frac {\lambda _{0}\mu _{0}+\sum _{n=1}^{N}x_{n}}{\lambda _{0}+N}}\right)^{2}\right)\right\}+C_{5}\\&=-{\frac {\operatorname {E} _{\tau }[\tau ]}{2}}\left\{(\lambda _{0}+N)\left(\mu -{\frac {\lambda _{0}\mu _{0}+\sum _{n=1}^{N}x_{n}}{\lambda _{0}+N}}\right)^{2}\right\}+C_{5}\\&=-{\frac {1}{2}}(\lambda _{0}+N)\operatorname {E} _{\tau }[\tau ]\left(\mu -{\frac {\lambda _{0}\mu _{0}+\sum _{n=1}^{N}x_{n}}{\lambda _{0}+N}}\right)^{2}+C_{5}\end{aligned}}

Обратите внимание, что все вышеперечисленные шаги можно сократить, используя формулу суммы двух квадратных уравнений .

Другими словами:

{\begin{aligned}q_{\mu }^{*}(\mu )&\sim {\mathcal {N}}(\mu \mid \mu _{N},\lambda _{N}^{-1})\\\mu _{N}&={\frac {\lambda _{0}\mu _{0}+N{\bar {x}}}{\lambda _{0}+N}}\\\lambda _{N}&=(\lambda _{0}+N)\operatorname {E} _{\tau }[\tau ]\\{\bar {x}}&={\frac {1}{N}}\sum _{n=1}^{N}x_{n}\end{aligned}}

Выводq(τ)

Вывод аналогичен приведенному выше, хотя мы опускаем некоторые детали ради краткости. $q_{\tau }^{*}(\tau )$

{\begin{aligned}\ln q_{\tau }^{*}(\tau )&=\operatorname {E} _{\mu }[\ln p(\mathbf {X} \mid \mu ,\tau )+\ln p(\mu \mid \tau )]+\ln p(\tau )+{\text{constant}}\\&=(a_{0}-1)\ln \tau -b_{0}\tau +{\frac {1}{2}}\ln \tau +{\frac {N}{2}}\ln \tau -{\frac {\tau }{2}}\operatorname {E} _{\mu }\left[\sum _{n=1}^{N}(x_{n}-\mu )^{2}+\lambda _{0}(\mu -\mu _{0})^{2}\right]+{\text{constant}}\end{aligned}}

Возводя обе стороны в степень, мы видим, что это гамма-распределение . А именно: $q_{\tau }^{*}(\tau )$

{\begin{aligned}q_{\tau }^{*}(\tau )&\sim \operatorname {Gamma} (\tau \mid a_{N},b_{N})\\a_{N}&=a_{0}+{\frac {N+1}{2}}\\b_{N}&=b_{0}+{\frac {1}{2}}\operatorname {E} _{\mu }\left[\sum _{n=1}^{N}(x_{n}-\mu )^{2}+\lambda _{0}(\mu -\mu _{0})^{2}\right]\end{aligned}}

Алгоритм расчета параметров

Давайте повторим выводы из предыдущих разделов:

{\begin{aligned}q_{\mu }^{*}(\mu )&\sim {\mathcal {N}}(\mu \mid \mu _{N},\lambda _{N}^{-1})\\\mu _{N}&={\frac {\lambda _{0}\mu _{0}+N{\bar {x}}}{\lambda _{0}+N}}\\\lambda _{N}&=(\lambda _{0}+N)\operatorname {E} _{\tau }[\tau ]\\{\bar {x}}&={\frac {1}{N}}\sum _{n=1}^{N}x_{n}\end{aligned}}

{\begin{aligned}q_{\tau }^{*}(\tau )&\sim \operatorname {Gamma} (\tau \mid a_{N},b_{N})\\a_{N}&=a_{0}+{\frac {N+1}{2}}\\b_{N}&=b_{0}+{\frac {1}{2}}\operatorname {E} _{\mu }\left[\sum _{n=1}^{N}(x_{n}-\mu )^{2}+\lambda _{0}(\mu -\mu _{0})^{2}\right]\end{aligned}}

В каждом случае параметры распределения по одной из переменных зависят от ожиданий, принятых по отношению к другой переменной. Мы можем расширить ожидания, используя стандартные формулы для ожиданий моментов гауссовского и гамма-распределений:

{\begin{aligned}\operatorname {E} [\tau \mid a_{N},b_{N}]&={\frac {a_{N}}{b_{N}}}\\\operatorname {E} \left[\mu \mid \mu _{N},\lambda _{N}^{-1}\right]&=\mu _{N}\\\operatorname {E} \left[X^{2}\right]&=\operatorname {Var} (X)+(\operatorname {E} [X])^{2}\\\operatorname {E} \left[\mu ^{2}\mid \mu _{N},\lambda _{N}^{-1}\right]&=\lambda _{N}^{-1}+\mu _{N}^{2}\end{aligned}}

Применение этих формул к приведенным выше уравнениям в большинстве случаев тривиально, но уравнение для требует больше работы: $b_{N}$

{\begin{aligned}b_{N}&=b_{0}+{\frac {1}{2}}\operatorname {E} _{\mu }\left[\sum _{n=1}^{N}(x_{n}-\mu )^{2}+\lambda _{0}(\mu -\mu _{0})^{2}\right]\\&=b_{0}+{\frac {1}{2}}\operatorname {E} _{\mu }\left[(\lambda _{0}+N)\mu ^{2}-2\left(\lambda _{0}\mu _{0}+\sum _{n=1}^{N}x_{n}\right)\mu +\left(\sum _{n=1}^{N}x_{n}^{2}\right)+\lambda _{0}\mu _{0}^{2}\right]\\&=b_{0}+{\frac {1}{2}}\left[(\lambda _{0}+N)\operatorname {E} _{\mu }[\mu ^{2}]-2\left(\lambda _{0}\mu _{0}+\sum _{n=1}^{N}x_{n}\right)\operatorname {E} _{\mu }[\mu ]+\left(\sum _{n=1}^{N}x_{n}^{2}\right)+\lambda _{0}\mu _{0}^{2}\right]\\&=b_{0}+{\frac {1}{2}}\left[(\lambda _{0}+N)\left(\lambda _{N}^{-1}+\mu _{N}^{2}\right)-2\left(\lambda _{0}\mu _{0}+\sum _{n=1}^{N}x_{n}\right)\mu _{N}+\left(\sum _{n=1}^{N}x_{n}^{2}\right)+\lambda _{0}\mu _{0}^{2}\right]\\\end{aligned}}

Тогда мы можем записать уравнения параметров следующим образом, без каких-либо ожиданий:

{\begin{aligned}\mu _{N}&={\frac {\lambda _{0}\mu _{0}+N{\bar {x}}}{\lambda _{0}+N}}\\\lambda _{N}&=(\lambda _{0}+N){\frac {a_{N}}{b_{N}}}\\{\bar {x}}&={\frac {1}{N}}\sum _{n=1}^{N}x_{n}\\a_{N}&=a_{0}+{\frac {N+1}{2}}\\b_{N}&=b_{0}+{\frac {1}{2}}\left[(\lambda _{0}+N)\left(\lambda _{N}^{-1}+\mu _{N}^{2}\right)-2\left(\lambda _{0}\mu _{0}+\sum _{n=1}^{N}x_{n}\right)\mu _{N}+\left(\sum _{n=1}^{N}x_{n}^{2}\right)+\lambda _{0}\mu _{0}^{2}\right]\end{aligned}}

Обратите внимание, что существуют циклические зависимости между формулами для и . Это, естественно, предполагает алгоритм типа EM : $\lambda _{N}$ $b_{N}$

Вычислите и используйте эти значения для вычисления и $\sum _{n=1}^{N}x_{n}$ $\sum _{n=1}^{N}x_{n}^{2}.$ $\mu _{N}$ $a_{N}.$
Инициализируйте некоторым произвольным значением. $\lambda _{N}$
Используйте текущее значение вместе с известными значениями других параметров, чтобы вычислить . $\lambda _{N},$ $b_{N}$
Используйте текущее значение вместе с известными значениями других параметров, чтобы вычислить . $b_{N},$ $\lambda _{N}$
Повторяйте последние два шага до тех пор, пока не произойдет сходимость (т.е. пока ни одно из значений не изменится больше, чем на некоторую небольшую величину).

Затем у нас есть значения гиперпараметров аппроксимирующих распределений апостериорных параметров, которые мы можем использовать для вычисления любых нужных нам свойств апостериорной вероятности — например, ее среднего значения и дисперсии, области с наивысшей плотностью 95% (наименьший интервал, включающий 95% общей вероятности) и т. д.

Можно показать, что этот алгоритм гарантированно сходится к локальному максимуму.

Обратите внимание также, что апостериорные распределения имеют ту же форму, что и соответствующие априорные распределения. Мы этого не предполагали; единственное предположение, которое мы сделали, состояло в том, что распределения факторизуются, и форма распределений вытекала естественным образом. Оказывается (см. ниже), что тот факт, что апостериорные распределения имеют ту же форму, что и априорные распределения, не является совпадением, а общим результатом, когда априорные распределения являются членами экспоненциального семейства , что имеет место для большинства стандартных распределений.

Дальнейшее обсуждение

Пошаговый рецепт

Приведенный выше пример демонстрирует метод, с помощью которого выводится вариационно-байесовское приближение к апостериорной плотности вероятности в заданной байесовской сети :

Опишите сеть с помощью графической модели , идентифицируя наблюдаемые переменные (данные) и ненаблюдаемые переменные ( параметры и скрытые переменные ) и их условные распределения вероятностей . Вариационный Байес затем построит приближение к апостериорной вероятности . Приближение имеет основное свойство, что оно является факторизованным распределением, т.е. произведением двух или более независимых распределений по непересекающимся подмножествам ненаблюдаемых переменных. $\mathbf {X}$ ${\boldsymbol {\Theta }}$ $\mathbf {Z}$ $p(\mathbf {Z} ,{\boldsymbol {\Theta }}\mid \mathbf {X} )$
Разделите ненаблюдаемые переменные на два или более подмножеств, по которым будут выведены независимые факторы. Универсальной процедуры для этого не существует; создание слишком большого количества подмножеств приводит к плохому приближению, а создание слишком малого количества делает всю вариационную байесовскую процедуру неразрешимой. Обычно первое разделение заключается в разделении параметров и скрытых переменных; часто этого достаточно для получения разрешимого результата. Предположим, что разделы называются . $\mathbf {Z} _{1},\ldots ,\mathbf {Z} _{M}$
Для заданного разбиения запишите формулу наилучшего аппроксимирующего распределения, используя основное уравнение . $\mathbf {Z} _{j}$ $q_{j}^{*}(\mathbf {Z} _{j}\mid \mathbf {X} )$ $\ln q_{j}^{*}(\mathbf {Z} _{j}\mid \mathbf {X} )=\operatorname {E} _{i\neq j}[\ln p(\mathbf {Z} ,\mathbf {X} )]+{\text{constant}}$
Заполните формулу для совместного распределения вероятностей, используя графическую модель. Любые компонентные условные распределения, которые не включают ни одну из переменных, можно игнорировать; они будут свернуты в постоянный член. $\mathbf {Z} _{j}$
Упростите формулу и примените оператор ожидания, следуя примеру выше. В идеале это должно упроститься до ожиданий базовых функций переменных, не входящих в (например, первые или вторые сырые моменты , ожидание логарифма и т. д.). Для того чтобы вариационная байесовская процедура работала хорошо, эти ожидания, как правило, должны быть аналитически выражены как функции параметров и/или гиперпараметров распределений этих переменных. Во всех случаях эти члены ожидания являются константами относительно переменных в текущем разделе. $\mathbf {Z} _{j}$
Функциональная форма формулы относительно переменных в текущем разделе указывает на тип распределения. В частности, возведение формулы в степень генерирует функцию плотности вероятности (PDF) распределения (или, по крайней мере, что-то пропорциональное ей, с неизвестной константой нормализации ). Для того чтобы общий метод был управляемым, должна быть возможность распознавать функциональную форму как принадлежащую известному распределению. Для преобразования формулы в форму, которая соответствует PDF известного распределения, могут потребоваться значительные математические манипуляции. Когда это возможно, константа нормализации может быть восстановлена по определению, и уравнения для параметров известного распределения могут быть выведены путем извлечения соответствующих частей формулы.
Когда все ожидания можно аналитически заменить функциями переменных, не входящих в текущий раздел, и преобразовать функцию распределения вероятностей в форму, позволяющую идентифицировать ее с известным распределением, результатом является набор уравнений, выражающих значения оптимальных параметров как функции параметров переменных в других разделах.
Если эту процедуру применить ко всем разделам, результатом будет набор взаимосвязанных уравнений, определяющих оптимальные значения всех параметров.
Затем применяется процедура типа ожидание-максимизация (EM), выбирающая начальное значение для каждого параметра и итерирующая через серию шагов, где на каждом шаге мы циклически проходим через уравнения, обновляя каждый параметр по очереди. Это гарантированно сходится.

Наиболее важные моменты

Из-за всех математических манипуляций, которые здесь задействованы, легко потерять общую картину. Важны следующие вещи:

Идея вариационного Байеса заключается в построении аналитического приближения к апостериорной вероятности набора ненаблюдаемых переменных (параметров и скрытых переменных) с учетом данных. Это означает, что форма решения похожа на другие байесовские методы вывода , такие как выборка Гиббса — т. е. распределение, которое стремится описать все, что известно о переменных. Как и в других байесовских методах — но в отличие, например, от максимизации ожидания (EM) или других методов максимального правдоподобия — оба типа ненаблюдаемых переменных (т. е. параметров и скрытых переменных) рассматриваются одинаково, т. е. как случайные величины . Оценки для переменных затем могут быть получены стандартными байесовскими способами, например, вычисляя среднее значение распределения для получения оценки по одной точке или выводя достоверный интервал , область наивысшей плотности и т. д.
«Аналитическое приближение» означает, что формула может быть записана для апостериорного распределения. Формула обычно состоит из произведения известных распределений вероятностей, каждое из которых факторизуется по набору ненаблюдаемых переменных (т.е. оно условно независимо от других переменных, учитывая наблюдаемые данные). Эта формула не является истинным апостериорным распределением, а лишь приближением к нему; в частности, она обычно будет довольно близко согласовываться в самых низких моментах ненаблюдаемых переменных, например, среднего значения и дисперсии .
Результатом всех математических манипуляций является (1) идентичность распределений вероятностей, составляющих факторы, и (2) взаимозависимые формулы для параметров этих распределений. Фактические значения этих параметров вычисляются численно, посредством чередующейся итеративной процедуры, во многом похожей на EM.

По сравнению с ожиданием-максимизацией (EM)

Вариационный Байес (VB) часто сравнивают с ожиданием-максимизацией (EM). Фактическая численная процедура довольно похожа, поскольку обе являются чередующимися итеративными процедурами, которые последовательно сходятся к оптимальным значениям параметров. Начальные шаги для вывода соответствующих процедур также смутно похожи, обе начинаются с формул для плотностей вероятности и обе включают в себя значительный объем математических манипуляций.

Однако есть ряд отличий. Самое важное — это то, что вычисляется.

EM вычисляет точечные оценки апостериорного распределения тех случайных величин, которые можно отнести к категории «параметров», но только оценки фактических апостериорных распределений скрытых переменных (по крайней мере, в «мягкой EM», и часто только когда скрытые переменные дискретны). Вычисленные точечные оценки являются модами этих параметров; никакой другой информации нет.
VB, с другой стороны, вычисляет оценки фактического апостериорного распределения всех переменных, как параметров, так и скрытых переменных. Когда необходимо вывести точечные оценки, обычно используется среднее значение , а не мода, как это обычно бывает в байесовском выводе. В связи с этим параметры, вычисляемые в VB, не имеют того же значения, что и в EM. EM вычисляет оптимальные значения параметров самой сети Байеса. VB вычисляет оптимальные значения параметров распределений, используемых для аппроксимации параметров и скрытых переменных сети Байеса. Например, типичная модель смеси Гаусса будет иметь параметры для среднего значения и дисперсии каждого из компонентов смеси. EM будет напрямую оценивать оптимальные значения для этих параметров. VB, однако, сначала подгонит распределение к этим параметрам — обычно в форме априорного распределения , например, обратного гамма-распределения с нормальным масштабом — и затем вычислит значения для параметров этого априорного распределения, т. е. по сути гиперпараметров . В этом случае VB вычислит оптимальные оценки четырех параметров обратного гамма-распределения в нормальном масштабе, которое описывает совместное распределение среднего значения и дисперсии компонента.

Более сложный пример

Модель байесовской гауссовой смеси с использованием табличной нотации . Меньшие квадраты обозначают фиксированные параметры; большие круги обозначают случайные величины. Заполненные формы обозначают известные значения. Обозначение [K] означает вектор размером K ; [ D , D ] означает матрицу размером D × D ; K отдельно означает категориальную переменную с K результатами. Волнистая линия, идущая от z и заканчивающаяся крестообразной чертой, обозначает переключатель — значение этой переменной выбирает для других входящих переменных, какое значение использовать из массива размером K возможных значений.

Представьте себе модель байесовской гауссовской смеси, описанную следующим образом: ^[3]

{\begin{aligned}\mathbf {\pi } &\sim \operatorname {SymDir} (K,\alpha _{0})\\\mathbf {\Lambda } _{i=1\dots K}&\sim {\mathcal {W}}(\mathbf {W} _{0},\nu _{0})\\\mathbf {\mu } _{i=1\dots K}&\sim {\mathcal {N}}(\mathbf {\mu } _{0},(\beta _{0}\mathbf {\Lambda } _{i})^{-1})\\\mathbf {z} [i=1\dots N]&\sim \operatorname {Mult} (1,\mathbf {\pi } )\\\mathbf {x} _{i=1\dots N}&\sim {\mathcal {N}}(\mathbf {\mu } _{z_{i}},{\mathbf {\Lambda } _{z_{i}}}^{-1})\\K&={\text{number of mixing components}}\\N&={\text{number of data points}}\end{aligned}}

Примечание:

SymDir() — это симметричное распределение Дирихле размерности , где гиперпараметр для каждого компонента установлен в . Распределение Дирихле — это сопряженное априорное распределение категориального распределения или полиномиального распределения . $K$ $\alpha _{0}$
${\mathcal {W}}()$ — это распределение Уишарта , которое является сопряженным априорным распределением матрицы точности (обратной ковариационной матрицы ) для многомерного гауссовского распределения .
Mult() — это мультиномиальное распределение по одному наблюдению (эквивалентно категориальному распределению ). Пространство состояний — это представление «один из K», т. е. -мерный вектор, в котором один из элементов равен 1 (указывающий на идентичность наблюдения), а все остальные элементы равны 0. $K$
${\mathcal {N}}()$ — это гауссово распределение , в данном случае — многомерное гауссово распределение .

Интерпретация вышеуказанных переменных следующая:

$\mathbf {X} =\{\mathbf {x} _{1},\dots ,\mathbf {x} _{N}\}$ представляет собой набор точек данных, каждая из которых представляет собой -мерный вектор, распределенный в соответствии с многомерным гауссовым распределением . $N$ $D$
$\mathbf {Z} =\{\mathbf {z} _{1},\dots ,\mathbf {z} _{N}\}$ представляет собой набор скрытых переменных, по одной на точку данных, определяющих, к какому компоненту смеси относится соответствующая точка данных, используя векторное представление «один из K» с компонентами для , как описано выше. $z_{nk}$ $k=1\dots K$
$\mathbf {\pi }$ это пропорции смешивания компонентов смеси. $K$
$\mathbf {\mu } _{i=1\dots K}$ и указать параметры ( среднее значение и точность ), связанные с каждым компонентом смеси. $\mathbf {\Lambda } _{i=1\dots K}$

Совместную вероятность всех переменных можно переписать как

p(\mathbf {X} ,\mathbf {Z} ,\mathbf {\pi } ,\mathbf {\mu } ,\mathbf {\Lambda } )=p(\mathbf {X} \mid \mathbf {Z} ,\mathbf {\mu } ,\mathbf {\Lambda } )p(\mathbf {Z} \mid \mathbf {\pi } )p(\mathbf {\pi } )p(\mathbf {\mu } \mid \mathbf {\Lambda } )p(\mathbf {\Lambda } )

где индивидуальные факторы

{\begin{aligned}p(\mathbf {X} \mid \mathbf {Z} ,\mathbf {\mu } ,\mathbf {\Lambda } )&=\prod _{n=1}^{N}\prod _{k=1}^{K}{\mathcal {N}}(\mathbf {x} _{n}\mid \mathbf {\mu } _{k},\mathbf {\Lambda } _{k}^{-1})^{z_{nk}}\\p(\mathbf {Z} \mid \mathbf {\pi } )&=\prod _{n=1}^{N}\prod _{k=1}^{K}\pi _{k}^{z_{nk}}\\p(\mathbf {\pi } )&={\frac {\Gamma (K\alpha _{0})}{\Gamma (\alpha _{0})^{K}}}\prod _{k=1}^{K}\pi _{k}^{\alpha _{0}-1}\\p(\mathbf {\mu } \mid \mathbf {\Lambda } )&=\prod _{k=1}^{K}{\mathcal {N}}(\mathbf {\mu } _{k}\mid \mathbf {\mu } _{0},(\beta _{0}\mathbf {\Lambda } _{k})^{-1})\\p(\mathbf {\Lambda } )&=\prod _{k=1}^{K}{\mathcal {W}}(\mathbf {\Lambda } _{k}\mid \mathbf {W} _{0},\nu _{0})\end{aligned}}

где

{\begin{aligned}{\mathcal {N}}(\mathbf {x} \mid \mathbf {\mu } ,\mathbf {\Sigma } )&={\frac {1}{(2\pi )^{D/2}}}{\frac {1}{|\mathbf {\Sigma } |^{1/2}}}\exp \left\{-{\frac {1}{2}}(\mathbf {x} -\mathbf {\mu } )^{\rm {T}}\mathbf {\Sigma } ^{-1}(\mathbf {x} -\mathbf {\mu } )\right\}\\{\mathcal {W}}(\mathbf {\Lambda } \mid \mathbf {W} ,\nu )&=B(\mathbf {W} ,\nu )|\mathbf {\Lambda } |^{(\nu -D-1)/2}\exp \left(-{\frac {1}{2}}\operatorname {Tr} (\mathbf {W} ^{-1}\mathbf {\Lambda } )\right)\\B(\mathbf {W} ,\nu )&=|\mathbf {W} |^{-\nu /2}\left\{2^{\nu D/2}\pi ^{D(D-1)/4}\prod _{i=1}^{D}\Gamma \left({\frac {\nu +1-i}{2}}\right)\right\}^{-1}\\D&={\text{dimensionality of each data point}}\end{aligned}}

Предположим, что . $q(\mathbf {Z} ,\mathbf {\pi } ,\mathbf {\mu } ,\mathbf {\Lambda } )=q(\mathbf {Z} )q(\mathbf {\pi } ,\mathbf {\mu } ,\mathbf {\Lambda } )$

Тогда ^[3]

{\begin{aligned}\ln q^{*}(\mathbf {Z} )&=\operatorname {E} _{\mathbf {\pi } ,\mathbf {\mu } ,\mathbf {\Lambda } }[\ln p(\mathbf {X} ,\mathbf {Z} ,\mathbf {\pi } ,\mathbf {\mu } ,\mathbf {\Lambda } )]+{\text{constant}}\\&=\operatorname {E} _{\mathbf {\pi } }[\ln p(\mathbf {Z} \mid \mathbf {\pi } )]+\operatorname {E} _{\mathbf {\mu } ,\mathbf {\Lambda } }[\ln p(\mathbf {X} \mid \mathbf {Z} ,\mathbf {\mu } ,\mathbf {\Lambda } )]+{\text{constant}}\\&=\sum _{n=1}^{N}\sum _{k=1}^{K}z_{nk}\ln \rho _{nk}+{\text{constant}}\end{aligned}}

где мы определили

\ln \rho _{nk}=\operatorname {E} [\ln \pi _{k}]+{\frac {1}{2}}\operatorname {E} [\ln |\mathbf {\Lambda } _{k}|]-{\frac {D}{2}}\ln(2\pi )-{\frac {1}{2}}\operatorname {E} _{\mathbf {\mu } _{k},\mathbf {\Lambda } _{k}}[(\mathbf {x} _{n}-\mathbf {\mu } _{k})^{\rm {T}}\mathbf {\Lambda } _{k}(\mathbf {x} _{n}-\mathbf {\mu } _{k})]

Возведение обеих частей формулы для получения доходности в степень $\ln q^{*}(\mathbf {Z} )$

q^{*}(\mathbf {Z} )\propto \prod _{n=1}^{N}\prod _{k=1}^{K}\rho _{nk}^{z_{nk}}

Требование, чтобы это было нормализовано, приводит к требованию, чтобы сумма равнялась 1 по всем значениям , что дает $\rho _{nk}$ $k$

q^{*}(\mathbf {Z} )=\prod _{n=1}^{N}\prod _{k=1}^{K}r_{nk}^{z_{nk}}

где

r_{nk}={\frac {\rho _{nk}}{\sum _{j=1}^{K}\rho _{nj}}}

Другими словами, является произведением мультиномиальных распределений одного наблюдения и факторов по каждому отдельному случаю , которое распределено как мультиномиальное распределение одного наблюдения с параметрами для . $q^{*}(\mathbf {Z} )$ $\mathbf {z} _{n}$ $r_{nk}$ $k=1\dots K$

Кроме того, отметим, что

\operatorname {E} [z_{nk}]=r_{nk}\,

что является стандартным результатом для категориальных распределений.

Теперь, рассматривая фактор , отметим, что он автоматически учитывается в силу структуры графической модели, определяющей нашу модель гауссовой смеси, которая указана выше. $q(\mathbf {\pi } ,\mathbf {\mu } ,\mathbf {\Lambda } )$ $q(\mathbf {\pi } )\prod _{k=1}^{K}q(\mathbf {\mu } _{k},\mathbf {\Lambda } _{k})$

Затем,

{\begin{aligned}\ln q^{*}(\mathbf {\pi } )&=\ln p(\mathbf {\pi } )+\operatorname {E} _{\mathbf {Z} }[\ln p(\mathbf {Z} \mid \mathbf {\pi } )]+{\text{constant}}\\&=(\alpha _{0}-1)\sum _{k=1}^{K}\ln \pi _{k}+\sum _{n=1}^{N}\sum _{k=1}^{K}r_{nk}\ln \pi _{k}+{\text{constant}}\end{aligned}}

Взяв экспоненту от обеих сторон, мы распознаем распределение Дирихле $q^{*}(\mathbf {\pi } )$

q^{*}(\mathbf {\pi } )\sim \operatorname {Dir} (\mathbf {\alpha } )\,

где

\alpha _{k}=\alpha _{0}+N_{k}\,

где

N_{k}=\sum _{n=1}^{N}r_{nk}\,

Окончательно

\ln q^{*}(\mathbf {\mu } _{k},\mathbf {\Lambda } _{k})=\ln p(\mathbf {\mu } _{k},\mathbf {\Lambda } _{k})+\sum _{n=1}^{N}\operatorname {E} [z_{nk}]\ln {\mathcal {N}}(\mathbf {x} _{n}\mid \mathbf {\mu } _{k},\mathbf {\Lambda } _{k}^{-1})+{\text{constant}}

Группируя и считывая члены, содержащие и , результатом является распределение Гаусса-Уишарта, заданное формулой $\mathbf {\mu } _{k}$ $\mathbf {\Lambda } _{k}$

q^{*}(\mathbf {\mu } _{k},\mathbf {\Lambda } _{k})={\mathcal {N}}(\mathbf {\mu } _{k}\mid \mathbf {m} _{k},(\beta _{k}\mathbf {\Lambda } _{k})^{-1}){\mathcal {W}}(\mathbf {\Lambda } _{k}\mid \mathbf {W} _{k},\nu _{k})

учитывая определения

{\begin{aligned}\beta _{k}&=\beta _{0}+N_{k}\\\mathbf {m} _{k}&={\frac {1}{\beta _{k}}}(\beta _{0}\mathbf {\mu } _{0}+N_{k}{\bar {\mathbf {x} }}_{k})\\\mathbf {W} _{k}^{-1}&=\mathbf {W} _{0}^{-1}+N_{k}\mathbf {S} _{k}+{\frac {\beta _{0}N_{k}}{\beta _{0}+N_{k}}}({\bar {\mathbf {x} }}_{k}-\mathbf {\mu } _{0})({\bar {\mathbf {x} }}_{k}-\mathbf {\mu } _{0})^{\rm {T}}\\\nu _{k}&=\nu _{0}+N_{k}\\N_{k}&=\sum _{n=1}^{N}r_{nk}\\{\bar {\mathbf {x} }}_{k}&={\frac {1}{N_{k}}}\sum _{n=1}^{N}r_{nk}\mathbf {x} _{n}\\\mathbf {S} _{k}&={\frac {1}{N_{k}}}\sum _{n=1}^{N}r_{nk}(\mathbf {x} _{n}-{\bar {\mathbf {x} }}_{k})(\mathbf {x} _{n}-{\bar {\mathbf {x} }}_{k})^{\rm {T}}\end{aligned}}

Наконец, обратите внимание, что эти функции требуют значений , которые используют , который в свою очередь определяется на основе , и . Теперь, когда мы определили распределения, по которым берутся эти ожидания, мы можем вывести для них формулы: $r_{nk}$ $\rho _{nk}$ $\operatorname {E} [\ln \pi _{k}]$ $\operatorname {E} [\ln |\mathbf {\Lambda } _{k}|]$ $\operatorname {E} _{\mathbf {\mu } _{k},\mathbf {\Lambda } _{k}}[(\mathbf {x} _{n}-\mathbf {\mu } _{k})^{\rm {T}}\mathbf {\Lambda } _{k}(\mathbf {x} _{n}-\mathbf {\mu } _{k})]$

{\begin{aligned}\operatorname {E} _{\mathbf {\mu } _{k},\mathbf {\Lambda } _{k}}[(\mathbf {x} _{n}-\mathbf {\mu } _{k})^{\rm {T}}\mathbf {\Lambda } _{k}(\mathbf {x} _{n}-\mathbf {\mu } _{k})]&=D\beta _{k}^{-1}+\nu _{k}(\mathbf {x} _{n}-\mathbf {m} _{k})^{\rm {T}}\mathbf {W} _{k}(\mathbf {x} _{n}-\mathbf {m} _{k})\\\ln {\widetilde {\Lambda }}_{k}&\equiv \operatorname {E} [\ln |\mathbf {\Lambda } _{k}|]=\sum _{i=1}^{D}\psi \left({\frac {\nu _{k}+1-i}{2}}\right)+D\ln 2+\ln |\mathbf {W} _{k}|\\\ln {\widetilde {\pi }}_{k}&\equiv \operatorname {E} \left[\ln |\pi _{k}|\right]=\psi (\alpha _{k})-\psi \left(\sum _{i=1}^{K}\alpha _{i}\right)\end{aligned}}

Эти результаты приводят к

r_{nk}\propto {\widetilde {\pi }}_{k}{\widetilde {\Lambda }}_{k}^{1/2}\exp \left\{-{\frac {D}{2\beta _{k}}}-{\frac {\nu _{k}}{2}}(\mathbf {x} _{n}-\mathbf {m} _{k})^{\rm {T}}\mathbf {W} _{k}(\mathbf {x} _{n}-\mathbf {m} _{k})\right\}

Их можно преобразовать из пропорциональных в абсолютные значения путем нормализации таким образом, чтобы сумма соответствующих значений равнялась 1. $k$

Обратите внимание, что:

Уравнения обновления для параметров , , и переменных и зависят от статистик , , и , а эти статистики в свою очередь зависят от . $\beta _{k}$ $\mathbf {m} _{k}$ $\mathbf {W} _{k}$ $\nu _{k}$ $\mathbf {\mu } _{k}$ $\mathbf {\Lambda } _{k}$ $N_{k}$ ${\bar {\mathbf {x} }}_{k}$ $\mathbf {S} _{k}$ $r_{nk}$
Уравнения обновления параметров переменной зависят от статистики , которая в свою очередь зависит от . $\alpha _{1\dots K}$ $\mathbf {\pi }$ $N_{k}$ $r_{nk}$
Уравнение обновления для имеет прямую круговую зависимость от , , и , а также косвенную круговую зависимость от , и через и . $r_{nk}$ $\beta _{k}$ $\mathbf {m} _{k}$ $\mathbf {W} _{k}$ $\nu _{k}$ $\mathbf {W} _{k}$ $\nu _{k}$ $\alpha _{1\dots K}$ ${\widetilde {\pi }}_{k}$ ${\widetilde {\Lambda }}_{k}$

Это предполагает итеративную процедуру, которая чередует два этапа:

E-шаг, который вычисляет значение, используя текущие значения всех остальных параметров. $r_{nk}$
M-шаг, который использует новое значение для вычисления новых значений всех остальных параметров. $r_{nk}$

Обратите внимание, что эти шаги тесно связаны со стандартным алгоритмом EM для получения максимального правдоподобия или максимального апостериорного (MAP) решения для параметров модели гауссовой смеси . Обязанности на шаге E тесно связаны с апостериорными вероятностями скрытых переменных, заданных данными, то есть : вычисление статистики , и тесно связано с вычислением соответствующей статистики «мягкого подсчета» по данным; а использование этой статистики для вычисления новых значений параметров тесно связано с использованием мягких подсчетов для вычисления новых значений параметров в нормальной EM по модели гауссовой смеси. $r_{nk}$ $p(\mathbf {Z} \mid \mathbf {X} )$ $N_{k}$ ${\bar {\mathbf {x} }}_{k}$ $\mathbf {S} _{k}$

Экспоненциально-семейные распределения

Обратите внимание, что в предыдущем примере, как только распределение по ненаблюдаемым переменным было предположено факторизованным в распределения по "параметрам" и распределения по "скрытым данным", полученное "лучшее" распределение для каждой переменной было в том же семействе, что и соответствующее априорное распределение по переменной. Это общий результат, который справедлив для всех априорных распределений, полученных из экспоненциального семейства .

Смотрите также

Вариационная передача сообщений : модульный алгоритм для вариационного байесовского вывода.
Вариационный автоэнкодер : искусственная нейронная сеть, принадлежащая к семействам вероятностных графических моделей и вариационных байесовских методов.
Алгоритм максимизации ожидания : родственный подход, который соответствует частному случаю вариационного байесовского вывода.
Обобщенная фильтрация : вариационная схема фильтрации для нелинейных моделей пространства состояний.
Вариационное исчисление : область математического анализа, занимающаяся максимизацией или минимизацией функционалов.
Максимальная дискриминация энтропии: это вариационная структура вывода, которая позволяет вводить и учитывать дополнительные ограничения с большим запасом ^[7]

Ссылки

^ abcd Tran, Viet Hung (2018). «Вариационный байесовский вывод копулы через информационную геометрию». arXiv : 1803.10998 [cs.IT].
^ ab Adamčík, Martin (2014). «Информационная геометрия расхождений Брегмана и некоторые приложения в многоэкспертных рассуждениях». Entropy . 16 (12): 6338–6381. Bibcode :2014Entrp..16.6338A. doi : 10.3390/e16126338 .
^ abc Нгуен, Дуй (15 августа 2023 г.). "УГЛУБЛЕННОЕ ВВЕДЕНИЕ В ВАРИАЦИОННУЮ ЗАМЕТКУ БАЙЕСА". doi :10.2139/ssrn.4541076. SSRN 4541076 . Получено 15 августа 2023 г. .
^ abc Lee, Se Yoon (2021). «Gibbs sampler andordinate ascent variational inference: A set-theoretical review». Communications in Statistics - Theory and Methods . 51 (6): 1–21. arXiv : 2008.01006 . doi : 10.1080/03610926.2021.1921214. S2CID 220935477.
^ Бойд, Стивен П.; Ванденберг, Ливен (2004). Выпуклая оптимизация (PDF) . Cambridge University Press. ISBN 978-0-521-83378-3. Получено 15 октября 2011 г. .
^ Бишоп, Кристофер М. (2006). "Глава 10". Распознавание образов и машинное обучение . Springer. ISBN 978-0-387-31073-2.
^ Сотириос П. Чатзис, «Машины дискриминации с максимальной энтропией и бесконечным переключением Маркова», Труды 30-й Международной конференции по машинному обучению (ICML). Журнал исследований машинного обучения: Труды семинаров и конференций, т. 28, № 3, стр. 729–737, июнь 2013 г.

Внешние ссылки

Электронный учебник «Теория информации, вывод и алгоритмы обучения» Дэвида Дж. К. Маккея содержит введение в вариационные методы (стр. 422).
Учебное пособие по вариационному байесовскому алгоритму. Фокс, К. и Робертс, С. 2012. Обзор искусственного интеллекта, doi :10.1007/s10462-011-9236-8.
Вариационно-байесовский репозиторий Репозиторий исследовательских работ, программного обеспечения и ссылок, связанных с использованием вариационных методов для приближенного байесовского обучения до 2003 года.
В книге «Вариационные алгоритмы для приближенного байесовского вывода» М. Дж. Била приводятся сравнения ЭМ с вариационным байесовским ЭМ и выводы нескольких моделей, включая вариационные байесовские HMM.
Возможно, стоит прочитать «Обобщение вариационного вывода на высоком уровне» Джейсона Эйснера перед более подробным математическим рассмотрением.
Копула Вариационный байесовский вывод через информационную геометрию (pdf) Tran, VH 2018. Эта статья в первую очередь написана для студентов. С помощью расхождения Брегмана статья показывает, что вариационный байесовский вывод — это просто обобщенная пифагорейская проекция истинной модели на произвольно коррелированное (копула) распределительное пространство, независимым случаем которого является независимое пространство.
Подробное введение в вариационный байесовский анализ. Нгуен, Д. 2023