Алгоритм Метрополиса – Гастингса

В статистике и статистической физике алгоритм Метрополиса -Гастингса представляет собой метод Монте-Карло с цепью Маркова (MCMC) для получения последовательности случайных выборок из распределения вероятностей, из которого прямая выборка затруднена. Эту последовательность можно использовать для аппроксимации распределения (например, для создания гистограммы ) или для вычисления интеграла (например, ожидаемого значения ). Метрополис-Гастингс и другие алгоритмы MCMC обычно используются для выборки из многомерных распределений, особенно когда количество измерений велико. Для одномерных распределений обычно существуют другие методы (например , адаптивная бракованная выборка ), которые могут напрямую возвращать независимые выборки из распределения, и они свободны от проблемы автокоррелированных выборок, присущей методам MCMC.

История

Алгоритм частично назван в честь Николаса Метрополиса , первого соавтора статьи 1953 года под названием « Уравнение вычислений состояния с помощью быстрых вычислительных машин» , совместно с Арианной В. Розенблут , Маршаллом Розенблутом , Огастой Х. Теллер и Эдвардом Теллером . В течение многих лет алгоритм был известен просто как алгоритм Метрополиса . ^[1]^[2] В статье был предложен алгоритм для случая симметричного распределения предложений, но в 1970 году У.К. Гастингс расширил его на более общий случай. ^[3] Обобщенный метод в конечном итоге получил оба названия, хотя первое использование термина «алгоритм Метрополиса-Гастингса» неясно.

Некоторые разногласия существуют относительно заслуги в разработке алгоритма Метрополиса. Метрополис, который был знаком с вычислительными аспектами метода, ввел термин «Монте-Карло» в более ранней статье со Станиславом Уламом и возглавил группу теоретического отдела, которая спроектировала и построила компьютер MANIAC I , использованный в экспериментах в 1952. Однако до 2003 года подробного описания разработки алгоритма не было. Незадолго до своей смерти Маршалл Розенблют присутствовал на конференции 2003 года в LANL, посвященной 50-летию публикации 1953 года. На этой конференции Розенблут описал алгоритм и его развитие в презентации под названием «Происхождение алгоритма Монте-Карло для статистической механики». ^[4] Дальнейшие исторические разъяснения сделаны Губернатисом в журнальной статье 2005 года ^[5], в которой рассказывается о 50-й юбилейной конференции. Розенблут ясно дает понять, что работу выполнили он и его жена Арианна, и что «Метрополис» не играл никакой роли в разработке, кроме предоставления компьютерного времени.

Это противоречит сообщению Эдварда Теллера, который утверждает в своих мемуарах, что пять авторов статьи 1953 года работали вместе «днями (и ночами)». ^[6] Напротив, в подробном отчете Розенблюта Теллеру приписывают важное, но раннее предложение «воспользоваться преимуществами статистической механики и взять средние значения по ансамблю вместо того, чтобы следовать подробной кинематике ». Это, по словам Розенблюта, заставило его задуматься об обобщенном подходе Монте-Карло – теме, которую, по его словам, он часто обсуждал с Джоном фон Нейманом . Арианна Розенблут рассказала (Губернатису в 2003 году), что Огаста Теллер начала работу с компьютером, но Арианна сама взяла на себя управление и написала код с нуля. В устной истории, записанной незадолго до его смерти, ^[7] Розенблут снова приписывает Теллеру постановку исходной проблемы, ему самому - ее решение, а Арианне - программирование компьютера.

Интуиция

Алгоритм Метрополиса – Гастингса может извлекать выборки из любого распределения вероятностей с плотностью вероятности при условии, что мы знаем функцию, пропорциональную плотности , и значения можно вычислить. Требование, чтобы плотность была только пропорциональна, а не точно равна ей, делает алгоритм Метрополиса – Гастингса особенно полезным, поскольку вычисление необходимого нормировочного коэффициента на практике часто бывает чрезвычайно трудным. $P (х)$ ${\ displaystyle f (x)}$ $P$ ${\ displaystyle f (x)}$ ${\ displaystyle f (x)}$

Алгоритм Метрополиса – Гастингса генерирует последовательность значений выборки таким образом, что по мере создания все большего и большего количества значений выборки распределение значений более точно приближается к желаемому распределению. Эти значения выборки создаются итеративно, при этом распределение следующей выборки зависит только от текущего значения выборки, что превращает последовательность выборок в цепь Маркова . В частности, на каждой итерации алгоритм выбирает кандидата на следующее значение выборки на основе текущего значения выборки. Затем с некоторой вероятностью кандидат либо принимается, и в этом случае значение кандидата используется на следующей итерации, либо он отклоняется, и в этом случае значение кандидата отбрасывается, а текущее значение повторно используется на следующей итерации. Вероятность принятия определяется путем сравнения значений функции текущего и кандидатского значений выборки относительно желаемого распределения. ${\ displaystyle f (x)}$

В целях иллюстрации ниже описан алгоритм Метрополиса, частный случай алгоритма Метрополиса – Гастингса, в котором функция предложения симметрична.

Алгоритм Метрополиса (симметричное распределение предложений)

Позвольте быть функцией, которая пропорциональна желаемой функции плотности вероятности (также известной как целевое распределение) ^[a] . ${\ displaystyle f (x)}$ $P (х)$

Инициализация: выберите произвольную точку , которая будет первым наблюдением в выборке, и выберите произвольную плотность вероятности (иногда обозначаемую ), которая предлагает кандидата на следующее значение выборки , учитывая значение предыдущей выборки . В этом разделе предполагается, что оно симметрично; другими словами, оно должно удовлетворять . Обычно выбирают гауссово распределение с центром в , чтобы точки, расположенные ближе к, с большей вероятностью посещались следующими, превращая последовательность выборок в случайное блуждание ^[b] . Функция называется плотностью предложений или скачкообразным распределением . $x_{t}$ $g(x\mid y)$ $Q(x\mid y)$ $х$ $y$ $г$ ${\ Displaystyle г (х \ середина у) = г (у \ середина х)}$ $g(x\mid y)$ $y$ $y$ $г$
Для каждой итерации t :
- Создайте кандидата для следующей выборки, выбрав его из распределения . $х'$ $g(x'\mid x_{t})$
- Рассчитайте коэффициент принятия , который будет использоваться для принятия решения о принятии или отклонении кандидата ^[c] . Поскольку f пропорциональна плотности P , мы имеем следующее . $\alpha =f(x')/f(x_{t})$ $\alpha =f(x')/f(x_{t})=P(x')/P(x_{t})$
- Принять или отклонить :
  - Сгенерируйте равномерное случайное число . $u\in [0,1]$
  - Если , то принять кандидата, установив , $u\leq \alpha$ $x_{t+1}=x'$
  - Если , то отклоните кандидата и установите вместо него. $u>\альфа$ $x_{t+1}=x_{t}$

Этот алгоритм действует путем случайных попыток перемещения по выборочному пространству, иногда соглашаясь на ходы, а иногда оставаясь на месте. Обратите внимание, что коэффициент приемлемости указывает, насколько вероятен новый предложенный образец по отношению к текущему образцу в соответствии с распределением, плотность которого равна . Если мы попытаемся перейти к точке, которая более вероятна, чем существующая точка (т. е. точка в области с более высокой плотностью, соответствующей ) , мы всегда примем этот шаг. Однако если мы попытаемся перейти к менее вероятной точке, мы иногда отклоним этот шаг, и чем больше относительное падение вероятности, тем больше вероятность того, что мы отклоним новую точку. Таким образом, мы будем стремиться оставаться в регионах с высокой плотностью населения (и возвращать большое количество образцов из них) , лишь изредка посещая регионы с низкой плотностью. Интуитивно понятно, почему этот алгоритм работает и возвращает выборки, которые соответствуют желаемому распределению с плотностью . $\альфа$ $P (х)$ $P (х)$ $\alpha >1\geq u$ $P (х)$ $P (х)$

По сравнению с таким алгоритмом, как адаптивная отбраковочная выборка ^[8] , который напрямую генерирует независимые выборки из распределения, алгоритмы Метрополиса-Гастингса и другие MCMC имеют ряд недостатков:

Выборки автокоррелированы . Даже несмотря на то, что в долгосрочной перспективе они правильно следуют , набор близлежащих выборок будет коррелировать друг с другом и неправильно отражать распределение. Это означает, что эффективный размер выборки может быть значительно меньше, чем количество фактически взятых выборок, что приводит к большим ошибкам. $P (х)$
Хотя цепь Маркова в конечном итоге сходится к желаемому распределению, исходные образцы могут иметь совсем другое распределение, особенно если отправная точка находится в области низкой плотности. В результате обычно необходим период приработки ^[9] , когда первоначальное количество образцов выбрасывается.

С другой стороны, большинство простых методов отбраковки выборки страдают от « проклятия размерности », когда вероятность отбраковки возрастает экспоненциально в зависимости от количества измерений. Метод Метрополиса-Гастингса, наряду с другими методами MCMC, не имеет этой проблемы в такой степени и, таким образом, часто является единственным доступным решением, когда количество измерений распределения, подлежащего выборке, велико. В результате методы MCMC часто являются предпочтительными методами создания выборок из иерархических байесовских моделей и других многомерных статистических моделей, используемых в настоящее время во многих дисциплинах.

В многомерных распределениях классический алгоритм Метрополиса – Гастингса, описанный выше, включает выбор новой многомерной точки выборки. Когда количество измерений велико, найти подходящее распределение прыжков для использования может быть сложно, поскольку разные отдельные измерения ведут себя очень по-разному, а ширина прыжка (см. выше) должна быть «правильной» для всех измерений одновременно, чтобы избегайте слишком медленного перемешивания. Альтернативный подход, который часто работает лучше в таких ситуациях, известный как выборка Гиббса , предполагает выбор новой выборки для каждого измерения отдельно от других, а не выбор выборки для всех измерений одновременно. Таким образом, проблема выборки из потенциально многомерного пространства будет сведена к набору задач по выборке из маломерного пространства. ^[10] Это особенно применимо, когда многомерное распределение состоит из набора отдельных случайных величин , в которых каждая переменная обусловлена лишь небольшим количеством других переменных, как это имеет место в большинстве типичных иерархических моделей . Затем отдельные переменные выбираются по одной, при этом каждая переменная зависит от самых последних значений всех остальных. Для выбора этих отдельных выборок могут использоваться различные алгоритмы, в зависимости от точной формы многомерного распределения: некоторые возможности включают методы адаптивной отбраковочной выборки , ^[8] алгоритм адаптивной отбраковки Метрополиса, ^[11] простой одномерный Метрополис- Шаг Гастингса, или срезная выборка .

Формальный вывод

Целью алгоритма Метрополиса-Гастингса является создание набора состояний в соответствии с желаемым распределением . Для этого алгоритм использует марковский процесс , который асимптотически достигает такого уникального стационарного распределения , что . ^[12] $P (х)$ $\pi (x)$ ${\ displaystyle \ pi (x) = P (x)}$

Марковский процесс однозначно определяется своими вероятностями перехода , т.е. вероятностью перехода из любого данного состояния в любое другое заданное состояние . Оно имеет уникальное стационарное распределение при выполнении следующих двух условий: ^[12] $P(x'\mid x)$ $х$ $х'$ $\pi (x)$

Существование стационарного распределения : должно существовать стационарное распределение . Достаточным, но не необходимым условием является детальный баланс , который требует, чтобы каждый переход был обратимым: для каждой пары состояний вероятность нахождения в состоянии и перехода в состояние должна быть равна вероятности нахождения в состоянии и перехода в состояние , . $\pi (x)$ $x\to x'$ $х,х'$ $х$ $х'$ $х'$ $х$ $\pi (x)P (x'\mid x) = \pi (x')P (x\mid x')$
Уникальность стационарного распределения : стационарное распределение должно быть уникальным. Это гарантируется эргодичностью марковского процесса, который требует, чтобы каждое состояние (1) было апериодическим — система не возвращается в одно и то же состояние через фиксированные промежутки времени; и (2) быть положительно рекуррентными — ожидаемое число шагов для возврата в то же состояние конечно. $\pi (x)$

Алгоритм Метрополиса-Гастингса включает в себя разработку марковского процесса (путем построения вероятностей перехода), который удовлетворяет двум вышеуказанным условиям, так что его стационарное распределение выбирается равным . Вывод алгоритма начинается с условия детального баланса : $\pi (x)$ $P (х)$

P(x'\mid x)P(x)=P(x\mid x')P(x'),

который переписывается как

{\frac {P(x'\mid x)}{P(x\mid x')}} = {\frac {P(x')}{P(x)}}.

Подход состоит в том, чтобы разделить переход на два подэтапа; предложение и принятие-отказ. Распределение предложений — это условная вероятность предложения данного состояния , а распределение принятия — это вероятность принять предложенное состояние . Вероятность перехода можно записать как произведение их: $g(x'\mid x)$ $х'$ $х$ ${\ displaystyle A (x ', x)}$ $х'$

P(x'\mid x) = g(x'\mid x)A (x',x).

Подставив это соотношение в предыдущее уравнение, получим

{\frac {A(x',x)}{A(x,x')}}={\frac {P(x')}{P(x)}}{\frac {g(x\mid x')}{g(x'\mid x)}}.

Следующим шагом в выводе является выбор коэффициента приемки, который удовлетворяет приведенному выше условию. Одним из распространенных вариантов является выбор Метрополиса:

A(x',x)=\min \left(1,{\frac {P(x')}{P(x)}}{\frac {g(x\mid x')}{g(x'\mid x)}}\right).

Для этого коэффициента принятия Метрополиса либо или и в любом случае условие выполняется. $A$ $A(x',x)=1$ $A(x,x')=1$

Таким образом, алгоритм Метрополиса – Гастингса можно записать следующим образом:

Инициализировать
1. Выберите начальное состояние . $x_{0}$
2. Набор . $t=0$
Итерировать
1. Сгенерируйте случайное состояние-кандидат в соответствии с . $x'$ $g(x'\mid x_{t})$
2. Вычислите вероятность принятия . $A(x',x_{t})=\min \left(1,{\frac {P(x')}{P(x_{t})}}{\frac {g(x_{t}\mid x')}{g(x'\mid x_{t})}}\right)$
3. Принять или отклонить :
  1. генерировать равномерное случайное число ; $u\in [0,1]$
  2. если , то принять новое состояние и установить ; $u\leq A(x',x_{t})$ $x_{t+1}=x'$
  3. если , то отклоните новое состояние и скопируйте старое состояние вперед . $u>A(x',x_{t})$ $x_{t+1}=x_{t}$
4. Приращение : установлено . $t=t+1$

При выполнении заданных условий эмпирическое распределение сохраненных состояний будет приближаться к . Количество итераций ( ), необходимых для эффективной оценки, зависит от количества факторов, включая взаимосвязь между распределением предложений и желаемой точностью оценки. ^[13] Для распределения в дискретных пространствах состояний оно должно быть порядка времени автокорреляции марковского процесса. ^[14] $x_{0},\ldots ,x_{T}$ $P(x)$ $T$ $P(x)$ $P(x)$

Важно отметить, что в общей задаче неясно, какое распределение следует использовать или количество итераций, необходимых для правильной оценки; оба являются свободными параметрами метода, которые необходимо адаптировать к конкретной решаемой задаче. $g(x'\mid x)$

Использование в численном интегрировании

Алгоритм Метрополиса – Гастингса обычно используется для вычисления интеграла. В частности, рассмотрим пространство и распределение вероятностей по , . Метрополис – Гастингс может оценить интеграл вида $\Omega \subset \mathbb {R}$ $P(x)$ $\Omega$ $x\in \Omega$

P(E)=\int _{\Omega }A(x)P(x)\,dx,

где – интересующая (измеримая) функция. $A(x)$

Например, рассмотрим статистику и ее распределение вероятностей , которое является маргинальным распределением . Предположим, что цель состоит в том, чтобы оценить на хвосте . Формально можно записать как $E(x)$ $P(E)$ $P(E)$ $E$ $P(E)$ $P(E)$

P(E)=\int _{\Omega }P(E\mid x)P(x)\,dx=\int _{\Omega }\delta {\big (}E-E(x){\big )}P(x)\,dx=E{\big (}P(E\mid X){\big )}

и, таким образом, оценка может быть выполнена путем оценки ожидаемого значения индикаторной функции , которое равно 1 в противном случае и нулю в противном случае. Поскольку находится на хвосте , вероятность нарисовать состояние с на хвосте пропорциональна , что по определению мало. Здесь можно использовать алгоритм Метрополиса – Гастингса для более вероятной выборки (редких) состояний и, таким образом, увеличения количества выборок, используемых для оценки хвостов. Это можно сделать, например, используя выборочное распределение в пользу этих состояний (например, с помощью ). $P(E)$ $A_{E}(x)\equiv \mathbf {1} _{E}(x)$ $E(x)\in [E,E+\Delta E]$ $E$ $P(E)$ $x$ $E(x)$ $P(E)$ $P(E)$ $P(E)$ $\pi (x)$ $\pi (x)\propto e^{aE}$ $a>0$

Пошаговые инструкции

Предположим, что самое последнее выбранное значение — . Чтобы следовать алгоритму Метрополиса – Гастингса, мы затем рисуем новое состояние предложения с плотностью вероятности и вычисляем значение $x_{t}$ $x'$ $g(x'\mid x_{t})$

a=a_{1}a_{2},

где

a_{1}={\frac {P(x')}{P(x_{t})}}

— отношение вероятностей (например, байесовское апостериорное) между предложенной выборкой и предыдущей выборкой , и $x'$ $x_{t}$

a_{2}={\frac {g(x_{t}\mid x')}{g(x'\mid x_{t})}}

– отношение плотности предложения в двух направлениях (от и обратно). Это значение равно 1, если плотность предложений симметрична. Затем новое состояние выбирается по следующим правилам. $x_{t}$ $x'$ $x_{t+1}$

Если

a\geq 1{:}

x_{t+1}=x',

еще:

x_{t+1}={\begin{cases}x'&{\text{with probability }}a,\\x_{t}&{\text{with probability }}1-a.\end{cases}}

Цепь Маркова запускается с произвольного начального значения , и алгоритм выполняется множество итераций, пока это начальное состояние не будет «забыто». Эти образцы, которые выбрасываются, известны как выгорание . Оставшийся набор принятых значений представляет собой выборку из распределения . $x_{0}$ $x$ $P(x)$

Алгоритм работает лучше всего, если плотность предложения соответствует форме целевого распределения , из которого прямая выборка затруднена, то есть . Если используется плотность предложения по Гауссу , параметр отклонения необходимо настроить в течение периода приработки. Обычно это делается путем расчета коэффициента принятия , который представляет собой долю предложенных образцов, принятую в окне последних образцов. Желаемая скорость принятия зависит от целевого распределения, однако теоретически было показано, что идеальная скорость принятия для одномерного гауссовского распределения составляет около 50% и снижается примерно до 23% для -мерного гауссовского целевого распределения. ^[15] Эти рекомендации могут хорошо работать при выборке из достаточно регулярных байесовских апостериорных данных, поскольку они часто следуют многомерному нормальному распределению, которое можно установить с помощью теоремы Бернштейна-фон Мизеса . ^[16] $P(x)$ $g(x'\mid x_{t})\approx P(x')$ $g$ $\sigma ^{2}$ $N$ $N$

Если слишком мало, цепочка будет перемешиваться медленно (т. е. скорость принятия будет высокой, но последующие образцы будут медленно перемещаться по пространству, и цепочка будет сходиться лишь медленно к ). С другой стороны, если оно слишком велико, уровень принятия будет очень низким, поскольку предложения, скорее всего, попадут в регионы с гораздо более низкой плотностью вероятности, поэтому они будут очень малы, и снова цепочка будет сходиться очень медленно. Обычно распределение предложений настраивают так, чтобы алгоритмы принимали порядка 30% всех выборок – в соответствии с теоретическими оценками, упомянутыми в предыдущем абзаце. $\sigma ^{2}$ $P(x)$ $\sigma ^{2}$ $a_{1}$

Результат работы трех цепей Маркова с трехмерной функцией Розенброка с использованием алгоритма Метрополиса – Гастингса. Алгоритм производит выборку из областей, где апостериорная вероятность высока, и цепи начинают смешиваться в этих областях. Освещено примерное положение максимума. Красные точки — это те точки, которые остаются после процесса приработки. Более ранние были отброшены.

Байесовский вывод

Блок-схема алгоритма Метрополиса-Гастингса (MH) для оценки параметров с использованием подхода Марковской цепи Монте-Карло (MCMC).

MCMC можно использовать для получения выборок из апостериорного распределения статистической модели. Вероятность принятия определяется следующим образом: где - вероятность , априорная плотность вероятности и (условная) вероятность предложения. $P_{acc}(\theta _{i}\to \theta ^{*})=\min \left(1,{\frac {{\mathcal {L}}(y|\theta ^{*})P(\theta ^{*})}{{\mathcal {L}}(y|\theta _{i})P(\theta _{i})}}{\frac {Q(\theta _{i}|\theta ^{*})}{Q(\theta ^{*}|\theta _{i})}}\right),$ ${\mathcal {L}}$ $P(\theta )$ $Q$

Смотрите также

Примечания

^ В оригинальной статье Metropolis et al. (1953) было принято за распределение Больцмана , поскольку в качестве конкретного приложения рассматривалось интегрирование уравнений состояния в физической химии по методу Монте-Карло ; расширение Гастингса, обобщенное на произвольное распределение . $f$ $f$
^ В оригинальной статье Metropolis et al. (1953) предполагалось, что это случайный сдвиг с равномерной плотностью в некотором заданном диапазоне. $g(x\mid y)$
^ В оригинальной статье Metropolis et al. (1953), на самом деле было распределением Больцмана , поскольку оно применялось к физическим системам в контексте статистической механики (например, распределение микросостояний с максимальной энтропией для данной температуры при тепловом равновесии). Следовательно, коэффициент принятия сам по себе был экспонентой разности параметров числителя и знаменателя этого отношения. $f$

дальнейшее чтение

Бернд А. Берг . Моделирование Монте-Карло марковской цепью и их статистический анализ . Сингапур, World Scientific , 2004.
Чиб, Сиддхартха; Гринберг, Эдвард (1995). «Понимание алгоритма Метрополиса – Гастингса». Американский статистик , 49 (4), 327–335.
Дэвид ДЛ Мин и До Ле Мин. «Понимание алгоритма Гастингса». Коммуникации в статистике – моделирование и вычисления, 44:2 332-349, 2015 г.
Болстад, Уильям М. (2010) Понимание вычислительной байесовской статистики , John Wiley & Sons ISBN 0-470-04609-0