stringtranslate.com

Максимальная апостериорная оценка

В байесовской статистике максимальная оценка апостериорной вероятности ( MAP ) — это оценка неизвестной величины, которая равна моде апостериорного распределения . MAP можно использовать для получения точечной оценки ненаблюдаемой величины на основе эмпирических данных. Он тесно связан с методом оценки максимального правдоподобия (ML), но использует расширенную цель оптимизации , которая включает в себя априорное распределение (которое количественно определяет дополнительную информацию, доступную благодаря предшествующим знаниям о связанном событии) по величине, которую необходимо оценить. Таким образом, оценку MAP можно рассматривать как регуляризацию оценки максимального правдоподобия.

Описание

Предположим, что мы хотим оценить ненаблюдаемый параметр популяции на основе наблюдений . Позвольте быть выборочным распределением , так что это вероятность того, что основной параметр совокупности равен . Тогда функция:

известна как функция правдоподобия и оценка:

является оценкой максимального правдоподобия .

Теперь предположим, что существует априорное распределение . Это позволяет нам рассматривать ее как случайную величину , как в байесовской статистике . Мы можем вычислить апостериорное распределение , используя теорему Байеса :

где – функция плотности , – область определения .

Затем метод максимальной апостериорной оценки оценивает как моду апостериорного распределения этой случайной величины:

Знаменатель апостериорного распределения (так называемое предельное правдоподобие ) всегда положителен и не зависит от и, следовательно, не играет никакой роли в оптимизации. Обратите внимание, что оценка MAP совпадает с оценкой ML, когда априорная функция равномерна (т. е. является постоянной функцией ).

Когда функция потерь имеет вид

при достижении 0 оценка Байеса приближается к оценке MAP при условии, что распределение квазивогнутое. [1] Но, как правило, оценка MAP не является оценкой Байеса , если она не является дискретной .

Вычисление

Оценки MAP можно рассчитать несколькими способами:

  1. Аналитически, когда мода(ы) апостериорного распределения может быть задана в замкнутой форме . Это тот случай, когда используются сопряженные априорные значения .
  2. С помощью численной оптимизации , такой как метод сопряженных градиентов или метод Ньютона . Обычно для этого требуются первые или вторые производные , которые необходимо оценить аналитически или численно.
  3. Через модификацию алгоритма максимизации ожидания . Для этого не требуются производные от апостериорной плотности.
  4. Методом Монте-Карло с имитацией отжига.

Ограничения

Хотя для оценки MAP требуются лишь мягкие условия, чтобы она была предельным случаем байесовской оценки (при функции потерь 0–1), [1] она не очень репрезентативна для байесовских методов в целом. Это связано с тем, что оценки MAP являются точечными оценками, тогда как байесовские методы характеризуются использованием распределений для суммирования данных и получения выводов: таким образом, байесовские методы имеют тенденцию вместо этого сообщать апостериорное среднее или медиану вместе с достоверными интервалами . Это связано как с тем, что эти оценки оптимальны при потерях с квадратичной и линейной ошибкой соответственно (которые более репрезентативны для типичных функций потерь) , так и с тем, что для непрерывного апостериорного распределения не существует функции потерь, которая предполагает, что MAP является оптимальной точечной оценкой. Кроме того, апостериорное распределение часто может не иметь простой аналитической формы: в этом случае распределение можно смоделировать с использованием методов Монте-Карло цепи Маркова , а оптимизация для нахождения его режима (мод) может быть трудной или невозможной. [ нужна цитата ]

Пример плотности бимодального распределения , при котором высшая мода не характерна для большей части распределения.

Во многих типах моделей, таких как смешанные модели , задняя часть может быть мультимодальной . В таком случае обычно рекомендуется выбирать самый высокий режим: это не всегда осуществимо ( глобальная оптимизация является сложной проблемой), а в некоторых случаях даже невозможно (например, когда возникают проблемы с идентификацией ). Более того, высшая мода может быть нехарактерна для большинства задних.

Наконец, в отличие от оценок ML, оценка MAP не является инвариантной при перепараметризации. Переход от одной параметризации к другой предполагает введение якобиана , влияющего на расположение максимума. [2]

В качестве примера разницы между упомянутыми выше оценками Байеса (средними и медианными оценками) и использованием оценки MAP рассмотрим случай, когда необходимо классифицировать входные данные как положительные или отрицательные (например, кредиты как рискованные или безопасные). Предположим, что существует всего три возможных гипотезы о правильном методе классификации , причем с апостериорами 0,4, 0,3 и 0,3 соответственно. Предположим, что дан новый экземпляр, классифицирует его как положительный, тогда как два других классифицируют его как отрицательный. Использование оценки MAP для правильного классификатора классифицируется как положительное, тогда как оценки Байеса будут усреднять по всем гипотезам и классифицироваться как отрицательные.

Пример

Предположим, что нам дана последовательность случайных величин IID , а априорное распределение равно . Мы хотим найти оценку MAP для . Обратите внимание, что нормальное распределение является своим собственным сопряженным априором , поэтому мы сможем найти решение в замкнутой форме аналитически.

Тогда функция, которую необходимо максимизировать, определяется выражением

что эквивалентно минимизации следующей функции :

Таким образом, мы видим, что оценка MAP для µ имеет вид

которое оказывается линейной интерполяцией между априорным средним значением и выборочным средним, взвешенным по их соответствующим ковариациям.

Случай называется неинформативным априорным распределением и приводит к нечеткому априорному распределению вероятностей ; в этом случае

Рекомендации

  1. ^ аб Бассетт, Роберт; Дериде, Хулио (30 января 2018 г.). «Максимальные апостериорные оценки как предел оценок Байеса». Математическое программирование : 1–16. arXiv : 1611.05917 . дои : 10.1007/s10107-018-1241-0. ISSN  0025-5610.
  2. ^ Мерфи, Кевин П. (2012). Машинное обучение: вероятностная перспектива . Кембридж, Массачусетс: MIT Press. стр. 151–152. ISBN 978-0-262-01802-9.