stringtranslate.com

Сопряженный априор

В байесовской теории вероятностей, если при заданной функции правдоподобия апостериорное распределение находится в том же семействе распределений вероятностей , что и априорное распределение вероятностей , то априорное и апостериорное распределения называются сопряженными распределениями относительно этой функции правдоподобия, а априорное распределение называется сопряженным априорным для функции правдоподобия .

Сопряженное априорное распределение является алгебраическим удобством, давая замкнутое выражение для апостериорного распределения; в противном случае может потребоваться численное интегрирование . Кроме того, сопряженные априорные распределения могут давать интуицию, более прозрачно показывая, как функция правдоподобия обновляет априорное распределение.

Понятие, а также термин «сопряженное априорное распределение» были введены Говардом Райффой и Робертом Шлайфером в их работе по байесовской теории принятия решений . [1] Подобная концепция была независимо открыта Джорджем Альфредом Барнардом . [2]

Пример

Форма сопряженного априорного распределения обычно может быть определена путем проверки плотности вероятности или функции массы вероятности распределения. Например, рассмотрим случайную величину , которая состоит из числа успехов в испытаниях Бернулли с неизвестной вероятностью успеха в [0,1]. Эта случайная величина будет следовать биномиальному распределению с функцией массы вероятности вида

Обычным сопряженным априорным распределением является бета-распределение с параметрами ( , ):

где и выбраны так, чтобы отражать любое существующее убеждение или информацию ( и давали бы равномерное распределение ), а — бета-функция, действующая как нормирующая константа .

В этом контексте и называются гиперпараметрами (параметрами априорной вероятности), чтобы отличать их от параметров базовой модели (здесь ). Типичной характеристикой сопряженных априорных вероятностей является то, что размерность гиперпараметров на единицу больше, чем размерность параметров исходного распределения. Если все параметры являются скалярными значениями, то гиперпараметров будет на один больше, чем параметров; но это также применимо к векторно-значным и матрично-значным параметрам. (См. общую статью об экспоненциальном семействе , а также рассмотрим распределение Уишарта , сопряженное априорное распределение ковариационной матрицы многомерного нормального распределения , для примера, где задействована большая размерность.)

Если мы выберем эту случайную величину и получим успехи и неудачи, то у нас будет

что является другим распределением Бета с параметрами . Это апостериорное распределение затем может быть использовано в качестве априорного для большего количества образцов, при этом гиперпараметры просто добавляют каждую дополнительную часть информации по мере ее поступления.

Интерпретации

Псевдо-наблюдения

Часто бывает полезно думать о гиперпараметрах сопряженного априорного распределения, соответствующих наблюдению определенного количества псевдонаблюдений со свойствами, указанными параметрами. Например, значения и бета -распределения можно рассматривать как соответствующие успехам и неудачам, если апостериорная мода используется для выбора оптимальной настройки параметров, или успехам и неудачам, если апостериорное среднее используется для выбора оптимальной настройки параметров. В общем, почти для всех сопряженных априорных распределений гиперпараметры можно интерпретировать в терминах псевдонаблюдений. Это может помочь обеспечить интуицию, стоящую за часто запутанными уравнениями обновления, и помочь выбрать разумные гиперпараметры для априорного распределения.

Динамическая система

Можно думать об обусловленности на сопряженных априорных данных как об определении своего рода (дискретной по времени) динамической системы : из заданного набора гиперпараметров входящие данные обновляют эти гиперпараметры, поэтому можно рассматривать изменение гиперпараметров как своего рода «эволюцию во времени» системы, соответствующую «обучению». Старт в разных точках дает разные потоки с течением времени. Это снова аналогично динамической системе, определяемой линейным оператором, но обратите внимание, что поскольку разные образцы приводят к разным выводам, это зависит не просто от времени, а от данных с течением времени. Для связанных подходов см. Рекурсивная байесовская оценка и Усваивание данных .

Практический пример

Предположим, что в вашем городе работает служба проката автомобилей. Водители могут сдавать и забирать автомобили в любом месте в черте города. Вы можете найти и арендовать автомобили с помощью приложения.

Предположим, вы хотите найти вероятность того, что вы сможете найти арендованный автомобиль в пределах короткой дистанции от вашего домашнего адреса в любое время суток.

В течение трех дней вы просматриваете приложение и обнаруживаете следующее количество автомобилей в непосредственной близости от вашего домашнего адреса:

Предположим, мы предполагаем, что данные получены из распределения Пуассона . В этом случае мы можем вычислить оценку максимального правдоподобия параметров модели, которая равна Используя эту оценку максимального правдоподобия, мы можем вычислить вероятность того, что в определенный день будет доступна хотя бы одна машина:

Это распределение Пуассона, которое с наибольшей вероятностью сгенерировало наблюдаемые данные . Но данные также могли быть получены из другого распределения Пуассона, например, с , или и т. д. Фактически, существует бесконечное количество распределений Пуассона, которые могли сгенерировать наблюдаемые данные. При относительно небольшом количестве точек данных мы должны быть совершенно не уверены в том, какое именно распределение Пуассона сгенерировало эти данные. Интуитивно мы должны вместо этого взять средневзвешенное значение вероятности для каждого из этих распределений Пуассона, взвешенное по тому, насколько вероятно каждое из них, учитывая данные, которые мы наблюдали .

Обычно эта величина известна как апостериорное предсказательное распределение , где — новая точка данных, — наблюдаемые данные, а — параметры модели. Используя теорему Байеса, мы можем расширить , следовательно , Обычно этот интеграл трудно вычислить. Однако, если выбрать сопряженное априорное распределение , можно вывести выражение в замкнутой форме. Это апостериорный предсказательный столбец в таблицах ниже.

Возвращаясь к нашему примеру, если мы выберем гамма-распределение в качестве нашего априорного распределения по скорости распределения Пуассона, то апостериорным предсказателем будет отрицательное биномиальное распределение , как видно из таблицы ниже. Гамма-распределение параметризуется двумя гиперпараметрами , которые нам нужно выбрать. Рассматривая графики гамма-распределения, мы выбираем , что, по-видимому, является разумным априорным значением для среднего числа автомобилей. Выбор априорных гиперпараметров по своей сути субъективен и основан на априорных знаниях.

Учитывая априорные гиперпараметры , мы можем вычислить апостериорные гиперпараметры и

Учитывая апостериорные гиперпараметры, мы можем, наконец, вычислить апостериорный прогноз

Эта гораздо более консервативная оценка отражает неопределенность параметров модели, которую учитывает апостериорное прогнозирование.

Таблица сопряженных распределений

Пусть n обозначает число наблюдений. Во всех случаях ниже предполагается, что данные состоят из n точек (которые будут случайными векторами в многомерных случаях).

Если функция правдоподобия принадлежит к экспоненциальному семейству , то существует сопряженное априорное распределение, часто также в экспоненциальном семействе; см. Экспоненциальное семейство: Сопряженные распределения .

Когда функция правдоподобия представляет собой дискретное распределение

Когда функция правдоподобия представляет собой непрерывное распределение

Смотрите также

Примечания

  1. ^ ab Обозначается теми же символами, что и предыдущие гиперпараметры, с добавлением штрихов ('). Например, обозначается
  2. ^ Это апостериорное предсказательное распределение новой точки данных с учетом наблюдаемых точек данных, с параметрами, выведенными за пределы . Переменные со штрихами указывают апостериорные значения параметров.
  3. ^ abcdefg Точная интерпретация параметров бета-распределения в терминах количества успехов и неудач зависит от того, какая функция используется для извлечения точечной оценки из распределения. Среднее значение бета-распределения — это , что соответствует успехам и неудачам, в то время как мода — это , что соответствует успехам и неудачам. Байесовцы обычно предпочитают использовать апостериорное среднее, а не апостериорную моду в качестве точечной оценки, что оправдано квадратичной функцией потерь, а использование и более удобно с математической точки зрения, в то время как использование и имеет то преимущество, что равномерная априорная вероятность соответствует 0 успехам и 0 неудачам. Те же проблемы применимы и к распределению Дирихле .
  4. ^ abc β — скорость или обратная шкала. В параметризации гамма -распределения θ = 1/ β и k = α .
  5. ^ Это апостериорное предсказательное распределение новой точки данных с учетом наблюдаемых точек данных, с параметрами, выведенными за пределы . Переменные со штрихами указывают апостериорные значения параметров. и относятся к нормальному распределению и распределению Стьюдента , соответственно, или к многомерному нормальному распределению и многомерному распределению Стьюдента в многомерных случаях.
  6. ^ В терминах обратной гаммы , является параметром масштаба
  7. ^ Другое сопряженное априорное распределение для неизвестных среднего значения и дисперсии, но с фиксированной линейной связью между ними, обнаружено в нормальной дисперсионно-средней смеси с обобщенным обратным гауссовым распределением в качестве сопряженного смешивания.
  8. ^ — это составное гамма-распределение ; здесь — обобщенное бета-простое распределение .

Ссылки

  1. ^ Говард Райффа и Роберт Шлайфер . Прикладная статистическая теория принятия решений . Отдел исследований, Высшая школа делового администрирования, Гарвардский университет, 1961.
  2. ^ Джефф Миллер и др. Самые ранние известные применения некоторых слов математики, «сопряженные априорные распределения». Электронный документ, редакция от 13 ноября 2005 г., извлечено 2 декабря 2005 г.
  3. ^ abc Fink, Daniel (1997). "A Compendium of Conjugate Priors" (PDF) . CiteSeerX  10.1.1.157.5540 . Архивировано из оригинала (PDF) 29 мая 2009 г.
  4. ^ abcdefghijklm Мерфи, Кевин П. (2007), Сопряженный байесовский анализ гауссовского распределения (PDF)
  5. ^ Лю, Хан; Вассерман, Ларри (2014). Статистическое машинное обучение (PDF) . стр. 314.