stringtranslate.com

Сопряжение до

В байесовской теории вероятностей, если апостериорное распределение находится в том же семействе распределений вероятностей , что и априорное распределение вероятностей , тогда априорное и апостериорное распределения называются сопряженными распределениями, а априорное называется сопряженным априорным для функции правдоподобия .

Сопряженное априорное значение является алгебраическим удобством, дающим апостериорное выражение в замкнутой форме ; в противном случае может потребоваться численное интегрирование . Кроме того, сопряженные априорные значения могут дать интуитивное представление, более прозрачно показывая, как функция правдоподобия обновляет априорное распределение.

Понятие, а также термин «сопряженный априор» были введены Говардом Райффой и Робертом Шлайфером в их работе над байесовской теорией принятия решений . [1] Подобная концепция была независимо открыта Джорджем Альфредом Барнардом . [2]

Пример

Форму сопряженного априора обычно можно определить путем проверки плотности вероятности или функции массы вероятности распределения. Например, рассмотрим случайную величину , состоящую из количества успехов в испытаниях Бернулли с неизвестной вероятностью успеха в [0,1]. Эта случайная величина будет следовать биномиальному распределению с функцией массы вероятности вида

Обычным сопряженным априором является бета-распределение с параметрами ( , ):

где и выбраны так, чтобы отразить любое существующее убеждение или информацию ( и дают равномерное распределение ), а является бета-функцией , действующей как нормализующая константа .

В этом контексте они называются гиперпараметрами (параметрами предшествующей модели), чтобы отличить их от параметров базовой модели (здесь ). Типичной характеристикой сопряженных априорных значений является то, что размерность гиперпараметров на единицу больше, чем размерность параметров исходного распределения. Если все параметры являются скалярными значениями, то гиперпараметра будет на один больше, чем параметра; но это также относится к параметрам с векторными и матричными значениями. (См. общую статью об экспоненциальном семействе , а также рассмотрите распределение Уишарта , сопряженное априорно с ковариационной матрицей многомерного нормального распределения , в качестве примера, когда задействована большая размерность.)

Если мы выберем эту случайную величину и получим успехи и неудачи, то мы получим

это еще один бета-дистрибутив с параметрами . Это апостериорное распределение затем можно было бы использовать в качестве априорного для большего количества выборок, при этом гиперпараметры просто добавляли бы каждую дополнительную порцию информации по мере ее поступления.

Интерпретации

Псевдо-наблюдения

Часто полезно думать о гиперпараметрах сопряженного априорного распределения, соответствующих наблюдению определенного количества псевдонаблюдений со свойствами, заданными параметрами. Например, значения и бета- распределения можно рассматривать как соответствующие успехам и неудачам, если апостериорный режим используется для выбора оптимальной настройки параметра, или успехам и неудачам, если апостериорное среднее используется для выбора оптимальной настройки параметра. В общем, почти для всех сопряженных априорных распределений гиперпараметры можно интерпретировать с точки зрения псевдонаблюдений. Это может помочь получить интуитивное представление о часто запутанных уравнениях обновления и помочь выбрать разумные гиперпараметры для априорных вычислений.

Динамическая система

Можно думать, что обусловленность сопряженными априорами определяет своего рода динамическую систему (с дискретным временем) : из заданного набора гиперпараметров входящие данные обновляют эти гиперпараметры, поэтому можно рассматривать изменение гиперпараметров как своего рода «эволюцию во времени» система, соответствующая «обучению». Старт в разных точках со временем приводит к разным потокам. Это снова аналогично динамической системе, определяемой линейным оператором, но обратите внимание, что, поскольку разные выборки приводят к разным выводам, это зависит не просто от времени, а скорее от данных с течением времени. Связанные подходы см. в разделах «Рекурсивная байесовская оценка» и «Ассимиляция данных» .

Практический пример

Предположим, в вашем городе работает служба проката автомобилей. Водители могут оставлять и забирать автомобили в любом месте в черте города. Найти и арендовать автомобили можно с помощью приложения.

Предположим, вы хотите найти вероятность того, что вы сможете найти арендованный автомобиль недалеко от вашего домашнего адреса в любое время суток.

За три дня вы заходите в приложение и обнаруживаете следующее количество автомобилей недалеко от вашего домашнего адреса:

Предположим, мы предполагаем, что данные получены из распределения Пуассона . В этом случае мы можем вычислить оценку максимального правдоподобия параметров модели, которая: Используя эту оценку максимального правдоподобия, мы можем вычислить вероятность того, что в данный день будет доступен хотя бы один автомобиль:

Это распределение Пуассона, которое, скорее всего, привело к получению наблюдаемых данных . Но данные также могли быть получены из другого распределения Пуассона, например, с , или и т. д. Фактически, существует бесконечное количество распределений Пуассона, которые могли бы генерировать наблюдаемые данные. Учитывая относительно небольшое количество точек данных, мы должны быть совершенно не уверены в том, какое именно распределение Пуассона привело к получению этих данных. Интуитивно мы должны вместо этого взять средневзвешенное значение вероятности для каждого из этих распределений Пуассона, взвешенное по тому, насколько вероятно каждое из них, учитывая данные, которые мы наблюдали .

Как правило, эта величина известна как апостериорное прогнозируемое распределение , где — новая точка данных, — наблюдаемые данные и — параметры модели. Используя теорему Байеса, мы можем разложить, следовательно , как правило, этот интеграл трудно вычислить. Однако если вы выберете сопряженное априорное распределение , можно получить выражение в закрытой форме. Это апостериорный столбец прогнозирования в таблицах ниже.

Возвращаясь к нашему примеру, если мы выберем гамма-распределение в качестве априорного распределения по скорости распределений Пуассона, то апостериорным прогнозом будет отрицательное биномиальное распределение , как видно из таблицы ниже. Гамма-распределение параметризуется двумя гиперпараметрами , которые нам предстоит выбрать. Глядя на графики гамма-распределения, мы выбираем , что кажется разумным априорным показателем для среднего количества автомобилей. Выбор априорных гиперпараметров по своей сути субъективен и основан на предварительных знаниях.

Учитывая априорные гиперпараметры , мы можем вычислить апостериорные гиперпараметры и

Учитывая апостериорные гиперпараметры, мы можем, наконец, вычислить апостериорный прогноз

Эта гораздо более консервативная оценка отражает неопределенность в параметрах модели, которую учитывает апостериорный прогноз.

Таблица сопряженных распределений

Пусть n обозначает количество наблюдений. Во всех приведенных ниже случаях предполагается, что данные состоят из n точек (которые в многомерных случаях будут случайными векторами ).

Если функция правдоподобия принадлежит экспоненциальному семейству , то существует сопряженный априор, часто также в экспоненциальном семействе; см. Экспоненциальное семейство: Сопряженные распределения .

Когда функция правдоподобия является дискретным распределением

Когда функция правдоподобия является непрерывным распределением

Смотрите также

Примечания

  1. ^ ab Обозначаются теми же символами, что и предыдущие гиперпараметры, с добавлением штрихов ('). Например , обозначается
  2. ^ Это апостериорное прогнозируемое распределение новой точки данных с учетом наблюдаемых точек данных с исключенными параметрами . Переменные со штрихами обозначают апостериорные значения параметров.
  3. ^ abcdefg Точная интерпретация параметров бета-распределения с точки зрения количества успехов и неудач зависит от того, какая функция используется для извлечения точечной оценки из распределения. Среднее значение бета-распределения соответствует успехам и неудачам, а мода соответствует успехам и неудачам. Байесианцы обычно предпочитают использовать апостериорное среднее, а не апостериорную моду, в качестве точечной оценки, оправданной квадратичной функцией потерь, а использование и более удобно математически, в то время как использование и имеет то преимущество, что равномерный априор соответствует 0 успехов и 0 неудач. Те же проблемы применимы и к распределению Дирихле .
  4. ^ abc β — скорость или обратная шкала. При параметризации гамма-распределения θ = 1/ β и k = α .
  5. ^ Это апостериорное прогнозируемое распределение новой точки данных с учетом наблюдаемых точек данных с исключенными параметрами . Переменные со штрихами обозначают апостериорные значения параметров. и относятся к нормальному распределению и t-распределению Стьюдента соответственно или к многомерному нормальному распределению и многомерному t-распределению в многомерных случаях.
  6. ^ С точки зрения обратной гаммы — это параметр масштаба.
  7. ^ Другой априорный вариант сопряжения для неизвестных среднего и дисперсии, но с фиксированной линейной связью между ними, находится в нормальной смеси дисперсии и среднего с обобщенным обратным гауссианом в качестве распределения сопряженного смешивания.
  8. ^ сложное гамма-распределение ; вот обобщенное бета-распределение простых чисел .

Рекомендации

  1. ^ Говард Райффа и Роберт Шлайфер . Прикладная статистическая теория принятия решений . Отдел исследований, Высшая школа делового администрирования, Гарвардский университет, 1961 год.
  2. ^ Джефф Миллер и др. Самые ранние известные варианты использования некоторых математических слов: «сопряженные предыдущие распределения». Электронный документ, редакция от 13 ноября 2005 г., получено 2 декабря 2005 г.
  3. ^ abc Финк, Дэниел (1997). «Сборник сопряженных априорных значений» (PDF) . CiteSeerX  10.1.1.157.5540 . Архивировано из оригинала (PDF) 29 мая 2009 г.
  4. ^ abcdefghijklm Мерфи, Кевин П. (2007), Сопряженный байесовский анализ гауссовского распределения (PDF)
  5. ^ Лю, Хан; Вассерман, Ларри (2014). Статистическое машинное обучение (PDF) . п. 314.