В байесовской теории вероятностей, если при заданной функции правдоподобия апостериорное распределение находится в том же семействе распределений вероятностей , что и априорное распределение вероятностей , то априорное и апостериорное распределения называются сопряженными распределениями относительно этой функции правдоподобия, а априорное распределение называется сопряженным априорным для функции правдоподобия .
Сопряженное априорное распределение является алгебраическим удобством, давая замкнутое выражение для апостериорного распределения; в противном случае может потребоваться численное интегрирование . Кроме того, сопряженные априорные распределения могут давать интуицию, более прозрачно показывая, как функция правдоподобия обновляет априорное распределение.
Понятие, а также термин «сопряженное априорное распределение» были введены Говардом Райффой и Робертом Шлайфером в их работе по байесовской теории принятия решений . [1] Подобная концепция была независимо открыта Джорджем Альфредом Барнардом . [2]
Форма сопряженного априорного распределения обычно может быть определена путем проверки плотности вероятности или функции массы вероятности распределения. Например, рассмотрим случайную величину , которая состоит из числа успехов в испытаниях Бернулли с неизвестной вероятностью успеха в [0,1]. Эта случайная величина будет следовать биномиальному распределению с функцией массы вероятности вида
Обычным сопряженным априорным распределением является бета-распределение с параметрами ( , ):
где и выбраны так, чтобы отражать любое существующее убеждение или информацию ( и давали бы равномерное распределение ), а — бета-функция, действующая как нормирующая константа .
В этом контексте и называются гиперпараметрами (параметрами априорной вероятности), чтобы отличать их от параметров базовой модели (здесь ). Типичной характеристикой сопряженных априорных вероятностей является то, что размерность гиперпараметров на единицу больше, чем размерность параметров исходного распределения. Если все параметры являются скалярными значениями, то гиперпараметров будет на один больше, чем параметров; но это также применимо к векторно-значным и матрично-значным параметрам. (См. общую статью об экспоненциальном семействе , а также рассмотрим распределение Уишарта , сопряженное априорное распределение ковариационной матрицы многомерного нормального распределения , для примера, где задействована большая размерность.)
Если мы выберем эту случайную величину и получим успехи и неудачи, то у нас будет
что является другим распределением Бета с параметрами . Это апостериорное распределение затем может быть использовано в качестве априорного для большего количества образцов, при этом гиперпараметры просто добавляют каждую дополнительную часть информации по мере ее поступления.
Часто бывает полезно думать о гиперпараметрах сопряженного априорного распределения, соответствующих наблюдению определенного количества псевдонаблюдений со свойствами, указанными параметрами. Например, значения и бета -распределения можно рассматривать как соответствующие успехам и неудачам, если апостериорная мода используется для выбора оптимальной настройки параметров, или успехам и неудачам, если апостериорное среднее используется для выбора оптимальной настройки параметров. В общем, почти для всех сопряженных априорных распределений гиперпараметры можно интерпретировать в терминах псевдонаблюдений. Это может помочь обеспечить интуицию, стоящую за часто запутанными уравнениями обновления, и помочь выбрать разумные гиперпараметры для априорного распределения.
Можно думать об обусловленности на сопряженных априорных данных как об определении своего рода (дискретной по времени) динамической системы : из заданного набора гиперпараметров входящие данные обновляют эти гиперпараметры, поэтому можно рассматривать изменение гиперпараметров как своего рода «эволюцию во времени» системы, соответствующую «обучению». Старт в разных точках дает разные потоки с течением времени. Это снова аналогично динамической системе, определяемой линейным оператором, но обратите внимание, что поскольку разные образцы приводят к разным выводам, это зависит не просто от времени, а от данных с течением времени. Для связанных подходов см. Рекурсивная байесовская оценка и Усваивание данных .
Предположим, что в вашем городе работает служба проката автомобилей. Водители могут сдавать и забирать автомобили в любом месте в черте города. Вы можете найти и арендовать автомобили с помощью приложения.
Предположим, вы хотите найти вероятность того, что вы сможете найти арендованный автомобиль в пределах короткой дистанции от вашего домашнего адреса в любое время суток.
В течение трех дней вы заходите в приложение и обнаруживаете следующее количество автомобилей в непосредственной близости от вашего домашнего адреса:
Предположим, мы предполагаем, что данные получены из распределения Пуассона . В этом случае мы можем вычислить оценку максимального правдоподобия параметров модели, которая равна Используя эту оценку максимального правдоподобия, мы можем вычислить вероятность того, что в определенный день будет доступна хотя бы одна машина:
Это распределение Пуассона, которое с наибольшей вероятностью сгенерировало наблюдаемые данные . Но данные также могли быть получены из другого распределения Пуассона, например, с , или и т. д. Фактически, существует бесконечное количество распределений Пуассона, которые могли сгенерировать наблюдаемые данные. При относительно небольшом количестве точек данных мы должны быть совершенно не уверены в том, какое именно распределение Пуассона сгенерировало эти данные. Интуитивно мы должны вместо этого взять средневзвешенное значение вероятности для каждого из этих распределений Пуассона, взвешенное по тому, насколько вероятно каждое из них, учитывая наблюдаемые нами данные .
Обычно эта величина известна как апостериорное предсказательное распределение , где — новая точка данных, — наблюдаемые данные, а — параметры модели. Используя теорему Байеса, мы можем расширить , следовательно , Обычно этот интеграл трудно вычислить. Однако, если выбрать сопряженное априорное распределение , можно вывести выражение в замкнутой форме. Это апостериорный предсказательный столбец в таблицах ниже.
Возвращаясь к нашему примеру, если мы выберем гамма-распределение в качестве нашего априорного распределения по скорости распределения Пуассона, то апостериорным предсказателем будет отрицательное биномиальное распределение , как видно из таблицы ниже. Гамма-распределение параметризуется двумя гиперпараметрами , которые нам нужно выбрать. Рассматривая графики гамма-распределения, мы выбираем , что, по-видимому, является разумным априорным значением для среднего числа автомобилей. Выбор априорных гиперпараметров по своей сути субъективен и основан на априорных знаниях.
Учитывая априорные гиперпараметры , мы можем вычислить апостериорные гиперпараметры и
Учитывая апостериорные гиперпараметры, мы можем, наконец, вычислить апостериорный прогноз
Эта гораздо более консервативная оценка отражает неопределенность параметров модели, которую учитывает апостериорное прогнозирование.
Пусть n обозначает число наблюдений. Во всех случаях ниже предполагается, что данные состоят из n точек (которые будут случайными векторами в многомерных случаях).
Если функция правдоподобия принадлежит к экспоненциальному семейству , то существует сопряженное априорное распределение, часто также в экспоненциальном семействе; см. Экспоненциальное семейство: Сопряженные распределения .