Эмпирические байесовские методы — это процедуры статистического вывода , в которых априорное распределение вероятностей оценивается на основе данных. Этот подход отличается от стандартных байесовских методов , в которых априорное распределение фиксируется до того, как будут получены какие-либо данные. Несмотря на эту разницу в перспективах, эмпирический байесовский метод можно рассматривать как приближение к полностью байесовскому подходу к иерархической модели , в котором параметры на самом высоком уровне иерархии устанавливаются в соответствии с их наиболее вероятными значениями, а не интегрируются. [1] Эмпирический байесовский метод, также известный как метод максимального предельного правдоподобия , [2] представляет собой удобный подход к установке гиперпараметров , но с 2000-х годов был в основном вытеснен полностью байесовским иерархическим анализом с ростом доступности высокопроизводительных вычислительных методов. Однако он по-прежнему широко используется для вариационных методов в глубоком обучении, таких как вариационные автокодировщики , где скрытые переменные пространства являются высокоразмерными.
Эмпирические байесовские методы можно рассматривать как приближение к полностью байесовской трактовке иерархической байесовской модели .
Например, в двухэтапной иерархической байесовской модели предполагается, что наблюдаемые данные генерируются из ненаблюдаемого набора параметров в соответствии с распределением вероятностей . В свою очередь, параметры можно считать выборками, взятыми из популяции, характеризуемой гиперпараметрами в соответствии с распределением вероятностей . В иерархической байесовской модели, хотя и не в эмпирическом байесовском приближении, гиперпараметры считаются взятыми из непараметризованного распределения .
Таким образом, информация о конкретной интересующей величине исходит не только из свойств тех данных , которые напрямую от нее зависят, но и из свойств совокупности параметров в целом, выведенных из данных в целом, обобщенных с помощью гиперпараметров .
Используя теорему Байеса ,
В общем случае этот интеграл не поддается аналитическому или символическому анализу и должен быть оценен численными методами. Можно использовать стохастические (случайные) или детерминированные приближения. Примерами стохастических методов являются Монте-Карло с цепями Маркова и выборка Монте-Карло . Детерминированные приближения обсуждаются в квадратуре .
Альтернативно выражение можно записать как
а последний множитель в интеграле, в свою очередь, может быть выражен как
Они предлагают итеративную схему, качественно похожую по структуре на сэмплер Гиббса , для последовательного улучшения приближений к и . Сначала вычислите начальное приближение к полностью игнорируя зависимость; затем вычислите приближение к на основе начального приближенного распределения ; затем используйте это для обновления приближения для ; затем обновите ; и так далее.
Когда истинное распределение имеет острый пик, определение интеграла может быть не сильно изменено путем замены распределения вероятностей точечной оценкой, представляющей пик распределения (или, альтернативно, его среднее значение),
При таком приближении вышеприведенная итерационная схема становится алгоритмом EM .
Термин «Эмпирический Байес» может охватывать широкий спектр методов, но большинство из них можно рассматривать как раннее усечение либо вышеприведенной схемы, либо чего-то похожего. Для параметра(ов) обычно используются точечные оценки, а не все распределение . Оценки для обычно производятся от первого приближения до без последующего уточнения. Эти оценки для обычно производятся без учета соответствующего предварительного распределения для .
Роббинс [3] рассмотрел случай выборки из смешанного распределения , где вероятность для каждого (условная на ) задается распределением Пуассона ,
в то время как априорная вероятность θ не указана, за исключением того, что она также является независимой идентификацией из неизвестного распределения с кумулятивной функцией распределения . Составная выборка возникает в различных задачах статистической оценки, таких как показатели аварийности и клинические испытания. [ необходима цитата ] Мы просто ищем точечный прогноз для всех наблюдаемых данных. Поскольку априорная вероятность не указана, мы пытаемся сделать это без знания G . [4]
При квадратичной ошибке потери (SEL) условное ожидание E( θ i | Y i = y i ) является разумной величиной для использования в прогнозировании. Для модели составной выборки Пуассона эта величина равна
Это можно упростить, умножив числитель и знаменатель на , получив
где p G — это функция предельной вероятности массы , полученная путем интегрирования θ по G.
Чтобы воспользоваться этим, Роббинс [3] предложил оценивать маргинальные значения с помощью их эмпирических частот ( ), получая полностью непараметрическую оценку как:
где обозначает «количество». (См. также оценку частоты Гуда–Тьюринга .)
Предположим, что каждый клиент страховой компании имеет «уровень аварийности» Θ и застрахован от аварий; распределение вероятностей Θ является базовым распределением и неизвестно. Количество аварий, полученных каждым клиентом за указанный период времени, имеет распределение Пуассона с ожидаемым значением, равным уровню аварийности конкретного клиента. Фактическое количество аварий, полученных клиентом, является наблюдаемой величиной. Грубый способ оценки базового распределения вероятностей уровня аварийности Θ заключается в оценке доли членов всего населения, пострадавших от 0, 1, 2, 3, ... аварий за указанный период времени, как соответствующей доли в наблюдаемой случайной выборке. Сделав это, затем желательно спрогнозировать уровень аварийности каждого клиента в выборке. Как и выше, можно использовать условное ожидаемое значение уровня аварийности Θ, учитывая наблюдаемое количество аварий за базовый период. Таким образом, если клиент пострадал в шести несчастных случаях в течение базового периода, предполагаемый уровень несчастных случаев этого клиента составляет 7 × [доля выборки, пострадавшая в 7 несчастных случаях] / [доля выборки, пострадавшая в 6 несчастных случаях]. Обратите внимание, что если доля людей, пострадавших в k несчастных случаях, является убывающей функцией k , прогнозируемый уровень несчастных случаев клиента часто будет ниже, чем наблюдаемое количество несчастных случаев.
Этот эффект сжатия типичен для эмпирического байесовского анализа.
Если правдоподобие и его априорная вероятность принимают простые параметрические формы (например, одномерные или двумерные функции правдоподобия с простыми сопряженными априорными вероятностями ), то эмпирическая байесовская проблема заключается только в оценке маргинальных и гиперпараметров с использованием полного набора эмпирических измерений. Например, один из распространенных подходов, называемый параметрической эмпирической байесовской точечной оценкой, заключается в аппроксимации маргинальных вероятностей с использованием оценки максимального правдоподобия (MLE) или разложения моментов , что позволяет выразить гиперпараметры в терминах эмпирического среднего и дисперсии. Эта упрощенная маргинальная вероятность позволяет включить эмпирические средние в точечную оценку для априорной вероятности . Полученное уравнение для априорной вероятности значительно упрощается, как показано ниже.
Существует несколько общих параметрических эмпирических байесовских моделей, включая модель Пуассона–гамма (ниже), бета-биномиальную модель , модель Гаусса–Гаусса, модель Дирихле-мультиномиала , а также специальные модели для байесовской линейной регрессии (см. ниже) и байесовской многомерной линейной регрессии . Более продвинутые подходы включают иерархические байесовские модели и модели байесовской смеси.
Пример эмпирической байесовской оценки с использованием гауссово-гауссовой модели см. в разделе Эмпирические байесовские оценки .
Например, в приведенном выше примере пусть вероятность будет распределением Пуассона , а априорная вероятность теперь будет задана сопряженной априорной вероятностью , которая является гамма-распределением ( ) (где ):
Легко показать, что апостериорное распределение также является гамма-распределением. Запишите
где предельное распределение было опущено, поскольку оно не зависит явно от . Разложение членов, которые зависят от , дает апостериорную функцию как:
Таким образом, апостериорная плотность также является гамма-распределением , где , и . Также обратите внимание, что маргинальная плотность является просто интегралом апостериорной плотности по всем , что оказывается отрицательным биномиальным распределением .
Чтобы применить эмпирический Байес, мы аппроксимируем маргинальную величину с помощью оценки максимального правдоподобия (MLE). Но поскольку апостериорная величина является гамма-распределением, MLE маргинальной величины оказывается просто средним апостериорной величины, что и является нужной нам точечной оценкой. Вспоминая, что среднее значение гамма-распределения просто , мы имеем
Для получения значений и эмпирический Байес предписывает оценивать среднее значение и дисперсию, используя полный набор эмпирических данных.
Результирующая точечная оценка , таким образом, похожа на средневзвешенное значение выборочного среднего и априорного среднего . Это оказывается общей чертой эмпирического Байеса; точечные оценки для априорного (т.е. среднего) будут выглядеть как средневзвешенные значения выборочной оценки и априорной оценки (аналогично для оценок дисперсии).