Фактор Байеса представляет собой отношение двух конкурирующих статистических моделей , представленных их доказательствами , и используется для количественной оценки поддержки одной модели по сравнению с другой. [1] Рассматриваемые модели могут иметь общий набор параметров, таких как нулевая гипотеза и альтернатива, но это не обязательно; например, это может быть также нелинейная модель по сравнению с ее линейной аппроксимацией . Фактор Байеса можно рассматривать как байесовский аналог теста отношения правдоподобия , хотя он использует интегрированное (т. е. предельное) правдоподобие, а не максимизированное правдоподобие. Таким образом, обе величины совпадают только при простых гипотезах (например, двух конкретных значениях параметров). [2] Кроме того, в отличие от проверки значимости нулевой гипотезы , факторы Байеса поддерживают оценку доказательств в пользу нулевой гипотезы, а не только позволяют отвергнуть или не отвергнуть нулевую гипотезу. [3]
Хотя концептуально просто, вычисление фактора Байеса может быть сложным в зависимости от сложности модели и гипотез. [4] Поскольку выражения предельного правдоподобия в замкнутой форме, как правило, недоступны, были предложены численные приближения, основанные на образцах MCMC . [5] Для некоторых особых случаев могут быть выведены упрощенные алгебраические выражения; например, отношение плотности Сэвиджа–Дики в случае точной (ограниченной равенством) гипотезы против неограниченной альтернативы. [6] [7] Другое приближение, полученное путем применения приближения Лапласа к интегрированным правдоподобиям, известно как критерий информации Байеса (BIC); [8] в больших наборах данных фактор Байеса будет приближаться к BIC по мере того, как влияние априорных данных ослабевает. В небольших наборах данных априорные данные, как правило, имеют значение и не должны быть неправильными, поскольку фактор Байеса будет неопределенным, если любой из двух интегралов в его отношении не является конечным.
Фактор Байеса представляет собой отношение двух предельных правдоподобий, то есть правдоподобий двух статистических моделей, интегрированных по априорным вероятностям их параметров. [9]
Апостериорная вероятность модели M при данных D определяется теоремой Байеса :
Ключевой зависящий от данных термин представляет собой вероятность того, что некоторые данные получены в предположении модели M ; его правильная оценка является ключом к сравнению байесовских моделей.
Если задана задача выбора модели , в которой требуется выбрать между двумя моделями на основе наблюдаемых данных D , то правдоподобность двух различных моделей M 1 и M 2 , параметризованных векторами параметров модели и , оценивается с помощью коэффициента Байеса K, определяемого как
Когда две модели имеют одинаковую априорную вероятность, так что , фактор Байеса равен отношению апостериорных вероятностей M 1 и M 2 . Если вместо интеграла фактора Байеса используется вероятность, соответствующая оценке максимального правдоподобия параметра для каждой статистической модели, то тест становится классическим тестом отношения правдоподобия . В отличие от теста отношения правдоподобия, это сравнение байесовских моделей не зависит от какого-либо одного набора параметров, поскольку оно интегрируется по всем параметрам в каждой модели (относительно соответствующих априорных значений). Преимущество использования факторов Байеса заключается в том, что оно автоматически и вполне естественно включает штраф за включение слишком большой структуры модели. [10] Таким образом, это защищает от переобучения . Для моделей, где явная версия вероятности недоступна или слишком затратна для численной оценки, приближенное байесовское вычисление может использоваться для выбора модели в байесовской структуре, [11] с оговоркой, что приближенные байесовские оценки факторов Байеса часто смещены. [12]
Другие подходы:
Значение K > 1 означает, что M 1 более сильно поддерживается рассматриваемыми данными, чем M 2 . Обратите внимание, что классическая проверка гипотез дает одной гипотезе (или модели) предпочтительный статус («нулевая гипотеза») и рассматривает только доказательства против нее. Тот факт, что фактор Байеса может предоставить доказательства за , а не только против нулевой гипотезы, является одним из ключевых преимуществ этого метода анализа. [13]
Гарольд Джеффрис дал шкалу ( шкалу Джеффриса ) для интерпретации : [14]
Во втором столбце указаны соответствующие веса доказательств в децихартли (также известных как децибаны ); в третьем столбце для ясности добавлены биты . Таблица продолжается в другом направлении, так что, например, является решающим доказательством для .
Альтернативная таблица, широко цитируемая, представлена Кассом и Рафтери (1995): [10]
По словам И. Дж. Гуда , едва заметное различие людей в их повседневной жизни, когда речь идет об изменении степени веры в гипотезу, составляет примерно коэффициент 1,3x, или 1 децибан, или 1/3 бита, или от 1:1 до 5:4 в отношении шансов. [15]
Предположим, у нас есть случайная величина , которая производит либо успех, либо неудачу. Мы хотим сравнить модель M 1 , где вероятность успеха равна q = 1 ⁄ 2 , и другую модель M 2 , где q неизвестно, и мы берем априорное распределение для q, которое равномерно на [0,1]. Мы берем выборку из 200 и находим 115 успехов и 85 неудач. Вероятность можно рассчитать в соответствии с биномиальным распределением :
Таким образом, для M 1 имеем
тогда как для M 2 мы имеем
Тогда соотношение составляет 1,2, что «едва ли заслуживает упоминания», даже если оно очень слабо указывает на M 1 .
Частотный тест гипотезы M 1 (здесь рассматриваемый как нулевая гипотеза ) дал бы совсем другой результат. Такой тест говорит, что M 1 следует отвергнуть на уровне значимости 5%, поскольку вероятность получения 115 или более успехов из выборки из 200, если q = 1 ⁄ 2 , составляет 0,02, а как двухсторонний тест получения цифры, такой же экстремальной или более экстремальной, чем 115, составляет 0,04. Обратите внимание, что 115 находится более чем в двух стандартных отклонениях от 100. Таким образом, в то время как частотный тест гипотезы дал бы значимые результаты на уровне значимости 5%, фактор Байеса вряд ли считает это экстремальным результатом. Обратите внимание, однако, что неравномерное априорное распределение (например, такое, которое отражает тот факт, что вы ожидаете, что число успехов и неудач будет одного порядка величины) может привести к фактору Байеса, который больше согласуется с частотным тестом гипотезы.
Классический тест отношения правдоподобия нашел бы оценку максимального правдоподобия для q , а именно , откуда
(а не усреднение по всем возможным q ). Это дает отношение правдоподобия 0,1 и указывает на M 2 .
M 2 — более сложная модель, чем M 1 , поскольку она имеет свободный параметр, который позволяет ей моделировать данные более точно. Способность байесовских факторов учитывать это является причиной того, что байесовский вывод был выдвинут в качестве теоретического обоснования и обобщения бритвы Оккама , уменьшая ошибки типа I. [ 16]
С другой стороны, современный метод относительного правдоподобия учитывает количество свободных параметров в моделях, в отличие от классического отношения правдоподобия. Метод относительного правдоподобия можно применить следующим образом. Модель M 1 имеет 0 параметров, поэтому ее значение информационного критерия Акаике (AIC) равно . Модель M 2 имеет 1 параметр, поэтому ее значение AIC равно . Следовательно, M 1 примерно в раз более вероятно, чем M 2 , что минимизирует потерю информации. Таким образом, M 2 немного предпочтительнее, но M 1 нельзя исключить.
{{cite book}}
: CS1 maint: location missing publisher (link)