stringtranslate.com

Байесовский информационный критерий

В статистике критерий информации Байеса ( BIC ) или критерий информации Шварца (также SIC , SBC , SBIC ) является критерием выбора модели среди конечного набора моделей; модели с более низким BIC, как правило, являются предпочтительными. Он основан, в частности, на функции правдоподобия и тесно связан с критерием информации Акаике (AIC).

При подгонке моделей можно увеличить максимальное правдоподобие, добавляя параметры, но это может привести к переподгонке . И BIC, и AIC пытаются решить эту проблему, вводя штрафной член для количества параметров в модели; штрафной член больше в BIC, чем в AIC для размеров выборки больше 7. [1]

BIC был разработан Гидеоном Э. Шварцем и опубликован в статье 1978 года [2] , где он привел байесовский аргумент в пользу его принятия.

Определение

BIC формально определяется как [3] [a]

где

Вывод

BIC можно получить путем интегрирования параметров модели с использованием метода Лапласа , начиная со следующих модельных свидетельств : [5] [6] : 217 

где — априорная вероятность для модели .

Логарифм правдоподобия, , затем расширяется до ряда Тейлора второго порядка относительно MLE , , предполагая, что он дважды дифференцируем следующим образом:

где — средняя наблюдаемая информация за наблюдение , а — остаточный член. В той степени, в которой это пренебрежимо мало и относительно линейно вблизи , мы можем проинтегрировать, чтобы получить следующее:

По мере увеличения мы можем игнорировать и как они есть . Таким образом,

где BIC определяется как указано выше, и либо (a) является байесовским апостериорным режимом, либо (b) использует MLE, а априорная вероятность имеет ненулевой наклон в MLE. Тогда апостериорная вероятность

Использование

При выборе из нескольких моделей, как правило, предпочтение отдается моделям с более низкими значениями BIC. BIC является возрастающей функцией дисперсии ошибки и возрастающей функцией k . То есть необъяснимая вариация в зависимой переменной и число объясняющих переменных увеличивают значение BIC. Однако более низкий BIC не обязательно означает, что одна модель лучше другой. Поскольку он включает приближения, BIC является просто эвристикой. В частности, различия в BIC никогда не следует рассматривать как преобразованные байесовские факторы.

Важно помнить, что BIC можно использовать для сравнения оценочных моделей только тогда, когда числовые значения зависимой переменной [b] идентичны для всех сравниваемых моделей. Сравниваемые модели не обязательно должны быть вложенными , в отличие от случая, когда модели сравниваются с использованием F-теста или теста отношения правдоподобия . [ требуется цитата ]

Характеристики

Ограничения

BIC страдает от двух основных ограничений [7]

  1. Приведенное выше приближение справедливо только для размера выборки, значительно превышающего количество параметров в модели.
  2. BIC не может обрабатывать сложные наборы моделей, как в задаче выбора переменных (или выбора признаков ) в многомерном пространстве. [7]

Гауссовский частный случай

При предположении, что ошибки или возмущения модели независимы и одинаково распределены в соответствии с нормальным распределением , а также при граничном условии, что производная логарифма правдоподобия по отношению к истинной дисперсии равна нулю, это становится ( с точностью до аддитивной константы , которая зависит только от n , а не от модели): [8]

где - дисперсия ошибки. Дисперсия ошибки в этом случае определяется как

что является смещенной оценкой истинной дисперсии .

С точки зрения остаточной суммы квадратов (RSS) BIC равен

При тестировании нескольких линейных моделей по сравнению с насыщенной моделью BIC можно переписать в терминах отклонения следующим образом: [9]

где — количество параметров модели в тесте.

Смотрите также

Примечания

  1. ^ AIC, AICc и BIC, определенные Клаескенсом и Хьортом [4], являются отрицательными значениями тех, которые определены в этой статье и в большинстве других стандартных ссылок.
  2. ^ Зависимая переменная также называется переменной отклика или переменной результата . См. Регрессионный анализ .

Ссылки

  1. См. обзорную статью: Stoica, P.; Selen, Y. (2004), «Выбор порядка модели: обзор правил информационного критерия», IEEE Signal Processing Magazine (июль): 36–47, doi :10.1109/MSP.2004.1311138, S2CID  17338979.
  2. ^ Шварц, Гидеон Э. (1978), «Оценка размерности модели», Annals of Statistics , 6 (2): 461–464, doi : 10.1214/aos/1176344136 , MR  0468014.
  3. ^ Вит, Эрнст; Эдвин ван ден Хеувел; Ян-Виллем Ромейн (2012). «Все модели неверны…»: введение в неопределенность модели» (PDF) . Статистика Неерландики . 66 (3): 217–236. дои : 10.1111/j.1467-9574.2012.00530.x. S2CID  7793470.
  4. ^ Claeskens, G. ; Hjort, NL (2008), Выбор модели и усреднение модели , Cambridge University Press
  5. ^ Рафтери, А.Е. (1995). «Выбор байесовской модели в социальных исследованиях». Социологическая методология . 25 : 111–196. doi :10.2307/271063. JSTOR  271063.
  6. ^ Кониси, Саданори; Китагава, Генширо (2008). Информационные критерии и статистическое моделирование . Спрингер. ISBN 978-0-387-71886-6.
  7. ^ ab Giraud, C. (2015). Введение в многомерную статистику . Chapman & Hall/CRC. ISBN 9781482237948.
  8. ^ Пристли, МБ (1981). Спектральный анализ и временные ряды . Academic Press . ISBN 978-0-12-564922-3.(стр. 375).
  9. ^ Касс, Роберт Э.; Рафтери, Адриан Э. (1995), «Байесовские факторы», Журнал Американской статистической ассоциации , 90 (430): 773–795, doi : 10.2307/2291091, ISSN  0162-1459, JSTOR  2291091.

Дальнейшее чтение

Внешние ссылки