Критерий выбора модели
В статистике критерий информации Байеса ( BIC ) или критерий информации Шварца (также SIC , SBC , SBIC ) является критерием выбора модели среди конечного набора моделей; модели с более низким BIC, как правило, являются предпочтительными. Он основан, в частности, на функции правдоподобия и тесно связан с критерием информации Акаике (AIC).
При подгонке моделей можно увеличить максимальное правдоподобие, добавляя параметры, но это может привести к переподгонке . И BIC, и AIC пытаются решить эту проблему, вводя штрафной член для количества параметров в модели; штрафной член больше в BIC, чем в AIC для размеров выборки больше 7. [1]
BIC был разработан Гидеоном Э. Шварцем и опубликован в статье 1978 года [2] , где он привел байесовский аргумент в пользу его принятия.
Определение
BIC формально определяется как [3] [a]
где
- = максимизированное значение функции правдоподобия модели , т.е. , где — значения параметров, которые максимизируют функцию правдоподобия, а — наблюдаемые данные;
- = количество точек данных в , количество наблюдений или, что эквивалентно, размер выборки;
- = количество параметров, оцененных моделью. Например, в множественной линейной регрессии оцененными параметрами являются отсекаемый элемент, параметры наклона и постоянная дисперсия ошибок; таким образом, .
Вывод
BIC можно получить путем интегрирования параметров модели с использованием метода Лапласа , начиная со следующих модельных свидетельств : [5] [6] : 217
где — априорная вероятность для модели .
Логарифм правдоподобия, , затем расширяется до ряда Тейлора второго порядка относительно MLE , , предполагая, что он дважды дифференцируем следующим образом:
где — средняя наблюдаемая информация за наблюдение , а — остаточный член. В той степени, в которой это пренебрежимо мало и относительно линейно вблизи , мы можем проинтегрировать, чтобы получить следующее:
По мере увеличения мы можем игнорировать и как они есть . Таким образом,
где BIC определяется как указано выше, и либо (a) является байесовским апостериорным режимом, либо (b) использует MLE, а априорная вероятность имеет ненулевой наклон в MLE. Тогда апостериорная вероятность
Использование
При выборе из нескольких моделей, как правило, предпочтение отдается моделям с более низкими значениями BIC. BIC является возрастающей функцией дисперсии ошибки и возрастающей функцией k . То есть необъяснимая вариация в зависимой переменной и число объясняющих переменных увеличивают значение BIC. Однако более низкий BIC не обязательно означает, что одна модель лучше другой. Поскольку он включает приближения, BIC является просто эвристикой. В частности, различия в BIC никогда не следует рассматривать как преобразованные байесовские факторы.
Важно помнить, что BIC можно использовать для сравнения оценочных моделей только тогда, когда числовые значения зависимой переменной [b] идентичны для всех сравниваемых моделей. Сравниваемые модели не обязательно должны быть вложенными , в отличие от случая, когда модели сравниваются с использованием F-теста или теста отношения правдоподобия . [ требуется цитата ]
Характеристики
- BIC обычно наказывает свободные параметры сильнее, чем информационный критерий Акаике , хотя это зависит от размера n и относительной величины n и k .
- Он не зависит от предшествующего.
- Он может измерить эффективность параметризованной модели с точки зрения прогнозирования данных.
- Он штрафует за сложность модели, которая определяется количеством параметров в модели.
- Он приблизительно равен критерию минимальной длины описания , но со знаком минус.
- Его можно использовать для выбора количества кластеров в соответствии с внутренней сложностью конкретного набора данных.
- Он тесно связан с другими критериями штрафной вероятности, такими как критерий информации об отклонении и критерий информации Акаике .
Ограничения
BIC страдает от двух основных ограничений [7]
- Приведенное выше приближение справедливо только для размера выборки, значительно превышающего количество параметров в модели.
- BIC не может обрабатывать сложные наборы моделей, как в задаче выбора переменных (или выбора признаков ) в многомерном пространстве. [7]
Гауссовский частный случай
При предположении, что ошибки или возмущения модели независимы и одинаково распределены в соответствии с нормальным распределением , а также при граничном условии, что производная логарифма правдоподобия по отношению к истинной дисперсии равна нулю, это становится ( с точностью до аддитивной константы , которая зависит только от n , а не от модели): [8]
где - дисперсия ошибки. Дисперсия ошибки в этом случае определяется как
что является смещенной оценкой истинной дисперсии .
С точки зрения остаточной суммы квадратов (RSS) BIC равен
При тестировании нескольких линейных моделей по сравнению с насыщенной моделью BIC можно переписать в терминах отклонения следующим образом: [9]
где — количество параметров модели в тесте.
Смотрите также
Примечания
- ^ AIC, AICc и BIC, определенные Клаескенсом и Хьортом [4], являются отрицательными значениями тех, которые определены в этой статье и в большинстве других стандартных ссылок.
- ^ Зависимая переменная также называется переменной отклика или переменной результата . См. Регрессионный анализ .
Ссылки
- ↑ См. обзорную статью: Stoica, P.; Selen, Y. (2004), «Выбор порядка модели: обзор правил информационного критерия», IEEE Signal Processing Magazine (июль): 36–47, doi :10.1109/MSP.2004.1311138, S2CID 17338979.
- ^ Шварц, Гидеон Э. (1978), «Оценка размерности модели», Annals of Statistics , 6 (2): 461–464, doi : 10.1214/aos/1176344136 , MR 0468014.
- ^ Вит, Эрнст; Эдвин ван ден Хеувел; Ян-Виллем Ромейн (2012). «Все модели неверны…»: введение в неопределенность модели» (PDF) . Статистика Неерландики . 66 (3): 217–236. дои : 10.1111/j.1467-9574.2012.00530.x. S2CID 7793470.
- ^ Claeskens, G. ; Hjort, NL (2008), Выбор модели и усреднение модели , Cambridge University Press
- ^ Рафтери, А.Е. (1995). «Выбор байесовской модели в социальных исследованиях». Социологическая методология . 25 : 111–196. doi :10.2307/271063. JSTOR 271063.
- ^ Кониси, Саданори; Китагава, Генширо (2008). Информационные критерии и статистическое моделирование . Спрингер. ISBN 978-0-387-71886-6.
- ^ ab Giraud, C. (2015). Введение в многомерную статистику . Chapman & Hall/CRC. ISBN 9781482237948.
- ^ Пристли, МБ (1981). Спектральный анализ и временные ряды . Academic Press . ISBN 978-0-12-564922-3.(стр. 375).
- ^ Касс, Роберт Э.; Рафтери, Адриан Э. (1995), «Байесовские факторы», Журнал Американской статистической ассоциации , 90 (430): 773–795, doi : 10.2307/2291091, ISSN 0162-1459, JSTOR 2291091.
Дальнейшее чтение
Внешние ссылки
- Моделирование авторегрессии с разреженным вектором