Отклонение (статистика)

В статистике отклонение — это статистика соответствия статистической модели ; часто используется для проверки статистических гипотез . Это обобщение идеи использования суммы квадратов остатков (SSR) в обычных наименьших квадратах на случаи, когда соответствие модели достигается методом максимального правдоподобия . Оно играет важную роль в моделях экспоненциального рассеивания и обобщенных линейных моделях .

Отклонение может быть связано с расхождением Кульбака-Лейблера . ^[1]

Определение

Единичное отклонение ^[2]^[3] представляет собой двумерную функцию, удовлетворяющую следующим условиям: $d(y,\mu )$

$d(y,y)=0$
$d(y,\mu )>0\quad \forall y\neq \mu$

Общее отклонение модели с предсказаниями наблюдения равно сумме ее единичных отклонений: . $D(\mathbf {y} ,{\hat {\boldsymbol {\mu }}})$ ${\hat {\boldsymbol {\mu }}}$ $\mathbf {y}$ ${\textstyle D(\mathbf {y}, {\hat {\boldsymbol {\mu }}}) =\sum _{i}d(y_{i},{\hat {\mu }}_{i} )}$

(Общее) отклонение для модели M ₀ с оценками , основанными на наборе данных y , может быть построено по ее правдоподобию следующим образом: ^[4]^[5] ${\hat {\mu }}=E[Y|{\hat {\theta }}_{0}]$ $D(y,{\hat {\mu }})=2\left(\log \left[p(y\mid {\hat {\theta }}_{s})\right]-\log \left[p(y\mid {\hat {\theta }}_{0})\right]\right).$

Здесь обозначает подобранные значения параметров в модели M ₀ , а обозначает подобранные параметры для насыщенной модели : оба набора подобранных значений неявно являются функциями наблюдений y . Здесь насыщенная модель представляет собой модель с параметром для каждого наблюдения, так что данные точно подогнаны. Это выражение просто в 2 раза больше логарифмического отношения правдоподобия полной модели по сравнению с сокращенной моделью. Отклонение используется для сравнения двух моделей — в частности, в случае обобщенных линейных моделей (GLM), где оно играет аналогичную роль остаточной сумме квадратов из ANOVA в линейных моделях ( RSS ). ${\hat {\theta }}_{0}$ ${\hat {\theta }}_{s}$

Предположим, что в рамках GLM у нас есть две вложенные модели , M ₁ и M ₂ . В частности, предположим, что M ₁ содержит параметры в M ₂ и k дополнительных параметров. Тогда, при нулевой гипотезе, что M ₂ является истинной моделью, разница между отклонениями для двух моделей следует, на основе теоремы Уилкса , приблизительному распределению хи-квадрат с k -степенями свободы. ^[5] Это можно использовать для проверки гипотез об отклонении.

Некоторое использование термина «девиация» может сбивать с толку. По словам Колетта: ^[6]

«количество иногда называют отклонением . Это [...] неуместно, поскольку в отличие от отклонения, используемого в контексте обобщенного линейного моделирования, не измеряет отклонение от модели, которая идеально соответствует данным».

-2\log {\big [}p(y\mid {\hat {\theta }}_{0}){\big ]}

-2\log {\big [}p(y\mid {\hat {\theta }}_{0}){\big ]}

Однако, поскольку основное применение заключается в форме разности отклонений двух моделей, эта путаница в определениях не имеет значения.

Примеры

Единичное отклонение для распределения Пуассона равно , единичное отклонение для нормального распределения определяется по формуле . $d(y,\mu )=2\left(y\log {\frac {y}{\mu }}-y+\mu \right)$ $d(y,\mu )=\left(y-\mu \right)^{2}$

Смотрите также

Критерий информации Акаике
Критерий информации об отклонении
Тест Хосмера-Лемешова , статистика качества соответствия, которая может быть использована для двоичных данных
Хи-квадрат-критерий Пирсона , альтернативная статистика качества соответствия для обобщенных линейных моделей для количественных данных
Критерий Пирса

Примечания

^ Хасти, Тревор. «Более пристальный взгляд на отклонение». The American Statistician 41.1 (1987): 16-20.
^ Йоргенсен, Б. (1997). Теория дисперсионных моделей . Чапман и Холл.
^ Сонг, Питер X. -К. (2007). Анализ коррелированных данных: моделирование, аналитика и приложения . Серия Springer по статистике. Серия Springer по статистике. doi :10.1007/978-0-387-71393-9. ISBN 978-0-387-71392-2.
^ Nelder, JA ; Wedderburn, RWM (1972). «Обобщенные линейные модели». Журнал Королевского статистического общества. Серия A (общая) . 135 (3): 370–384. doi :10.2307/2344614. JSTOR 2344614. S2CID 14154576.
^ ab МакКуллах и Нелдер (1989): стр. 17
^ Коллетт (2003): стр. 76

Ссылки

МакКаллах, Питер ; Нелдер, Джон (1989). Обобщенные линейные модели, второе издание . Chapman & Hall/CRC. ISBN 0-412-31760-5.

Коллетт, Дэвид (2003). Моделирование данных о выживании в медицинских исследованиях, второе издание . Chapman & Hall/CRC. ISBN 1-58488-325-1.

Внешние ссылки

Обобщенные линейные модели - Эдвард Ф. Коннор
Конспекты лекций по теме «Девиантность»