Стьюдентизированный остаток

В статистике стьюдентизированный остаток — это безразмерное отношение , полученное в результате деления остатка на оценку его стандартного отклонения , оба выражены в одних и тех же единицах . Это форма t -статистики Стьюдента , при этом оценка ошибки варьируется между точками.

Это важный метод обнаружения выбросов . Он входит в число нескольких методов, названных в честь Уильяма Сили Госсета , который писал под псевдонимом «Стьюдент» (например, распределение Стьюдента ). Деление статистики на выборочное стандартное отклонение называется стьюдентизацией , по аналогии со стандартизацией и нормализацией .

Мотивация

Основная причина для стьюдентизации заключается в том, что в регрессионном анализе многомерного распределения дисперсии остатков при разных значениях входных переменных могут различаться, даже если дисперсии ошибок при этих разных значениях входных переменных равны. Проблема заключается в разнице между ошибками и остатками в статистике , в частности в поведении остатков в регрессиях.

Рассмотрим простую модель линейной регрессии

Y=\alpha _{0}+\alpha _{1}X+\varepsilon .\,

При наличии случайной выборки ( X _i , Y _i ), i = 1, ..., n , каждая пара ( X _i , Y _i ) удовлетворяет условию

Y_{i}=\alpha _{0}+\alpha _{1}X_{i}+\varepsilon _{i},\,

где ошибки , независимы и все имеют одинаковую дисперсию . Остатки не являются истинными ошибками, а оценками , основанными на наблюдаемых данных. Когда метод наименьших квадратов используется для оценки и , то остатки , в отличие от ошибок , не могут быть независимыми , поскольку они удовлетворяют двум ограничениям $\varepsilon _{i}$ $\sigma ^{2}$ $\alpha _{0}$ $\alpha _{1}$ ${\widehat {\varepsilon \,}}$ $\varepsilon$

\sum _{i=1}^{n}{\widehat {\varepsilon \,}}_{i}=0

\sum _{i=1}^{n}{\widehat {\varepsilon \,}}_{i}x_{i}=0.

(Здесь ε _i — i -я ошибка, а — i -й остаток.) ${\widehat {\varepsilon \,}}_{i}$

Остатки, в отличие от ошибок, не все имеют одинаковую дисперсию: дисперсия уменьшается по мере того, как соответствующее значение x становится дальше от среднего значения x . Это не особенность самих данных, а свойство регрессии лучше подходить к значениям на концах домена. Это также отражается в функциях влияния различных точек данных на коэффициенты регрессии : конечные точки оказывают большее влияние. Это также можно увидеть, поскольку остатки в конечных точках сильно зависят от наклона подобранной линии, в то время как остатки в середине относительно нечувствительны к наклону. Тот факт, что дисперсии остатков различаются, даже если дисперсии истинных ошибок все равны друг другу, является основной причиной необходимости стьюдентизации.

Дело не только в том, что параметры совокупности (среднее значение и стандартное отклонение) неизвестны, но и в том, что регрессии дают разные распределения остатков в разных точках данных, в отличие от точечных оценок одномерных распределений , которые имеют общее распределение остатков.

Фон

Для этой простой модели матрица проектирования имеет вид

X=\left[{\begin{matrix}1&x_{1}\\\vdots &\vdots \\1&x_{n}\end{matrix}}\right]

а матрица H — это матрица ортогональной проекции на пространство столбцов матрицы дизайна:

H=X(X^{T}X)^{-1}X^{T}.\,

Кредитное плечо h _ii — это i- й диагональный элемент в матрице шляпы. Дисперсия i- го остатка равна

\operatorname {var} ({\widehat {\varepsilon \,}}_{i})=\sigma ^{2}(1-h_{ii}).

В случае, если матрица проектирования X имеет только два столбца (как в примере выше), это равно

\operatorname {var} ({\widehat {\varepsilon \,}}_{i})=\sigma ^{2}\left(1-{\frac {1}{n}}-{\frac {(x_{i}-{\bar {x}})^{2}}{\sum _{j=1}^{n}(x_{j}-{\bar {x}})^{2}}}\right).

В случае среднего арифметического матрица плана X имеет только один столбец ( вектор единиц ), и это просто:

\operatorname {var} ({\widehat {\varepsilon \,}}_{i})=\sigma ^{2}\left(1-{\frac {1}{n}}\right).

Расчет

Учитывая приведенные выше определения, стьюдентизированный остаток равен

t_{i}={{\widehat {\varepsilon \,}}_{i} \over {\widehat {\sigma }}{\sqrt {1-h_{ii}\ }}}

где h _ii — кредитное плечо , а — соответствующая оценка σ (см. ниже). ${\widehat {\sigma }}$

В случае среднего это равно:

t_{i}={{\widehat {\varepsilon \,}}_{i} \over {\widehat {\sigma }}{\sqrt {(n-1)/n}}}

Внутренняя и внешняя студенизация

Обычная оценка σ ² — это внутренне стьюдентизированный остаток

{\widehat {\sigma }}^{2}={1 \over n-m}\sum _{j=1}^{n}{\widehat {\varepsilon \,}}_{j}^{\,2}.

где m — количество параметров в модели (в нашем примере 2).

Но если есть подозрение, что i -й случай невероятно большой, то он также не будет нормально распределен. Поэтому разумно исключить i -е наблюдение из процесса оценки дисперсии, когда рассматривается, может ли i -й случай быть выбросом, и вместо этого использовать внешне стьюдентизированный остаток, который

{\widehat {\sigma }}_{(i)}^{2}={1 \over n-m-1}\sum _{\begin{smallmatrix}j=1\\j\neq i\end{smallmatrix}}^{n}{\widehat {\varepsilon \,}}_{j}^{\,2},

на основе всех остатков, кроме остатка подозреваемого i- го. Здесь следует подчеркнуть, что для подозреваемого i-го случая вычисляются с исключением случая i- го. ${\widehat {\varepsilon \,}}_{j}^{\,2}(j\neq i)$

Если оценка σ ² включает i -й случай , то она называется внутренне стьюдентизированным остатком, (также известным как стандартизированный остаток ^[1] ). Если вместо этого используется оценка , исключающая i -й случай , то она называется внешне стьюдентизированным остатком , . $t_{i}$ ${\widehat {\sigma }}_{(i)}^{2}$ $t_{i(i)}$

Распределение

Если ошибки независимы и распределены нормально с ожидаемым значением 0 и дисперсией σ ² , то распределение вероятностей i - го внешне стьюдентизированного остатка является t-распределением Стьюдента с n − m − 1 степенями свободы и может находиться в диапазоне от до . $t_{i(i)}$ $\scriptstyle -\infty$ $\scriptstyle +\infty$

С другой стороны, внутренне стьюдентизированные остатки находятся в диапазоне , где ν = n − m — число остаточных степеней свободы. Если t _i представляет внутренне стьюдентизированный остаток, и снова предполагая, что ошибки являются независимыми одинаково распределенными гауссовыми переменными, то: ^[2] $\scriptstyle 0\,\pm \,{\sqrt {\nu }}$

t_{i}\sim {\sqrt {\nu }}{t \over {\sqrt {t^{2}+\nu -1}}}

где t — случайная величина, распределенная как распределение Стьюдента с ν − 1 степенями свободы. Фактически, это означает, что t _i² / ν следует бета-распределению B (1/2,( ν − 1)/2). Распределение выше иногда называют распределением тау ; ^[2] оно было впервые получено Томпсоном в 1935 году. ^[3]

Когда ν = 3, внутренне стьюдентизированные остатки равномерно распределены между и . Если есть только одна остаточная степень свободы, приведенная выше формула для распределения внутренне стьюдентизированных остатков не применяется. В этом случае все t _i равны либо +1, либо −1, с вероятностью 50% для каждого. $\scriptstyle -{\sqrt {3}}$ $\scriptstyle +{\sqrt {3}}$

Стандартное отклонение распределения внутренне стьюдентизированных остатков всегда равно 1, но это не означает, что стандартное отклонение всех t i _{конкретного} эксперимента равно 1. Например, внутренне стьюдентизированные остатки при подгонке прямой линии, проходящей через (0, 0) к точкам (1, 4), (2, −1), (2, −1), равны , а их стандартное отклонение не равно 1. ${\sqrt {2}},\ -{\sqrt {5}}/5,\ -{\sqrt {5}}/5$

Обратите внимание, что любая пара стьюдентизированных остатков t _i и t _j (где ), НЕ является независимой. Они имеют одинаковое распределение, но не являются независимыми из-за ограничений на остатки, которые должны давать в сумме 0 и быть ортогональными матрице плана. $i\neq j$

Реализации программного обеспечения

Многие программы и статистические пакеты, такие как R , Python и т. д., включают в себя реализации стьюдентизированного остатка.

Смотрите также

Расстояние Кука – мера изменения коэффициентов регрессии при удалении наблюдения.
тест Граббса
Нормализация (статистика)
Неравенство Самуэльсона
Стандартная оценка
Уильям Сили Госсет

Ссылки

^ Диагностика регрессионного удаления R docs
^ ab Allen J. Pope (1976), "Статистика остатков и обнаружение выбросов", Министерство торговли США, Национальное управление океанических и атмосферных исследований, Национальная океаническая служба, Геодезическая научно-исследовательская лаборатория, 136 страниц, [1], уравнение (6)
^ Томпсон, Уильям Р. (1935). «О критерии отбраковки наблюдений и распределении отношения отклонения к выборочному стандартному отклонению». Анналы математической статистики . 6 (4): 214–219. doi : 10.1214/aoms/1177732567 .

Дальнейшее чтение

Кук, Р. Деннис; Вайсберг, Сэнфорд (1982). Остатки и влияние в регрессии (переиздание). Нью-Йорк: Chapman and Hall . ISBN 041224280X. Получено 23 февраля 2013 г.