В статистике стьюдентизированный остаток — это безразмерное отношение , полученное в результате деления остатка на оценку его стандартного отклонения , оба выражены в одних и тех же единицах . Это форма t -статистики Стьюдента , при этом оценка ошибки варьируется между точками.
Это важный метод обнаружения выбросов . Он входит в число нескольких методов, названных в честь Уильяма Сили Госсета , который писал под псевдонимом «Стьюдент» (например, распределение Стьюдента ). Деление статистики на выборочное стандартное отклонение называется стьюдентизацией , по аналогии со стандартизацией и нормализацией .
Основная причина для стьюдентизации заключается в том, что в регрессионном анализе многомерного распределения дисперсии остатков при разных значениях входных переменных могут различаться, даже если дисперсии ошибок при этих разных значениях входных переменных равны. Проблема заключается в разнице между ошибками и остатками в статистике , в частности в поведении остатков в регрессиях.
Рассмотрим простую модель линейной регрессии
При наличии случайной выборки ( X i , Y i ), i = 1, ..., n , каждая пара ( X i , Y i ) удовлетворяет условию
где ошибки , независимы и все имеют одинаковую дисперсию . Остатки не являются истинными ошибками, а оценками , основанными на наблюдаемых данных. Когда метод наименьших квадратов используется для оценки и , то остатки , в отличие от ошибок , не могут быть независимыми , поскольку они удовлетворяют двум ограничениям
и
(Здесь ε i — i -я ошибка, а — i -й остаток.)
Остатки, в отличие от ошибок, не все имеют одинаковую дисперсию: дисперсия уменьшается по мере того, как соответствующее значение x становится дальше от среднего значения x . Это не особенность самих данных, а свойство регрессии лучше подходить к значениям на концах домена. Это также отражается в функциях влияния различных точек данных на коэффициенты регрессии : конечные точки оказывают большее влияние. Это также можно увидеть, поскольку остатки в конечных точках сильно зависят от наклона подобранной линии, в то время как остатки в середине относительно нечувствительны к наклону. Тот факт, что дисперсии остатков различаются, даже если дисперсии истинных ошибок все равны друг другу, является основной причиной необходимости стьюдентизации.
Дело не только в том, что параметры совокупности (среднее значение и стандартное отклонение) неизвестны, но и в том, что регрессии дают разные распределения остатков в разных точках данных, в отличие от точечных оценок одномерных распределений , которые имеют общее распределение остатков.
Для этой простой модели матрица проектирования имеет вид
а матрица H — это матрица ортогональной проекции на пространство столбцов матрицы дизайна:
Кредитное плечо h ii — это i- й диагональный элемент в матрице шляпы. Дисперсия i- го остатка равна
В случае, если матрица проектирования X имеет только два столбца (как в примере выше), это равно
В случае среднего арифметического матрица плана X имеет только один столбец ( вектор единиц ), и это просто:
Учитывая приведенные выше определения, стьюдентизированный остаток равен
где h ii — кредитное плечо , а — соответствующая оценка σ (см. ниже).
В случае среднего это равно:
Обычная оценка σ 2 — это внутренне стьюдентизированный остаток
где m — количество параметров в модели (в нашем примере 2).
Но если есть подозрение, что i -й случай невероятно большой, то он также не будет нормально распределен. Поэтому разумно исключить i -е наблюдение из процесса оценки дисперсии, когда рассматривается, может ли i -й случай быть выбросом, и вместо этого использовать внешне стьюдентизированный остаток, который
на основе всех остатков, кроме остатка подозреваемого i- го. Здесь следует подчеркнуть, что для подозреваемого i-го случая вычисляются с исключением случая i- го.
Если оценка σ 2 включает i -й случай , то она называется внутренне стьюдентизированным остатком, (также известным как стандартизированный остаток [1] ). Если вместо этого используется оценка , исключающая i -й случай , то она называется внешне стьюдентизированным остатком , .
Если ошибки независимы и распределены нормально с ожидаемым значением 0 и дисперсией σ 2 , то распределение вероятностей i - го внешне стьюдентизированного остатка является t-распределением Стьюдента с n − m − 1 степенями свободы и может находиться в диапазоне от до .
С другой стороны, внутренне стьюдентизированные остатки находятся в диапазоне , где ν = n − m — число остаточных степеней свободы. Если t i представляет внутренне стьюдентизированный остаток, и снова предполагая, что ошибки являются независимыми одинаково распределенными гауссовыми переменными, то: [2]
где t — случайная величина, распределенная как распределение Стьюдента с ν − 1 степенями свободы. Фактически, это означает, что t i 2 / ν следует бета-распределению B (1/2,( ν − 1)/2). Распределение выше иногда называют распределением тау ; [2] оно было впервые получено Томпсоном в 1935 году. [3]
Когда ν = 3, внутренне стьюдентизированные остатки равномерно распределены между и . Если есть только одна остаточная степень свободы, приведенная выше формула для распределения внутренне стьюдентизированных остатков не применяется. В этом случае все t i равны либо +1, либо −1, с вероятностью 50% для каждого.
Стандартное отклонение распределения внутренне стьюдентизированных остатков всегда равно 1, но это не означает, что стандартное отклонение всех t i конкретного эксперимента равно 1. Например, внутренне стьюдентизированные остатки при подгонке прямой линии, проходящей через (0, 0) к точкам (1, 4), (2, −1), (2, −1), равны , а их стандартное отклонение не равно 1.
Обратите внимание, что любая пара стьюдентизированных остатков t i и t j (где ), НЕ является независимой. Они имеют одинаковое распределение, но не являются независимыми из-за ограничений на остатки, которые должны давать в сумме 0 и быть ортогональными матрице плана.
Многие программы и статистические пакеты, такие как R , Python и т. д., включают в себя реализации стьюдентизированного остатка.