stringtranslate.com

Стьюдентизированный остаток

В статистике стьюдентизированный остаток — это безразмерное отношение , полученное в результате деления остатка на оценку его стандартного отклонения , оба выражены в одних и тех же единицах . Это форма t -статистики Стьюдента , при этом оценка ошибки варьируется между точками.

Это важный метод обнаружения выбросов . Он входит в число нескольких методов, названных в честь Уильяма Сили Госсета , который писал под псевдонимом «Стьюдент» (например, распределение Стьюдента ). Деление статистики на выборочное стандартное отклонение называется стьюдентизацией , по аналогии со стандартизацией и нормализацией .

Мотивация

Основная причина для стьюдентизации заключается в том, что в регрессионном анализе многомерного распределения дисперсии остатков при разных значениях входных переменных могут различаться, даже если дисперсии ошибок при этих разных значениях входных переменных равны. Проблема заключается в разнице между ошибками и остатками в статистике , в частности в поведении остатков в регрессиях.

Рассмотрим простую модель линейной регрессии

При наличии случайной выборки ( X iY i ), i  = 1, ...,  n , каждая пара ( X iY i ) удовлетворяет условию

где ошибки , независимы и все имеют одинаковую дисперсию . Остатки не являются истинными ошибками, а оценками , основанными на наблюдаемых данных. Когда метод наименьших квадратов используется для оценки и , то остатки , в отличие от ошибок , не могут быть независимыми , поскольку они удовлетворяют двум ограничениям

и

(Здесь ε ii -я ошибка, а — i -й остаток.)

Остатки, в отличие от ошибок, не все имеют одинаковую дисперсию: дисперсия уменьшается по мере того, как соответствующее значение x становится дальше от среднего значения x . Это не особенность самих данных, а свойство регрессии лучше подходить к значениям на концах домена. Это также отражается в функциях влияния различных точек данных на коэффициенты регрессии : конечные точки оказывают большее влияние. Это также можно увидеть, поскольку остатки в конечных точках сильно зависят от наклона подобранной линии, в то время как остатки в середине относительно нечувствительны к наклону. Тот факт, что дисперсии остатков различаются, даже если дисперсии истинных ошибок все равны друг другу, является основной причиной необходимости стьюдентизации.

Дело не только в том, что параметры совокупности (среднее значение и стандартное отклонение) неизвестны, но и в том, что регрессии дают разные распределения остатков в разных точках данных, в отличие от точечных оценок одномерных распределений , которые имеют общее распределение остатков.

Фон

Для этой простой модели матрица проектирования имеет вид

а матрица H — это матрица ортогональной проекции на пространство столбцов матрицы дизайна:

Кредитное плечо h ii — это i- й диагональный элемент в матрице шляпы. Дисперсия i- го остатка равна

В случае, если матрица проектирования X имеет только два столбца (как в примере выше), это равно

В случае среднего арифметического матрица плана X имеет только один столбец ( вектор единиц ), и это просто:

Расчет

Учитывая приведенные выше определения, стьюдентизированный остаток равен

где h iiкредитное плечо , а — соответствующая оценка σ (см. ниже).

В случае среднего это равно:

Внутренняя и внешняя студенизация

Обычная оценка σ 2 — это внутренне стьюдентизированный остаток

где m — количество параметров в модели (в нашем примере 2).

Но если есть подозрение, что i  -й случай невероятно большой, то он также не будет нормально распределен. Поэтому разумно исключить i  -е наблюдение из процесса оценки дисперсии, когда рассматривается, может ли i  -й случай быть выбросом, и вместо этого использовать внешне стьюдентизированный остаток, который

на основе всех остатков, кроме остатка подозреваемого i-  го. Здесь следует подчеркнуть, что для подозреваемого i-го случая вычисляются с  исключением случая i- го.

Если оценка σ 2 включает i -й случай  , то она называется внутренне стьюдентизированным остатком, (также известным как стандартизированный остаток [1] ​​). Если вместо этого используется оценка , исключающая i -й случай  , то она называется внешне стьюдентизированным остатком , .

Распределение

Если ошибки независимы и распределены нормально с ожидаемым значением 0 и дисперсией σ 2 , то распределение вероятностей i - го внешне стьюдентизированного остатка является t-распределением Стьюдента с n  −  m  − 1 степенями свободы и может находиться в диапазоне от до .

С другой стороны, внутренне стьюдентизированные остатки находятся в диапазоне , где ν = n  −  m — число остаточных степеней свободы. Если t i представляет внутренне стьюдентизированный остаток, и снова предполагая, что ошибки являются независимыми одинаково распределенными гауссовыми переменными, то: [2]

где t — случайная величина, распределенная как распределение Стьюдента с ν  − 1 степенями свободы. Фактически, это означает, что t i 2 / ν следует бета-распределению B (1/2,( ν  − 1)/2). Распределение выше иногда называют распределением тау ; [2] оно было впервые получено Томпсоном в 1935 году. [3]

Когда ν = 3, внутренне стьюдентизированные остатки равномерно распределены между и . Если есть только одна остаточная степень свободы, приведенная выше формула для распределения внутренне стьюдентизированных остатков не применяется. В этом случае все t i равны либо +1, либо −1, с вероятностью 50% для каждого.

Стандартное отклонение распределения внутренне стьюдентизированных остатков всегда равно 1, но это не означает, что стандартное отклонение всех t i конкретного эксперимента равно 1. Например, внутренне стьюдентизированные остатки при подгонке прямой линии, проходящей через (0, 0) к точкам (1, 4), (2, −1), (2, −1), равны , а их стандартное отклонение не равно 1.

Обратите внимание, что любая пара стьюдентизированных остатков t i и t j (где ), НЕ является независимой. Они имеют одинаковое распределение, но не являются независимыми из-за ограничений на остатки, которые должны давать в сумме 0 и быть ортогональными матрице плана.

Реализации программного обеспечения

Многие программы и статистические пакеты, такие как R , Python и т. д., включают в себя реализации стьюдентизированного остатка.


Смотрите также

Ссылки

  1. ^ Диагностика регрессионного удаления R docs
  2. ^ ab Allen J. Pope (1976), "Статистика остатков и обнаружение выбросов", Министерство торговли США, Национальное управление океанических и атмосферных исследований, Национальная океаническая служба, Геодезическая научно-исследовательская лаборатория, 136 страниц, [1], уравнение (6)
  3. ^ Томпсон, Уильям Р. (1935). «О критерии отбраковки наблюдений и распределении отношения отклонения к выборочному стандартному отклонению». Анналы математической статистики . 6 (4): 214–219. doi : 10.1214/aoms/1177732567 .

Дальнейшее чтение