t-статистика

В статистике t - статистика представляет собой отношение отклонения оценочного значения параметра от его предполагаемого значения к его стандартной ошибке . Он используется при проверке гипотез с помощью t -критерия Стьюдента . T - статистика используется в t -тесте, чтобы определить, следует ли поддержать или отвергнуть нулевую гипотезу. Он очень похож на z-показатель , но с той разницей, что t -статистика используется, когда размер выборки небольшой или стандартное отклонение генеральной совокупности неизвестно. Например, t -статистика используется при оценке среднего значения генеральной совокупности на основе выборочного распределения выборочных средних , если стандартное отклонение генеральной совокупности неизвестно. Оно также используется вместе со значением p при проверке гипотез, где значение p сообщает нам, каковы шансы на то, что результаты будут получены.

Определение и особенности

Пусть – оценка параметра β в некоторой статистической модели . Тогда t -статистикой для этого параметра является любая величина вида ${\hat {\beta }}$

t_{\hat {\beta }}={\frac {{\hat {\beta }}-\beta _{0}}{\operatorname {se} ({\hat {\beta }})} },

где β ₀ — неслучайная известная константа, которая может совпадать или не совпадать с фактическим значением неизвестного параметра β и является стандартной ошибкой средства оценки β . $\operatorname {se} ({\hat {\beta }})$ ${\hat {\beta }}$

По умолчанию статистические пакеты сообщают t -статистику с β ₀ = 0 (эта t -статистика используется для проверки значимости соответствующего регрессора). Однако, когда t -статистика необходима для проверки гипотезы вида H ₀ : β = β ₀ , тогда можно использовать ненулевое β _{0 .}

Если – обычная оценка методом наименьших квадратов в классической модели линейной регрессии (т. е. с нормально распределенными и гомоскедастическими членами ошибок), и если истинное значение параметра β равно β ₀ , то выборочное распределение t - статистики — это t -распределение Стьюдента с ( n — k ) степенями свободы, где n — количество наблюдений, а k — количество регрессоров ( ^{включая}^{перехват}⁾ . ${\hat {\beta }}$

В большинстве моделей оценка β согласована и распределяется асимптотически нормально . Если истинное значение параметра β равно β ₀ и величина правильно оценивает асимптотическую дисперсию этой оценки, то t -статистика будет асимптотически иметь стандартное нормальное распределение. ${\hat {\beta }}$ $\operatorname {se} ({\hat {\beta }})$

В некоторых моделях распределение t -статистики отличается от нормального распределения даже асимптотически. Например, когда временной ряд с единичным корнем подвергается регрессии в расширенном тесте Дики-Фуллера , t -статистика теста будет асимптотически иметь одно из распределений Дики-Фуллера (в зависимости от настроек теста).

Использовать

Чаще всего t- статистика используется в t -тестах Стьюдента , форме проверки статистических гипотез , а также при вычислении определенных доверительных интервалов .

Ключевым свойством t- статистики является то, что она является ключевой величиной : хотя она и определяется в терминах выборочного среднего, ее выборочное распределение не зависит от параметров совокупности, и поэтому ее можно использовать независимо от того, какими они могут быть.

Остаток также можно разделить на стандартное отклонение выборки :

g(x,X)={\frac {x- {\overline {X}}}{s}}

Чтобы вычислить оценку количества стандартных отклонений, данная выборка берется из среднего значения, как выборочная версия z-показателя , z-показателя, требующего параметров совокупности.

Прогноз

Учитывая нормальное распределение с неизвестным средним значением и дисперсией, t -статистика будущего наблюдения после того, как было сделано n наблюдений, является вспомогательной статистикой – основной величиной (не зависит от значений μ и σ ² ), которая является статистикой (рассчитано по наблюдениям). Это позволяет вычислить частотный интервал прогнозирования ( доверительный интервал прогнозирования ) с помощью следующего t-распределения: $N(\mu,\sigma ^{2})$ $X_{n+1},$

{\frac {X_{n+1}-{\overline {X}}_{n}}{s_ {n}{\sqrt {1+n^{-1}}}}}\sim T ^{n-1}.

Решение для получения прогнозируемого распределения $X_{n+1}$

{\overline {X}}_{n}+s_ {n}{\sqrt {1+n^{-1}}}\cdot T^{n-1},

из которых можно вычислить доверительные интервалы прогнозирования - учитывая вероятность p , можно вычислить такие интервалы, что в 100 p % случаев следующее наблюдение попадет в этот интервал. $X_{n+1}$

История

Термин « t -статистика» является сокращением от «статистика проверки гипотез». ^[1]^{[ нужна цитация ]} В статистике t-распределение было впервые получено как апостериорное распределение в 1876 году Хелмертом ^[2]^[3]^[4] и Люротом . ^[5]^[6]^[7] t-распределение также появилось в более общей форме как распределение Пирсона типа IV в статье Карла Пирсона 1895 года. ^[8] Однако Т-распределение, также известное как Т-распределение Стьюдента, получило свое название от Уильяма Сили Госсета , который первым опубликовал результат на английском языке в своей статье 1908 года под названием «Вероятная ошибка среднего значения» (в « Биометрике ») с использованием его псевдоним «Студент» ^[9]^[10] , потому что его работодатель предпочитал, чтобы их сотрудники использовали псевдонимы при публикации научных статей вместо своего настоящего имени, поэтому он использовал имя «Студент», чтобы скрыть свою личность. ^[11] Госсет работал на пивоварне Guinness Brewery в Дублине , Ирландия , и интересовался проблемами небольших образцов – например, химическими свойствами ячменя, где размеры выборок могли составлять всего 3. Отсюда и вторая версия этимологии Термин «Студент» заключается в том, что компания Guinness не хотела, чтобы их конкуренты знали, что они используют t-тест для определения качества сырья. Хотя термин «Студент» был написан в честь Уильяма Госсета, на самом деле именно благодаря работе Рональда Фишера это распределение стало широко известно как «распределение Стьюдента» ^[12]^[13] и « Т-критерий Стьюдента » .

Связанные понятия

z -показатель (стандартизация) : если параметры совокупности известны, то вместо вычисления t-статистики можно вычислить z-показатель; аналогично, вместо использования t -теста используется z -тест . Это редкость за пределами стандартизированного тестирования .
Стьюдентизированный остаток : в регрессионном анализе стандартные ошибки оценок в разных точках данных различаются (сравните среднюю и конечную точки простой линейной регрессии ), и, таким образом, необходимо разделить разные остатки на разные оценки ошибки, давая то, что называется стьюденизированные остатки .