В статистике t - статистика — это отношение разницы в оценочном значении числа от его предполагаемого значения к его стандартной ошибке . Она используется при проверке гипотез с помощью t -критерия Стьюдента . t -статистика используется в t -критерии для определения того, следует ли поддерживать или отвергать нулевую гипотезу. Она очень похожа на z-оценку , но с той разницей, что t -статистика используется, когда размер выборки мал или стандартное отклонение генеральной совокупности неизвестно. Например, t -статистика используется при оценке среднего значения генеральной совокупности из выборочного распределения средних значений выборки, если стандартное отклонение генеральной совокупности неизвестно. Она также используется вместе с p-значением при запуске проверок гипотез, где p-значение говорит нам, каковы шансы того, что результаты будут получены.
Пусть будет оценщиком параметра β в некоторой статистической модели . Тогда t -статистикой для этого параметра является любая величина вида
где β 0 — неслучайная известная константа, которая может совпадать или не совпадать с фактическим неизвестным значением параметра β , а — стандартная ошибка оценки для β .
По умолчанию статистические пакеты выдают t -статистику с β 0 = 0 (эти t -статистики используются для проверки значимости соответствующего регрессора). Однако, когда t -статистика необходима для проверки гипотезы вида H 0 : β = β 0 , то можно использовать ненулевое β 0 .
Если — обычная оценка наименьших квадратов в классической линейной регрессионной модели (то есть с нормально распределенными и гомоскедастическими членами ошибки), и если истинное значение параметра β равно β 0 , то выборочное распределение t - статистики является t -распределением Стьюдента с ( n − k ) степенями свободы, где n — число наблюдений, а k — число регрессоров (включая свободный член) [ требуется ссылка ] .
В большинстве моделей оценка является состоятельной для β и распределена асимптотически нормально . Если истинное значение параметра β равно β 0 , и величина правильно оценивает асимптотическую дисперсию этой оценки, то t -статистика будет асимптотически иметь стандартное нормальное распределение.
В некоторых моделях распределение t -статистики отличается от нормального распределения, даже асимптотически. Например, когда временной ряд с единичным корнем регрессируется в расширенном тесте Дики–Фуллера , тестовая t -статистика будет асимптотически иметь одно из распределений Дики–Фуллера (в зависимости от настроек теста).
Чаще всего t- статистика используется в t -критериях Стьюдента , форме проверки статистических гипотез , а также при вычислении определенных доверительных интервалов .
Ключевым свойством t- статистики является то, что она является ключевой величиной : хотя она определяется в терминах выборочного среднего, ее выборочное распределение не зависит от параметров совокупности, и, таким образом, ее можно использовать независимо от того, какими они могут быть.
Остаток также можно разделить на стандартное отклонение выборки :
для вычисления оценки числа стандартных отклонений данной выборки от среднего значения в качестве выборочной версии z-оценки , z-оценка требует параметров популяции.
При нормальном распределении с неизвестным средним значением и дисперсией t -статистика будущего наблюдения после того, как сделано n наблюдений, является вспомогательной статистикой – основной величиной (не зависит от значений μ и σ 2 ), которая является статистикой (вычисляется из наблюдений). Это позволяет вычислить частотный интервал предсказания (прогностический доверительный интервал ) с помощью следующего t-распределения:
Решение дает прогнозируемое распределение
из которых можно вычислить предиктивные доверительные интервалы — при заданной вероятности p можно вычислить интервалы таким образом, что в 100 p % случаев следующее наблюдение попадет в этот интервал.
Термин « t -статистика» является сокращением от «hypothesis test statistic» (статистика проверки гипотез). [1] [ требуется ссылка ] В статистике t-распределение было впервые выведено как апостериорное распределение в 1876 году Гельмертом [2] [3] [4] и Люротом . [5] [6] [7] t-распределение также появилось в более общей форме как распределение Пирсона типа IV в статье Карла Пирсона 1895 года. [8] Однако T-распределение, также известное как T-распределение Стьюдента , получило свое название от Уильяма Сили Госсета , который первым опубликовал результат на английском языке в своей статье 1908 года под названием «Вероятная ошибка среднего» (в журнале Biometrika ), используя свой псевдоним «Студент» [9] [10], поскольку его работодатель предпочитал, чтобы его сотрудники использовали псевдонимы при публикации научных работ вместо своих настоящих имен, поэтому он использовал имя «Студент», чтобы скрыть свою личность. [11] Госсет работал на пивоваренном заводе Guinness в Дублине , Ирландия , и интересовался проблемами малых образцов — например, химическими свойствами ячменя, где размеры выборки могли составлять всего 3. Следовательно, вторая версия этимологии термина Student заключается в том, что Guinness не хотел, чтобы их конкуренты знали, что они использовали t-тест для определения качества сырья. Хотя термин «Стьюдент» был придуман в честь Уильяма Госсета, именно благодаря работам Рональда Фишера распределение стало широко известно как «распределение Стьюдента» [12] [13] и « t-критерий Стьюдента ».