В статистике t - статистика представляет собой отношение отклонения оценочного значения параметра от его предполагаемого значения к его стандартной ошибке . Он используется при проверке гипотез с помощью t -критерия Стьюдента . T - статистика используется в t -тесте, чтобы определить, следует ли поддержать или отвергнуть нулевую гипотезу. Он очень похож на z-показатель , но с той разницей, что t -статистика используется, когда размер выборки небольшой или стандартное отклонение генеральной совокупности неизвестно. Например, t -статистика используется при оценке среднего значения генеральной совокупности на основе выборочного распределения выборочных средних , если стандартное отклонение генеральной совокупности неизвестно. Оно также используется вместе со значением p при проверке гипотез, где значение p сообщает нам, каковы шансы на то, что результаты будут получены.
Пусть – оценка параметра β в некоторой статистической модели . Тогда t -статистикой для этого параметра является любая величина вида
где β 0 — неслучайная известная константа, которая может совпадать или не совпадать с фактическим значением неизвестного параметра β и является стандартной ошибкой средства оценки β .
По умолчанию статистические пакеты сообщают t -статистику с β 0 = 0 (эта t -статистика используется для проверки значимости соответствующего регрессора). Однако, когда t -статистика необходима для проверки гипотезы вида H 0 : β = β 0 , тогда можно использовать ненулевое β 0 .
Если – обычная оценка методом наименьших квадратов в классической модели линейной регрессии (т. е. с нормально распределенными и гомоскедастическими членами ошибок), и если истинное значение параметра β равно β 0 , то выборочное распределение t - статистики — это t -распределение Стьюдента с ( n — k ) степенями свободы, где n — количество наблюдений, а k — количество регрессоров ( включая перехват ) .
В большинстве моделей оценка β согласована и распределяется асимптотически нормально . Если истинное значение параметра β равно β 0 и величина правильно оценивает асимптотическую дисперсию этой оценки, то t -статистика будет асимптотически иметь стандартное нормальное распределение.
В некоторых моделях распределение t -статистики отличается от нормального распределения даже асимптотически. Например, когда временной ряд с единичным корнем подвергается регрессии в расширенном тесте Дики-Фуллера , t -статистика теста будет асимптотически иметь одно из распределений Дики-Фуллера (в зависимости от настроек теста).
Чаще всего t- статистика используется в t -тестах Стьюдента , форме проверки статистических гипотез , а также при вычислении определенных доверительных интервалов .
Ключевым свойством t- статистики является то, что она является ключевой величиной : хотя она и определяется в терминах выборочного среднего, ее выборочное распределение не зависит от параметров совокупности, и поэтому ее можно использовать независимо от того, какими они могут быть.
Остаток также можно разделить на стандартное отклонение выборки :
Чтобы вычислить оценку количества стандартных отклонений, данная выборка берется из среднего значения, как выборочная версия z-показателя , z-показателя, требующего параметров совокупности.
Учитывая нормальное распределение с неизвестным средним значением и дисперсией, t -статистика будущего наблюдения после того, как было сделано n наблюдений, является вспомогательной статистикой – основной величиной (не зависит от значений μ и σ 2 ), которая является статистикой (рассчитано по наблюдениям). Это позволяет вычислить частотный интервал прогнозирования ( доверительный интервал прогнозирования ) с помощью следующего t-распределения:
Решение для получения прогнозируемого распределения
из которых можно вычислить доверительные интервалы прогнозирования - учитывая вероятность p , можно вычислить такие интервалы, что в 100 p % случаев следующее наблюдение попадет в этот интервал.
Термин « t -статистика» является сокращением от «статистика проверки гипотез». [1] [ нужна цитация ] В статистике t-распределение было впервые получено как апостериорное распределение в 1876 году Хелмертом [2] [3] [4] и Люротом . [5] [6] [7] t-распределение также появилось в более общей форме как распределение Пирсона типа IV в статье Карла Пирсона 1895 года. [8] Однако Т-распределение, также известное как Т-распределение Стьюдента, получило свое название от Уильяма Сили Госсета , который первым опубликовал результат на английском языке в своей статье 1908 года под названием «Вероятная ошибка среднего значения» (в « Биометрике ») с использованием его псевдоним «Студент» [9] [10] , потому что его работодатель предпочитал, чтобы их сотрудники использовали псевдонимы при публикации научных статей вместо своего настоящего имени, поэтому он использовал имя «Студент», чтобы скрыть свою личность. [11] Госсет работал на пивоварне Guinness Brewery в Дублине , Ирландия , и интересовался проблемами небольших образцов – например, химическими свойствами ячменя, где размеры выборок могли составлять всего 3. Отсюда и вторая версия этимологии Термин «Студент» заключается в том, что компания Guinness не хотела, чтобы их конкуренты знали, что они используют t-тест для определения качества сырья. Хотя термин «Студент» был написан в честь Уильяма Госсета, на самом деле именно благодаря работе Рональда Фишера это распределение стало широко известно как «распределение Стьюдента» [12] [13] и « Т-критерий Стьюдента » .