t-статистика

В статистике t - статистика — это отношение разницы в оценочном значении числа от его предполагаемого значения к его стандартной ошибке . Она используется при проверке гипотез с помощью t -критерия Стьюдента . t -статистика используется в t -критерии для определения того, следует ли поддерживать или отвергать нулевую гипотезу. Она очень похожа на z-оценку , но с той разницей, что t -статистика используется, когда размер выборки мал или стандартное отклонение генеральной совокупности неизвестно. Например, t -статистика используется при оценке среднего значения генеральной совокупности из выборочного распределения средних значений выборки, если стандартное отклонение генеральной совокупности неизвестно. Она также используется вместе с p-значением при запуске проверок гипотез, где p-значение говорит нам, каковы шансы того, что результаты будут получены.

Определение и характеристики

Пусть будет оценщиком параметра β в некоторой статистической модели . Тогда t -статистикой для этого параметра является любая величина вида ${\hat {\beta }}$

t_{\hat {\beta }}={\frac {{\hat {\beta }}-\beta _{0}}{\operatorname {se} ({\hat {\beta }})}},

где β ₀ — неслучайная известная константа, которая может совпадать или не совпадать с фактическим неизвестным значением параметра β , а — стандартная ошибка оценки для β . $\operatorname {se} ({\hat {\beta }})$ ${\hat {\beta }}$

По умолчанию статистические пакеты выдают t -статистику с β ₀ = 0 (эти t -статистики используются для проверки значимости соответствующего регрессора). Однако, когда t -статистика необходима для проверки гипотезы вида H ₀ : β = β ₀ , то можно использовать ненулевое β _{0 .}

Если — обычная оценка наименьших квадратов в классической линейной регрессионной модели (то есть с нормально распределенными и гомоскедастическими членами ошибки), и если истинное значение параметра β равно β ₀ , то выборочное распределение t - статистики является t -распределением Стьюдента с ( n − k ) степенями свободы, где n — число наблюдений, а k — число регрессоров (включая свободный член) ^[^{требуется ссылка}^] . ${\hat {\beta }}$

В большинстве моделей оценка является состоятельной для β и распределена асимптотически нормально . Если истинное значение параметра β равно β ₀ , и величина правильно оценивает асимптотическую дисперсию этой оценки, то t -статистика будет асимптотически иметь стандартное нормальное распределение. ${\hat {\beta }}$ $\operatorname {se} ({\hat {\beta }})$

В некоторых моделях распределение t -статистики отличается от нормального распределения, даже асимптотически. Например, когда временной ряд с единичным корнем регрессируется в расширенном тесте Дики–Фуллера , тестовая t -статистика будет асимптотически иметь одно из распределений Дики–Фуллера (в зависимости от настроек теста).

Использовать

Чаще всего t- статистика используется в t -критериях Стьюдента , форме проверки статистических гипотез , а также при вычислении определенных доверительных интервалов .

Ключевым свойством t- статистики является то, что она является ключевой величиной : хотя она определяется в терминах выборочного среднего, ее выборочное распределение не зависит от параметров совокупности, и, таким образом, ее можно использовать независимо от того, какими они могут быть.

Остаток также можно разделить на стандартное отклонение выборки :

g(x,X)={\frac {x-{\overline {X}}}{s}}

для вычисления оценки числа стандартных отклонений данной выборки от среднего значения в качестве выборочной версии z-оценки , z-оценка требует параметров популяции.

Прогноз

При нормальном распределении с неизвестным средним значением и дисперсией t -статистика будущего наблюдения после того, как сделано n наблюдений, является вспомогательной статистикой – основной величиной (не зависит от значений μ и σ ² ), которая является статистикой (вычисляется из наблюдений). Это позволяет вычислить частотный интервал предсказания (прогностический доверительный интервал ) с помощью следующего t-распределения: $N(\mu,\sigma ^{2})$ $X_{n+1},$

{\frac {X_{n+1}-{\overline {X}}_{n}}{s_{n}{\sqrt {1+n^{-1}}}}}\sim T^{n-1}.

Решение дает прогнозируемое распределение $X_{n+1}$

{\overline {X}}_{n}+s_{n}{\sqrt {1+n^{-1}}}\cdot T^{n-1},

из которых можно вычислить предиктивные доверительные интервалы — при заданной вероятности p можно вычислить интервалы таким образом, что в 100 p % случаев следующее наблюдение попадет в этот интервал. $X_{n+1}$

История

Термин « t -статистика» является сокращением от «hypothesis test statistic» (статистика проверки гипотез). ^[1]^{[ требуется ссылка ]} В статистике t-распределение было впервые выведено как апостериорное распределение в 1876 году Гельмертом ^[2]^[3]^[4] и Люротом . ^[5]^[6]^[7] t-распределение также появилось в более общей форме как распределение Пирсона типа IV в статье Карла Пирсона 1895 года. ^[8] Однако T-распределение, также известное как T-распределение Стьюдента , получило свое название от Уильяма Сили Госсета , который первым опубликовал результат на английском языке в своей статье 1908 года под названием «Вероятная ошибка среднего» (в журнале Biometrika ), используя свой псевдоним «Студент» ^[9]^[10], поскольку его работодатель предпочитал, чтобы его сотрудники использовали псевдонимы при публикации научных работ вместо своих настоящих имен, поэтому он использовал имя «Студент», чтобы скрыть свою личность. ^[11] Госсет работал на пивоваренном заводе Guinness в Дублине , Ирландия , и интересовался проблемами малых образцов — например, химическими свойствами ячменя, где размеры выборки могли составлять всего 3. Следовательно, вторая версия этимологии термина Student заключается в том, что Guinness не хотел, чтобы их конкуренты знали, что они использовали t-тест для определения качества сырья. Хотя термин «Стьюдент» был придуман в честь Уильяма Госсета, именно благодаря работам Рональда Фишера распределение стало широко известно как «распределение Стьюдента» ^[12]^[13] и « t-критерий Стьюдента ».

Связанные концепции

z -оценка (стандартизация) : Если параметры популяции известны, то вместо вычисления t-статистики можно вычислить z-оценку; аналогично, вместо использования t -теста используется z -тест . Это редко встречается за пределами стандартизированного тестирования .
Стьюдентизированные остатки : в регрессионном анализе стандартные ошибки оценок в разных точках данных различаются (сравните средние и конечные точки простой линейной регрессии ), и поэтому необходимо разделить разные остатки на разные оценки ошибки, что дает так называемые стьюдентизированные остатки .

Смотрите также

Ссылки

^ Микробиом в здоровье и болезни. Academic Press. 29 мая 2020 г. стр. 397. ISBN 978-0-12-820001-8.
^ Сабо, Иштван (2003), «Systeme aus einer endlichen Anzahl starrer Körper», Einführung in die Technische Mechanik , Springer Berlin Heidelberg, стр. 196–199, doi : 10.1007/978-3-642-61925-0_16, ISBN 978-3-540-13293-6
^ Шливич, Б. (октябрь 1937 г.). «Untersuchungen über den anastomotischen Kanal zwischen der Arteria coeliaca und mesenterica Superior und Damit in Zusammenhang stehende Fragen». Zeitschrift für Anatomie und Entwicklungsgeschichte . 107 (6): 709–737. дои : 10.1007/bf02118337. ISSN 0340-2061. S2CID 27311567.
^ Гельмерт (1876). «Die Genauigkeit der Formel von Peters zur Berechnung des wahrscheinlichen Beobachtungsfehlers режиссер Beobachtungen gleicher Genauigkeit». Astronomische Nachrichten (на немецком языке). 88 (8–9): 113–131. Бибкод : 1876AN.....88..113H. дои : 10.1002/asna.18760880802.
^ Люрот, Дж. (1876). «Vergleichung von zwei Werthen des wahrscheinlichen Fehlers». Astronomische Nachrichten (на немецком языке). 87 (14): 209–220. Бибкод : 1876AN.....87..209L. дои : 10.1002/asna.18760871402.
^ Пфанцагль, Дж. (1996). «Исследования по истории вероятности и статистики XLIV. Предшественник t-распределения». Biometrika . 83 (4): 891–898. doi :10.1093/biomet/83.4.891. MR 1766040.
^ Шейнин, Оскар (1995). «Работы Гельмерта по теории ошибок». Архив журнала History of Exact Sciences . 49 (1): 73–104. doi :10.1007/BF00374700. ISSN 0003-9519. S2CID 121241599.
^ Пирсон, Карл (1895). "X. Вклад в математическую теорию эволюции.—II. Косая вариация в однородном материале". Philosophical Transactions of the Royal Society of London A . 186 : 343–414. Bibcode :1895RSPTA.186..343P. doi : 10.1098/rsta.1895.0010 . ISSN 1364-503X.
^ "Студент" ( Уильям Сили Госсет ) (1908). "Вероятная ошибка среднего". Biometrika . 6 (1): 1–25. doi :10.1093/biomet/6.1.1. hdl :10338.dmlcz/143545. JSTOR 2331554.
^ "Таблица T | История таблицы T, этимология, односторонняя таблица T, двухсторонняя таблица T и статистика T".
^ Вендл, MC (2016). «Псевдонимная слава». Science . 351 (6280): 1406. doi :10.1126/science.351.6280.1406. PMID 27013722.
^ Tuttle, Md; Anazonwu, Bs, Walter; Rubin, Md, Lee (2014). «Анализ подгрупп топической транексамовой кислоты при тотальной артропластике коленного сустава». Reconstructive Review . 4 (2): 37–41. doi : 10.15438/rr.v4i2.72 .
^ Уолпол, Рональд Э. (2006). Вероятность и статистика для инженеров и ученых . Майерс, Х. Рэймонд. (7-е изд.). Нью-Дели: Pearson. ISBN 81-7758-404-9. OCLC 818811849.