t-критерий Стьюдента

T -тест Стьюдента — это статистический тест, используемый для проверки того, является ли разница между ответами двух групп статистически значимой или нет. Это любой статистический тест гипотезы , в котором статистика теста следует распределению Стьюдента при нулевой гипотезе . Чаще всего он применяется, когда статистика теста следовала бы нормальному распределению , если бы значение масштабирующего члена в статистике теста было известно (обычно масштабирующий член неизвестен и, следовательно, является нежелательным параметром ). Когда масштабирующий член оценивается на основе данных , статистика теста — при определенных условиях — следует распределению Стьюдента . Наиболее распространенное применение t -теста — это проверка того, являются ли средние значения двух популяций существенно разными. Во многих случаях Z-тест даст очень похожие результаты на t -тест, поскольку последний сходится к первому по мере увеличения размера набора данных.

История

Термин « t -статистика» является сокращением от «hypothesis test statistic» (статистика проверки гипотез). ^[1] В статистике t -распределение было впервые выведено как апостериорное распределение в 1876 году Гельмертом ^[2]^[3]^[4] и Люротом . ^[5]^[6]^[7] t -распределение также появилось в более общей форме как распределение Пирсона типа IV в статье Карла Пирсона 1895 года. ^[8] Однако t - распределение, также известное как t -распределение Стьюдента , получило свое название от Уильяма Сили Госсета , который впервые опубликовал его на английском языке в 1908 году в научном журнале Biometrika, используя псевдоним «Студент» ^[9]^[10], поскольку его работодатель предпочитал, чтобы сотрудники использовали псевдонимы при публикации научных статей. ^[11] Госсет работал на пивоварне Guinness Brewery в Дублине , Ирландия , и интересовался проблемами малых образцов — например, химическими свойствами ячменя с малыми размерами образцов. Отсюда вторая версия этимологии термина Student заключается в том, что Guinness не хотел, чтобы их конкуренты знали, что они использовали t -тест для определения качества сырья. Хотя именно Уильям Госсет был автором термина «Student», на самом деле именно благодаря работе Рональда Фишера распределение стало широко известно как «распределение Стьюдента» ^{[12] и «}t -тест Стьюдента ».

Госсет разработал t -тест как экономичный способ контроля качества стаута . Работа по t -тесту была представлена и принята в журнале Biometrika и опубликована в 1908 году. ^[9]

В журнале Guinness существовала политика предоставления техническому персоналу отпуска для учебы (так называемый «учебный отпуск»), который Госсет использовал в течение первых двух семестров 1906–1907 учебного года в биометрической лаборатории профессора Карла Пирсона в Университетском колледже Лондона . ^[13] Личность Госсета тогда была известна коллегам-статистикам и главному редактору Карлу Пирсону. ^[14]

Использует

Один образецт-тест

Одновыборочный t -тест Стьюдента — это локационный тест того, имеет ли среднее значение совокупности значение, указанное в нулевой гипотезе . При проверке нулевой гипотезы о том, что среднее значение совокупности равно указанному значению $μ 0$ , используется статистика

t={\frac {{\bar {x}}-\mu _{0}}{с/{\sqrt {n}}}},

где — выборочное среднее, $s$ — стандартное отклонение выборки , а $n$ — размер выборки. В этом тесте используются следующие степени свободы : $n$ $- 1.$ Хотя родительская популяция не обязательно должна быть распределена нормально, распределение выборочных средних в популяции предполагается нормальным. ${\bar {x}}$ ${\bar {x}}$

По центральной предельной теореме , если наблюдения независимы и существует второй момент, то будет приблизительно нормальным . $т$ ${\textstyle {\mathcal {N}}(0,1)}$

Двухвыборочныйт-тесты

Двухвыборочный локационный тест нулевой гипотезы, такой, что средние значения двух совокупностей равны. Все такие тесты обычно называются t -тестами Стьюдента , хотя, строго говоря , это название следует использовать только в том случае, если дисперсии двух совокупностей также предполагаются равными; форма теста, используемая при отказе от этого предположения, иногда называется t -тестом Уэлча . Эти тесты часто называют t -тестами непарных или независимых выборок , поскольку они обычно применяются, когда статистические единицы, лежащие в основе двух сравниваемых выборок, не перекрываются. ^[15]

Двухвыборочные t -тесты для разницы в средних значениях включают независимые выборки (непарные выборки) или парные выборки . Парные t -тесты являются формой блокирования и имеют большую мощность (вероятность избежания ошибки типа II, также известной как ложноотрицательный результат), чем непарные тесты, когда парные единицы схожи в отношении «шумовых факторов» (см. конфаундер ), которые не зависят от членства в двух сравниваемых группах. ^[16] В другом контексте парные t -тесты могут использоваться для уменьшения влияния конфаундирующих факторов в наблюдательном исследовании .

Независимые (непарные) выборки

Независимый выборочный t -тест используется, когда получены два отдельных набора независимых и одинаково распределенных выборок, и сравнивается одна переменная из каждой из двух популяций. Например, предположим, что мы оцениваем эффект медицинского лечения и регистрируем 100 субъектов в нашем исследовании, затем случайным образом назначаем 50 субъектов в группу лечения и 50 субъектов в контрольную группу. В этом случае у нас есть две независимые выборки, и мы будем использовать непарную форму t - теста.

Парные образцы

Парные выборки t -тестов обычно состоят из выборки подобранных пар схожих единиц или одной группы единиц, которая была протестирована дважды ( t -тест «повторных измерений»).

Типичным примером t -теста с повторными измерениями может быть случай, когда субъекты тестируются до лечения, скажем, на высокое кровяное давление, и те же субъекты снова тестируются после лечения лекарством, снижающим кровяное давление. Сравнивая показатели одного и того же пациента до и после лечения, мы фактически используем каждого пациента в качестве его собственного контроля. Таким образом, правильное отклонение нулевой гипотезы (здесь: об отсутствии разницы, вызванной лечением) может стать гораздо более вероятным, при этом статистическая мощность увеличивается просто потому, что случайная вариация между пациентами теперь устранена. Однако увеличение статистической мощности имеет свою цену: требуется больше тестов, каждый субъект должен быть протестирован дважды. Поскольку половина выборки теперь зависит от другой половины, парная версия t -теста Стьюдента имеет только $.mw-parser-output .sfrac{white-space:nowrap}.mw-parser-output .sfrac.tion,.mw-parser-output .sfrac .tion{display:inline-block;vertical-align:-0.5em;font-size:85%;text-align:center}.mw-parser-output .sfrac .num{display:block;line-height:1em;margin:0.0em 0.1em;border-bottom:1px solid}.mw-parser-output .sfrac .den{display:block;line-height:1em;margin:0.1em 0.1em}.mw-parser-output .sr-only{border:0;clip:rect(0,0,0,0);clip-path:polygon(0px 0px,0px 0px,0px 0px);height:1px;margin:-1px;overflow:hidden;padding:0;position:absolute;width:1px}⁠н/2⁠ − 1$ степень свободы (где $n$ — общее число наблюдений). Пары становятся отдельными тестовыми единицами, и выборку приходится удваивать, чтобы достичь того же числа степеней свободы. Обычно имеется $n - 1$ степень свободы (где $n$ — общее число наблюдений).^[17]

Парный выборочный t -тест, основанный на «выборке сопоставляемых пар», получается из непарной выборки, которая впоследствии используется для формирования парной выборки с использованием дополнительных переменных, которые измерялись вместе с интересующей переменной. ^[18] Сопоставление осуществляется путем идентификации пар значений, состоящих из одного наблюдения из каждой из двух выборок, где пара похожа с точки зрения других измеряемых переменных. Этот подход иногда используется в наблюдательных исследованиях для уменьшения или устранения эффектов мешающих факторов.

T -тесты для парных выборок часто называют « t -тестами для зависимых выборок».

Предположения

^{[ сомнительный – обсудить ]}

Большинство тестовых статистик имеют вид $t = Z / s$ , где $Z$ и $s$ являются функциями данных.

$Z$ может быть чувствителен к альтернативной гипотезе (т.е. его величина имеет тенденцию быть больше, когда альтернативная гипотеза верна), тогда как $s$ является параметром масштабирования , который позволяет определить распределение $t .$

Например, в одновыборочном t -тесте

t={\frac {Z}{s}}={\frac {{\bar {X}}-\mu }{{\hat {\sigma }}/{\sqrt {n}}}},

где — выборочное среднее значение из выборки $X$ $1$ $,$ $X$ $2$ $, \dots,$ $X$ $n$ , размером $n$ , $s$ — стандартная ошибка среднего значения , — оценка стандартного отклонения генеральной совокупности, а $μ$ — среднее значение генеральной совокупности . ${\bar {X}}$ ${\hat {\sigma }}={\sqrt {{\frac {1}{n-1}}\sum _{i}(X_{i}-{\bar {X}})^{2}}}$

Предположения, лежащие в основе t -теста в простейшей форме, приведенной выше, следующие:

$X$ следует нормальному распределению со средним значением $μ$ и дисперсией $σ 2 / n$ .
$s 2 (n - 1)/ σ 2$ следует распределению χ 2 с $n - 1$ степенями свободы . Это предположение выполняется, когда наблюдения, используемые для оценки $s 2,$ исходят из нормального распределения (и iid для каждой группы).
$Z$ и $s$ независимы.

При сравнении средних значений двух независимых выборок с помощью t -теста должны выполняться следующие предположения:

Средние значения двух сравниваемых совокупностей должны следовать нормальному распределению . При слабых предположениях это следует в больших выборках из центральной предельной теоремы , даже когда распределение наблюдений в каждой группе не является нормальным. ^[19]
Если использовать оригинальное определение t -критерия Стьюдента , то две сравниваемые популяции должны иметь одинаковую дисперсию (проверяемую с помощью F -критерия , теста Левена , теста Бартлетта или теста Брауна-Форсайта ; или оцениваемую графически с помощью графика Q–Q ). Если размеры выборок в двух сравниваемых группах равны, оригинальный t -критерий Стьюдента весьма устойчив к наличию неравных дисперсий. ^[20] t -критерий Уэлча нечувствителен к равенству дисперсий независимо от того, схожи ли размеры выборок.
Данные, используемые для проведения теста, должны быть либо отобраны независимо из двух сравниваемых совокупностей, либо быть полностью парными. Это, как правило, невозможно проверить по данным, но если известно, что данные являются зависимыми (например, парными по дизайну теста), необходимо применить зависимый тест. Для частично парных данных классические независимые t -тесты могут давать недействительные результаты, поскольку статистика теста может не следовать распределению t , в то время как зависимый t -тест не является оптимальным, поскольку он отбрасывает непарные данные. ^[21]

Большинство двухвыборочных t -тестов устойчивы ко всем отклонениям от предположений, кроме больших. ^[22]

Для точности t - тест и Z -тест требуют нормальности выборочных средних значений, а t -тест дополнительно требует, чтобы выборочная дисперсия следовала масштабированному распределению χ2 , и чтобы выборочное среднее и выборочная дисперсия были статистически независимы . Нормальность отдельных значений данных не ^{требуется} , если эти условия выполняются. Согласно центральной предельной теореме , выборочные средние значения умеренно больших выборок часто хорошо аппроксимируются нормальным распределением, даже если данные не распределены нормально. Однако размер выборки, необходимый для сходимости выборочных средних значений к нормальности, зависит от асимметрии распределения исходных данных. Выборка может варьироваться от 30 до 100 или более значений в зависимости от асимметрии. ^[23]^[24] F

Для ненормальных данных распределение выборочной дисперсии может существенно отклоняться от ^{распределения} χ2 .

Однако, если размер выборки большой, теорема Слуцкого подразумевает, что распределение дисперсии выборки мало влияет на распределение тестовой статистики. То есть, по мере увеличения размера выборки: $n$

{\sqrt {n}}({\bar {X}}-\mu )\xrightarrow {d} N(0,\sigma ^{2})

согласно Центральной предельной теореме ,

s^{2}\xrightarrow {p} \sigma ^{2}

согласно закону больших чисел ,

\therefore {\frac {{\sqrt {n}}({\bar {X}}-\mu )}{s}}\xrightarrow {d} N(0,1)

Расчеты

Ниже приведены явные выражения, которые можно использовать для проведения различных t -тестов. В каждом случае дана формула для тестовой статистики, которая либо точно следует, либо близко приближается к t -распределению при нулевой гипотезе. Также в каждом случае даны соответствующие степени свободы . Каждая из этих статистик может использоваться для проведения одностороннего или двустороннего теста .

После определения значения t и степеней свободы можно найти значение p с помощью таблицы значений из распределения Стьюдента t . Если рассчитанное значение p ниже порога, выбранного для статистической значимости (обычно это уровень 0,10, 0,05 или 0,01), то нулевая гипотеза отклоняется в пользу альтернативной гипотезы.

Наклон линии регрессии

Предположим, что кто-то подгоняет модель

Y=\альфа +\бета x+\varepsilon ,

где $x$ известен, $α$ и $β$ неизвестны, $ε$ — нормально распределенная случайная величина со средним значением 0 и неизвестной дисперсией $σ 2$ , а $Y$ — интересующий нас результат. Мы хотим проверить нулевую гипотезу о том, что наклон $β$ равен некоторому указанному значению $β 0$ (часто принимаемому за 0, в этом случае нулевая гипотеза заключается в том, что $x$ и $y$ некоррелированы).

Позволять

{\begin{aligned}{\hat {\alpha }},{\hat {\beta }}&={\text{оценки наименьших квадратов}},\\SE_{\hat {\alpha }},SE_{\hat {\beta }}&={\text{стандартные ошибки оценок наименьших квадратов}}.\end{aligned}}

Затем

t_{\text{score}}={\frac {{\hat {\beta }}-\beta _{0}}{SE_{\hat {\beta }}}}\sim {\mathcal {T}}_{n-2}

имеет t -распределение с $n - 2$ степенями свободы, если нулевая гипотеза верна. Стандартная ошибка коэффициента наклона :

SE_{\hat {\beta }}={\frac {\sqrt {\displaystyle {\frac {1}{n-2}}\sum _{i=1}^{n}(y_{i}-{\hat {y}}_{i})^{2}}}{\sqrt {\displaystyle \sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}}

можно записать в терминах остатков. Пусть

{\begin{aligned}{\hat {\varepsilon }}_{i}&=y_{i}-{\hat {y}}_{i}=y_{i}-({\hat {\alpha }}+{\hat {\beta }}x_{i})={\text{residuals}}={\text{estimated errors}},\\{\text{SSR}}&=\sum _{i=1}^{n}{{\hat {\varepsilon }}_{i}}^{2}={\text{sum of squares of residuals}}.\end{aligned}}

Тогда _оценка $t$ определяется как

t_{\text{score}}={\frac {({\hat {\beta }}-\beta _{0}){\sqrt {n-2}}}{\sqrt {\frac {SSR}{\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}}}.

Другой способ определения $t$ _{- критерия} —

t_{\text{score}}={\frac {r{\sqrt {n-2}}}{\sqrt {1-r^{2}}}},

где r — коэффициент корреляции Пирсона .

Значение $t-$ _{критерия, отсекаемое осью,} можно определить из значения $t-$ _{критерия, наклона} :

t_{\text{score,intercept}}={\frac {\alpha }{\beta }}{\frac {t_{\text{score,slope}}}{\sqrt {s_{\text{x}}^{2}+{\bar {x}}^{2}}}},

где $s x 2$ — выборочная дисперсия.

Независимый двухвыборочныйт-тест

Одинаковые размеры выборки и дисперсия

Учитывая две группы (1, 2), этот тест применим только в следующих случаях:

два размера выборки равны,
можно предположить, что оба распределения имеют одинаковую дисперсию.

Нарушения этих предположений обсуждаются ниже.

Статистику $t$ для проверки различия средних значений можно рассчитать следующим образом:

t={\frac {{\bar {X}}_{1}-{\bar {X}}_{2}}{s_{p}{\sqrt {\frac {2}{n}}}}},

где

s_{p}={\sqrt {\frac {s_{X_{1}}^{2}+s_{X_{2}}^{2}}{2}}}.

Здесь $s p$ — это объединенное стандартное отклонение для $n = n 1 = n 2$ , а $s 2 х 1$ и $с 2 х 2$ являются несмещенными оценками дисперсии популяции. Знаменатель $t$ является стандартной ошибкой разности между двумя средними.

Для проверки значимости степени свободы для этого теста составляют $2 n - 2$ , где $n$ — размер выборки.

Равные или неравные размеры выборки, схожие дисперсии (⁠1/2⁠<⁠с _{X ₁}/с _{X ₂}⁠< 2)

Этот тест используется только тогда, когда можно предположить, что два распределения имеют одинаковую дисперсию (когда это предположение нарушается, см. ниже). Предыдущие формулы являются частным случаем формул ниже, их можно восстановить, когда обе выборки равны по размеру: $n = n 1 = n 2$ .

Статистику $t$ для проверки различия средних значений можно рассчитать следующим образом:

t={\frac {{\bar {X}}_{1}-{\bar {X}}_{2}}{s_{p}\cdot {\sqrt {{\frac {1}{n_{1}}}+{\frac {1}{n_{2}}}}}}},

где

s_{p}={\sqrt {\frac {(n_{1}-1)s_{X_{1}}^{2}+(n_{2}-1)s_{X_{2}}^{2}}{n_{1}+n_{2}-2}}}

— это объединенное стандартное отклонение двух выборок: оно определяется таким образом, что его квадрат является несмещенной оценкой общей дисперсии, независимо от того, одинаковы ли средние значения совокупности. В этих формулах $n i - 1$ — это число степеней свободы для каждой группы, а общий размер выборки минус два (то есть $n 1 + n 2 - 2$ ) — это общее число степеней свободы, которое используется при проверке значимости.

Равные или неравные размеры выборки, неравные дисперсии (с_{х ₁}> 2с_{х ₂}илис_{х ₂}> 2с_{х ₁})

Этот тест, также известный как t -тест Уэлча , используется только тогда, когда две дисперсии совокупности не считаются равными (два размера выборки могут быть равными или нет) и, следовательно, должны оцениваться отдельно. Статистика $t$ для проверки того, различаются ли средние значения совокупности, рассчитывается как

t={\frac {{\bar {X}}_{1}-{\bar {X}}_{2}}{s_{\bar {\Delta }}}},

где

s_{\bar {\Delta }}={\sqrt {{\frac {s_{1}^{2}}{n_{1}}}+{\frac {s_{2}^{2}}{n_{2}}}}}.

Здесь $s i 2$ — несмещенная оценка дисперсии каждой из двух выборок с $n$ $i$ = числом участников в группе $i$ ( $i$ = 1 или 2). В этом случае — это не объединенная дисперсия. Для использования в тестировании значимости распределение тестовой статистики аппроксимируется как обычное t -распределение Стьюдента со степенями свободы, рассчитанными с использованием $(s_{\bar {\Delta }})^{2}$

{\text{d.f.}}={\frac {\left({\frac {s_{1}^{2}}{n_{1}}}+{\frac {s_{2}^{2}}{n_{2}}}\right)^{2}}{{\frac {(s_{1}^{2}/n_{1})^{2}}{n_{1}-1}}+{\frac {(s_{2}^{2}/n_{2})^{2}}{n_{2}-1}}}}.

Это известно как уравнение Уэлча–Саттертуэйта . Истинное распределение тестовой статистики на самом деле зависит (немного) от двух неизвестных дисперсий популяции (см. задачу Беренса–Фишера ).

Точный метод для неравных дисперсий и размеров выборки

Тест ^[25] имеет дело со знаменитой проблемой Беренса–Фишера , то есть сравнением разницы между средними значениями двух нормально распределенных совокупностей, когда дисперсии двух совокупностей не предполагаются равными, на основе двух независимых выборок.

Тест разработан как точный тест , который допускает неравные размеры выборки и неравные дисперсии двух совокупностей. Точное свойство сохраняется даже при малых, чрезвычайно малых и несбалансированных размерах выборки (например, ). $n_{1}=5,n_{2}=50$

Статистику для проверки различия средних значений можно рассчитать следующим образом:

Пусть и будут независимыми векторами выборки ( ) из и по отдельности. $X=[X_{1},X_{2},\ldots ,X_{m}]^{T}$ $Y=[Y_{1},Y_{2},\ldots ,Y_{n}]^{T}$ $m\geq n$ $N(\mu _{1},\sigma _{1}^{2})$ $N(\mu _{2},\sigma _{2}^{2})$

Пусть — ортогональная матрица, все элементы первой строки которой равны , аналогично, пусть — первые n строк ортогональной матрицы (все элементы первой строки которой равны ). $(P^{T})_{n\times n}$ $n\times n$ $1/{\sqrt {n}}$ $(Q^{T})_{n\times m}$ $m\times m$ $1/{\sqrt {m}}$

Тогда — n-мерный нормальный случайный вектор. $Z:=(Q^{T})_{n\times m}X/{\sqrt {m}}-(P^{T})_{n\times n}Y/{\sqrt {n}}$

Z\sim N((\mu _{1}-\mu _{2},0,...,0)^{T},(\sigma _{1}^{2}/m+\sigma _{2}^{2}/n)I_{n}).

Из вышеприведенного распределения мы видим, что

Z_{1}={\bar {X}}-{\bar {Y}}={\frac {1}{m}}\sum _{i=1}^{m}X_{i}-{\frac {1}{n}}\sum _{j=1}^{n}Y_{j},

Z_{1}-(\mu _{1}-\mu _{2})\sim N(0,\sigma _{1}^{2}/m+\sigma _{2}^{2}/n),

{\frac {\sum _{i=2}^{n}Z_{i}^{2}}{n-1}}\sim {\frac {\chi _{n-1}^{2}}{n-1}}\times \left({\frac {\sigma _{1}^{2}}{m}}+{\frac {\sigma _{2}^{2}}{n}}\right)

Z_{1}-(\mu _{1}-\mu _{2})\perp \sum _{i=2}^{n}Z_{i}^{2}.

T_{e}:={\frac {Z_{1}-(\mu _{1}-\mu _{2})}{\sqrt {(\sum _{i=2}^{n}Z_{i}^{2})/(n-1)}}}\sim t_{n-1}.

Зависимыйт-тест для парных образцов

Этот тест используется, когда образцы зависимы; то есть, когда есть только один образец, который был протестирован дважды (повторные измерения) или когда есть два образца, которые были сопоставлены или «спарены». Это пример парного теста на разницу . Статистика t рассчитывается как

t={\frac {{\bar {X}}_{D}-\mu _{0}}{s_{D}/{\sqrt {n}}}},

где и — среднее значение и стандартное отклонение различий между всеми парами. Пары — это, например, либо результаты одного человека до и после теста, либо результаты между парами людей, объединенных в значимые группы (например, взятые из одной семьи или возрастной группы: см. таблицу). Константа $μ$ $0$ равна нулю, если мы хотим проверить, является ли среднее значение разницы существенно различным. Используемая степень свободы — $n$ $- 1$ , где $n$ представляет собой количество пар. ${\bar {X}}_{D}$ $s_{D}$

Реализованные примеры

Пусть $A 1$ обозначает набор, полученный путем случайной выборки из шести измерений:

A_{1}=\{30.02,\ 29.99,\ 30.11,\ 29.97,\ 30.01,\ 29.99\}

и пусть $A 2$ обозначает второй набор, полученный аналогично:

A_{2}=\{29.89,\ 29.93,\ 29.72,\ 29.98,\ 30.02,\ 29.98\}

Это может быть, например, вес винтов, изготовленных на двух разных станках.

Мы проведем проверку нулевой гипотезы о том, что средние значения популяций, из которых были взяты две выборки, равны.

Разница между двумя средними значениями выборки, каждая из которых обозначена как $X i$ , которая появляется в числителе для всех рассмотренных выше подходов к двухвыборочному тестированию, равна

{\bar {X}}_{1}-{\bar {X}}_{2}=0.095.

Стандартные отклонения выборки для двух выборок составляют приблизительно 0,05 и 0,11 соответственно. Для таких небольших выборок тест равенства между двумя дисперсиями генеральной совокупности не будет очень мощным. Поскольку размеры выборок равны, две формы двухвыборочного t -теста будут работать одинаково в этом примере.

Неравные дисперсии

Если следовать подходу для неравных дисперсий (обсуждавшемуся выше), результаты будут следующими:

{\sqrt {{\frac {s_{1}^{2}}{n_{1}}}+{\frac {s_{2}^{2}}{n_{2}}}}}\approx 0.04849

и степени свободы

{\text{d.f.}}\approx 7.031.

Статистика теста составляет приблизительно 1,959, что дает двустороннее тестовое p -значение 0,09077.

Равные дисперсии

Если следовать подходу для равных дисперсий (обсуждавшемуся выше), результаты будут следующими:

s_{p}\approx 0.08399

и степени свободы

{\text{d.f.}}=10.

Тестовая статистика приблизительно равна 1,959, что дает двустороннее p -значение 0,07857.

Сопутствующие статистические тесты

Альтернативыт-тест на наличие проблем с местоположением

T - тест обеспечивает точный тест на равенство средних значений двух независимых нормальных совокупностей с неизвестными, но равными дисперсиями. ( T -тест Уэлча является почти точным тестом для случая, когда данные являются нормальными, но дисперсии могут различаться.) Для умеренно больших выборок и одностороннего теста T -тест относительно устойчив к умеренным нарушениям предположения о нормальности. ^[26] В достаточно больших выборках T -тест асимптотически приближается к z -тесту и становится устойчивым даже к большим отклонениям от нормальности. ^[19]

Если данные существенно ненормальны, а размер выборки мал, t -тест может дать вводящие в заблуждение результаты. См. Тест местоположения для гауссовых шкал смешанных распределений для некоторой теории, связанной с одним конкретным семейством ненормальных распределений.

Когда предположение о нормальности не выполняется, непараметрическая альтернатива t -тесту может иметь лучшую статистическую мощность . Однако, когда данные не являются нормальными с различными дисперсиями между группами, t -тест может иметь лучший контроль ошибок типа 1 , чем некоторые непараметрические альтернативы. ^[27] Кроме того, непараметрические методы, такие как U-тест Манна-Уитни , обсуждаемый ниже, обычно не проверяют разницу средних значений, поэтому их следует использовать осторожно, если разница средних значений представляет основной научный интерес. ^[19] Например, U-тест Манна-Уитни сохранит ошибку типа 1 на желаемом уровне альфа, если обе группы имеют одинаковое распределение. Он также будет иметь мощность в обнаружении альтернативы, при которой группа B имеет такое же распределение, как A, но после некоторого сдвига на константу (в этом случае действительно будет разница в средних значениях двух групп). Однако могут быть случаи, когда группы A и B будут иметь разные распределения, но с одинаковыми средними значениями (например, два распределения, одно с положительной асимметрией, а другое с отрицательной, но смещенные так, чтобы иметь одинаковые средние значения). В таких случаях MW может иметь больше, чем альфа-уровень мощности при отклонении нулевой гипотезы, но приписывать интерпретацию разницы в средних значениях такому результату было бы неверно.

При наличии выброса t - тест не является надежным. Например, для двух независимых выборок, когда распределения данных асимметричны (то есть распределения перекошены ) или распределения имеют большие хвосты, тогда тест суммы рангов Вилкоксона (также известный как U - тест Манна-Уитни ) может иметь в три-четыре раза большую мощность, чем t -тест. ^[26]^[28]^[29] Непараметрическим аналогом t -теста парных выборок является тест знаковых рангов Вилкоксона для парных выборок. Для обсуждения выбора между t -тестом и непараметрическими альтернативами см. Lumley, et al. (2002). ^[19]

Однофакторный дисперсионный анализ (ANOVA) обобщает двухвыборочный t -тест, когда данные принадлежат более чем двум группам.

Дизайн, включающий как парные наблюдения, так и независимые наблюдения.

Когда в двухвыборочном проекте присутствуют как парные наблюдения, так и независимые наблюдения, предполагая, что данные отсутствуют полностью случайным образом (MCAR), парные наблюдения или независимые наблюдения могут быть отброшены, чтобы продолжить стандартные тесты выше. В качестве альтернативы, используя все доступные данные, предполагая нормальность и MCAR, можно использовать обобщенный частично перекрывающийся выборочный t -тест. ^[30]

Многовариантное тестирование

Обобщение t- статистики Стьюдента, называемое t -квадратной статистикой Хотеллинга , позволяет проверять гипотезы по нескольким (часто коррелированным) показателям в пределах одной выборки. Например, исследователь может отправить несколько субъектов на личностный тест, состоящий из нескольких личностных шкал (например, Minnesota Multiphasic Personality Inventory ). Поскольку показатели этого типа обычно положительно коррелируют, не рекомендуется проводить отдельные одномерные t -тесты для проверки гипотез, так как они будут игнорировать ковариацию между показателями и увеличивать вероятность ложного отклонения по крайней мере одной гипотезы ( ошибка типа I ). В этом случае для проверки гипотез предпочтительнее использовать один многомерный тест. Метод Фишера для объединения нескольких тестов с альфа- уменьшением для положительной корреляции между тестами является одним из них. Другим является статистика Хотеллинга T ² , которая следует распределению T ² . Однако на практике это распределение используется редко, поскольку табличные значения для T ² трудно найти. Обычно T ² преобразуется в F -статистику.

Для одновыборочного многомерного теста гипотеза заключается в том, что средний вектор ( $μ$ ) $равен$ заданному вектору ( $μ0$ ). Тестовая статистика — t2 Хотеллинга :

t^{2}=n({\bar {\mathbf {x} }}-{{\boldsymbol {\mu }}_{0}})'{\mathbf {S} }^{-1}({\bar {\mathbf {x} }}-{{\boldsymbol {\mu }}_{0}})

где $n$ — размер выборки, $x$ — вектор средних значений столбцов, а $S$ — выборочная ковариационная матрица $размером m \times m$ .

Для двухвыборочного многомерного теста гипотеза заключается в том, что средние векторы ( $μ 1, μ 2$ ) двух выборок равны. Тестовая статистика — двухвыборочный t ² Хотеллинга :

t^{2}={\frac {n_{1}n_{2}}{n_{1}+n_{2}}}\left({\bar {\mathbf {x} }}_{1}-{\bar {\mathbf {x} }}_{2}\right)'{\mathbf {S} _{\text{pooled}}}^{-1}\left({\bar {\mathbf {x} }}_{1}-{\bar {\mathbf {x} }}_{2}\right).

Двухвыборочныйт-тест представляет собой частный случай простой линейной регрессии

Двухвыборочный t -тест представляет собой частный случай простой линейной регрессии , что иллюстрируется следующим примером.

В клиническом исследовании изучаются 6 пациентов, которым давали лекарство или плацебо. Три (3) пациента получают 0 единиц лекарства (группа плацебо). Три (3) пациента получают 1 единицу лекарства (группа активного лечения). В конце лечения исследователи измеряют изменение по сравнению с исходным уровнем количества слов, которые каждый пациент может вспомнить в тесте на память.

Ниже представлена таблица показателей запоминания слов пациентами и доз препаратов.

Данные и код приведены для анализа с использованием языка программирования R с функциями t.testи lmдля t-теста и линейной регрессии. Вот те же (фиктивные) данные выше, сгенерированные в R.

> слово.отзыв.данные = данные.фрейм ( доза.препарата = c ( 0 , 0 , 0 , 1 , 1 , 1 ), слово.отзыв = c ( 1 , 2 , 3 , 5 , 6 , 7 ))

Выполните t -тест. Обратите внимание, что предположение о равной дисперсии, var.equal=Tнеобходимо для того, чтобы сделать анализ точно эквивалентным простой линейной регрессии.

> с ( слово.вспомнить.данные , t.тест ( слово.вспомнить ~ лекарство.доза , var.равно = T ))

Выполнение кода R дает следующие результаты.

Средний показатель припоминания слова в группе, принимавшей 0 доз препарата, составил 2.
Средний показатель запоминаемости слов в группе, принимавшей 1 дозу препарата, составил 6.
Разница между группами лечения по среднему показателю запоминания слов составляет 6 – 2 = 4.
Разница в запоминании слов между дозами препарата значительна (p=0,00805).

Выполнить линейную регрессию тех же данных. Расчеты могут быть выполнены с использованием функции R lm()для линейной модели.

> слово.вспомнить.данные.lm = lm ( слово.вспомнить ~ доза.препарата , данные = слово.вспомнить.данные ) > резюме ( слово.вспомнить.данные.lm )

Линейная регрессия дает таблицу коэффициентов и p-значений.

Таблица коэффициентов дает следующие результаты.

Расчетное значение 2 для интерсепта представляет собой среднее значение припоминания слова при дозе препарата 0.
Расчетное значение 4 для дозы препарата указывает на то, что при изменении дозы препарата на 1 единицу (от 0 до 1) происходит изменение среднего показателя запоминания слов на 4 единицы (от 2 до 6). Это наклон линии, соединяющей средние значения двух групп.
Значение p, указывающее, что наклон 4 отличается от 0, составляет p = 0,00805.

Коэффициенты линейной регрессии определяют наклон и точку пересечения линии, соединяющей два средних значения группы, как показано на графике. Точка пересечения равна 2, а точка пересечения равна 4.

Сравните результат линейной регрессии с результатом t -теста.

По данным t -критерия Стьюдента разница между средними значениями групп составляет 6-2=4.
В регрессии наклон также равен 4, что указывает на то, что изменение дозы препарата на 1 единицу (от 0 до 1) приводит к изменению среднего показателя запоминания слов на 4 единицы (от 2 до 6).
Значение p t -теста для разницы средних значений и значение p регрессии для наклона оба равны 0,00805. Методы дают идентичные результаты.

Этот пример показывает, что для особого случая простой линейной регрессии, где есть единственная x-переменная, которая имеет значения 0 и 1, t -тест дает те же результаты, что и линейная регрессия. Связь также может быть показана алгебраически.

Распознавание этой связи между t -тестом и линейной регрессией облегчает использование множественной линейной регрессии и многофакторного дисперсионного анализа . Эти альтернативы t -тестам позволяют включать дополнительные объясняющие переменные , которые связаны с ответом. Включение таких дополнительных объясняющих переменных с использованием регрессии или ANOVA уменьшает иначе необъяснимую дисперсию и обычно дает большую мощность для обнаружения различий, чем двухвыборочные t -тесты.

Реализации программного обеспечения

Многие программы для работы с электронными таблицами и статистические пакеты, такие как QtiPlot , LibreOffice Calc , Microsoft Excel , SAS , SPSS , Stata , DAP , gretl , R , Python , PSPP , Wolfram Mathematica , MATLAB и Minitab , включают в себя реализации t -критерия Стьюдента.

Смотрите также

Модель условного изменения
F -тест – проверка статистической гипотезы, в основном с использованием множественных ограничений.
Нецентральное t -распределение в анализе мощности – Распределение вероятностей
t -статистика Стьюдента – Соотношение в статистике
Z -тест – статистический тест
U- тест Манна-Уитни – непараметрический тест нулевой гипотезы
Поправка Шидака для t -критерия – Статистический метод
T -тест Уэлча – статистический тест, определяющий, равны ли средние значения двух совокупностей
Дисперсионный анализ – Сбор статистических моделей (ANOVA)

Ссылки

^ Микробиом в здоровье и болезни. Academic Press. 2020-05-29. стр. 397. ISBN 978-0-12-820001-8.
^ Сабо, Иштван (2003). «Systeme aus einer endlichen Anzahl starrer Körper». Einführung in die Technische Mechanik (на немецком языке). Шпрингер Берлин Гейдельберг. стр. 196–199. doi :10.1007/978-3-642-61925-0_16 (неактивен с 1 ноября 2024 г.). ISBN 978-3-540-13293-6.{{cite book}}: CS1 maint: DOI inactive as of November 2024 (link)
^ Шливич, Б. (октябрь 1937 г.). «Untersuchungen über den anastomotischen Kanal zwischen der Arteria coeliaca und mesenterica Superior und Damit in Zusammenhang stehende Fragen». Zeitschrift für Anatomie und Entwicklungsgeschichte (на немецком языке). 107 (6): 709–737. дои : 10.1007/bf02118337. ISSN 0340-2061. S2CID 27311567.
^ Гельмерт (1876). «Die Genauigkeit der Formel von Peters zur Berechnung des wahrscheinlichen Beobachtungsfehlers режиссер Beobachtungen gleicher Genauigkeit». Astronomische Nachrichten (на немецком языке). 88 (8–9): 113–131. Бибкод : 1876AN.....88..113H. дои : 10.1002/asna.18760880802.
^ Люрот, Дж. (1876). «Vergleichung von zwei Werthen des wahrscheinlichen Fehlers». Astronomische Nachrichten (на немецком языке). 87 (14): 209–220. Бибкод : 1876AN.....87..209L. дои : 10.1002/asna.18760871402.
^ Пфанцагль, Дж. (1996). «Исследования по истории вероятности и статистики XLIV. Предшественник t -распределения». Biometrika . 83 (4): 891–898. doi :10.1093/biomet/83.4.891. MR 1766040.
^ Шейнин, Оскар (1995). «Работы Гельмерта по теории ошибок». Архив журнала History of Exact Sciences . 49 (1): 73–104. doi :10.1007/BF00374700. ISSN 0003-9519. S2CID 121241599.
^ Пирсон, Карл (1895). "X. Вклад в математическую теорию эволюции.—II. Косая вариация в однородном материале". Philosophical Transactions of the Royal Society of London A . 186 : 343–414. Bibcode :1895RSPTA.186..343P. doi : 10.1098/rsta.1895.0010 .
^ ab Student (1908). «Вероятная ошибка среднего» (PDF) . Biometrika . 6 (1): 1–25. doi :10.1093/biomet/6.1.1. hdl :10338.dmlcz/143545 . Получено 24 июля 2016 г. .
^ "Таблица Т".
^ Вендл, Майкл С. (2016). «Псевдонимная слава». Science . 351 (6280): 1406. doi :10.1126/science.351.6280.1406. PMID 27013722.
^ Уолпол, Рональд Э. (2006). Вероятность и статистика для инженеров и ученых . Майерс, Х. Рэймонд (7-е изд.). Нью-Дели: Pearson. ISBN 81-7758-404-9. OCLC 818811849.
^ Раджу, TN (2005). «Уильям Сили Госсет и Уильям А. Сильверман: два «студента» науки». Педиатрия . 116 (3): 732–735. doi :10.1542/peds.2005-1134. PMID 16140715. S2CID 32745754.
^ Додж, Ядола (2008). Краткая энциклопедия статистики. Springer Science & Business Media. С. 234–235. ISBN 978-0-387-31742-7.
^ Фейдем, Барбара (2008). Высокодоходная поведенческая наука . Серия High-Yield. Hagerstown, MD: Lippincott Williams & Wilkins. ISBN 9781451130300.
^ Райс, Джон А. (2006). Математическая статистика и анализ данных (3-е изд.). Duxbury Advanced.^{[ ISBN отсутствует ]}
^ Вайсштейн, Эрик. «Распределение Стьюдента». mathworld.wolfram.com .
^ Дэвид, Х. А.; Ганнинк, Джейсон Л. (1997). «Парный t- тест при искусственном спаривании». Американский статистик . 51 (1): 9–12. doi :10.2307/2684684. JSTOR 2684684.
^ abcd Ламли, Томас; Диер, Паула ; Эмерсон, Скотт; Чен, Лу (май 2002 г.). «Важность предположения о нормальности в больших наборах данных общественного здравоохранения». Ежегодный обзор общественного здравоохранения . 23 (1): 151–169. doi : 10.1146/annurev.publhealth.23.100901.140546 . ISSN 0163-7525. PMID 11910059.
^ Марковски, Кэрол А.; Марковски, Эдвард П. (1990). «Условия эффективности предварительного дисперсионного теста». Американский статистик . 44 (4): 322–326. doi :10.2307/2684360. JSTOR 2684360.
^ Го, Бэйбэй; Юань, Ин (2017). «Сравнительный обзор методов сравнения средних значений с использованием частично парных данных». Статистические методы в медицинских исследованиях . 26 (3): 1323–1340. doi :10.1177/0962280215577111. PMID 25834090. S2CID 46598415.
^ Блэнд, Мартин (1995). Введение в медицинскую статистику. Oxford University Press. стр. 168. ISBN 978-0-19-262428-4.
^ "Центральная предельная теорема и предположение о нормальности > Нормальность > Непрерывные распределения > Распределение > Статистическое справочное руководство | Документация Analyse-it® 6.15". analyze-it.com . Получено 2024-05-17 .
^ DEMİR, Süleyman (2022-06-26). «Сравнение тестов на нормальность с точки зрения размеров выборки при различных коэффициентах асимметрии и куртозиса». Международный журнал инструментов оценки в образовании . 9 (2): 397–409. doi :10.21449/ijate.1101295. ISSN 2148-7456.
^ Ван, Чан; Цзя, Цзиньчжу (2022). «Тест Te: новый неасимптотический T-тест для задач Беренса-Фишера». arXiv : 2210.16473 [math.ST].
^ ab Sawilowsky, Shlomo S.; Blair, R. Clifford (1992). «Более реалистичный взгляд на устойчивость и свойства ошибок типа II t -теста для отклонений от нормальности популяции». Psychological Bulletin . 111 (2): 352–360. doi :10.1037/0033-2909.111.2.352.
^ Циммерман, Дональд В. (январь 1998 г.). «Недействительность параметрических и непараметрических статистических тестов из-за одновременного нарушения двух предположений». Журнал экспериментального образования . 67 (1): 55–68. doi :10.1080/00220979809598344. ISSN 0022-0973.
^ Блэр, Р. Клиффорд; Хиггинс, Джеймс Дж. (1980). «Сравнение мощности статистики ранговой суммы Вилкоксона с мощностью статистики t Стьюдента при различных ненормальных распределениях». Журнал образовательной статистики . 5 (4): 309–335. doi :10.2307/1164905. JSTOR 1164905.
^ Фэй, Майкл П.; Прошан, Майкл А. (2010). «Уилкоксон–Манн–Уитни или t-тест? О предположениях для проверки гипотез и множественных интерпретациях правил принятия решений». Statistics Surveys . 4 : 1–39. doi :10.1214/09-SS051. PMC 2857732. PMID 20414472 .
^ Деррик, Б.; Тохер, Д.; Уайт, П. (2017). «Как сравнить средние значения двух выборок, включающих парные наблюдения и независимые наблюдения: дополнение к Деррику, Рассу, Тохеру и Уайту (2017)» (PDF) . Количественные методы в психологии . 13 (2): 120–126. doi : 10.20982/tqmp.13.2.p120 .

Источники

О'Махони, Майкл (1986). Сенсорная оценка продуктов питания: статистические методы и процедуры . CRC Press . стр. 487. ISBN 0-82477337-3.
Press, William H.; Teukolsky, Saul A.; Vetterling, William T.; Flannery, Brian P. (1992). Численные рецепты на языке C: Искусство научных вычислений. Cambridge University Press . стр. 616. ISBN 0-521-43108-5.

Дальнейшее чтение

Боно, К. Алан (1960). «Эффекты нарушений предположений, лежащих в основе t- теста». Psychological Bulletin . 57 (1): 49–64. doi :10.1037/h0041412. PMID 13802482.
Edgell, Stephen E.; Noon, Sheila M. (1984). «Влияние нарушения нормальности на t- тест коэффициента корреляции». Psychological Bulletin . 95 (3): 576–583. doi :10.1037/0033-2909.95.3.576.

Внешние ссылки

Викиверситет имеет обучающие ресурсы по t-тесту

В Wikisource есть оригинальный текст, относящийся к этой статье:

Вероятная ошибка среднего

«Тест студента». Энциклопедия математики . Издательство EMS . 2001 [1994].
Трохим, Уильям М.К. «Тест T», База знаний по методам исследования , conjoint.ly
Лекция по эконометрике (тема: проверка гипотез) на YouTube от Марка Тома