Z-тест

Z - тест — это любой статистический тест , для которого распределение тестовой статистики при нулевой гипотезе может быть аппроксимировано нормальным распределением . Z-тест проверяет среднее значение распределения. Для каждого уровня значимости в доверительном интервале Z - критерий имеет одно критическое значение (например, 1,96 для 5% двусторонних), что делает его более удобным, чем t -критерий Стьюдента , критические значения которого определяются размером выборки ( через соответствующие степени свободы ). И Z-тест, и t-критерий Стьюдента имеют сходство в том, что оба помогают определить значимость набора данных. Однако z-тест редко используется на практике, поскольку отклонение генеральной совокупности трудно определить.

Применимость

Из-за центральной предельной теоремы многие тестовые статистики имеют примерно нормальное распределение для больших выборок. Следовательно, многие статистические тесты можно удобно выполнять как приблизительные Z -тесты, если размер выборки велик или известна дисперсия генеральной совокупности. Если популяционная дисперсия неизвестна (и, следовательно, ее необходимо оценивать по самой выборке), а размер выборки невелик ( n < 30), то t -критерий Стьюдента может оказаться более подходящим (в некоторых случаях n < 50, поскольку описано ниже).

Процедура

Как выполнить Z-тест, когда T представляет собой статистику, которая приблизительно нормально распределяется при нулевой гипотезе, заключается в следующем:

Во-первых, оцените ожидаемое значение μ T при нулевой гипотезе и получите оценку s стандартного отклонения T .

Во-вторых, определите свойства T : однохвостый или двусторонний.

Для нулевой гипотезы H ₀ : μ≥μ ₀ по сравнению с альтернативной гипотезой H ₁ : μ<μ ₀ она является нижним/левосторонним (односторонним).

Для нулевой гипотезы H ₀ : μ≤μ ₀ по сравнению с альтернативной гипотезой H ₁ : μ>μ ₀ она является верхне/правосторонней (односторонней).

Для нулевой гипотезы H ₀ : μ=μ ₀ и альтернативной гипотезы H ₁ : μ≠μ ₀ она является двусторонней.

В-третьих, рассчитайте стандартный балл :

Z={\frac {({\bar {X}}-\mu _{0})}{s}},

односторонние и двусторонние значения pZZZнормальная кумулятивная функция распределения

Использование при тестировании местоположения

Термин « Z -тест» часто используется для обозначения теста местоположения одной выборки, сравнивающего среднее значение набора измерений с заданной константой, когда известна дисперсия выборки. Например, если наблюдаемые данные X ₁ , ..., X _n (i) независимы, (ii) имеют общее среднее значение µ и (iii) имеют общую дисперсию σ ² , тогда выборочное среднее X имеет среднее значение µ и дисперсия . ${\frac {\sigma ^{2}}{n}}$
Нулевая гипотеза состоит в том, что среднее значение X является заданным числом µ ₀ . Мы можем использовать X в качестве тестовой статистики, отвергая нулевую гипотезу, если X − µ ₀ велико.
Чтобы вычислить стандартизованную статистику , нам нужно либо знать, либо иметь приблизительное значение σ2 ^, на основе которого мы можем произвести расчет . В некоторых приложениях известно σ ^{2 , но это встречается редко.} $Z={\frac {({\bar {X}}-\mu _{0})}{s}}$ $s^{2}={\frac {\sigma ^{2}}{n}}$
Если размер выборки умеренный или большой, мы можем заменить ^σ2 выборочной дисперсией , получив подключаемый тест. Полученный в результате тест не будет точным Z -тестом, поскольку не учитывается неопределенность выборочной дисперсии, однако он будет хорошим приближением, если только размер выборки не мал.
T - критерий можно использовать для учета неопределенности выборочной дисперсии, когда данные абсолютно нормальны .
Разница между Z-тестом и t-тестом: Z-критерий используется, когда размер выборки велик (n>50) или известна дисперсия генеральной совокупности. t-критерий используется, когда размер выборки небольшой (n<50) и популяционная дисперсия неизвестна.
Не существует универсальной константы, при которой размер выборки обычно считается достаточно большим, чтобы оправдать использование подключаемого теста. Типичные эмпирические правила: размер выборки должен составлять 50 наблюдений или более.
Для больших размеров выборки процедура t -теста дает почти такие же значения p , как и процедура Z -теста.
Другими тестами местоположения, которые можно выполнить как Z -тесты, являются тест местоположения с двумя выборками и тест парных разностей .

Условия

Чтобы Z -тест был применим, необходимо соблюдение определенных условий.

Параметры помех должны быть известны или оценены с высокой точностью (примером параметра помех может быть стандартное отклонение в тесте местоположения с одной выборкой). Z -тесты фокусируются на одном параметре и рассматривают все остальные неизвестные параметры как фиксированные с их истинными значениями. На практике, благодаря теореме Слуцкого , «подключение» непротиворечивых оценок параметров помех может быть оправдано. Однако если размер выборки недостаточно велик для того, чтобы эти оценки были достаточно точными, Z -тест может оказаться неэффективным.
Статистика теста должна иметь нормальное распределение . Обычно к центральной предельной теореме обращаются , чтобы оправдать предположение о том, что тестовая статистика изменяется нормально. Существует множество статистических исследований по вопросу о том, когда тестовая статистика варьируется примерно нормально. Если изменение статистики теста сильно отличается от нормального, Z -тест не следует использовать.

Если оценки мешающих параметров подключаются, как обсуждалось выше, важно использовать оценки, соответствующие способу выборки данных . В частном случае Z -тестов для решения проблемы размещения одной или двух выборок обычное стандартное отклонение выборки подходит только в том случае, если данные были собраны как независимая выборка.

В некоторых ситуациях можно разработать тест, который правильно учитывает изменения в подключаемых оценках мешающих параметров. В случае проблем с размещением одной и двух выборок это делает t -критерий .

Пример

Предположим, что в определенном географическом регионе среднее и стандартное отклонение результатов теста по чтению составляют 100 и 12 баллов соответственно. Нас интересуют результаты 55 учеников конкретной школы, получивших средний балл 96. Мы можем задаться вопросом, значительно ли этот средний балл ниже среднего по региону, то есть сравнимы ли ученики этой школы с простым случайным результатом? выборка из 55 студентов со всего региона, или их баллы на удивление низкие?

Сначала вычислите стандартную ошибку среднего:

\mathrm {SE} ={\frac {\sigma }{\sqrt {n}}}={\frac {12}{\sqrt {55}}}={\frac {12}{7.42}} =1,62

где стандартное отклонение генеральной совокупности. ${\sigma }$

Затем рассчитайте z -показатель , который представляет собой расстояние от выборочного среднего до среднего генерального значения в единицах стандартной ошибки:

z={\frac {M-\mu }{\mathrm {SE} }}={\frac {96-100}{1,62}}=-2,47

В этом примере мы рассматриваем среднее значение генеральной совокупности и дисперсию как известные, что было бы целесообразно, если бы все учащиеся в регионе прошли тестирование. Если параметры популяции неизвестны, вместо этого следует провести t-критерий Стьюдента .

Средний балл в классе равен 96, что составляет -2,47 единицы стандартной ошибки от среднего значения совокупности, равного 100. Глядя на z -показатель в таблице кумулятивной вероятности стандартного нормального распределения , мы обнаруживаем, что вероятность наблюдения стандартного нормального значения ниже −2,47 составляет примерно 0,5 − 0,4932 = 0,0068. Это одностороннее значение p для нулевой гипотезы о том, что 55 студентов сопоставимы с простой случайной выборкой из совокупности всех участников тестирования. Двустороннее значение p составляет примерно 0,014 (в два раза больше одностороннего значения p ).

Другими словами, с вероятностью 1 – 0,014 = 0,986 простая случайная выборка из 55 студентов будет иметь средний балл по тесту в пределах 4 единиц от среднего значения генеральной совокупности. Мы могли бы также сказать, что с уверенностью 98,6% мы отвергаем нулевую гипотезу о том, что 55 тестируемых сопоставимы с простой случайной выборкой из совокупности тестируемых.

Z - тест сообщает нам, что 55 интересующих студентов имеют необычно низкий средний балл по тесту по сравнению с большинством простых случайных выборок аналогичного размера из популяции тестируемых. Недостатком этого анализа является то, что он не учитывает, является ли значимым размер эффекта в 4 балла. Если вместо классной комнаты мы рассмотрим субрегион, содержащий 900 учащихся со средним баллом 99, будут наблюдаться почти такие же z -показатель и p -значение. Это показывает, что если размер выборки достаточно велик, очень небольшие отклонения от нулевого значения могут быть высоко статистически значимыми. См. «Проверка статистических гипотез» для дальнейшего обсуждения этого вопроса.

Z -тесты, кроме тестов местоположения

Локационные тесты — это наиболее известные Z -тесты. Другой класс Z -тестов возникает при оценке максимального правдоподобия параметров параметрической статистической модели . Оценки максимального правдоподобия примерно нормальны при определенных условиях, и их асимптотическая дисперсия может быть рассчитана с использованием информации Фишера. Оценка максимального правдоподобия, деленная на ее стандартную ошибку, может использоваться в качестве тестовой статистики для нулевой гипотезы о том, что популяционное значение параметра равно нулю. В более общем смысле, если — оценка максимального правдоподобия параметра θ, а θ ₀ — значение θ при нулевой гипотезе, ${\hat {\theta }}$

{\frac {{\hat {\theta }}-\theta _{0}}{{\rm {SE}}({\hat {\theta }})}}

может использоваться как статистика Z -теста.

При использовании Z -теста для оценки максимального правдоподобия важно помнить, что нормальное приближение может быть плохим, если размер выборки недостаточно велик. Хотя не существует простого универсального правила, определяющего, насколько большим должен быть размер выборки для использования Z -теста, моделирование может дать хорошее представление о том, подходит ли Z -тест в данной ситуации.

Z -тесты используются всякий раз, когда можно утверждать, что статистика теста соответствует нормальному распределению при интересующей нулевой гипотезе. Многие непараметрические тестовые статистики, такие как U-статистика , являются примерно нормальными для достаточно больших размеров выборки и, следовательно, часто выполняются как Z -тесты.