Статистика теста

Статистика теста — это величина, полученная из выборки для статистической проверки гипотез . ^[1] Проверка гипотезы обычно определяется в терминах статистики теста, рассматриваемой как численное резюме набора данных, которое сводит данные к одному значению, которое может быть использовано для выполнения проверки гипотезы. В общем, статистика теста выбирается или определяется таким образом, чтобы количественно оценить в наблюдаемых данных поведение, которое отличало бы нулевую гипотезу от альтернативной , если такая альтернатива предписана, или которое характеризовало бы нулевую гипотезу, если нет явно заявленной альтернативной гипотезы.

Важным свойством тестовой статистики является то, что ее распределение выборки при нулевой гипотезе должно быть вычисляемым, либо точно, либо приблизительно, что позволяет вычислять p -значения . Тестовая статистика разделяет некоторые из тех же качеств описательной статистики , и многие статистики могут использоваться как в качестве тестовой статистики, так и в качестве описательной статистики. Однако тестовая статистика специально предназначена для использования в статистическом тестировании, тогда как основным качеством описательной статистики является то, что ее легко интерпретировать. Некоторые информативные описательные статистики, такие как выборочный диапазон , не являются хорошей тестовой статистикой, поскольку трудно определить их выборочное распределение.

Двумя широко используемыми тестовыми статистиками являются t-статистика и F-статистика .

Пример

Предположим, что задача состоит в том, чтобы проверить, является ли монета честной (т. е. имеет ли она равные вероятности выпадения орла или решки). Если монета подбрасывается 100 раз и результаты записываются, то необработанные данные можно представить в виде последовательности из 100 орлов и решек. Если интерес представляет предельная вероятность выпадения решки, необходимо записать только число T из 100 подбрасываний, в результате которых выпала решка. Но T также можно использовать в качестве тестовой статистики одним из двух способов:

точное выборочное распределение T при нулевой гипотезе представляет собой биномиальное распределение с параметрами 0,5 и 100.
значение T можно сравнить с его ожидаемым значением при нулевой гипотезе 50, и поскольку размер выборки большой, нормальное распределение можно использовать в качестве приближения к распределению выборки либо для T , либо для пересмотренной тестовой статистики T −50.

Используя одно из этих распределений выборки, можно вычислить одностороннее или двустороннее p-значение для нулевой гипотезы о том, что монета является честной. Тестовая статистика в этом случае сокращает набор из 100 чисел до одной числовой сводки, которую можно использовать для проверки.

Статистика общих тестов

Одновыборочные тесты подходят, когда выборка сравнивается с популяцией из гипотезы. Характеристики популяции известны из теории или рассчитываются на основе популяции.

Двухвыборочные тесты подходят для сравнения двух образцов, как правило, экспериментальных и контрольных образцов из научно контролируемого эксперимента.

Парные тесты подходят для сравнения двух выборок, когда невозможно контролировать важные переменные. Вместо того, чтобы сравнивать два набора, члены парируются между выборками, так что разница между членами становится выборкой. Обычно среднее значение разностей затем сравнивается с нулем. Обычный пример сценария, когда парный тест разностей подходит, — это когда к одному набору испытуемых что-то применяется, и тест предназначен для проверки эффекта.

Z-тесты подходят для сравнения средних значений в строгих условиях относительно нормальности и известного стандартного отклонения.

Для сравнения средних значений в смягченных условиях (предполагается меньшее) подходит t - тест .

Тесты пропорций аналогичны тестам средних значений (50%-ная пропорция).

Тесты хи-квадрат используют одни и те же вычисления и одно и то же распределение вероятностей для разных приложений:

Хи-квадрат тесты на дисперсию используются для определения того, имеет ли нормальная популяция указанную дисперсию. Нулевая гипотеза заключается в том, что имеет.
Хи-квадрат тесты независимости используются для определения того, связаны ли две переменные или независимы. Переменные являются категориальными, а не числовыми. Его можно использовать для определения того, коррелирует ли леворукость с ростом (или нет). Нулевая гипотеза заключается в том, что переменные независимы. Числа, используемые в расчетах, являются наблюдаемыми и ожидаемыми частотами появления (из таблиц сопряженности ).
Тесты согласия хи-квадрат используются для определения адекватности кривых, соответствующих данным. Нулевая гипотеза заключается в том, что соответствие кривой является адекватным. Обычно формы кривых определяются для минимизации среднеквадратической ошибки, поэтому целесообразно, чтобы расчет согласия суммировал квадратичные ошибки.

F-тесты (дисперсионный анализ, ANOVA) обычно используются при принятии решения о том, имеет ли смысл группировка данных по категориям. Если дисперсия результатов тестов левшей в классе намного меньше дисперсии всего класса, то может быть полезно изучать левшей как группу. Нулевая гипотеза заключается в том, что две дисперсии одинаковы, поэтому предлагаемая группировка не имеет смысла.

В таблице ниже используемые символы определены в нижней части таблицы. Многие другие тесты можно найти в других статьях . Существуют доказательства того, что статистика теста является подходящей. ^[2]

Смотрите также

Ссылки

^ Бергер, Р. Л.; Каселла, Г. (2001). Статистический вывод , Duxbury Press, второе издание (стр. 374)
^ Лавленд, Дженнифер Л. (2011). Математическое обоснование вводных проверок гипотез и разработка справочных материалов (магистр наук (математика)). Университет штата Юта . Получено 30 апреля 2013 г.Аннотация: "В центре внимания был подход Неймана–Пирсона к проверке гипотез. Краткое историческое развитие подхода Неймана–Пирсона сопровождается математическими доказательствами каждого из тестов гипотез, рассмотренных в справочном материале". Доказательства не ссылаются на концепции, введенные Нейманом и Пирсоном, вместо этого они показывают, что традиционная статистика тестов имеет распределения вероятностей, приписываемые им, так что вычисления значимости предполагают, что эти распределения верны. Информация о тезисе также размещена на mathnstats.com по состоянию на апрель 2013 года.
^ ab Справочник NIST: Двухвыборочный t-тест для равных средних
^ Стил, РГД и Торри, Дж. Х., Принципы и процедуры статистики с особым упором на биологические науки. , McGraw Hill , 1960, стр. 350.
^ Вайс, Нил А. (1999). Вводная статистика (5-е изд.). С. 802. ISBN 0-201-59877-9.
^ Справочник NIST: F-тест на равенство двух стандартных отклонений (проверка стандартных отклонений такая же, как и проверка дисперсий)
^ Стил, РГД и Торри, Дж. Х., Принципы и процедуры статистики с особым упором на биологические науки. , McGraw Hill , 1960, стр. 288.)