Статистика тестирования

Тестовая статистика — это статистика (величина, полученная из выборки ), используемая при проверке статистических гипотез . ^[1] Проверка гипотезы обычно определяется с точки зрения тестовой статистики, рассматриваемой как числовая сводка набора данных, которая сводит данные к одному значению, которое можно использовать для проверки гипотезы. В общем, тестовая статистика выбирается или определяется таким образом, чтобы количественно оценить в пределах наблюдаемых данных поведение, которое отличало бы нулевую гипотезу от альтернативной гипотезы , если такая альтернатива предписана, или которое характеризовало бы нулевую гипотезу, если она существует. нет явно сформулированной альтернативной гипотезы.

Важным свойством тестовой статистики является то, что ее выборочное распределение при нулевой гипотезе должно быть вычислено точно или приблизительно, что позволяет вычислить p -значения . Тестовая статистика обладает некоторыми из тех же качеств, что и описательная статистика , и многие статистические данные могут использоваться как в качестве тестовой статистики, так и в качестве описательной статистики. Однако тестовая статистика специально предназначена для использования в статистическом тестировании, тогда как основное качество описательной статистики заключается в ее легкости интерпретации. Некоторые информативные описательные статистические данные, такие как диапазон выборки , не являются хорошей тестовой статистикой, поскольку трудно определить распределение их выборки.

Две широко используемые тестовые статистики — это t-статистика и F-тест .

Пример

Предположим, что задача состоит в том, чтобы проверить, является ли монета честной (т.е. имеет ли равная вероятность выпадения орла или решки). Если монету подбросить 100 раз и результаты записать, необработанные данные можно представить в виде последовательности из 100 орлов и решек. Если вас интересует предельная вероятность получения хвоста, необходимо записать только число T из 100 бросков, в результате которых образовался хвост. Но T также можно использовать в качестве тестовой статистики одним из двух способов:

точное выборочное распределение T при нулевой гипотезе представляет собой биномиальное распределение с параметрами 0,5 и 100.
значение T можно сравнить с его ожидаемым значением при нулевой гипотезе 50, а поскольку размер выборки велик, нормальное распределение можно использовать в качестве приближения к распределению выборки либо для T , либо для пересмотренной тестовой статистики T — 50.

Используя одно из этих выборочных распределений, можно вычислить одностороннее или двустороннее значение p для нулевой гипотезы о том, что монета честная. Статистика теста в этом случае сводит набор из 100 чисел к одной числовой сводке, которую можно использовать для тестирования.

Общая статистика испытаний

Одновыборочные тесты подходят, когда выборку сравнивают с генеральной совокупностью на основе гипотезы. Характеристики популяции известны из теории или рассчитываются на основе численности населения.

Тесты с двумя выборками подходят для сравнения двух образцов, обычно экспериментальных и контрольных образцов из научно контролируемого эксперимента.

Парные тесты подходят для сравнения двух выборок, когда невозможно контролировать важные переменные. Вместо сравнения двух наборов элементы объединяются в пары между выборками, поэтому разница между членами становится выборкой. Обычно среднее значение разностей затем сравнивается с нулем. Типичный пример сценария, когда подходит тест парных различий, — это когда к одной группе испытуемых применяется что-то, и тест предназначен для проверки эффекта.

Z-тесты подходят для сравнения средних значений в строгих условиях относительно нормальности и известного стандартного отклонения.

t - критерий подходит для сравнения средних значений в смягченных условиях (предполагается меньшее значение).

Тесты пропорций аналогичны тестам средних значений (доля 50%).

Тесты хи-квадрат используют одни и те же вычисления и одно и то же распределение вероятностей для разных приложений:

Критерии хи-квадрат для дисперсии используются, чтобы определить, имеет ли нормальная популяция указанную дисперсию. Нулевая гипотеза заключается в том, что это так.
Критерии независимости хи-квадрат используются для определения того, связаны ли две переменные или являются независимыми. Переменные являются категориальными, а не числовыми. Его можно использовать, чтобы решить, коррелирует ли леворукость с ростом (или нет). Нулевая гипотеза заключается в том, что переменные независимы. Числа, использованные в расчетах, представляют собой наблюдаемую и ожидаемую частоту возникновения (из таблиц непредвиденных обстоятельств ).
Критерии соответствия хи-квадрат используются для определения адекватности кривых, соответствующих данным. Нулевая гипотеза заключается в том, что аппроксимация кривой адекватна. Обычно определяют форму кривой, чтобы минимизировать среднеквадратическую ошибку, поэтому целесообразно, чтобы при расчете согласия суммировались квадраты ошибок.

F-тесты (дисперсионный анализ, ANOVA) обычно используются при принятии решения о том, имеет ли смысл группировка данных по категориям. Если дисперсия результатов тестов левшей в классе намного меньше, чем дисперсия всего класса, то может быть полезно изучать левшей как группу. Нулевая гипотеза заключается в том, что две дисперсии одинаковы, поэтому предлагаемая группировка не имеет смысла.

В таблице ниже используемые символы определены в нижней части таблицы. Многие другие тесты можно найти в других статьях . Существуют доказательства того, что статистика испытаний соответствует действительности. ^[2]

Статистика тестирования

Пример

Общая статистика испытаний

Смотрите также

Рекомендации