stringtranslate.com

Статистика тестирования

Тестовая статистика — это статистика (величина, полученная из выборки ), используемая при проверке статистических гипотез . [1] Проверка гипотезы обычно определяется с точки зрения тестовой статистики, рассматриваемой как числовая сводка набора данных, которая сводит данные к одному значению, которое можно использовать для проверки гипотезы. В общем, тестовая статистика выбирается или определяется таким образом, чтобы количественно оценить в пределах наблюдаемых данных поведение, которое отличало бы нулевую гипотезу от альтернативной гипотезы , если такая альтернатива предписана, или которое характеризовало бы нулевую гипотезу, если она существует. нет явно сформулированной альтернативной гипотезы.

Важным свойством тестовой статистики является то, что ее выборочное распределение при нулевой гипотезе должно быть вычислено точно или приблизительно, что позволяет вычислить p -значения . Тестовая статистика обладает некоторыми из тех же качеств, что и описательная статистика , и многие статистические данные могут использоваться как в качестве тестовой статистики, так и в качестве описательной статистики. Однако тестовая статистика специально предназначена для использования в статистическом тестировании, тогда как основное качество описательной статистики заключается в ее легкости интерпретации. Некоторые информативные описательные статистические данные, такие как диапазон выборки , не являются хорошей тестовой статистикой, поскольку трудно определить распределение их выборки.

Две широко используемые тестовые статистики — это t-статистика и F-тест .

Пример

Предположим, что задача состоит в том, чтобы проверить, является ли монета честной (т.е. имеет ли равная вероятность выпадения орла или решки). Если монету подбросить 100 раз и результаты записать, необработанные данные можно представить в виде последовательности из 100 орлов и решек. Если вас интересует предельная вероятность получения хвоста, необходимо записать только число T из 100 бросков, в результате которых образовался хвост. Но T также можно использовать в качестве тестовой статистики одним из двух способов:

Используя одно из этих выборочных распределений, можно вычислить одностороннее или двустороннее значение p для нулевой гипотезы о том, что монета честная. Статистика теста в этом случае сводит набор из 100 чисел к одной числовой сводке, которую можно использовать для тестирования.

Общая статистика испытаний

Одновыборочные тесты подходят, когда выборку сравнивают с генеральной совокупностью на основе гипотезы. Характеристики популяции известны из теории или рассчитываются на основе численности населения.

Тесты с двумя выборками подходят для сравнения двух образцов, обычно экспериментальных и контрольных образцов из научно контролируемого эксперимента.

Парные тесты подходят для сравнения двух выборок, когда невозможно контролировать важные переменные. Вместо сравнения двух наборов элементы объединяются в пары между выборками, поэтому разница между членами становится выборкой. Обычно среднее значение разностей затем сравнивается с нулем. Типичный пример сценария, когда подходит тест парных различий, — это когда к одной группе испытуемых применяется что-то, и тест предназначен для проверки эффекта.

Z-тесты подходят для сравнения средних значений в строгих условиях относительно нормальности и известного стандартного отклонения.

t - критерий подходит для сравнения средних значений в смягченных условиях (предполагается меньшее значение).

Тесты пропорций аналогичны тестам средних значений (доля 50%).

Тесты хи-квадрат используют одни и те же вычисления и одно и то же распределение вероятностей для разных приложений:

F-тесты (дисперсионный анализ, ANOVA) обычно используются при принятии решения о том, имеет ли смысл группировка данных по категориям. Если дисперсия результатов тестов левшей в классе намного меньше, чем дисперсия всего класса, то может быть полезно изучать левшей как группу. Нулевая гипотеза заключается в том, что две дисперсии одинаковы, поэтому предлагаемая группировка не имеет смысла.

В таблице ниже используемые символы определены в нижней части таблицы. Многие другие тесты можно найти в других статьях . Существуют доказательства того, что статистика испытаний соответствует действительности. [2]

Смотрите также

Рекомендации

  1. ^ Бергер, РЛ; Казелла, Г. (2001). Статистический вывод , Duxbury Press, второе издание (стр. 374)
  2. ^ Лавленд, Дженнифер Л. (2011). Математическое обоснование проверки вводных гипотез и разработка справочных материалов (магистр математических наук). Университет штата Юта . Проверено 30 апреля 2013 г.Аннотация: «Основное внимание было уделено подходу Неймана-Пирсона к проверке гипотез. За кратким историческим развитием подхода Неймана-Пирсона следуют математические доказательства каждого из тестов гипотез, описанных в справочных материалах». Доказательства не ссылаются на концепции, введенные Нейманом и Пирсоном, вместо этого они показывают, что традиционные тестовые статистики имеют приписываемые им распределения вероятностей, так что расчеты значимости предполагают, что эти распределения верны. Информация о диссертации также размещена на сайте mahnstats.com по состоянию на апрель 2013 года.
  3. ^ Справочник ab NIST: Двухвыборочный t-критерий для равных средних
  4. ^ Стил, RGD, и Торри, JH, Принципы и процедуры статистики с особым упором на биологические науки. , МакГроу Хилл , 1960, стр. 350.
  5. ^ Вайс, Нил А. (1999). Вводная статистика (5-е изд.). стр. 802. ISBN. 0-201-59877-9.
  6. ^ Справочник NIST: F-тест на равенство двух стандартных отклонений (тестирование стандартных отклонений аналогично тестированию дисперсий)
  7. ^ Стил, RGD, и Торри, JH, Принципы и процедуры статистики с особым упором на биологические науки. , МакГроу Хилл , 1960, стр. 288.)