Тест размаха Тьюки , также известный как тест Тьюки , метод Тьюки , тест честной значимости Тьюки или тест Тьюки HSD ( честно значимая разница ) [1] — это одношаговая процедура множественного сравнения и статистический тест . Его можно использовать для правильной интерпретации статистической значимости разницы между средними значениями, выбранными для сравнения из-за их экстремальных значений.
Первоначально метод был разработан и представлен Джоном Тьюки для использования в дисперсионном анализе (ANOVA) и обычно преподавался только в связи с ANOVA. Однако распределение стьюдентизированного диапазона, используемое для определения уровня значимости различий, рассматриваемых в тесте Тьюки, имеет гораздо более широкое применение: оно полезно для исследователей, которые искали в своих собранных данных примечательные различия между группами, но затем не могли достоверно определить, насколько значимым является их обнаруженное выдающееся различие, используя стандартные статистические распределения, используемые для других обычных статистических тестов, для которых данные должны были быть выбраны случайным образом. Поскольку при сравнении выдающихся данных они по определению не были выбраны случайным образом, а скорее специально выбраны, потому что они были экстремальными, им нужна другая, более строгая интерпретация, предоставляемая вероятной частотой и размером стьюдентизированного диапазона ; современная практика « добычи данных » является примером, где это используется.
Тест назван в честь Джона Тьюки , [2] он сравнивает все возможные пары средних значений и основан на стьюдентизированном распределении размаха ( q ) (это распределение похоже на распределение t из t -теста . См. ниже). [3] [ необходима полная цитата ]
Тест Тьюки сравнивает средние значения каждого варианта лечения со средними значениями каждого другого варианта лечения; то есть он применяется одновременно к набору всех попарных сравнений.
и определяет любую разницу между двумя средними значениями, которая больше ожидаемой стандартной ошибки . Коэффициент достоверности для набора , когда все размеры выборки равны, равен точно для любого Для неравных размеров выборки коэффициент достоверности больше, чем Другими словами, метод Тьюки является консервативным, когда имеются неравные размеры выборки .
За этим тестом часто следует статистическая процедура Compact Letter Display (CLD), чтобы сделать результаты этого теста более прозрачными для аудитории, не являющейся специалистом по статистике.
Тест Тьюки основан на формуле, очень похожей на формулу t -теста . Фактически, тест Тьюки по сути является t -тестом, за исключением того, что он корректирует семейную частоту ошибок .
Формула теста Тьюки:
где Y A и Y B — два сравниваемых средних значения, а SE — стандартная ошибка для суммы средних значений. Значение q s — это тестовая статистика выборки. (Обозначение | x | означает абсолютное значение x ; величину x со знаком + , независимо от исходного знака x .)
Эту статистику теста q s затем можно сравнить со значением q для выбранного уровня значимости α из таблицы распределения стьюдентизированного диапазона . Если значение q s больше критического значения q α , полученного из распределения, то говорят, что два средних значения существенно различаются на уровне [3]
Поскольку нулевая гипотеза для теста Тьюки утверждает, что все сравниваемые средние значения принадлежат одной и той же совокупности (т. е. μ 1 = μ 2 = μ 3 = ... = μ k ), средние значения должны быть распределены нормально (согласно центральной предельной теореме ) с одинаковым стандартным отклонением модели σ , оцененным с помощью объединенной стандартной ошибки , для всех выборок; ее расчет обсуждается в следующих разделах. Это приводит к предположению о нормальности теста Тьюки.
Метод Тьюки использует стьюдентизированное распределение размаха . Предположим, что мы берем выборку размером n из каждой из k совокупностей с тем же нормальным распределением N ( μ , σ 2 ) и предположим, что является наименьшим из этих выборочных средних значений, а является наибольшим из этих выборочных средних значений, и предположим, что S 2 является объединенной выборочной дисперсией из этих выборок. Тогда следующая случайная величина имеет стьюдентизированное распределение размаха:
Данное выше определение статистики q является основой критически значимого значения q α, обсуждаемого ниже, и базируется на следующих трех факторах:
( df = N − k ) , где N — общее количество наблюдений.)
Распределение q было табулировано и представлено во многих учебниках по статистике. В некоторых таблицах распределение q было табулировано без множителя. Чтобы понять, какая это таблица, мы можем вычислить результат для k = 2 и сравнить его с результатом t-распределения Стьюдента с теми же степенями свободы и тем же α .
Кроме того, R предлагает кумулятивную функцию распределения ( ) и функцию квантиля ( ) для q . ptukey
qtukey
Пределы доверия Тьюки для всех парных сравнений с коэффициентом доверия не менее 1 − α равны
Обратите внимание, что точечная оценка и предполагаемая дисперсия такие же, как и для одиночного парного сравнения. Единственное различие между доверительными пределами для одновременных сравнений и для одиночного сравнения — это кратность предполагаемого стандартного отклонения.
Также обратите внимание, что размеры выборок должны быть равны при использовании подхода стьюдентизированного размаха. — это стандартное отклонение всего плана, а не только двух сравниваемых групп. Можно работать с неравными размерами выборок. В этом случае необходимо рассчитать предполагаемое стандартное отклонение для каждого парного сравнения, как это было формализовано Клайдом Крамером в 1956 году, поэтому процедура для неравных размеров выборок иногда называется методом Тьюки–Крамера , который выглядит следующим образом:
где n i и n j — размеры групп i и j соответственно. Также применяются степени свободы для всей конструкции.
Оба теста ANOVA и Tukey–Kramer основаны на одних и тех же предположениях. Однако эти два теста для k групп (т. е. μ 1 = μ 2 = ... = μ k ) могут привести к логическим противоречиям, когда k > 2 , даже если предположения верны.
Можно сгенерировать набор псевдослучайных выборок строго отрицательной меры, такой, что гипотеза μ 1 = μ 2 отклоняется на уровне значимости , в то время как μ 1 = μ 2 = μ 3 не отклоняется даже на [4]