Тест перестановки (также называемый тестом повторной рандомизации или тестом перестановки) — это точный статистический тест гипотезы, использующий доказательство от противного . Тест перестановки включает в себя два или более образца. Нулевая гипотеза заключается в том, что все образцы происходят из одного и того же распределения . При нулевой гипотезе распределение статистики теста получается путем вычисления всех возможных значений статистики теста при возможных перестановках наблюдаемых данных. Таким образом, тесты перестановки являются формой повторной выборки .
Тесты перестановок можно понимать как тестирование суррогатных данных , где суррогатные данные при нулевой гипотезе получаются посредством перестановок исходных данных. [1]
Другими словами, метод, с помощью которого лечение назначается субъектам в экспериментальном проекте, отражается в анализе этого проекта. Если метки взаимозаменяемы при нулевой гипотезе, то полученные тесты дают точные уровни значимости; см. также взаимозаменяемость . Затем из тестов можно вывести доверительные интервалы. Теория развилась из работ Рональда Фишера и Э. Дж. Г. Питмана в 1930-х годах.
Тесты перестановки не следует путать с рандомизированными тестами . [2]
Чтобы проиллюстрировать основную идею теста перестановки, предположим, что мы собираем случайные величины и для каждого человека из двух групп и чьи выборочные средние значения и , и что мы хотим узнать, происходят ли и из одного и того же распределения. Пусть и будет размером выборки, собранной из каждой группы. Тест перестановки предназначен для определения того, достаточно ли велика наблюдаемая разница между выборочными средними значениями, чтобы отвергнуть на некотором уровне значимости нулевую гипотезу H о том, что данные, взятые из , принадлежат к тому же распределению, что и данные, взятые из .
Тест выполняется следующим образом. Сначала вычисляется разница в средних значениях между двумя выборками: это наблюдаемое значение тестовой статистики, .
Затем наблюдения групп и объединяются, и вычисляется и регистрируется разница в средних значениях выборки для каждого возможного способа разделения объединенных значений на две группы размером и (т. е. для каждой перестановки групповых меток A и B). Набор этих вычисленных разностей представляет собой точное распределение возможных разностей (для этой выборки) при нулевой гипотезе о том, что групповые метки взаимозаменяемы (т. е. назначаются случайным образом).
Одностороннее p-значение теста вычисляется как доля выборочных перестановок, где разница в средних значениях была больше . Двустороннее p-значение теста вычисляется как доля выборочных перестановок, где абсолютная разница была больше . Многие реализации тестов перестановок требуют, чтобы сами наблюдаемые данные учитывались как одна из перестановок, так что p-значение перестановки никогда не будет равно нулю. [3]
В качестве альтернативы, если единственной целью теста является отклонение или неотклонение нулевой гипотезы, можно отсортировать записанные различия, а затем наблюдать, содержится ли в среднем % из них, для некоторого уровня значимости . Если это не так, мы отвергаем гипотезу об идентичных кривых вероятности на уровне значимости.
Чтобы использовать снижение дисперсии с помощью парных выборок, необходимо применить парный тест перестановки, см. парный тест разности .
Тесты перестановки являются подмножеством непараметрической статистики . Предполагая, что наши экспериментальные данные получены из данных, измеренных в двух группах лечения, метод просто генерирует распределение средних различий при предположении, что две группы не различаются с точки зрения измеряемой переменной. Из этого затем используют наблюдаемую статистику ( выше), чтобы увидеть, в какой степени эта статистика является специальной, т. е. вероятность наблюдения величины такого значения (или большего), если метки лечения были просто рандомизированы после лечения.
В отличие от тестов перестановки, распределения, лежащие в основе многих популярных «классических» статистических тестов, таких как t -тест , F -тест , z -тест и χ2 - тест , получены из теоретических распределений вероятностей . Точный тест Фишера является примером широко используемого параметрического теста для оценки связи между двумя дихотомическими переменными. Когда размеры выборки очень велики, тест хи-квадрат Пирсона даст точные результаты. Для небольших выборок нельзя предположить, что эталонное распределение хи-квадрат даст правильное описание распределения вероятностей тестовой статистики, и в этой ситуации использование точного теста Фишера становится более уместным.
Тесты перестановки существуют во многих ситуациях, когда параметрические тесты не существуют (например, при выводе оптимального теста, когда потери пропорциональны размеру ошибки, а не ее квадрату). Все простые и многие относительно сложные параметрические тесты имеют соответствующую версию теста перестановки, которая определяется с использованием той же тестовой статистики, что и параметрический тест, но получает p-значение из распределения перестановки этой статистики, специфичного для выборки, а не из теоретического распределения, полученного из параметрического предположения. Например, таким образом можно построить тест перестановки t , тест перестановки ассоциации, версию теста Эли для перестановки для сравнения дисперсий и т. д.
Главные недостатки тестов перестановок заключаются в том, что они
Тесты перестановки существуют для любой тестовой статистики, независимо от того, известно ли ее распределение. Таким образом, всегда можно выбрать статистику, которая наилучшим образом различает гипотезу и альтернативу и которая минимизирует потери.
Тесты перестановки могут использоваться для анализа несбалансированных конструкций [4] и для объединения зависимых тестов на смесях категориальных, порядковых и метрических данных (Pesarin, 2001) [ требуется ссылка ] . Их также можно использовать для анализа качественных данных, которые были квантифицированы (т. е. превращены в числа). Тесты перестановки могут быть идеальными для анализа квантифицированных данных, которые не удовлетворяют статистическим предположениям, лежащим в основе традиционных параметрических тестов (например, t-тестов, ANOVA), [5] см. PERMANOVA .
До 1980-х годов задача создания эталонного распределения была непосильной, за исключением наборов данных с небольшими размерами выборки.
С 1980-х годов слияние относительно недорогих быстрых компьютеров и разработка новых сложных алгоритмов пути, применимых в особых ситуациях, сделали применение методов перестановочного теста практичным для широкого круга задач. Это также инициировало добавление опций точного теста в основные статистические программные пакеты и появление специализированного программного обеспечения для выполнения широкого спектра одно- и многомерных точных тестов и вычисления «точных» доверительных интервалов на основе тестов.
Важное предположение, лежащее в основе теста перестановки, заключается в том, что наблюдения взаимозаменяемы при нулевой гипотезе. Важным следствием этого предположения является то, что тесты на разницу в местоположении (например, тест перестановки t) требуют равной дисперсии при предположении нормальности. В этом отношении классический тест перестановки t имеет ту же слабость, что и классический тест Стьюдента ( проблема Беренса–Фишера ). Это можно решить тем же способом, которым классический тест t был расширен для обработки неравных дисперсий: путем использования статистики Уэлча с поправкой Саттертуэйта на степени свободы. [6] Третьей альтернативой в этой ситуации является использование теста на основе бутстрапа. Статистик Филипп Гуд объясняет разницу между тестами перестановки и тестами бутстрапа следующим образом: «Перестановки проверяют гипотезы, касающиеся распределений; бутстрапы проверяют гипотезы, касающиеся параметров. В результате бутстрап влечет за собой менее строгие предположения». [7] Тесты бутстрапа не являются точными. В некоторых случаях тест перестановки, основанный на надлежащим образом стьюдентизированной статистике, может быть асимптотически точным, даже если предположение о взаимозаменяемости нарушается. [8] Тесты на основе бутстрепа могут тестировать с нулевой гипотезой и, следовательно, подходят для выполнения тестирования эквивалентности .
Асимптотически эквивалентный тест перестановки может быть создан, когда существует слишком много возможных упорядочений данных, чтобы обеспечить полный подсчет удобным способом. Это делается путем генерации эталонного распределения с помощью выборки Монте-Карло , которая берет небольшую (относительно общего числа перестановок) случайную выборку возможных повторений. Осознание того, что это может быть применено к любому тесту перестановки на любом наборе данных, стало важным прорывом в области прикладной статистики. Самые ранние известные ссылки на этот подход - Иден и Йейтс (1933) и Дуосс (1957). [9] [10] Этот тип теста перестановки известен под разными названиями: тест приближенной перестановки , тесты перестановки Монте-Карло или тесты случайной перестановки . [11]
После случайных перестановок можно получить доверительный интервал для p-значения на основе биномиального распределения, см. Доверительный интервал биномиальной пропорции . Например, если после случайных перестановок p-значение оценивается как , то 99% доверительный интервал для истинного (того, который получился бы в результате перебора всех возможных перестановок) составляет .
С другой стороны, цель оценки p-значения чаще всего состоит в том, чтобы решить , , где порог, при котором нулевая гипотеза будет отклонена (обычно ). В приведенном выше примере доверительный интервал говорит нам только о том, что существует примерно 50% вероятность того, что p-значение будет меньше 0,05, т. е. совершенно неясно, следует ли отклонять нулевую гипотезу на уровне .
Если важно только знать, для заданного , логично продолжать моделирование до тех пор, пока утверждение не будет установлено как истинное или ложное с очень низкой вероятностью ошибки. Учитывая ограничение допустимой вероятности ошибки (вероятности обнаружения того, что на самом деле или наоборот), вопрос о том, сколько перестановок генерировать, можно рассматривать как вопрос о том, когда прекратить генерировать перестановки, основываясь на результатах моделирования до сих пор, чтобы гарантировать, что вывод (который является либо , либо ) является правильным с вероятностью, по крайней мере, такой же большой, как . ( обычно будет выбираться крайне малым, например, 1/1000.) Были разработаны правила остановки для достижения этого [12] , которые могут быть включены с минимальными дополнительными вычислительными затратами. Фактически, в зависимости от истинного базового p-значения часто будет обнаруживаться, что количество требуемых симуляций чрезвычайно мало (например, всего 5 и часто не больше 100), прежде чем решение может быть принято с виртуальной уверенностью.
Оригинальные ссылки:
Современные ссылки:
Методы расчета: