В статистике тест парных различий — это тип теста местоположения , который используется при сравнении двух наборов парных измерений , чтобы оценить, различаются ли их средние значения совокупности . Тест парных разностей использует дополнительную информацию об образце , которой нет в обычной ситуации непарного тестирования, либо для увеличения статистической мощности , либо для уменьшения влияния искажающих факторов .
Конкретными методами проведения тестов парных различий являются t-критерий нормально распределенных различий (где стандартное отклонение генеральной совокупности различий не известно) и парный Z-критерий (где известно стандартное отклонение генеральной совокупности различий), а также различия, которые не могут быть нормально распределены, тест знакового ранга Уилкоксона [1] , а также тест парных перестановок .
Самый известный пример теста парных различий — когда испытуемых измеряют до и после лечения. Такой тест «повторных измерений» сравнивает эти измерения внутри субъектов, а не между субъектами, и, как правило, будет иметь большую эффективность, чем непарный тест. Другой пример — сопоставление случаев заболевания с сопоставимыми контрольными группами.
Парные разностные тесты для уменьшения дисперсии представляют собой особый тип блокировки . Чтобы проиллюстрировать эту идею, предположим, что мы оцениваем эффективность препарата для лечения высокого уровня холестерина. В рамках нашего исследования мы набираем 100 субъектов и измеряем уровень холестерина у каждого субъекта. Затем всех испытуемых лечат препаратом в течение шести месяцев, после чего у них снова измеряют уровень холестерина. Наш интерес заключается в том, оказывает ли препарат какое-либо влияние на средние уровни холестерина, о чем можно судить путем сравнения измерений после лечения с измерениями до лечения.
Ключевой вопрос, который мотивирует использовать тест парных различий, заключается в том, что, если в исследовании нет очень строгих критериев входа, вполне вероятно, что субъекты будут существенно отличаться друг от друга до начала лечения. Важные исходные различия между субъектами могут быть связаны с их полом, возрастом, статусом курения, уровнем активности и диетой.
Существует два естественных подхода к анализу этих данных:
Если рассматривать только средства, парный и непарный подходы дают одинаковый результат. Чтобы убедиться в этом, пусть Y i 1 , Y i 2 будут наблюдаемыми данными для i- й пары, и пусть D i = Y i 2 − Y i 1 . Также пусть D , Y 1 и Y 2 обозначают соответственно выборочные средние значения D i , Y i 1 и Y i 2 . Переставив термины, мы увидим, что
где n — количество пар. Таким образом, средняя разница между группами не зависит от того, организуем ли мы данные в виде пар.
Хотя средняя разница одинакова для парных и непарных статистических данных, их уровни статистической значимости могут сильно различаться, поскольку дисперсию непарной статистики легко переоценить. Дисперсия D равна
где σ 1 и σ 2 — стандартные отклонения совокупности данных Y i 1 и Y i 2 соответственно. Таким образом, дисперсия D будет ниже, если внутри каждой пары существует положительная корреляция . Такая корреляция очень распространена при повторных измерениях, поскольку обработка не влияет на многие факторы, влияющие на сравниваемую величину. Например, если уровни холестерина связаны с возрастом, влияние возраста приведет к положительной корреляции между уровнями холестерина, измеренными у субъектов, при условии, что продолжительность исследования невелика по сравнению с различиями в возрасте в выборке.
Предположим, мы используем Z-тест для анализа данных, где известны отклонения данных до и после лечения σ 1 2 и σ 2 2 (ситуация с t-тестом аналогична). Непарная статистика Z-теста:
Мощность непарного одностороннего теста, проведенного на уровне α = 0,05 , можно рассчитать следующим образом:
где S — стандартное отклонение D , Φ — стандартная нормальная кумулятивная функция распределения , а δ = E Y 2 − E Y 1 — истинный эффект лечения. Константа 1,645 — это 95-й процентиль стандартного нормального распределения, определяющий область отклонения теста.
По аналогичному расчету мощность парного Z-теста равна
Сравнивая выражения мощности парного и непарного тестов, можно увидеть, что парный тест имеет большую мощность, пока
Это условие выполняется всякий раз , когда внутрипарная корреляция положительна.
Следующая статистическая модель полезна для понимания теста парных разностей.
где α i — случайный эффект , который распределяется между двумя значениями в паре, а ε ij — случайный шумовой термин, который независим во всех точках данных. Постоянные значения µ 1 , µ 2 являются ожидаемыми значениями двух сравниваемых измерений, и нас интересует δ = µ 2 − µ 1 .
В этой модели α i улавливает «стабильные искажающие факторы», которые оказывают одинаковое влияние на измерения до и после обработки. Когда мы вычитаем, чтобы сформировать D i , α i сокращается, поэтому не вносит вклад в дисперсию. Внутрипарная ковариация равна
Это неотрицательное значение, поэтому оно приводит к лучшей производительности теста парных различий по сравнению с тестом непарных, если только α i не является постоянным по i , и в этом случае парные и непарные тесты эквивалентны.
Говоря менее математическим языком, непарный тест предполагает, что данные в двух сравниваемых группах независимы. Это предположение определяет форму дисперсии D . Однако если для каждого субъекта проводятся два измерения, маловероятно, что эти два измерения будут независимыми. Если два измерения у испытуемого положительно коррелируют, непарный тест завышает дисперсию D , что делает его консервативным тестом в том смысле, что фактическая вероятность ошибки типа I будет ниже номинального уровня с соответствующей потерей статистической мощности. . В редких случаях данные могут иметь отрицательную корреляцию внутри субъектов, и в этом случае непарный тест становится антиконсервативным. Парный тест обычно применяют при повторных измерениях у одних и тех же испытуемых, поскольку он имеет правильный уровень независимо от корреляции измерений внутри пар.
Другое применение тестирования парных различий возникает при сравнении двух групп в наборе данных наблюдений с целью изолировать эффект одного интересующего фактора от эффектов других факторов, которые могут играть роль. Например, предположим, что учителя применяют один из двух разных подходов, обозначенных «А» и «Б», к преподаванию определенной математической темы. Нас может заинтересовать, различаются ли результаты учащихся на стандартизированном тесте по математике в зависимости от подхода к обучению. Если учителя могут свободно использовать подход А или подход Б, вполне возможно, что учителя, чьи ученики уже хорошо успевают по математике, предпочтут метод А (или наоборот). В этой ситуации простое сравнение средних результатов учащихся, обучающихся по подходам А и Б, скорее всего, покажет разницу, но эта разница частично или полностью обусловлена ранее существовавшими различиями между двумя группами учащихся. В этой ситуации базовые способности студентов служат вмешивающейся переменной , поскольку они связаны как с результатом (успехами по стандартизированному тесту), так и с назначением лечения в соответствии с подходом А или подходом Б.
Можно уменьшить, но не обязательно устранить, влияние смешивающих переменных, сформировав «искусственные пары» и выполнив тест на парные различия. Эти искусственные пары создаются на основе дополнительных переменных, которые, как считается, играют роль искажающих факторов. При объединении в пары учащихся, чьи значения смешивающих переменных схожи, большая часть разницы в интересующем значении (например, в баллах по стандартизированному тесту в примере, рассмотренном выше) обусловлена фактором интереса, а меньшая часть обусловлена к сбивающему с толку. Формирование искусственных пар для проверки парных различий является примером общего подхода к уменьшению эффектов смешения при проведении сравнений с использованием данных наблюдений, называемого сопоставлением . [2] [3] [4]
В качестве конкретного примера предположим, что мы наблюдаем результаты тестов X учащихся по стратегиям обучения A и B , и каждый студент имеет либо «высокий», либо «низкий» уровень математических знаний до того, как будут реализованы две стратегии обучения. Однако мы не знаем, какие студенты относятся к «высокой» категории, а какие — к «низкой». Средние результаты тестов населения в четырех возможных группах равны , а доля учащихся в группах равна p HA + p HB + p LA + p LB = 1 .
«Разница в лечении» среди студентов в «высокой» группе составляет μ HA – μ HB , а разница в лечении среди студентов в «низкой» группе – μ LA – μ LB. В целом возможно, что две стратегии обучения могут различаться в любом направлении или не обнаруживать различий, а эффекты могут различаться по величине или даже по знаку между «высокими» и «низкими» группами. Например, если бы стратегия Б превосходила стратегию А для хорошо подготовленных учащихся, а стратегия А превосходила бы стратегию Б для плохо подготовленных учащихся, то два различия в подходах имели бы противоположные знаки.
Поскольку мы не знаем базовые уровни учащихся, ожидаемое значение среднего результата теста X A среди учащихся в группе А представляет собой среднее значение баллов на двух базовых уровнях:
и аналогичным образом средний балл по тесту X B среди студентов в группе B равен
Таким образом, ожидаемое значение наблюдаемой разницы в лечении D = X A − X B равно
Разумная нулевая гипотеза состоит в том, что эффект от лечения отсутствует ни в «высоких», ни в «низких» группах студентов, так что μ HA = μ HB и μ LA = μ LB . Согласно этой нулевой гипотезе, ожидаемое значение D будет равно нулю, если
и
Это условие утверждает, что отнесение учащихся к группам стратегии обучения A и B не зависит от их математических знаний до того, как стратегии обучения будут реализованы. Если это так, базовые математические знания не являются помехой, и наоборот, если базовые математические знания являются помехой, ожидаемое значение D обычно будет отличаться от нуля. Если ожидаемое значение D при нулевой гипотезе не равно нулю, то ситуация, когда мы отвергаем нулевую гипотезу, может быть связана либо с фактическим дифференциальным эффектом между стратегиями обучения A и B , либо с отсутствием независимости. при отнесении студентов к группам А и Б (даже при полном отсутствии эффекта от стратегии обучения).
Этот пример показывает, что если мы проводим прямое сравнение между двумя группами при наличии искажающих факторов, мы не знаем, связано ли какое-либо наблюдаемое различие с самим группированием или с каким-то другим фактором. Если мы можем объединить учащихся в пары по точному или предполагаемому показателю их базовых математических способностей, тогда мы сравниваем учащихся только «в пределах строк» таблицы средних значений, приведенной выше. Следовательно, если нулевая гипотеза верна, ожидаемое значение D будет равно нулю, а уровни статистической значимости имеют свою предполагаемую интерпретацию.