Тест парных различий , более известный как парное сравнение , представляет собой тип теста местоположения , который используется при сравнении двух наборов парных измерений для оценки того, различаются ли их средние значения в популяции . Тест парных различий предназначен для ситуаций, когда между парами измерений существует зависимость (в этом случае тест, предназначенный для сравнения двух независимых выборок, не будет подходящим). Это применимо в дизайне внутрисубъектного исследования, т. е. в исследовании, где один и тот же набор субъектов подвергается обоим сравниваемым условиям.
Конкретные методы проведения парных разностных тестов включают парный t-тест , парный Z-тест , знаковый ранговый тест Вилкоксона [1] и другие.
Парные разностные тесты для снижения дисперсии являются особым типом блокировки . Чтобы проиллюстрировать эту идею, предположим, что мы оцениваем эффективность препарата для лечения высокого уровня холестерина. Согласно плану нашего исследования, мы регистрируем 100 субъектов и измеряем уровень холестерина у каждого субъекта. Затем все субъекты лечатся препаратом в течение шести месяцев, после чего их уровень холестерина снова измеряется. Нас интересует, оказывает ли препарат какое-либо влияние на средний уровень холестерина, что можно вывести путем сравнения измерений после лечения с измерениями до лечения.
Ключевой вопрос, который мотивирует парный тест различий, заключается в том, что если исследование не имеет очень строгих критериев входа, то, скорее всего, субъекты будут существенно отличаться друг от друга до начала лечения. Важные базовые различия между субъектами могут быть связаны с их полом, возрастом, статусом курения, уровнем активности и диетой.
Существует два естественных подхода к анализу этих данных:
Если рассматривать только средние значения, парные и непарные подходы дают одинаковый результат. Чтобы увидеть это, пусть Y i 1 , Y i 2 будут наблюдаемыми данными для i -й пары, и пусть D i = Y i 2 − Y i 1 . Также пусть D , Y 1 , и Y 2 обозначают, соответственно, выборочные средние значения D i , Y i 1 , и Y i 2 . Переставляя члены, мы можем увидеть, что
где n — количество пар. Таким образом, средняя разница между группами не зависит от того, организуем ли мы данные как пары.
Хотя средняя разница одинакова для парных и непарных статистик, их уровни статистической значимости могут сильно различаться, поскольку легко переоценить дисперсию непарной статистики. Благодаря тождеству Бьенеме дисперсия D равна
где σ 1 и σ 2 — это стандартные отклонения популяции данных Y i 1 и Y i 2 соответственно. Таким образом, дисперсия D ниже, если внутри каждой пары есть положительная корреляция . Такая корреляция очень распространена в условиях повторных измерений, поскольку многие факторы, влияющие на сравниваемое значение, не подвержены влиянию лечения. Например, если уровни холестерина связаны с возрастом, эффект возраста приведет к положительным корреляциям между уровнями холестерина, измеренными у субъектов, при условии, что продолжительность исследования мала по сравнению с вариацией возрастов в выборке.
Предположим, что мы используем Z-тест для анализа данных, где дисперсии данных до и после обработки σ 1 2 и σ 2 2 известны (ситуация с t-тестом аналогична). Непарная статистика Z-теста равна
Мощность непарного одностороннего теста, проведенного на уровне α = 0,05, можно рассчитать следующим образом:
где S — стандартное отклонение D , Φ — стандартная нормальная кумулятивная функция распределения , а δ = E Y 2 − E Y 1 — истинный эффект лечения. Константа 1,645 — 95-й процентиль стандартного нормального распределения, который определяет область отклонения теста.
По аналогичному расчету мощность парного Z-теста равна
Сравнивая выражения для мощности парных и непарных тестов, можно увидеть, что парный тест имеет большую мощность, пока
Это условие выполняется всякий раз , когда внутрипарная корреляция положительна.
Следующая статистическая модель полезна для понимания парного дифференциального теста.
где α i — случайный эффект , который разделяется между двумя значениями в паре, а ε ij — случайный шумовой член, который независим во всех точках данных. Постоянные значения μ 1 , μ 2 являются ожидаемыми значениями двух сравниваемых измерений, и нас интересует δ = μ 2 − μ 1 .
В этой модели α i фиксирует «стабильные конфаундеры», которые оказывают одинаковое влияние на измерения до и после обработки. Когда мы вычитаем, чтобы сформировать D i , α i отменяется, поэтому не вносит вклад в дисперсию. Внутрипарная ковариация равна
Это неотрицательно, поэтому это приводит к лучшей производительности парного теста разности по сравнению с непарным тестом, если только α i не являются постоянными по i ; в этом случае парные и непарные тесты эквивалентны.
В менее математических терминах непарный тест предполагает, что данные в двух сравниваемых группах независимы. Это предположение определяет форму дисперсии D . Однако, когда для каждого субъекта проводятся два измерения, маловероятно, что эти два измерения независимы. Если два измерения внутри субъекта положительно коррелируют, непарный тест завышает дисперсию D , делая его консервативным тестом в том смысле, что его фактическая вероятность ошибки I типа будет ниже номинального уровня с соответствующей потерей статистической мощности. В редких случаях данные могут иметь отрицательную корреляцию внутри субъектов, и в этом случае непарный тест становится антиконсервативным. Парный тест обычно используется, когда проводятся повторные измерения на одних и тех же субъектах, поскольку он имеет правильный уровень независимо от корреляции измерений внутри пар.
Другое применение парного разностного тестирования возникает при сравнении двух групп в наборе наблюдаемых данных с целью изолировать эффект одного интересующего фактора от эффектов других факторов, которые могут играть роль. Например, предположим, что учителя используют один из двух разных подходов, обозначенных «A» и «B», для преподавания определенной математической темы. Нас может заинтересовать, различаются ли результаты учащихся на стандартизированном тесте по математике в зависимости от подхода к преподаванию. Если учителя могут свободно использовать подход A или подход B, возможно, что учителя, чьи ученики уже хорошо справляются с математикой, предпочтут выбрать метод A (или наоборот). В этой ситуации простое сравнение средних результатов учащихся, обучающихся с использованием подхода A и подхода B, вероятно, покажет разницу, но эта разница частично или полностью обусловлена уже существующими различиями между двумя группами учащихся. В этой ситуации базовые способности учащихся служат вмешивающейся переменной , поскольку они связаны как с результатом (результатами на стандартизированном тесте), так и с назначением лечения для подхода A или подхода B.
Можно уменьшить, но не обязательно устранить, влияние смешивающих переменных, формируя «искусственные пары» и выполняя парный тест на разницу. Эти искусственные пары строятся на основе дополнительных переменных, которые, как считается, служат в качестве факторов, вмешивающихся в процесс. При объединении в пары студентов, значения которых вмешивающихся переменных схожи, большая часть разницы в значении интереса (например, стандартизированный результат теста в примере, рассмотренном выше) обусловлена фактором интереса, а меньшая часть обусловлена фактором, вмешивающимся в процесс. Формирование искусственных пар для парного теста на разницу является примером общего подхода к уменьшению влияния смешивающих переменных при сравнении с использованием наблюдаемых данных, называемого сопоставлением . [ 2] [3] [4]
В качестве конкретного примера предположим, что мы наблюдаем результаты тестов учащихся X при стратегиях обучения A и B , и каждый учащийся имеет либо «высокий», либо «низкий» уровень математических знаний до внедрения двух стратегий обучения. Однако мы не знаем, какие учащиеся относятся к категории «высокий», а какие — к категории «низкий». Средние результаты тестов по совокупности в четырех возможных группах составляют , а доли учащихся в группах составляют , где p HA + p HB + p LA + p LB = 1 .
«Разница в лечении» среди студентов в «высокой» группе составляет μ HA − μ HB , а разница в лечении среди студентов в «низкой» группе составляет μ LA − μ LB. В общем, возможно, что две стратегии обучения могут отличаться в любом направлении или не показывать никакой разницы, а эффекты могут отличаться по величине или даже по знаку между «высокой» и «низкой» группами. Например, если стратегия B превосходит стратегию A для хорошо подготовленных студентов, но стратегия A превосходит стратегию B для плохо подготовленных студентов, два различия в лечении будут иметь противоположные знаки.
Поскольку мы не знаем исходных уровней учащихся, ожидаемое значение среднего балла теста X A среди учащихся в группе A представляет собой среднее значение баллов на двух исходных уровнях:
и аналогично средний балл теста X B среди студентов в группе B составляет
Таким образом, ожидаемое значение наблюдаемой разницы в лечении D = X A − X B равно
Разумная нулевая гипотеза заключается в том, что эффект лечения отсутствует ни в группе студентов с «высокой», ни в группе студентов с «низкой» успеваемостью, так что μ HA = μ HB и μ LA = μ LB. Согласно этой нулевой гипотезе, ожидаемое значение D будет равно нулю, если
и
Это условие утверждает, что распределение учащихся по группам стратегий обучения A и B не зависит от их математических знаний до внедрения стратегий обучения. Если это выполняется, то базовые математические знания не являются фактором, искажающим результаты, и наоборот, если базовые математические знания являются фактором, искажающим результаты, ожидаемое значение D , как правило, будет отличаться от нуля. Если ожидаемое значение D при нулевой гипотезе не равно нулю, то ситуация, в которой мы отвергаем нулевую гипотезу, может быть либо из-за фактического дифференциального эффекта между стратегиями обучения A и B , либо из-за отсутствия независимости в распределении учащихся по группам A и B (даже при полном отсутствии эффекта, обусловленного стратегией обучения).
Этот пример иллюстрирует, что если мы проводим прямое сравнение между двумя группами, когда присутствуют конфаундеры, мы не знаем, вызвано ли какое-либо наблюдаемое различие самой группировкой или каким-то другим фактором. Если мы можем объединить студентов в пары по точной или оценочной мере их базовых математических способностей, то мы сравниваем студентов только «в пределах строк» таблицы средних значений, приведенной выше. Следовательно, если нулевая гипотеза верна, ожидаемое значение D будет равно нулю, а уровни статистической значимости имеют предполагаемую интерпретацию.