Тест парных различий

Тест парных различий , более известный как парное сравнение , представляет собой тип теста местоположения , который используется при сравнении двух наборов парных измерений для оценки того, различаются ли их средние значения в популяции . Тест парных различий предназначен для ситуаций, когда между парами измерений существует зависимость (в этом случае тест, предназначенный для сравнения двух независимых выборок, не будет подходящим). Это применимо в дизайне внутрисубъектного исследования, т. е. в исследовании, где один и тот же набор субъектов подвергается обоим сравниваемым условиям.

Конкретные методы проведения парных разностных тестов включают парный t-тест , парный Z-тест , знаковый ранговый тест Вилкоксона ^[1] и другие.

Использование для уменьшения дисперсии

Парные разностные тесты для снижения дисперсии являются особым типом блокировки . Чтобы проиллюстрировать эту идею, предположим, что мы оцениваем эффективность препарата для лечения высокого уровня холестерина. Согласно плану нашего исследования, мы регистрируем 100 субъектов и измеряем уровень холестерина у каждого субъекта. Затем все субъекты лечатся препаратом в течение шести месяцев, после чего их уровень холестерина снова измеряется. Нас интересует, оказывает ли препарат какое-либо влияние на средний уровень холестерина, что можно вывести путем сравнения измерений после лечения с измерениями до лечения.

Ключевой вопрос, который мотивирует парный тест различий, заключается в том, что если исследование не имеет очень строгих критериев входа, то, скорее всего, субъекты будут существенно отличаться друг от друга до начала лечения. Важные базовые различия между субъектами могут быть связаны с их полом, возрастом, статусом курения, уровнем активности и диетой.

Существует два естественных подхода к анализу этих данных:

В «непарном анализе» данные обрабатываются так, как если бы исследование на самом деле включало 200 субъектов, а затем случайным образом распределяло 100 субъектов в каждую из групп лечения и контроля. Группа лечения в непарном дизайне будет рассматриваться как аналог измерений после лечения в парном дизайне, а контрольная группа будет рассматриваться как аналог измерений до лечения. Затем мы могли бы рассчитать выборочные средние значения в группах лечения и нелечения субъектов и сравнить эти средние значения друг с другом.
В «анализе парных различий» мы сначала вычитаем значение до лечения из значения после лечения для каждого субъекта, а затем сравниваем эти различия с нулем. См. также парный тест перестановки .

Если рассматривать только средние значения, парные и непарные подходы дают одинаковый результат. Чтобы увидеть это, пусть $Y i 1, Y i 2$ будут наблюдаемыми данными для $i -й$ пары, и пусть $D i = Y i 2 - Y i 1$ . Также пусть $D, Y 1$ , и $Y 2$ обозначают, соответственно, выборочные средние значения D $i$ , $Y i 1$ , и $Y i 2$ . Переставляя члены, мы можем увидеть, $что$

{\bar {D}}={\frac {1}{n}}\sum _{i}(Y_{i2}-Y_{i1})={\frac {1}{n}}\sum _{i}Y_{i2}-{\frac {1}{n}}\sum _{i}Y_{i1}={\bar {Y}}_{2}-{\bar {Y}}_{1},

где n — количество пар. Таким образом, средняя разница между группами не зависит от того, организуем ли мы данные как пары.

Хотя средняя разница одинакова для парных и непарных статистик, их уровни статистической значимости могут сильно различаться, поскольку легко переоценить дисперсию непарной статистики. Благодаря тождеству Бьенеме дисперсия $D$ равна

{\begin{aligned}{\rm {var}}({\bar {D}})&=\operatorname {var} ({\bar {Y}}_{2}-{\bar {Y }}_{1})\\&=\operatorname {var} ({\bar {Y}}_{2})+\operatorname {var} ({\bar {Y}}_{1})-2 \operatorname {cov} ({\bar {Y}}_{1},{\bar {Y}}_{2})\\&=\sigma _{1}^{2}/n+\sigma _{ 2}^{2}/n-2\sigma _{1}\sigma _{2}\operatorname {corr} (Y_{i1},Y_{i2})/n,\end{aligned}}

где $σ 1$ и $σ 2$ — это стандартные отклонения популяции данных $Y i 1$ и $Y i 2$ соответственно. Таким образом, дисперсия $D$ ниже, если внутри каждой пары есть положительная корреляция . Такая корреляция очень распространена в условиях повторных измерений, поскольку многие факторы, влияющие на сравниваемое значение, не подвержены влиянию лечения. Например, если уровни холестерина связаны с возрастом, эффект возраста приведет к положительным корреляциям между уровнями холестерина, измеренными у субъектов, при условии, что продолжительность исследования мала по сравнению с вариацией возрастов в выборке.

Мощность парного Z-теста

Предположим, что мы используем Z-тест для анализа данных, где дисперсии данных до и после обработки $σ 12$ и $σ 22$ известны (ситуация с t-тестом аналогична). Непарная статистика Z-теста равна

{\frac {{\bar {Y}}_{2}-{\bar {Y}}_{1}}{\sqrt {\sigma _{1}^{2}/n+\sigma _{2}^{2}/n}}},

Мощность непарного одностороннего теста, проведенного на уровне $α = 0,05,$ можно рассчитать следующим образом:

{\begin{aligned}P\left({\frac {{\bar {Y}}_{2}-{\bar {Y}}_{1}}{\sqrt {\sigma _{1}^{2}/n+\sigma _{2}^{2}/n}}}>1,645\right)&=P\left({\frac {{\bar {Y}}_{2}-{\bar {Y}}_{1}}{S}}>1,645{\sqrt {\sigma _{1}^{2}/n+\sigma _{2}^{2}/n}}/S\right)\\&=P\left({\frac {{\bar {Y}}_{2}-{\bar {Y}}_{1}-\delta +\delta }{S}}>1,645{\sqrt {\sigma _{1}^{2}/n+\sigma _{2}^{2}/n}}/S\right)\\&=P\left({\frac {{\bar {Y}}_{2}-{\bar {Y}}_{1}-\delta }{S}}>1,645{\sqrt {\sigma _{1}^{2}/n+\sigma _{2}^{2}/n}}/S-\delta /S\right)\\&=1-\Phi (1,645{\sqrt {\sigma _{1}^{2}/n+\sigma _{2}^{2}/n}}/S-\delta /S),\end{aligned}}

где S — стандартное отклонение D , Φ — стандартная нормальная кумулятивная функция распределения , а δ = E Y ₂ − E Y ₁ — истинный эффект лечения. Константа 1,645 — 95-й процентиль стандартного нормального распределения, который определяет область отклонения теста.

По аналогичному расчету мощность парного Z-теста равна

1-\Phi (1,645-\delta /S).

Сравнивая выражения для мощности парных и непарных тестов, можно увидеть, что парный тест имеет большую мощность, пока

{\sqrt {\sigma _{1}^{2}/n+\sigma _{2}^{2}/n}}/S={\sqrt {\frac {\sigma _{1}^{2}+\sigma _{2}^{2}}{\sigma _{1}^{2}+\sigma _{2}^{2}-2\sigma _{1}\sigma _{2}\rho }}}>1{\text{ где }}\rho :=\operatorname {corr} (Y_{i1},Y_{i2}).

Это условие выполняется всякий раз , когда внутрипарная корреляция положительна. $\ро$

Модель случайных эффектов для парного тестирования

Следующая статистическая модель полезна для понимания парного дифференциального теста.

Y_{ij}=\mu _{j}+\alpha _{i}+\varepsilon _{ij}

где $α i$ — случайный эффект , который разделяется между двумя значениями в паре, а $ε ij$ — случайный шумовой член, который независим во всех точках данных. Постоянные значения $μ 1, μ 2$ являются ожидаемыми значениями двух сравниваемых измерений, и нас интересует $δ = μ 2 - μ 1$ .

В этой модели $α i$ фиксирует «стабильные конфаундеры», которые оказывают одинаковое влияние на измерения до и после обработки. Когда мы вычитаем, чтобы сформировать $D i, α i$ отменяется, поэтому не вносит вклад в дисперсию. Внутрипарная ковариация равна

\operatorname {cov} (Y_{i1},Y_{i2})=\operatorname {var} (\alpha _{i}).

Это неотрицательно, поэтому это приводит к лучшей производительности парного теста разности по сравнению с непарным тестом, если только $α i$ не являются постоянными по $i$ ; в этом случае парные и непарные тесты эквивалентны.

В менее математических терминах непарный тест предполагает, что данные в двух сравниваемых группах независимы. Это предположение определяет форму дисперсии $D$ . Однако, когда для каждого субъекта проводятся два измерения, маловероятно, что эти два измерения независимы. Если два измерения внутри субъекта положительно коррелируют, непарный тест завышает дисперсию $D$ , делая его консервативным тестом в том смысле, что его фактическая вероятность ошибки I типа будет ниже номинального уровня с соответствующей потерей статистической мощности. В редких случаях данные могут иметь отрицательную корреляцию внутри субъектов, и в этом случае непарный тест становится антиконсервативным. Парный тест обычно используется, когда проводятся повторные измерения на одних и тех же субъектах, поскольку он имеет правильный уровень независимо от корреляции измерений внутри пар.

Использование для уменьшения путаницы

Другое применение парного разностного тестирования возникает при сравнении двух групп в наборе наблюдаемых данных с целью изолировать эффект одного интересующего фактора от эффектов других факторов, которые могут играть роль. Например, предположим, что учителя используют один из двух разных подходов, обозначенных «A» и «B», для преподавания определенной математической темы. Нас может заинтересовать, различаются ли результаты учащихся на стандартизированном тесте по математике в зависимости от подхода к преподаванию. Если учителя могут свободно использовать подход A или подход B, возможно, что учителя, чьи ученики уже хорошо справляются с математикой, предпочтут выбрать метод A (или наоборот). В этой ситуации простое сравнение средних результатов учащихся, обучающихся с использованием подхода A и подхода B, вероятно, покажет разницу, но эта разница частично или полностью обусловлена уже существующими различиями между двумя группами учащихся. В этой ситуации базовые способности учащихся служат вмешивающейся переменной , поскольку они связаны как с результатом (результатами на стандартизированном тесте), так и с назначением лечения для подхода A или подхода B.

Можно уменьшить, но не обязательно устранить, влияние смешивающих переменных, формируя «искусственные пары» и выполняя парный тест на разницу. Эти искусственные пары строятся на основе дополнительных переменных, которые, как считается, служат в качестве факторов, вмешивающихся в процесс. При объединении в пары студентов, значения которых вмешивающихся переменных схожи, большая часть разницы в значении интереса (например, стандартизированный результат теста в примере, рассмотренном выше) обусловлена фактором интереса, а меньшая часть обусловлена фактором, вмешивающимся в процесс. Формирование искусственных пар для парного теста на разницу является примером общего подхода к уменьшению влияния смешивающих переменных при сравнении с использованием наблюдаемых данных, называемого сопоставлением . [ ^2]^[3]^[4]

В качестве конкретного примера предположим, что мы наблюдаем результаты тестов учащихся X при стратегиях обучения $A$ и $B$ , и каждый учащийся имеет либо «высокий», либо «низкий» уровень математических знаний до внедрения двух стратегий обучения. Однако мы не знаем, какие учащиеся относятся к категории «высокий», а какие — к категории «низкий». Средние результаты тестов по совокупности в четырех возможных группах составляют , а доли учащихся в группах составляют , где $p$ $HA$ $+$ $p$ $HB$ $+$ $p$ $LA$ $+$ $p$ $LB$ $= 1$ . ${\begin{array}{l|ll}&A&B\\\hline {\text{Высокий}}&\mu _{HA}&\mu _{HB}\\{\text{Низкий}}&\mu _{LA}&\mu _{LB}\end{array}}$ ${\begin{array}{l|ll}&A&B\\\hline {\text{Высокий}}&p_{HA}&p_{HB}\\{\text{Низкий}}&p_{LA}&p_{LB}\end{array}}$

«Разница в лечении» среди студентов в «высокой» группе составляет $μ HA - μ HB$ , а разница в лечении среди студентов в «низкой» группе составляет $μ LA - μ LB.$ В общем, возможно, что две стратегии обучения могут отличаться в любом направлении или не показывать никакой разницы, а эффекты могут отличаться по величине или даже по знаку между «высокой» и «низкой» группами. Например, если стратегия B превосходит стратегию A для хорошо подготовленных студентов, но стратегия A превосходит стратегию B для плохо подготовленных студентов, два различия в лечении будут иметь противоположные знаки.

Поскольку мы не знаем исходных уровней учащихся, ожидаемое значение среднего балла теста $X A$ среди учащихся в группе A представляет собой среднее значение баллов на двух исходных уровнях:

E{\bar {X}}_{A}=\mu _{HA}{\frac {p_{HA}}{p_{HA}+p_{LA}}}+\mu _{LA}{\frac {p_{LA}}{p_{HA}+p_{LA}}},

и аналогично средний балл теста $X B$ среди студентов в группе B составляет

E{\bar {X}}_{B}=\mu _{HB}{\frac {p_{HB}}{p_{HB}+p_{LB}}}+\mu _{LB}{\frac {p_{LB}}{p_{HB}+p_{LB}}}.

Таким образом, ожидаемое значение наблюдаемой разницы в лечении $D = X A - X B$ равно

\mu _{HA}{\frac {p_{HA}}{p_{HA}+p_{LA}}}-\mu _{HB}{\frac {p_{HB}}{p_{HB}+p_{LB}}}+\mu _{LA}{\frac {p_{LA}}{p_{HA}+p_{LA}}}-\mu _{LB}{\frac {p_{LB}}{p_{HB}+p_{LB}}}.

Разумная нулевая гипотеза заключается в том, что эффект лечения отсутствует ни в группе студентов с «высокой», ни в группе студентов с «низкой» успеваемостью, так что $μ HA = μ HB и μ LA = μ LB.$ Согласно этой нулевой гипотезе, ожидаемое значение $D$ будет равно нулю, если

p_{HA}=(p_{HA}+p_{LA})(p_{HA}+p_{HB})

p_{HB}=(p_{HB}+p_{LB})(p_{HA}+p_{HB}).

Это условие утверждает, что распределение учащихся по группам стратегий обучения $A$ и $B$ не зависит от их математических знаний до внедрения стратегий обучения. Если это выполняется, то базовые математические знания не являются фактором, искажающим результаты, и наоборот, если базовые математические знания являются фактором, искажающим результаты, ожидаемое значение $D$ , как правило, будет отличаться от нуля. Если ожидаемое значение $D$ при нулевой гипотезе не равно нулю, то ситуация, в которой мы отвергаем нулевую гипотезу, может быть либо из-за фактического дифференциального эффекта между стратегиями обучения $A$ и $B$ , либо из-за отсутствия независимости в распределении учащихся по группам $A$ и $B$ (даже при полном отсутствии эффекта, обусловленного стратегией обучения).

Этот пример иллюстрирует, что если мы проводим прямое сравнение между двумя группами, когда присутствуют конфаундеры, мы не знаем, вызвано ли какое-либо наблюдаемое различие самой группировкой или каким-то другим фактором. Если мы можем объединить студентов в пары по точной или оценочной мере их базовых математических способностей, то мы сравниваем студентов только «в пределах строк» таблицы средних значений, приведенной выше. Следовательно, если нулевая гипотеза верна, ожидаемое значение $D$ будет равно нулю, а уровни статистической значимости имеют предполагаемую интерпретацию.

Смотрите также

Ссылки

^ Деррик, Б.; Брод, А.; Тохер, Д.; Уайт, П. (2017). «Влияние экстремального наблюдения на конструкцию парных выборок». Методы звезд - Достижения в методологии и статистике . 14 (2): 1–17.
^ Рубин, Дональд Б. (1973). «Соответствие для устранения смещения в наблюдательных исследованиях». Биометрия . 29 (1): 159–183. doi :10.2307/2529684. JSTOR 2529684.
^ Андерсон, Даллас В.; Киш, Лесли; Корнелл, Ричард Г. (1980). «О стратификации, группировке и сопоставлении». Scandinavian Journal of Statistics . 7 (2). Blackwell Publishing: 61–66. JSTOR 4615774.
^ Куппер, Лоуренс Л.; Карон, Джон М.; Кляйнбаум, Дэвид Г.; Моргенштерн, Хэл; Льюис, Дональд К. (1981). «Соответствие в эпидемиологических исследованиях: вопросы валидности и эффективности». Биометрия . 37 (2): 271–291. CiteSeerX 10.1.1.154.1197 . doi :10.2307/2530417. JSTOR 2530417. PMID 7272415.

Внешние ссылки

Относительное измерение и его обобщение в принятии решений: почему парные сравнения играют центральную роль в математике для измерения нематериальных факторов – Аналитическая иерархия/сетевой процесс (Томас Л. Саати)
Оценка парного сравнения последовательностей
Парное сравнение (Филиппо А. Салустри)