Тест парной разницы

В статистике тест парных различий — это тип теста местоположения , который используется при сравнении двух наборов парных измерений , чтобы оценить, различаются ли их средние значения совокупности . Тест парных разностей использует дополнительную информацию об образце , которой нет в обычной ситуации непарного тестирования, либо для увеличения статистической мощности , либо для уменьшения влияния искажающих факторов .

Конкретными методами проведения тестов парных различий являются t-критерий нормально распределенных различий (где стандартное отклонение генеральной совокупности различий не известно) и парный Z-критерий (где известно стандартное отклонение генеральной совокупности различий), а также различия, которые не могут быть нормально распределены, тест знакового ранга Уилкоксона ^[1] , а также тест парных перестановок .

Самый известный пример теста парных различий — когда испытуемых измеряют до и после лечения. Такой тест «повторных измерений» сравнивает эти измерения внутри субъектов, а не между субъектами, и, как правило, будет иметь большую эффективность, чем непарный тест. Другой пример — сопоставление случаев заболевания с сопоставимыми контрольными группами.

Использование для уменьшения дисперсии

Парные разностные тесты для уменьшения дисперсии представляют собой особый тип блокировки . Чтобы проиллюстрировать эту идею, предположим, что мы оцениваем эффективность препарата для лечения высокого уровня холестерина. В рамках нашего исследования мы набираем 100 субъектов и измеряем уровень холестерина у каждого субъекта. Затем всех испытуемых лечат препаратом в течение шести месяцев, после чего у них снова измеряют уровень холестерина. Наш интерес заключается в том, оказывает ли препарат какое-либо влияние на средние уровни холестерина, о чем можно судить путем сравнения измерений после лечения с измерениями до лечения.

Ключевой вопрос, который мотивирует использовать тест парных различий, заключается в том, что, если в исследовании нет очень строгих критериев входа, вполне вероятно, что субъекты будут существенно отличаться друг от друга до начала лечения. Важные исходные различия между субъектами могут быть связаны с их полом, возрастом, статусом курения, уровнем активности и диетой.

Существует два естественных подхода к анализу этих данных:

При «неспарном анализе» данные обрабатываются так, как если бы в исследование фактически было включено 200 субъектов с последующим случайным распределением 100 субъектов в каждую из экспериментальной и контрольной групп. Группа лечения в непарном дизайне будет рассматриваться как аналогичная измерениям после лечения в парном дизайне, а контрольная группа будет рассматриваться как аналогичная измерениям до лечения. Затем мы могли бы рассчитать выборочные средние значения в группах пациентов, получавших и не получавших лечение, и сравнить эти средние значения друг с другом.
При «анализе парных различий» мы сначала вычитаем значение до лечения из значения после лечения для каждого субъекта, а затем сравниваем эти различия с нулем.

Если рассматривать только средства, парный и непарный подходы дают одинаковый результат. Чтобы убедиться в этом, пусть $Y i 1, Y i 2$ будут наблюдаемыми данными для $i- й$ пары, и пусть $D i = Y i 2 - Y i 1$ . Также пусть $D, Y 1$ и $Y 2$ обозначают соответственно выборочные средние значения $D i$ , $Y i 1$ и $Y i 2$ . Переставив термины, мы увидим, что

{\bar {D}}={\frac {1}{n}}\sum _{i}(Y_{i2}-Y_{i1})={\frac {1}{n}}\ sum _{i}Y_{i2}-{\frac {1}{n}}\sum _{i}Y_{i1}={\bar {Y}}_{2}-{\bar {Y}} _{1},

где n — количество пар. Таким образом, средняя разница между группами не зависит от того, организуем ли мы данные в виде пар.

Хотя средняя разница одинакова для парных и непарных статистических данных, их уровни статистической значимости могут сильно различаться, поскольку дисперсию непарной статистики легко переоценить. Дисперсия $D$ равна

{\begin{aligned}{\rm {var}}({\bar {D}})&=\operatorname {var} ({\bar {Y}}_{2}-{\bar {Y }}_{1})\\&=\operatorname {var} ({\bar {Y}}_{2})+\operatorname {var} ({\bar {Y}}_{1})-2 \operatorname {cov} ({\bar {Y}}_{1},{\bar {Y}}_{2})\\&=\sigma _{1}^{2}/n+\sigma _{ 2}^{2}/n-2\sigma _{1}\sigma _{2}\operatorname {corr} (Y_{i1},Y_{i2})/n,\end{aligned}}

где $σ 1$ и $σ 2$ — стандартные отклонения совокупности данных $Y i 1$ и $Y i 2$ соответственно. Таким образом, дисперсия $D$ будет ниже, если внутри каждой пары существует положительная корреляция . Такая корреляция очень распространена при повторных измерениях, поскольку обработка не влияет на многие факторы, влияющие на сравниваемую величину. Например, если уровни холестерина связаны с возрастом, влияние возраста приведет к положительной корреляции между уровнями холестерина, измеренными у субъектов, при условии, что продолжительность исследования невелика по сравнению с различиями в возрасте в выборке.

Мощность парного Z-теста

Предположим, мы используем Z-тест для анализа данных, где известны отклонения данных до и после лечения $σ 12$ и $σ 22$ (ситуация с t-тестом аналогична). Непарная статистика Z-теста:

{\frac {{\bar {Y}}_{2}-{\bar {Y}}_{1}}{\sqrt {\sigma _{1}^{2}/n+\sigma _ {2}^{2}/n}}},

Мощность непарного одностороннего теста, проведенного на уровне $α = 0,05$ , можно рассчитать следующим образом:

{\begin{aligned}P\left({\frac {{\bar {Y}}_{2}-{\bar {Y}}_{1}}{\sqrt {\sigma _{1 }^{2}/n+\sigma _{2}^{2}/n}}}>1,645\right)&=P\left({\frac {{\bar {Y}}_{2}-{ \bar {Y}}_{1}}{S}}>1.645{\sqrt {\sigma _{1}^{2}/n+\sigma _{2}^{2}/n}}/S\ right)\\&=P\left({\frac {{\bar {Y}}_{2}-{\bar {Y}}_{1}-\delta +\delta }{S}}>1,645 {\sqrt {\sigma _{1}^{2}/n+\sigma _{2}^{2}/n}}/S\right)\\&=P\left({\frac {{\bar {Y}}_{2}-{\bar {Y}}_{1}-\delta }{S}}>1,645{\sqrt {\sigma _{1}^{2}/n+\sigma _{ 2}^{2}/n}}/S-\delta /S\right)\\&=1-\Phi (1.645{\sqrt {\sigma _{1}^{2}/n+\sigma _{ 2}^{2}/n}}/S-\delta /S),\end{aligned}}

где S — стандартное отклонение D , Φ — стандартная нормальная кумулятивная функция распределения , а δ = E Y ₂ − E Y ₁ — истинный эффект лечения. Константа 1,645 — это 95-й процентиль стандартного нормального распределения, определяющий область отклонения теста.

По аналогичному расчету мощность парного Z-теста равна

1-\Phi (1,645-\delta /S).

Сравнивая выражения мощности парного и непарного тестов, можно увидеть, что парный тест имеет большую мощность, пока

{\sqrt {\sigma _{1}^{2}/n+\sigma _{2}^{2}/n}}/S={\sqrt {\frac {\sigma _{1}^ {2}+\sigma _{2}^{2}}{\sigma _{1}^{2}+\sigma _{2}^{2}-2\sigma _{1}\sigma _{2 }\rho }}}>1{\text{ где }}\rho :=\operatorname {corr} (Y_{i1},Y_{i2}).

Это условие выполняется всякий раз , когда внутрипарная корреляция положительна. $\rho$

Модель случайных эффектов для парного тестирования

Следующая статистическая модель полезна для понимания теста парных разностей.

Y_{ij}=\mu _{j}+\alpha _{i}+\varepsilon _{ij}

где $α i$ — случайный эффект , который распределяется между двумя значениями в паре, а $ε ij$ — случайный шумовой термин, который независим во всех точках данных. Постоянные значения $µ 1, µ 2$ являются ожидаемыми значениями двух сравниваемых измерений, и нас интересует $δ = µ 2 - µ 1$ .

В этой модели $α i$ улавливает «стабильные искажающие факторы», которые оказывают одинаковое влияние на измерения до и после обработки. Когда мы вычитаем, чтобы сформировать $D i, α i$ сокращается, поэтому не вносит вклад в дисперсию. Внутрипарная ковариация равна

\operatorname {cov} (Y_{i1},Y_{i2})=\operatorname {var} (\alpha _{i}).

Это неотрицательное значение, поэтому оно приводит к лучшей производительности теста парных различий по сравнению с тестом непарных, если только α $i не$ является постоянным по $i$ , и в этом случае парные и непарные тесты эквивалентны.

Говоря менее математическим языком, непарный тест предполагает, что данные в двух сравниваемых группах независимы. Это предположение определяет форму дисперсии $D$ . Однако если для каждого субъекта проводятся два измерения, маловероятно, что эти два измерения будут независимыми. Если два измерения у испытуемого положительно коррелируют, непарный тест завышает дисперсию $D$ , что делает его консервативным тестом в том смысле, что фактическая вероятность ошибки типа I будет ниже номинального уровня с соответствующей потерей статистической мощности. . В редких случаях данные могут иметь отрицательную корреляцию внутри субъектов, и в этом случае непарный тест становится антиконсервативным. Парный тест обычно применяют при повторных измерениях у одних и тех же испытуемых, поскольку он имеет правильный уровень независимо от корреляции измерений внутри пар.

Использование для уменьшения путаницы

Другое применение тестирования парных различий возникает при сравнении двух групп в наборе данных наблюдений с целью изолировать эффект одного интересующего фактора от эффектов других факторов, которые могут играть роль. Например, предположим, что учителя применяют один из двух разных подходов, обозначенных «А» и «Б», к преподаванию определенной математической темы. Нас может заинтересовать, различаются ли результаты учащихся на стандартизированном тесте по математике в зависимости от подхода к обучению. Если учителя могут свободно использовать подход А или подход Б, вполне возможно, что учителя, чьи ученики уже хорошо успевают по математике, предпочтут метод А (или наоборот). В этой ситуации простое сравнение средних результатов учащихся, обучающихся по подходам А и Б, скорее всего, покажет разницу, но эта разница частично или полностью обусловлена ранее существовавшими различиями между двумя группами учащихся. В этой ситуации базовые способности студентов служат вмешивающейся переменной , поскольку они связаны как с результатом (успехами по стандартизированному тесту), так и с назначением лечения в соответствии с подходом А или подходом Б.

Можно уменьшить, но не обязательно устранить, влияние смешивающих переменных, сформировав «искусственные пары» и выполнив тест на парные различия. Эти искусственные пары создаются на основе дополнительных переменных, которые, как считается, играют роль искажающих факторов. При объединении в пары учащихся, чьи значения смешивающих переменных схожи, большая часть разницы в интересующем значении (например, в баллах по стандартизированному тесту в примере, рассмотренном выше) обусловлена фактором интереса, а меньшая часть обусловлена к сбивающему с толку. Формирование искусственных пар для проверки парных различий является примером общего подхода к уменьшению эффектов смешения при проведении сравнений с использованием данных наблюдений, называемого сопоставлением . ^[2]^[3]^[4]

В качестве конкретного примера предположим, что мы наблюдаем результаты тестов X учащихся по стратегиям обучения $A$ и $B$ , и каждый студент имеет либо «высокий», либо «низкий» уровень математических знаний до того, как будут реализованы две стратегии обучения. Однако мы не знаем, какие студенты относятся к «высокой» категории, а какие — к «низкой». Средние результаты тестов населения в четырех возможных группах равны , а доля учащихся в группах равна p $HA$ $+$ $p$ $HB$ $+$ $p$ $LA$ $+$ $p$ $LB$ $=$ $1$ . ${\begin{array}{l|ll}&A&B\\\hline {\text{High}} &\mu _{HA}&\mu _{HB}\\{\text{Low}}& \mu _{LA}&\mu _{LB}\end{array}}$ ${\begin{array}{l|ll}&A&B\\\hline {\text{High}} &p_{HA} &p_{HB}\\{\text{Low}}&p_{LA}&p_{LB }\end{массив}}$

«Разница в лечении» среди студентов в «высокой» группе составляет $μ HA - μ HB$ , а разница в лечении среди студентов в «низкой» группе – $μ LA - μ LB.$ В целом возможно, что две стратегии обучения могут различаться в любом направлении или не обнаруживать различий, а эффекты могут различаться по величине или даже по знаку между «высокими» и «низкими» группами. Например, если бы стратегия Б превосходила стратегию А для хорошо подготовленных учащихся, а стратегия А превосходила бы стратегию Б для плохо подготовленных учащихся, то два различия в подходах имели бы противоположные знаки.

Поскольку мы не знаем базовые уровни учащихся, ожидаемое значение среднего результата теста $X A$ среди учащихся в группе А представляет собой среднее значение баллов на двух базовых уровнях:

E{\bar {X}}_{A}=\mu _{HA}{\frac {p_{HA}}{p_{HA}+p_{LA}}}+\mu _{LA} {\frac {p_{LA}}{p_{HA}+p_{LA}}},

и аналогичным образом средний балл по тесту $X B$ среди студентов в группе B равен

E{\bar {X}}_{B}=\mu _{HB}{\frac {p_{HB}}{p_{HB}+p_{LB}}}+\mu _{LB}{\frac {p_{LB}}{p_{HB}+p_{LB}}}.

Таким образом, ожидаемое значение наблюдаемой разницы в лечении $D = X A - X B$ равно

\mu _{HA}{\frac {p_{HA}}{p_{HA}+p_{LA}}}-\mu _{HB}{\frac {p_{HB}}{p_{HB}+p_{LB}}}+\mu _{LA}{\frac {p_{LA}}{p_{HA}+p_{LA}}}-\mu _{LB}{\frac {p_{LB}}{p_{HB}+p_{LB}}}.

Разумная нулевая гипотеза состоит в том, что эффект от лечения отсутствует ни в «высоких», ни в «низких» группах студентов, так что $μ HA = μ HB и μ LA = μ LB$ . Согласно этой нулевой гипотезе, ожидаемое значение $D$ будет равно нулю, если

p_{HA}=(p_{HA}+p_{LA})(p_{HA}+p_{HB})

p_{HB}=(p_{HB}+p_{LB})(p_{HA}+p_{HB}).

Это условие утверждает, что отнесение учащихся к группам стратегии обучения $A$ и $B$ не зависит от их математических знаний до того, как стратегии обучения будут реализованы. Если это так, базовые математические знания не являются помехой, и наоборот, если базовые математические знания являются помехой, ожидаемое значение $D$ обычно будет отличаться от нуля. Если ожидаемое значение $D$ при нулевой гипотезе не равно нулю, то ситуация, когда мы отвергаем нулевую гипотезу, может быть связана либо с фактическим дифференциальным эффектом между стратегиями обучения $A$ и $B$ , либо с отсутствием независимости. при отнесении студентов к группам $А$ и $Б$ (даже при полном отсутствии эффекта от стратегии обучения).

Этот пример показывает, что если мы проводим прямое сравнение между двумя группами при наличии искажающих факторов, мы не знаем, связано ли какое-либо наблюдаемое различие с самим группированием или с каким-то другим фактором. Если мы можем объединить учащихся в пары по точному или предполагаемому показателю их базовых математических способностей, тогда мы сравниваем учащихся только «в пределах строк» таблицы средних значений, приведенной выше. Следовательно, если нулевая гипотеза верна, ожидаемое значение $D$ будет равно нулю, а уровни статистической значимости имеют свою предполагаемую интерпретацию.

Смотрите также

Внешние ссылки

Относительное измерение и его обобщение при принятии решений: почему парные сравнения играют центральную роль в математике для измерения нематериальных факторов - Аналитическая иерархия/сетевой процесс (Томас Л. Саати)
Оценка попарного сравнения последовательностей
Парное сравнение (Филиппо А. Салустри)