stringtranslate.com

Тест парных различий

Тест парных различий , более известный как парное сравнение , представляет собой тип теста местоположения , который используется при сравнении двух наборов парных измерений для оценки того, различаются ли их средние значения в популяции . Тест парных различий предназначен для ситуаций, когда между парами измерений существует зависимость (в этом случае тест, предназначенный для сравнения двух независимых выборок, не будет подходящим). Это применимо в дизайне внутрисубъектного исследования, т. е. в исследовании, где один и тот же набор субъектов подвергается обоим сравниваемым условиям.

Конкретные методы проведения парных разностных тестов включают парный t-тест , парный Z-тест , знаковый ранговый тест Вилкоксона [1] и другие.

Использование для уменьшения дисперсии

Парные разностные тесты для снижения дисперсии являются особым типом блокировки . Чтобы проиллюстрировать эту идею, предположим, что мы оцениваем эффективность препарата для лечения высокого уровня холестерина. Согласно плану нашего исследования, мы регистрируем 100 субъектов и измеряем уровень холестерина у каждого субъекта. Затем все субъекты лечатся препаратом в течение шести месяцев, после чего их уровень холестерина снова измеряется. Нас интересует, оказывает ли препарат какое-либо влияние на средний уровень холестерина, что можно вывести путем сравнения измерений после лечения с измерениями до лечения.

Ключевой вопрос, который мотивирует парный тест различий, заключается в том, что если исследование не имеет очень строгих критериев входа, то, скорее всего, субъекты будут существенно отличаться друг от друга до начала лечения. Важные базовые различия между субъектами могут быть связаны с их полом, возрастом, статусом курения, уровнем активности и диетой.

Существует два естественных подхода к анализу этих данных:

Если рассматривать только средние значения, парные и непарные подходы дают одинаковый результат. Чтобы увидеть это, пусть Y i 1Y i 2 будут наблюдаемыми данными для i пары, и пусть D i  =  Y i 2  −  Y i 1 . Также пусть D , Y 1 , и Y 2 обозначают, соответственно, выборочные средние значения D i , Y i 1 , и Y i 2 . Переставляя члены, мы можем увидеть, что

где n — количество пар. Таким образом, средняя разница между группами не зависит от того, организуем ли мы данные как пары.

Хотя средняя разница одинакова для парных и непарных статистик, их уровни статистической значимости могут сильно различаться, поскольку легко переоценить дисперсию непарной статистики. Благодаря тождеству Бьенеме дисперсия D равна

где σ 1 и σ 2 — это стандартные отклонения популяции данных Y i 1 и Y i 2 соответственно. Таким образом, дисперсия D ниже, если внутри каждой пары есть положительная корреляция . Такая корреляция очень распространена в условиях повторных измерений, поскольку многие факторы, влияющие на сравниваемое значение, не подвержены влиянию лечения. Например, если уровни холестерина связаны с возрастом, эффект возраста приведет к положительным корреляциям между уровнями холестерина, измеренными у субъектов, при условии, что продолжительность исследования мала по сравнению с вариацией возрастов в выборке.

Мощность парного Z-теста

Предположим, что мы используем Z-тест для анализа данных, где дисперсии данных до и после обработки σ 1 2 и σ 2 2 известны (ситуация с t-тестом аналогична). Непарная статистика Z-теста равна

Мощность непарного одностороннего теста, проведенного на уровне α  = 0,05, можно рассчитать следующим образом:

где S — стандартное отклонение D , Φ — стандартная нормальная кумулятивная функция распределения , а δ  = E Y 2  − E Y 1 — истинный эффект лечения. Константа 1,645 — 95-й процентиль стандартного нормального распределения, который определяет область отклонения теста.

По аналогичному расчету мощность парного Z-теста равна

Сравнивая выражения для мощности парных и непарных тестов, можно увидеть, что парный тест имеет большую мощность, пока

Это условие выполняется всякий раз , когда внутрипарная корреляция положительна.

Модель случайных эффектов для парного тестирования

Следующая статистическая модель полезна для понимания парного дифференциального теста.

где α iслучайный эффект , который разделяется между двумя значениями в паре, а ε ij — случайный шумовой член, который независим во всех точках данных. Постоянные значения μ 1μ 2 являются ожидаемыми значениями двух сравниваемых измерений, и нас интересует δ  =  μ 2  −  μ 1 .

В этой модели α i фиксирует «стабильные конфаундеры», которые оказывают одинаковое влияние на измерения до и после обработки. Когда мы вычитаем, чтобы сформировать D i , α i отменяется, поэтому не вносит вклад в дисперсию. Внутрипарная ковариация равна

Это неотрицательно, поэтому это приводит к лучшей производительности парного теста разности по сравнению с непарным тестом, если только α i не являются постоянными по i ; в этом случае парные и непарные тесты эквивалентны.

В менее математических терминах непарный тест предполагает, что данные в двух сравниваемых группах независимы. Это предположение определяет форму дисперсии D . Однако, когда для каждого субъекта проводятся два измерения, маловероятно, что эти два измерения независимы. Если два измерения внутри субъекта положительно коррелируют, непарный тест завышает дисперсию D , делая его консервативным тестом в том смысле, что его фактическая вероятность ошибки I типа будет ниже номинального уровня с соответствующей потерей статистической мощности. В редких случаях данные могут иметь отрицательную корреляцию внутри субъектов, и в этом случае непарный тест становится антиконсервативным. Парный тест обычно используется, когда проводятся повторные измерения на одних и тех же субъектах, поскольку он имеет правильный уровень независимо от корреляции измерений внутри пар.

Использование для уменьшения путаницы

Другое применение парного разностного тестирования возникает при сравнении двух групп в наборе наблюдаемых данных с целью изолировать эффект одного интересующего фактора от эффектов других факторов, которые могут играть роль. Например, предположим, что учителя используют один из двух разных подходов, обозначенных «A» и «B», для преподавания определенной математической темы. Нас может заинтересовать, различаются ли результаты учащихся на стандартизированном тесте по математике в зависимости от подхода к преподаванию. Если учителя могут свободно использовать подход A или подход B, возможно, что учителя, чьи ученики уже хорошо справляются с математикой, предпочтут выбрать метод A (или наоборот). В этой ситуации простое сравнение средних результатов учащихся, обучающихся с использованием подхода A и подхода B, вероятно, покажет разницу, но эта разница частично или полностью обусловлена ​​уже существующими различиями между двумя группами учащихся. В этой ситуации базовые способности учащихся служат вмешивающейся переменной , поскольку они связаны как с результатом (результатами на стандартизированном тесте), так и с назначением лечения для подхода A или подхода B.

Можно уменьшить, но не обязательно устранить, влияние смешивающих переменных, формируя «искусственные пары» и выполняя парный тест на разницу. Эти искусственные пары строятся на основе дополнительных переменных, которые, как считается, служат в качестве факторов, вмешивающихся в процесс. При объединении в пары студентов, значения которых вмешивающихся переменных схожи, большая часть разницы в значении интереса (например, стандартизированный результат теста в примере, рассмотренном выше) обусловлена ​​фактором интереса, а меньшая часть обусловлена ​​фактором, вмешивающимся в процесс. Формирование искусственных пар для парного теста на разницу является примером общего подхода к уменьшению влияния смешивающих переменных при сравнении с использованием наблюдаемых данных, называемого сопоставлением . [ 2] [3] [4]

В качестве конкретного примера предположим, что мы наблюдаем результаты тестов учащихся X при стратегиях обучения A и B , и каждый учащийся имеет либо «высокий», либо «низкий» уровень математических знаний до внедрения двух стратегий обучения. Однако мы не знаем, какие учащиеся относятся к категории «высокий», а какие — к категории «низкий». Средние результаты тестов по совокупности в четырех возможных группах составляют , а доли учащихся в группах составляют , где p HA  +  p HB  +  p LA  +  p LB  = 1 .

«Разница в лечении» среди студентов в «высокой» группе составляет μ HA  −  μ HB , а разница в лечении среди студентов в «низкой» группе составляет μ LA  −  μ LB. В общем, возможно, что две стратегии обучения могут отличаться в любом направлении или не показывать никакой разницы, а эффекты могут отличаться по величине или даже по знаку между «высокой» и «низкой» группами. Например, если стратегия B превосходит стратегию A для хорошо подготовленных студентов, но стратегия A превосходит стратегию B для плохо подготовленных студентов, два различия в лечении будут иметь противоположные знаки.

Поскольку мы не знаем исходных уровней учащихся, ожидаемое значение среднего балла теста X A среди учащихся в группе A представляет собой среднее значение баллов на двух исходных уровнях:

и аналогично средний балл теста X B среди студентов в группе B составляет

Таким образом, ожидаемое значение наблюдаемой разницы в лечении D  =  X A  −  X B равно

Разумная нулевая гипотеза заключается в том, что эффект лечения отсутствует ни в группе студентов с «высокой», ни в группе студентов с «низкой» успеваемостью, так что μ HA  =  μ HB и μ LA  =  μ LB. Согласно этой нулевой гипотезе, ожидаемое значение D будет равно нулю, если

и

Это условие утверждает, что распределение учащихся по группам стратегий обучения A и B не зависит от их математических знаний до внедрения стратегий обучения. Если это выполняется, то базовые математические знания не являются фактором, искажающим результаты, и наоборот, если базовые математические знания являются фактором, искажающим результаты, ожидаемое значение D , как правило, будет отличаться от нуля. Если ожидаемое значение D при нулевой гипотезе не равно нулю, то ситуация, в которой мы отвергаем нулевую гипотезу, может быть либо из-за фактического дифференциального эффекта между стратегиями обучения A и B , либо из-за отсутствия независимости в распределении учащихся по группам A и B (даже при полном отсутствии эффекта, обусловленного стратегией обучения).

Этот пример иллюстрирует, что если мы проводим прямое сравнение между двумя группами, когда присутствуют конфаундеры, мы не знаем, вызвано ли какое-либо наблюдаемое различие самой группировкой или каким-то другим фактором. Если мы можем объединить студентов в пары по точной или оценочной мере их базовых математических способностей, то мы сравниваем студентов только «в пределах строк» ​​таблицы средних значений, приведенной выше. Следовательно, если нулевая гипотеза верна, ожидаемое значение D будет равно нулю, а уровни статистической значимости имеют предполагаемую интерпретацию.

Смотрите также

Ссылки

  1. ^ Деррик, Б.; Брод, А.; Тохер, Д.; Уайт, П. (2017). «Влияние экстремального наблюдения на конструкцию парных выборок». Методы звезд - Достижения в методологии и статистике . 14 (2): 1–17.
  2. ^ Рубин, Дональд Б. (1973). «Соответствие для устранения смещения в наблюдательных исследованиях». Биометрия . 29 (1): 159–183. doi :10.2307/2529684. JSTOR  2529684.
  3. ^ Андерсон, Даллас В.; Киш, Лесли; Корнелл, Ричард Г. (1980). «О стратификации, группировке и сопоставлении». Scandinavian Journal of Statistics . 7 (2). Blackwell Publishing: 61–66. JSTOR  4615774.
  4. ^ Куппер, Лоуренс Л.; Карон, Джон М.; Кляйнбаум, Дэвид Г.; Моргенштерн, Хэл; Льюис, Дональд К. (1981). «Соответствие в эпидемиологических исследованиях: вопросы валидности и эффективности». Биометрия . 37 (2): 271–291. CiteSeerX 10.1.1.154.1197 . doi :10.2307/2530417. JSTOR  2530417. PMID  7272415. 

Внешние ссылки