stringtranslate.com

Тест парной разницы

В статистике тест парных различий — это тип теста местоположения , который используется при сравнении двух наборов парных измерений , чтобы оценить, различаются ли их средние значения совокупности . Тест парных разностей использует дополнительную информацию об образце , которой нет в обычной ситуации непарного тестирования, либо для увеличения статистической мощности , либо для уменьшения влияния искажающих факторов .

Конкретными методами проведения тестов парных различий являются t-критерий нормально распределенных различий (где стандартное отклонение генеральной совокупности различий не известно) и парный Z-критерий (где известно стандартное отклонение генеральной совокупности различий), а также различия, которые не могут быть нормально распределены, тест знакового ранга Уилкоксона [1] , а также тест парных перестановок .

Самый известный пример теста парных различий — когда испытуемых измеряют до и после лечения. Такой тест «повторных измерений» сравнивает эти измерения внутри субъектов, а не между субъектами, и, как правило, будет иметь большую эффективность, чем непарный тест. Другой пример — сопоставление случаев заболевания с сопоставимыми контрольными группами.

Использование для уменьшения дисперсии

Парные разностные тесты для уменьшения дисперсии представляют собой особый тип блокировки . Чтобы проиллюстрировать эту идею, предположим, что мы оцениваем эффективность препарата для лечения высокого уровня холестерина. В рамках нашего исследования мы набираем 100 субъектов и измеряем уровень холестерина у каждого субъекта. Затем всех испытуемых лечат препаратом в течение шести месяцев, после чего у них снова измеряют уровень холестерина. Наш интерес заключается в том, оказывает ли препарат какое-либо влияние на средние уровни холестерина, о чем можно судить путем сравнения измерений после лечения с измерениями до лечения.

Ключевой вопрос, который мотивирует использовать тест парных различий, заключается в том, что, если в исследовании нет очень строгих критериев входа, вполне вероятно, что субъекты будут существенно отличаться друг от друга до начала лечения. Важные исходные различия между субъектами могут быть связаны с их полом, возрастом, статусом курения, уровнем активности и диетой.

Существует два естественных подхода к анализу этих данных:

Если рассматривать только средства, парный и непарный подходы дают одинаковый результат. Чтобы убедиться в этом, пусть Y i 1Y i 2 будут наблюдаемыми данными для i- й пары, и пусть D i  =  Y i 2  −  Y i 1 . Также пусть D , Y 1 и Y 2 обозначают соответственно выборочные средние значения D i , Y i 1 и Y i 2 . Переставив термины, мы увидим, что

где n — количество пар. Таким образом, средняя разница между группами не зависит от того, организуем ли мы данные в виде пар.

Хотя средняя разница одинакова для парных и непарных статистических данных, их уровни статистической значимости могут сильно различаться, поскольку дисперсию непарной статистики легко переоценить. Дисперсия D равна

где σ 1 и σ 2 — стандартные отклонения совокупности данных Y i 1 и Y i 2 соответственно. Таким образом, дисперсия D будет ниже, если внутри каждой пары существует положительная корреляция . Такая корреляция очень распространена при повторных измерениях, поскольку обработка не влияет на многие факторы, влияющие на сравниваемую величину. Например, если уровни холестерина связаны с возрастом, влияние возраста приведет к положительной корреляции между уровнями холестерина, измеренными у субъектов, при условии, что продолжительность исследования невелика по сравнению с различиями в возрасте в выборке.

Мощность парного Z-теста

Предположим, мы используем Z-тест для анализа данных, где известны отклонения данных до и после лечения σ 1 2 и σ 2 2 (ситуация с t-тестом аналогична). Непарная статистика Z-теста:

Мощность непарного одностороннего теста, проведенного на уровне α  = 0,05 , можно рассчитать следующим образом:

где S — стандартное отклонение D , Φ — стандартная нормальная кумулятивная функция распределения , а δ  = E Y 2  − E Y 1 — истинный эффект лечения. Константа 1,645 — это 95-й процентиль стандартного нормального распределения, определяющий область отклонения теста.

По аналогичному расчету мощность парного Z-теста равна

Сравнивая выражения мощности парного и непарного тестов, можно увидеть, что парный тест имеет большую мощность, пока

Это условие выполняется всякий раз , когда внутрипарная корреляция положительна.

Модель случайных эффектов для парного тестирования

Следующая статистическая модель полезна для понимания теста парных разностей.

где α iслучайный эффект , который распределяется между двумя значениями в паре, а ε ij — случайный шумовой термин, который независим во всех точках данных. Постоянные значения µ 1µ 2 являются ожидаемыми значениями двух сравниваемых измерений, и нас интересует δ  =  µ 2  −  µ 1 .

В этой модели α i улавливает «стабильные искажающие факторы», которые оказывают одинаковое влияние на измерения до и после обработки. Когда мы вычитаем, чтобы сформировать D i , α i сокращается, поэтому не вносит вклад в дисперсию. Внутрипарная ковариация равна

Это неотрицательное значение, поэтому оно приводит к лучшей производительности теста парных различий по сравнению с тестом непарных, если только α i не является постоянным по i , и в этом случае парные и непарные тесты эквивалентны.

Говоря менее математическим языком, непарный тест предполагает, что данные в двух сравниваемых группах независимы. Это предположение определяет форму дисперсии D . Однако если для каждого субъекта проводятся два измерения, маловероятно, что эти два измерения будут независимыми. Если два измерения у испытуемого положительно коррелируют, непарный тест завышает дисперсию D , что делает его консервативным тестом в том смысле, что фактическая вероятность ошибки типа I будет ниже номинального уровня с соответствующей потерей статистической мощности. . В редких случаях данные могут иметь отрицательную корреляцию внутри субъектов, и в этом случае непарный тест становится антиконсервативным. Парный тест обычно применяют при повторных измерениях у одних и тех же испытуемых, поскольку он имеет правильный уровень независимо от корреляции измерений внутри пар.

Использование для уменьшения путаницы

Другое применение тестирования парных различий возникает при сравнении двух групп в наборе данных наблюдений с целью изолировать эффект одного интересующего фактора от эффектов других факторов, которые могут играть роль. Например, предположим, что учителя применяют один из двух разных подходов, обозначенных «А» и «Б», к преподаванию определенной математической темы. Нас может заинтересовать, различаются ли результаты учащихся на стандартизированном тесте по математике в зависимости от подхода к обучению. Если учителя могут свободно использовать подход А или подход Б, вполне возможно, что учителя, чьи ученики уже хорошо успевают по математике, предпочтут метод А (или наоборот). В этой ситуации простое сравнение средних результатов учащихся, обучающихся по подходам А и Б, скорее всего, покажет разницу, но эта разница частично или полностью обусловлена ​​ранее существовавшими различиями между двумя группами учащихся. В этой ситуации базовые способности студентов служат вмешивающейся переменной , поскольку они связаны как с результатом (успехами по стандартизированному тесту), так и с назначением лечения в соответствии с подходом А или подходом Б.

Можно уменьшить, но не обязательно устранить, влияние смешивающих переменных, сформировав «искусственные пары» и выполнив тест на парные различия. Эти искусственные пары создаются на основе дополнительных переменных, которые, как считается, играют роль искажающих факторов. При объединении в пары учащихся, чьи значения смешивающих переменных схожи, большая часть разницы в интересующем значении (например, в баллах по стандартизированному тесту в примере, рассмотренном выше) обусловлена ​​фактором интереса, а меньшая часть обусловлена к сбивающему с толку. Формирование искусственных пар для проверки парных различий является примером общего подхода к уменьшению эффектов смешения при проведении сравнений с использованием данных наблюдений, называемого сопоставлением . [2] [3] [4]

В качестве конкретного примера предположим, что мы наблюдаем результаты тестов X учащихся по стратегиям обучения A и B , и каждый студент имеет либо «высокий», либо «низкий» уровень математических знаний до того, как будут реализованы две стратегии обучения. Однако мы не знаем, какие студенты относятся к «высокой» категории, а какие — к «низкой». Средние результаты тестов населения в четырех возможных группах равны , а доля учащихся в группах равна p HA +  p  HB +  p  LA +  p  LB =  1 .

«Разница в лечении» среди студентов в «высокой» группе составляет μ HA  –  μ HB , а разница в лечении среди студентов в «низкой» группе – μ LA  –  μ LB. В целом возможно, что две стратегии обучения могут различаться в любом направлении или не обнаруживать различий, а эффекты могут различаться по величине или даже по знаку между «высокими» и «низкими» группами. Например, если бы стратегия Б превосходила стратегию А для хорошо подготовленных учащихся, а стратегия А превосходила бы стратегию Б для плохо подготовленных учащихся, то два различия в подходах имели бы противоположные знаки.

Поскольку мы не знаем базовые уровни учащихся, ожидаемое значение среднего результата теста X A среди учащихся в группе А представляет собой среднее значение баллов на двух базовых уровнях:

и аналогичным образом средний балл по тесту X B среди студентов в группе B равен

Таким образом, ожидаемое значение наблюдаемой разницы в лечении D  =  X A  −  X B равно

Разумная нулевая гипотеза состоит в том, что эффект от лечения отсутствует ни в «высоких», ни в «низких» группах студентов, так что μ HA  =  μ HB и μ LA  =  μ LB . Согласно этой нулевой гипотезе, ожидаемое значение D будет равно нулю, если

и

Это условие утверждает, что отнесение учащихся к группам стратегии обучения A и B не зависит от их математических знаний до того, как стратегии обучения будут реализованы. Если это так, базовые математические знания не являются помехой, и наоборот, если базовые математические знания являются помехой, ожидаемое значение D обычно будет отличаться от нуля. Если ожидаемое значение D при нулевой гипотезе не равно нулю, то ситуация, когда мы отвергаем нулевую гипотезу, может быть связана либо с фактическим дифференциальным эффектом между стратегиями обучения A и B , либо с отсутствием независимости. при отнесении студентов к группам А и Б (даже при полном отсутствии эффекта от стратегии обучения).

Этот пример показывает, что если мы проводим прямое сравнение между двумя группами при наличии искажающих факторов, мы не знаем, связано ли какое-либо наблюдаемое различие с самим группированием или с каким-то другим фактором. Если мы можем объединить учащихся в пары по точному или предполагаемому показателю их базовых математических способностей, тогда мы сравниваем учащихся только «в пределах строк» ​​таблицы средних значений, приведенной выше. Следовательно, если нулевая гипотеза верна, ожидаемое значение D будет равно нулю, а уровни статистической значимости имеют свою предполагаемую интерпретацию.

Смотрите также

Рекомендации

  1. ^ Деррик, Б; Броуд, А; Тохер, Д; Уайт, П. (2017). «Влияние экстремальных наблюдений на дизайн парных выборок». Metodološki Zvezki - Достижения методологии и статистики . 14 (2): 1–17.
  2. ^ Рубин, Дональд Б. (1973). «Сопоставление для устранения систематической ошибки в наблюдательных исследованиях». Биометрия . 29 (1): 159–183. дои : 10.2307/2529684. JSTOR  2529684.
  3. ^ Андерсон, Даллас В.; Киш, Лесли; Корнелл, Ричард Г. (1980). «О стратификации, группировке и сопоставлении». Скандинавский статистический журнал . Издательство Блэквелл. 7 (2): 61–66. JSTOR  4615774.
  4. ^ Куппер, Лоуренс Л.; Карон, Джон М.; Кляйнбаум, Дэвид Г.; Моргенштерн, Хэл; Льюис, Дональд К. (1981). «Сопоставление эпидемиологических исследований: соображения обоснованности и эффективности». Биометрия . 37 (2): 271–291. CiteSeerX 10.1.1.154.1197 . дои : 10.2307/2530417. JSTOR  2530417. PMID  7272415. 

Внешние ссылки