Сбивающий с толку

В причинном выводе искажающая переменная (также искажающая переменная , искажающий фактор , посторонняя детерминанта или скрытая переменная ) — это переменная, которая влияет как на зависимую переменную, так и на независимую переменную , вызывая ложную ассоциацию . Смешение — это причинная концепция, и поэтому ее нельзя описать в терминах корреляций или ассоциаций. ^[1]^[2]^[3] Существование искажающих факторов является важным количественным объяснением того, почему корреляция не подразумевает причинно-следственную связь . Некоторые обозначения специально предназначены для определения существования, возможного существования или отсутствия факторов, искажающих причинно-следственные связи между элементами системы.

Смущение – это угроза внутренней валидности . ^[4]

Определение

Смешение определяется с точки зрения модели генерации данных. Пусть X — некоторая независимая переменная , а Y — некоторая зависимая переменная . Чтобы оценить влияние X на Y , статистик должен исключить влияние посторонних переменных , которые влияют как на X , так и на Y. Мы говорим, что X и Y смешиваются с какой-то другой переменной Z , если Z причинно влияет как на X , так и на Y.

Пусть – вероятность события Y = y при гипотетическом вмешательстве X = x . X и Y не смешиваются тогда и только тогда, когда выполняется следующее: $P(y\mid {\text{do}}(x))$

для всех значений X = x и Y = y , где — условная вероятность увидеть X = x . Интуитивно это равенство означает, что X и Y не смешиваются, если связь между ними, наблюдаемая наблюдениями, такая же, как связь, которая была бы измерена в контролируемом эксперименте с рандомизированным x . $P (y\mid x)$

В принципе, определяющее равенство можно проверить на основе модели генерации данных, предполагая, что у нас есть все уравнения и вероятности, связанные с моделью. Это делается путем моделирования вмешательства (см. Байесовскую сеть ) и проверки, равна ли результирующая вероятность Y условной вероятности . Однако оказывается, что одной только структуры графа достаточно для проверки равенства . $P(y\mid {\text{do}}(x))=P(y\mid x)$ ${\text{do}}(X=x)$ $P (y\mid x)$ $P(y\mid {\text{do}}(x))=P(y\mid x)$

Контроль

Рассмотрим исследователя, пытающегося оценить эффективность препарата X на основе данных о популяции, в которых употребление препарата было выбором пациента. Данные показывают, что пол ( Z ) влияет на выбор препарата пациентом, а также на его шансы на выздоровление ( Y ). В этом сценарии пол Z смешивает отношения между X и Y, поскольку Z является причиной как X , так и Y :

Причинно-следственная диаграмма гендера как распространенной причины употребления наркотиков и выздоровления

У нас есть это

потому что наблюдательная величина содержит информацию о корреляции между X и Z , а интервенционная величина - нет (поскольку X не коррелирует с Z в рандомизированном эксперименте). Можно показать ^[5] , что в тех случаях, когда доступны только данные наблюдений, несмещенную оценку искомой величины можно получить путем «поправки» на все мешающие факторы, а именно, обусловления их различных значений и усреднения результата. В случае одного искажающего фактора Z это приводит к «формуле корректировки»: $P(y\mid {\text{do}}(x))$

что дает несмещенную оценку причинного влияния X на Y. Та же самая формула корректировки работает, когда имеется несколько искажающих факторов, за исключением того, что в этом случае выбор набора Z переменных, который гарантировал бы несмещенные оценки, должен осуществляться с осторожностью. Критерий правильного выбора переменных называется «Черным ходом» ^[5]^[6] и требует, чтобы выбранный набор Z «блокировал» (или перехватывал) каждый путь между X и Y , который содержит стрелку в X. Такие наборы называется «допустимым черным ходом» и может включать переменные, которые не являются общими причинами X и Y , а просто их доверенными лицами.

Возвращаясь к примеру с употреблением наркотиков, поскольку Z соответствует требованию «Черного хода» (т. е. перехватывает один путь «Черного хода »), формула корректировки «Черного хода» действительна: $X\leftarrow Z\rightarrow Y$

Таким образом, врач может предсказать вероятный эффект от введения препарата на основе наблюдательных исследований, в которых условные вероятности, стоящие в правой части уравнения, можно оценить с помощью регрессии.

Вопреки распространенному мнению, добавление ковариат в набор корректировок Z может привести к смещению. ^[7] Типичный контрпример возникает, когда Z является общим эффектом X и Y , ^[8] случай, в котором Z не является искажающим фактором (т. е. нулевой набор является допустимым «черным ходом»), и поправка на Z создаст известную предвзятость. как « предвзятость коллайдера » или « парадокс Берксона ». Средства контроля, которые не являются хорошими помехами, иногда называют плохими средствами контроля .

В общем, смешивание можно контролировать путем корректировки тогда и только тогда, когда существует набор наблюдаемых ковариат, который удовлетворяет условию «черного хода». Более того, если Z является таким набором, то корректировочная формула уравнения. (3) справедливо. ^[5]^[6] До-исчисление Перла обеспечивает все возможные условия, при которых можно оценить, не обязательно путем корректировки. ^[9] $P(y\mid {\text{do}}(x))$

История

По мнению Морабиа (2011), ^[10] слово « смешивать » происходит от средневекового латинского глагола «confundere», который означал «смешивание», и, вероятно, было выбрано для обозначения путаницы (от латыни: con=with + fusus=смешать или слить вместе) между причиной, которую необходимо оценить, и другими причинами, которые могут повлиять на результат и, таким образом, сбить с толку или помешать желаемой оценке. Гренланд, Робинс и Перл ^[11] отмечают раннее использование термина «смешение» в причинном выводе Джоном Стюартом Миллем в 1843 году.

Фишер ввел слово «смешение» в своей книге 1935 года «План экспериментов» ^[12] специально для обозначения последствий блокировки (т. е. разделения ) набора комбинаций лечения в факторном эксперименте , в результате чего определенные взаимодействия могут быть «смешаны». с блоками». Это популяризировало идею смешения статистических данных, хотя Фишера интересовал контроль неоднородности в экспериментальных единицах, а не причинно-следственные выводы.

По мнению Ванденбрука (2004) ^[13], именно Киш ^[14] использовал слово «смешение» в смысле «несравнимости» двух или более групп (например, подвергшихся и необлученных) в обсервационном исследовании. Формальные условия, определяющие, что делает одни группы «сопоставимыми», а другие — «несравнимыми», были позже разработаны в эпидемиологии Гренландом и Робинсом (1986) ^[15] с использованием контрфактического языка Неймана (1935) ^[16] и Рубина (1974). ^[17] Позже они были дополнены графическими критериями, такими как условие «черной двери» ( Pearl 1993; Greenland, Robins and Pearl 1999). ^[11]^[5]

Было показано, что графические критерии формально эквивалентны контрфактическому определению ^[18] , но более прозрачны для исследователей, опирающихся на модели процессов.

Типы

В случае оценок риска , оценивающих величину и характер риска для здоровья человека , важно контролировать смешивание, чтобы изолировать эффект конкретной опасности, такой как пищевая добавка, пестицид или новый препарат. Для проспективных исследований трудно набирать и проверять добровольцев с одинаковым опытом (возраст, диета, образование, географическое положение и т. д.), а в исторических исследованиях может наблюдаться аналогичная вариабельность. Из-за неспособности контролировать изменчивость добровольцев и исследований на людях, смешивание является особой проблемой. По этим причинам эксперименты предлагают способ избежать большинства форм путаницы.

В некоторых дисциплинах смешение подразделяется на разные типы. В эпидемиологии один из типов — это «вмешательство по показаниям» ^[19] , которое относится к введению в заблуждение наблюдательными исследованиями . Поскольку прогностические факторы могут влиять на решения о лечении (и систематические оценки эффектов лечения), контроль известных прогностических факторов может уменьшить эту проблему, но всегда возможно, что забытый или неизвестный фактор не был включен или что факторы взаимодействуют сложно. Смешение по показаниям было описано как наиболее важное ограничение наблюдательных исследований. На рандомизированные исследования не влияет влияние показаний из-за случайного распределения .

Смешивающие переменные также можно классифицировать в зависимости от их источника. Выбор инструмента измерения (операционная путаница), ситуационных характеристик (процедурная путаница) или межиндивидуальных различий (личностная путаница).

Операционное смешивание может произойти как в экспериментальных , так и в неэкспериментальных исследованиях. Этот тип путаницы возникает, когда мера, предназначенная для оценки конкретной конструкции, непреднамеренно измеряет также и что-то еще. ^[20]
Процедурное смешение может произойти в лабораторном эксперименте или квазиэксперименте . Этот тип путаницы возникает, когда исследователь по ошибке допускает изменение другой переменной вместе с независимой переменной, которой манипулируют. ^[20]
Смешение людей происходит , когда две или более группы единиц анализируются вместе (например, работники разных профессий), несмотря на различия по одной или нескольким другим (наблюдаемым или ненаблюдаемым) характеристикам (например, полу). ^[21]

Примеры

Допустим, кто-то изучает связь между порядком рождения (1-й ребенок, 2-й ребенок и т. д.) и наличием у ребенка синдрома Дауна . В этом сценарии возраст матери будет вмешивающейся переменной:

Более высокий возраст матери напрямую связан с синдромом Дауна у ребенка.
Более высокий возраст матери напрямую связан с синдромом Дауна, независимо от порядка рождения (мать, рожающая первого и третьего ребенка в возрасте 50 лет, подвергается такому же риску).
Возраст матери напрямую связан с порядком рождения (2-й ребенок, за исключением близнецов, рождается, когда мать старше, чем она была на момент рождения 1-го ребенка)
Возраст матери не является следствием порядка рождения (рождение второго ребенка не меняет возраст матери).

При оценке риска такие факторы, как возраст, пол и уровень образования, часто влияют на состояние здоровья, и поэтому их следует контролировать. Помимо этих факторов, исследователи могут не учитывать или не иметь доступа к данным о других причинных факторах. Примером может служить изучение влияния курения табака на здоровье человека. Курение, употребление алкоголя и диета — это связанные между собой образ жизни. Оценка риска, учитывающая последствия курения, но не учитывающая потребление алкоголя или диету, может переоценить риск курения. ^[22] Курение и путаница рассматриваются в оценках профессиональных рисков, таких как безопасность добычи угля. ^[23] Если в конкретной профессии нет большой выборки некурящих или непьющих людей, оценка риска может быть смещена в сторону обнаружения негативного воздействия на здоровье.

Уменьшение вероятности путаницы

Снижения вероятности возникновения и влияния мешающих факторов можно добиться за счет увеличения типов и количества сравнений, выполняемых в анализе. Если меры или манипуляции с основными конструкциями смешаны (т.е. существуют операционные или процедурные помехи), анализ подгрупп может не выявить проблем в анализе. Кроме того, увеличение количества сравнений может создать другие проблемы (см. множественные сравнения ).

Экспертная оценка — это процесс, который может помочь уменьшить количество случаев путаницы как до проведения исследования, так и после проведения анализа. Рецензирование опирается на коллективный опыт в рамках дисциплины для выявления потенциальных недостатков в дизайне и анализе исследования, включая способы, которыми результаты могут зависеть от искажающих факторов. Аналогичным образом, репликация может проверить надежность результатов одного исследования в альтернативных условиях исследования или альтернативных анализах (например, с учетом потенциальных искажающих факторов, не выявленных в первоначальном исследовании).

Смешивающие эффекты могут возникать с меньшей вероятностью и действовать одинаково в разных случаях и в разных местах. ^{[ нужна цитата ]} При выборе участков для исследования можно подробно охарактеризовать окружающую среду на участках исследования, чтобы гарантировать, что места экологически схожи и, следовательно, с меньшей вероятностью будут иметь мешающие переменные. Наконец, можно изучить взаимосвязь между переменными окружающей среды, которые могут исказить анализ, и измеряемыми параметрами. Информация, относящаяся к переменным окружающей среды, может затем использоваться в моделях для конкретного участка для выявления остаточной дисперсии, которая может быть связана с реальными последствиями. ^[24]

В зависимости от типа плана исследования существуют различные способы его изменения, чтобы активно исключать или контролировать мешающие переменные: ^[25]

В исследованиях «случай-контроль» факторы, искажающие результаты, в равной степени распределяются как по случаям, так и по контролю. Например, если кто-то хочет изучить причину инфаркта миокарда и считает, что возраст является вероятной вмешивающейся переменной, каждому 67-летнему пациенту с инфарктом будет сопоставлен здоровый 67-летний «контрольный» человек. В исследованиях «случай-контроль» совпадающими переменными чаще всего являются возраст и пол. Недостаток: исследования «случай-контроль» осуществимы только тогда, когда легко найти контрольную группу, то есть людей, чей статус по отношению ко всем известным потенциальным искажающим факторам такой же, как и у пациента в данном случае: предположим, что исследование «случай-контроль» пытается найти причина данного заболевания у человека 1) 45 лет, 2) афроамериканца, 3) выходца с Аляски , 4) заядлого футболиста, 5) вегетарианца и 6) работающего в сфере образования. Теоретически идеальным контролем может быть человек, который не только не имеет исследуемого заболевания, но и соответствует всем этим характеристикам и не имеет заболеваний, которых нет и у пациента, — но найти такой контроль было бы огромной задачей.
Когортные исследования : также возможна определенная степень соответствия, и это часто достигается путем включения в исследуемую совокупность только определенных возрастных групп или определенного пола, создавая когорту людей, которые имеют схожие характеристики, и, таким образом, все когорты сопоставимы с точки зрения возможных искажающая переменная. Например, если возраст и пол считаются определяющими факторами, только мужчины в возрасте от 40 до 50 лет будут участвовать в когортном исследовании, которое будет оценивать риск инфаркта миокарда в когортах, которые либо физически активны, либо неактивны. Недостаток: в когортных исследованиях чрезмерное исключение входных данных может привести к тому, что исследователи будут слишком узко определять группу лиц, находящихся в аналогичном положении, для которых, по их утверждениям, исследование будет полезным, так что другие люди, к которым действительно применима причинно-следственная связь, могут потерять возможность воспользоваться рекомендациями исследования. Точно так же «чрезмерная стратификация» входных данных в рамках исследования может уменьшить размер выборки в данной страте до такой степени, что обобщения, сделанные путем наблюдения за членами этой страты, не будут статистически значимыми .
Двойное слепое исследование : скрывает от участников исследования и наблюдателей членство участников в экспериментальной группе. Не позволяя участникам узнать, получают они лечение или нет, эффект плацебо должен быть одинаковым для контрольной и терапевтической групп. Запрещая наблюдателям знать об их членстве, не должно быть предвзятости со стороны исследователей, относящихся к группам по-разному или по-разному интерпретирующих результаты.
Рандомизированное контролируемое исследование : метод, при котором исследуемая популяция делится случайным образом, чтобы снизить вероятность самостоятельного выбора участников или предвзятости со стороны организаторов исследования. Перед началом эксперимента тестировщики распределят членов пула участников по своим группам (контрольная, интервенционная, параллельная), используя процесс рандомизации, такой как использование генератора случайных чисел. Например, в исследовании влияния физических упражнений выводы были бы менее обоснованными, если бы участникам был предоставлен выбор, хотят ли они принадлежать к контрольной группе, которая не будет заниматься физическими упражнениями, или к группе вмешательства, которая будет готова принять участие в физических упражнениях. программа упражнений. Затем в исследовании будут учитываться и другие переменные, помимо физических упражнений, такие как уровень здоровья перед экспериментом и мотивация к здоровому образу жизни. Со стороны наблюдателя экспериментатор может выбрать кандидатов, которые с большей вероятностью покажут результаты, которые хочет увидеть исследование, или может интерпретировать субъективные результаты (более энергичный, позитивный настрой) в соответствии со своими желаниями.
Стратификация . Как и в приведенном выше примере, считается, что физическая активность представляет собой поведение, защищающее от инфаркта миокарда; Предполагается, что возраст является возможным фактором, искажающим результаты. Затем собранные данные стратифицируются по возрастным группам – это означает, что связь между активностью и инфарктом будет анализироваться для каждой возрастной группы. Если разные возрастные группы (или возрастные слои) дают совершенно разные коэффициенты риска , возраст следует рассматривать как вмешивающуюся переменную. Существуют статистические инструменты, в том числе методы Мантеля-Хензеля, которые учитывают стратификацию наборов данных.
Контроль искажающих факторов путем измерения известных искажающих факторов и включения их в качестве ковариат представляет собой многомерный анализ, такой как регрессионный анализ . Многомерный анализ дает гораздо меньше информации о силе или полярности мешающей переменной, чем методы стратификации. Например, если многомерный анализ контролирует антидепрессанты и не стратифицирует антидепрессанты по ТЦА и СИОЗС , то он будет игнорировать тот факт, что эти два класса антидепрессантов оказывают противоположное воздействие на инфаркт миокарда, и один из них намного сильнее другого.

Все эти методы имеют свои недостатки:

Наилучшая доступная защита от возможности получения ложных результатов из-за смешивания часто состоит в том, чтобы отказаться от усилий по стратификации и вместо этого провести рандомизированное исследование достаточно большой выборки, взятой в целом, так, чтобы все потенциальные искажающие переменные (известные и неизвестные) были распределены случайно по всем исследовательским группам и, следовательно, не будут коррелировать с бинарной переменной для включения/исключения в любую группу.
Этические соображения. В двойных слепых и рандомизированных контролируемых исследованиях участники не знают, что они получают фиктивное лечение , и им может быть отказано в эффективном лечении. ^[26] Существует вероятность того, что пациенты соглашаются на инвазивную операцию (которая несет в себе реальные медицинские риски) только при условии, что они получают лечение. Хотя это и является этической проблемой, это не является полным описанием ситуации. Для операций, которые в настоящее время проводятся регулярно, но для которых нет конкретных доказательств подлинного эффекта, могут возникнуть этические проблемы, связанные с продолжением таких операций. В таких обстоятельствах многие люди подвергаются реальному риску хирургического вмешательства, однако эти методы лечения могут не принести заметной пользы. Контроль ложной операции — это метод, который может позволить медицинской науке определить, эффективна ли хирургическая процедура или нет. Учитывая, что существуют известные риски, связанные с медицинскими операциями, сомнительно этично допускать проведение непроверенных операций до бесконечности в будущем.

Артефакты

Артефакты — это переменные, которые должны были систематически изменяться как внутри, так и между исследованиями, но случайно остались постоянными. Таким образом, артефакты представляют собой угрозу внешней достоверности . Артефакты – это факторы, которые зависят от лечения и его результата. Кэмпбелл и Стэнли ^[27] идентифицируют несколько артефактов. Основными угрозами внутренней валидности являются история, созревание, тестирование, инструментарий, статистическая регрессия , отбор, экспериментальная смертность и взаимодействие отбора и истории.

Один из способов минимизировать влияние артефактов — использовать структуру контрольной группы до и после тестирования . В рамках этой схемы «группы людей, которые изначально эквивалентны (на этапе предварительного тестирования), случайным образом распределяются для получения экспериментального лечения или контрольного состояния, а затем снова оцениваются после этого дифференциального опыта (фаза после тестирования)». ^[28] Таким образом, любые эффекты артефактов (в идеале) одинаково распределяются среди участников как в условиях лечения, так и в контрольных условиях.

Смотрите также

Неофициальные доказательства - доказательства, основанные на личных показаниях.
Причинный вывод - раздел статистики, занимающийся выводом причинно-следственных связей между переменными.
Эпидемиологический метод - Научный метод в конкретной области.
Парадокс Симпсона - Ошибка в статистических рассуждениях с группами
Смещение пропущенной переменной

дальнейшее чтение

Перл, Дж. (январь 1998 г.). «Почему не существует статистического теста на путаницу, почему многие думают, что он есть, и почему они почти правы» (PDF) . Департамент компьютерных наук Калифорнийского университета в Лос-Анджелесе, Технический отчет R-256 .
Монтгомери, округ Колумбия (2001). «Блокирование и путаница в факторном дизайне». Планирование и анализ экспериментов (5-е изд.). Уайли. стр. 287–302. В этом учебнике представлен обзор мешающих факторов и способов их учета при планировании экспериментов. $2^{k}$ {{cite book}}: CS1 maint: postscript (link)
Брюэр, МБ (2000). «План исследования и вопросы обоснованности». В Рейсе, ХТ; Джадд, КМ (ред.). Справочник исследований . Нью-Йорк: Издательство Кембриджского университета . стр. 3–16. ISBN 9780521551281.
Смит, скорая помощь (2000). «Исследовательский дизайн». В Рейсе, ХТ; Джадд, КМ (ред.). Справочник по методам исследования в социальной психологии и психологии личности . Нью-Йорк: Издательство Кембриджского университета. стр. 17–39. ISBN 9780521551281.

Внешние ссылки

Учебное пособие: Модификация показателей искажения и эффекта (Школа общественного здравоохранения Бостонского университета)
Линейная регрессия (Йельский университет)
Учебник Университета Новой Англии