stringtranslate.com

Сбивает с толку

В то время как медиатор является фактором в причинно-следственной цепочке (вверху), конфаундер — это ложный фактор, неверно подразумевающий причинно-следственную связь (внизу).

В каузальном выводе , конфаундер [a] — это переменная, которая влияет как на зависимую, так и на независимую переменную , вызывая ложную ассоциацию . Конфаундинг — это причинно-следственная концепция, и как таковая не может быть описана в терминах корреляций или ассоциаций. [1] [2] [3] Существование конфаундеров — важное количественное объяснение того, почему корреляция не подразумевает причинно-следственную связь . Некоторые обозначения явно предназначены для идентификации существования, возможного существования или несуществования конфаундеров в причинно-следственных связях между элементами системы.

Смущения представляют собой угрозу внутренней валидности . [4]

Простой пример

Предположим, что транспортная компания владеет парком грузовиков, произведенных двумя разными производителями. Грузовики, произведенные одним производителем, называются «Грузовики A», а грузовики, произведенные другим производителем, называются «Грузовики B». Мы хотим выяснить, какие грузовики A или B имеют лучшую топливную экономичность. Мы измеряем топливо и пройденные мили за месяц и рассчитываем MPG для каждого грузовика. Затем мы проводим соответствующий анализ, который определяет, что существует статистически значимая тенденция, что грузовики A более экономичны, чем грузовики B. Однако, поразмыслив, мы также замечаем, что грузовики A с большей вероятностью будут назначены на шоссейные маршруты, а грузовики B с большей вероятностью будут назначены на городские маршруты. Это смешивающая переменная. Смешивающая переменная делает результаты анализа ненадежными. Вполне вероятно, что мы просто измеряем тот факт, что езда по шоссе приводит к лучшей топливной экономичности, чем езда по городу.

В терминах статистики марка грузовика является независимой переменной, экономия топлива (MPG) — зависимой переменной, а количество поездок по городу — смешивающей переменной. Чтобы исправить это исследование, у нас есть несколько вариантов. Один из них — рандомизировать назначения грузовиков так, чтобы грузовики A и грузовики B в конечном итоге получили равное количество поездок по городу и по шоссе. Это устраняет смешивающую переменную. Другой вариант — количественно оценить количество поездок по городу и использовать это в качестве второй независимой переменной. Третий вариант — сегментировать исследование, сначала сравнив MPG во время поездок по городу для всех грузовиков, а затем провести отдельное исследование, сравнивая MPG во время поездок по шоссе.

Определение

Вмешивание определяется в терминах модели генерации данных. Пусть X — некоторая независимая переменная , а Y — некоторая зависимая переменная . Чтобы оценить влияние X на Y , статистик должен подавить влияние посторонних переменных , которые влияют как на X, так и на Y. Мы говорим, что X и Y вмешиваются некоторой другой переменной Z всякий раз, когда Z причинно влияет как на X , так и на Y.

Пусть — вероятность события Y = y при гипотетическом вмешательстве X = x . X и Y не смешаны тогда и только тогда, когда выполняется следующее:

для всех значений X = x и Y = y , где — условная вероятность при наблюдении X = x . Интуитивно это равенство утверждает, что X и Y не смешиваются, когда наблюдаемая связь между ними такая же, как связь, которая была бы измерена в контролируемом эксперименте , с рандомизированным x .

В принципе, определяющее равенство может быть проверено из модели генерации данных, предполагая, что у нас есть все уравнения и вероятности, связанные с моделью. Это делается путем моделирования вмешательства (см. Байесовская сеть ) и проверки того, равна ли полученная вероятность Y условной вероятности . Однако оказывается, что для проверки равенства достаточно одной лишь структуры графа .

Контроль

Рассмотрим исследователя, пытающегося оценить эффективность препарата X , на основе данных о населении, в котором употребление препарата было выбором пациента. Данные показывают, что пол ( Z ) влияет на выбор препарата пациентом, а также на его шансы на выздоровление ( Y ). В этом сценарии пол Z затрудняет связь между X и Y, поскольку Z является причиной как X, так и Y :

Диаграмма причинно-следственной связи пола как распространенной причины употребления наркотиков и выздоровления

У нас есть это

поскольку наблюдаемая величина содержит информацию о корреляции между X и Z , а интервенционная величина — нет (поскольку X не коррелирует с Z в рандомизированном эксперименте). Можно показать [5] , что в случаях, когда доступны только данные наблюдений, несмещенная оценка желаемой величины может быть получена путем «корректировки» всех сопутствующих факторов, а именно, путем обусловливания их различных значений и усреднения результата. В случае одного сопутствующего фактора Z это приводит к «формуле корректировки»:

что дает несмещенную оценку причинного эффекта X на Y. Та же формула корректировки работает, когда есть несколько конфаундеров, за исключением того, что в этом случае выбор набора Z переменных, который гарантировал бы несмещенные оценки, должен быть сделан с осторожностью. Критерий правильного выбора переменных называется Back-Door [5] [6] и требует, чтобы выбранный набор Z «блокировал» (или перехватывал) каждый путь между X и Y , который содержит стрелку в X. Такие наборы называются «допустимыми для Back-Door» и могут включать переменные, которые не являются общими причинами X и Y , а просто их заместителями.

Возвращаясь к примеру с употреблением наркотиков, поскольку Z соответствует требованию Back-Door (т.е. он перекрывает один путь Back-Door ), формула корректировки Back-Door верна:

Таким образом, врач может предсказать вероятный эффект от приема препарата на основе наблюдательных исследований, в которых условные вероятности, появляющиеся в правой части уравнения, можно оценить с помощью регрессии.

Вопреки распространенным убеждениям, добавление ковариатов к набору корректировки Z может внести смещение. [7] Типичный контрпример возникает, когда Z является общим эффектом X и Y , [8] случай, в котором Z не является фактором, искажающим данные (т. е. нулевой набор является допустимым методом Back-door), и корректировка для Z создаст смещение, известное как « смещение коллайдера » или « парадокс Берксона ». Элементы управления, которые не являются хорошими факторами, искажающими данные, иногда называют плохими элементами управления .

В общем, смешение может контролироваться корректировкой, если и только если существует набор наблюдаемых ковариатов, который удовлетворяет условию Back-Door. Более того, если Z является таким набором, то формула корректировки уравнения (3) действительна. [5] [6] Исчисление Перла do обеспечивает все возможные условия, при которых может быть оценено, не обязательно корректировкой. [9]

История

Согласно Морабии (2011), [10] слово confounding происходит от средневекового латинского глагола "confundere", что означало "смешивание", и, вероятно, было выбрано для обозначения путаницы (от лат. con = с + fusus = смешивать или соединять вместе) между причиной, которую хотят оценить, и другими причинами, которые могут повлиять на результат и, таким образом, запутать или помешать желаемой оценке. Гринленд, Робинс и Перл [11] отмечают раннее использование термина "confounding" в причинно-следственной связи Джоном Стюартом Миллем в 1843 году.

Фишер ввел слово «смешивание» в своей книге 1935 года «Дизайн экспериментов» [12], чтобы конкретно обозначить последствие блокирования (т. е. разбиения ) набора комбинаций лечения в факторном эксперименте , в результате чего определенные взаимодействия могут быть «смешаны с блоками». Это популяризировало понятие смешивания в статистике, хотя Фишер был озабочен контролем гетерогенности в экспериментальных единицах, а не причинно-следственным выводом.

Согласно Ванденбруку (2004) [13] , именно Киш [14] использовал слово «смешение» в смысле «несравнимости» двух или более групп (например, подвергшихся и не подвергшихся воздействию) в наблюдательном исследовании. Формальные условия, определяющие, что делает определенные группы «сравнимыми», а другие «несравнимыми», были позже разработаны в эпидемиологии Гринлендом и Робинсом (1986) [15] с использованием контрфактического языка Неймана (1935) [16] и Рубина (1974). [17] Позднее они были дополнены графическими критериями, такими как условие Back-Door ( Pearl 1993; Greenland, Robins and Pearl 1999). [11] [5]

Было показано, что графические критерии формально эквивалентны контрфактическому определению [18], но более прозрачны для исследователей, полагающихся на модели процессов.

Типы

В случае оценки риска, оценивающей величину и характер риска для здоровья человека , важно контролировать искажения, чтобы изолировать эффект конкретной опасности, такой как пищевая добавка, пестицид или новый препарат. Для перспективных исследований сложно набирать и проверять добровольцев с одинаковым бэкграундом (возраст, диета, образование, география и т. д.), а в исторических исследованиях может быть похожая изменчивость. Из-за невозможности контролировать изменчивость добровольцев и исследований на людях искажения представляют собой особую проблему. По этим причинам эксперименты предлагают способ избежать большинства форм искажений.

В некоторых дисциплинах смешение подразделяется на различные типы. В эпидемиологии один тип - это "смешение по показаниям", [19], которое относится к смешению из наблюдательных исследований . Поскольку прогностические факторы могут влиять на решения о лечении (и оценки смещения эффектов лечения), контроль известных прогностических факторов может уменьшить эту проблему, но всегда возможно, что забытый или неизвестный фактор не был включен или что факторы взаимодействуют сложно. Смешение по показаниям было описано как самое важное ограничение наблюдательных исследований. Рандомизированные испытания не подвержены влиянию смешения по показаниям из-за случайного назначения .

Вмешивающиеся переменные также могут быть классифицированы в соответствии с их источником. Выбор инструмента измерения (операциональный конфаунд), ситуационные характеристики (процедурный конфаунд) или межиндивидуальные различия (персональный конфаунд).

Примеры

Допустим, кто-то изучает связь между порядком рождения (первый ребенок, второй ребенок и т. д.) и наличием синдрома Дауна у ребенка. В этом сценарии возраст матери будет искажающей переменной: [ необходима цитата ]

  1. Более старший возраст матери напрямую связан с синдромом Дауна у ребенка
  2. Более старший возраст матери напрямую связан с синдромом Дауна, независимо от очередности рождения (мать, рожающая первого и третьего ребенка в возрасте 50 лет, имеет одинаковый риск)
  3. Возраст матери напрямую связан с очередностью рождения (второй ребенок, за исключением случая близнецов, рождается, когда мать старше, чем она была на момент рождения первого ребенка)
  4. Возраст матери не является следствием очередности рождения (рождение второго ребенка не меняет возраст матери)

При оценке риска такие факторы, как возраст, пол и уровень образования, часто влияют на состояние здоровья и поэтому должны контролироваться. Помимо этих факторов, исследователи могут не учитывать или не иметь доступа к данным о других причинных факторах. Примером может служить исследование курения табака на здоровье человека. Курение, употребление алкоголя и диета являются связанными между собой видами деятельности, связанными с образом жизни. Оценка риска, которая рассматривает последствия курения, но не контролирует потребление алкоголя или диету, может переоценить риск курения. [22] Курение и сопутствующие факторы рассматриваются в оценках профессиональных рисков, таких как безопасность добычи угля. [23] Когда нет большой выборочной популяции некурящих или непьющих в определенной профессии, оценка риска может быть смещена в сторону обнаружения отрицательного влияния на здоровье.

Уменьшение вероятности возникновения путаницы

Снижение вероятности возникновения и влияния факторов, вызывающих затруднения, может быть достигнуто путем увеличения типов и количества сравнений, выполняемых в анализе. Если измерения или манипуляции основных конструкций запутаны (т. е. существуют операциональные или процедурные помехи), анализ подгрупп может не выявить проблем в анализе. Кроме того, увеличение количества сравнений может создать другие проблемы (см. множественные сравнения ).

Экспертная оценка — это процесс, который может помочь сократить случаи смешивания, либо до внедрения исследования, либо после того, как был проведен анализ. Экспертная оценка опирается на коллективный опыт в рамках дисциплины для выявления потенциальных слабостей в дизайне и анализе исследования, включая способы, которыми результаты могут зависеть от смешивания. Аналогичным образом, репликация может проверить надежность результатов одного исследования в альтернативных условиях исследования или альтернативных анализах (например, контролируя потенциальные смешивания, не выявленные в первоначальном исследовании).

Вмешивающиеся эффекты могут иметь меньшую вероятность возникновения и действовать одинаково в разное время и в разных местах. [ необходима ссылка ] При выборе мест исследования можно подробно охарактеризовать окружающую среду в местах исследования, чтобы убедиться, что места экологически схожи и, следовательно, менее вероятно, что в них будут вмешивающиеся переменные. Наконец, можно изучить взаимосвязь между переменными окружающей среды, которые могут вмешиваться в анализ и измеряемые параметры. Информация, относящаяся к переменным окружающей среды, может затем использоваться в моделях, специфичных для конкретного места, для выявления остаточной дисперсии, которая может быть вызвана реальными эффектами. [24]

В зависимости от типа используемого дизайна исследования существуют различные способы его модификации для активного исключения или контроля искажающих факторов: [25]

Все эти методы имеют свои недостатки:

  1. Наилучшей доступной защитой от возможных ложных результатов из-за смешения часто является отказ от усилий по стратификации и вместо этого проведение рандомизированного исследования достаточно большой выборки , взятой в целом, так что все потенциальные смешения переменных (известные и неизвестные) будут распределены случайным образом по всем исследуемым группам и, следовательно, не будут коррелировать с бинарной переменной для включения/исключения в любой группе.
  2. Этические соображения: В двойных слепых и рандомизированных контролируемых испытаниях участники не знают, что они получают фиктивное лечение , и им может быть отказано в эффективном лечении. [26] Существует вероятность, что пациенты соглашаются на инвазивную хирургию (которая несет в себе реальные медицинские риски) только при понимании того, что они получают лечение. Хотя это этическая проблема, это не полный отчет о ситуации. Для операций, которые в настоящее время проводятся регулярно, но для которых нет конкретных доказательств подлинного эффекта, могут возникнуть этические проблемы с продолжением таких операций. В таких обстоятельствах многие люди подвергаются реальным рискам хирургического вмешательства, однако эти методы лечения, возможно, не приносят никакой заметной пользы. Контроль фиктивной хирургии — это метод, который может позволить медицинской науке определить, является ли хирургическая процедура эффективной или нет. Учитывая, что существуют известные риски, связанные с медицинскими операциями, сомнительно этично позволять проводить непроверенные операции до бесконечности в будущем.

Артефакты

Артефакты — это переменные, которые должны были систематически варьироваться, либо в пределах одного исследования, либо между ними, но которые случайно оставались постоянными. Таким образом, артефакты представляют собой угрозы внешней валидности . Артефакты — это факторы, которые изменяются вместе с лечением и результатом. Кэмпбелл и Стэнли [27] выделяют несколько артефактов. Основными угрозами внутренней валидности являются история, созревание, тестирование, инструментарий, статистическая регрессия , отбор, экспериментальная смертность и взаимодействия отбора и истории.

Одним из способов минимизировать влияние артефактов является использование дизайна контрольной группы pretest-posttest . В рамках этого дизайна «группы людей, которые изначально эквивалентны (на этапе pretest), случайным образом назначаются для получения экспериментального лечения или контрольного условия, а затем снова оцениваются после этого дифференциального опыта (фаза posttest)». [28] Таким образом, любые эффекты артефактов (в идеале) равномерно распределены среди участников как в условиях лечения, так и в условиях контроля.

Смотрите также


Примечания

  1. ^ Также известна как вмешивающаяся переменная , вмешивающийся фактор , посторонний детерминант или скрытая переменная .

Ссылки

  1. ^ Pearl, J., (2009). Парадокс Симпсона , смешение и коллапс в причинности: модели, рассуждения и выводы (2-е изд.). Нью-Йорк: Cambridge University Press.
  2. ^ VanderWeele, TJ; Shpitser, I. (2013). «Об определении конфаундера». Annals of Statistics . 41 (1): 196–220. arXiv : 1304.0564 . doi : 10.1214/12-aos1058. PMC  4276366. PMID  25544784 .
  3. ^ Гринленд, С.; Робинс, Дж. М.; Перл, Дж. (1999). «Запутывание и коллапсируемость в причинно-следственном выводе». Статистическая наука . 14 (1): 29–46. doi : 10.1214/ss/1009211805 .
  4. ^ Шадиш, У. Р.; Кук, Т. Д.; Кэмпбелл, Д. Т. (2002). Экспериментальные и квазиэкспериментальные проекты для обобщенного причинного вывода . Бостон, Массачусетс: Houghton-Mifflin .
  5. ^ abcd Pearl, J., (1993). «Аспекты графических моделей, связанные с причинностью», в трудах 49-й сессии Международного статистического научного института, стр. 391–401.
  6. ^ ab Pearl, J. (2009). Причинно-следственные диаграммы и идентификация причинно-следственных эффектов в причинности: модели, рассуждения и выводы (2-е изд.). Нью-Йорк, штат Нью-Йорк, США: Cambridge University Press.
  7. ^ Чинелли, К.; Форни, А.; Перл, Дж. (март 2022 г.). «Ускоренный курс по хорошим и плохим элементам управления» (PDF) . Лаборатория когнитивных систем Калифорнийского университета в Лос-Анджелесе, Технический отчет (R-493) .
  8. ^ Ли, PH (2014). «Следует ли нам делать поправку на искажающий фактор, если эмпирические и теоретические критерии дают противоречивые результаты? Исследование с помощью моделирования». Sci Rep . 4 : 6085. Bibcode : 2014NatSR...4E6085L. doi : 10.1038/srep06085. PMC 5381407. PMID  25124526 . 
  9. ^ Шпицер, И.; Перл, Дж. (2008). «Полные методы идентификации для причинной иерархии». Журнал исследований машинного обучения . 9 : 1941–1979.
  10. ^ Морабия, А (2011). «История современной эпидемиологической концепции смешения» (PDF) . Журнал эпидемиологии и общественного здравоохранения . 65 (4): 297–300. doi : 10.1136/jech.2010.112565 . PMID  20696848. S2CID  9068532.
  11. ^ ab Гринленд, С.; Робинс, Дж. М.; Перл, Дж. (1999). «Запутывание и коллапсируемость в причинно-следственном выводе». Статистическая наука . 14 (1): 31. doi : 10.1214/ss/1009211805 .
  12. ^ Фишер, РА (1935). Планирование экспериментов (стр. 114–145).
  13. ^ Ванденбрук, Дж. П. (2004). «История смешения». Soz Praventivmed . 47 (4): 216–224. doi :10.1007/BF01326402. PMID  12415925. S2CID  198174446.
  14. ^ Киш, Л. (1959). «Некоторые статистические проблемы в дизайне исследований». Am Sociol . 26 (3): 328–338. doi :10.2307/2089381. JSTOR  2089381.
  15. ^ Гринленд, С.; Робинс, Дж. М. (1986). «Идентифицируемость, взаимозаменяемость и эпидемиологическое смешение». Международный журнал эпидемиологии . 15 (3): 413–419. CiteSeerX 10.1.1.157.6445 . doi :10.1093/ije/15.3.413. PMID  3771081. 
  16. ^ Нейман, Дж., в сотрудничестве с К. Иваскевичем и Ст. Колодзейчиком (1935). Статистические проблемы в сельскохозяйственном экспериментировании (с обсуждением). Suppl J Roy Statist Soc Ser B 2 107-180.
  17. ^ Рубин, ДБ (1974). «Оценка причинных эффектов лечения в рандомизированных и нерандомизированных исследованиях». Журнал педагогической психологии . 66 (5): 688–701. doi :10.1037/h0037350. S2CID  52832751.
  18. ^ Pearl, J., (2009). Причинность: модели, рассуждения и выводы (2-е изд.). Нью-Йорк, штат Нью-Йорк, США: Cambridge University Press.
  19. ^ Джонстон, SC (2001). «Определение сопутствующих факторов по показаниям с помощью слепого проспективного обзора». Американский журнал эпидемиологии . 154 (3): 276–284. doi : 10.1093/aje/154.3.276 . PMID  11479193.
  20. ^ ab Pelham, Brett (2006). Проведение исследований в области психологии . Belmont: Wadsworth. ISBN 978-0-534-53294-9.
  21. ^ Стег, Л.; Бунк, А.П.; Ротенгаттер, Т. (2008). «Глава 4». Прикладная социальная психология: понимание и управление социальными проблемами . Кембридж, Великобритания: Cambridge University Press.
  22. ^ Tjønneland, Anne; Grønbæk, Morten; Stripp, Connie; Overvad, Kim (январь 1999). «Потребление вина и диета в случайной выборке из 48763 датских мужчин и женщин». Американский журнал клинического питания . 69 (1): 49–54. doi : 10.1093/ajcn/69.1.49 . PMID  9925122.
  23. ^ Axelson, O. (1989). «Влияние курения на профессиональную эпидемиологию». British Journal of Industrial Medicine . 46 (8): 505–07. doi :10.1136/oem.46.8.505. PMC 1009818. PMID  2673334 . 
  24. ^ Кэлоу, Питер П. (2009) Справочник по оценке и управлению экологическими рисками , Wiley
  25. ^ Mayrent, Sherry L (1987). Эпидемиология в медицине . Lippincott Williams & Wilkins . ISBN 978-0-316-35636-7.
  26. ^ Эмануэль, Иезекиль Дж.; Миллер, Франклин Г. (20 сентября 2001 г.). «Этика плацебо-контролируемых испытаний — середина». New England Journal of Medicine . 345 (12): 915–9. doi :10.1056/nejm200109203451211. PMID  11565527.
  27. ^ Кэмпбелл, Д.Т.; Стэнли, Дж.К. (1966). Экспериментальные и квазиэкспериментальные проекты для исследований . Чикаго: Rand McNally.
  28. ^ Crano, WD; Brewer, MB (2002). Принципы и методы социальных исследований (2-е изд.). Mahwah, NJ: Lawrence Erlbaum Associates . стр. 28.

Дальнейшее чтение

Внешние ссылки