Предположим, что транспортная компания владеет парком грузовиков, произведенных двумя разными производителями. Грузовики, произведенные одним производителем, называются «Грузовики A», а грузовики, произведенные другим производителем, называются «Грузовики B». Мы хотим выяснить, какие грузовики A или B имеют лучшую топливную экономичность. Мы измеряем топливо и пробег в милях за месяц и рассчитываем MPG для каждого грузовика. Затем мы проводим соответствующий анализ, который определяет, что существует статистически значимая тенденция, что грузовики A более экономичны, чем грузовики B. Однако, поразмыслив, мы также замечаем, что грузовики A с большей вероятностью будут назначены на шоссейные маршруты, а грузовики B с большей вероятностью будут назначены на городские маршруты. Это смешивающая переменная. Смешивающая переменная делает результаты анализа ненадежными. Вполне вероятно, что мы просто измеряем тот факт, что езда по шоссе приводит к лучшей топливной экономичности, чем езда по городу.
В терминах статистики марка грузовика является независимой переменной, экономия топлива (MPG) — зависимой переменной, а количество поездок по городу — смешивающей переменной. Чтобы исправить это исследование, у нас есть несколько вариантов. Один из них — рандомизировать назначения грузовиков так, чтобы грузовики A и грузовики B в конечном итоге получили равное количество поездок по городу и по шоссе. Это устраняет смешивающую переменную. Другой вариант — количественно оценить количество поездок по городу и использовать это в качестве второй независимой переменной. Третий вариант — сегментировать исследование, сначала сравнив MPG во время поездок по городу для всех грузовиков, а затем провести отдельное исследование, сравнивая MPG во время поездок по шоссе.
Определение
Вмешивание определяется в терминах модели генерации данных. Пусть X — некоторая независимая переменная , а Y — некоторая зависимая переменная . Чтобы оценить влияние X на Y , статистик должен подавить влияние посторонних переменных , которые влияют как на X, так и на Y. Мы говорим, что X и Y вмешиваются некоторой другой переменной Z всякий раз, когда Z причинно влияет как на X , так и на Y.
Пусть — вероятность события Y = y при гипотетическом вмешательстве X = x . X и Y не смешаны тогда и только тогда, когда выполняется следующее:
для всех значений X = x и Y = y , где — условная вероятность при наблюдении X = x . Интуитивно это равенство утверждает, что X и Y не смешиваются, когда наблюдаемая связь между ними совпадает с ассоциацией, которая была бы измерена в контролируемом эксперименте , с рандомизированным x .
В принципе, определяющее равенство может быть проверено из модели генерации данных, предполагая, что у нас есть все уравнения и вероятности, связанные с моделью. Это делается путем моделирования вмешательства (см. Байесовская сеть ) и проверки того, равна ли полученная вероятность Y условной вероятности . Однако оказывается, что для проверки равенства достаточно одной лишь структуры графа .
Контроль
Рассмотрим исследователя, пытающегося оценить эффективность препарата X , на основе данных о населении, в котором употребление препарата было выбором пациента. Данные показывают, что пол ( Z ) влияет на выбор препарата пациентом, а также на его шансы на выздоровление ( Y ). В этом сценарии пол Z затрудняет связь между X и Y, поскольку Z является причиной как X, так и Y :
У нас есть это
поскольку наблюдаемая величина содержит информацию о корреляции между X и Z , а интервенционная величина — нет (поскольку X не коррелирует с Z в рандомизированном эксперименте). Можно показать [5] , что в случаях, когда доступны только данные наблюдений, несмещенная оценка желаемой величины может быть получена путем «корректировки» всех сопутствующих факторов, а именно, путем обусловливания их различных значений и усреднения результата. В случае одного сопутствующего фактора Z это приводит к «формуле корректировки»:
что дает несмещенную оценку причинного эффекта X на Y. Та же формула корректировки работает, когда есть несколько конфаундеров, за исключением того, что в этом случае выбор набора Z переменных, который гарантировал бы несмещенные оценки, должен быть сделан с осторожностью. Критерий правильного выбора переменных называется Back-Door [5] [6] и требует, чтобы выбранный набор Z «блокировал» (или перехватывал) каждый путь между X и Y , который содержит стрелку в X. Такие наборы называются «допустимыми для Back-Door» и могут включать переменные, которые не являются общими причинами X и Y , а просто их заместителями.
Возвращаясь к примеру с употреблением наркотиков, поскольку Z соответствует требованию Back-Door (т.е. он перекрывает один путь Back-Door ), формула корректировки Back-Door верна:
Таким образом, врач может предсказать вероятный эффект от приема препарата на основе наблюдательных исследований, в которых условные вероятности, появляющиеся в правой части уравнения, можно оценить с помощью регрессии.
Вопреки распространенным убеждениям, добавление ковариатов к набору корректировки Z может внести смещение. [7] Типичный контрпример возникает, когда Z является общим эффектом X и Y , [8] случай, в котором Z не является фактором, искажающим данные (т. е. нулевой набор является допустимым для бэкдора), и корректировка для Z создаст смещение, известное как « смещение коллайдера » или « парадокс Берксона ». Элементы управления, которые не являются хорошими факторами, искажающими данные, иногда называют плохими элементами управления .
В общем, смешение может контролироваться корректировкой, если и только если существует набор наблюдаемых ковариатов, который удовлетворяет условию Back-Door. Более того, если Z является таким набором, то формула корректировки уравнения (3) действительна. [5] [6] Исчисление Перла do обеспечивает все возможные условия, при которых может быть оценено, не обязательно корректировкой. [9]
История
Согласно Морабии (2011), [10] слово confounding происходит от средневекового латинского глагола "confundere", что означало "смешивание", и, вероятно, было выбрано для обозначения путаницы (от лат. con = с + fusus = смешивать или соединять вместе) между причиной, которую хотят оценить, и другими причинами, которые могут повлиять на результат и, таким образом, запутать или помешать желаемой оценке. Гринленд, Робинс и Перл [11] отмечают раннее использование термина "confounding" в причинно-следственной связи Джоном Стюартом Миллем в 1843 году.
Фишер ввел слово «смешивание» в своей книге 1935 года «Дизайн экспериментов» [12], чтобы конкретно обозначить последствие блокирования (т. е. разбиения ) набора комбинаций лечения в факторном эксперименте , в результате чего определенные взаимодействия могут быть «смешаны с блоками». Это популяризировало понятие смешивания в статистике, хотя Фишер был озабочен контролем гетерогенности в экспериментальных единицах, а не причинно-следственным выводом.
Согласно Ванденбруку (2004) [13] , именно Киш [14] использовал слово «смешение» в смысле «несравнимости» двух или более групп (например, подвергшихся и не подвергшихся воздействию) в наблюдательном исследовании. Формальные условия, определяющие, что делает определенные группы «сравнимыми», а другие «несравнимыми», были позже разработаны в эпидемиологии Гринлендом и Робинсом (1986) [15] с использованием контрфактического языка Неймана (1935) [16] и Рубина (1974). [17] Позднее они были дополнены графическими критериями, такими как условие Back-Door ( Pearl 1993; Greenland, Robins and Pearl 1999). [11] [5]
Было показано, что графические критерии формально эквивалентны контрфактическому определению [18], но более прозрачны для исследователей, полагающихся на модели процессов.
Типы
В случае оценки риска, оценивающей величину и характер риска для здоровья человека , важно контролировать искажения, чтобы изолировать эффект конкретной опасности, такой как пищевая добавка, пестицид или новый препарат. Для перспективных исследований сложно набирать и проверять добровольцев с одинаковым бэкграундом (возраст, диета, образование, география и т. д.), а в исторических исследованиях может быть похожая изменчивость. Из-за невозможности контролировать изменчивость добровольцев и исследований на людях искажения представляют собой особую проблему. По этим причинам эксперименты предлагают способ избежать большинства форм искажений.
В некоторых дисциплинах смешение подразделяется на различные типы. В эпидемиологии один тип - это "смешение по показаниям", [19], которое относится к смешению из наблюдательных исследований . Поскольку прогностические факторы могут влиять на решения о лечении (и оценки смещения эффектов лечения), контроль известных прогностических факторов может уменьшить эту проблему, но всегда возможно, что забытый или неизвестный фактор не был включен или что факторы взаимодействуют сложно. Смешение по показаниям было описано как самое важное ограничение наблюдательных исследований. Рандомизированные испытания не подвержены влиянию смешения по показаниям из-за случайного назначения .
Вмешивающиеся переменные также могут быть классифицированы в соответствии с их источником. Выбор инструмента измерения (операциональный конфаунд), ситуационные характеристики (процедурный конфаунд) или межиндивидуальные различия (персональный конфаунд).
Операционная путаница может возникнуть как в экспериментальных , так и в неэкспериментальных исследовательских проектах. Этот тип путаницы возникает, когда мера, предназначенная для оценки определенной конструкции, непреднамеренно измеряет также что-то еще. [20]
Процедурное смешение может произойти в лабораторном эксперименте или квазиэксперименте . Этот тип смешения происходит, когда исследователь ошибочно позволяет другой переменной изменяться вместе с манипулируемой независимой переменной. [20]
Вмешивание человека происходит , когда две или более групп единиц анализируются вместе (например, работники разных профессий), несмотря на то, что они различаются по одной или нескольким другим (наблюдаемым или ненаблюдаемым) характеристикам (например, полу). [21]
Примеры
Допустим, кто-то изучает связь между порядком рождения (первый ребенок, второй ребенок и т. д.) и наличием синдрома Дауна у ребенка. В этом сценарии возраст матери будет искажающей переменной: [ необходима цитата ]
Более старший возраст матери напрямую связан с синдромом Дауна у ребенка
Более старший возраст матери напрямую связан с синдромом Дауна, независимо от очередности рождения (мать, рожающая первого и третьего ребенка в возрасте 50 лет, имеет одинаковый риск)
Возраст матери напрямую связан с очередностью рождения (второй ребенок, за исключением случая близнецов, рождается, когда мать старше, чем она была на момент рождения первого ребенка)
Возраст матери не является следствием очередности рождения (рождение второго ребенка не меняет возраст матери)
При оценке риска такие факторы, как возраст, пол и уровень образования, часто влияют на состояние здоровья и поэтому должны контролироваться. Помимо этих факторов, исследователи могут не учитывать или не иметь доступа к данным о других причинных факторах. Примером может служить исследование курения табака на здоровье человека. Курение, употребление алкоголя и диета являются связанными между собой видами деятельности, связанными с образом жизни. Оценка риска, которая рассматривает последствия курения, но не контролирует потребление алкоголя или диету, может переоценить риск курения. [22] Курение и сопутствующие факторы рассматриваются в оценках профессиональных рисков, таких как безопасность добычи угля. [23] Когда нет большой выборочной популяции некурящих или непьющих в определенной профессии, оценка риска может быть смещена в сторону обнаружения отрицательного влияния на здоровье.
Уменьшение вероятности возникновения путаницы
Снижение вероятности возникновения и влияния факторов, вызывающих затруднения, может быть достигнуто путем увеличения типов и количества сравнений, выполняемых в анализе. Если измерения или манипуляции основных конструкций запутаны (т. е. существуют операциональные или процедурные помехи), анализ подгрупп может не выявить проблем в анализе. Кроме того, увеличение количества сравнений может создать другие проблемы (см. множественные сравнения ).
Экспертная оценка — это процесс, который может помочь сократить случаи искажения, как до внедрения исследования, так и после того, как был проведен анализ. Экспертная оценка опирается на коллективный опыт в рамках дисциплины для выявления потенциальных недостатков в дизайне и анализе исследования, включая способы, которыми результаты могут зависеть от искажения. Аналогичным образом, репликация может проверить надежность результатов одного исследования в альтернативных условиях исследования или альтернативных анализах (например, контролируя потенциальные искажения, не выявленные в первоначальном исследовании).
Вмешивающиеся эффекты могут иметь меньшую вероятность возникновения и действовать одинаково в разное время и в разных местах. [ необходима ссылка ] При выборе мест исследования можно подробно охарактеризовать окружающую среду в местах исследования, чтобы убедиться, что места экологически схожи и, следовательно, менее вероятно, что в них будут вмешивающиеся переменные. Наконец, можно изучить взаимосвязь между переменными окружающей среды, которые могут вмешиваться в анализ и измеряемые параметры. Информация, относящаяся к переменным окружающей среды, может затем использоваться в моделях, специфичных для конкретного места, для выявления остаточной дисперсии, которая может быть вызвана реальными эффектами. [24]
В зависимости от типа используемого дизайна исследования существуют различные способы его модификации для активного исключения или контроля искажающих факторов: [25]
Исследования случай-контроль назначают конфаундеры обеим группам, случаям и контролям, в равной степени. Например, если кто-то хочет изучить причину инфаркта миокарда и думает, что возраст является вероятной смешивающей переменной, каждому 67-летнему пациенту с инфарктом будет сопоставлен здоровый 67-летний «контрольный» человек. В исследованиях случай-контроль сопоставленными переменными чаще всего являются возраст и пол. Недостаток: исследования случай-контроль осуществимы только тогда, когда легко найти контроли, т. е. людей, чей статус по отношению ко всем известным потенциальным смешивающим факторам такой же, как у пациента случая: Предположим, исследование случай-контроль пытается найти причину данного заболевания у человека, которому 1) 45 лет, 2) афроамериканец, 3) с Аляски , 4) заядлый футболист, 5) вегетарианец и 6) работает в сфере образования. Теоретически идеальным контролем был бы человек, который, помимо отсутствия исследуемого заболевания, соответствует всем этим характеристикам и не имеет никаких заболеваний, которых нет у пациента, но найти такой контроль было бы невероятно сложной задачей.
Когортные исследования : также возможна определенная степень соответствия, и часто она достигается путем включения в исследуемую популяцию только определенных возрастных групп или определенного пола, что создает когорту людей, имеющих схожие характеристики, и, таким образом, все когорты сопоставимы в отношении возможной переменной-конфаундинга. Например, если возраст и пол считаются факторами-конфаундингами, то в когортном исследовании, которое оценивало бы риск инфаркта миокарда в когортах, которые либо физически активны, либо неактивны, будут участвовать только мужчины в возрасте от 40 до 50 лет. Недостаток: в когортных исследованиях чрезмерное исключение входных данных может привести к тому, что исследователи слишком узко определят набор лиц, находящихся в схожем положении, для которых, по их утверждению, исследование будет полезным, так что другие лица, к которым причинно-следственная связь действительно применима, могут потерять возможность извлечь пользу из рекомендаций исследования. Аналогичным образом, «чрезмерная стратификация» входных данных в рамках исследования может уменьшить размер выборки в данной страте до такой степени, что обобщения, полученные путем наблюдения только за членами этой страты, не будут статистически значимыми .
Двойное ослепление : скрывает от популяции испытания и наблюдателей принадлежность участников к экспериментальной группе. Не давая участникам знать, получают ли они лечение или нет, эффект плацебо должен быть одинаковым для контрольной и лечебной групп. Не давая наблюдателям знать об их принадлежности, не должно быть никакой предвзятости со стороны исследователей, относящихся к группам по-разному или интерпретирующих результаты по-разному.
Рандомизированное контролируемое исследование : метод, при котором исследуемая популяция делится случайным образом, чтобы снизить вероятность самоотбора участниками или предвзятости дизайнеров исследования. Перед началом эксперимента тестировщики распределят участников по группам (контрольная, интервенционная, параллельная), используя процесс рандомизации, такой как использование генератора случайных чисел. Например, в исследовании эффектов упражнений выводы были бы менее обоснованными, если бы участникам был предоставлен выбор, хотят ли они принадлежать к контрольной группе, которая не будет заниматься спортом, или к группе вмешательства, которая будет готова принять участие в программе упражнений. Затем исследование будет охватывать другие переменные, помимо упражнений, такие как уровень здоровья до эксперимента и мотивация к принятию здоровых видов деятельности. Со стороны наблюдателя экспериментатор может выбрать кандидатов, которые с большей вероятностью покажут результаты, которые хочет увидеть исследование, или могут интерпретировать субъективные результаты (более энергичные, позитивные) способом, благоприятным для их желаний.
Стратификация : как в примере выше, физическая активность считается поведением, которое защищает от инфаркта миокарда; а возраст считается возможным фактором, вносящим путаницу. Затем отобранные данные стратифицируются по возрастным группам — это означает, что связь между активностью и инфарктом будет анализироваться для каждой возрастной группы. Если разные возрастные группы (или возрастные слои) дают сильно различающиеся коэффициенты риска , возраст следует рассматривать как переменную, вносящую путаницу. Существуют статистические инструменты, среди которых методы Мантеля–Хензеля, которые учитывают стратификацию наборов данных.
Контроль запутывающих факторов путем измерения известных факторов и включения их в качестве ковариатов является многофакторным анализом, таким как регрессионный анализ . Многофакторный анализ раскрывает гораздо меньше информации о силе или полярности переменной-конфаундинга, чем методы стратификации. Например, если многофакторный анализ контролирует антидепрессант и не стратифицирует антидепрессанты для ТЦА и СИОЗС , то он проигнорирует тот факт, что эти два класса антидепрессантов оказывают противоположное действие на инфаркт миокарда, и один из них намного сильнее другого.
Все эти методы имеют свои недостатки:
Наилучшей доступной защитой от возможных ложных результатов из-за смешения часто является отказ от усилий по стратификации и вместо этого проведение рандомизированного исследования достаточно большой выборки , взятой в целом, так чтобы все потенциальные смешения переменных (известные и неизвестные) были распределены случайным образом по всем исследуемым группам и, следовательно, не были бы коррелированы с бинарной переменной для включения/исключения в любой группе.
Этические соображения: В двойных слепых и рандомизированных контролируемых испытаниях участники не знают, что они получают фиктивное лечение , и им может быть отказано в эффективном лечении. [26] Существует вероятность, что пациенты соглашаются на инвазивную хирургию (которая несет в себе реальные медицинские риски) только при понимании того, что они получают лечение. Хотя это этическая проблема, это не полный отчет о ситуации. Для операций, которые в настоящее время проводятся регулярно, но для которых нет конкретных доказательств подлинного эффекта, могут возникнуть этические проблемы с продолжением таких операций. В таких обстоятельствах многие люди подвергаются реальным рискам хирургического вмешательства, однако эти методы лечения, возможно, не приносят никакой заметной пользы. Контроль фиктивной хирургии — это метод, который может позволить медицинской науке определить, является ли хирургическая процедура эффективной или нет. Учитывая, что существуют известные риски, связанные с медицинскими операциями, сомнительно этично позволять проводить непроверенные операции до бесконечности в будущем.
Артефакты
Артефакты — это переменные, которые должны были систематически варьироваться, либо в пределах одного исследования, либо между ними, но которые случайно оставались постоянными. Таким образом, артефакты представляют собой угрозы внешней валидности . Артефакты — это факторы, которые изменяются вместе с лечением и результатом. Кэмпбелл и Стэнли [27] выделяют несколько артефактов. Основными угрозами внутренней валидности являются история, созревание, тестирование, инструментарий, статистическая регрессия , отбор, экспериментальная смертность и взаимодействия отбора и истории.
Одним из способов минимизировать влияние артефактов является использование дизайна контрольной группы pretest-posttest . В рамках этого дизайна «группы людей, которые изначально эквивалентны (на этапе pretest), случайным образом назначаются для получения экспериментального лечения или контрольного условия, а затем снова оцениваются после этого дифференциального опыта (фаза posttest)». [28] Таким образом, любые эффекты артефактов (в идеале) равномерно распределены среди участников как в условиях лечения, так и в условиях контроля.
^ Также известна как вмешивающаяся переменная , вмешивающийся фактор , посторонний детерминант или скрытая переменная .
Ссылки
^ Pearl, J., (2009). Парадокс Симпсона , смешение и коллапс в причинности: модели, рассуждения и выводы (2-е изд.). Нью-Йорк: Cambridge University Press.
^ VanderWeele, TJ; Shpitser, I. (2013). «Об определении конфаундера». Annals of Statistics . 41 (1): 196–220. arXiv : 1304.0564 . doi : 10.1214/12-aos1058. PMC 4276366. PMID 25544784 .
^ Гринленд, С.; Робинс, Дж. М.; Перл, Дж. (1999). «Запутывание и коллапсируемость в причинно-следственном выводе». Статистическая наука . 14 (1): 29–46. doi : 10.1214/ss/1009211805 .
^ Шадиш, У. Р.; Кук, Т. Д.; Кэмпбелл, Д. Т. (2002). Экспериментальные и квазиэкспериментальные проекты для обобщенного причинного вывода . Бостон, Массачусетс: Houghton-Mifflin .
^ abcd Pearl, J., (1993). «Аспекты графических моделей, связанные с причинностью», в трудах 49-й сессии Международного статистического научного института, стр. 391–401.
^ ab Pearl, J. (2009). Причинно-следственные диаграммы и идентификация причинно-следственных эффектов в причинности: модели, рассуждения и выводы (2-е изд.). Нью-Йорк, штат Нью-Йорк, США: Cambridge University Press.
^ Чинелли, К.; Форни, А.; Перл, Дж. (март 2022 г.). «Ускоренный курс по хорошим и плохим элементам управления» (PDF) . Лаборатория когнитивных систем Калифорнийского университета в Лос-Анджелесе, Технический отчет (R-493) .
^ Ли, PH (2014). «Следует ли нам делать поправку на искажающий фактор, если эмпирические и теоретические критерии дают противоречивые результаты? Исследование с помощью моделирования». Sci Rep . 4 : 6085. Bibcode : 2014NatSR...4E6085L. doi : 10.1038/srep06085. PMC 5381407. PMID 25124526 .
^ Шпицер, И.; Перл, Дж. (2008). «Полные методы идентификации для причинной иерархии». Журнал исследований машинного обучения . 9 : 1941–1979.
^ Морабия, А (2011). «История современной эпидемиологической концепции смешения» (PDF) . Журнал эпидемиологии и общественного здравоохранения . 65 (4): 297–300. doi : 10.1136/jech.2010.112565 . PMID 20696848. S2CID 9068532.
^ ab Гринленд, С.; Робинс, Дж. М.; Перл, Дж. (1999). «Запутывание и коллапсируемость в причинно-следственном выводе». Статистическая наука . 14 (1): 31. doi : 10.1214/ss/1009211805 .
^ Ванденбрук, Дж. П. (2004). «История смешения». Soz Praventivmed . 47 (4): 216–224. doi :10.1007/BF01326402. PMID 12415925. S2CID 198174446.
^ Киш, Л. (1959). «Некоторые статистические проблемы в дизайне исследований». Am Sociol . 26 (3): 328–338. doi :10.2307/2089381. JSTOR 2089381.
^ Гринленд, С.; Робинс, Дж. М. (1986). «Идентифицируемость, взаимозаменяемость и эпидемиологическое смешение». Международный журнал эпидемиологии . 15 (3): 413–419. CiteSeerX 10.1.1.157.6445 . doi :10.1093/ije/15.3.413. PMID 3771081.
^ Нейман, Дж., в сотрудничестве с К. Иваскевичем и Ст. Колодзейчиком (1935). Статистические проблемы в сельскохозяйственном экспериментировании (с обсуждением). Suppl J Roy Statist Soc Ser B 2 107-180.
^ Рубин, ДБ (1974). «Оценка причинных эффектов лечения в рандомизированных и нерандомизированных исследованиях». Журнал педагогической психологии . 66 (5): 688–701. doi :10.1037/h0037350. S2CID 52832751.
^ Pearl, J., (2009). Причинность: модели, рассуждения и выводы (2-е изд.). Нью-Йорк, штат Нью-Йорк, США: Cambridge University Press.
^ Джонстон, SC (2001). «Определение сопутствующих факторов по показаниям с помощью слепого проспективного обзора». Американский журнал эпидемиологии . 154 (3): 276–284. doi : 10.1093/aje/154.3.276 . PMID 11479193.
^ ab Pelham, Brett (2006). Проведение исследований в области психологии . Belmont: Wadsworth. ISBN978-0-534-53294-9.
^ Стег, Л.; Бунк, А.П.; Ротенгаттер, Т. (2008). «Глава 4». Прикладная социальная психология: понимание и управление социальными проблемами . Кембридж, Великобритания: Cambridge University Press.
^ Tjønneland, Anne; Grønbæk, Morten; Stripp, Connie; Overvad, Kim (январь 1999). «Потребление вина и диета в случайной выборке из 48763 датских мужчин и женщин». Американский журнал клинического питания . 69 (1): 49–54. doi : 10.1093/ajcn/69.1.49 . PMID 9925122.
^ Аксельсон, О. (1989). «Влияние курения на профессиональную эпидемиологию». Британский журнал промышленной медицины . 46 (8): 505–07. doi :10.1136/oem.46.8.505. PMC 1009818. PMID 2673334 .
^ Кэлоу, Питер П. (2009) Справочник по оценке и управлению экологическими рисками , Wiley
^ Эмануэль, Иезекиль Дж.; Миллер, Франклин Г. (20 сентября 2001 г.). «Этика плацебо-контролируемых испытаний — середина». New England Journal of Medicine . 345 (12): 915–9. doi :10.1056/nejm200109203451211. PMID 11565527.
^ Кэмпбелл, Д.Т.; Стэнли, Дж.К. (1966). Экспериментальные и квазиэкспериментальные проекты для исследований . Чикаго: Rand McNally.
Pearl, J. (январь 1998 г.). «Почему нет статистического теста на смешение, почему многие думают, что он есть, и почему они почти правы» (PDF) . Кафедра компьютерных наук Калифорнийского университета в Лос-Анджелесе, Технический отчет R-256 .
Монтгомери, округ Колумбия (2001). «Блокирование и искажение в факторном дизайне». Дизайн и анализ экспериментов (5-е изд.). Wiley. стр. 287–302. В этом учебнике дается обзор факторов искажения и того, как их учитывать при планировании экспериментов.{{cite book}}: CS1 maint: постскриптум ( ссылка )
Brewer, MB (2000). «Исследовательский дизайн и вопросы валидности». В Reis, HT; Judd, CM (ред.). Справочник по исследованиям . Нью-Йорк: Cambridge University Press . стр. 3–16. ISBN 9780521551281.
Смит, Э. Р. (2000). «Исследовательский дизайн». В Рейс, Х. Т.; Джадд, К. М. (ред.). Справочник по методам исследования в социальной и личностной психологии . Нью-Йорк: Cambridge University Press. С. 17–39. ISBN 9780521551281.
Внешние ссылки
Учебное пособие: Модификация искажающих факторов и мер воздействия (Школа общественного здравоохранения Бостонского университета)