В причинных моделях контроль переменной означает группировку данных в соответствии с измеренными значениями переменной. Обычно это делается для того, чтобы переменная больше не могла выступать в качестве искажающего фактора , например, в наблюдательном исследовании или эксперименте .
При оценке влияния объясняющих переменных на результат с помощью регрессии контролируемые переменные включаются в качестве входных данных, чтобы отделить их влияние от объясняющих переменных. [1]
Ограничением контроля переменных является то, что для определения важных факторов, препятствующих результату, необходима причинно-следственная модель ( для определения используется критерий бэкдора ). Без нее возможный фактор, препятствующий результату, может остаться незамеченным. Другая связанная проблема заключается в том, что если переменная, которая не является реальным фактором, контролируется, это может фактически сделать другие переменные (возможно, не принятые во внимание) факторами, препятствующими результату, хотя они не были ими ранее. В других случаях контроль не препятствующей фактора может привести к недооценке истинного причинно-следственного эффекта объясняющих переменных на результат (например, при контроле медиатора или его потомка ). [2] [3] Контрфактуальное рассуждение смягчает влияние факторов, препятствующих результату, без этого недостатка . [3]
Эксперименты пытаются оценить эффект манипулирования одной или несколькими независимыми переменными на одну или несколько зависимых переменных . Чтобы гарантировать, что измеряемый эффект не зависит от внешних факторов, другие переменные должны оставаться постоянными. Переменные, которые остаются постоянными во время эксперимента, называются контрольными переменными .
Например, если бы эксперимент на открытом воздухе проводился для сравнения того, как различные конструкции крыльев бумажного самолетика (независимая переменная) влияют на то, как далеко он может лететь (зависимая переменная), то хотелось бы убедиться, что эксперимент проводится в то время, когда погода одинакова, потому что не хотелось бы, чтобы погода влияла на эксперимент. В этом случае управляющими переменными могут быть скорость ветра, направление и осадки. Если бы эксперимент проводился в солнечную безветренную погоду, но погода изменилась, то хотелось бы отложить завершение эксперимента до тех пор, пока управляющие переменные (ветер и уровень осадков) не станут такими же, как в начале эксперимента.
В контролируемых экспериментах по вариантам медицинского лечения на людях исследователи случайным образом распределяют людей в группу лечения или контрольную группу . Это делается для того, чтобы уменьшить смешивающее влияние нерелевантных переменных, которые не изучаются, таких как эффект плацебо .
В наблюдательном исследовании исследователи не контролируют значения независимых переменных, например, кто получает лечение. Вместо этого они должны контролировать переменные, используя статистику .
Наблюдательные исследования используются, когда контролируемые эксперименты могут быть неэтичными или непрактичными. Например, если исследователь хочет изучить влияние безработицы ( независимая переменная ) на здоровье ( зависимая переменная ), институциональные наблюдательные комиссии посчитают неэтичным случайным назначать некоторым участникам работу, а некоторым — нет. Вместо этого исследователю придется создать выборку , которая включает некоторых работающих людей и некоторых безработных. Однако могут быть факторы, которые влияют как на то, работает ли кто-то, так и на то, насколько он или она здоровы. Часть любой наблюдаемой связи между независимой переменной (статус занятости) и зависимой переменной (здоровье) может быть обусловлена этими внешними, ложными факторами, а не указывать на истинную связь между ними. Это может быть проблематично даже в настоящей случайной выборке . Контролируя внешние переменные, исследователь может приблизиться к пониманию истинного влияния независимой переменной на зависимую переменную.
В этом контексте посторонние переменные могут контролироваться с помощью множественной регрессии . Регрессия использует в качестве независимых переменных не только одну или те, чье влияние на зависимую переменную изучается, но также любые потенциальные вмешивающиеся переменные, таким образом избегая смещения из-за пропущенных переменных . «Вмешивающиеся переменные» в этом контексте означают другие факторы, которые не только влияют на зависимую переменную (результат), но и на главную независимую переменную. [3]
Простейшими примерами контрольных переменных в регрессионном анализе являются оценки по методу наименьших квадратов (OLS). Структура OLS предполагает следующее:
Соответственно, контрольную переменную можно интерпретировать как линейную объясняющую переменную, которая влияет на среднее значение Y (предположение 1), но которая не представляет собой основную переменную исследования и которая также удовлетворяет другим предположениям, приведенным выше. [4]
Рассмотрим исследование о том, влияет ли старение на удовлетворенность жизнью человека . (Некоторые исследователи видят «u-образную» форму: удовлетворенность жизнью сначала снижается, а затем повышается после среднего возраста. [5] ) Чтобы определить необходимые здесь контрольные переменные, можно спросить, какие еще переменные определяют не только удовлетворенность жизнью человека, но и его возраст. Многие другие переменные определяют удовлетворенность жизнью. Но ни одна другая переменная не определяет, сколько ему лет (пока он жив). (Все люди продолжают стареть с одинаковой скоростью, независимо от их других характеристик.) Поэтому здесь не нужны контрольные переменные. [6]
Для определения необходимых контрольных переменных может быть полезно построить направленный ациклический граф . [3]