Взаимодействие (статистика)

В статистике взаимодействие может возникнуть при рассмотрении взаимосвязи между тремя или более переменными и описывает ситуацию, в которой влияние одной причинной переменной на результат зависит от состояния второй причинной переменной (то есть, когда влияние двух причин не является аддитивным ). ^[1]^[2] Хотя обычно рассматривается в терминах причинно-следственных связей, концепция взаимодействия может также описывать непричинные ассоциации (тогда также называемые модерацией или модификацией эффекта ). Взаимодействия часто рассматриваются в контексте регрессионного анализа или факторных экспериментов .

Наличие взаимодействий может иметь важные последствия для интерпретации статистических моделей. Если взаимодействуют две интересующие переменные, то связь между каждой из взаимодействующих переменных и третьей «зависимой переменной» зависит от значения другой взаимодействующей переменной. На практике это затрудняет прогнозирование последствий изменения значения переменной, особенно если переменные, с которыми она взаимодействует, трудно измерить или трудно контролировать.

Понятие «взаимодействие» тесно связано с понятием модерации , которое распространено в социальных и медицинских исследованиях: взаимодействие между объясняющей переменной и переменной среды предполагает, что влияние объясняющей переменной было смягчено или изменено переменной среды. ^[1]

Введение

Переменная взаимодействия или свойство взаимодействия — это переменная, сконструированная из исходного набора переменных, чтобы попытаться представить либо все присутствующее взаимодействие, либо некоторую его часть. В разведочном статистическом анализе обычно используют продукты исходных переменных в качестве основы для проверки наличия взаимодействия с возможностью замены других более реалистичных переменных взаимодействия на более позднем этапе. Когда имеется более двух объясняющих переменных, конструируется несколько переменных взаимодействия, причем попарные продукты представляют попарные взаимодействия, а продукты более высокого порядка представляют взаимодействия более высокого порядка.

Таким образом, для ответа Y и двух переменных x ₁ и x ₂ аддитивная модель будет иметь вид :

Y=c+ax_{1}+bx_{2}+{\text{ошибка}}\,

В отличие от этого,

Y=c+ax_{1}+bx_{2}+d(x_{1}\times x_{2})+{\text{error}}\,

является примером модели с взаимодействием между переменными x ₁ и x ₂ («ошибка» относится к случайной величине , значение которой отличается от ожидаемого значения Y ; см. ошибки и остатки в статистике ). Часто модели представляются без члена взаимодействия , но это смешивает основной эффект и эффект взаимодействия (т. е. без указания члена взаимодействия возможно , что любой найденный основной эффект на самом деле обусловлен взаимодействием). $d(x_{1}\times x_{2})$

В моделировании

В ANOVA

Простая обстановка, в которой могут возникнуть взаимодействия, — это двухфакторный эксперимент , проанализированный с помощью дисперсионного анализа (ANOVA). Предположим, у нас есть два бинарных фактора A и B. Например, эти факторы могут указывать, был ли назначен пациенту один из двух видов лечения, причем лечение применялось либо по отдельности, либо в сочетании. Затем мы можем рассмотреть средний ответ на лечение (например, уровень симптомов после лечения) для каждого пациента как функцию назначенной комбинации лечения. В следующей таблице показана одна из возможных ситуаций:

В этом примере нет взаимодействия между двумя видами лечения — их эффекты являются аддитивными. Причина этого в том, что разница в среднем ответе между субъектами, получающими лечение A, и теми, кто не получает лечение A, составляет −2 независимо от того, назначается ли лечение B (−2 = 4 − 6) или нет (−2 = 5 − 7). Обратите внимание, что из этого автоматически следует, что разница в среднем ответе между субъектами, получающими лечение B, и теми, кто не получает лечение B, является одинаковой независимо от того, назначается ли лечение A (7 − 6 = 5 − 4).

Напротив, если наблюдаются следующие средние ответы

тогда между методами лечения существует взаимодействие — их эффекты не являются аддитивными. Предполагая, что большее число соответствует лучшему ответу, в этой ситуации метод лечения B полезен в среднем, если субъект не получает также метод лечения A , но вреден в среднем, если применяется в сочетании с методом лечения A. Метод лечения A полезен в среднем независимо от того, применяется ли также метод лечения B , но он более полезен как в абсолютном, так и в относительном выражении, если применяется отдельно, а не в сочетании с методом лечения B. Аналогичные наблюдения сделаны для этого конкретного примера в следующем разделе.

Качественные и количественные взаимодействия

Во многих приложениях полезно различать качественные и количественные взаимодействия. ^[3] Количественное взаимодействие между A и B — это ситуация, когда величина эффекта B зависит от значения A , но направление эффекта B постоянно для всех A. Качественное взаимодействие между A и B относится к ситуации, когда как величина, так и направление эффекта каждой переменной могут зависеть от значения другой переменной.

Таблица средних значений слева, ниже, показывает количественное взаимодействие — лечение A полезно как при применении B , так и при не применении B , но польза больше, когда B не применяется (т. е. когда A применяется отдельно). Таблица средних значений справа показывает качественное взаимодействие. A вредно, когда применяется B , но полезно, когда B не применяется. Обратите внимание, что та же интерпретация будет иметь место, если мы рассмотрим пользу B на основе того, применяется ли A.

Различие между качественными и количественными взаимодействиями зависит от порядка, в котором рассматриваются переменные (в отличие от этого, свойство аддитивности инвариантно к порядку переменных). В следующей таблице, если мы сосредоточимся на эффекте лечения A , есть количественное взаимодействие — назначение лечения A улучшит результат в среднем независимо от того, назначается ли лечение B или нет (хотя польза больше, если назначается лечение A отдельно). Однако, если мы сосредоточимся на эффекте лечения B , есть качественное взаимодействие — назначение лечения B субъекту, который уже получает лечение A, (в среднем) ухудшит ситуацию, тогда как назначение лечения B субъекту, который не получает лечение A, улучшит результат в среднем.

Аддитивность обработки единицы

В своей простейшей форме предположение об аддитивности единицы лечения гласит, что наблюдаемый ответ y _ij от экспериментальной единицы i при получении лечения j может быть записан как сумма y _ij = y _i + t _j . ^[4]^[5]^[6] Предположение об аддитивности единицы лечения подразумевает, что каждое лечение имеет точно такой же аддитивный эффект на каждую экспериментальную единицу. Поскольку любая данная экспериментальная единица может подвергаться только одному из видов лечения, предположение об аддитивности единицы лечения является гипотезой, которая не может быть напрямую опровергнута, согласно Коксу ^{[ требуется ссылка ]} и Кемпторну. ^{[ требуется ссылка ]}

Однако многие последствия аддитивности единицы лечения могут быть сфальсифицированы. ^{[ необходима цитата ]} Для рандомизированного эксперимента предположение об аддитивности лечения подразумевает, что дисперсия постоянна для всех видов лечения. Поэтому, в противоположность этому, необходимым условием аддитивности единицы лечения является то, что дисперсия постоянна. ^{[ необходима цитата ]}

Свойство аддитивности единичного воздействия не является инвариантным при изменении масштаба, ^{[ требуется ссылка ],} поэтому статистики часто используют преобразования для достижения аддитивности единичного воздействия. Если ожидается, что переменная отклика будет следовать параметрическому семейству распределений вероятностей, то статистик может указать (в протоколе эксперимента или наблюдательного исследования), что отклики должны быть преобразованы для стабилизации дисперсии. ^[7] Во многих случаях статистик может указать, что к откликам должны применяться логарифмические преобразования, которые, как полагают, следуют мультипликативной модели. ^[5]^[8]

Предположение об аддитивности единичного воздействия было сформулировано в экспериментальном плане Кемпторном ^{[ требуется ссылка ]} и Коксом ^{[ требуется ссылка ]} . Использование Кемпторном аддитивности единичного воздействия и рандомизации похоже на основанный на дизайне анализ выборки выборочного обследования конечной популяции.

В последние годы стало обычным ^{[ требуется ссылка ]} использовать терминологию Дональда Рубина, которая использует контрфактуальные данные. Предположим, мы сравниваем две группы людей по некоторому атрибуту y . Например, первая группа может состоять из людей, которым назначают стандартное лечение от какого-либо заболевания, а вторая группа — из людей, которым назначают новое лечение с неизвестным эффектом. Принимая «контрфактуальную» точку зрения, мы можем рассмотреть индивидуума, атрибут которого имеет значение y, если этот индивидуум принадлежит к первой группе, и атрибут которого имеет значение τ ( y ), если этот индивидуум принадлежит ко второй группе. Предположение об «аддитивности единичного лечения» заключается в том, что τ ( y ) = τ , то есть «эффект лечения» не зависит от y . Поскольку мы не можем наблюдать как y , так и τ( y ) для данного индивидуума, это не проверяемо на индивидуальном уровне. Однако аддитивность единичного лечения подразумевает, что кумулятивные функции распределения F ₁ и F ₂ для двух групп удовлетворяют F ₂ ( y ) = F ₁ ( y − τ ), пока назначение индивидуумов группам 1 и 2 не зависит от всех других факторов, влияющих на y (т.е. нет никаких конфаундеров ). Отсутствие аддитивности единичного лечения можно рассматривать как форму взаимодействия между назначением лечения (например, группам 1 или 2) и исходным или необработанным значением y .

Категориальные переменные

Иногда взаимодействующие переменные являются категориальными переменными, а не действительными числами, и тогда исследование может рассматриваться как проблема дисперсионного анализа . Например, члены популяции могут быть классифицированы по религии и по роду занятий. Если кто-то хочет предсказать рост человека, основываясь только на его религии и роде занятий, простая аддитивная модель, т. е. модель без взаимодействия, добавит к общему среднему росту поправку на конкретную религию и еще одну на конкретную профессию. Модель со взаимодействием, в отличие от аддитивной модели , может добавить дополнительную поправку на «взаимодействие» между этой религией и этим родом занятий. Этот пример может вызвать подозрение, что слово «взаимодействие» является чем-то вроде неправильного употребления.

Статистически наличие взаимодействия между категориальными переменными обычно проверяется с помощью формы дисперсионного анализа (ANOVA). Однако, если одна или несколько переменных являются непрерывными по своей природе, они обычно проверяются с помощью модерируемой множественной регрессии. ^[9] Это так называется, потому что модератор — это переменная, которая влияет на силу связи между двумя другими переменными.

Спланированные эксперименты

Геничи Тагучи утверждал ^[10] , что взаимодействия могут быть устранены из системы путем соответствующего выбора переменной отклика и преобразования. Однако Джордж Бокс и другие утверждали, что в общем случае это не так. ^[11]

Размер модели

При наличии n предикторов число членов в линейной модели, включающей константу, каждый предиктор и каждое возможное взаимодействие, равно . Поскольку эта величина растет экспоненциально, она легко становится непрактично большой. Одним из методов ограничения размера модели является ограничение порядка взаимодействий. Например, если разрешены только двусторонние взаимодействия, число членов становится равным . В приведенной ниже таблице показано число членов для каждого числа предикторов и максимальный порядок взаимодействия. ${\tbinom {n}{0}}+{\tbinom {n}{1}}+{\tbinom {n}{2}}+\cdots +{\tbinom {n}{n}}= 2^{n}$ ${\tbinom {n}{0}}+{\tbinom {n}{1}}+{\tbinom {n}{2}}=1+{\tfrac {1}{2}}n+{ \tfrac {1}{2}}n^{2}$

В регрессе

Наиболее общий подход к моделированию эффектов взаимодействия включает регрессию, начиная с элементарной версии, приведенной выше:

Y=c+ax_{1}+bx_{2}+d(x_{1}\times x_{2})+{\text{error}}\,

где член взаимодействия может быть сформирован явно путем умножения двух (или более) переменных или неявно с использованием факториальной нотации в современных статистических пакетах, таких как Stata . Компоненты x ₁ и x ₂ могут быть измерениями или фиктивными переменными {0,1} в любой комбинации. Взаимодействия, включающие фиктивную переменную, умноженную на переменную измерения, называются фиктивными переменными наклона ^[12] , потому что они оценивают и проверяют разницу в наклонах между группами 0 и 1. $(x_{1}\times x_{2})$

Когда переменные измерения используются во взаимодействиях, часто желательно работать с центрированными версиями, где среднее значение переменной (или какое-либо другое разумно центральное значение) устанавливается равным нулю. Центрирование может сделать основные эффекты в моделях взаимодействия более интерпретируемыми, поскольку оно уменьшает мультиколлинеарность между членом взаимодействия и основными эффектами. ^[13] Например, коэффициент a в уравнении выше представляет эффект x ₁ , когда x ₂ равен нулю.

Регрессионные подходы к моделированию взаимодействия являются очень общими, поскольку они могут включать дополнительные предикторы и множество альтернативных спецификаций или стратегий оценки за пределами обычных наименьших квадратов . Надежные , квантильные и смешанные ( многоуровневые ) модели являются одними из возможностей, как и обобщенное линейное моделирование, охватывающее широкий спектр категориальных, упорядоченных, подсчитанных или иным образом ограниченных зависимых переменных. График изображает взаимодействие образование*политика, полученное с помощью регрессионного анализа данных опроса с весовыми коэффициентами вероятности . ^[14]

Сюжеты взаимодействия

Графики взаимодействия, также называемые графиками простого наклона , показывают возможные взаимодействия между переменными.

Пример: Взаимодействие видов и температуры воздуха и их влияние на температуру тела.

Рассмотрим исследование температуры тела разных видов при разных температурах воздуха в градусах по Фаренгейту. Данные приведены в таблице ниже.

График взаимодействия может использовать либо температуру воздуха, либо вид в качестве оси X. Второй фактор представлен линиями на графике взаимодействия.

Существует взаимодействие между двумя факторами (температура воздуха и вид) в их влиянии на реакцию (температуру тела), поскольку влияние температуры воздуха зависит от вида. Взаимодействие указано на графике, поскольку линии не параллельны.

Пример: влияние тяжести инсульта и лечения на выздоровление

В качестве второго примера рассмотрим клиническое исследование взаимодействия между тяжестью инсульта и эффективностью препарата для выживаемости пациентов. Данные приведены в таблице ниже.

На графике взаимодействия линии для групп с легким и средним инсультом параллельны, что указывает на то, что препарат оказывает одинаковое действие в обеих группах, поэтому взаимодействия нет. Линия для группы с тяжелым инсультом не параллельна другим линиям, что указывает на то, что существует взаимодействие между тяжестью инсульта и эффектом препарата на выживаемость. Линия для группы с тяжелым инсультом плоская, что указывает на то, что среди этих пациентов нет разницы в выживаемости между лечением препаратом и плацебо. Напротив, линии для групп с легким и средним инсультом наклонены вниз вправо, что указывает на то, что среди этих пациентов группа плацебо имеет более низкую выживаемость, чем группа, леченная препаратом.

Проверка гипотез о взаимодействии

Для проверки значимых взаимодействий используются дисперсионный и регрессионный анализ.

Пример: Взаимодействие температуры и времени при выпечке печенья.

Влияет ли температура выпечки и время в духовке на выход хорошего печенья? В таблице приведены данные по 8 партиям печенья.

Данные показывают, что выход хорошего печенья лучше всего, когда либо (i) температура высокая и время в духовке короткое, либо (ii) температура низкая и время в духовке долгое. Если печенье оставить в духовке на долгое время при высокой температуре, печенье подгорит, и выход будет низким.

Из графика и данных видно, что линии не параллельны, что указывает на наличие взаимодействия. Это можно проверить с помощью дисперсионного анализа (ANOVA). Первая модель ANOVA не будет включать член взаимодействия. То есть первая модель ANOVA игнорирует возможное взаимодействие. Вторая модель ANOVA будет включать член взаимодействия. То есть вторая модель ANOVA явно выполняет проверку гипотезы о взаимодействии.

Модель ANOVA 1: без члена взаимодействия; выход ~ температура + время

В модели ANOVA, которая игнорирует взаимодействие, ни температура, ни время не оказывают существенного влияния на урожайность (p=0,91), что явно является неверным выводом. Более подходящая модель ANOVA должна проверять возможное взаимодействие.

Модель ANOVA 2: включить член взаимодействия; выход ~ температура * время

Термин взаимодействия температура:время является значимым (p=0,000180). На основании теста взаимодействия и графика взаимодействия, по-видимому, влияние времени на урожайность зависит от температуры и наоборот.

Примеры

Реальные примеры взаимодействия включают в себя:

Взаимодействие между добавлением сахара в кофе и размешиванием кофе. Ни одна из двух отдельных переменных не оказывает особого влияния на сладость, но их комбинация оказывает.
Взаимодействие между добавлением углерода в сталь и закалкой . Ни один из этих двух факторов по отдельности не оказывает большого влияния на прочность , но их сочетание оказывает драматический эффект.
Взаимодействие между курением и вдыханием волокон асбеста : Оба повышают риск рака легких, но воздействие асбеста увеличивает риск рака у курильщиков и некурящих. Здесь совместный эффект вдыхания асбеста и курения выше, чем сумма обоих эффектов. ^[15]
Взаимодействие между генетическими факторами риска диабета 2 типа и диетой (в частности, «западной» диетической моделью). Было показано, что западная диетическая модель увеличивает риск диабета у субъектов с высоким «генетическим риском», но не у других субъектов. ^[16]
Взаимодействие между образованием и политической ориентацией, влияющее на восприятие изменения климата широкой общественностью. Например, опросы в США часто показывают, что принятие реальности антропогенного изменения климата растет с образованием среди умеренных или либеральных респондентов опроса, но снижается с образованием среди наиболее консервативных. ^[17]^[18] Аналогичные взаимодействия были замечены для влияния на некоторые неклиматические науки или экологические восприятия, ^[19] и оперируют с научной грамотностью или другими показателями знаний вместо образования. ^[20]^[21]

Смотрите также

Ссылки

^ ab Dodge, Y. (2003). Оксфордский словарь статистических терминов . Oxford University Press. ISBN 978-0-19-920613-1.
^ Кокс, DR (1984). «Взаимодействие». Международный статистический обзор . 52 (1): 1–25. doi :10.2307/1403235. JSTOR 1403235.
^ Пето, Д.П. (1982). «Статистические аспекты испытаний рака». Лечение рака (первое издание). Лондон: Chapman and Hall. ISBN 0-412-21850-X.
^ Кемпторн, Оскар (1979). Планирование и анализ экспериментов (Исправленное переиздание (1952) Wiley ed.). Роберт Э. Кригер. ISBN 978-0-88275-105-4.
^ ab Cox, David R. (1958). Планирование экспериментов . Wiley. Глава 2. ISBN 0-471-57429-5.
^ Хинкельманн, Клаус и Кемпторн, Оскар (2008). Планирование и анализ экспериментов, том I: Введение в экспериментальное проектирование (второе издание). Wiley. Главы 5-6. ISBN 978-0-471-72756-9.{{cite book}}: CS1 maint: несколько имен: список авторов ( ссылка )
^ Хинкельманн, Клаус и Кемпторн, Оскар (2008). Планирование и анализ экспериментов, том I: Введение в экспериментальное проектирование (второе издание). Wiley. Главы 7-8. ISBN 978-0-471-72756-9.{{cite book}}: CS1 maint: несколько имен: список авторов ( ссылка )
^ Бейли, РА (2008). Планирование сравнительных экспериментов. Cambridge University Press. ISBN 978-0-521-68357-9.Предварительные главы доступны в Интернете.
^ Овертон, RC (2001). «Модерируемая множественная регрессия для взаимодействий, включающих категориальные переменные: статистический контроль гетерогенной дисперсии в двух группах». Психологические методы . 6 (3): 218–33. doi :10.1037/1082-989X.6.3.218. PMID 11570229.
^ "Проектирование экспериментов - Эксперименты Тагучи". www.qualitytrainingportal.com . Получено 27.11.2015 .
^ Джордж Э. П. Бокс (1990). «Имеют ли взаимодействия значение?» (PDF) . Quality Engineering . 2 : 365–369. doi :10.1080/08982119008962728. Архивировано из оригинала (PDF) 2010-06-10 . Получено 2009-07-28 .
^ Гамильтон, LC 1992. Регрессия с графикой: второй курс прикладной статистики . Пасифик-Гроув, Калифорния: Brooks/Cole. ISBN 978-0534159009
^ Якобуччи, Рассвет; Шнайдер, Мэтью Дж.; Попович, Дейдре Л.; Бакамитсос, Георгиос А. (2016). «Центрирование по среднему помогает смягчить «микро», но не «макро» мультиколлинеарность». Методы исследования поведения . 48 (4): 1308–1317. дои : 10.3758/s13428-015-0624-x . ISSN 1554-3528. ПМИД 26148824.
^ Гамильтон, LC; Сайто, K. (2015). «Четырехсторонний взгляд на проблемы окружающей среды в США». Environmental Politics . 24 (2): 212–227. Bibcode : 2015EnvPo..24..212H. doi : 10.1080/09644016.2014.976485. S2CID 154762226.
^ Ли, П. Н. (2001). «Связь между воздействием асбеста и курением и риском рака легких». Медицина труда и окружающей среды . 58 (3): 145–53. doi :10.1136/oem.58.3.145. PMC 1740104. PMID 11171926 .
^ Lu, Q.; et al. (2009). «Генетическая предрасположенность, западный рацион питания и риск диабета 2 типа у мужчин». Am J Clin Nutr . 89 (5): 1453–1458. doi :10.3945/ajcn.2008.27249. PMC 2676999. PMID 19279076 .
^ Гамильтон, LC (2011). «Образование, политика и мнения об изменении климата: доказательства эффектов взаимодействия». Изменение климата . 104 (2): 231–242. Bibcode : 2011ClCh..104..231H. doi : 10.1007/s10584-010-9957-8. S2CID 16481640.
^ Маккрийт, AM (2011). «Политическая ориентация смягчает убеждения и обеспокоенность американцев по поводу изменения климата». Изменение климата . 104 (2): 243–253. Bibcode : 2011ClCh..104..243M. doi : 10.1007/s10584-010-9946-y. S2CID 152795205.
^ Гамильтон, Лоуренс К.; Сайто, Кей (2015). «Четырехсторонний взгляд на проблемы окружающей среды в США». Environmental Politics . 24 (2): 212–227. Bibcode : 2015EnvPo..24..212H. doi : 10.1080/09644016.2014.976485. S2CID 154762226.
^ Кахан, Д. М.; Дженкинс-Смит, Х.; Браман, Д. (2011). «Культурное познание научного консенсуса». Журнал исследований риска . 14 (2): 147–174. doi :10.1080/13669877.2010.511246. hdl : 10.1080/13669877.2010.511246 . S2CID 216092368.
^ Гамильтон, LC; Катлер, MJ; Шефер, A. (2012). «Общественные знания и обеспокоенность по поводу потепления в полярных регионах». Polar Geography . 35 (2): 155–168. Bibcode : 2012PolGe..35..155H. doi : 10.1080/1088937X.2012.684155. S2CID 12437794.

Дальнейшее чтение

Кокс, Дэвид Р. и Рид, Нэнси М. (2000) Теория планирования экспериментов , Chapman & Hall/CRC. ISBN 1-58488-195-X
Саутвуд, К. Э. (1978). «Содержательная теория и статистическое взаимодействие: пять моделей». Американский журнал социологии . 83 (5): 1154–1203. doi : 10.1086/226678. S2CID 143521842.
Brambor, T.; Clark, WR (2006). «Понимание моделей взаимодействия: совершенствование эмпирического анализа». Политический анализ . 14 (1): 63–82. doi :10.1093/pan/mpi014.
Hayes, AF; Matthes, J. (2009). "Вычислительные процедуры для зондирования взаимодействий в OLS и логистической регрессии: реализации SPSS и SAS". Методы исследования поведения . 41 (3): 924–936. doi : 10.3758/BRM.41.3.924 . PMID 19587209.
Balli, HO; Sørensen, BE (2012). «Эффекты взаимодействия в эконометрике». Empirical Economics . 43 (x): 1–21. CiteSeerX 10.1.1.691.4349 . doi :10.1007/s00181-012-0604-2. S2CID 53504187.

Внешние ссылки

"Использование индикаторных и взаимодействующих переменных" (PDF) . Архивировано из оригинала (PDF) 2016-03-03 . Получено 2010-02-03 . (158 КБ )
Достоверность и статистическая переменная взаимодействия: выступая в защиту умножения как источника понимания
Основы статистических взаимодействий: В чем разница между «основными эффектами» и «эффектами взаимодействия»?