stringtranslate.com

Ложная связь

Графическая модель : в то время как медиатор является фактором в причинно-следственной цепи (вверху), конфаундер является ложным фактором, неверно подразумевающим причинно-следственную связь (внизу)

В статистике ложная связь или ложная корреляция [1] [2] — это математическая связь , в которой два или более событий или переменных связаны , но не связаны причинно , из-за совпадения или присутствия определенного третьего, невидимого фактора (называемого «общей переменной отклика», «смешивающим фактором» или « скрытой переменной »).

Примеры

Пример ложной связи можно найти в литературе по временным рядам , где ложная регрессия — это та, которая предоставляет вводящие в заблуждение статистические доказательства линейной связи между независимыми нестационарными переменными. Фактически, нестационарность может быть вызвана наличием единичного корня в обеих переменных. [3] [4] В частности, любые две номинальные экономические переменные , вероятно, будут коррелировать друг с другом, даже если ни одна из них не имеет причинно-следственного эффекта на другую, поскольку каждая равна реальной переменной, умноженной на уровень цен , и общее присутствие уровня цен в двух рядах данных придает им корреляцию. (См. также ложную корреляцию отношений .)

Другой пример ложной связи можно увидеть, изучив продажи мороженого в городе . Продажи могут быть самыми высокими, когда уровень утопления в городских бассейнах самый высокий. Утверждать, что продажа мороженого вызывает утопление или наоборот, означало бы подразумевать ложную связь между ними. На самом деле, волна тепла могла вызвать и то, и другое. Волна тепла является примером скрытой или невидимой переменной, также известной как смешивающая переменная .

Другим часто упоминаемым примером является ряд голландских статистических данных, показывающих положительную корреляцию между числом аистов, гнездящихся в ряде весен, и числом человеческих младенцев, рожденных в это время. Конечно, не было никакой причинно-следственной связи; они коррелировали друг с другом только из-за двух независимых совпадений. В языческую эпоху, которую можно проследить по крайней мере до средневековья более 600 лет назад, пары обычно женились во время ежегодного летнего солнцестояния, потому что лето ассоциировалось с плодородием. В то же время аисты начинали свою ежегодную миграцию, пролетая весь путь от Европы до Африки. Затем птицы возвращались следующей весной — ровно через девять месяцев. [5]

В редких случаях ложная связь может возникнуть между двумя совершенно не связанными между собой переменными без какой-либо вмешивающейся переменной, как это было в случае между успехом профессиональной футбольной команды Washington Commanders в определенной игре перед каждыми президентскими выборами и успехом политической партии действующего президента на этих выборах. В течение 16 последовательных выборов с 1940 по 2000 год правило Redskins правильно соответствовало тому, сохранит ли политическая партия действующего президента президентство или проиграет его. Правило в конечном итоге перестало работать вскоре после того, как Elias Sports Bureau обнаружило корреляцию в 2000 году; в 2004, 2012 и 2016 годах результаты игры Commanders и выборов не совпадали. [6] [7] [8] В похожей ложной связи с участием Национальной футбольной лиги в 1970-х годах Леонард Коппетт отметил корреляцию между направлением фондового рынка и победившей конференцией Суперкубка того года , индикатором Суперкубка ; эта связь сохранялась на протяжении большей части 20-го века, прежде чем вернуться к более случайному поведению в 21-м веке. [9]

Проверка гипотез

Часто проверяют нулевую гипотезу об отсутствии корреляции между двумя переменными и заранее решают отвергнуть гипотезу, если корреляция, вычисленная по выборке данных, имела бы место менее чем в (скажем) 5% выборок данных, если бы нулевая гипотеза была верна. В то время как истинная нулевая гипотеза будет принята в 95% случаев, в других 5% случаев, когда имеется истинный нуль отсутствия корреляции, нулевая корреляция будет ошибочно отвергнута, что приведет к принятию корреляции, которая является ложной (событие, известное как ошибка типа I ). Здесь ложная корреляция в выборке возникла в результате случайного выбора выборки, которая не отражала истинные свойства базовой популяции.

Обнаружение ложных связей

Термин «ложная связь» обычно используется в статистике и, в частности, в экспериментальных исследовательских методах, которые пытаются понять и предсказать прямые причинно-следственные связи (X → Y). Непричинная корреляция может быть ложно создана антецедентом, который вызывает оба (W → X и W → Y). Опосредованные переменные , (X → W → Y), если они не обнаружены, оценивают общий эффект, а не прямой эффект без корректировки для опосредованной переменной M. Из-за этого экспериментально выявленные корреляции не представляют причинно-следственные связи , если только ложные связи не могут быть исключены.

Эксперименты

В экспериментах ложные связи часто можно выявить, контролируя другие факторы, включая те, которые были теоретически идентифицированы как возможные смешивающие факторы. Например, представьте себе исследователя, пытающегося определить, убивает ли новый препарат бактерии; когда исследователь применяет препарат к бактериальной культуре, бактерии погибают. Но чтобы помочь исключить наличие смешивающей переменной, другая культура подвергается условиям, которые максимально идентичны тем, с которыми сталкивается первая упомянутая культура, но вторая культура не подвергается воздействию препарата. Если в этих условиях есть невидимый смешивающий фактор, эта контрольная культура также погибнет, так что на основе результатов первой культуры нельзя сделать вывод об эффективности препарата. С другой стороны, если контрольная культура не погибает, то исследователь не может отвергнуть гипотезу о том, что препарат эффективен.

Неэкспериментальный статистический анализ

Дисциплины, данные которых в основном неэкспериментальны, такие как экономика , обычно используют данные наблюдений для установления причинно-следственных связей. Совокупность статистических методов, используемых в экономике, называется эконометрикой . Основным статистическим методом в эконометрике является многомерный регрессионный анализ . Обычно линейная связь, такая как

выдвинута гипотеза, в которой — зависимая переменная (предположительно вызванная переменная), для j  = 1, ...,  kj независимая переменная (предположительно причинная переменная), а — ошибка (содержащая объединенные эффекты всех других причинных переменных, которые должны быть некоррелированы с включенными независимыми переменными). Если есть основания полагать, что ни одна из s не вызвана y , то получаются оценки коэффициентов . Если нулевая гипотеза , которая отвергается, то альтернативная гипотеза , что и эквивалентно , что вызывает y, не может быть отвергнута. С другой стороны, если нулевая гипотеза , которая не может быть отвергнута, то эквивалентно гипотеза об отсутствии причинного эффекта на y не может быть отвергнута. Здесь понятие причинности является одним из видов сопутствующей причинности : если истинное значение , то изменение в приведет к изменению в y, если только какая-либо другая причинная переменная(ые), включенная в регрессию или подразумеваемая в члене ошибки, не изменится таким образом, чтобы точно компенсировать ее эффект; таким образом, изменение в недостаточно для изменения  y . Аналогично, изменение в не является необходимым для изменения y , поскольку изменение в y может быть вызвано чем-то неявным в члене ошибки (или какой-либо другой причинной объясняющей переменной, включенной в модель).

Регрессионный анализ контролирует другие соответствующие переменные, включая их в качестве регрессоров (объясняющих переменных). Это помогает избежать ошибочного вывода о причинно-следственной связи из-за наличия третьей, базовой переменной, которая влияет как на потенциально причинную переменную, так и на потенциально вызванную переменную: ее влияние на потенциально вызванную переменную фиксируется путем прямого включения ее в регрессию, так что этот эффект не будет воспринят как ложный эффект потенциально причинной переменной, представляющей интерес. Кроме того, использование многомерной регрессии помогает избежать ошибочного вывода о том, что косвенный эффект, скажем, x 1 (например, x 1x 2y ) является прямым эффектом ( x 1y ).

Так же, как экспериментатор должен быть осторожен, чтобы использовать экспериментальный дизайн, который контролирует каждый смешивающий фактор, так и пользователь множественной регрессии должен быть осторожен, чтобы контролировать все смешивающие факторы, включая их среди регрессоров. Если смешивающий фактор исключен из регрессии, его эффект по умолчанию фиксируется в члене ошибки, и если полученный член ошибки коррелирует с одним (или несколькими) из включенных регрессоров, то оцененная регрессия может быть смещенной или непоследовательной (см. смещение из-за опущенной переменной ).

В дополнение к регрессионному анализу данные можно исследовать, чтобы определить, существует ли причинность по Грейнджеру . Наличие причинности по Грейнджеру указывает как на то, что x предшествует y , так и на то, что x содержит уникальную информацию о  y .

Другие отношения

В статистическом анализе определены и другие взаимосвязи, как указано ниже.

Смотрите также

Литература

Сноски

  1. ^ Бернс, Уильям С., « Ложные корреляции », 1997.
  2. ^ Pearl, Judea . "UCLA 81st Faculty Research Lecture Series". singapore.cs.ucla.edu . Получено 10 ноября 2019 г.
  3. ^ Юл, Г. Удни (1926-01-01). «Почему мы иногда получаем бессмысленные корреляции между временными рядами? Исследование выборки и природы временных рядов». Журнал Королевского статистического общества . 89 (1): 1–63. doi :10.2307/2341482. JSTOR  2341482. S2CID  126346450.
  4. ^ Granger, Clive WJ; Ghysels, Eric; Swanson, Norman R.; Watson, Mark W. (2001). Очерки по эконометрике: Сборник статей Clive WJ Granger . Cambridge University Press. ISBN 978-0521796491.
  5. ^ Сапсфорд, Роджер; Джапп, Виктор, ред. (2006). Сбор и анализ данных . Sage. ISBN 0-7619-4362-5.
  6. Хофхаймер, Билл (30 октября 2012 г.). «Правило «Редскинз»: Хирдт из MNF о пересечении футбола и политики». ESPN . Получено 16 октября 2016 г.
  7. Manker, Rob (7 ноября 2012 г.). «Redskins Rule: победа Барака Обамы над Миттом Ромни заставляет предсказателя президентских выборов потерпеть первое поражение». Chicago Tribune . Получено 8 ноября 2012 г.
  8. ^ Пол, Роберт С. (2013). Городские легенды и исторические предания Вашингтона. The History Press. С. 78–80. ISBN 978-1625846648.[ постоянная мертвая ссылка ]
  9. ^ Дон Пепперс. "Большие данные. Суперкубок. Маленькие умы" . Получено 31 декабря 2015 г.

Ссылки

Внешние ссылки