В статистике ложная связь или ложная корреляция [1] [2] — это математическая связь , в которой два или более событий или переменных связаны , но не связаны причинно , из-за совпадения или присутствия определенного третьего, невидимого фактора (называемого «общей переменной отклика», «смешивающим фактором» или « скрытой переменной »).
Пример ложной связи можно найти в литературе по временным рядам , где ложная регрессия — это та, которая предоставляет вводящие в заблуждение статистические доказательства линейной связи между независимыми нестационарными переменными. Фактически, нестационарность может быть вызвана наличием единичного корня в обеих переменных. [3] [4] В частности, любые две номинальные экономические переменные , вероятно, будут коррелировать друг с другом, даже если ни одна из них не имеет причинно-следственного эффекта на другую, поскольку каждая равна реальной переменной, умноженной на уровень цен , и общее присутствие уровня цен в двух рядах данных придает им корреляцию. (См. также ложную корреляцию отношений .)
Другой пример ложной связи можно увидеть, изучив продажи мороженого в городе . Продажи могут быть самыми высокими, когда уровень утопления в городских бассейнах самый высокий. Утверждать, что продажа мороженого вызывает утопление или наоборот, означало бы подразумевать ложную связь между ними. На самом деле, волна тепла могла вызвать и то, и другое. Волна тепла является примером скрытой или невидимой переменной, также известной как смешивающая переменная .
Другим часто упоминаемым примером является ряд голландских статистических данных, показывающих положительную корреляцию между числом аистов, гнездящихся в ряде весен, и числом человеческих младенцев, рожденных в это время. Конечно, не было никакой причинно-следственной связи; они коррелировали друг с другом только из-за двух независимых совпадений. В языческую эпоху, которую можно проследить по крайней мере до средневековья более 600 лет назад, пары обычно женились во время ежегодного летнего солнцестояния, потому что лето ассоциировалось с плодородием. В то же время аисты начинали свою ежегодную миграцию, пролетая весь путь от Европы до Африки. Затем птицы возвращались следующей весной — ровно через девять месяцев. [5]
В редких случаях ложная связь может возникнуть между двумя совершенно не связанными между собой переменными без какой-либо вмешивающейся переменной, как это было в случае между успехом профессиональной футбольной команды Washington Commanders в определенной игре перед каждыми президентскими выборами и успехом политической партии действующего президента на этих выборах. В течение 16 последовательных выборов с 1940 по 2000 год правило Redskins правильно соответствовало тому, сохранит ли политическая партия действующего президента президентство или проиграет его. Правило в конечном итоге перестало работать вскоре после того, как Elias Sports Bureau обнаружило корреляцию в 2000 году; в 2004, 2012 и 2016 годах результаты игры Commanders и выборов не совпадали. [6] [7] [8] В похожей ложной связи с участием Национальной футбольной лиги в 1970-х годах Леонард Коппетт отметил корреляцию между направлением фондового рынка и победившей конференцией Суперкубка того года , индикатором Суперкубка ; эта связь сохранялась на протяжении большей части 20-го века, прежде чем вернуться к более случайному поведению в 21-м веке. [9]
Часто проверяют нулевую гипотезу об отсутствии корреляции между двумя переменными и заранее решают отвергнуть гипотезу, если корреляция, вычисленная по выборке данных, имела бы место менее чем в (скажем) 5% выборок данных, если бы нулевая гипотеза была верна. В то время как истинная нулевая гипотеза будет принята в 95% случаев, в других 5% случаев, когда имеется истинный нуль отсутствия корреляции, нулевая корреляция будет ошибочно отвергнута, что приведет к принятию корреляции, которая является ложной (событие, известное как ошибка типа I ). Здесь ложная корреляция в выборке возникла в результате случайного выбора выборки, которая не отражала истинные свойства базовой популяции.
Термин «ложная связь» обычно используется в статистике и, в частности, в экспериментальных исследовательских методах, которые пытаются понять и предсказать прямые причинно-следственные связи (X → Y). Непричинная корреляция может быть ложно создана антецедентом, который вызывает оба (W → X и W → Y). Опосредованные переменные , (X → W → Y), если они не обнаружены, оценивают общий эффект, а не прямой эффект без корректировки для опосредованной переменной M. Из-за этого экспериментально выявленные корреляции не представляют причинно-следственные связи , если только ложные связи не могут быть исключены.
В экспериментах ложные связи часто можно выявить, контролируя другие факторы, включая те, которые были теоретически идентифицированы как возможные факторы, вызывающие затруднения. Например, представьте себе исследователя, пытающегося определить, убивает ли новый препарат бактерии; когда исследователь применяет препарат к бактериальной культуре, бактерии погибают. Но чтобы исключить наличие переменной, вызывающей затруднения, другая культура подвергается условиям, максимально идентичным тем, с которыми сталкивается первая упомянутая культура, но вторая культура не подвергается воздействию препарата. Если в этих условиях присутствует невидимый фактор, вызывающий затруднения, эта контрольная культура также погибнет, так что на основе результатов первой культуры нельзя сделать вывод об эффективности препарата. С другой стороны, если контрольная культура не погибает, исследователь не может отвергнуть гипотезу о том, что препарат эффективен.
Дисциплины, данные которых в основном неэкспериментальны, такие как экономика , обычно используют данные наблюдений для установления причинно-следственных связей. Совокупность статистических методов, используемых в экономике, называется эконометрикой . Основным статистическим методом в эконометрике является многомерный регрессионный анализ . Обычно линейная связь, такая как
выдвинута гипотеза, в которой — зависимая переменная (предположительно вызванная переменная), для j = 1, ..., k — j -я независимая переменная (предположительно причинная переменная), а — ошибка (содержащая объединенные эффекты всех других причинных переменных, которые должны быть некоррелированы с включенными независимыми переменными). Если есть основания полагать, что ни одна из s не вызвана y , то получаются оценки коэффициентов . Если нулевая гипотеза , которая отвергается, то альтернативная гипотеза , что и эквивалентно , что вызывает y, не может быть отвергнута. С другой стороны, если нулевая гипотеза , которая не может быть отвергнута, то эквивалентно гипотеза об отсутствии причинного эффекта на y не может быть отвергнута. Здесь понятие причинности является одним из видов сопутствующей причинности : если истинное значение , то изменение в приведет к изменению в y, если только какая-либо другая причинная переменная(ые), включенная в регрессию или подразумеваемая в члене ошибки, не изменится таким образом, чтобы точно компенсировать ее эффект; таким образом, изменение в недостаточно для изменения y . Аналогично, изменение в не является необходимым для изменения y , поскольку изменение в y может быть вызвано чем-то неявным в члене ошибки (или какой-либо другой причинной объясняющей переменной, включенной в модель).
Регрессионный анализ контролирует другие соответствующие переменные, включая их в качестве регрессоров (объясняющих переменных). Это помогает избежать ошибочного вывода о причинно-следственной связи из-за наличия третьей, базовой переменной, которая влияет как на потенциально причинную переменную, так и на потенциально вызванную переменную: ее влияние на потенциально вызванную переменную фиксируется путем прямого включения ее в регрессию, так что этот эффект не будет воспринят как ложный эффект потенциально причинной переменной, представляющей интерес. Кроме того, использование многомерной регрессии помогает избежать ошибочного вывода о том, что косвенный эффект, скажем, x 1 (например, x 1 → x 2 → y ) является прямым эффектом ( x 1 → y ).
Так же, как экспериментатор должен быть осторожен, чтобы использовать экспериментальный дизайн, который контролирует каждый смешивающий фактор, так и пользователь множественной регрессии должен быть осторожен, чтобы контролировать все смешивающие факторы, включая их среди регрессоров. Если смешивающий фактор исключен из регрессии, его эффект по умолчанию фиксируется в члене ошибки, и если полученный член ошибки коррелирует с одним (или несколькими) из включенных регрессоров, то оцененная регрессия может быть смещенной или непоследовательной (см. смещение из-за опущенной переменной ).
В дополнение к регрессионному анализу данные можно исследовать, чтобы определить, существует ли причинность по Грейнджеру . Наличие причинности по Грейнджеру указывает как на то, что x предшествует y , так и на то, что x содержит уникальную информацию о y .
В статистическом анализе определены и другие взаимосвязи, как указано ниже.