В статистике ложная связь или ложная корреляция [1] [2] — это математическая связь , в которой два или более событий или переменных связаны , но не связаны причинно , из-за совпадения или присутствия определенного третьего, невидимого фактора (называемого «общей переменной отклика», «смешивающим фактором» или « скрытой переменной »).
Пример ложной связи можно найти в литературе по временным рядам , где ложная регрессия — это та, которая предоставляет вводящие в заблуждение статистические доказательства линейной связи между независимыми нестационарными переменными. Фактически, нестационарность может быть вызвана наличием единичного корня в обеих переменных. [3] [4] В частности, любые две номинальные экономические переменные , вероятно, будут коррелировать друг с другом, даже если ни одна из них не имеет причинно-следственного эффекта на другую, поскольку каждая равна реальной переменной, умноженной на уровень цен , и общее присутствие уровня цен в двух рядах данных придает им корреляцию. (См. также ложную корреляцию отношений .)
Другой пример ложной связи можно увидеть, изучив продажи мороженого в городе . Продажи могут быть самыми высокими, когда уровень утопления в городских бассейнах самый высокий. Утверждать, что продажа мороженого вызывает утопление или наоборот, означало бы подразумевать ложную связь между ними. На самом деле, волна тепла могла вызвать и то, и другое. Волна тепла является примером скрытой или невидимой переменной, также известной как смешивающая переменная .
Другим часто упоминаемым примером является ряд голландских статистических данных, показывающих положительную корреляцию между числом аистов, гнездящихся в ряде весен, и числом человеческих младенцев, рожденных в это время. Конечно, не было никакой причинно-следственной связи; они коррелировали друг с другом только из-за двух независимых совпадений. В языческую эпоху, которую можно проследить по крайней мере до средневековья более 600 лет назад, пары обычно женились во время ежегодного летнего солнцестояния, потому что лето ассоциировалось с плодородием. В то же время аисты начинали свою ежегодную миграцию, пролетая весь путь от Европы до Африки. Затем птицы возвращались следующей весной — ровно через девять месяцев. [5]
В редких случаях ложная связь может возникнуть между двумя совершенно не связанными между собой переменными без какой-либо вмешивающейся переменной, как это было в случае между успехом профессиональной футбольной команды Washington Commanders в определенной игре перед каждыми президентскими выборами и успехом политической партии действующего президента на этих выборах. В течение 16 последовательных выборов с 1940 по 2000 год правило Redskins правильно соответствовало тому, сохранит ли политическая партия действующего президента президентство или проиграет его. Правило в конечном итоге перестало работать вскоре после того, как Elias Sports Bureau обнаружило корреляцию в 2000 году; в 2004, 2012 и 2016 годах результаты игры Commanders и выборов не совпадали. [6] [7] [8] В похожей ложной связи с участием Национальной футбольной лиги в 1970-х годах Леонард Коппетт отметил корреляцию между направлением фондового рынка и победившей конференцией Суперкубка того года , индикатором Суперкубка ; эта связь сохранялась на протяжении большей части 20-го века, прежде чем вернуться к более случайному поведению в 21-м веке. [9]
Часто проверяют нулевую гипотезу об отсутствии корреляции между двумя переменными и заранее решают отвергнуть гипотезу, если корреляция, вычисленная по выборке данных, имела бы место менее чем в (скажем) 5% выборок данных, если бы нулевая гипотеза была верна. В то время как истинная нулевая гипотеза будет принята в 95% случаев, в других 5% случаев, когда имеется истинный нуль отсутствия корреляции, нулевая корреляция будет ошибочно отвергнута, что приведет к принятию корреляции, которая является ложной (событие, известное как ошибка типа I ). Здесь ложная корреляция в выборке возникла в результате случайного выбора выборки, которая не отражала истинные свойства базовой популяции.
Термин «ложная связь» обычно используется в статистике и, в частности, в экспериментальных исследовательских методах, которые пытаются понять и предсказать прямые причинно-следственные связи (X → Y). Непричинная корреляция может быть ложно создана антецедентом, который вызывает оба (W → X и W → Y). Опосредованные переменные , (X → W → Y), если они не обнаружены, оценивают общий эффект, а не прямой эффект без корректировки для опосредованной переменной M. Из-за этого экспериментально выявленные корреляции не представляют причинно-следственные связи , если только ложные связи не могут быть исключены.
В экспериментах ложные связи часто можно выявить, контролируя другие факторы, включая те, которые были теоретически идентифицированы как возможные смешивающие факторы. Например, представьте себе исследователя, пытающегося определить, убивает ли новый препарат бактерии; когда исследователь применяет препарат к бактериальной культуре, бактерии погибают. Но чтобы помочь исключить наличие смешивающей переменной, другая культура подвергается условиям, которые максимально идентичны тем, с которыми сталкивается первая упомянутая культура, но вторая культура не подвергается воздействию препарата. Если в этих условиях есть невидимый смешивающий фактор, эта контрольная культура также погибнет, так что на основе результатов первой культуры нельзя сделать вывод об эффективности препарата. С другой стороны, если контрольная культура не погибает, то исследователь не может отвергнуть гипотезу о том, что препарат эффективен.
Дисциплины, данные которых в основном неэкспериментальны, такие как экономика , обычно используют данные наблюдений для установления причинно-следственных связей. Совокупность статистических методов, используемых в экономике, называется эконометрикой . Основным статистическим методом в эконометрике является многомерный регрессионный анализ . Обычно линейная связь, такая как
выдвинута гипотеза, в которой — зависимая переменная (предположительно вызванная переменная), для j = 1, ..., k — j -я независимая переменная (предположительно причинная переменная), а — ошибка (содержащая объединенные эффекты всех других причинных переменных, которые должны быть некоррелированы с включенными независимыми переменными). Если есть основания полагать, что ни одна из s не вызвана y , то получаются оценки коэффициентов . Если нулевая гипотеза , которая отвергается, то альтернативная гипотеза , что и эквивалентно , что вызывает y, не может быть отвергнута. С другой стороны, если нулевая гипотеза , которая не может быть отвергнута, то эквивалентно гипотеза об отсутствии причинного эффекта на y не может быть отвергнута. Здесь понятие причинности является одним из видов сопутствующей причинности : если истинное значение , то изменение в приведет к изменению в y, если только какая-либо другая причинная переменная(ые), включенная в регрессию или подразумеваемая в члене ошибки, не изменится таким образом, чтобы точно компенсировать ее эффект; таким образом, изменение в недостаточно для изменения y . Аналогично, изменение в не является необходимым для изменения y , поскольку изменение в y может быть вызвано чем-то неявным в члене ошибки (или какой-либо другой причинной объясняющей переменной, включенной в модель).
Регрессионный анализ контролирует другие соответствующие переменные, включая их в качестве регрессоров (объясняющих переменных). Это помогает избежать ошибочного вывода о причинно-следственной связи из-за наличия третьей, базовой переменной, которая влияет как на потенциально причинную переменную, так и на потенциально вызванную переменную: ее влияние на потенциально вызванную переменную фиксируется путем прямого включения ее в регрессию, так что этот эффект не будет воспринят как ложный эффект потенциально причинной переменной, представляющей интерес. Кроме того, использование многомерной регрессии помогает избежать ошибочного вывода о том, что косвенный эффект, скажем, x 1 (например, x 1 → x 2 → y ) является прямым эффектом ( x 1 → y ).
Так же, как экспериментатор должен быть осторожен, чтобы использовать экспериментальный дизайн, который контролирует каждый смешивающий фактор, так и пользователь множественной регрессии должен быть осторожен, чтобы контролировать все смешивающие факторы, включая их среди регрессоров. Если смешивающий фактор исключен из регрессии, его эффект по умолчанию фиксируется в члене ошибки, и если полученный член ошибки коррелирует с одним (или несколькими) из включенных регрессоров, то оцененная регрессия может быть смещенной или непоследовательной (см. смещение из-за опущенной переменной ).
В дополнение к регрессионному анализу данные можно исследовать, чтобы определить, существует ли причинность по Грейнджеру . Наличие причинности по Грейнджеру указывает как на то, что x предшествует y , так и на то, что x содержит уникальную информацию о y .
В статистическом анализе определены и другие взаимосвязи, как указано ниже.