stringtranslate.com

Ложные отношения

В то время как посредник — это фактор в причинно-следственной цепочке (вверху), искажающий фактор — это ложный фактор, неправильно подразумевающий причинно-следственную связь (внизу).

В статистике ложная связь или ложная корреляция [1] [2] — это математическая связь , в которой два или более события или переменные связаны, но не связаны причинно-следственной связью , из-за совпадения или присутствия определенного третьего, невидимого фактора (называемого в качестве «общей переменной ответа», «смешивающего фактора» или « скрытой переменной »).

Примеры

Пример ложной зависимости можно найти в литературе по временным рядам , где ложная регрессия — это та, которая предоставляет вводящие в заблуждение статистические доказательства линейной связи между независимыми нестационарными переменными. Фактически нестационарность может быть связана с наличием единичного корня в обеих переменных. [3] [4] В частности, любые две номинальные экономические переменные, вероятно, будут коррелировать друг с другом, даже если ни одна из них не оказывает причинного влияния на другую, поскольку каждая из них равна реальной переменной, умноженной на уровень цен , и обычному присутствию уровень цен в двух рядах данных придает им корреляцию. (См. также ложную корреляцию отношений .)

Еще один пример ложной связи можно увидеть, изучив городские продажи мороженого . Продажи могут быть самыми высокими, когда уровень утопления в городских бассейнах самый высокий. Утверждать, что продажа мороженого приводит к утоплению или наоборот, означало бы предполагать ложную связь между ними. На самом деле, жара могла стать причиной того и другого. Волна тепла является примером скрытой или невидимой переменной, также известной как мешающая переменная .

Другим часто упоминаемым примером является серия голландских статистических данных, показывающих положительную корреляцию между количеством аистов, гнездящихся в ряде источников, и количеством человеческих младенцев, рожденных в это время. Конечно, причинно-следственной связи не было; они коррелировали друг с другом только потому, что коррелировали с погодой за девять месяцев до наблюдений. [5]

В редких случаях ложная связь может возникнуть между двумя совершенно несвязанными переменными без какой-либо вмешивающейся переменной, как это было в случае между успехом профессиональной футбольной команды Washington Commanders в конкретной игре перед каждыми президентскими выборами и успехом политической партии действующего президента. на указанных выборах. На 16 выборах подряд в период с 1940 по 2000 год « Правило Краснокожих» правильно определяло, сохранит ли политическая партия действующего президента президентский пост или потеряет его. В конечном итоге это правило потерпело неудачу вскоре после того, как Спортивное бюро Элиаса обнаружило корреляцию в 2000 году; в 2004, 2012 и 2016 годах результаты командной игры и выборов не совпадали. [6] [7] [8] В аналогичной ложной связи с Национальной футбольной лигой в 1970-х годах Леонард Коппетт отметил корреляцию между направлением фондового рынка и победной конференцией Суперкубка того года , индикатором Суперкубка. ; отношения сохранялись на протяжении большей части 20-го века, прежде чем вернуться к более случайному поведению в 21-м веке. [9]

Проверка гипотезы

Часто проверяют нулевую гипотезу об отсутствии корреляции между двумя переменными и заранее решают отклонить гипотезу, если корреляция, вычисленная на основе выборки данных, произошла бы менее чем (скажем) в 5% выборок данных, если бы нулевая гипотеза была верной. В то время как истинная нулевая гипотеза будет принята в 95% случаев, в остальных 5% случаев, когда имеется истинный ноль при отсутствии корреляции, нулевая корреляция будет ошибочно отвергнута, что приведет к принятию ложной корреляции (событие, известное как Тип ошибаюсь ). Здесь ложная корреляция в выборке возникла в результате случайного отбора выборки, которая не отражала истинные свойства основной совокупности.

Обнаружение ложных связей

Термин «ложная связь» обычно используется в статистике и, в частности, в методах экспериментальных исследований , которые пытаются понять и предсказать прямые причинно-следственные связи (X → Y). Непричинная корреляция может быть ложно создана антецедентом, который вызывает оба (W → X и W → Y). Опосредующие переменные (X → W → Y), если они не обнаружены, оценивают общий эффект, а не прямой эффект без корректировки опосредующей переменной M. Из-за этого экспериментально выявленные корреляции не представляют собой причинно-следственные связи , если только нельзя исключить ложные связи.

Эксперименты

В экспериментах ложные связи часто можно выявить, контролируя другие факторы, в том числе те, которые теоретически были идентифицированы как возможные мешающие факторы. Например, представьте себе исследователя, пытающегося определить, убивает ли новый препарат бактерии; когда исследователь применяет препарат к бактериальной культуре, бактерии умирают. Но чтобы исключить наличие мешающей переменной, другая культура подвергается воздействию условий, максимально близких к условиям, в которых находится первая упомянутая культура, но вторая культура не подвергается воздействию препарата. Если в этих условиях присутствует невидимый мешающий фактор, эта контрольная культура также погибнет, так что на основании результатов первой культуры нельзя сделать вывод об эффективности препарата. С другой стороны, если контрольная культура не погибнет, исследователь не сможет отвергнуть гипотезу о том, что препарат эффективен.

Неэкспериментальный статистический анализ

Дисциплины, данные которых в основном не являются экспериментальными, например экономика , обычно используют данные наблюдений для установления причинно-следственных связей. Совокупность статистических методов, используемых в экономике, называется эконометрикой . Основным статистическим методом в эконометрике является многомерный регрессионный анализ . Обычно это линейная зависимость, такая как

выдвигается гипотеза, в которой находится зависимая переменная (предположительно являющаяся причинной переменной), для j  = 1, ...,  k - j- я независимая переменная (предположительно являющаяся причинной переменной), и - член ошибки (содержащий совокупное влияние всех других причинных переменных, которые не должны быть коррелированы с включенными независимыми переменными). Если есть основания полагать, что ни одно из s не вызвано y , то получаются оценки коэффициентов . Если нулевая гипотеза отвергается, то альтернативная гипотеза, которая и, что эквивалентно, вызывает y , не может быть отвергнута. С другой стороны, если нулевая гипотеза не может быть отвергнута, то эквивалентно не может быть отвергнута гипотеза об отсутствии причинного воздействия на y . Здесь понятие причинности является одним из понятий содействующей причинности : если истинное значение , то изменение приведет к изменению y , если только какая-либо другая причинная переменная, либо включенная в регрессию, либо подразумеваемая в термине ошибки, не изменится. таким образом, чтобы точно компенсировать его эффект; таким образом , изменения недостаточно для изменения  y . Аналогично, изменение y не обязательно для изменения y , поскольку изменение y может быть вызвано чем-то неявным в термине ошибки (или какой-либо другой причинной объясняющей переменной, включенной в модель).

Регрессионный анализ контролирует другие соответствующие переменные, включая их в качестве регрессоров (объясняющих переменных). Это помогает избежать ошибочного вывода о причинно-следственной связи из-за присутствия третьей, лежащей в основе переменной, которая влияет как на потенциально причинную переменную, так и на потенциально вызываемую переменную: ее влияние на потенциально вызванную переменную фиксируется путем непосредственного включения ее в регрессию, поэтому этот эффект не будет воспринят как ложный эффект потенциально причинной переменной, представляющей интерес. Кроме того, использование многомерной регрессии помогает избежать ошибочного вывода о том, что косвенный эффект, скажем, x 1 (например, x 1x 2y ) является прямым эффектом ( x 1y ).

Точно так же, как экспериментатор должен быть осторожен при использовании плана эксперимента, учитывающего каждый мешающий фактор, так и пользователь множественной регрессии должен быть осторожным, чтобы контролировать все мешающие факторы, включая их в число регрессоров. Если искажающий фактор опущен в регрессии, его влияние по умолчанию отражается в термине ошибки, а если результирующий член ошибки коррелирует с одним (или несколькими) включенными регрессорами, то оцененная регрессия может быть смещенной или противоречивой ( см. смещение пропущенной переменной ).

В дополнение к регрессионному анализу данные можно изучить, чтобы определить, существует ли причинно-следственная связь по Грейнджеру . Присутствие причинности Грейнджера указывает как на то, что x предшествует y , так и на то, что x содержит уникальную информацию об  y .

Другие отношения

Есть несколько других отношений, определяемых в статистическом анализе следующим образом.

Смотрите также

Литература

Сноски

  1. ^ Бернс, Уильям К., « Ложные корреляции », 1997.
  2. ^ Перл, Иудея . «81-я серия лекций по исследованиям факультета Калифорнийского университета в Лос-Анджелесе». Сингапур.cs.ucla.edu . Проверено 10 ноября 2019 г.
  3. ^ Юл, Г. Удный (1 января 1926). «Почему мы иногда получаем бессмысленные корреляции между временными рядами? Исследование выборки и природы временных рядов». Журнал Королевского статистического общества . 89 (1): 1–63. дои : 10.2307/2341482. JSTOR  2341482. S2CID  126346450.
  4. ^ Грейнджер, Клайв У.Дж.; Гайселс, Эрик; Суонсон, Норман Р.; Уотсон, Марк В. (2001). Очерки по эконометрике: Сборник статей Клайва У. Дж. Грейнджера . Издательство Кембриджского университета. ISBN 978-0521796491.
  5. ^ Сапсфорд, Роджер; Юпп, Виктор, ред. (2006). Сбор и анализ данных . Мудрец. ISBN 0-7619-4362-5.
  6. Хофхаймер, Билл (30 октября 2012 г.). «Правило краснокожих»: Хирдт из MNF на пересечении футбола и политики». ЭСПН . Проверено 16 октября 2016 г.
  7. Манкер, Роб (7 ноября 2012 г.). «Правило краснокожих: победа Барака Обамы над Миттом Ромни ставит перед президентским предсказателем первое поражение» . Чикаго Трибьюн . Проверено 8 ноября 2012 г.
  8. ^ Пол, Роберт С. (2013). Городские легенды и исторические знания Вашингтона. Историческая пресса. стр. 78–80. ISBN 978-1625846648.[ постоянная мертвая ссылка ]
  9. ^ Дон Пепперс. «Большие данные. Суперкубок. Маленькие умы» . Проверено 31 декабря 2015 г.

Рекомендации

Внешние ссылки