Фраза « корреляция не подразумевает причинно-следственную связь » относится к неспособности обоснованно вывести причинно-следственную связь между двумя событиями или переменными исключительно на основе наблюдаемой ассоциации или корреляции между ними. [1] [2] Идея о том, что «корреляция подразумевает причинно-следственную связь», является примером логической ошибки сомнительной причины , в которой два события, происходящие вместе, считаются установившими причинно-следственную связь. Эта ошибка также известна по латинской фразе cum hoc ergo propter hoc («с этим, следовательно, из-за этого»). Это отличается от ошибки, известной как post hoc ergo propter hoc («после этого, следовательно, из-за этого»), в которой событие, следующее за другим, рассматривается как необходимое следствие предыдущего события, и от conflation , ошибочного слияния двух событий, идей, баз данных и т. д. в одно.
Как и в случае с любой логической ошибкой, выявление того, что рассуждения, лежащие в основе аргумента, ошибочны , не обязательно означает , что полученный вывод является ложным. Были предложены статистические методы, которые используют корреляцию в качестве основы для проверки гипотез на причинность, включая тест на причинность Грейнджера и конвергентное перекрестное отображение . Критерии Брэдфорда-Хилла , также известные как критерии Хилла на причинность, представляют собой группу из девяти принципов, которые могут быть полезны при установлении эпидемиологических доказательств причинной связи.
В повседневном использовании слово «подразумевает» в широком смысле означает предполагает , а не требует . Однако в логике техническое использование слова «подразумевает» означает «является достаточным условием для». [3] Именно это значение подразумевают статистики, когда говорят, что причинно-следственная связь не является определенной. Действительно, p подразумевает q имеет техническое значение материального условного предложения : если p, то q обозначается как p → q . То есть, «если обстоятельство p истинно, то q следует». В этом смысле всегда правильно говорить «Корреляция не подразумевает причинно-следственную связь».
Слово « cause » (или «causation») имеет несколько значений в английском языке. В философской терминологии «cause» может относиться к необходимым, достаточным или способствующим причинам. При изучении корреляции «cause» чаще всего используется в значении «одна способствующая причина» (но не обязательно единственная способствующая причина).
Обратная причинность или обратная причинность или неправильное направление — это неформальное заблуждение сомнительной причины , где причина и следствие меняются местами. Причина считается следствием и наоборот.
В этом примере корреляция (одновременность) между активностью ветряных мельниц и скоростью ветра не означает, что ветер вызван ветряными мельницами. Скорее наоборот, как предполагает тот факт, что ветру не нужны ветряные мельницы для существования, в то время как ветряным мельницам нужен ветер для вращения. Ветер можно наблюдать в местах, где нет ветряных мельниц или есть невращающиеся ветряные мельницы, и есть веские основания полагать, что ветер существовал до изобретения ветряных мельниц.
Причинно-следственная связь на самом деле обратная, поскольку некоторые заболевания, такие как рак, вызывают низкий уровень холестерина из-за множества факторов, таких как потеря веса, и они также вызывают увеличение смертности. [6] Это также можно увидеть у алкоголиков. [ требуется цитата ] Когда у алкоголиков диагностируют цирроз печени, многие бросают пить. Однако они также подвергаются повышенному риску смертности. В этих случаях именно заболевания вызывают повышенный риск смертности, но повышенная смертность объясняется полезными эффектами, которые следуют за диагнозом, заставляя здоровые изменения выглядеть нездоровыми.
Пример 3
В других случаях может быть просто неясно, что является причиной, а что следствием. Например:
Все может быть наоборот: дети, склонные к насилию, любят смотреть телевизор больше, чем менее агрессивные.
Пример 4
Корреляция между употреблением наркотиков в рекреационных целях и психическими расстройствами может быть обратной: возможно, наркотики вызывают расстройства, или, возможно, люди используют наркотики для самолечения уже существующих состояний. Теория наркотиков Gateway может утверждать, что употребление марихуаны приводит к употреблению более сильных наркотиков, но употребление тяжелых наркотиков может привести к употреблению марихуаны (см. также путаницу обратного ). Действительно, в социальных науках , где контролируемые эксперименты часто не могут быть использованы для определения направления причинно-следственной связи, это заблуждение может подпитывать давние научные споры. Один из таких примеров можно найти в экономике образования , между моделями скрининга / сигнализации и человеческого капитала : может быть либо то, что наличие врожденных способностей позволяет человеку завершить образование, либо то, что завершение образования развивает его способности.
Пример 5
Историческим примером этого является то, что европейцы в Средние века считали, что вши полезны для здоровья, поскольку на больных людях вши редко появлялись. Обоснование заключалось в том, что люди заболевали, потому что вши уходили. Однако настоящая причина заключается в том, что вши чрезвычайно чувствительны к температуре тела . Небольшое повышение температуры тела, например, при лихорадке , заставляет вшей искать другого хозяина. Медицинский термометр еще не был изобретен, поэтому повышение температуры редко замечалось. Заметные симптомы появлялись позже, что создавало впечатление, что вши ушли до того, как человек заболел. [7]
В других случаях два явления могут быть частичной причиной друг друга; рассмотрим бедность и недостаток образования или прокрастинацию и низкую самооценку. Тот, кто выдвигает аргумент, основанный на этих двух явлениях, должен, однако, быть осторожен, чтобы избежать ошибки круговой причины и следствия . Бедность является причиной недостатка образования, но она не является единственной причиной, и наоборот.
Ошибка третьей причины (также известная как игнорирование общей причины [8] или сомнительной причины [8] ) — это логическая ошибка , в которой ложная связь путается с причинно-следственной связью . Она утверждает, что X вызывает Y, когда на самом деле и X, и Y вызваны Z. Это разновидность ошибки post hoc ergo propter hoc и член группы ошибок сомнительной причины .
Все эти примеры имеют дело со скрытой переменной , которая является просто скрытой третьей переменной, которая влияет на обе переменные, наблюдаемые как коррелированные. Эта третья переменная также известна как смешивающая переменная, с небольшим отличием, что смешивающие переменные не должны быть скрыты и, таким образом, могут быть скорректированы в анализе. Обратите внимание, что ссылка Википедии на скрытую переменную перенаправляет на смешивающую. Трудность часто возникает также, когда третий фактор, хотя и принципиально отличается от A и B, настолько тесно связан с A и/или B, что его можно спутать с ними или очень трудно научно отделить от них (см. Пример 4).
Приведенный выше пример допускает ошибку корреляции-подразумевает-причинность, поскольку преждевременно делает вывод, что сон в обуви вызывает головную боль. Более правдоподобное объяснение состоит в том, что оба эти фактора вызваны третьим фактором, в данном случае отходом ко сну пьяным , что, таким образом, приводит к корреляции. Поэтому вывод ложный.
Это научный пример, полученный в результате исследования в Медицинском центре Университета Пенсильвании . Опубликованное в выпуске Nature от 13 мая 1999 года [9] , исследование получило широкое освещение в то время в популярной прессе. [10] Однако более позднее исследование в Университете штата Огайо не обнаружило, что сон младенцев при включенном свете вызывает развитие миопии. Оно обнаружило сильную связь между родительской миопией и развитием детской миопии, также отметив, что миопичные родители с большей вероятностью оставляли включенным свет в спальне своих детей. [11] [12] [13] [14] В этом случае причиной обоих состояний является родительская миопия, и вышеуказанный вывод является ложным.
Этот пример не учитывает важность времени года и температуры для продаж мороженого. Мороженое продается в жаркие летние месяцы гораздо чаще, чем в холодное время, и именно в эти жаркие летние месяцы люди с большей вероятностью занимаются водными видами деятельности, такими как плавание . Рост числа смертей от утопления просто вызван более частыми занятиями в воде, а не мороженым. Заявленный вывод является ложным.
Однако, как и во многих психологических исследованиях, обнаруживается другая переменная, «оценка самосознания», которая имеет более резкую корреляцию (+.73) с застенчивостью. Это предполагает возможную проблему «третьей переменной», однако, когда обнаруживаются три таких тесно связанных показателя, это дополнительно предполагает, что каждый из них может иметь двунаправленные тенденции (см. «двунаправленная переменная» выше), являясь кластером коррелированных значений, каждое из которых в некоторой степени влияет друг на друга. Поэтому простой вывод выше может быть ложным.
Более богатое население, как правило, потребляет больше пищи и производит больше CO2 .
Дальнейшие исследования [16] поставили этот вывод под сомнение. Вместо этого, возможно, другие основные факторы, такие как гены, диета и физические упражнения, влияют как на уровень ЛПВП, так и на вероятность сердечного приступа; возможно, что лекарства могут влиять на непосредственно измеряемый фактор, уровень ЛПВП, не влияя на вероятность сердечного приступа.
Причинно-следственная связь не обязательно односторонняя; [ сомнительно – обсудить ] в отношениях хищник-жертва численность хищников влияет на численность жертвы, но численность жертвы, т. е. запасы пищи, также влияют на численность хищников. Другой известный пример – велосипедисты имеют более низкий индекс массы тела, чем люди, которые не ездят на велосипеде. Это часто объясняется предположением, что езда на велосипеде повышает уровень физической активности и, следовательно, снижает ИМТ. Поскольку результаты проспективных исследований людей, которые увеличивают использование велосипеда, показывают меньшее влияние на ИМТ, чем поперечные исследования, может быть и некоторая обратная причинно-следственная связь. Например, люди с более низким ИМТ могут быть более склонны изначально ездить на велосипеде. [17]
Эти две переменные вообще не связаны, но коррелируют случайно. Чем больше вещей исследуется, тем больше вероятность того, что две несвязанные переменные окажутся связанными. Например:
Большая часть научных доказательств основана на корреляции переменных [18] , которые наблюдаются вместе. Ученые тщательно подчеркивают, что корреляция не обязательно означает причинно-следственную связь. Предположение, что A вызывает B просто потому, что A коррелирует с B, не принимается как законная форма аргумента.
Однако иногда люди совершают противоположную ошибку, полностью отвергая корреляцию. Это отвергло бы большую часть важных научных доказательств. [18] Поскольку может быть сложно или этически невозможно проводить контролируемые двойные слепые исследования для решения определенных вопросов, корреляционные доказательства с нескольких разных точек зрения могут быть полезны для прогнозирования, несмотря на отсутствие доказательств причинно-следственной связи . Например, социальные работники могут быть заинтересованы в том, чтобы узнать, как насилие над детьми связано с успеваемостью. Хотя было бы неэтично проводить эксперимент, в котором дети случайным образом распределяются на получение или отсутствие насилия, исследователи могут рассмотреть существующие группы, используя неэкспериментальный корреляционный дизайн. Если на самом деле существует отрицательная корреляция между насилием и успеваемостью, исследователи потенциально могли бы использовать это знание статистической корреляции, чтобы делать прогнозы о детях вне исследования, которые подвергаются насилию, даже если исследование не предоставило причинно-следственных доказательств того, что насилие снижает успеваемость. [19] Сочетание ограниченных доступных методологий с ошибкой отрицания корреляции иногда использовалось для опровержения научного открытия. Например, табачная промышленность исторически опиралась на игнорирование корреляционных доказательств, чтобы отвергнуть связь между табачным дымом и раком легких , [20] как это делал биолог и статистик Рональд Фишер (часто от имени промышленности). [список 1]
Корреляция — это ценный тип научных доказательств в таких областях, как медицина, психология и социология. Сначала необходимо подтвердить реальность корреляций, а затем систематически исследовать каждую возможную причинно-следственную связь. В конце концов, корреляция сама по себе не может использоваться в качестве доказательства причинно-следственной связи между лечением и выгодой, фактором риска и заболеванием или социальным или экономическим фактором и различными результатами. Это один из наиболее часто используемых типов доказательств, поскольку легко и даже заманчиво прийти к преждевременным выводам, основанным на предварительном проявлении корреляции. [20]