Парадокс Симпсона — это явление в теории вероятности и статистике , при котором тенденция появляется в нескольких группах данных, но исчезает или меняется на противоположную при объединении групп. Этот результат часто встречается в статистике социальных и медицинских наук, [1] [2] [3] и является особенно проблематичным, когда данным о частоте необоснованно дается причинно-следственная интерпретация. [4] Парадокс можно разрешить, если смешивающие переменные и причинно-следственные связи соответствующим образом учитываются в статистическом моделировании [4] [5] (например, посредством кластерного анализа [6] ).
Парадокс Симпсона использовался для иллюстрации того, какие вводящие в заблуждение результаты может привести к неправильному использованию статистики . [7] [8]
Эдвард Х. Симпсон впервые описал это явление в технической статье в 1951 году [9] , но статистики Карл Пирсон (в 1899 году [10] ) и Удни Юл (в 1903 году [11] ) упоминали подобные эффекты ранее. Название « парадокс Симпсона» было введено Колином Р. Блитом в 1972 году. [12] Его также называют обращением Симпсона , эффектом Юла-Симпсона , парадоксом слияния или парадоксом разворота . [13]
Математик Джордан Элленберг утверждает, что парадокс Симпсона ошибочно назван тем, что «здесь нет никакого противоречия, есть только два разных способа думать об одних и тех же данных», и предполагает, что его урок «на самом деле не в том, чтобы сказать нам, какую точку зрения принять, а в том, чтобы настаивать на том, чтобы мы придерживались и части, и целое в уме одновременно». [14]
Один из самых известных примеров парадокса Симпсона связан с исследованием гендерных предубеждений среди поступающих в аспирантуру Калифорнийского университета в Беркли . Данные о приеме на осень 1973 года показали, что мужчины, подавшие заявления, были приняты с большей вероятностью, чем женщины, и разница была настолько велика, что вряд ли она была случайной. [15] [16]
Однако при учете информации о факультетах, на которые подаются заявления, разный процент отказов свидетельствует о разной сложности поступления на факультет, и в то же время это показало, что женщины, как правило, обращались на более конкурентоспособные факультеты с более низкими показателями приема. даже среди квалифицированных абитуриентов (например, на факультете английского языка), тогда как мужчины, как правило, подавались на менее конкурентоспособные факультеты с более высокими показателями поступления (например, на инженерный факультет). Объединенные и скорректированные данные показали «небольшую, но статистически значимую предвзятость в пользу женщин». [16]
Данные шести крупнейших ведомств приведены ниже:
Все данные показали, что в общей сложности 4 из 85 департаментов имеют значительную предвзятость по отношению к женщинам, а 6 - к мужчинам (не все представлены в приведенной выше таблице «шесть крупнейших департаментов»). Примечательно, что основанием для такого вывода было не количество предвзятых факультетов, а, скорее, гендерные показатели приема, объединенные по всем факультетам, с учетом процента отказов каждого факультета среди всех его претендентов. [16]
Другой пример взят из реального медицинского исследования [17], в котором сравнивались показатели успеха двух методов лечения камней в почках . [18] В таблице ниже показаны показатели успеха (термин « показатель успеха» здесь фактически означает долю успеха) и количество курсов лечения как небольших, так и крупных камней в почках, где лечение А включает открытые хирургические процедуры, а лечение Б включает закрытые хирургические процедуры. . Цифры в скобках указывают количество успешных случаев по отношению к общему размеру группы.
Парадоксальный вывод заключается в том, что метод А более эффективен при использовании для камней небольшого размера, а также при использовании для камней большого размера, однако метод Б оказывается более эффективным при одновременном рассмотрении обоих размеров. В этом примере «скрытой» переменной (или мешающей переменной ), вызывающей парадокс, является размер камней, который ранее не был известен исследователям как важный, пока не были учтены его эффекты.
Какое лечение считается лучшим, определяется тем, какой коэффициент успеха (успехов/общее количество) выше. Изменение неравенства между двумя соотношениями при рассмотрении объединенных данных, что создает парадокс Симпсона, происходит потому, что два эффекта происходят одновременно:
На основе этих эффектов видно, что возникает парадоксальный результат, поскольку влияние размера камней превосходит преимущества лучшего лечения (А). Короче говоря, менее эффективное лечение B оказалось более эффективным, поскольку его чаще применяли к случаям небольших камней, которые легче лечить. [18]
Типичным примером парадокса Симпсона являются средние показатели ударов игроков в профессиональном бейсболе . Один игрок может иметь более высокий средний показатель результативности, чем другой игрок, каждый год в течение ряда лет, но иметь более низкий средний показатель за все эти годы. Это явление может возникнуть, когда существуют большие различия в численности летучих мышей в разные годы. Математик Кен Росс продемонстрировал это, используя средние показатели двух бейсболистов, Дерека Джетера и Дэвида Джастиса , в 1995 и 1996 годах: [19] [20]
И в 1995, и в 1996 году у Джастиса был более высокий средний показатель (выделено жирным шрифтом), чем у Джетера. Однако, если объединить два бейсбольных сезона, Джетер показывает более высокий средний показатель, чем Джастис. По словам Росса, такое явление среди возможных пар игроков будет наблюдаться примерно раз в год. [19]
Парадокс Симпсона также можно проиллюстрировать с помощью двумерного векторного пространства . [21] Вероятность успеха (т. е. успехов/попыток ) может быть представлена вектором с наклоном . Тогда более крутой вектор означает более высокий уровень успеха. Если две скорости и объединяются, как в примерах, приведенных выше, результат может быть представлен суммой векторов и , что согласно правилу параллелограмма является вектором , с наклоном .
Парадокс Симпсона гласит, что даже если вектор (оранжевый на рисунке) имеет меньший наклон, чем другой вектор (синий), и имеет наклон меньший, чем , сумма двух векторов потенциально все равно может иметь больший наклон, чем сумма два вектора , как показано в примере. Чтобы это произошло, один из оранжевых векторов должен иметь больший наклон, чем один из синих векторов (здесь и ), и они обычно будут длиннее, чем векторы с альтернативными индексами, что будет доминировать в общем сравнении.
Разворот Симпсона может также возникнуть в корреляциях , в которых две переменные кажутся имеющими (скажем) положительную корреляцию друг с другом, хотя на самом деле они имеют отрицательную корреляцию, причем разворот был вызван «скрытым» искажающим фактором. Берман и др. [22] приводят пример из экономики, где набор данных предполагает, что общий спрос положительно коррелирует с ценой (то есть, более высокие цены приводят к большему спросу), что противоречит ожиданиям. Анализ показывает, что время является смешанной переменной: отображение цены и спроса в зависимости от времени показывает ожидаемую отрицательную корреляцию за различные периоды, которая затем меняется на обратную и становится положительной, если влияние времени игнорируется путем простого построения графика спроса в зависимости от цены.
Психологический интерес к парадоксу Симпсона направлен на объяснение того, почему люди поначалу считают изменение знака невозможным, оскорбляясь идеей о том, что действие, предпочитаемое как при одном условии, так и при его отрицании, должно быть отвергнуто, когда условие неизвестно. Вопрос в том, откуда у людей такая сильная интуиция и как она закодирована в сознании .
Парадокс Симпсона демонстрирует, что эту интуицию нельзя вывести ни из классической логики , ни из исчисления вероятностей , и, таким образом, побудил философов предположить, что она поддерживается врожденной причинной логикой, которая направляет людей в рассуждениях о действиях и их последствиях. [4] Принцип уверенности Сэвиджа [12] является примером того, что может повлечь за собой такая логика. Уточненная версия принципа уверенности Сэвиджа действительно может быть выведена из do -исчисления Перла [4] и гласит: «Действие А , которое увеличивает вероятность события B в каждой субпопуляции C i из C , должно также увеличивать вероятность события B в каждой субпопуляции C i из C. население в целом, при условии, что действие не меняет распределение субпопуляций». Это говорит о том, что знания о действиях и последствиях хранятся в форме, напоминающей причинные байесовские сети .
В статье Павлидеса и Перлмана Хаджикостаса представлено доказательство того, что в случайной таблице 2 × 2 × 2 с равномерным распределением парадокс Симпсона произойдет с вероятностью ровно 1 ⁄ 60 . [23] Исследование Кока предполагает, что вероятность того, что парадокс Симпсона возникнет случайным образом в моделях путей (т. е. моделях, созданных путем анализа путей ) с двумя предикторами и одной критериальной переменной, составляет примерно 12,8 процента; немного выше, чем 1 случай на 8-путевые модели. [24]
Второй, менее известный парадокс также обсуждался в статье Симпсона 1951 года. Это может произойти, когда «разумная интерпретация» не обязательно находится в отдельных данных, как в примере с камнями в почках, а вместо этого может находиться в объединенных данных. Следует ли использовать секционированную или комбинированную форму данных, зависит от процесса, в результате которого возникли данные, а это означает, что правильную интерпретацию данных не всегда можно определить, просто наблюдая за таблицами. [25]
Джудея Перл показала, что для того, чтобы разделенные данные представляли правильные причинно-следственные связи между любыми двумя переменными и переменные разделения должны удовлетворять графическому условию, называемому «критерием черного хода»: [26] [27]
Этот критерий обеспечивает алгоритмическое решение второго парадокса Симпсона и объясняет, почему правильная интерпретация не может быть определена только на основе данных; два разных графика, оба совместимых с данными, могут диктовать два разных критерия «черного хода».
Когда критерию «черной двери» удовлетворяет набор Z ковариат, формула корректировки (см. « Смешение ») дает правильное причинное влияние X на Y. Если такого набора не существует, можно использовать do -исчисление Перла, чтобы найти другие способы оценки причинного эффекта. [4] [28] Полнота do -исчисления [29] [28] может рассматриваться как полное разрешение парадокса Симпсона.
Одна из критических замечаний заключается в том, что этот парадокс на самом деле вовсе не парадокс, а скорее неспособность должным образом объяснить смешивающие переменные или рассмотреть причинно-следственные связи между переменными. [30]
Другая критика очевидного парадокса Симпсона заключается в том, что он может быть результатом особого способа стратификации или группировки данных. Это явление может исчезнуть или даже обратить вспять, если данные стратифицированы по-другому или если учитывать разные мешающие переменные. Пример Симпсона фактически высветил явление, называемое неколлапсируемостью, [31] которое возникает, когда подгруппы с высокими пропорциями не дают простых средних значений при объединении. Это говорит о том, что парадокс может быть не универсальным явлением, а скорее конкретным примером более общей статистической проблемы.
Критики очевидного парадокса Симпсона также утверждают, что внимание к парадоксу может отвлечь от более важных статистических проблем, таких как необходимость тщательного рассмотрения мешающих переменных и причинно-следственных связей при интерпретации данных. [32]
Несмотря на эту критику, очевидный парадокс Симпсона остается популярной и интригующей темой в статистике и анализе данных. Его продолжают изучать и обсуждать исследователи и практики в самых разных областях, и он служит ценным напоминанием о важности тщательного статистического анализа и потенциальных ошибках упрощенной интерпретации данных.