Парадокс Симпсона — это явление в вероятности и статистике , при котором тенденция появляется в нескольких группах данных, но исчезает или меняет направление при объединении групп. Этот результат часто встречается в статистике социальных и медицинских наук, [1] [2] [3] и особенно проблематичен, когда частотным данным ненадлежащим образом придаются причинно-следственные интерпретации. [4] Парадокс может быть разрешен, если вмешивающиеся переменные и причинно-следственные связи надлежащим образом рассматриваются в статистическом моделировании [4] [5] (например, с помощью кластерного анализа [6] ).
Парадокс Симпсона использовался для иллюстрации того, какие вводящие в заблуждение результаты может дать неправильное использование статистики . [7] [8]
Эдвард Х. Симпсон впервые описал это явление в технической статье в 1951 году, [9] но статистики Карл Пирсон (в 1899 году [10] ) и Удни Юл (в 1903 году [11] ) упоминали подобные эффекты ранее. Название парадокс Симпсона было введено Колином Р. Блайтом в 1972 году. [12] Его также называют инверсией Симпсона , эффектом Юла–Симпсона , парадоксом слияния или парадоксом инверсии . [13]
Математик Джордан Элленберг утверждает, что парадокс Симпсона назван неверно, поскольку «в нем нет противоречия, а есть просто два разных способа думать об одних и тех же данных», и предполагает, что его урок «на самом деле не в том, чтобы указывать нам, какую точку зрения принять, а в том, чтобы настаивать на том, чтобы мы одновременно держали в уме и части, и целое». [14]
Один из самых известных примеров парадокса Симпсона взят из исследования гендерной предвзятости среди поступающих в аспирантуру Калифорнийского университета в Беркли . Данные о поступлении осенью 1973 года показали, что мужчины, подавшие заявления, имели больше шансов быть принятыми, чем женщины, и разница была настолько велика, что вряд ли она была случайной. [15] [16]
Однако, принимая во внимание информацию о факультетах, на которые подаются заявления, различные проценты отказов показывают различную сложность поступления на факультет, и в то же время это показывает, что женщины, как правило, подавали заявления на более конкурентоспособные факультеты с более низкими показателями приема, даже среди квалифицированных кандидатов (например, на факультет английского языка), тогда как мужчины, как правило, подавали заявления на менее конкурентоспособные факультеты с более высокими показателями приема (например, на инженерный факультет). Объединенные и скорректированные данные показали «небольшое, но статистически значимое смещение в пользу женщин». [16]
Ниже приведены данные шести крупнейших департаментов:
Все данные показали, что в общей сложности 4 из 85 факультетов были значительно предвзяты в отношении женщин, а 6 были значительно предвзяты в отношении мужчин (не все из них представлены в таблице «шесть крупнейших факультетов» выше). Примечательно, что количество предвзятых факультетов не было основой для заключения, а скорее это были гендерные приемы, объединенные по всем факультетам, при этом взвешивались по уровню отказов каждого факультета по всем его заявителям. [16]
Другой пример взят из реального медицинского исследования [17], в котором сравниваются показатели успешности двух методов лечения камней в почках . [18] В таблице ниже показаны показатели успешности (термин « показатель успешности» здесь фактически означает долю успешности) и количество процедур для методов лечения, включающих как мелкие, так и крупные камни в почках, где лечение A включает открытые хирургические процедуры, а лечение B включает закрытые хирургические процедуры. Цифры в скобках указывают количество случаев успеха по сравнению с общим размером группы.
Парадоксальный вывод заключается в том, что лечение A более эффективно при использовании на небольших камнях, а также при использовании на больших камнях, однако лечение B оказывается более эффективным при рассмотрении обоих размеров одновременно. В этом примере «скрытая» переменная (или смешивающая переменная ), вызывающая парадокс, — это размер камней, о важности которого исследователи не знали до тех пор, пока не были включены его эффекты. [ необходима цитата ]
Какое лечение считается лучшим, определяется тем, какое отношение успеха (успехи/общее) больше. Изменение неравенства между двумя отношениями при рассмотрении объединенных данных, которое создает парадокс Симпсона, происходит, потому что два эффекта происходят одновременно: [ необходима цитата ]
На основании этих эффектов, парадоксальный результат, как видно, возникает из-за того, что эффект размера камней перевешивает преимущества лучшего лечения (A). Короче говоря, менее эффективное лечение B оказалось более эффективным, поскольку оно применялось чаще к случаям с небольшими камнями, которые было легче лечить. [18]
Джейнс утверждает, что правильный вывод заключается в том, что, хотя лечение А остается заметно лучше лечения В, размер почечных камней имеет большее значение. [19]
Распространенный пример парадокса Симпсона касается средних показателей отбивания игроков в профессиональном бейсболе . Возможно, что один игрок будет иметь более высокий средний показатель отбивания, чем другой игрок каждый год в течение ряда лет, но иметь более низкий средний показатель отбивания на протяжении всех этих лет. Это явление может возникнуть, когда есть большие различия в количестве отбивания между годами. Математик Кен Росс продемонстрировал это, используя средние показатели отбивания двух бейсболистов, Дерека Джитера и Дэвида Джастиса , в течение 1995 и 1996 годов: [20] [21]
В 1995 и 1996 годах у Джастиса был более высокий средний показатель отбивания (выделен жирным шрифтом), чем у Джетера. Однако, если объединить два бейсбольных сезона, Джетер показывает более высокий средний показатель отбивания, чем Джастис. По словам Росса, это явление будет наблюдаться примерно раз в год среди возможных пар игроков. [20]
Парадокс Симпсона также можно проиллюстрировать с помощью 2-мерного векторного пространства . [22] Коэффициент успешности (т. е. успехи/попытки ) может быть представлен вектором с наклоном . Более крутой вектор тогда представляет больший коэффициент успешности. Если объединить два коэффициента и , как в приведенных выше примерах, результат можно представить суммой векторов и , что согласно правилу параллелограмма является вектором с наклоном .
Парадокс Симпсона гласит, что даже если вектор (оранжевый на рисунке) имеет меньший наклон, чем другой вектор (синий), и имеет меньший наклон, чем , сумма двух векторов потенциально может все еще иметь больший наклон, чем сумма двух векторов , как показано в примере. Чтобы это произошло, один из оранжевых векторов должен иметь больший наклон, чем один из синих векторов (здесь и ), и они, как правило, будут длиннее, чем альтернативно индексированные векторы, тем самым доминируя в общем сравнении.
Инверсия Симпсона может также возникнуть в корреляциях , в которых две переменные, по-видимому, имеют (скажем) положительную корреляцию друг с другом, когда на самом деле они имеют отрицательную корреляцию, причем инверсия была вызвана «скрытым» конфаундером. Берман и др. [23] приводят пример из экономики, где набор данных предполагает, что общий спрос положительно коррелирует с ценой (то есть более высокие цены приводят к большему спросу), что противоречит ожиданиям. Анализ показывает, что время является искажающей переменной: построение графика как цены, так и спроса в зависимости от времени показывает ожидаемую отрицательную корреляцию в течение различных периодов, которая затем меняется на положительную, если игнорировать влияние времени, просто построив график спроса в зависимости от цены.
Психологический интерес к парадоксу Симпсона направлен на то, чтобы объяснить, почему люди [ кто? ] поначалу считают изменение знака невозможным. [ необходимо разъяснение ] Вопрос в том, откуда у людей эта сильная интуиция и как она кодируется в сознании .
Парадокс Симпсона показывает, что эта интуиция не может быть выведена ни из классической логики , ни из исчисления вероятностей , и, таким образом, привел философов к предположению, что она поддерживается врожденной причинной логикой, которая направляет людей в рассуждениях о действиях и их последствиях. [4] Принцип уверенности Сэвиджа [12] является примером того, что может повлечь за собой такая логика. Уточненная версия принципа уверенности Сэвиджа действительно может быть выведена из исчисления «дела» Перла [4] и гласит: «Действие A , которое увеличивает вероятность события B в каждой субпопуляции C i из C, должно также увеличить вероятность B в популяции в целом, при условии, что действие не изменяет распределение субпопуляций». Это говорит о том, что знания о действиях и последствиях хранятся в форме, напоминающей причинно-следственные байесовские сети .
В статье Павлидеса и Перлмана представлено доказательство, полученное благодаря Хаджикостасу, что в случайной таблице 2 × 2 × 2 с равномерным распределением парадокс Симпсона возникнет с вероятностью ровно 1 ⁄ 60 . [24] Исследование Кока предполагает, что вероятность того, что парадокс Симпсона возникнет случайным образом в моделях путей (т. е. моделях, созданных с помощью анализа путей ) с двумя предикторами и одной критериальной переменной, составляет приблизительно 12,8 процента; немного выше, чем 1 возникновение на 8 моделей путей. [25]
Второй, менее известный парадокс также обсуждался в статье Симпсона 1951 года. Он может возникнуть, когда «разумная интерпретация» не обязательно находится в разделенных данных, как в примере с камнями в почках, но может вместо этого находиться в объединенных данных. Следует ли использовать разделенную или объединенную форму данных, зависит от процесса, дающего начало данным, то есть правильная интерпретация данных не всегда может быть определена простым наблюдением за таблицами. [26]
Джуда Перл показала, что для того, чтобы разделенные данные представляли правильные причинно-следственные связи между любыми двумя переменными, и , разделяющие переменные должны удовлетворять графическому условию, называемому «критерием скрытого входа»: [27] [28]
Этот критерий обеспечивает алгоритмическое решение второго парадокса Симпсона и объясняет, почему правильная интерпретация не может быть определена только на основе данных; два разных графика, оба совместимые с данными, могут диктовать два разных критерия обхода.
Когда критерий обхода удовлетворяется набором Z ковариатов, формула корректировки (см. Вмешивающиеся факторы ) дает правильное причинное влияние X на Y. Если такого набора не существует, можно использовать do -исчисление Перла для обнаружения других способов оценки причинного влияния. [4] [29] Полноту do -исчисления [30] [29] можно рассматривать как предложение полного решения парадокса Симпсона.
Одно из критических замечаний заключается в том, что этот парадокс на самом деле вовсе не парадокс, а скорее неспособность должным образом учесть сопутствующие переменные или рассмотреть причинно-следственные связи между переменными. [31]
Другая критика кажущегося парадокса Симпсона заключается в том, что он может быть результатом специфического способа стратификации или группировки данных. Явление может исчезнуть или даже обратить вспять, если данные стратифицированы по-другому или если рассматриваются различные смешивающие переменные. Пример Симпсона фактически выявил явление, называемое неколлапсируемостью [32] , которое происходит, когда подгруппы с высокими пропорциями не дают простых средних значений при объединении. Это говорит о том, что парадокс может быть не универсальным явлением, а скорее частным случаем более общей статистической проблемы.
Критики явного парадокса Симпсона также утверждают, что сосредоточение внимания на парадоксе может отвлечь от более важных статистических вопросов, таких как необходимость тщательного рассмотрения сопутствующих переменных и причинно-следственных связей при интерпретации данных. [33]
Несмотря на эту критику, кажущийся парадокс Симпсона остается популярной и интригующей темой в статистике и анализе данных. Он продолжает изучаться и обсуждаться исследователями и практиками в широком спектре областей, и он служит ценным напоминанием о важности тщательного статистического анализа и потенциальных ловушках упрощенных интерпретаций данных.