Парадокс Симпсона

Парадокс Симпсона — это явление в теории вероятности и статистике , при котором тенденция появляется в нескольких группах данных, но исчезает или меняется на противоположную при объединении групп. Этот результат часто встречается в статистике социальных и медицинских наук, ^[1]^[2]^[3] и является особенно проблематичным, когда данным о частоте необоснованно дается причинно-следственная интерпретация. ^[4] Парадокс можно разрешить, если смешивающие переменные и причинно-следственные связи соответствующим образом учитываются в статистическом моделировании ^[4]^[5] (например, посредством кластерного анализа ^[6] ).

Парадокс Симпсона использовался для иллюстрации того, какие вводящие в заблуждение результаты может привести к неправильному использованию статистики . ^[7]^[8]

Эдвард Х. Симпсон впервые описал это явление в технической статье в 1951 году ^[9] , но статистики Карл Пирсон (в 1899 году ^[10] ) и Удни Юл (в 1903 году ^[11] ) упоминали подобные эффекты ранее. Название « парадокс Симпсона» было введено Колином Р. Блитом в 1972 году. ^[12] Его также называют обращением Симпсона , эффектом Юла-Симпсона , парадоксом слияния или парадоксом разворота . ^[13]

Математик Джордан Элленберг утверждает, что парадокс Симпсона ошибочно назван тем, что «здесь нет никакого противоречия, есть только два разных способа думать об одних и тех же данных», и предполагает, что его урок «на самом деле не в том, чтобы сказать нам, какую точку зрения принять, а в том, чтобы настаивать на том, чтобы мы придерживались и части, и целое в уме одновременно». ^[14]

Примеры

Гендерная предвзятость Калифорнийского университета в Беркли

Один из самых известных примеров парадокса Симпсона связан с исследованием гендерных предубеждений среди поступающих в аспирантуру Калифорнийского университета в Беркли . Данные о приеме на осень 1973 года показали, что мужчины, подавшие заявления, были приняты с большей вероятностью, чем женщины, и разница была настолько велика, что вряд ли она была случайной. ^[15]^[16]

Однако при учете информации о факультетах, на которые подаются заявления, разный процент отказов свидетельствует о разной сложности поступления на факультет, и в то же время это показало, что женщины, как правило, обращались на более конкурентоспособные факультеты с более низкими показателями приема. даже среди квалифицированных абитуриентов (например, на факультете английского языка), тогда как мужчины, как правило, подавались на менее конкурентоспособные факультеты с более высокими показателями поступления (например, на инженерный факультет). Объединенные и скорректированные данные показали «небольшую, но статистически значимую предвзятость в пользу женщин». ^[16]

Данные шести крупнейших ведомств приведены ниже:

Все данные показали, что в общей сложности 4 из 85 департаментов имеют значительную предвзятость по отношению к женщинам, а 6 - к мужчинам (не все представлены в приведенной выше таблице «шесть крупнейших департаментов»). Примечательно, что основанием для такого вывода было не количество предвзятых факультетов, а, скорее, гендерные показатели приема, объединенные по всем факультетам, с учетом процента отказов каждого факультета среди всех его претендентов. ^[16]

Лечение камней в почках

Другой пример взят из реального медицинского исследования ^[17], в котором сравнивались показатели успеха двух методов лечения камней в почках . ^[18] В таблице ниже показаны показатели успеха (термин « показатель успеха» здесь фактически означает долю успеха) и количество курсов лечения как небольших, так и крупных камней в почках, где лечение А включает открытые хирургические процедуры, а лечение Б включает закрытые хирургические процедуры. . Цифры в скобках указывают количество успешных случаев по отношению к общему размеру группы.

Парадоксальный вывод заключается в том, что метод А более эффективен при использовании для камней небольшого размера, а также при использовании для камней большого размера, однако метод Б оказывается более эффективным при одновременном рассмотрении обоих размеров. В этом примере «скрытой» переменной (или мешающей переменной ), вызывающей парадокс, является размер камней, который ранее не был известен исследователям как важный, пока не были учтены его эффекты.

Какое лечение считается лучшим, определяется тем, какой коэффициент успеха (успехов/общее количество) выше. Изменение неравенства между двумя соотношениями при рассмотрении объединенных данных, что создает парадокс Симпсона, происходит потому, что два эффекта происходят одновременно:

Размеры групп, которые объединяются при игнорировании скрытой переменной, сильно различаются. Врачи склонны назначать пациентам с крупными камнями лучшее лечение А, а случаям с мелкими камнями — худшее лечение B. Таким образом, в общих показателях преобладают группы 3 и 2, а не две гораздо меньшие группы 1 и 4.
Скрытая переменная, размер камня, оказывает большое влияние на соотношение; т.е. на вероятность успеха больше влияет тяжесть случая, чем выбор лечения. Таким образом, группа пациентов с крупными камнями, использующая лечение А (группа 3), чувствует себя хуже, чем группа с мелкими камнями, даже если последние использовали худшее лечение Б (группа 2).

На основе этих эффектов видно, что возникает парадоксальный результат, поскольку влияние размера камней превосходит преимущества лучшего лечения (А). Короче говоря, менее эффективное лечение B оказалось более эффективным, поскольку его чаще применяли к случаям небольших камней, которые легче лечить. ^[18]

Средние показатели ударов

Типичным примером парадокса Симпсона являются средние показатели ударов игроков в профессиональном бейсболе . Один игрок может иметь более высокий средний показатель результативности, чем другой игрок, каждый год в течение ряда лет, но иметь более низкий средний показатель за все эти годы. Это явление может возникнуть, когда существуют большие различия в численности летучих мышей в разные годы. Математик Кен Росс продемонстрировал это, используя средние показатели двух бейсболистов, Дерека Джетера и Дэвида Джастиса , в 1995 и 1996 годах: ^[19]^[20]

И в 1995, и в 1996 году у Джастиса был более высокий средний показатель (выделено жирным шрифтом), чем у Джетера. Однако, если объединить два бейсбольных сезона, Джетер показывает более высокий средний показатель, чем Джастис. По словам Росса, такое явление среди возможных пар игроков будет наблюдаться примерно раз в год. ^[19]

Векторная интерпретация

Парадокс Симпсона также можно проиллюстрировать с помощью двумерного векторного пространства . ^[21] Вероятность успеха (т. е. успехов/попыток ) может быть представлена вектором с наклоном . Тогда более крутой вектор означает более высокий уровень успеха. Если две скорости и объединяются, как в примерах, приведенных выше, результат может быть представлен суммой векторов и , что согласно правилу параллелограмма является вектором , с наклоном . ${\textstyle {\frac {p}{q}}}$ ${\vec {A}}=(q,p)$ ${\textstyle {\frac {p}{q}}}$ ${\textstyle {\frac {p_{1}}{q_{1}}}}$ ${\textstyle {\frac {p_{2}}{q_{2}}}}$ $(q_{1},p_{1})$ $(q_{2},p_{2})$ $(q_{1}+q_{2},p_{1}+p_{2})$ ${\textstyle {\frac {p_{1}+p_{2}}{q_{1}+q_{2}}}}$

Парадокс Симпсона гласит, что даже если вектор (оранжевый на рисунке) имеет меньший наклон, чем другой вектор (синий), и имеет наклон меньший, чем , сумма двух векторов потенциально все равно может иметь больший наклон, чем сумма два вектора , как показано в примере. Чтобы это произошло, один из оранжевых векторов должен иметь больший наклон, чем один из синих векторов (здесь и ), и они обычно будут длиннее, чем векторы с альтернативными индексами, что будет доминировать в общем сравнении. ${\vec {L}}_{1}$ ${\vec {B}}_{1}$ ${\vec {L}}_{2}$ ${\vec {B}}_{2}$ ${\vec {L}}_{1}+{\vec {L}}_{2}$ ${\vec {B}}_{1}+{\vec {B}}_{2}$ ${\vec {L}}_{2}$ ${\vec {B}}_{1}$

Корреляция между переменными

Разворот Симпсона может также возникнуть в корреляциях , в которых две переменные кажутся имеющими (скажем) положительную корреляцию друг с другом, хотя на самом деле они имеют отрицательную корреляцию, причем разворот был вызван «скрытым» искажающим фактором. Берман и др. ^[22] приводят пример из экономики, где набор данных предполагает, что общий спрос положительно коррелирует с ценой (то есть, более высокие цены приводят к большему спросу), что противоречит ожиданиям. Анализ показывает, что время является смешанной переменной: отображение цены и спроса в зависимости от времени показывает ожидаемую отрицательную корреляцию за различные периоды, которая затем меняется на обратную и становится положительной, если влияние времени игнорируется путем простого построения графика спроса в зависимости от цены.

Психология

Психологический интерес к парадоксу Симпсона направлен на объяснение того, почему люди поначалу считают изменение знака невозможным, оскорбляясь идеей о том, что действие, предпочитаемое как при одном условии, так и при его отрицании, должно быть отвергнуто, когда условие неизвестно. Вопрос в том, откуда у людей такая сильная интуиция и как она закодирована в сознании .

Парадокс Симпсона демонстрирует, что эту интуицию нельзя вывести ни из классической логики , ни из исчисления вероятностей , и, таким образом, побудил философов предположить, что она поддерживается врожденной причинной логикой, которая направляет людей в рассуждениях о действиях и их последствиях. ^[4]Принцип уверенности Сэвиджа ^[12] является примером того, что может повлечь за собой такая логика. Уточненная версия принципа уверенности Сэвиджа действительно может быть выведена из do -исчисления Перла ^[4] и гласит: «Действие А , которое увеличивает вероятность события B в каждой субпопуляции C _i из C , должно также увеличивать вероятность события B в каждой субпопуляции C i из C. население в целом, при условии, что действие не меняет распределение субпопуляций». Это говорит о том, что знания о действиях и последствиях хранятся в форме, напоминающей причинные байесовские сети .

Вероятность

В статье Павлидеса и Перлмана Хаджикостаса представлено доказательство того, что в случайной таблице 2 × 2 × 2 с равномерным распределением парадокс Симпсона произойдет с вероятностью ровно 1 ⁄ 60 . ^[23] Исследование Кока предполагает, что вероятность того, что парадокс Симпсона возникнет случайным образом в моделях путей (т. е. моделях, созданных путем анализа путей ) с двумя предикторами и одной критериальной переменной, составляет примерно 12,8 процента; немного выше, чем 1 случай на 8-путевые модели. ^[24]

Второй парадокс Симпсона

Второй, менее известный парадокс также обсуждался в статье Симпсона 1951 года. Это может произойти, когда «разумная интерпретация» не обязательно находится в отдельных данных, как в примере с камнями в почках, а вместо этого может находиться в объединенных данных. Следует ли использовать секционированную или комбинированную форму данных, зависит от процесса, в результате которого возникли данные, а это означает, что правильную интерпретацию данных не всегда можно определить, просто наблюдая за таблицами. ^[25]

Джудея Перл показала, что для того, чтобы разделенные данные представляли правильные причинно-следственные связи между любыми двумя переменными и переменные разделения должны удовлетворять графическому условию, называемому «критерием черного хода»: ^[26]^[27] $X$ $Y$

Они должны блокировать все ложные пути между и $X$ $Y$
Никакая переменная не может быть затронута $X$

Этот критерий обеспечивает алгоритмическое решение второго парадокса Симпсона и объясняет, почему правильная интерпретация не может быть определена только на основе данных; два разных графика, оба совместимых с данными, могут диктовать два разных критерия «черного хода».

Когда критерию «черной двери» удовлетворяет набор Z ковариат, формула корректировки (см. « Смешение ») дает правильное причинное влияние X на Y. Если такого набора не существует, можно использовать do -исчисление Перла, чтобы найти другие способы оценки причинного эффекта. ^[4]^[28] Полнота do -исчисления ^[29]^[28] может рассматриваться как полное разрешение парадокса Симпсона.

Критика

Одна из критических замечаний заключается в том, что этот парадокс на самом деле вовсе не парадокс, а скорее неспособность должным образом объяснить смешивающие переменные или рассмотреть причинно-следственные связи между переменными. ^[30]

Другая критика очевидного парадокса Симпсона заключается в том, что он может быть результатом особого способа стратификации или группировки данных. Это явление может исчезнуть или даже обратить вспять, если данные стратифицированы по-другому или если учитывать разные мешающие переменные. Пример Симпсона фактически высветил явление, называемое неколлапсируемостью, ^[31] которое возникает, когда подгруппы с высокими пропорциями не дают простых средних значений при объединении. Это говорит о том, что парадокс может быть не универсальным явлением, а скорее конкретным примером более общей статистической проблемы.

Критики очевидного парадокса Симпсона также утверждают, что внимание к парадоксу может отвлечь от более важных статистических проблем, таких как необходимость тщательного рассмотрения мешающих переменных и причинно-следственных связей при интерпретации данных. ^[32]

Несмотря на эту критику, очевидный парадокс Симпсона остается популярной и интригующей темой в статистике и анализе данных. Его продолжают изучать и обсуждать исследователи и практики в самых разных областях, и он служит ценным напоминанием о важности тщательного статистического анализа и потенциальных ошибках упрощенной интерпретации данных.

Смотрите также

Псевдоним – эффект обработки сигнала
Квартет Анскомба - четыре набора данных с одинаковой описательной статистикой, но с очень разными распределениями.
Парадокс Берксона - тенденция неправильно интерпретировать статистические эксперименты, включающие условные вероятности.
Сбор вишни – заблуждение неполных доказательств
Парадокс Кондорсе - Ситуация в теории социального выбора, когда коллективные предпочтения цикличны.
Экологическая ошибка - логическая ошибка, возникающая, когда групповые характеристики применяются к отдельным людям.
Джерримандеринг - форма политического манипулирования.
Парадокс низкой массы тела при рождении - статистическая особенность веса детей при рождении
Проблема с изменяемыми единицами площади – источник статистической погрешности
Заблуждение прокурора - ошибка в мышлении, предполагающая недооценку информации о базовой ставке.
Феномен Уилла Роджерса – Статистический феномен и парадокс
Ложная корреляция
Смещение пропущенной переменной

Библиография

Лейла Шнепс и Корали Колмез , Математика на суде. Как числа используются и злоупотребляются в зале суда , Basic Books, 2013. ISBN 978-0-465-03292-1 . (Шестая глава: «Математическая ошибка номер 6: парадокс Симпсона. Дело о половой предвзятости в Беркли: обнаружение дискриминации»).

Внешние ссылки

Викискладе есть медиафайлы, связанные с парадоксом Симпсона .

Парадокс Симпсона в Стэнфордской энциклопедии философии , авторы Ян Шпренгер и Нафтали Вайнбергер.
Как статистика может вводить в заблуждение – Марк Лидделл – видео и урок TED-Ed.
Перл, Иудея , «Понимание парадокса Симпсона» (PDF)
Парадокс Симпсона — небольшая статья Александра Богомольного о векторной интерпретации парадокса Симпсона.
Колонка Wall Street Journal «Числа» от 2 декабря 2009 года была посвящена недавним случаям парадокса Симпсона в новостях. В частности, это парадокс Симпсона при сравнении уровня безработицы во время рецессии 2009 года с рецессией 1983 года.
У тарелки, статистическая головоломка: понимание парадокса Симпсона, Артур Смит, 20 августа 2010 г.
Парадокс Симпсона, видео Генри Райха из MinutePhysics