Заблуждение о базовой ставке , также называемое игнорированием базовой ставки [2] или смещением базовой ставки , является типом заблуждения , при котором люди склонны игнорировать базовую ставку (например, общую распространенность ) в пользу индивидуализирующей информации (т. е. информации, относящейся только к конкретному случаю). [3] Например, если кто-то слышит, что друг очень застенчив и тих, он может подумать, что этот друг, скорее всего, библиотекарь, чем продавец, даже несмотря на то, что в целом продавцов гораздо больше, чем библиотекарей, — следовательно, повышается вероятность того, что его друг на самом деле продавец. Игнорирование базовой ставки является конкретной формой более общего расширенного игнорирования .
Это также называется ошибкой прокурора или ошибкой адвоката защиты , когда применяется к результатам статистических тестов (таких как тесты ДНК) в контексте судебных разбирательств. Эти термины были введены Уильямом К. Томпсоном и Эдвардом Шуманом в 1987 году, [4] [5] хотя утверждалось, что их определение ошибки прокурора распространяется на множество дополнительных недействительных вменений вины или ответственности, которые не поддаются анализу как ошибки в базовых ставках или теореме Байеса . [6]
Примером ошибки базовой скорости является парадокс ложных положительных результатов (также известный как парадокс точности ). Этот парадокс описывает ситуации, когда ложных положительных результатов теста больше , чем истинно положительных (это означает, что классификатор имеет низкую точность ). Например, если камера распознавания лиц может идентифицировать разыскиваемых преступников с точностью 99%, но анализирует 10 000 человек в день, высокая точность перевешивается количеством тестов, и список преступников программы, вероятно, будет иметь гораздо больше ложных положительных результатов, чем истинных. Вероятность положительного результата теста определяется не только точностью теста, но и характеристиками выборочной популяции. [7] Когда распространенность, доля тех, у кого есть данное состояние, ниже, чем ложноположительный показатель теста , даже тесты, которые имеют очень низкий риск дать ложный положительный результат в отдельном случае, дадут больше ложных, чем истинных положительных результатов в целом . [8]
Это особенно нелогично при интерпретации положительного результата теста в группе с низкой распространенностью после рассмотрения положительных результатов, полученных в группе с высокой распространенностью. [8] Если уровень ложноположительных результатов теста выше, чем доля новой группы с заболеванием, то администратор теста, чей опыт был получен в ходе тестирования в группе с высокой распространенностью, может сделать вывод из опыта , что положительный результат теста обычно указывает на положительного субъекта, хотя на самом деле ложноположительный результат гораздо более вероятен.
Представьте себе проведение теста на инфекционное заболевание в популяции A из 1000 человек, из которых 40% инфицированы. Тест имеет ложноположительный уровень 5% (0,05) и ложноотрицательный уровень 0. Ожидаемый результат 1000 тестов в популяции A будет следующим:
Таким образом, в популяции A человек, получивший положительный тест, может быть уверен более чем на 93% ( 400/30 + 400 ), что это правильно указывает на инфекцию.
Теперь рассмотрим тот же тест, примененный к популяции B , из которой инфицированы только 2%. Ожидаемый результат 1000 тестов на популяции B будет:
В популяции B только 20 из 69 человек с положительным результатом теста на самом деле инфицированы. Таким образом, вероятность фактического заражения после того, как человеку сообщили, что он инфицирован, составляет всего 29% ( 20/20 + 49 ) для теста, который в остальном кажется «точным на 95%».
Тестировщик с опытом работы с группой A может посчитать парадоксом, что в группе B результат, который обычно правильно указывал на инфекцию, теперь обычно оказывается ложноположительным. Смешение апостериорной вероятности заражения с априорной вероятностью получения ложноположительного результата является естественной ошибкой после получения опасного для здоровья результата теста.
Представьте себе, что у группы полицейских есть алкотестеры, показывающие ложное опьянение в 5% случаев, когда водитель трезв. Однако алкотестеры никогда не ошибаются в выявлении действительно пьяного человека. Один из тысячи водителей водит машину пьяным. Предположим, что полицейские затем останавливают водителя наугад, чтобы провести тест на алкоголь. Он показывает, что водитель пьян. Никакой другой информации о них не известно.
Многие оценивают вероятность того, что водитель пьян, в 95%, но правильная вероятность составляет около 2%.
Объяснение этому следующее: в среднем на каждые 1000 проверенных водителей приходится
Таким образом, вероятность того, что любой водитель из 1 + 49,95 = 50,95 с положительным результатом теста действительно пьян, составляет .
Однако обоснованность этого результата зависит от обоснованности первоначального предположения, что полицейский остановил водителя действительно случайно, а не из-за плохого вождения. Если эта или другая непроизвольная причина остановки водителя присутствовала, то расчет также включает вероятность того, что пьяный водитель вел машину грамотно, а не пьяный водитель вел машину (не) грамотно.
Более формально, та же вероятность около 0,02 может быть установлена с помощью теоремы Байеса . Цель состоит в том, чтобы найти вероятность того, что водитель пьян, учитывая, что алкотестеры показали, что он пьян, что можно представить как
где D означает, что алкотестер показывает, что водитель пьян. Используя теорему Байеса,
В этом сценарии известна следующая информация:
Как видно из формулы, для теоремы Байеса требуется p ( D ), которое можно вычислить из предыдущих значений, используя закон полной вероятности :
что дает
Подставляя эти числа в теорему Байеса, получаем, что
что является точностью теста.
В городе с населением 1 миллион человек пусть будет 100 террористов и 999 900 нетеррористов. Для упрощения примера предположим, что все люди, присутствующие в городе, являются жителями. Таким образом, базовая вероятность того, что случайно выбранный житель города является террористом, составляет 0,0001, а базовая вероятность того, что тот же житель является нетеррористом, составляет 0,9999. В попытке поймать террористов город устанавливает систему сигнализации с камерой наблюдения и программным обеспечением для автоматического распознавания лиц .
Программное обеспечение имеет два показателя отказов по 1%:
Предположим теперь, что житель активирует сигнализацию. Кто-то, сделавший ошибку базовой ставки, сделает вывод, что существует 99% вероятность того, что обнаруженный человек является террористом. Хотя вывод кажется разумным, на самом деле это плохое рассуждение, и приведенный ниже расчет покажет, что вероятность террориста на самом деле близка к 1%, а не к 99%.
Заблуждение возникает из-за смешения двух различных показателей отказов. «Количество незвонящих на 100 террористов» (P(¬B | T), или вероятность того, что звонок не зазвонит, при условии, что житель — террорист) и «количество нетеррористов на 100 звонков» (P(¬T | B), или вероятность того, что житель — не террорист, при условии, что звонок зазвонит) — это несвязанные величины; одна из них не обязательно равна другой или даже близка к ней. Чтобы показать это, рассмотрим, что произойдет, если установить идентичную систему сигнализации во втором городе, где вообще нет террористов. Как и в первом городе, сигнализация срабатывает для 1 из каждых 100 обнаруженных жителей, не являющихся террористами, но, в отличие от первого города, сигнализация никогда не срабатывает для террористов. Следовательно, 100% всех случаев срабатывания сигнализации приходится на нетеррористов, но ложноотрицательный показатель даже не может быть подсчитан. «Количество нетеррористов на 100 звонков» в этом городе равно 100, однако P(T | B) = 0%. Вероятность обнаружения террориста равна нулю, учитывая звон колокола.
Представьте, что все население первого города в один миллион человек проходит перед камерой. Около 99 из 100 террористов включат сигнализацию, и так же поступят около 9999 из 999900 нетеррористов. Таким образом, около 10 098 человек включат сигнализацию, среди которых около 99 будут террористами. Вероятность того, что человек, включивший сигнализацию, на самом деле является террористом, составляет всего около 99 из 10 098, что меньше 1% и очень, очень много ниже первоначальной догадки в 99%.
Ошибочность базовой вероятности в этом примере настолько обманчива, потому что нетеррористов гораздо больше, чем террористов, а количество ложных положительных результатов (нетеррористы распознаются как террористы) намного больше, чем истинно положительных результатов (террористы распознаются как террористы).
Многие специалисты утверждают, что, поскольку базовый уровень терроризма крайне низок, использование алгоритмов интеллектуального анализа данных и прогнозирования для выявления террористов не может быть эффективным из-за парадокса ложных срабатываний. [9] [10] [11] [12] Оценки количества ложных срабатываний для каждого точного результата варьируются от более десяти тысяч [12] до одного миллиарда; [10] следовательно, расследование каждой зацепки будет непомерно дорогим и затратным по времени. [9] [11] Уровень точности, необходимый для того, чтобы сделать эти модели жизнеспособными, скорее всего, недостижим. Прежде всего, низкий базовый уровень терроризма также означает, что существует нехватка данных, с помощью которых можно создать точный алгоритм. [11] Кроме того, в контексте обнаружения терроризма ложные отрицательные результаты крайне нежелательны и, следовательно, должны быть максимально сведены к минимуму; однако это требует повышения чувствительности за счет специфичности , увеличивая количество ложных срабатываний. [12] Также сомнительно, что использование таких моделей правоохранительными органами будет соответствовать требуемому бремени доказывания, учитывая, что более 99% результатов будут ложноположительными. [12]
Совершено преступление. Судебно-медицинская экспертиза определяет, что у преступника определенная группа крови, общая для 10% населения. Подозреваемый арестован, и у него обнаруживается та же группа крови.
Прокурор может предъявить подозреваемому обвинение в совершении преступления только на этом основании и заявить на суде, что вероятность виновности подсудимого составляет 90%.
Однако этот вывод близок к правильному, только если обвиняемый был выбран в качестве главного подозреваемого на основе надежных доказательств, обнаруженных до анализа крови и не связанных с ним. В противном случае представленное рассуждение ошибочно, поскольку оно упускает из виду высокую априорную вероятность (то есть до анализа крови) того, что он является случайным невиновным человеком. Предположим, например, что в городе, где произошло преступление, проживает 1000 человек. Это означает, что там проживает 100 человек с группой крови преступника, из которых только один является истинным преступником; следовательно, истинная вероятность того, что обвиняемый виновен — основанная только на том факте, что его группа крови совпадает с группой крови убийцы — составляет всего 1%, что намного меньше 90%, на которые ссылается прокурор.
Ошибка прокурора заключается в предположении, что априорная вероятность случайного совпадения равна вероятности того, что подсудимый невиновен. Используя ее, прокурор, допрашивающий эксперта-свидетеля, может спросить: «Вероятность обнаружения этих доказательств у невиновного человека настолько мала, что присяжные могут спокойно проигнорировать возможность того, что этот подсудимый невиновен, верно?» [13] Утверждение предполагает, что вероятность обнаружения доказательств у невиновного человека такая же, как и вероятность того, что человек невиновен, учитывая, что доказательства были найдены у него, что не соответствует действительности. В то время как первое обычно невелико (10% в предыдущем примере) из-за хороших процедур судебной экспертизы доказательств , последнее (99% в этом примере) не имеет к нему прямого отношения и часто будет намного выше, поскольку, по сути, оно зависит от вероятных довольно высоких априорных шансов того, что подсудимый является случайным невиновным человеком.
В 1995 году О. Джей Симпсон предстал перед судом и был оправдан за убийства своей бывшей жены Николь Браун Симпсон и ее друга Рональда Голдмана.
Кровь с места преступления совпала с кровью Симпсона, и ее характеристики были общими для 1 из 400 человек. Однако защита утверждала, что количество людей из Лос-Анджелеса, соответствующих образцу, могло бы заполнить футбольный стадион, и что цифра 1 из 400 была бесполезной. [14] [15] Было бы неправильно полагаться исключительно на цифру «1 из 400», чтобы сделать вывод о том, что данный человек, соответствующий образцу, скорее всего, будет преступником.
В том же судебном процессе обвинение представило доказательства того, что Симпсон был жесток по отношению к своей жене. Защита утверждала, что на каждые 2500 женщин, подвергшихся супружескому насилию, приходится только одна убитая женщина, и что любая история насилия Симпсона по отношению к своей жене не имеет значения для судебного разбирательства. Однако рассуждения, лежащие в основе расчетов защиты, были ошибочными. По словам автора Герда Гигеренцера , правильная вероятность требует дополнительного контекста: жена Симпсона не просто подвергалась домашнему насилию, но скорее подвергалась домашнему насилию (со стороны Симпсона) и была убита (кем-то). Гигеренцер пишет: «Вероятность того, что обидчик действительно убил свою партнершу, учитывая, что она была убита, составляет около 8 из 9 или около 90%». [16] Хотя большинство случаев супружеского насилия не заканчиваются убийством, большинство случаев убийства, в которых есть история супружеского насилия, были совершены супругом.
Салли Кларк , британка, была обвинена в 1998 году в убийстве своего первого ребенка в возрасте 11 недель, а затем второго ребенка в возрасте 8 недель. Обвинение привлекло эксперта-свидетеля сэра Роя Медоу , профессора и консультанта-педиатра, [17] для показаний о том, что вероятность смерти двух детей в одной семье от СВДС составляет около 1 к 73 миллионам. Это было намного реже, чем фактический показатель, измеренный в исторических данных — Медоу оценил его на основе данных о смерти от СВДС у одного ребенка и предположения, что вероятность таких смертей не должна коррелировать между младенцами. [18]
Медоу признал, что 1 из 73 миллионов не является невозможным, но утверждал, что такие несчастные случаи будут происходить «раз в сто лет» и что в стране с 15 миллионами семей с двумя детьми гораздо более вероятно, что двойные смерти вызваны синдромом Мюнхгаузена по доверенности, чем таким редким несчастным случаем. Однако есть веские основания полагать, что вероятность смерти от СВДС в семье значительно выше, если предыдущий ребенок уже умер при этих обстоятельствах ( генетическая предрасположенность к СВДС, вероятно, сделает недействительной эту предполагаемую статистическую независимость [19] ), что делает некоторые семьи более восприимчивыми к СВДС, а ошибка — результатом экологического заблуждения . [20] Вероятность двух смертей от СВДС в одной и той же семье не может быть надежно оценена путем возведения в квадрат вероятности одной такой смерти во всех в остальном подобных семьях. [21]
Цифра 1 из 73 миллионов сильно недооценивает вероятность двух последовательных несчастных случаев, но даже если бы эта оценка была точной, суд, похоже, упустил тот факт, что цифра 1 из 73 миллионов сама по себе ничего не значила. Как априорную вероятность, ее следовало бы сопоставить с априорными вероятностями альтернатив. Учитывая, что произошло две смерти, одно из следующих объяснений должно быть верным, и все они априори крайне маловероятны:
Неясно, предлагалась ли когда-либо оценка вероятности второго варианта в ходе судебного разбирательства или же сравнение первых двух вероятностей рассматривалось как ключевая оценка, которую необходимо было провести в статистическом анализе, оценивающем доводы обвинения против доводов о невиновности.
Кларк был осужден в 1999 году, после чего Королевское статистическое общество выпустило пресс-релиз , в котором указало на ошибки. [22]
В 2002 году Рэй Хилл (профессор математики в Солфорде ) попытался точно сравнить шансы этих двух возможных объяснений; он пришел к выводу, что последовательные несчастные случаи в 4,5–9 раз более вероятны, чем последовательные убийства, так что априорные шансы виновности Кларка составляли от 4,5 к 1 до 9 к 1 против. [23]
После того, как суд установил, что патологоанатом, обследовавший обоих младенцев, не предоставил оправдательных доказательств , вышестоящий суд позднее, 29 января 2003 года, отменил обвинительный приговор Кларку. [24]
В ходе экспериментов было обнаружено, что люди предпочитают индивидуализированную информацию общей информации, когда первая доступна. [25] [26] [27]
В некоторых экспериментах студентам предлагалось оценить средний балл (GPA) гипотетических студентов. Когда им предоставляли соответствующие статистические данные о распределении GPA, студенты, как правило, игнорировали их, если им предоставляли описательную информацию о конкретном студенте, даже если новая описательная информация была явно мало или совсем не имела отношения к успеваемости в школе. [26] Этот вывод использовался для утверждения, что собеседования являются ненужной частью процесса поступления в колледж, поскольку интервьюеры не способны выбрать успешных кандидатов лучше, чем базовая статистика.
Психологи Дэниел Канеман и Амос Тверски попытались объяснить это открытие с помощью простого правила или «эвристики», называемой репрезентативностью . Они утверждали, что многие суждения, касающиеся вероятности или причины и следствия, основаны на том, насколько репрезентативна одна вещь по отношению к другой или к категории. [26] Канеман считает игнорирование базовой ставки особой формой игнорирования расширения . [28] Ричард Нисбетт утверждал, что некоторые атрибуционные искажения , такие как фундаментальная ошибка атрибуции , являются примерами ошибки базовой ставки: люди не используют «консенсусную информацию» («базовую ставку») о том, как другие вели себя в схожих ситуациях, и вместо этого предпочитают более простые диспозиционные атрибуции . [29]
В психологии ведутся серьезные дебаты об условиях, при которых люди ценят или не ценят информацию об априорной вероятности. [30] [31] Исследователи в программе эвристики и предубеждений подчеркивают эмпирические результаты, показывающие, что люди склонны игнорировать априорные вероятности и делать выводы, которые нарушают определенные нормы вероятностного мышления, такие как теорема Байеса . Вывод, сделанный в результате этого направления исследований, состоял в том, что человеческое вероятностное мышление в корне ошибочно и подвержено ошибкам. [32] Другие исследователи подчеркивают связь между когнитивными процессами и форматами информации, утверждая, что такие выводы, как правило, не являются обоснованными. [33] [34]
Рассмотрим еще раз пример 2 из предыдущего примера. Требуемый вывод — оценить (апостериорную) вероятность того, что (случайно выбранный) водитель пьян, учитывая, что тест на алкоголь положительный. Формально эту вероятность можно вычислить с помощью теоремы Байеса, как показано выше. Однако существуют разные способы представления соответствующей информации. Рассмотрим следующий формально эквивалентный вариант задачи:
В этом случае соответствующая числовая информация — p (пьяный), p ( D | пьяный), p ( D | трезвый) — представлена в терминах собственных частот относительно определенного референтного класса (см. задачу референтного класса ). Эмпирические исследования показывают, что выводы людей более точно соответствуют правилу Байеса, когда информация представлена таким образом, что помогает преодолеть пренебрежение базовой ставкой у неспециалистов [34] и экспертов. [35] Как следствие, такие организации, как Cochrane Collaboration, рекомендуют использовать этот формат для передачи статистики здравоохранения. [36] Обучение людей переводу таких задач байесовских рассуждений в форматы собственных частот более эффективно, чем простое обучение их подставлять вероятности (или проценты) в теорему Байеса. [37] Также было показано, что графические представления собственных частот (например, массивы значков, графики гипотетических результатов) помогают людям делать более точные выводы. [37] [38] [39] [40]
Одной из важных причин, по которой форматы собственной частоты полезны, является то, что этот формат информации облегчает требуемый вывод, поскольку он упрощает необходимые вычисления. Это можно увидеть при использовании альтернативного способа вычисления требуемой вероятности p (drunk| D ):
где N (пьяный ∩ D ) обозначает количество водителей, которые пьяны и получают положительный результат алкотестера, а N ( D ) обозначает общее количество случаев с положительным результатом алкотестера. Эквивалентность этого уравнения предыдущему следует из аксиом теории вероятностей, согласно которым N (пьяный ∩ D ) = N × p ( D | пьяный) × p (пьяный). Важно отметить, что хотя это уравнение формально эквивалентно правилу Байеса, оно не является психологически эквивалентным. Использование собственных частот упрощает вывод, поскольку требуемая математическая операция может быть выполнена над натуральными числами, а не над нормализованными дробями (т. е. вероятностями), поскольку это делает большое количество ложных срабатываний более прозрачным, и поскольку собственные частоты демонстрируют «структуру вложенных множеств». [41] [42]
Не каждый формат частоты способствует байесовскому рассуждению. [42] [43] Естественные частоты относятся к частотной информации, которая получается в результате естественной выборки , [44] которая сохраняет информацию о базовой ставке (например, количество пьяных водителей при взятии случайной выборки водителей). Это отличается от систематической выборки , в которой базовые ставки фиксируются априори (например, в научных экспериментах). В последнем случае невозможно вывести апостериорную вероятность p (пьяный | положительный тест) из сравнения количества водителей, которые пьяны и имеют положительный тест, по сравнению с общим числом людей, которые получают положительный результат алкотестера, потому что информация о базовой ставке не сохраняется и должна быть явно введена повторно с использованием теоремы Байеса.
Если воздействие COVID-19 останется прежним, то по мере того, как все больше людей будут вакцинированы, больше случаев, госпитализаций и смертей будет у вакцинированных людей, поскольку они будут продолжать составлять все большую часть населения. Например, если бы 100% населения были вакцинированы, 100% случаев были бы среди вакцинированных людей.
СООБЩЕНИЕ: Ложноположительные тесты более вероятны, чем истинно положительные тесты, когда общая популяция имеет низкую распространенность заболевания. Это называется ложноположительным парадоксом.
На первый взгляд, это кажется извращением: чем меньше студенты в целом употребляют
стероиды
, тем больше вероятность, что студент, идентифицированный как пользователь, не будет их употреблять. Это было названо Ложноположительным Парадоксом- Цитата: Gonick, L.; Smith, W. (1993). Карикатурное руководство по статистике . Нью-Йорк: Harper Collins. С. 49.
явно несправедливо использовать характеристики, которые в основном делают ее хорошей, порядочной матерью, в качестве факторов, которые учитываются против нее. Да, мы можем согласиться, что такие факторы делают естественную смерть менее вероятной, – но те же самые характеристики также делают убийство менее вероятным.
Общество не терпит, чтобы врачи совершали серьезные клинические ошибки, поскольку широко известно, что такие ошибки могут означать разницу между жизнью и смертью. Дело R против Салли Кларк является одним из примеров того, как медицинский эксперт-свидетель допустил серьезную статистическую ошибку, которая могла оказать глубокое влияние на исход дела