Ошибка базовой ставки

Ошибка базовой ставки , также называемая пренебрежением базовой ставкой ^[2] или предвзятостью базовой ставки , представляет собой тип ошибки , при которой люди склонны игнорировать базовую ставку (например, общую распространенность ) в пользу индивидуализирующей информации (т. е. информации, касающейся только к конкретному случаю). ^[3] Игнорирование базовой ставки является особой формой более общего игнорирования расширения .

Это также называется ошибкой прокурора или ошибкой адвоката применительно к результатам статистических тестов (таких как тесты ДНК) в контексте судебного разбирательства. Эти термины были введены Уильямом К. Томпсоном и Эдвардом Шуманом в 1987 году, ^[4]^[5] , хотя утверждалось, что их определение ошибки прокурора распространяется на множество дополнительных недействительных вменений вины или ответственности, которые не поддаются анализу как ошибки в базовые ставки или теорема Байеса . ^[6]

Ложноположительный парадокс

Примером ошибки базовой ставки является парадокс ложноположительного результата (также известный как парадокс точности ). Этот парадокс описывает ситуации, когда ложноположительных результатов теста больше, чем истинно положительных (это означает, что классификатор имеет низкую точность ). Например, если камера распознавания лиц может точно идентифицировать разыскиваемых преступников на 99%, но анализирует 10 000 человек в день, высокая точность перевешивается количеством тестов, и в списке преступников программы, скорее всего, будет гораздо больше ложных срабатываний, чем истинных. Вероятность положительного результата теста определяется не только точностью теста, но и характеристиками выборочной совокупности. ^[7] Когда распространенность, то есть доля тех, у кого есть данное заболевание, ниже, чем уровень ложноположительных результатов теста , даже тесты, которые имеют очень низкий риск дать ложноположительный результат в отдельном случае, дадут больше ложноположительных результатов, чем истинных положительных результатов. общий . ^[8]

Это особенно противоречит здравому смыслу при интерпретации положительного результата теста на популяции с низкой распространенностью после рассмотрения положительных результатов, полученных в популяции с высокой распространенностью. ^[8] Если уровень ложноположительных результатов теста выше, чем доля новой популяции с этим заболеванием, то администратор тестирования, чей опыт был основан на тестировании в популяции с высокой распространенностью, может на основе опыта сделать вывод , что положительный результат теста обычно указывает на положительный субъект, хотя на самом деле ложноположительный результат гораздо более вероятен.

Примеры

Пример 1: Болезнь

Популяция с высокой распространенностью

Представьте себе, что вы проводите тест на инфекционные заболевания среди населения А из 1000 человек, из которых 40% инфицированы. Уровень ложноположительных результатов теста составляет 5% (0,05), а уровень ложноотрицательных результатов равен нулю. Ожидаемый результат 1000 тестов в популяции А будет следующим:

Инфицирован и тест указывает на заболевание ( истинно положительный результат )

1000 ×40100= 400 человек получат настоящий положительный результат

Неинфицирован и тест указывает на заболевание (ложноположительный результат)

1000 ×100 – 40100× 0,05 = 30 человек получат ложноположительный результат.

Остальные 570 тестов оказались правильно отрицательными.

Таким образом, в популяции А человек, получивший положительный тест, может быть уверен в себе более чем на 93% (400/30 + 400), что это правильно указывает на инфекцию.

Популяция с низкой распространенностью

Теперь рассмотрим тот же тест, примененный к популяции B , из которой инфицированы только 2%. Ожидаемый результат 1000 тестов в популяции B будет следующим:

Инфицирован, и тест указывает на заболевание (истинно положительный)

1000 ×2100= 20 человек получат настоящий положительный результат

Неинфицирован и тест указывает на заболевание (ложноположительный результат)

1000 ×100 – 2100× 0,05 = 49 человек получат ложноположительный результат.

Остальные 931 тест оказались правильно отрицательными.

В популяции B только 20 из 69 человек с положительным результатом теста действительно инфицированы. Таким образом, вероятность действительно заразиться после того, как человеку сообщили, что он заражен, составляет всего 29% (20/20 + 49) для теста, который в противном случае кажется «точным на 95 %».

Тестировщику с опытом работы в группе А может показаться парадоксом, что в группе Б результат, который обычно правильно указывал на инфекцию, теперь обычно оказывается ложноположительным. Смешение апостериорной вероятности заражения с априорной вероятностью получения ложноположительного результата является естественной ошибкой после получения опасного для здоровья результата теста.

Пример 2: Пьяные водители

Представьте себе, что у группы полицейских есть алкотестеры , показывающие ложное состояние опьянения в 5% случаев, когда водитель трезв. Однако алкотестеры всегда способны обнаружить действительно пьяного человека. Один из тысячи водителей водит машину пьяным. Предположим, что полицейские затем случайным образом останавливают водителя, чтобы провести проверку на алкотестере. Это указывает на то, что водитель пьян. Никакой другой информации о них не известно.

Многие оценили бы вероятность того, что водитель пьян, в 95%, но правильная вероятность составляет около 2%.

Объяснение этому следующее: в среднем на каждую 1000 протестированных водителей

1 водитель пьян, и существует 100% уверенность в том, что у этого водителя действительно положительный результат теста, поэтому есть 1 истинно положительный результат теста.
999 водителей не пьяны, среди них 5% ложноположительных результатов тестов, то есть 49,95 ложноположительных результатов тестов.

Следовательно, вероятность того, что любой водитель из 1 + 49,95 = 50,95 положительных результатов теста действительно пьян, равна . $1/50.95\приблизительно 0,019627$

Однако достоверность этого результата зависит от обоснованности первоначального предположения о том, что полицейский остановил водителя действительно случайно, а не из-за плохого вождения. Если имелась та или иная непроизвольная причина остановки водителя, то в расчете также учитывается вероятность того, что пьяный водитель будет управлять грамотно, а непьяный водитель будет управлять (не)грамотно.

Более формально, ту же вероятность, равную примерно 0,02, можно установить с помощью теоремы Байеса . Цель состоит в том, чтобы найти вероятность того, что водитель пьян, учитывая, что алкотестер показал, что он пьян, что можно представить как

p(\mathrm {пьяный} \mid D)

где D означает, что алкотестер показывает, что водитель пьян. Используя теорему Байеса,

p(\mathrm {drunk} \mid D) = {\frac {p(D\mid \mathrm {drunk})\,p(\mathrm {drunk})}{p(D)}}.

В этом сценарии известна следующая информация:

p(\mathrm {пьяный})=0,001,

{\ displaystyle p (\ mathrm {трезвый}) = 0,999,}

p(D\mid \mathrm {drunk}) = 1,00,

p(D\mid \mathrm {трезвый}) = 0,05.

Как видно из формулы, для теоремы Байеса требуется p ( D ), который можно вычислить из предыдущих значений, используя закон полной вероятности :

p(D)=p(D\mid \mathrm {пьяный}) \,p(\mathrm {пьяный})+p(D\mid \mathrm {трезвый})\,p(\mathrm {трезвый} )

который дает

p(D)=(1,00\times 0,001)+(0,05\times 0,999)=0,05095.

Подставляя эти числа в теорему Байеса, можно обнаружить, что

p(\mathrm {drunk} \mid D)={\frac {1,00\times 0,001}{0,05095}}\приблизительно 0,019627,

что такое точность теста.

Пример 3: Выявление террориста

Пусть в городе с населением в 1 миллион жителей будет 100 террористов и 999 900 нетеррористов. Для упрощения примера предполагается, что все люди, находящиеся в городе, являются его жителями. Таким образом, базовая вероятность того, что случайно выбранный житель города является террористом, равна 0,0001, а базовая вероятность того, что тот же самый житель не является террористом, равна 0,9999. Пытаясь поймать террористов, город устанавливает систему сигнализации с камерой наблюдения и программным обеспечением автоматического распознавания лиц .

Программное обеспечение имеет два уровня отказов по 1%:

Уровень ложноотрицательных результатов: если камера сканирует террориста, звонок прозвенит в 99% случаев и не прозвенит в 1% случаев.
Уровень ложноположительных результатов: если камера сканирует человека, не являющегося террористом, звонок не будет звонить в 99% случаев, но будет звонить в 1% случаев.

Предположим теперь, что тревогу включает житель. Кто-то, допускающий ошибку базовой ставки, пришел бы к выводу, что существует 99% вероятность того, что обнаруженный человек является террористом. Хотя этот вывод кажется разумным, на самом деле это плохое рассуждение, и приведенный ниже расчет покажет, что вероятность террориста на самом деле составляет около 1%, а не около 99%.

Заблуждение возникает из-за путаницы природы двух разных показателей отказов. «Количество нетеррористов на 100 террористов» (P(¬B | T), или вероятность того, что колокол не прозвенит, если житель является террористом) и «число нетеррористов на 100 звонков» (P (¬T | B), или вероятность того, что житель не является террористом, учитывая звон колокола) — это несвязанные величины; одно не обязательно равно другому или даже близко к нему. Чтобы продемонстрировать это, рассмотрим, что произойдет, если идентичную систему сигнализации установить во втором городе, где вообще нет террористов. Как и в первом городе, сигнал тревоги звучит для 1 из каждых 100 обнаруженных жителей-нетеррористов, но в отличие от первого города, сигнал тревоги никогда не звучит для террориста. Таким образом, 100% всех случаев срабатывания тревоги приходится на нетеррористов, но процент ложноотрицательных результатов даже подсчитать невозможно. «Число нетеррористов на 100 колоколов» в этом городе равно 100, но P(T | B) = 0%. Судя по звонку в колокол, вероятность того, что террорист будет обнаружен, равна нулю.

Представьте себе, что перед камерой проходит все население первого города в миллион человек. Около 99 из 100 террористов поднимут тревогу, как и около 9 999 из 999 900 нетеррористов. Таким образом, тревогу поднимут около 10 098 человек, среди которых около 99 будут террористами. Вероятность того, что человек, включивший сигнализацию, на самом деле является террористом, составляет всего около 99 из 10 098, что составляет менее 1% и очень, очень намного ниже первоначальной оценки в 99%.

Ошибка базовой ставки в этом примере настолько вводит в заблуждение, потому что нетеррористов гораздо больше, чем террористов, а количество ложноположительных результатов (нетеррористов сканируется как террористы) намного больше, чем истинных положительных результатов (террористов сканируют как террористов).

Многие специалисты-практики утверждают, что, поскольку базовый уровень терроризма чрезвычайно низок, использование интеллектуального анализа данных и алгоритмов прогнозирования для выявления террористов не может работать из-за парадокса ложноположительного результата. ^[9]^[10]^[11]^[12] Оценки количества ложноположительных результатов для каждого точного результата варьируются от более десяти тысяч ^[12] до одного миллиарда; ^[10] Следовательно, расследование каждой версии было бы непомерно затратным по затратам и времени. ^[9]^[11] Уровень точности, необходимый для того, чтобы сделать эти модели жизнеспособными, вероятно, недостижим. Прежде всего, низкий базовый уровень терроризма также означает отсутствие данных для создания точного алгоритма. ^[11] Кроме того, в контексте выявления терроризма ложноотрицательные результаты крайне нежелательны и поэтому должны быть сведены к минимуму, насколько это возможно; однако это требует повышения чувствительности за счет специфичности , что приводит к увеличению количества ложноположительных результатов. ^[12] Также сомнительно, что использование таких моделей правоохранительными органами позволит выполнить необходимое бремя доказывания , учитывая, что более 99% результатов будут ложноположительными. ^[12]

Пример 4: биологическое тестирование подозреваемого

Совершено преступление. Судебно-медицинская экспертиза установила, что у преступника определенная группа крови, которую разделяют 10% населения. Подозреваемый арестован, и у него та же группа крови.

Прокурор может предъявить подозреваемому обвинение в совершении преступления только на этом основании и заявить на суде, что вероятность того, что обвиняемый виновен, составляет 90%.

Однако этот вывод будет близок к правильному только в том случае, если обвиняемый был выбран в качестве главного подозреваемого на основании убедительных доказательств, обнаруженных до анализа крови и не связанных с ним. В противном случае представленное рассуждение ошибочно, поскольку оно упускает из виду высокую априорную вероятность (то есть до анализа крови) того, что он является случайным невиновным человеком. Предположим, например, что в городе, где произошло преступление, проживает 1000 человек. Это означает, что там живут 100 человек, имеющих группу крови преступника, из которых только один является истинным преступником; следовательно, истинная вероятность того, что обвиняемый виновен – основываясь только на том факте, что его группа крови совпадает с группой крови убийцы – составляет всего 1%, что намного меньше 90%, как утверждает прокурор.

Ошибка прокурора заключается в предположении, что априорная вероятность случайного совпадения равна вероятности невиновности обвиняемого. Используя его, прокурор, допрашивающий свидетеля-эксперта, может спросить: «Шансы найти эти доказательства у невиновного человека настолько малы, что присяжные могут спокойно игнорировать возможность того, что этот обвиняемый невиновен, верно?» ^[13] В заявлении предполагается, что вероятность того, что улики будут найдены у невиновного человека, такая же, как и вероятность того, что человек невиновен, учитывая, что у него были найдены улики, что неверно. В то время как первое обычно невелико (10% в предыдущем примере) из-за хороших процедур судебно-медицинской экспертизы , второе (99% в этом примере) не имеет к нему прямого отношения и часто будет намного выше, поскольку, по сути, оно зависит от на вероятных довольно высоких априорных шансах на то, что обвиняемый окажется случайным невиновным человеком.

Примеры в законе

Суд над О Джей Симпсоном

О. Дж. Симпсона судили и оправдали в 1995 году за убийства его бывшей жены Николь Браун Симпсон и ее друга Рональда Голдмана.

Кровь на месте преступления соответствовала крови Симпсона по характеристикам, присущим 1 из 400 человек. Однако защита утверждала, что количество людей из Лос-Анджелеса, соответствующих выборке, могло бы заполнить футбольный стадион и что цифра 1 на 400 бесполезна. ^[14]^[15] Было бы неправильно и было бы примером ошибки прокурора полагаться исключительно на цифру «1 из 400» для вывода о том, что конкретное лицо, соответствующее выборке, вероятно, будет виновником.

На том же судебном процессе обвинение представило доказательства того, что Симпсон применял насилие по отношению к своей жене. Защита утверждала, что на каждые 2500 женщин, подвергшихся супружескому насилию, была убита только одна женщина, и что любая история жестокого обращения Симпсона по отношению к своей жене не имеет значения для суда. Однако обоснование расчетов защиты было ошибочным. По мнению автора Герда Гигеренцера , правильная вероятность требует дополнительного контекста: жена Симпсона не только подверглась домашнему насилию, но, скорее, подверглась домашнему насилию (со стороны Симпсона) и была убита (кем-то). Гигеренцер пишет: «Шансы на то, что насильник действительно убил свою партнершу, учитывая, что она была убита, составляют примерно 8 из 9, или примерно 90%». ^[16] Хотя большинство случаев супружеского насилия не заканчиваются убийством, большинство случаев убийств, в которых имеется история супружеского насилия, были совершены супругом.

Дело Салли Кларк

Салли Кларк , британку, в 1998 году обвинили в убийстве своего первого ребенка в возрасте 11 недель, а затем второго ребенка в возрасте 8 недель. Обвинение привлекло свидетеля-эксперта сэра Роя Медоу , профессора и педиатра-консультанта, ^[17] засвидетельствовавшего, что вероятность смерти двух детей в одной семье от СВДС составляет примерно 1 на 73 миллиона. Это было гораздо реже, чем фактический показатель, измеренный в исторических данных – Медоу оценил его на основе данных о смертности от одиночной СВДС и предположения, что вероятность таких смертей не должна быть коррелированной между младенцами. ^[18]

Медоу признал, что 1 из 73 миллионов не является чем-то невозможным, но утверждал, что такие несчастные случаи будут происходить «раз в сто лет» и что в стране с 15 миллионами семей с двумя детьми гораздо более вероятно, что двойное смерти вызваны синдромом Мюнхгаузена, а не столь редким несчастным случаем. Однако есть веские основания предполагать, что вероятность смерти от СВДС в семье значительно выше, если предыдущий ребенок уже умер при таких обстоятельствах (генетическая предрасположенность к СВДС, вероятно, сведет на нет эту предполагаемую статистическую независимость ^[19] ) делает некоторые семьи более восприимчивыми к СВДС, а ошибка является результатом экологического заблуждения . ^[20] Вероятность двух смертей от СВДС в одной семье не может быть достоверно оценена путем возведения в квадрат вероятности одной такой смерти во всех других схожих семьях. ^[21]

Цифра 1 на 73 миллиона сильно недооценивает вероятность двух несчастных случаев подряд, но даже если бы эта оценка была точной, суд, похоже, упустил тот факт, что цифра 1 на 73 миллиона сама по себе ничего не значила. Как априорную вероятность ее следует сопоставить с априорными вероятностями альтернатив. Учитывая, что произошли две смерти, одно из следующих объяснений должно быть верным, и все они априори крайне маловероятны:

Две последовательные смерти в одной семье, обе в результате СВДС
Двойное убийство (версия обвинения)
Другие возможности (включая одно убийство и один случай СВДС)

Неясно, предлагалась ли когда-либо оценка вероятности второй возможности в ходе судебного разбирательства, или же сравнение первых двух вероятностей считалось ключевой оценкой, которую необходимо было сделать в статистическом анализе, сравнивающем версию обвинения с версией обвинения. невиновность.

Кларк был осужден в 1999 году, в результате чего Королевское статистическое общество опубликовало пресс-релиз, в котором указали на ошибки. ^[22]

В 2002 году Рэй Хилл (профессор математики из Солфорда ) попытался точно сравнить шансы этих двух возможных объяснений; он пришел к выводу, что вероятность последовательных несчастных случаев в 4,5–9 раз выше, чем последовательных убийств, так что априорные шансы виновности Кларка составляли от 4,5 до 1 и 9 к 1 против. ^[23]

После того, как суд установил, что судебно-медицинский патологоанатом, осматривавший обоих младенцев, скрыл оправдательные доказательства , 29 января 2003 года суд более высокой инстанции отменил приговор Кларку ^.

Результаты в психологии

В ходе экспериментов было обнаружено, что люди предпочитают индивидуальную информацию общей информации, когда первая доступна. ^[25]^[26]^[27]

В некоторых экспериментах студентов просили оценить средние баллы (GPA) гипотетических студентов. Получив соответствующую статистику о распределении среднего балла, учащиеся, как правило, игнорировали ее, если ей давали описательную информацию о конкретном учащемся, даже если новая описательная информация, очевидно, имела мало или вообще не имела отношения к школьной успеваемости. ^[26] Этот вывод использовался, чтобы доказать, что собеседования являются ненужной частью процесса поступления в колледж , поскольку интервьюеры не могут выбрать успешных кандидатов лучше, чем базовая статистика.

Психологи Дэниел Канеман и Амос Тверски попытались объяснить это открытие с помощью простого правила или «эвристики», называемого репрезентативностью . Они утверждали, что многие суждения, касающиеся вероятности или причины и следствия, основаны на том, насколько одна вещь репрезентативна для другой или категории. ^[26] Канеман считает, что игнорирование базовой ставки является особой формой игнорирования расширения . ^[28] Ричард Нисбетт утверждал, что некоторые атрибутивные предубеждения , такие как фундаментальная ошибка атрибуции, являются примерами ошибки базовой ставки: люди не используют «консенсусную информацию» («базовую ставку») о том, как другие вели себя в аналогичных ситуациях, и вместо этого предпочитают более простые диспозиционные атрибуции . ^[29]

В психологии ведутся серьезные споры об условиях, при которых люди ценят или не ценят базовую информацию. ^[30]^[31] Исследователи программы эвристики и предвзятости подчеркнули эмпирические результаты, показывающие, что люди склонны игнорировать базовые ставки и делать выводы, которые нарушают определенные нормы вероятностного рассуждения, такие как теорема Байеса . Вывод, сделанный в результате этого направления исследований, заключался в том, что человеческое вероятностное мышление фундаментально ошибочно и подвержено ошибкам. ^[32] Другие исследователи подчеркивали связь между когнитивными процессами и информационными форматами, утверждая, что такие выводы в целом необоснованны. ^[33]^[34]

Рассмотрим еще раз пример 2 сверху. Требуемый вывод состоит в том, чтобы оценить (апостериорную) вероятность того, что (случайно выбранный) водитель пьян, при условии, что тест на алкотестер положителен. Формально эту вероятность можно вычислить с помощью теоремы Байеса, как показано выше. Однако существуют разные способы представления соответствующей информации. Рассмотрим следующий формально эквивалентный вариант задачи:

1 из 1000 водителей водит машину в нетрезвом виде. Алкотестеры всегда распознают действительно пьяного человека. У 50 из 999 водителей, которые не пьяны, алкотестер ложно показывает состояние опьянения. Предположим, что полицейские случайно останавливают водителя и заставляют его пройти тест на алкотестер. Это указывает на то, что они пьяны. Никакой другой информации о них не известно. Оцените вероятность того, что водитель действительно пьян.

В этом случае соответствующая числовая информация — p (пьяный), p ( D | пьяный), p ( D | трезвый) — представлена в терминах собственных частот относительно определенного эталонного класса (см. задачу эталонного класса ). Эмпирические исследования показывают, что выводы людей более точно соответствуют правилу Байеса, когда информация представлена таким образом, что помогает преодолеть базовую пренебрежение со стороны непрофессионалов ^[34] и экспертов. ^[35] Как следствие, такие организации, как Кокрановское сотрудничество, рекомендуют использовать этот формат для передачи статистики здравоохранения. ^[36] Научить людей переводить такого рода байесовские задачи рассуждения в форматы собственных частот более эффективно, чем просто учить их подставлять вероятности (или проценты) в теорему Байеса. ^[37] Также было показано, что графическое представление собственных частот (например, массивы значков, графики гипотетических результатов) помогают людям делать более точные выводы. ^[37]^[38]^[39]^[40]

Одна из важных причин, почему форматы собственных частот полезны, заключается в том, что этот информационный формат облегчает необходимые выводы, поскольку упрощает необходимые вычисления. В этом можно убедиться при использовании альтернативного способа вычисления требуемой вероятности p (пьяный| D ):

p(\mathrm {drunk} \mid D)={\frac {N(\mathrm {drunk} \cap D)}{N(D)}}={\frac {1}{51}}= 0,0196

где N (drunk ∩ D ) обозначает количество водителей, находящихся в нетрезвом состоянии и получивших положительный результат алкотестера, а N ( D ) обозначает общее количество случаев с положительным результатом алкотестера. Эквивалентность этого уравнения приведенному выше следует из аксиом теории вероятностей, согласно которым N (пьяный ∩ D ) = N × p ( D | пьяный) × p (пьяный). Важно отметить, что хотя это уравнение формально эквивалентно правилу Байеса, оно не эквивалентно психологически. Использование собственных частот упрощает вывод, поскольку требуемую математическую операцию можно выполнить над натуральными числами вместо нормализованных дробей (т. е. вероятностей), поскольку это делает большое количество ложных срабатываний более прозрачным, а также потому, что собственные частоты представляют собой «вложенный набор» состав". ^[41]^[42]

Не каждый частотный формат облегчает байесовские рассуждения. ^[42]^[43] Собственные частоты относятся к информации о частоте, полученной в результате естественной выборки , ^[44] которая сохраняет информацию о базовой ставке (например, количество пьяных водителей при взятии случайной выборки водителей). Это отличается от систематической выборки , при которой базовые ставки фиксируются априори (например, в научных экспериментах). В последнем случае невозможно вывести апостериорную вероятность p (пьяный | положительный результат теста) путем сравнения количества водителей, которые находятся в нетрезвом состоянии и имеют положительный результат теста, по сравнению с общим числом людей, которые получили положительный результат алкотестера, поскольку информация о базовой ставке не сохраняется и должен быть явно повторно введен с помощью теоремы Байеса.

Смотрите также

Точность и отзыв
Сбор данных – неправильное использование анализа данных
Доказательства теоремы Байеса
Индуктивный аргумент - Метод логических рассуждений.
Список когнитивных предубеждений - Систематические закономерности отклонения от нормы или рациональности в суждениях.
Список парадоксов - Список утверждений, которые кажутся противоречащими сами себе.
Вводящая в заблуждение яркость – доказательства, основанные на личных показаниях
Парадокс профилактики – Ситуация в эпидемиологии
Парадокс Симпсона - Ошибка в статистических рассуждениях с группами
Интуитивная статистика - когнитивный феномен, при котором организмы используют данные для обобщений и прогнозов о мире.

Внешние ссылки

Заблуждение о базовой ставке Файлы заблуждения