stringtranslate.com

Ошибки I и II рода.

При проверке статистических гипотез ошибка I рода — это ошибочное отклонение нулевой гипотезы , которая на самом деле верна. Ошибка типа I также известна как «ложноположительный» вывод или вывод; пример: «невиновный человек осужден». Ошибка второго рода — это неспособность отвергнуть нулевую гипотезу, которая на самом деле ложна. Ошибка типа II также известна как «ложноотрицательный» вывод или вывод; пример: «виновный не осужден». [1] Большая часть статистической теории вращается вокруг минимизации одной или обеих этих ошибок, хотя полное устранение любой из них является статистической невозможностью, если результат не определяется известным, наблюдаемым причинным процессом. Выбрав низкое пороговое (пороговое) значение и изменив уровень альфа (α), можно повысить качество проверки гипотезы. [ нужна цитация ] Знания об ошибках типа I и ошибках типа II широко используются в медицинской науке , биометрии и информатике . [ нужны разъяснения ]

Интуитивно ошибки типа I можно рассматривать как совершенные ошибки ( т. е. исследователь, к несчастью, приходит к выводу, что что-то является фактом). Например, рассмотрим исследование, в котором исследователи сравнивают лекарство с плацебо. Если пациенты, которым дают препарат, случайно чувствуют себя лучше, чем пациенты, принимавшие плацебо, может показаться, что препарат эффективен, но на самом деле вывод неверен. И наоборот, ошибки второго рода — это ошибки упущения . В приведенном выше примере, если бы пациентам, принимавшим препарат, не становилось лучше с большей скоростью, чем тем, кто получал плацебо, но это была случайная случайность, это было бы ошибкой II рода. Последствия ошибки второго рода зависят от размера и направления пропущенного определения, а также обстоятельств. Дорогостоящее лечение одного из миллиона пациентов может оказаться несущественным, даже если оно действительно является лекарством.

Определение

Статистическая информация

В теории статистических тестов понятие статистической ошибки является неотъемлемой частью проверки гипотез . Тест заключается в выборе двух конкурирующих утверждений, называемых нулевой гипотезой , обозначаемой H0 , и альтернативной гипотезой , обозначаемой H1 . Концептуально это похоже на решение суда. Нулевая гипотеза соответствует положению обвиняемого: точно так же, как он предполагается невиновным, пока его вина не будет доказана, так и нулевая гипотеза считается истинной до тех пор, пока данные не предоставят убедительные доказательства против нее. Альтернативная гипотеза соответствует позиции против ответчика. В частности, нулевая гипотеза также предполагает отсутствие различий или отсутствие ассоциации. Таким образом, нулевая гипотеза никогда не может заключаться в том, что существует различие или ассоциация.

Если результат теста соответствует действительности, то решение принято правильно. Однако если результат теста не соответствует действительности, значит, произошла ошибка. Есть две ситуации, в которых решение неверно. Нулевая гипотеза может быть верной, тогда как мы отвергаем H 0 . С другой стороны, альтернативная гипотеза H 1 может быть верной, тогда как мы не отвергаем H 0 . Различают два типа ошибок: ошибка I рода и ошибка II рода. [2]

Ошибка I типа

Первый вид ошибок — это ошибочное отклонение нулевой гипотезы в результате процедуры тестирования. Ошибки такого рода называются ошибками I рода (ложноположительными) и иногда называются ошибками первого рода. Что касается примера с залом суда, ошибка I рода соответствует осуждению невиновного обвиняемого.

Ошибка второго рода

Второй вид ошибок — это ошибочная неспособность отвергнуть нулевую гипотезу в результате процедуры тестирования. Ошибки такого рода называются ошибками второго рода (ложноотрицательными), а также ошибками второго рода. На примере зала суда ошибка второго рода соответствует оправданию преступника. [3]

Частота ошибок кроссовера

Коэффициент перекрестных ошибок (CER) — это точка, в которой ошибки типа I и ошибки типа II равны. Система с более низким значением CER обеспечивает большую точность, чем система с более высоким значением CER.

Ложноположительный и ложноотрицательный

Что касается ложноположительных и ложноотрицательных результатов, положительный результат соответствует отклонению нулевой гипотезы, а отрицательный результат соответствует неспособности отвергнуть нулевую гипотезу; «ложь» означает, что сделанный вывод неверен. Таким образом, ошибка типа I эквивалентна ложноположительному результату, а ошибка типа II эквивалентна ложноотрицательному результату.

Таблица типов ошибок

Табличные отношения между истинностью/ложностью нулевой гипотезы и результатами теста: [4]

Частота ошибок

Результаты, полученные для отрицательного образца (левая кривая), перекрываются с результатами, полученными для положительных образцов (правая кривая). Перемещая значение отсечки результата (вертикальная полоса), можно уменьшить количество ложноположительных результатов (FP) за счет увеличения количества ложноотрицательных результатов (FN) или наоборот (TP = истинно положительные результаты, TPR = истинно положительные результаты). Частота, FPR = доля ложноположительных результатов, TN = истинно отрицательных результатов).

Идеальный тест должен иметь ноль ложноположительных и ноль ложноотрицательных результатов. Однако статистические методы носят вероятностный характер, и нельзя с уверенностью знать, верны ли статистические выводы. Всякий раз, когда есть неопределенность, есть вероятность допустить ошибку. Учитывая природу статистической науки, все проверки статистических гипотез имеют вероятность ошибок типа I и типа II. [5]

Эти два типа ошибок сопоставляются друг с другом: для любого данного набора выборок усилия по уменьшению одного типа ошибок обычно приводят к увеличению другого типа ошибок. [ нужна цитата ]

Качество проверки гипотез

Та же идея может быть выражена в терминах вероятности получения правильных результатов и, следовательно, использована для минимизации частоты ошибок и повышения качества проверки гипотез. Чтобы снизить вероятность совершения ошибки типа I, достаточно просто и эффективно сделать значение альфа более строгим. Чтобы уменьшить вероятность совершения ошибки второго рода, которая тесно связана с мощностью анализа, увеличение размера выборки теста или снижение альфа-уровня могут повысить мощность анализа. [ нужна цитация ] Тестовая статистика является устойчивой, если уровень ошибок типа I контролируется.

Изменение различных пороговых значений (пороговых значений) также можно использовать для того, чтобы сделать тест более специфичным или более чувствительным, что, в свою очередь, повышает качество теста. Например, представьте себе медицинский тест, в ходе которого экспериментатор может измерить концентрацию определенного белка в образце крови. Экспериментатор мог отрегулировать пороговое значение (черная вертикальная линия на рисунке), и у людей будет диагностировано заболевание, если какое-либо число будет обнаружено выше этого определенного порога. Судя по изображению, изменение порога приведет к изменению количества ложноположительных и ложноотрицательных результатов, что соответствует движению кривой. [ нужна цитата ]

Пример

Поскольку в реальном эксперименте невозможно избежать всех ошибок типа I и типа II, важно учитывать величину риска, на который человек готов пойти, чтобы ошибочно отвергнуть H 0 или принять H 0 . Решением этого вопроса было бы сообщить значение p или уровень значимости α статистики. Например, если значение p результата статистики теста оценивается в 0,0596, то существует вероятность 5,96%, что мы ошибочно отклоним H 0 . Или, если мы скажем, что статистика выполняется на уровне α, например 0,05, тогда мы позволяем ошибочно отклонить H 0 на уровне 5%. Уровень значимости α, равный 0,05, является относительно распространенным, но не существует общего правила, подходящего для всех сценариев.

Измерение скорости автомобиля

Ограничение скорости на автостраде в США составляет 120 километров в час (75 миль в час). Установлено устройство для измерения скорости проезжающих транспортных средств. Предположим, что устройство проведет три измерения скорости проезжающего автомобиля, записывая в виде случайной выборки X 1 , X 2 , X 3 . ГИБДД будет штрафовать или не штрафовать водителей в зависимости от средней скорости . То есть тестовая статистика

Кроме того, мы предполагаем, что измерения X 1 , X 2 , X 3 моделируются как нормальное распределение N(μ,4). Тогда T должно следовать за N(μ,4/3), а параметр μ представляет истинную скорость проезжающего транспортного средства. В этом эксперименте нулевая гипотеза H 0 и альтернативная гипотеза H 1 должны быть проверены.

H 0 : µ=120 против H 1 : µ>120.

Если мы выполним статистический уровень при α = 0,05, то для решения необходимо вычислить критическое значение c.

Согласно правилу замены единиц для нормального распределения. Обращаясь к Z-таблице , мы можем получить

Вот критическая область. То есть, если зафиксированная скорость автомобиля превысит критическое значение 121,9, водителя оштрафуют. Тем не менее, 5% водителей по-прежнему оштрафованы ошибочно, поскольку зарегистрированная средняя скорость превышает 121,9, а реальная скорость не превышает 120, что, как мы говорим, является ошибкой I рода.

Ошибка II рода соответствует случаю, когда истинная скорость транспортного средства превышает 120 километров в час, но водитель не оштрафован. Например, если истинная скорость транспортного средства µ=125, вероятность того, что водителя не оштрафуют, можно рассчитать как

это означает, что если истинная скорость транспортного средства равна 125, то водитель имеет вероятность 0,36% избежать штрафа при выполнении статистики на уровне α=0,05, поскольку зафиксированная средняя скорость ниже 121,9. Если истинная скорость будет ближе к 121,9, чем к 125, то вероятность избежать штрафа также будет выше.

Следует также учитывать компромисс между ошибками типа I и ошибками типа II. То есть в этом случае, если сотрудники ГИБДД не хотят ложно штрафовать невиновных водителей, уровень α можно установить на меньшее значение, например 0,01. Однако в этом случае больше водителей, чья истинная скорость превышает 120 километров в час, например 125, с большей вероятностью избегут штрафа.

Этимология

В 1928 году Ежи Нейман (1894–1981) и Эгон Пирсон (1895–1980), оба выдающиеся статистики, обсудили проблемы, связанные с «решением о том, можно ли считать конкретную выборку случайно выбранной из определенной популяции». «: [7] и, как заметила Флоренс Найтингейл Дэвид , «необходимо помнить, что прилагательное «случайный» [в термине «случайная выборка»] должно применяться к методу составления выборки, а не к самой выборке». [8]

Они выявили «два источника ошибок», а именно:

  1. ошибка отклонения гипотезы, которую не следовало отвергать, и
  2. ошибка неспособности отвергнуть гипотезу, которая должна была быть отвергнута.

В 1930 году они подробно остановились на этих двух источниках ошибок, отметив, что

при проверке гипотез необходимо учитывать два соображения: мы должны быть в состоянии снизить вероятность отклонения истинной гипотезы до желаемого значения; тест должен быть разработан таким образом, чтобы он отвергал проверяемую гипотезу, когда она, вероятно, окажется ложной.

В 1933 году они заметили, что эти «проблемы редко представляются в такой форме, чтобы мы могли с уверенностью отличить истинную гипотезу от ложной». Они также отметили, что, принимая решение о том, стоит ли не отвергать или отклонять конкретную гипотезу среди «набора альтернативных гипотез», H 1 , H 2 ..., легко допустить ошибку,

[и] эти ошибки будут двух видов:

  1. мы отвергаем H 0 [т. е. гипотезу, которую необходимо проверить], если она верна, [9]
  2. мы не можем отвергнуть H0 , когда верна некоторая альтернативная гипотеза HA или H1 . (Для альтернативы существуют различные обозначения).

Во всех статьях, написанных в соавторстве Нейманом и Пирсоном, выражение H 0 всегда означает «гипотезу, подлежащую проверке».

В той же статье они называют эти два источника ошибок ошибками типа I и ошибками типа II соответственно. [10]

Связанные термины

Нулевая гипотеза

Стандартной практикой для статистиков является проведение тестов с целью определить, может ли быть подтверждена «спекулятивная гипотеза », касающаяся наблюдаемых явлений мира (или его обитателей). Результаты такого тестирования определяют, согласуется ли конкретный набор результатов разумно (или не согласуется) с предполагаемой гипотезой.

На основании того, что согласно статистическому соглашению всегда предполагается, что предполагаемая гипотеза неверна, и так называемая «нулевая гипотеза», что наблюдаемые явления происходят просто случайно (и что, как следствие, предполагаемый агент не имеет эффект) – тест определит, верна или неверна эта гипотеза. Вот почему проверяемую гипотезу часто называют нулевой гипотезой (вероятнее всего, придуманной Фишером (1935, стр. 19)), поскольку именно эта гипотеза должна быть либо аннулирована, либо не аннулирована тестом. Когда нулевая гипотеза аннулируется, можно сделать вывод, что данные подтверждают «альтернативную гипотезу» (которая является исходной предполагаемой).

Последовательное применение статистиками соглашения Неймана и Пирсона о представлении «гипотезы, подлежащей проверке» (или «гипотезы, подлежащей аннулированию») с помощью выражения H 0 , привело к обстоятельствам, когда многие понимают термин «нулевая гипотеза» как означающий «нулевая гипотеза» – утверждение, что рассматриваемые результаты возникли случайно. Это не обязательно так – ключевым ограничением, согласно Фишеру (1966), является то, что «нулевая гипотеза должна быть точной, то есть свободной от неопределенности и двусмысленности, поскольку она должна служить основой «проблемы распределения». решением которого является критерий значимости». [11] Как следствие этого, в экспериментальной науке нулевая гипотеза обычно представляет собой утверждение о том, что конкретное лечение не имеет эффекта; в науке наблюдений это то, что нет разницы между значением конкретной измеряемой переменной и значением экспериментального предсказания. [ нужна цитата ]

Статистическая значимость

Если вероятность получения столь же экстремального результата, как и полученный, при условии, что нулевая гипотеза верна, ниже заранее заданной вероятности отсечения (например, 5%), то результат считается статистически значимым . и нулевая гипотеза отвергается.

Британский статистик сэр Рональд Эйлмер Фишер (1890–1962) подчеркивал, что нулевая гипотеза

никогда не доказывается и не устанавливается, но, возможно, опровергается в ходе экспериментов. Можно сказать, что каждый эксперимент существует только для того, чтобы дать фактам шанс опровергнуть нулевую гипотезу.

-  Фишер, 1935, стр.19.

Домены приложений

Лекарство

В медицинской практике различия между применением скрининга и тестирования значительны.

Медицинский осмотр

Скрининг включает относительно дешевые тесты, которые проводятся среди больших групп населения, ни у одного из которых нет клинических признаков заболевания (например, мазки Папаниколау ).

Тестирование включает в себя гораздо более дорогие, часто инвазивные процедуры, которые проводятся только тем, у кого проявляются некоторые клинические признаки заболевания, и чаще всего применяются для подтверждения предполагаемого диагноза.

Например, большинство штатов США требуют, чтобы новорожденные проходили обследование на наличие фенилкетонурии и гипотиреоза , а также других врожденных заболеваний .

Несмотря на высокий уровень ложноположительных результатов, скрининговые тесты считаются ценными, поскольку они значительно повышают вероятность обнаружения этих расстройств на гораздо более ранней стадии.

Простые анализы крови , используемые для проверки возможных доноров крови на ВИЧ и гепатит , имеют значительный процент ложноположительных результатов; однако врачи используют гораздо более дорогие и гораздо более точные тесты, чтобы определить, действительно ли человек заражен каким-либо из этих вирусов.

Вероятно, наиболее широко обсуждаемые ложноположительные результаты при медицинском скрининге происходят при маммографии для скрининга рака молочной железы . Уровень ложноположительных результатов маммографии в США составляет до 15%, это самый высокий показатель в мире. Одним из последствий высокого уровня ложноположительных результатов в США является то, что в течение любого 10-летнего периода половина американских женщин, прошедших скрининг, получают ложноположительные результаты маммограммы. Ложноположительные маммограммы обходятся дорого: в США ежегодно тратится более 100 миллионов долларов на последующее тестирование и лечение. Они также вызывают у женщин ненужное беспокойство. В результате высокого уровня ложноположительных результатов в США около 90–95% женщин, получивших положительный результат маммограммы, не страдают этим заболеванием. Самая низкая ставка в мире – в Нидерландах – 1%. Самые низкие показатели обычно наблюдаются в Северной Европе, где маммографические пленки считываются дважды и установлен высокий порог для дополнительного тестирования (высокий порог снижает эффективность теста).

Идеальный популяционный скрининговый тест должен быть дешевым, простым в проведении и, если возможно, не давать ложноотрицательных результатов. Такие тесты обычно дают больше ложноположительных результатов, которые впоследствии можно устранить с помощью более сложного (и дорогостоящего) тестирования.

Медицинское тестирование

Ложноотрицательные и ложноположительные результаты являются серьезными проблемами в медицинском тестировании .

Ложноположительные результаты также могут привести к серьезным и парадоксальным проблемам, когда искомое заболевание встречается редко, как, например, при скрининге. Если тест имеет уровень ложноположительных результатов один на десять тысяч, но только один из миллиона образцов (или людей) является истинно положительным, большинство положительных результатов, обнаруженных этим тестом, будут ложными. Вероятность того, что наблюдаемый положительный результат является ложноположительным, можно рассчитать с помощью теоремы Байеса .

Ложноотрицательные результаты создают серьезные и парадоксальные проблемы, особенно если искомое состояние является распространенным. Если тест с уровнем ложноотрицательных результатов всего 10% используется для тестирования популяции с истинной частотой встречаемости 70%, многие из отрицательных результатов, обнаруженных с помощью теста, будут ложными.

Иногда это приводит к неправильному или неадекватному лечению как самого пациента, так и его заболевания. Типичным примером является использование сердечных нагрузочных тестов для выявления коронарного атеросклероза, хотя известно, что сердечные нагрузочные тесты выявляют только ограничения кровотока в коронарной артерии из-за выраженного стеноза .

Биометрия

Биометрическое сопоставление, например, для распознавания отпечатков пальцев , распознавания лиц или распознавания радужной оболочки глаза , подвержено ошибкам типа I и типа II.

Вероятность ошибок типа I называется «коэффициентом ложного отклонения» (FRR) или коэффициентом ложного несоответствия (FNMR), а вероятность ошибок типа II называется «коэффициентом ложного принятия» (FAR) или коэффициентом ложного совпадения ( ФМР).

Если система спроектирована таким образом, чтобы редко выявлять подозреваемых, то вероятность ошибок типа II можно назвать « коэффициентом ложных тревог ». С другой стороны, если система используется для проверки (а приемка является нормой), то FAR является мерой безопасности системы, а FRR измеряет уровень неудобства для пользователя.

Проверка безопасности

Ложные срабатывания обычно обнаруживаются каждый день при досмотре служб безопасности в аэропортах , который в конечном итоге представляет собой системы визуального досмотра . Установленная охранная сигнализация предназначена для предотвращения проноса оружия на самолеты; тем не менее, они часто настроены на такую ​​высокую чувствительность, что по несколько раз в день сигнализируют о мелких предметах, таких как ключи, пряжки ремней, мелочь, мобильные телефоны и кнопки в обуви.

Таким образом, соотношение ложных срабатываний (идентификация невиновного путешественника как террориста) к истинным срабатываниям (обнаружение потенциального террориста) очень велико; и поскольку почти каждый сигнал тревоги является ложноположительным, прогностическая ценность положительного результата этих скрининговых тестов очень низка.

Относительная цена ложных результатов определяет вероятность того, что создатели тестов допустят возникновение этих событий. Поскольку цена ложноотрицательного результата в этом сценарии чрезвычайно высока (необнаружение бомбы, принесенной в самолет, может привести к сотням смертей), в то время как стоимость ложноположительного результата относительно низка (достаточно простая дополнительная проверка), наиболее подходящим вариантом является тест с низкой статистической специфичностью, но высокой статистической чувствительностью (который допускает высокий уровень ложноположительных результатов в обмен на минимальное количество ложноотрицательных результатов).

Компьютеры

Понятия ложноположительных и ложноотрицательных результатов широко распространены в сфере компьютеров и компьютерных приложений, включая компьютерную безопасность , фильтрацию спама , вредоносное ПО , оптическое распознавание символов и многие другие.

Например, в случае фильтрации спама:

Хотя большинство тактик защиты от спама позволяют блокировать или фильтровать большой процент нежелательных писем, сделать это без значительных ложноположительных результатов — гораздо более сложная задача. Низкое количество ложных срабатываний является показателем эффективности фильтрации спама.

Смотрите также

Рекомендации

  1. ^ «Ошибка типа I и ошибка типа II» . Explorable.com . Проверено 14 декабря 2019 г.
  2. ^ Современное введение в вероятность и статистику: понимание почему и как . Деккинг, Мишель (1946 г.р.). Лондон: Спрингер. 2005. ISBN 978-1-85233-896-1. ОСЛК  262680588.{{cite book}}: CS1 maint: others (link)
  3. ^ Современное введение в вероятность и статистику: понимание почему и как . Деккинг, Мишель (1946 г.р.). Лондон: Спрингер. 2005. ISBN 978-1-85233-896-1. ОСЛК  262680588.{{cite book}}: CS1 maint: others (link)
  4. ^ Шескин, Дэвид (2004). Справочник по параметрическим и непараметрическим статистическим процедурам . ЦРК Пресс. п. 54. ИСБН 1584884401.
  5. ^ Рохатги, ВК; Салех, АК Мд Эхсанес (2015). Введение в теорию вероятностей и математическую статистику . Ряд Уайли по вероятности и статистике (3-е изд.). Хобокен, Нью-Джерси: ISBN John Wiley & Sons, Inc. 978-1-118-79963-5.
  6. ^ Линденмайер, Дэвид. (2005). Практическая биология сохранения . Бургман, Марк А. Коллингвуд, Виктория: CSIRO Pub. ISBN 0-643-09310-9. ОСЛК  65216357.
  7. ^ Нейман, Дж.; Пирсон, ES (1928). «Об использовании и интерпретации некоторых критериев тестирования для целей статистических выводов, часть I». Биометрика . 20А (1–2): 175–240. doi : 10.1093/biomet/20a.1-2.175. ISSN  0006-3444.
  8. ^ CIKF (июль 1951 г.). «Теория вероятностей для статистических методов. Ф. Н. Дэвид. [Стр. ix + 230. Издательство Кембриджского университета. 1949. Цена 155.]». Журнал актуарного общества Staple Inn . 10 (3): 243–244. дои : 10.1017/s0020269x00004564. ISSN  0020-269X.
  9. ^ Обратите внимание, что нижний индекс в выражении H 0 равен нулю (указывает на ноль ), а не является «O» (указывает на исходное значение ).
  10. ^ Нейман, Дж.; Пирсон, ES (30 октября 1933 г.). «Проверка статистических гипотез в отношении априорных вероятностей». Математические труды Кембриджского философского общества . 29 (4): 492–510. Бибкод : 1933PCPS...29..492N. дои : 10.1017/s030500410001152x. ISSN  0305-0041. S2CID  119855116.
  11. ^ Фишер, РА (1966). Планирование экспериментов (8-е изд.). Эдинбург: Хафнер.

Библиография

Внешние ссылки