В статистическом тестировании гипотез ошибка типа I , или ложноположительный результат , — это отклонение нулевой гипотезы , когда она на самом деле верна. Например, невиновный человек может быть осужден.
Ошибка типа II , или ложноотрицательная , — это неспособность отвергнуть нулевую гипотезу, которая на самом деле ложна. Например: виновный может не быть осужден. [1]
Большая часть статистической теории вращается вокруг минимизации одной или обеих этих ошибок, хотя полное устранение любой из них невозможно, если результат не определяется известным, наблюдаемым причинным процессом. Выбрав низкое пороговое (отсечённое) значение и изменив уровень альфа (α), можно повысить качество проверки гипотезы. [ требуется цитирование ] Знание ошибок типа I и ошибок типа II широко используется в медицине , биометрии и информатике . [ требуется разъяснение ]
Интуитивно ошибки типа I можно рассматривать как ошибки комиссии (т. е. исследователь неудачно приходит к выводу, что что-то является фактом). Например, рассмотрим исследование, в котором исследователи сравнивают лекарство с плацебо. Если пациенты, которым дали лекарство, чувствуют себя лучше, чем пациенты, которым случайно дали плацебо, может показаться, что лекарство эффективно, но на самом деле все наоборот.
Напротив, ошибки типа II — это ошибки упущения. В приведенном выше примере, если пациенты, которым давали лекарство, не выздоравливали быстрее, чем те, кому давали плацебо, и это было случайным совпадением, то это была бы ошибка типа II.
В статистической теории тестирования понятие статистической ошибки является неотъемлемой частью проверки гипотез . Тест заключается в выборе двух конкурирующих предложений, называемых нулевой гипотезой , обозначаемой как и альтернативной гипотезой , обозначаемой как . Это концептуально похоже на решение суда. Нулевая гипотеза соответствует положению обвиняемого: так же, как он считается невиновным, пока его вина не будет доказана, так и нулевая гипотеза считается истинной, пока данные не предоставят убедительных доказательств против нее. Альтернативная гипотеза соответствует положению против обвиняемого. В частности, нулевая гипотеза также подразумевает отсутствие разницы или отсутствие связи. Таким образом, нулевая гипотеза никогда не может быть такой, что есть разница или связь.
Если результат теста соответствует действительности, то принято правильное решение. Однако если результат теста не соответствует действительности, то произошла ошибка. Есть две ситуации, в которых решение неверно. Нулевая гипотеза может быть истинной, тогда как мы отвергаем . С другой стороны, альтернативная гипотеза может быть истинной, тогда как мы не отвергаем . Различают два типа ошибок: ошибка I типа и ошибка II типа. [2]
Первый тип ошибки — ошибочное отклонение нулевой гипотезы в результате процедуры проверки. Этот тип ошибки называется ошибкой I типа (ложноположительный) и иногда называется ошибкой первого рода. В терминах примера с залом суда ошибка I типа соответствует осуждению невиновного подсудимого.
Второй тип ошибок — ошибочная неспособность отвергнуть нулевую гипотезу в результате процедуры проверки. Этот тип ошибок называется ошибкой типа II (ложноотрицательный) и также упоминается как ошибка второго рода. В терминах примера с залом суда ошибка типа II соответствует оправданию преступника. [2]
Коэффициент ошибок кроссовера (CER) — это точка, в которой ошибки типа I и ошибки типа II равны. Система с более низким значением CER обеспечивает большую точность, чем система с более высоким значением CER.
С точки зрения ложноположительных и ложноотрицательных результатов положительный результат соответствует отклонению нулевой гипотезы, а отрицательный результат соответствует неспособности отвергнуть нулевую гипотезу; «ложный» означает, что сделанный вывод неверен. Таким образом, ошибка I типа эквивалентна ложноположительному результату, а ошибка II типа эквивалентна ложноотрицательному результату.
Табличные соотношения между истинностью/ложностью нулевой гипотезы и результатами теста: [3]
Идеальный тест имел бы ноль ложноположительных и ноль ложноотрицательных результатов. Однако статистические методы являются вероятностными, и нельзя знать наверняка, верны ли статистические выводы. Всякий раз, когда есть неопределенность, есть вероятность совершить ошибку. Учитывая это, все статистические проверки гипотез имеют вероятность совершить ошибки типа I и типа II. [4]
Эти два типа ошибок компенсируются друг другом: для любого заданного набора выборок усилия по уменьшению одного типа ошибок обычно приводят к увеличению другого типа ошибок. [ необходима ссылка ]
Эту же идею можно выразить в терминах скорости получения правильных результатов и, следовательно, использовать для минимизации частоты ошибок и повышения качества проверки гипотез. Чтобы снизить вероятность совершения ошибки типа I, сделать значение альфа более строгим — это и просто, и эффективно. Чтобы снизить вероятность совершения ошибки типа II, которая тесно связана с мощностью анализа, можно либо увеличить размер выборки теста, либо ослабить уровень альфа, что может повысить мощность анализа. [ необходима цитата ] Статистика теста является надежной, если частота ошибок типа I контролируется.
Различные пороговые (отсечки) значения также могут быть использованы для того, чтобы сделать тест более специфичным или более чувствительным, что в свою очередь повышает качество теста. Например, представьте себе медицинский тест, в котором экспериментатор может измерить концентрацию определенного белка в образце крови. Экспериментатор может отрегулировать порог (черная вертикальная линия на рисунке), и у людей будут диагностированы заболевания, если будет обнаружено какое-либо число выше этого определенного порога. Согласно изображению, изменение порога приведет к изменениям в ложных положительных и ложных отрицательных результатах, что соответствует движению по кривой. [ необходима цитата ]
Поскольку в реальном эксперименте невозможно избежать всех ошибок типа I и типа II, важно учитывать степень риска, на который вы готовы пойти, чтобы ложно отвергнуть H 0 или принять H 0 . Решением этого вопроса было бы сообщить p-значение или уровень значимости α статистики. Например, если p-значение результата тестовой статистики оценивается в 0,0596, то существует вероятность 5,96%, что мы ложно отвергаем H 0 . Или, если мы говорим, что статистика выполняется на уровне α, например 0,05, то мы допускаем ложное отклонение H 0 на уровне 5%. Уровень значимости α 0,05 встречается относительно часто, но не существует общего правила, которое подходит для всех сценариев.
Ограничение скорости на автостраде в США составляет 120 километров в час (75 миль в час). Устройство установлено для измерения скорости проезжающих транспортных средств. Предположим, что устройство проведет три измерения скорости проезжающего транспортного средства, регистрируя как случайную выборку X 1 , X 2 , X 3 . Дорожная полиция будет или не будет штрафовать водителей в зависимости от средней скорости . То есть, тестовая статистика
Кроме того, мы предполагаем, что измерения X 1 , X 2 , X 3 моделируются как нормальное распределение N(μ,2). Тогда T должен следовать за N(μ,2/ ), а параметр μ представляет собой истинную скорость проезжающего транспортного средства. В этом эксперименте нулевая гипотеза H 0 и альтернативная гипотеза H 1 должны быть
H 0 : μ=120 против H 1 : μ>120.
Если мы выполним статистический уровень при α=0,05, то для решения следует рассчитать критическое значение c
Согласно правилу изменения единиц для нормального распределения. Обращаясь к Z-таблице , мы можем получить
Здесь критическая область. То есть, если зафиксированная скорость транспортного средства больше критического значения 121,9, водитель будет оштрафован. Однако все еще есть 5% водителей, которые получают ложные штрафы, поскольку зафиксированная средняя скорость больше 121,9, а истинная скорость не превышает 120, что мы называем ошибкой первого рода.
Ошибка II рода соответствует случаю, когда истинная скорость транспортного средства превышает 120 километров в час, но водитель не оштрафован. Например, если истинная скорость транспортного средства μ=125, вероятность того, что водитель не оштрафован, можно рассчитать как
что означает, что если истинная скорость транспортного средства составляет 125, у водителя есть вероятность 0,36% избежать штрафа, когда статистика выполняется на уровне α = 0,05, поскольку зафиксированная средняя скорость ниже 121,9. Если истинная скорость ближе к 121,9, чем к 125, то вероятность избежать штрафа также будет выше.
Также следует учитывать компромиссы между ошибкой типа I и ошибкой типа II. То есть, в этом случае, если дорожная полиция не хочет ложно штрафовать невиновных водителей, уровень α может быть установлен на меньшее значение, например 0,01. Однако, если это так, больше водителей, чья истинная скорость превышает 120 километров в час, например 125, с большей вероятностью избегут штрафа.
В 1928 году Ежи Нейман (1894–1981) и Эгон Пирсон (1895–1980), оба выдающиеся статистики, обсуждали проблемы, связанные с «решением вопроса о том, можно ли считать, что конкретная выборка была случайно взята из определенной популяции»: [6] и, как заметила Флоренс Найтингейл Дэвид , «необходимо помнить, что прилагательное «случайный» [в термине «случайная выборка»] должно применяться к методу взятия выборки, а не к самой выборке». [7]
Они определили «два источника ошибок», а именно:
В 1930 году они подробно остановились на этих двух источниках ошибок, отметив, что
При проверке гипотез необходимо учитывать два соображения: мы должны иметь возможность снизить вероятность отклонения истинной гипотезы до сколь угодно низкого значения; тест должен быть разработан таким образом, чтобы он отвергал проверяемую гипотезу, когда она, скорее всего, ложна.
В 1933 году они заметили, что эти «проблемы редко представляются в такой форме, чтобы мы могли с уверенностью различить истинную и ложную гипотезу». Они также отметили, что при принятии решения о том, следует ли не отвергать или отвергнуть конкретную гипотезу среди «набора альтернативных гипотез», H 1 , H 2 ..., было легко совершить ошибку,
[и] эти ошибки будут двух видов:
- мы отвергаем H 0 [т.е. гипотезу, которая должна быть проверена], когда она верна, [8]
- мы не отвергаем H 0 , когда верна некоторая альтернативная гипотеза H A или H 1 . (Существуют различные обозначения для альтернативы).
Во всех работах, написанных совместно Нейманом и Пирсоном, выражение H 0 всегда означает «гипотеза, подлежащая проверке».
В той же статье они называют эти два источника ошибок ошибками типа I и ошибками типа II соответственно. [9]
Стандартной практикой для статистиков является проведение тестов с целью определить, может ли быть поддержана "спекулятивная гипотеза " относительно наблюдаемых явлений мира (или его обитателей). Результаты такого тестирования определяют, согласуется ли определенный набор результатов разумно (или не согласуется) с предполагаемой гипотезой.
На основании того, что всегда предполагается, по статистической традиции, что предполагаемая гипотеза неверна, и так называемой «нулевой гипотезы», что наблюдаемые явления просто происходят случайно (и что, как следствие, предполагаемый агент не оказывает никакого влияния), тест определит, является ли эта гипотеза верной или неверной. Вот почему проверяемая гипотеза часто называется нулевой гипотезой (скорее всего, придуманной Фишером (1935, стр. 19)), потому что именно эта гипотеза должна быть либо опровергнута, либо не опровергнута тестом. Когда нулевая гипотеза опровергается, можно сделать вывод, что данные подтверждают «альтернативную гипотезу» (которая является изначально предполагаемой).
Последовательное применение статистиками соглашения Неймана и Пирсона о представлении «гипотезы, которая должна быть проверена» (или «гипотезы, которая должна быть аннулирована») с помощью выражения H 0 привело к обстоятельствам, когда многие понимают термин «нулевая гипотеза» как означающий «нулевую гипотезу» — утверждение, что результаты, о которых идет речь, возникли случайно. Это не обязательно так — ключевое ограничение, согласно Фишеру (1966), заключается в том, что «нулевая гипотеза должна быть точной, то есть свободной от неопределенности и двусмысленности, поскольку она должна предоставлять основу «проблемы распределения», решением которой является проверка значимости». [10] Как следствие этого, в экспериментальной науке нулевая гипотеза, как правило, является утверждением о том, что определенное лечение не имеет эффекта; в наблюдательной науке это то, что нет разницы между значением определенной измеренной переменной и значением экспериментального предсказания. [ необходима цитата ]
Если вероятность получения столь же экстремального результата, как полученный, при условии, что нулевая гипотеза верна, ниже заранее заданной пороговой вероятности (например, 5%), то результат считается статистически значимым , а нулевая гипотеза отвергается.
Британский статистик сэр Рональд Эйлмер Фишер (1890–1962) подчеркивал, что нулевая гипотеза
никогда не доказано и не установлено, но возможно опровергнуто в ходе эксперимента. Можно сказать, что каждый эксперимент существует только для того, чтобы дать фактам шанс опровергнуть нулевую гипотезу.
— Фишер, 1935, стр.19
В медицинской практике различия между применением скрининга и тестирования значительны.
Скрининг включает в себя относительно недорогие тесты, которые проводятся среди больших групп населения, ни у кого из них не наблюдается никаких клинических признаков заболевания (например, мазки Папаниколау ).
Тестирование включает в себя гораздо более дорогостоящие, часто инвазивные процедуры, которые назначаются только тем, у кого проявляются некоторые клинические признаки заболевания, и чаще всего применяются для подтверждения предполагаемого диагноза.
Например, в большинстве штатов США требуется, чтобы новорожденные проходили скрининг на фенилкетонурию и гипотиреоз , а также на другие врожденные заболевания .
Несмотря на то, что скрининговые тесты дают высокий уровень ложноположительных результатов, они считаются ценными, поскольку значительно повышают вероятность выявления этих заболеваний на гораздо более ранней стадии.
Простые анализы крови, используемые для проверки потенциальных доноров крови на ВИЧ и гепатит, имеют значительный процент ложноположительных результатов; однако врачи используют гораздо более дорогие и гораздо более точные тесты, чтобы определить, действительно ли человек инфицирован одним из этих вирусов.
Возможно, наиболее широко обсуждаемые ложноположительные результаты медицинского скрининга происходят от процедуры скрининга рака груди маммография . В США уровень ложноположительных маммограмм составляет до 15%, что является самым высоким показателем в мире. Одним из последствий высокого уровня ложноположительных результатов в США является то, что в течение любого 10-летнего периода половина американских женщин, прошедших скрининг, получают ложноположительную маммографию. Ложноположительные маммограммы являются дорогостоящими, более 100 миллионов долларов ежегодно тратятся в США на последующее тестирование и лечение. Они также вызывают у женщин ненужное беспокойство. В результате высокого уровня ложноположительных результатов в США, около 90–95% женщин, получивших положительную маммографию, не имеют этого заболевания. Самый низкий показатель в мире в Нидерландах, 1%. Самые низкие показатели, как правило, в Северной Европе, где маммографические пленки считываются дважды и установлен высокий порог для дополнительного тестирования (высокий порог снижает мощность теста).
Идеальный скрининговый тест населения должен быть дешевым, простым в применении и не давать ложноотрицательных результатов, если это возможно. Такие тесты обычно дают больше ложноположительных результатов, которые впоследствии можно отсортировать с помощью более сложного (и дорогого) тестирования.
Ложноотрицательные и ложноположительные результаты являются серьезными проблемами в медицинских исследованиях .
Ложные положительные результаты также могут вызывать серьезные и нелогичные проблемы, когда искомое состояние встречается редко, как при скрининге. Если тест имеет ложноположительный показатель один на десять тысяч, но только один из миллиона образцов (или людей) является истинно положительным, большинство положительных результатов, обнаруженных этим тестом, будут ложными. Вероятность того, что наблюдаемый положительный результат является ложноположительным, можно рассчитать с помощью теоремы Байеса .
Ложные отрицательные результаты приводят к серьезным и нелогичным проблемам, особенно когда искомое состояние распространено. Если тест с ложноотрицательным показателем всего 10% используется для тестирования популяции с истинным показателем встречаемости 70%, многие из отрицательных результатов, обнаруженных тестом, будут ложными.
Это иногда приводит к ненадлежащему или неадекватному лечению как пациента, так и его заболевания. Распространенным примером является использование сердечных стресс-тестов для выявления коронарного атеросклероза, хотя известно, что сердечные стресс- тесты выявляют только ограничения коронарного кровотока из-за выраженного стеноза .
Биометрическое сопоставление, например, для распознавания отпечатков пальцев , лиц или радужной оболочки глаза , подвержено ошибкам I и II типа.
Вероятность ошибок I типа называется «частотой ложного отклонения» (FRR) или частотой ложного несоответствия (FNMR), тогда как вероятность ошибок II типа называется «частотой ложного принятия» (FAR) или частотой ложного соответствия (FMR).
Если система разработана так, чтобы редко сопоставлять подозреваемых, то вероятность ошибок типа II можно назвать « коэффициентом ложной тревоги ». С другой стороны, если система используется для проверки (и принятие является нормой), то FAR является мерой безопасности системы, в то время как FRR измеряет уровень неудобств для пользователя.
Ложные срабатывания регулярно обнаруживаются каждый день при проверке безопасности в аэропортах , которые в конечном итоге являются системами визуального досмотра . Установленные охранные сигнализации предназначены для предотвращения проноса оружия на борт самолета; однако они часто настроены на такую высокую чувствительность, что срабатывают много раз в день при обнаружении мелких предметов, таких как ключи, пряжки ремней, мелочь, мобильные телефоны и гвоздики в обуви.
Таким образом, соотношение ложноположительных результатов (распознавание невиновного путешественника как террориста) и истинно положительных результатов (обнаружение потенциального террориста) очень велико; а поскольку почти каждый сигнал тревоги является ложноположительным, положительная прогностическая ценность этих скрининговых тестов очень низка.
Относительная стоимость ложных результатов определяет вероятность того, что создатели теста допустят возникновение этих событий. Поскольку стоимость ложного отрицательного результата в этом сценарии чрезвычайно высока (необнаружение проноса бомбы на самолет может привести к сотням смертей), а стоимость ложного положительного результата относительно низка (достаточно простая дополнительная проверка), наиболее подходящим является тест с низкой статистической специфичностью, но высокой статистической чувствительностью (тот, который допускает высокий уровень ложных положительных результатов в обмен на минимальные ложные отрицательные результаты).
Понятия ложных срабатываний и ложных отрицательных срабатываний широко распространены в сфере компьютеров и компьютерных приложений, включая компьютерную безопасность , фильтрацию спама , вредоносные программы , оптическое распознавание символов и многое другое.
Например, в случае фильтрации спама:
Хотя большинство антиспамовых тактик могут блокировать или фильтровать большой процент нежелательных писем, сделать это без создания значительных ложноположительных результатов — гораздо более сложная задача. Низкое количество ложноотрицательных результатов является показателем эффективности фильтрации спама.
{{cite book}}
: CS1 maint: другие ( ссылка )