В медицине и статистике чувствительность и специфичность математически описывают точность теста, который сообщает о наличии или отсутствии медицинского состояния. Если люди, у которых есть состояние, считаются «положительными», а те, у кого его нет, считаются «отрицательными», то чувствительность является мерой того, насколько хорошо тест может определять истинно положительные результаты, а специфичность является мерой того, насколько хорошо тест может определять истинно отрицательные результаты:
Если истинный статус состояния не может быть известен, чувствительность и специфичность могут быть определены относительно « теста золотого стандарта », который предполагается правильным. Для всех тестов, как диагностических , так и скрининговых , обычно существует компромисс между чувствительностью и специфичностью, так что более высокая чувствительность будет означать более низкую специфичность и наоборот.
Тест, который надежно определяет наличие состояния, приводя к большому числу истинно положительных результатов и малому числу ложноотрицательных, будет иметь высокую чувствительность. Это особенно важно, когда последствия отсутствия лечения состояния серьезны и/или лечение очень эффективно и имеет минимальные побочные эффекты.
Тест, который надежно исключает людей, не имеющих заболевания, что приводит к высокому числу истинно отрицательных результатов и низкому числу ложноположительных, будет иметь высокую специфичность. Это особенно важно, когда люди, у которых определено наличие заболевания, могут подвергаться большему количеству тестов, расходов, стигматизации, беспокойства и т. д.
Термины «чувствительность» и «специфичность» были введены американским биостатистиком Джейкобом Йерушалми в 1947 году. [1]
Существуют различные определения в контроле качества лабораторий , где «аналитическая чувствительность» определяется как наименьшее количество вещества в образце, которое может быть точно измерено с помощью анализа (синоним предела обнаружения ), а «аналитическая специфичность» определяется как способность анализа измерять один конкретный организм или вещество, а не другие. [2] Однако в этой статье рассматриваются диагностическая чувствительность и специфичность, как определено выше.
Представьте себе исследование, оценивающее тест, который проверяет людей на наличие заболевания. Каждый человек, проходящий тест, либо имеет, либо не имеет заболевание. Результат теста может быть положительным (классифицируя человека как имеющего заболевание) или отрицательным (классифицируя человека как не имеющего заболевания). Результаты теста для каждого субъекта могут соответствовать или не соответствовать фактическому статусу субъекта. В этой обстановке:
После получения числа истинно положительных, ложноположительных, истинно отрицательных и ложноотрицательных результатов можно рассчитать чувствительность и специфичность теста. Если окажется, что чувствительность высока, то любой человек, у которого есть заболевание, скорее всего, будет классифицирован тестом как положительный. С другой стороны, если специфичность высока, то любой человек, у которого нет заболевания, скорее всего, будет классифицирован тестом как отрицательный. На веб-сайте NIH обсуждается, как рассчитываются эти коэффициенты. [3]
Рассмотрим пример медицинского теста для диагностики состояния. Чувствительность (иногда также называемая показателем обнаружения в клинических условиях) относится к способности теста правильно определять больных пациентов среди тех, у кого есть это состояние. [4] Математически это можно выразить как:
Отрицательный результат теста с высокой чувствительностью может быть полезен для «исключения» заболевания [4], поскольку он редко ошибочно диагностирует тех, у кого оно есть. Тест со 100% чувствительностью распознает всех пациентов с заболеванием, давая положительный результат. В этом случае отрицательный результат теста окончательно исключит наличие заболевания у пациента. Однако положительный результат теста с высокой чувствительностью не обязательно полезен для «постановления» о наличии заболевания. Предположим, что «поддельный» набор для тестирования разработан так, чтобы всегда давать положительный результат. При использовании на больных пациентах все пациенты дают положительный результат, что дает тесту 100% чувствительность. Однако чувствительность не учитывает ложноположительные результаты. Поддельный тест также дает положительный результат у всех здоровых пациентов, что дает ему 100% ложноположительный показатель, что делает его бесполезным для обнаружения или «постановления» о наличии заболевания.
Расчет чувствительности не учитывает неопределенные результаты теста. Если тест не может быть повторен, неопределенные образцы должны быть либо исключены из анализа (количество исключений должно быть указано при указании чувствительности), либо могут рассматриваться как ложноотрицательные (что дает наихудшее значение для чувствительности и, следовательно, может ее занижать).
Тест с более высокой чувствительностью имеет более низкий уровень ошибок второго типа .
Рассмотрим пример медицинского теста для диагностики заболевания. Специфичность относится к способности теста правильно отвергать здоровых пациентов без заболевания. Математически это можно записать так:
Положительный результат теста с высокой специфичностью может быть полезен для «исключения» заболевания, поскольку тест редко дает положительные результаты у здоровых пациентов. [5] Тест со 100% специфичностью распознает всех пациентов без заболевания, давая отрицательный результат, поэтому положительный результат теста будет окончательно определять наличие заболевания. Однако отрицательный результат теста с высокой специфичностью не обязательно полезен для «исключения» заболевания. Например, тест, который всегда возвращает отрицательный результат теста, будет иметь специфичность 100%, поскольку специфичность не учитывает ложноотрицательные результаты. Такой тест даст отрицательный результат для пациентов с заболеванием, что делает его бесполезным для «исключения» заболевания.
Тест с более высокой специфичностью имеет более низкий уровень ошибок первого рода .
Графическая иллюстрация выше призвана показать связь между чувствительностью и специфичностью. Черная пунктирная линия в центре графика — это место, где чувствительность и специфичность одинаковы. При перемещении влево от черной пунктирной линии чувствительность увеличивается, достигая максимального значения 100% на линии A, а специфичность уменьшается. Чувствительность на линии A составляет 100%, потому что в этой точке нет ложноотрицательных результатов, что означает, что все отрицательные результаты теста являются истинно отрицательными. При перемещении вправо применяется противоположное, специфичность увеличивается, пока не достигнет линии B и не станет 100%, а чувствительность уменьшается. Специфичность на линии B составляет 100%, потому что количество ложноположительных результатов на этой линии равно нулю, что означает, что все положительные результаты теста являются истинно положительными.
Средняя сплошная линия на обоих рисунках выше, которая показывает уровень чувствительности и специфичности, является точкой отсечения теста. Как было описано ранее, перемещение этой линии приводит к компромиссу между уровнем чувствительности и специфичности. Левая сторона этой линии содержит точки данных, которые тестируются ниже точки отсечения и считаются отрицательными (синие точки указывают на ложноотрицательные результаты (FN), белые точки — на истинноотрицательные результаты (TN)). Правая сторона линии показывает точки данных, которые тестируются выше точки отсечения и считаются положительными (красные точки указывают на ложноположительные результаты (FP)). Каждая сторона содержит 40 точек данных.
Для рисунка, который показывает высокую чувствительность и низкую специфичность, есть 3 FN и 8 FP. Используя тот факт, что положительные результаты = истинно положительные (TP) + FP, мы получаем TP = положительные результаты - FP, или TP = 40 - 8 = 32. Количество больных людей в наборе данных равно TP + FN, или 32 + 3 = 35. Таким образом, чувствительность составляет 32 / 35 = 91,4%. Используя тот же метод, мы получаем TN = 40 - 3 = 37, а количество здоровых людей 37 + 8 = 45, что приводит к специфичности 37 / 45 = 82,2 %.
Для рисунка, показывающего низкую чувствительность и высокую специфичность, есть 8 FN и 3 FP. Используя тот же метод, что и для предыдущего рисунка, получаем TP = 40 - 3 = 37. Количество больных составляет 37 + 8 = 45, что дает чувствительность 37 / 45 = 82,2%. Есть 40 - 8 = 32 TN. Таким образом, специфичность составляет 32 / 35 = 91,4%.
Красная точка обозначает пациента с заболеванием. Красный фон обозначает область, где тест предсказывает точку данных как положительную. Истинно положительное на этом рисунке равно 6, а ложноотрицательное — 0 (потому что все положительные состояния правильно предсказаны как положительные). Таким образом, чувствительность составляет 100% (из 6 / (6 + 0) ). Эта ситуация также проиллюстрирована на предыдущем рисунке, где пунктирная линия находится в позиции A (левая сторона предсказана моделью как отрицательная, правая сторона предсказана моделью как положительная). Когда пунктирная линия, линия отсечения теста, находится в позиции A, тест правильно предсказывает всю популяцию истинно положительного класса, но он не сможет правильно идентифицировать точку данных из истинно отрицательного класса.
Подобно ранее объясненному рисунку, красная точка указывает на пациента с заболеванием. Однако в этом случае зеленый фон указывает на то, что тест предсказывает, что все пациенты свободны от заболевания. Количество точек данных, которые являются истинно отрицательными, тогда равно 26, а количество ложноположительных равно 0. Это приводит к 100% специфичности (из 26 / (26 + 0) ). Поэтому чувствительность или специфичность сами по себе не могут использоваться для измерения производительности теста.
В медицинской диагностике чувствительность теста — это способность теста правильно идентифицировать тех, у кого есть заболевание (истинно положительный результат), тогда как специфичность теста — это способность теста правильно идентифицировать тех, у кого нет заболевания (истинно отрицательный результат). Если 100 пациентов, у которых известно, что есть заболевание, были протестированы, и 43 из них дали положительный результат, то тест имеет чувствительность 43%. Если 100 пациентов без заболевания были протестированы, и 96 дали полностью отрицательный результат, то тест имеет специфичность 96%. Чувствительность и специфичность являются характеристиками теста, не зависящими от распространенности, поскольку их значения присущи тесту и не зависят от распространенности заболевания в интересующей популяции. [6] Положительные и отрицательные прогностические значения , но не чувствительность или специфичность, являются значениями, на которые влияет распространенность заболевания в тестируемой популяции. Эти концепции графически проиллюстрированы в этом апплете байесовской клинической диагностической модели, которая показывает положительные и отрицательные прогностические значения как функцию распространенности, чувствительности и специфичности.
Часто утверждается, что высокоспецифичный тест эффективен при определении заболевания, если он положительный, в то время как высокочувствительный тест считается эффективным при исключении заболевания, если он отрицательный. [7] [8] Это привело к широко используемым мнемоническим правилам SPPIN и SNNOUT, согласно которым высокоспецифичный тест , если он положительный , определяет заболевание (SP-P-IN), а высокочувствительный тест , если он отрицательный , исключает заболевание (SN-N-OUT). Оба эмпирических правила, однако, вводят в заблуждение, поскольку диагностическая сила любого теста определяется распространенностью проверяемого состояния, чувствительностью теста и его специфичностью. [9] [10] [11] Мнемоника SNNOUT имеет некоторую достоверность, когда распространенность рассматриваемого состояния крайне низка в тестируемой выборке.
Компромисс между специфичностью и чувствительностью исследуется в ROC-анализе как компромисс между TPR и FPR (то есть отзывом и выпадением ). [12] Придание им одинакового веса оптимизирует информированность = специфичность + чувствительность − 1 = TPR − FPR, величина которой дает вероятность принятия обоснованного решения между двумя классами (> 0 представляет собой надлежащее использование информации, 0 представляет собой случайное выполнение, < 0 представляет собой неправильное использование информации). [13]
Индекс чувствительности или d′ (произносится как «ди-прим») — это статистика , используемая в теории обнаружения сигналов . Он обеспечивает разделение между средними значениями распределения сигнала и шума по сравнению со стандартным отклонением распределения шума. Для нормально распределенных сигнала и шума со средним значением и стандартным отклонением и , и и , соответственно, d′ определяется как:
Оценку d′ можно также получить из измерений частоты попаданий и частоты ложных тревог . Она рассчитывается как:
где функция Z ( p ), p ∈ [0, 1], является обратной функцией кумулятивного гауссовского распределения .
d′ — безразмерная статистика. Более высокое значение d′ указывает на то, что сигнал легче обнаружить.
Связь между чувствительностью, специфичностью и подобными терминами можно понять с помощью следующей таблицы. Рассмотрим группу с P положительными случаями и N отрицательными случаями некоторого состояния. Четыре результата можно сформулировать в виде таблицы сопряженности 2×2 или матрицы путаницы , а также вывести несколько метрик с использованием четырех результатов, как указано ниже:
Сопутствующие расчеты
Этот гипотетический скрининговый тест (анализ кала на скрытую кровь) правильно выявил две трети (66,7%) пациентов с колоректальным раком. [a] К сожалению, учет показателей распространенности показывает, что этот гипотетический тест имеет высокий уровень ложноположительных результатов и не позволяет надежно выявить колоректальный рак среди общей популяции бессимптомных людей (PPV = 10%).
С другой стороны, этот гипотетический тест демонстрирует очень точное выявление лиц без рака (NPV ≈ 99,5%). Поэтому при использовании для рутинного скрининга колоректального рака у бессимптомных взрослых отрицательный результат предоставляет важные данные для пациента и врача, такие как исключение рака как причины желудочно-кишечных симптомов или успокоение пациентов, обеспокоенных развитием колоректального рака.
Значения чувствительности и специфичности сами по себе могут быть крайне обманчивыми. Чувствительность или специфичность «худшего случая» должны быть рассчитаны, чтобы избежать зависимости от экспериментов с небольшим количеством результатов. Например, конкретный тест может легко показать 100% чувствительность, если протестировать его по золотому стандарту четыре раза, но один дополнительный тест по золотому стандарту, который дал плохой результат, будет означать чувствительность всего 80%. Обычный способ сделать это — указать доверительный интервал биномиальной пропорции , часто рассчитываемый с использованием интервала оценки Уилсона.
Можно рассчитать доверительные интервалы для чувствительности и специфичности, указав диапазон значений, в пределах которого находится правильное значение при заданном уровне достоверности (например, 95%). [26]
В информационном поиске положительная предсказательная ценность называется точностью , а чувствительность называется отзывом . В отличие от компромисса между специфичностью и чувствительностью, эти меры не зависят от количества истинно отрицательных результатов, которое, как правило, неизвестно и намного больше, чем фактическое количество соответствующих и извлеченных документов. Это предположение об очень большом количестве истинно отрицательных результатов по сравнению с положительными редко встречается в других приложениях. [13]
F -оценка может использоваться как единая мера производительности теста для положительного класса. F-оценка представляет собой гармоническое среднее значение точности и отзыва:
В традиционном языке статистической проверки гипотез чувствительность теста называется статистической мощностью теста, хотя слово мощность в этом контексте имеет более общее использование, которое неприменимо в данном контексте. Чувствительный тест будет иметь меньше ошибок типа II .
Подобно области поиска информации , в области исследования предсказания генов , количество истинно отрицательных результатов (не генов) в геномных последовательностях, как правило, неизвестно и намного больше, чем фактическое количество генов (истинно положительных результатов). Удобный и интуитивно понятный термин специфичность в этой области исследования часто использовался с математической формулой для точности и отзыва , как определено в биостатистике. Пара таким образом определенных специфичности (как положительное предсказательное значение) и чувствительности (истинно положительного показателя) представляют собой основные параметры, характеризующие точность алгоритмов предсказания генов. [27] [28] [29] [30] И наоборот, термин специфичность в смысле истинно отрицательного показателя будет иметь мало, если вообще будет, применения в области исследования анализа генома.