В медицине и статистике чувствительность и специфичность математически описывают точность теста , который сообщает о наличии или отсутствии заболевания. Если люди, у которых есть это заболевание, считаются «положительными», а те, у кого его нет, считаются «отрицательными», то чувствительность является мерой того, насколько хорошо тест может выявлять истинно положительные результаты, а специфичность — это мера того, насколько хорошо тест может выявлять истинно отрицательные результаты. :
Если истинный статус заболевания неизвестен, чувствительность и специфичность можно определить относительно « теста золотого стандарта », который считается правильным. Для любого тестирования, как для диагностики , так и для скрининга , обычно существует компромисс между чувствительностью и специфичностью: более высокая чувствительность будет означать более низкую специфичность, и наоборот.
Тест, который надежно выявляет наличие заболевания и дает большое количество истинно положительных результатов и малое количество ложноотрицательных результатов, будет иметь высокую чувствительность. Это особенно важно, когда последствия отсутствия лечения заболевания являются серьезными и/или лечение очень эффективно и имеет минимальные побочные эффекты.
Тест, который надежно исключает лиц, у которых нет этого заболевания, что приводит к большому количеству истинно отрицательных результатов и низкому количеству ложноположительных результатов, будет иметь высокую специфичность. Это особенно важно, когда люди, у которых выявлено заболевание, могут подвергаться дополнительному тестированию, расходам, стигматизации, тревоге и т. д.
Термины «чувствительность» и «специфичность» были введены американским биостатистиком Джейкобом Йерушалми в 1947 году. [1]
В рамках лабораторного контроля качества существуют различные определения , где «аналитическая чувствительность» определяется как наименьшее количество вещества в образце, которое может быть точно измерено с помощью анализа (синоним предела обнаружения ), а «аналитическая специфичность» определяется как способность анализа для измерения одного конкретного организма или вещества, а не других. [12] Однако в этой статье речь идет о диагностической чувствительности и специфичности, как они определены выше.
Представьте себе исследование, оценивающее тест, проверяющий людей на наличие заболевания. Каждый человек, проходящий тест, либо страдает этим заболеванием, либо не страдает им. Результат теста может быть положительным (классифицируя человека как больного) или отрицательным (классифицируя человека как не страдающего заболеванием). Результаты теста для каждого субъекта могут соответствовать или не соответствовать фактическому статусу субъекта. В этой обстановке: [ нужна ссылка ]
После получения количества истинно положительных, ложно положительных, истинно отрицательных и ложно отрицательных результатов можно рассчитать чувствительность и специфичность теста. Если окажется, что чувствительность высока, то любой человек, у которого есть это заболевание, скорее всего, будет классифицирован как положительный по результатам теста. С другой стороны, если специфичность высока, любой человек, у которого нет заболевания, скорее всего, будет классифицирован тестом как отрицательный. На веб-сайте НИЗ есть обсуждение того, как рассчитываются эти коэффициенты. [13]
Рассмотрим пример медицинского теста для диагностики состояния. Чувствительность (иногда также называемая уровнем выявления в клинических условиях) относится к способности теста правильно выявлять больных пациентов среди тех, у кого действительно есть это заболевание. [14] Математически это можно выразить так:
Отрицательный результат теста с высокой чувствительностью может быть полезен для «исключения» заболевания [14] , поскольку он редко ставит ошибочный диагноз тем, у кого заболевание действительно есть. Тест со 100% чувствительностью позволит распознать всех пациентов с заболеванием при положительном результате теста. В этом случае отрицательный результат теста окончательно исключит наличие заболевания у пациента. Однако положительный результат теста с высокой чувствительностью не обязательно является основанием для «подтверждения» заболевания. Предположим, что «поддельный» тестовый набор спроектирован таким образом, чтобы всегда давать положительные результаты. При использовании на больных пациентах все пациенты получают положительный результат, что дает тесту 100% чувствительность. Однако чувствительность не учитывает ложные срабатывания. Фальшивый тест также дает положительный результат у всех здоровых пациентов, что дает процент ложноположительных результатов в 100%, что делает его бесполезным для обнаружения или «вынесения решения» о заболевании. [ нужна цитата ]
При расчете чувствительности не учитываются неопределенные результаты испытаний. Если тест невозможно повторить, неопределенные образцы либо должны быть исключены из анализа (количество исключений должно быть указано при указании чувствительности), либо могут рассматриваться как ложноотрицательные (что дает наихудшее значение чувствительности и, следовательно, может ее занижать). ). [ нужна цитата ]
Тест с более высокой чувствительностью имеет меньшую частоту ошибок второго рода .
Рассмотрим пример медицинского теста для диагностики заболевания. Специфичность относится к способности теста правильно отклонять тест от здоровых пациентов без каких-либо заболеваний. Математически это можно записать так:
Положительный результат теста с высокой специфичностью может быть полезен для «подтверждения» заболевания, поскольку тест редко дает положительные результаты у здоровых пациентов. [15] Тест со 100%-ной специфичностью позволит распознать всех пациентов без заболевания по отрицательному результату теста, поэтому положительный результат теста будет окончательно определять наличие заболевания. Однако отрицательный результат теста с высокой специфичностью не обязательно позволяет «исключить» заболевание. Например, тест, который всегда возвращает отрицательный результат, будет иметь специфичность 100 %, поскольку специфичность не учитывает ложноотрицательные результаты. Подобный тест даст отрицательный результат для пациентов с этим заболеванием, что сделает его бесполезным для «исключения» заболевания.
Тест с более высокой специфичностью имеет меньшую частоту ошибок I рода .
Приведенная выше графическая иллюстрация призвана показать взаимосвязь между чувствительностью и специфичностью. Черная пунктирная линия в центре графика указывает на то, что чувствительность и специфичность одинаковы. При движении влево от черной пунктирной линии чувствительность увеличивается, достигая максимального значения 100% на линии А, а специфичность снижается. Чувствительность линии А составляет 100 %, поскольку в этот момент нет ложноотрицательных результатов, а это означает, что все отрицательные результаты теста являются истинно отрицательными. При движении вправо действует обратное: специфичность увеличивается, пока не достигает линии B и не становится 100%, а чувствительность снижается. Специфичность в строке B составляет 100%, поскольку количество ложноположительных результатов в этой строке равно нулю, что означает, что все положительные результаты теста являются истинно положительными.
Средняя сплошная линия на обоих рисунках, показывающих уровень чувствительности и специфичности, является точкой отсечения теста. Как описано ранее, перемещение этой линии приводит к компромиссу между уровнем чувствительности и специфичности. Левая часть этой линии содержит точки данных, которые тестируются ниже точки отсечения и считаются отрицательными (синие точки обозначают ложноотрицательные результаты (FN), белые точки — истинные отрицательные результаты (TN)). В правой части линии показаны точки данных, которые тестируются выше точки отсечения и считаются положительными (красные точки обозначают ложные срабатывания (FP)). Каждая сторона содержит 40 точек данных.
На рисунке, показывающем высокую чувствительность и низкую специфичность, имеются 3 ФН и 8 ФП. Используя тот факт, что положительные результаты = истинные положительные результаты (ТП) + FP, получаем TP = положительные результаты - FP, или TP = 40 - 8 = 32. Число заболевших в наборе данных равно TP + FN, или 32 + 3 = 35. Таким образом, чувствительность составляет 32/35 = 91,4%. Используя тот же метод, получаем TN = 40 - 3 = 37, а количество здоровых людей 37 + 8 = 45, что дает специфичность 37/45 = 82,2 %.
На рисунке, показывающем низкую чувствительность и высокую специфичность, имеется 8 ФН и 3 ФП. Используя тот же метод, что и предыдущий рисунок, получаем ТП = 40 – 3 = 37. Число заболевших составляет 37 + 8 = 45, что дает чувствительность 37/45 = 82,2 %. Их 40 – 8 = 32 ТН. Таким образом, специфичность составляет 32/35 = 91,4%.
Красная точка указывает на пациента с заболеванием. Красный фон указывает на область, в которой тест прогнозирует, что точка данных будет положительной. Истинно положительный результат на этом рисунке равен 6, а ложноотрицательный — 0 (поскольку все положительные условия правильно прогнозируются как положительные). Поэтому чувствительность 100% (от 6/(6+0) ). Эта ситуация также проиллюстрирована на предыдущем рисунке, где пунктирная линия находится в позиции A (левая часть прогнозируется моделью как отрицательная, правая часть прогнозируется моделью как положительная). Когда пунктирная линия, граница теста, находится в положении A, тест правильно предсказывает всю совокупность истинно положительного класса, но он не сможет правильно идентифицировать точку данных из истинно отрицательного класса.
Как и на ранее объясненном рисунке, красная точка обозначает пациента с заболеванием. Однако в этом случае зеленый фон указывает на то, что тест прогнозирует отсутствие у всех пациентов данного заболевания. Тогда число истинно отрицательных точек данных составит 26, а количество ложноположительных результатов равно 0. Это приводит к 100% специфичности (от 26 / (26 + 0) ). Следовательно, чувствительность или специфичность сами по себе не могут использоваться для измерения эффективности теста.
В медицинской диагностике чувствительность теста — это способность теста правильно идентифицировать людей с заболеванием (истинно положительный показатель), тогда как специфичность теста — это способность теста правильно идентифицировать людей без заболевания (истинно отрицательный уровень). Если было проверено 100 пациентов с известным заболеванием и у 43 пациентов результат оказался положительным, то чувствительность теста составит 43%. Если протестировано 100 пациентов без каких-либо заболеваний, а 96 дают полностью отрицательный результат, то специфичность теста составляет 96%. Чувствительность и специфичность не зависят от распространенности теста, поскольку их значения являются неотъемлемой частью теста и не зависят от распространенности заболевания в интересующей популяции. [16] Положительные и отрицательные прогностические значения , но не чувствительность или специфичность, представляют собой значения, на которые влияет распространенность заболевания в тестируемой популяции. Эти концепции графически проиллюстрированы в этой прикладной байесовской клинической диагностической модели, которая показывает положительную и отрицательную прогностическую ценность в зависимости от распространенности, чувствительности и специфичности.
Часто утверждают, что высокоспецифичный тест эффективен для исключения заболевания, если он положительный, тогда как высокочувствительный тест считается эффективным для исключения заболевания, если он отрицательный. [17] [18] Это привело к широко используемой мнемонике SPPIN и SNNOUT, согласно которой высокоспецифичный тест при положительном результате определяет заболевание (SP-P- IN ), а высокочувствительный тест , когда n отрицательный, исключает заболевание (SN-N-OUT). Однако оба эмпирических правила вводят в заблуждение, поскольку диагностическая эффективность любого теста определяется распространенностью тестируемого состояния, чувствительностью теста и его специфичностью. [19] [20] [21] Мнемоника SNNOUT имеет некоторую обоснованность, когда распространенность рассматриваемого состояния в тестируемой выборке чрезвычайно низка.
Компромисс между специфичностью и чувствительностью исследуется в ROC-анализе как компромисс между TPR и FPR (то есть отзывом и последствиями ). [22] Придание им одинакового веса оптимизирует информированность = специфичность + чувствительность – 1 = TPR – FPR, величина которого дает вероятность принятия обоснованного решения между двумя классами (> 0 представляет собой надлежащее использование информации, 0 представляет эффективность на уровне шансов). , < 0 представляет собой неправильное использование информации). [23]
Индекс чувствительности или d' (произносится как «ди-простой») — это статистика , используемая в теории обнаружения сигналов . Он обеспечивает разделение между средствами распределения сигнала и шума по сравнению со стандартным отклонением распределения шума. Для нормально распределенного сигнала и шума со средними и стандартными отклонениями и , и , соответственно, d' определяется как:
Оценку d' можно также получить на основе измерений частоты попаданий и частоты ложных тревог . Он рассчитывается как:
где функция Z ( p ), p ∈ [0, 1], является обратной кумулятивному распределению Гаусса .
d' — безразмерная статистика . Более высокий d' указывает на то, что сигнал легче обнаружить.
Взаимосвязь между чувствительностью, специфичностью и подобными терминами можно понять, используя следующую таблицу. Рассмотрим группу с P положительными и N отрицательными экземплярами некоторого условия. Четыре результата можно сформулировать в виде таблицы непредвиденных обстоятельств или матрицы путаницы 2×2 , а также вывести несколько показателей с использованием этих четырех результатов, а именно:
Связанные расчеты
Этот гипотетический скрининговый тест (анализ кала на скрытую кровь) правильно выявил две трети (66,7%) пациентов с колоректальным раком. [a] К сожалению, учет показателей распространенности показывает, что этот гипотетический тест имеет высокий уровень ложноположительных результатов и не позволяет надежно выявлять колоректальный рак в общей популяции бессимптомных людей (PPV = 10%).
С другой стороны, этот гипотетический тест демонстрирует очень точное выявление лиц, свободных от рака (NPV ≈ 99,5%). Таким образом, при рутинном скрининге колоректального рака у бессимптомных взрослых отрицательный результат дает важную информацию для пациента и врача, например, исключает рак как причину желудочно-кишечных симптомов или успокаивает пациентов, обеспокоенных развитием колоректального рака.
Значения чувствительности и специфичности сами по себе могут вводить в заблуждение. Необходимо рассчитать чувствительность или специфичность «наихудшего случая», чтобы не полагаться на эксперименты с небольшим количеством результатов. Например, конкретный тест может легко показать 100% чувствительность, если его протестировать на соответствие золотому стандарту четыре раза, но один дополнительный тест на соответствие золотому стандарту, давший плохой результат, будет означать чувствительность только 80%. Распространенный способ сделать это — указать доверительный интервал биномиальной пропорции , часто рассчитываемый с использованием интервала оценки Вильсона.
Можно рассчитать доверительные интервалы чувствительности и специфичности, определяя диапазон значений, в пределах которого находится правильное значение при заданном уровне достоверности (например, 95%). [37]
В поиске информации положительная прогностическая ценность называется точностью , а чувствительность — отзывом . В отличие от компромисса между специфичностью и чувствительностью, эти показатели не зависят от количества истинных отрицательных результатов, которое обычно неизвестно и намного превышает фактическое количество соответствующих и полученных документов. Такое предположение об очень большом количестве истинно отрицательных результатов по сравнению с положительными редко встречается в других приложениях. [23]
F -показатель можно использовать как единственный показатель эффективности теста для положительного класса. F-оценка — это среднее гармоническое значение точности и полноты:
На традиционном языке проверки статистических гипотез чувствительность теста называется статистической мощностью теста, хотя слово « мощность» в этом контексте имеет более общее значение, которое неприменимо в данном контексте. Чувствительный тест будет иметь меньше ошибок второго рода .