stringtranslate.com

Чувствительность и специфичность

Чувствительность и специфичность - Левая половина изображения с закрашенными точками представляет людей с заболеванием, тогда как правая половина изображения с пустыми точками представляет людей без заболевания. Круг представляет всех людей с положительным результатом теста.

В медицине и статистике чувствительность и специфичность математически описывают точность теста, который сообщает о наличии или отсутствии медицинского состояния. Если люди, у которых есть состояние, считаются «положительными», а те, у кого его нет, считаются «отрицательными», то чувствительность является мерой того, насколько хорошо тест может определять истинно положительные результаты, а специфичность является мерой того, насколько хорошо тест может определять истинно отрицательные результаты:

Если истинный статус состояния не может быть известен, чувствительность и специфичность могут быть определены относительно « теста золотого стандарта », который предполагается правильным. Для всех тестов, как диагностических , так и скрининговых , обычно существует компромисс между чувствительностью и специфичностью, так что более высокая чувствительность будет означать более низкую специфичность и наоборот.

Тест, который надежно определяет наличие состояния, приводя к большому числу истинно положительных результатов и малому числу ложноотрицательных, будет иметь высокую чувствительность. Это особенно важно, когда последствия отсутствия лечения состояния серьезны и/или лечение очень эффективно и имеет минимальные побочные эффекты.

Тест, который надежно исключает людей, не имеющих заболевания, что приводит к высокому числу истинно отрицательных результатов и низкому числу ложноположительных, будет иметь высокую специфичность. Это особенно важно, когда люди, у которых определено наличие заболевания, могут подвергаться большему количеству тестов, расходов, стигматизации, беспокойства и т. д.

Чувствительность и специфичность

Термины «чувствительность» и «специфичность» были введены американским биостатистиком Джейкобом Йерушалми в 1947 году. [1]

Существуют различные определения в контроле качества лабораторий , где «аналитическая чувствительность» определяется как наименьшее количество вещества в образце, которое может быть точно измерено с помощью анализа (синоним предела обнаружения ), а «аналитическая специфичность» определяется как способность анализа измерять один конкретный организм или вещество, а не другие. [2] Однако в этой статье рассматриваются диагностическая чувствительность и специфичность, как определено выше.

Заявка на скрининговое исследование

Представьте себе исследование, оценивающее тест, который проверяет людей на наличие заболевания. Каждый человек, проходящий тест, либо имеет, либо не имеет заболевание. Результат теста может быть положительным (классифицируя человека как имеющего заболевание) или отрицательным (классифицируя человека как не имеющего заболевания). Результаты теста для каждого субъекта могут соответствовать или не соответствовать фактическому статусу субъекта. В этой обстановке:

После получения числа истинно положительных, ложноположительных, истинно отрицательных и ложноотрицательных результатов можно рассчитать чувствительность и специфичность теста. Если окажется, что чувствительность высока, то любой человек, у которого есть заболевание, скорее всего, будет классифицирован тестом как положительный. С другой стороны, если специфичность высока, то любой человек, у которого нет заболевания, скорее всего, будет классифицирован тестом как отрицательный. На веб-сайте NIH обсуждается, как рассчитываются эти коэффициенты. [3]

Определение

Чувствительность

Рассмотрим пример медицинского теста для диагностики состояния. Чувствительность (иногда также называемая показателем обнаружения в клинических условиях) относится к способности теста правильно определять больных пациентов среди тех, у кого есть это состояние. [4] Математически это можно выразить как:

Отрицательный результат теста с высокой чувствительностью может быть полезен для «исключения» заболевания [4], поскольку он редко ошибочно диагностирует тех, у кого оно есть. Тест со 100% чувствительностью распознает всех пациентов с заболеванием, давая положительный результат. В этом случае отрицательный результат теста окончательно исключит наличие заболевания у пациента. Однако положительный результат теста с высокой чувствительностью не обязательно полезен для «постановления» о наличии заболевания. Предположим, что «поддельный» набор для тестирования разработан так, чтобы всегда давать положительный результат. При использовании на больных пациентах все пациенты дают положительный результат, что дает тесту 100% чувствительность. Однако чувствительность не учитывает ложноположительные результаты. Поддельный тест также дает положительный результат у всех здоровых пациентов, что дает ему 100% ложноположительный показатель, что делает его бесполезным для обнаружения или «постановления» о наличии заболевания.

Расчет чувствительности не учитывает неопределенные результаты теста. Если тест не может быть повторен, неопределенные образцы должны быть либо исключены из анализа (количество исключений должно быть указано при указании чувствительности), либо могут рассматриваться как ложноотрицательные (что дает наихудшее значение для чувствительности и, следовательно, может ее занижать).

Тест с более высокой чувствительностью имеет более низкий уровень ошибок второго типа .

Специфичность

Рассмотрим пример медицинского теста для диагностики заболевания. Специфичность относится к способности теста правильно отвергать здоровых пациентов без заболевания. Математически это можно записать так:

Положительный результат теста с высокой специфичностью может быть полезен для «исключения» заболевания, поскольку тест редко дает положительные результаты у здоровых пациентов. [5] Тест со 100% специфичностью распознает всех пациентов без заболевания, давая отрицательный результат, поэтому положительный результат теста будет окончательно определять наличие заболевания. Однако отрицательный результат теста с высокой специфичностью не обязательно полезен для «исключения» заболевания. Например, тест, который всегда возвращает отрицательный результат теста, будет иметь специфичность 100%, поскольку специфичность не учитывает ложноотрицательные результаты. Такой тест даст отрицательный результат для пациентов с заболеванием, что делает его бесполезным для «исключения» заболевания.

Тест с более высокой специфичностью имеет более низкий уровень ошибок первого рода .

Графическая иллюстрация

Графическая иллюстрация выше призвана показать связь между чувствительностью и специфичностью. Черная пунктирная линия в центре графика — это место, где чувствительность и специфичность одинаковы. При перемещении влево от черной пунктирной линии чувствительность увеличивается, достигая максимального значения 100% на линии A, а специфичность уменьшается. Чувствительность на линии A составляет 100%, потому что в этой точке нет ложноотрицательных результатов, что означает, что все отрицательные результаты теста являются истинно отрицательными. При перемещении вправо применяется противоположное, специфичность увеличивается, пока не достигнет линии B и не станет 100%, а чувствительность уменьшается. Специфичность на линии B составляет 100%, потому что количество ложноположительных результатов на этой линии равно нулю, что означает, что все положительные результаты теста являются истинно положительными.

Средняя сплошная линия на обоих рисунках выше, которая показывает уровень чувствительности и специфичности, является точкой отсечения теста. Как было описано ранее, перемещение этой линии приводит к компромиссу между уровнем чувствительности и специфичности. Левая сторона этой линии содержит точки данных, которые тестируются ниже точки отсечения и считаются отрицательными (синие точки указывают на ложноотрицательные результаты (FN), белые точки — на истинноотрицательные результаты (TN)). Правая сторона линии показывает точки данных, которые тестируются выше точки отсечения и считаются положительными (красные точки указывают на ложноположительные результаты (FP)). Каждая сторона содержит 40 точек данных.

Для рисунка, который показывает высокую чувствительность и низкую специфичность, есть 3 FN и 8 FP. Используя тот факт, что положительные результаты = истинно положительные (TP) + FP, мы получаем TP = положительные результаты - FP, или TP = 40 - 8 = 32. Количество больных людей в наборе данных равно TP + FN, или 32 + 3 = 35. Таким образом, чувствительность составляет 32 / 35 = 91,4%. Используя тот же метод, мы получаем TN = 40 - 3 = 37, а количество здоровых людей 37 + 8 = 45, что приводит к специфичности 37 / 45 = 82,2 %.

Для рисунка, показывающего низкую чувствительность и высокую специфичность, есть 8 FN и 3 FP. Используя тот же метод, что и для предыдущего рисунка, получаем TP = 40 - 3 = 37. Количество больных составляет 37 + 8 = 45, что дает чувствительность 37 / 45 = 82,2%. Есть 40 - 8 = 32 TN. Таким образом, специфичность составляет 32 / 35 = 91,4%.

Красная точка обозначает пациента с заболеванием. Красный фон обозначает область, где тест предсказывает точку данных как положительную. Истинно положительное на этом рисунке равно 6, а ложноотрицательное — 0 (потому что все положительные состояния правильно предсказаны как положительные). Таким образом, чувствительность составляет 100% (из 6 / (6 + 0) ). Эта ситуация также проиллюстрирована на предыдущем рисунке, где пунктирная линия находится в позиции A (левая сторона предсказана моделью как отрицательная, правая сторона предсказана моделью как положительная). Когда пунктирная линия, линия отсечения теста, находится в позиции A, тест правильно предсказывает всю популяцию истинно положительного класса, но он не сможет правильно идентифицировать точку данных из истинно отрицательного класса.

Подобно ранее объясненному рисунку, красная точка указывает на пациента с заболеванием. Однако в этом случае зеленый фон указывает на то, что тест предсказывает, что все пациенты свободны от заболевания. Количество точек данных, которые являются истинно отрицательными, тогда равно 26, а количество ложноположительных равно 0. Это приводит к 100% специфичности (из 26 / (26 + 0) ). Поэтому чувствительность или специфичность сами по себе не могут использоваться для измерения производительности теста.

Медицинское использование

В медицинской диагностике чувствительность теста — это способность теста правильно идентифицировать тех, у кого есть заболевание (истинно положительный результат), тогда как специфичность теста — это способность теста правильно идентифицировать тех, у кого нет заболевания (истинно отрицательный результат). Если 100 пациентов, у которых известно, что есть заболевание, были протестированы, и 43 из них дали положительный результат, то тест имеет чувствительность 43%. Если 100 пациентов без заболевания были протестированы, и 96 дали полностью отрицательный результат, то тест имеет специфичность 96%. Чувствительность и специфичность являются характеристиками теста, не зависящими от распространенности, поскольку их значения присущи тесту и не зависят от распространенности заболевания в интересующей популяции. [6] Положительные и отрицательные прогностические значения , но не чувствительность или специфичность, являются значениями, на которые влияет распространенность заболевания в тестируемой популяции. Эти концепции графически проиллюстрированы в этом апплете байесовской клинической диагностической модели, которая показывает положительные и отрицательные прогностические значения как функцию распространенности, чувствительности и специфичности.

Заблуждения

Часто утверждается, что высокоспецифичный тест эффективен при определении заболевания, если он положительный, в то время как высокочувствительный тест считается эффективным при исключении заболевания, если он отрицательный. [7] [8] Это привело к широко используемым мнемоническим правилам SPPIN и SNNOUT, согласно которым высокоспецифичный тест , если он положительный , определяет заболевание (SP-P-IN), а высокочувствительный тест , если он отрицательный , исключает заболевание (SN-N-OUT). Оба эмпирических правила, однако, вводят в заблуждение, поскольку диагностическая сила любого теста определяется распространенностью проверяемого состояния, чувствительностью теста и его специфичностью. [9] [10] [11] Мнемоника SNNOUT имеет некоторую достоверность, когда распространенность рассматриваемого состояния крайне низка в исследуемой выборке.

Компромисс между специфичностью и чувствительностью исследуется в ROC-анализе как компромисс между TPR и FPR (то есть отзывом и выпадением ). [12] Придание им одинакового веса оптимизирует информированность = специфичность + чувствительность − 1 = TPR − FPR, величина которой дает вероятность принятия обоснованного решения между двумя классами (> 0 представляет собой надлежащее использование информации, 0 представляет собой случайное выполнение, < 0 представляет собой неправильное использование информации). [13]

Индекс чувствительности

Индекс чувствительности или d′ (произносится как «ди-прим») — это статистика , используемая в теории обнаружения сигналов . Он обеспечивает разделение между средними значениями распределения сигнала и шума по сравнению со стандартным отклонением распределения шума. Для нормально распределенных сигнала и шума со средним значением и стандартным отклонением и , и и , соответственно, d′ определяется как:

[14]

Оценку d′ можно также получить из измерений частоты попаданий и частоты ложных тревог . Она рассчитывается как:

d′ = Z (коэффициент срабатывания) − Z (коэффициент ложной тревоги), [15]

где функция Z ( p ), p ∈ [0, 1], является обратной функцией кумулятивного гауссовского распределения .

d′безразмерная статистика. Более высокое значение d′ указывает на то, что сигнал легче обнаружить.

Матрица путаницы

Связь между чувствительностью, специфичностью и подобными терминами можно понять с помощью следующей таблицы. Рассмотрим группу с P положительными случаями и N отрицательными случаями некоторого состояния. Четыре результата можно сформулировать в виде таблицы сопряженности 2×2 или матрицы путаницы , а также вывести несколько метрик с использованием четырех результатов, как указано ниже:

  1. ^ количество реальных положительных случаев в данных
  2. ^ Результат теста, который правильно указывает на наличие состояния или характеристики.
  3. ^ Ошибка типа II: результат теста, который ошибочно указывает на отсутствие определенного условия или атрибута.
  4. ^ количество реальных отрицательных случаев в данных
  5. ^ Результат теста, который правильно указывает на отсутствие состояния или характеристики.
  6. ^ Ошибка типа I: результат теста, который ошибочно указывает на наличие определенного состояния или атрибута.


Рабочий пример
Диагностический тест с чувствительностью 67% и специфичностью 91% применяется к 2030 людям для выявления расстройства с распространенностью в популяции 1,48%.

Сопутствующие расчеты

Этот гипотетический скрининговый тест (анализ кала на скрытую кровь) правильно выявил две трети (66,7%) пациентов с колоректальным раком. [a] К сожалению, учет показателей распространенности показывает, что этот гипотетический тест имеет высокий уровень ложноположительных результатов и не позволяет надежно выявить колоректальный рак среди общей популяции бессимптомных людей (PPV = 10%).

С другой стороны, этот гипотетический тест демонстрирует очень точное выявление лиц без рака (NPV ≈ 99,5%). Поэтому при использовании для рутинного скрининга колоректального рака у бессимптомных взрослых отрицательный результат предоставляет важные данные для пациента и врача, такие как исключение рака как причины желудочно-кишечных симптомов или успокоение пациентов, обеспокоенных развитием колоректального рака.

Оценка ошибок в указанной чувствительности или специфичности

Значения чувствительности и специфичности сами по себе могут быть крайне обманчивыми. Чувствительность или специфичность «худшего случая» должны быть рассчитаны, чтобы избежать зависимости от экспериментов с небольшим количеством результатов. Например, конкретный тест может легко показать 100% чувствительность, если протестировать его по золотому стандарту четыре раза, но один дополнительный тест по золотому стандарту, который дал плохой результат, будет означать чувствительность всего 80%. Обычный способ сделать это — указать доверительный интервал биномиальной пропорции , часто рассчитываемый с использованием интервала оценки Уилсона.

Можно рассчитать доверительные интервалы для чувствительности и специфичности, указав диапазон значений, в пределах которого находится правильное значение при заданном уровне достоверности (например, 95%). [26]

Терминология в поиске информации

В информационном поиске положительная предсказательная ценность называется точностью , а чувствительность называется отзывом . В отличие от компромисса между специфичностью и чувствительностью, эти меры не зависят от количества истинно отрицательных результатов, которое, как правило, неизвестно и намного больше, чем фактическое количество соответствующих и извлеченных документов. Это предположение об очень большом количестве истинно отрицательных результатов по сравнению с положительными редко встречается в других приложениях. [13]

F -оценка может использоваться как единая мера производительности теста для положительного класса. F-оценка представляет собой гармоническое среднее значение точности и отзыва:

В традиционном языке статистической проверки гипотез чувствительность теста называется статистической мощностью теста, хотя слово мощность в этом контексте имеет более общее использование, которое неприменимо в данном контексте. Чувствительный тест будет иметь меньше ошибок типа II .

Терминология в геномном анализе

Подобно области поиска информации , в области исследования предсказания генов , количество истинно отрицательных результатов (не генов) в геномных последовательностях, как правило, неизвестно и намного больше, чем фактическое количество генов (истинно положительных результатов). Удобный и интуитивно понятный термин специфичность в этой области исследования часто использовался с математической формулой для точности и отзыва , как определено в биостатистике. Пара таким образом определенных специфичности (как положительное предсказательное значение) и чувствительности (истинно положительного показателя) представляют собой основные параметры, характеризующие точность алгоритмов предсказания генов. [27] [28] [29] [30] И наоборот, термин специфичность в смысле истинно отрицательного показателя будет иметь мало, если вообще будет, применения в области исследования анализа генома.

Смотрите также

Примечания

  1. ^ Все медицинские скрининговые тесты имеют свои преимущества и недостатки. Руководства по клинической практике , например, для скрининга колоректального рака, описывают эти риски и преимущества. [24] [25]

Ссылки

  1. ^ Yerushalmy J (1947). «Статистические проблемы оценки методов медицинской диагностики с особым упором на рентгеновские методы». Public Health Reports . 62 (2): 1432–39. doi :10.2307/4586294. JSTOR  4586294. PMID  20340527. S2CID  19967899.
  2. ^ Saah AJ, Hoover DR (1998). "[Пересмотр чувствительности и специфичности: значение терминов в аналитическом и диагностическом языке]". Ann Dermatol Venereol . 125 (4): 291–4. PMID  9747274.
  3. ^ Parikh R, Mathai A, Parikh S, Chandra Sekhar G, Thomas R (2008). «Понимание и использование чувствительности, специфичности и прогностических значений». Indian Journal of Ophthalmology . 56 (1): 45–50. doi : 10.4103/0301-4738.37595 . PMC 2636062. PMID  18158403 . 
  4. ^ ab Altman DG, Bland JM (июнь 1994 г.). «Диагностические тесты. 1: Чувствительность и специфичность». BMJ . 308 (6943): 1552. doi :10.1136/bmj.308.6943.1552. PMC 2540489 . PMID  8019315. 
  5. ^ "SpPin and SnNout". Центр доказательной медицины (CEBM) . Получено 18 января 2023 г.
  6. ^ Mangrulkar R. "Diagnostic Reasoning I and II". Архивировано из оригинала 1 августа 2011 года . Получено 24 января 2012 года .
  7. ^ "Evidence-Based Diagnosis". Университет штата Мичиган. Архивировано из оригинала 2013-07-06 . Получено 2013-08-23 .
  8. ^ «Чувствительность и специфичность». Курс доказательной медицины Медицинской школы Университета Эмори.
  9. ^ Baron JA (апрель–июнь 1994 г.). «Жаль, что это неправда». Medical Decision Making . 14 (2): 107. doi :10.1177/0272989X9401400202. PMID  8028462. S2CID  44505648.
  10. ^ Boyko EJ (апрель–июнь 1994 г.). «Исключение или решение о заболевании с помощью наиболее чувствительного или специфичного диагностического теста: короткий путь или неверный поворот?». Medical Decision Making . 14 (2): 175–9. doi :10.1177/0272989X9401400210. PMID  8028470. S2CID  31400167.
  11. ^ Pewsner D, Battaglia M, Minder C, Marx A, Bucher HC, Egger M (июль 2004 г.). «Утверждение или опровержение диагноза с помощью «SpPIn» и «SnNOut»: предостережение». BMJ . 329 (7459): 209–13. doi :10.1136/bmj.329.7459.209. PMC 487735 . PMID  15271832. 
  12. ^ Fawcett T (2006). «Введение в ROC-анализ». Pattern Recognition Letters . 27 (8): 861–874. Bibcode : 2006PaReL..27..861F. CiteSeerX 10.1.1.646.2144 . doi : 10.1016/j.patrec.2005.10.010. S2CID  2027090. 
  13. ^ ab Powers DM (2011). «Оценка: от точности, отзыва и F-меры до ROC, информированности, маркированности и корреляции». Журнал технологий машинного обучения . 2 (1): 37–63.
  14. ^ Гейл SD, Перкель DJ (январь 2010 г.). «Путь базальных ганглиев управляет селективными слуховыми реакциями дофаминергических нейронов певчих птиц посредством растормаживания». Журнал нейронауки . 30 (3): 1027–37. doi :10.1523/JNEUROSCI.3585-09.2010. PMC 2824341. PMID  20089911 . 
  15. ^ Macmillan NA, Creelman CD (15 сентября 2004 г.). Теория обнаружения: Руководство пользователя. Psychology Press. стр. 7. ISBN 978-1-4106-1114-7.
  16. ^ Fawcett T (2006). «Введение в ROC-анализ» (PDF) . Pattern Recognition Letters . 27 (8): 861–874. doi :10.1016/j.patrec.2005.10.010. S2CID  2027090.
  17. ^ Провост Ф., Том Фосетт (01.08.2013). «Наука о данных для бизнеса: что вам нужно знать о добыче данных и аналитическом мышлении». O'Reilly Media, Inc.
  18. ^ Powers DM (2011). «Оценка: от точности, полноты и F-меры до ROC, информированности, маркированности и корреляции». Журнал технологий машинного обучения . 2 (1): 37–63.
  19. ^ Ting KM (2011). Sammut C, Webb GI (ред.). Энциклопедия машинного обучения . Springer. doi :10.1007/978-0-387-30164-8. ISBN 978-0-387-30164-8.
  20. ^ Brooks H, Brown B, Ebert B, Ferro C, Jolliffe I, Koh TY, Roebber P, Stephenson D (2015-01-26). "WWRP/WGNE Joint Working Group on Forecast Verification Research". Collaboration for Australian Weather and Climate Research . Всемирная метеорологическая организация . Получено 17 июля 2019 г.
  21. ^ Chicco D, Jurman G (январь 2020 г.). «Преимущества коэффициента корреляции Мэтьюса (MCC) над оценкой F1 и точностью оценки бинарной классификации». BMC Genomics . 21 (1): 6-1–6-13. doi : 10.1186/s12864-019-6413-7 . PMC 6941312 . PMID  31898477. 
  22. ^ Chicco D, Toetsch N, Jurman G (февраль 2021 г.). «Коэффициент корреляции Мэтьюса (MCC) более надежен, чем сбалансированная точность, информированность букмекера и маркированность при оценке двухклассовой матрицы путаницы». BioData Mining . 14 (13): 13. doi : 10.1186/s13040-021-00244-z . PMC 7863449 . PMID  33541410. 
  23. ^ Tharwat A. (август 2018 г.). «Методы оценки классификации». Прикладная вычислительная техника и информатика . 17 : 168–192. doi : 10.1016/j.aci.2018.08.003 .
  24. ^ Lin JS, Piper MA, Perdue LA, Rutter CM, Webber EM, O'Connor E, Smith N, Whitlock EP (21 июня 2016 г.). «Скрининг колоректального рака». JAMA . 315 (23): 2576–2594. doi :10.1001/jama.2016.3332. ISSN  0098-7484. PMID  27305422.
  25. ^ Bénard F, Barkun AN, Martel M, Renteln Dv (7 января 2018 г.). «Систематический обзор рекомендаций по скринингу колоректального рака для взрослых со средним риском: обобщение текущих глобальных рекомендаций». World Journal of Gastroenterology . 24 (1): 124–138. doi : 10.3748/wjg.v24.i1.124 . PMC 5757117 . PMID  29358889. 
  26. ^ "Онлайн-калькулятор диагностических тестов вычисляет чувствительность, специфичность, отношения правдоподобия и прогностические значения из таблицы 2x2 – калькулятор доверительных интервалов для прогностических параметров". medcalc.org .
  27. ^ Burge C , Karlin S (1997). "Предсказание полных структур генов в геномной ДНК человека" (PDF) . Журнал молекулярной биологии . 268 (1): 78–94. CiteSeerX 10.1.1.115.3107 . doi :10.1006/jmbi.1997.0951. PMID  9149143. Архивировано из оригинала (PDF) 2015-06-20. 
  28. ^ "GeneMark-ES". Ломсадзе А (2005). «Поиск генов в новых геномах с помощью алгоритма самообучения». Nucleic Acids Research . 33 (20): 6494–6906. doi :10.1093/nar/gki937. PMC  1298918. PMID  16314312 .
  29. ^ Корф И (2004). «Поиск генов в новых геномах». BMC Bioinformatics . 5 : 59. doi : 10.1186/1471-2105-5-59 . PMC 421630. PMID  15144565 . 
  30. ^ Янделл М., Энс Д. (апрель 2012 г.). «Руководство для начинающих по аннотации эукариотических геномов». Nature Reviews. Genetics . 13 (5): 329–42. doi :10.1038/nrg3174. PMID  22510764. S2CID  3352427.

Дальнейшее чтение

Внешние ссылки