stringtranslate.com

Точность и отзыв

Точность и отзыв

В распознавании образов , поиске информации , обнаружении и классификации объектов (машинное обучение) , точности и отзыве являются метриками производительности, которые применяются к данным, полученным из коллекции , корпуса или выборочного пространства .

Точность (также называемая положительной прогностической ценностью ) — это доля релевантных экземпляров среди полученных экземпляров. Записано в виде формулы:

Напомним (также известный как чувствительность ) — это доля релевантных экземпляров, которые были получены. Записано в виде формулы:

Таким образом, и точность, и отзыв основаны на релевантности .

Рассмотрим компьютерную программу распознавания собак ( соответствующего элемента) на цифровой фотографии. При обработке изображения, на котором изображены десять кошек и двенадцать собак, программа идентифицирует восемь собак. Из восьми элементов, идентифицированных как собаки, только пять на самом деле являются собаками (истинно положительные результаты), а остальные три — кошками (ложно положительные результаты). Семь собак были пропущены (ложноотрицательные результаты), а семь кошек были исключены правильно (истинноотрицательные результаты). В этом случае точность программы составляет 5/8 (истинные положительные результаты/выбранные элементы), а ее полнота – 5/12 (истинные положительные результаты/релевантные элементы).

Принятие подхода проверки гипотез на основе статистики, при котором в данном случае нулевая гипотеза заключается в том, что данный элемент не имеет значения (т. е. не собака), отсутствие ошибок типа I и типа II (т. е. идеальная специфичность и чувствительность 100 % каждый) соответствует соответственно идеальной точности (без ложноположительных результатов) и идеальному отзыву (без ложноотрицательных результатов).

В более общем смысле, отзыв — это просто дополнение к частоте ошибок типа II (т. е. единица минус частота ошибок типа II). Точность связана с частотой ошибок типа I, но несколько более сложным образом, поскольку она также зависит от предварительного распределения появления релевантного и нерелевантного элемента.

Приведенный выше пример с кошкой и собакой содержал 8–5 = 3 ошибки типа I (ложноположительные результаты) из 10 общих кошек (истинно отрицательные результаты), при частоте ошибок типа I 3/10 и 12–5 = 7 ошибок типа II ( ложноотрицательные результаты), при частоте ошибок II рода 7/12. Точность можно рассматривать как меру качества, а полноту — как меру количества. Более высокая точность означает, что алгоритм возвращает больше релевантных результатов, чем нерелевантных, а высокая полнота означает, что алгоритм возвращает большую часть релевантных результатов (независимо от того, возвращаются ли также нерелевантные результаты).

Введение

В задаче классификации точность класса — это количество истинных положительных результатов (т. е. количество элементов, правильно помеченных как принадлежащих к положительному классу), деленное на общее количество элементов, помеченных как принадлежащие к положительному классу (т. е. сумма истинные срабатывания и ложные срабатывания , то есть элементы, неправильно помеченные как принадлежащие к классу). Напомним в этом контексте определяется как количество истинных положительных результатов, разделенное на общее количество элементов, которые фактически принадлежат к положительному классу (т.е. сумма истинных положительных и ложных отрицательных результатов , которые представляют собой элементы, которые не были помечены как принадлежащие к положительному классу). но должно было быть).


Точность и полнота не являются особенно полезными показателями, если использовать их изолированно. Например, можно добиться идеального запоминания, просто извлекая каждый элемент. Точно так же можно добиться почти идеальной точности, выбрав лишь очень небольшое количество наиболее вероятных элементов.

В задаче классификации показатель точности 1,0 для класса C означает, что каждый элемент, помеченный как принадлежащий классу C, действительно принадлежит классу C (но ничего не говорит о количестве элементов класса C, которые были помечены неправильно), тогда как отзыв 1,0 означает, что каждый предмет из класса C был помечен как принадлежащий классу C (но ничего не говорит о том, сколько предметов из других классов также было неправильно помечено как принадлежащих к классу C).

Часто существует обратная зависимость между точностью и полнотой, когда можно увеличить одно за счет уменьшения другого. Хирургия головного мозга представляет собой наглядный пример компромисса. Представьте себе, что нейрохирург удаляет раковую опухоль из мозга пациента. Хирургу необходимо удалить все опухолевые клетки, поскольку оставшиеся раковые клетки регенерируют опухоль. И наоборот, хирург не должен удалять здоровые клетки головного мозга, поскольку это приведет к нарушению функции мозга у пациента. Хирург может быть более либеральным в отношении удаляемой области мозга, чтобы гарантировать удаление всех раковых клеток. Это решение увеличивает отзыв, но снижает точность. С другой стороны, хирург может быть более консервативным в отношении удаляемых клеток мозга, чтобы гарантировать, что извлекаются только раковые клетки. Это решение повышает точность, но уменьшает отзыв. Другими словами, более глубокая память увеличивает шансы на удаление здоровых клеток (отрицательный результат) и увеличивает шансы на удаление всех раковых клеток (положительный результат). Большая точность снижает шансы на удаление здоровых клеток (положительный результат), но также снижает вероятность удаления всех раковых клеток (отрицательный результат).

Обычно показатели точности и полноты не обсуждаются изолированно. Кривая точности отзыва отображает точность как функцию отзыва; обычно точность снижается по мере увеличения полноты. В качестве альтернативы, значения одной меры можно сравнить для фиксированного уровня другой меры (например, точность при уровне полноты 0,75 ) или оба объединить в одну меру. Примерами мер, которые представляют собой комбинацию точности и полноты, являются F-мера (взвешенное гармоническое среднее точности и полноты) или коэффициент корреляции Мэтьюза , который представляет собой среднее геометрическое всех вариантов, скорректированных на случайность: коэффициенты регрессии Информированность ( ДельтаП’) и маркированность (ДельтаП). [1] [2] Точность представляет собой среднее арифметическое значение точности и обратной точности (взвешенное по смещению), а также средневзвешенное арифметическое значение отзыва и обратного отзыва (взвешенное по распространенности). [1] Обратная точность и обратный вызов — это просто точность и отзыв обратной задачи, в которой положительные и отрицательные метки меняются местами (как для реальных классов, так и для прогнозируемых меток). Истинная положительная скорость и ложная положительная скорость , или, что эквивалентно, отзыв и 1 - обратный отзыв, часто отображаются друг против друга в виде кривых ROC и обеспечивают принципиальный механизм для исследования компромиссов в рабочих точках. Утверждается, что за пределами поиска информации применение отзыва, точности и F-меры ошибочно, поскольку они игнорируют истинно отрицательную ячейку таблицы непредвиденных обстоятельств и ими легко манипулировать, искажая прогнозы. [1] Первая проблема «решается» с использованием точности , а вторая проблема «решается» путем дисконтирования случайного компонента и перенормировки к каппе Коэна , но это больше не дает возможности исследовать компромиссы графически. Однако информированность и маркированность представляют собой каппа-подобные перенормировки отзыва и точности [3] , и их средний геометрический коэффициент корреляции Мэтьюза , таким образом, действует как смещенная F-мера.

Определение

Для задач классификации термины «истинно положительные» , «истинно отрицательные », «ложноположительные » и «ложноотрицательные » (определения см. в разделе « Ошибки типа I и типа II ») сравнивают результаты тестируемого классификатора с доверенными внешними суждениями. Термины положительный и отрицательный относятся к прогнозу классификатора (иногда называемому ожиданием ), а термины истинный и ложный относятся к тому, соответствует ли этот прогноз внешнему суждению (иногда известному как наблюдение ) .

Давайте определим эксперимент из P положительных экземпляров и N отрицательных экземпляров для некоторого условия. Четыре результата можно сформулировать в виде таблицы непредвиденных обстоятельств или матрицы путаницы 2×2 следующим образом:


Тогда точность и полнота определяются как: [23]

В этом контексте полнота также называется истинно положительной частотой или чувствительностью , а точность также называется положительной прогностической ценностью (PPV); другие связанные меры, используемые в классификации, включают истинно отрицательный уровень и точность . [23] Истинно отрицательный показатель также называется специфичностью .

Когда использовать точность вместо полноты

Оба они полезны в случаях, когда данные несбалансированы. Используйте точность, когда цена ложных срабатываний высока: в ситуациях, когда неправильная классификация экземпляра как положительного имеет серьезные последствия, точность является лучшим выбором. Например, в медицинской диагностике ошибочный диагноз заболевания у здорового человека может привести к ненужному лечению и затратам. Используйте отзыв, когда цена ложноотрицательных результатов высока: когда последствия ошибочной классификации экземпляра как отрицательного являются серьезными, отзыв является лучшим выбором. Например, при обнаружении мошенничества неспособность обнаружить мошенническую транзакцию может привести к значительным финансовым потерям. Это вопрос ценностей: кто-то может полагать, что здоровье требует большей точности, поскольку оно незаменимо, в то время как финансовой системе может потребоваться более высокая точность, поскольку несправедливое суждение может привести к непоправимым последствиям, таким как потеря работы, дома или даже привести к самоубийству.

Вероятностное определение

Точность и полноту можно интерпретировать как (оценочные) условные вероятности : [24] Точность определяется как , а полнота определяется как , [25] где – прогнозируемый класс, а – фактический класс (т.е. означает, что фактический класс положителен). Обе величины, следовательно, связаны теоремой Байеса .

Классификаторы без навыков

Вероятностная интерпретация позволяет легко определить, как будет работать классификатор без навыков. Классификаторы без навыков определяются тем свойством, что условная вероятность является просто произведением безусловных вероятностей, поскольку классификация и наличие класса независимы .

Например, точность классификатора без навыков является просто константой, т.е. определяется вероятностью/частотой появления класса P.

Аналогичный аргумент можно привести и в отношении отзыва: это всего лишь (обычно зависящая от порога) вероятность положительной классификации.

Некоторые очень специфические классификаторы, не требующие навыков, реализованы в sklearn и называются там фиктивными классификаторами. [26]

Несбалансированные данные

Точность может быть вводящим в заблуждение показателем несбалансированных наборов данных. Рассмотрим образец с 95 отрицательными и 5 положительными значениями. Классификация всех значений как отрицательных в этом случае дает оценку точности 0,95. Есть много показателей, которые не страдают от этой проблемы. Например, сбалансированная точность [27] (bACC) нормализует истинно положительные и истинно отрицательные прогнозы по количеству положительных и отрицательных образцов соответственно и делит их сумму на два:

В предыдущем примере (95 отрицательных и 5 положительных образцов) классификация всех образцов как отрицательных дает 0,5 балла сбалансированной точности (максимальный балл bACC равен единице), что эквивалентно ожидаемому значению случайного предположения в сбалансированном наборе данных. Сбалансированная точность может служить показателем общей производительности модели независимо от того, несбалансированы ли истинные метки в данных, при условии, что стоимость FN такая же, как и FP.

TPR и FPR являются свойством данного классификатора, действующего при определенном пороге. Однако общее количество TP, FP и т. д . зависит от дисбаланса классов в данных через соотношение классов . Поскольку отзыв (или TPR) зависит только от положительных случаев, на него не влияет , но на точность влияет. У нас есть это

Таким образом, точность имеет явную зависимость от . [28] Начиная со сбалансированных классов при и постепенно уменьшаясь , соответствующая точность будет уменьшаться, поскольку знаменатель увеличивается.

Еще одним показателем является прогнозируемый процент положительных состояний (PPCR), который определяет процент помеченной популяции от общей численности населения. Например, для поисковой системы, которая возвращает 30 результатов (полученных документов) из 1 000 000 документов, PPCR составляет 0,003%.

По мнению Сайто и Ремсмайера, графики точного отзыва более информативны, чем графики ROC, при оценке бинарных классификаторов на несбалансированных данных. В таких сценариях графики ROC могут быть визуально обманчивы в отношении выводов о надежности классификации. [29]

В отличие от вышеописанных подходов, если масштабирование дисбаланса применяется непосредственно путем взвешивания элементов матрицы путаницы, стандартные определения показателей по-прежнему применяются даже в случае несбалансированных наборов данных. [30] Процедура взвешивания связывает элементы матрицы путаницы с набором поддержки каждого рассматриваемого класса.


F-мера

Мерой, сочетающей в себе точность и полноту, является гармоническое среднее точности и полноты, традиционная F-мера или сбалансированный F-показатель:

Эта мера приблизительно равна среднему значению двух чисел, когда они близки, и в более общем смысле представляет собой среднее гармоническое , которое в случае двух чисел совпадает с квадратом среднего геометрического , разделенного на среднее арифметическое . Есть несколько причин, по которым F-показатель может подвергаться критике, в определенных обстоятельствах, из-за его предвзятости как показателя оценки. [1] Это также известно как мера, поскольку полнота и точность имеют одинаковый вес.

Это частный случай общей меры (для неотрицательных действительных значений  ):

Двумя другими часто используемыми мерами являются мера, в которой вес больше, чем точность, и мера , в которой больше внимания уделяется точности, чем полноте.

F-мера была выведена ван Рейсбергеном (1979) так, что она «измеряет эффективность поиска по отношению к пользователю, который придает запоминанию в раз больше значения, чем точности». Он основан на показателе эффективности Ван Рейсбергена , второй член которого представляет собой взвешенное гармоническое среднее точности и полноты с весами . Их отношения вот где .

Ограничения как цели

Существуют и другие параметры и стратегии для показателей производительности системы поиска информации, такие как площадь под кривой ROC (AUC) [31] или псевдо-R-квадрат .

Смотрите также

Рекомендации

  1. ^ abcd Powers, Дэвид М.В. (2011). «Оценка: от точности, отзыва и F-меры к ROC, информированности, маркированности и корреляции» (PDF) . Журнал технологий машинного обучения . 2 (1): 37–63. Архивировано из оригинала (PDF) 14 ноября 2019 г.
  2. ^ Перрюше, П.; Пиреман, Р. (2004). «Использование распределительной информации при обработке слогов». Ж. Нейролингвистика . 17 (2–3): 97–119. дои : 10.1016/s0911-6044(03)00059-9. S2CID  17104364.
  3. ^ Пауэрс, Дэвид М.В. (2012). «Проблема с Каппой». Конференция Европейского отделения Ассоциации компьютерной лингвистики (EACL2012) Совместный семинар ROBUS-UNSUP .
  4. ^ Балайла, Жак (2020). «Порог распространенности (φe) и геометрия кривых скрининга». ПЛОС ОДИН . 15 (10): e0240215. дои : 10.1371/journal.pone.0240215 . ПМИД  33027310.
  5. ^ Фосетт, Том (2006). «Введение в ROC-анализ» (PDF) . Буквы для распознавания образов . 27 (8): 861–874. doi :10.1016/j.patrec.2005.10.010. S2CID  2027090.
  6. ^ Пирионеси С. Маде; Эль-Дираби Тамер Э. (01 марта 2020 г.). «Анализ данных в управлении активами: экономически эффективное прогнозирование индекса состояния дорожного покрытия». Журнал инфраструктурных систем . 26 (1): 04019036. doi :10.1061/(ASCE)IS.1943-555X.0000512. S2CID  213782055.
  7. ^ Пауэрс, Дэвид М.В. (2011). «Оценка: от точности, отзыва и F-меры к ROC, информированности, маркированности и корреляции». Журнал технологий машинного обучения . 2 (1): 37–63.
  8. ^ Тинг, Кай Мин (2011). Саммут, Клод; Уэбб, Джеффри И. (ред.). Энциклопедия машинного обучения . Спрингер. дои : 10.1007/978-0-387-30164-8. ISBN 978-0-387-30164-8.
  9. ^ Брукс, Гарольд; Браун, Барб; Эберт, Бет; Ферро, Крис; Джоллифф, Ян; Ко, Тие-Ён; Роббер, Пол; Стивенсон, Дэвид (26 января 2015 г.). «Совместная рабочая группа ВПМИ/РГЧЭ по исследованиям по проверке прогнозов». Сотрудничество в области австралийских исследований погоды и климата . Всемирная метеорологическая организация . Проверено 17 июля 2019 г.
  10. ^ Чикко Д., Джурман Дж. (январь 2020 г.). «Преимущества коэффициента корреляции Мэтьюза (MCC) перед показателем F1 и точность оценки двоичной классификации». БМК Геномика . 21 (1): 6-1–6-13. дои : 10.1186/s12864-019-6413-7 . ПМК 6941312 . ПМИД  31898477. 
  11. Чикко Д., Тётч Н., Юрман Г. (февраль 2021 г.). «Коэффициент корреляции Мэтьюза (MCC) более надежен, чем сбалансированная точность, информированность букмекеров и выраженность при оценке двухклассовой матрицы путаницы». Добыча биоданных . 14 (13): 13. дои : 10.1186/s13040-021-00244-z . ПМЦ 7863449 . ПМИД  33541410. 
  12. ^ Тарват А. (август 2018 г.). «Классификация методов оценки». Прикладная вычислительная техника и информатика . 17 : 168–192. дои : 10.1016/j.aci.2018.08.003 .
  13. ^ Фосетт, Том (2006). «Введение в ROC-анализ» (PDF) . Буквы для распознавания образов . 27 (8): 861–874. Бибкод : 2006PaReL..27..861F. doi :10.1016/j.patrec.2005.10.010. S2CID  2027090.
  14. ^ Пирионеси С. Маде; Эль-Дираби Тамер Э. (01 марта 2020 г.). «Анализ данных в управлении активами: экономически эффективное прогнозирование индекса состояния дорожного покрытия». Журнал инфраструктурных систем . 26 (1): 04019036. doi :10.1061/(ASCE)IS.1943-555X.0000512. S2CID  213782055.
  15. ^ Пауэрс, Дэвид М.В. (2011). «Оценка: от точности, отзыва и F-меры к ROC, информированности, маркированности и корреляции». Журнал технологий машинного обучения . 2 (1): 37–63.
  16. ^ Тинг, Кай Мин (2011). Саммут, Клод; Уэбб, Джеффри И. (ред.). Энциклопедия машинного обучения . Спрингер. дои : 10.1007/978-0-387-30164-8. ISBN 978-0-387-30164-8.
  17. ^ Брукс, Гарольд; Браун, Барб; Эберт, Бет; Ферро, Крис; Джоллифф, Ян; Ко, Тие-Ён; Роббер, Пол; Стивенсон, Дэвид (26 января 2015 г.). «Совместная рабочая группа ВПМИ/РГЧЭ по исследованиям по проверке прогнозов». Сотрудничество в области австралийских исследований погоды и климата . Всемирная метеорологическая организация . Проверено 17 июля 2019 г.
  18. ^ Чикко Д.; Юрман Г. (январь 2020 г.). «Преимущества коэффициента корреляции Мэтьюза (MCC) перед показателем F1 и точность оценки двоичной классификации». БМК Геномика . 21 (1): 6-1–6-13. дои : 10.1186/s12864-019-6413-7 . ПМК 6941312 . ПМИД  31898477. 
  19. ^ Чикко Д.; Тётч Н.; Юрман Г. (февраль 2021 г.). «Коэффициент корреляции Мэтьюза (MCC) более надежен, чем сбалансированная точность, информированность букмекеров и выраженность при оценке двухклассовой матрицы путаницы». Добыча биоданных . 14 (13): 13. дои : 10.1186/s13040-021-00244-z . ПМЦ 7863449 . ПМИД  33541410. 
  20. ^ Чикко Д.; Джурман Г. (2023). «Коэффициент корреляции Мэтьюза (MCC) должен заменить ROC AUC в качестве стандартного показателя для оценки бинарной классификации». Добыча биоданных . 16 (1): 4. дои : 10.1186/s13040-023-00322-4 . ПМЦ 9938573 . ПМИД  36800973. 
  21. ^ Тарват А. (август 2018 г.). «Классификация методов оценки». Прикладная вычислительная техника и информатика . 17 : 168–192. дои : 10.1016/j.aci.2018.08.003 .
  22. ^ Балайла, Жак (2020). «Порог распространенности (φe) и геометрия кривых скрининга». ПЛОС ОДИН . 15 (10): e0240215. arXiv : 2006.00398 . Бибкод : 2020PLoSO..1540215B. дои : 10.1371/journal.pone.0240215 . ПМЦ 7540853 . ПМИД  33027310. 
  23. ^ Аб Олсон, Дэвид Л.; и Делен, Дурсун (2008); Advanced Data Mining Techniques , Springer, 1-е издание (1 февраля 2008 г.), стр. 138, ISBN 3-540-76916-1 
  24. ^ Фатих Какир, Кун Хе, Сиде Ся, Брайан Кулис, Стэн Скларофф, Глубокое метрическое обучение ранжированию, В Proc. Конференция IEEE по компьютерному зрению и распознаванию образов (CVPR), 2019.
  25. ^ Роеллеке, Томас (31 мая 2022 г.). Модели поиска информации: основы и отношения. Спрингер Природа. ISBN 978-3-031-02328-6.
  26. ^ "Sklearn.dummy.DummyClassifier" .
  27. ^ Мауэр, Джеффри П. (12 апреля 2005 г.). «PREP-Mt: предсказательный редактор РНК для митохондриальных генов растений». БМК Биоинформатика . 6:96 . дои : 10.1186/1471-2105-6-96 . ISSN  1471-2105. ПМЦ 1087475 . ПМИД  15826309. 
  28. ^ Уильямс, Кристофер КИ (01 апреля 2021 г.). «Влияние дисбаланса классов на кривые точности отзыва». Нейронные вычисления . 33 (4): 853–857. arXiv : 2007.01905 . дои : 10.1162/neco_a_01362. ISSN  0899-7667.
  29. ^ Сайто, Такая; Ремсмайер, Марк (04 марта 2015 г.). Брок, Гай (ред.). «График точного отзыва более информативен, чем график ROC при оценке двоичных классификаторов на несбалансированных наборах данных». ПЛОС ОДИН . 10 (3): e0118432. Бибкод : 2015PLoSO..1018432S. дои : 10.1371/journal.pone.0118432 . ISSN  1932-6203. ПМК 4349800 . ПМИД  25738806. 
    • Сюзанна Экелунд (март 2017 г.). «Кривые точности отзыва - что это такое и как они используются?». Тестирование неотложной помощи .
  30. ^ Трипиккио, Паоло; Камачо-Гонсалес, Херардо; Д'Авелла, Сальваторе (2020). «Выявление дефектов сварки: борьба с артефактами на производственной линии». Международный журнал передовых производственных технологий . 111 (5): 1659–1669. дои : 10.1007/s00170-020-06146-4. S2CID  225136860.
  31. ^ Зигмунт Зайонц. Что вы хотели знать о AUC. http://fastml.com/what-you-wanted-to-know-about-auc/

Внешние ссылки