В распознавании образов , поиске информации , обнаружении и классификации объектов (машинное обучение) , точности и отзыве являются метриками производительности, которые применяются к данным, полученным из коллекции , корпуса или выборочного пространства .
Точность (также называемая положительной прогностической ценностью ) — это доля релевантных экземпляров среди полученных экземпляров. Записано в виде формулы:
Напомним (также известный как чувствительность ) — это доля релевантных экземпляров, которые были получены. Записано в виде формулы:
Таким образом, и точность, и отзыв основаны на релевантности .
Рассмотрим компьютерную программу распознавания собак ( соответствующего элемента) на цифровой фотографии. При обработке изображения, на котором изображены десять кошек и двенадцать собак, программа идентифицирует восемь собак. Из восьми элементов, идентифицированных как собаки, только пять на самом деле являются собаками ( истинно положительные результаты ), а остальные три — кошками ( ложно положительные результаты ). Семь собак были пропущены ( ложноотрицательные результаты ), а семь кошек были правильно исключены ( истинно отрицательные результаты ). В этом случае точность программы составляет 5/8 (истинные положительные результаты/выбранные элементы), а ее полнота – 5/12 (истинные положительные результаты/релевантные элементы).
Принятие подхода проверки гипотез , где в данном случае нулевая гипотеза заключается в том, что данный элемент не имеет значения (не собака), отсутствие ошибок типа I и типа II (идеальная специфичность и чувствительность ) соответствует соответственно идеальной точности (отсутствие ложных ошибок). положительных результатов) и идеальное запоминание (без ложноотрицательных результатов).
В более общем смысле, отзыв — это просто дополнение к частоте ошибок типа II (т. е. единица минус частота ошибок типа II). Точность связана с частотой ошибок типа I, но несколько более сложным образом, поскольку она также зависит от предварительного распределения появления релевантного и нерелевантного элемента.
Приведенный выше пример с кошкой и собакой содержал 8–5 = 3 ошибки типа I (ложноположительные результаты) из 10 общих кошек (истинно отрицательные результаты), при частоте ошибок типа I 3/10 и 12–5 = 7 ошибок типа II ( ложноотрицательные результаты), при частоте ошибок II рода 7/12. Точность можно рассматривать как меру качества, а полноту — как меру количества. Более высокая точность означает, что алгоритм возвращает больше релевантных результатов, чем нерелевантных, а высокая полнота означает, что алгоритм возвращает большую часть релевантных результатов (независимо от того, возвращаются ли также нерелевантные результаты).
В задаче классификации точность класса — это количество истинных положительных результатов (т. е. количество элементов, правильно помеченных как принадлежащих к положительному классу), деленное на общее количество элементов, помеченных как принадлежащие к положительному классу (т. е. сумма истинные срабатывания и ложные срабатывания , то есть элементы, неправильно помеченные как принадлежащие к классу). Напомним в этом контексте определяется как количество истинных положительных результатов, разделенное на общее количество элементов, которые фактически принадлежат к положительному классу (т.е. сумма истинных положительных и ложных отрицательных результатов , которые представляют собой элементы, которые не были помечены как принадлежащие к положительному классу). но должно было быть).
Точность и полнота не являются особенно полезными показателями, если использовать их изолированно. Например, можно добиться идеального запоминания, просто извлекая каждый элемент. Точно так же можно достичь идеальной точности, выбирая лишь очень небольшое количество наиболее вероятных элементов.
В задаче классификации показатель точности 1,0 для класса C означает, что каждый элемент, помеченный как принадлежащий классу C, действительно принадлежит классу C (но ничего не говорит о количестве элементов класса C, которые были помечены неправильно), тогда как отзыв 1,0 означает, что каждый предмет из класса C был помечен как принадлежащий классу C (но ничего не говорит о том, сколько предметов из других классов также были ошибочно помечены как принадлежащие к классу C).
Часто существует обратная зависимость между точностью и полнотой, когда можно увеличить одно за счет уменьшения другого, но контекст может диктовать, является ли одно более ценным в данной ситуации:
Детектор дыма обычно предназначен для совершения многих ошибок типа I (для оповещения во многих ситуациях, когда опасности нет), поскольку цена ошибки типа II (неспособность подать сигнал тревоги во время крупного пожара) непомерно высока. Таким образом, детекторы дыма разработаны с учетом возможности отзыва (чтобы уловить всю реальную опасность), даже при этом не принимая во внимание потери точности (и создавая много ложных срабатываний). С другой стороны, соотношение Блэкстоуна : «Лучше, чтобы десять виновных сбежали, чем пострадал один невиновный», подчеркивает цену ошибки первого рода (осуждение невиновного человека). Таким образом, система уголовного правосудия ориентирована на точность (не осуждение невиновных), даже ценой потери возможности отзыва (освобождение большего количества виновных).
Нейрохирург, удаляющий раковую опухоль из мозга пациента, также иллюстрирует компромиссы: хирургу необходимо удалить все опухолевые клетки, поскольку любые оставшиеся раковые клетки регенерируют опухоль. И наоборот, хирург не должен удалять здоровые клетки мозга, поскольку это приведет к нарушению функции мозга у пациента. Хирург может быть более либеральным в отношении удаляемой области мозга, чтобы гарантировать удаление всех раковых клеток. Это решение увеличивает отзыв, но снижает точность. С другой стороны, хирург может быть более консервативным в отношении удаляемых клеток мозга, чтобы гарантировать, что извлекаются только раковые клетки. Это решение повышает точность, но снижает отзыв. Другими словами, более глубокая память увеличивает шансы на удаление здоровых клеток (отрицательный результат) и увеличивает шансы на удаление всех раковых клеток (положительный результат). Большая точность снижает шансы на удаление здоровых клеток (положительный результат), но также снижает вероятность удаления всех раковых клеток (отрицательный результат).
Обычно показатели точности и полноты не обсуждаются изолированно. Кривая точности отзыва отображает точность как функцию отзыва; обычно точность снижается по мере увеличения полноты. В качестве альтернативы значения одной меры можно сравнить для фиксированного уровня другой меры (например, точность при уровне полноты 0,75 ) или оба объединить в одну меру. Примерами мер, которые представляют собой комбинацию точности и полноты, являются F-мера (взвешенное гармоническое среднее точности и полноты) или коэффициент корреляции Мэтьюза , который представляет собой среднее геометрическое всех вариантов, скорректированных на случайность: коэффициенты регрессии Информированность ( ДельтаП’) и маркированность (ДельтаП). [1] [2] Точность — это среднее арифметическое значение точности и обратной точности (взвешенное по смещению), а также средневзвешенное арифметическое значение отзыва и обратного отзыва (взвешенное по распространенности). [1] Обратная точность и обратный вызов — это просто точность и отзыв обратной задачи, в которой положительные и отрицательные метки меняются местами (как для реальных классов, так и для прогнозируемых меток). Истинная положительная скорость и ложная положительная скорость , или, что эквивалентно, отзыв и 1 - обратный отзыв, часто отображаются друг против друга в виде кривых ROC и обеспечивают принципиальный механизм для исследования компромиссов в рабочих точках. За пределами поиска информации применение отзыва, точности и F-меры считается ошибочным, поскольку они игнорируют истинно отрицательную ячейку таблицы непредвиденных обстоятельств и ими легко манипулировать, искажая прогнозы. [1] Первая проблема «решается» с использованием точности, а вторая проблема «решается» путем дисконтирования случайного компонента и перенормировки к каппе Коэна , но это больше не дает возможности исследовать компромиссы графически. Однако информированность и маркированность представляют собой каппа-подобные перенормировки отзыва и точности [3] , и их средний геометрический коэффициент корреляции Мэтьюза , таким образом, действует как смещенная F-мера.
Для задач классификации термины «истинно положительные» , «истинно отрицательные» , «ложноположительные» и «ложноотрицательные» сравнивают результаты тестируемого классификатора с доверенными внешними суждениями. Термины положительный и отрицательный относятся к прогнозу классификатора (иногда называемому ожиданием ), а термины истинный и ложный относятся к тому, соответствует ли этот прогноз внешнему суждению (иногда известному как наблюдение ).
Давайте определим эксперимент из P положительных экземпляров и N отрицательных экземпляров для некоторого условия. Четыре результата можно сформулировать в виде таблицы непредвиденных обстоятельств или матрицы путаницы 2×2 следующим образом:
Тогда точность и полнота определяются как: [12]
В этом контексте полнота также называется истинно положительной частотой или чувствительностью , а точность также называется положительной прогностической ценностью (PPV); другие связанные меры, используемые в классификации, включают истинно отрицательный уровень и точность . [12] Истинно отрицательный показатель также называется специфичностью .
И точность, и полнота могут быть полезны в случаях, когда данные несбалансированы. Тем не менее, может оказаться полезным установить приоритет одного метода над другим в тех случаях, когда результат ложноположительного или ложноотрицательного результата является дорогостоящим. Например, при медицинской диагностике ложноположительный результат теста может привести к ненужному лечению и расходам. В этой ситуации полезно ценить точность выше полноты. В других случаях цена ложноотрицательного результата высока. Например, цена ложноотрицательного результата при обнаружении мошенничества высока, поскольку неспособность обнаружить мошенническую транзакцию может привести к значительным финансовым потерям. [13]
Точность и полноту можно интерпретировать как (оценочные) условные вероятности : [14] Точность определяется как , а полнота определяется как , [15] где – прогнозируемый класс, а – фактический класс (т.е. означает, что фактический класс положителен). Обе величины, следовательно, связаны теоремой Байеса .
Вероятностная интерпретация позволяет легко определить, как будет работать классификатор без навыков. Классификаторы без навыков определяются тем свойством, что совместная вероятность представляет собой просто произведение безусловных вероятностей, поскольку классификация и наличие класса независимы .
Например, точность классификатора без навыков является просто константой , т.е. определяется вероятностью/частотой появления класса P.
Аналогичный аргумент можно привести и в отношении отзыва: какова вероятность положительной классификации.
Точность может быть вводящим в заблуждение показателем несбалансированных наборов данных. Рассмотрим образец с 95 отрицательными и 5 положительными значениями. Классификация всех значений как отрицательных в этом случае дает оценку точности 0,95. Есть много показателей, которые не страдают от этой проблемы. Например, сбалансированная точность [16] (bACC) нормализует истинно положительные и истинно отрицательные прогнозы по количеству положительных и отрицательных образцов соответственно и делит их сумму на два:
В предыдущем примере (95 отрицательных и 5 положительных образцов) классификация всех образцов как отрицательных дает 0,5 балла сбалансированной точности (максимальный балл bACC равен единице), что эквивалентно ожидаемому значению случайного предположения в сбалансированном наборе данных. Сбалансированная точность может служить общим показателем производительности модели независимо от того, несбалансированы ли истинные метки в данных, при условии, что стоимость FN такая же, как и FP.
TPR и FPR являются свойством данного классификатора, действующего при определенном пороге. Однако общее количество TP, FP и т. д. зависит от дисбаланса классов в данных через соотношение классов . Поскольку отзыв (или TPR) зависит только от положительных случаев, на него не влияет , но на точность влияет. У нас есть это
Таким образом, точность имеет явную зависимость от . [17] Начиная со сбалансированных классов при и постепенно уменьшаясь , соответствующая точность будет уменьшаться, поскольку знаменатель увеличивается.
Еще одним показателем является прогнозируемый процент положительных состояний (PPCR), который определяет процент помеченной популяции от общей численности населения. Например, для поисковой системы, которая возвращает 30 результатов (полученных документов) из 1 000 000 документов, PPCR составляет 0,003%.
По мнению Сайто и Ремсмайера, графики точного отзыва более информативны, чем графики ROC, при оценке бинарных классификаторов на несбалансированных данных. В таких сценариях графики ROC могут быть визуально обманчивы в отношении выводов о надежности классификации. [18]
В отличие от вышеописанных подходов, если масштабирование дисбаланса применяется непосредственно путем взвешивания элементов матрицы путаницы, стандартные определения показателей по-прежнему применяются даже в случае несбалансированных наборов данных. [19] Процедура взвешивания связывает элементы матрицы путаницы с набором поддержки каждого рассматриваемого класса.
Мерой, сочетающей в себе точность и полноту, является гармоническое среднее точности и полноты, традиционная F-мера или сбалансированный F-показатель:
Эта мера приблизительно равна среднему из двух, когда они близки, и в более общем смысле представляет собой среднее гармоническое , которое в случае двух чисел совпадает с квадратом среднего геометрического , разделенного на среднее арифметическое . Есть несколько причин, по которым F-показатель может подвергаться критике, в определенных обстоятельствах, из-за его предвзятости как показателя оценки. [1] Это также известно как мера, поскольку полнота и точность имеют одинаковый вес.
Это частный случай общей меры (для неотрицательных действительных значений ):
Двумя другими широко используемыми мерами являются мера, в которой вес больше, чем точность, и мера, в которой больше внимания уделяется точности, чем полноте.
F-мера была выведена ван Рейсбергеном (1979) так, что она «измеряет эффективность поиска по отношению к пользователю, который придает запоминанию в раз больше значения, чем точности». Он основан на показателе эффективности Ван Рейсбергена , второй член которого представляет собой взвешенное гармоническое среднее точности и полноты с весами . Их отношения вот где .
Существуют и другие параметры и стратегии для показателей производительности системы поиска информации, такие как площадь под кривой ROC (AUC) [20] или псевдо-R-квадрат .