F-оценка

В статистическом анализе систем двоичной классификации и поиска информации F-показатель или F-мера является мерой эффективности прогнозирования. Он рассчитывается на основе точности и полноты теста, где точность представляет собой количество истинно положительных результатов, деленное на количество всех образцов, которые, по прогнозам, будут положительными, включая те, которые были идентифицированы неправильно, а отзыв представляет собой количество истинно положительных результатов. разделить на количество всех образцов, которые должны были быть идентифицированы как положительные. Точность также известна как положительная прогностическая ценность , а отзыв также известен как чувствительность в диагностической бинарной классификации.

Показатель F ₁ представляет собой среднее гармоническое значение точности и полноты. Таким образом, он симметрично представляет и точность, и полноту в одной метрике. Более общая оценка применяет дополнительные веса, оценивая одну точность или полноту больше, чем другую. $F_{\beta }$

Наивысшее возможное значение F-показателя равно 1,0, что указывает на идеальную точность и полноту, а наименьшее возможное значение равно 0, если точность и полнота равны нулю.

Этимология

Считается, что название F-мера названо в честь другой F-функции из книги Ван Рейсбергена, представленной на Четвертой конференции по пониманию сообщений (MUC-4, 1992). ^[1]

Определение

Традиционная F-мера или сбалансированная F-оценка ( оценка F ₁ ) представляет собой гармоническое среднее значение точности и полноты: ^[2]

F_{1}={\frac {2}{\mathrm {recall} ^{-1}+\mathrm {precision} ^{-1}}}=2{\frac {\mathrm {precision} \ cdot \mathrm {recall} }{\mathrm {precision} +\mathrm {recall} }}={\frac {2\mathrm {tp} {2\mathrm {tp} +\mathrm {fp} +\mathrm { фн} }}

Оценка F β

Более общий показатель F, в котором используется положительный реальный коэффициент , выбранный таким образом, что отзыв считается в несколько раз более важным, чем точность, следующий: $F_{\beta }$ $\бета$ $\бета$ $\бета$

F_{\beta }=(1+\beta ^{2})\cdot {\frac {\mathrm {precision} \cdot \mathrm {recall} }{(\beta ^{2}\cdot \mathrm {точность} )+\mathrm {отзыв} }}

Что касается ошибок типа I и типа II, это выглядит следующим образом:

F_{\beta }={\frac {(1+\beta ^{2})\cdot \mathrm {true\ positive} }{(1+\beta ^{2})\cdot \mathrm {true\ positive} +\beta ^{2}\cdot \mathrm {false\ negative} +\mathrm {false\ positive} }}\,

Два наиболее часто используемых значения : 2, которое оценивает полноту выше точности, и 0,5, которое оценивает полноту ниже точности. $\beta$

F-мера была выведена таким образом, чтобы «измерять эффективность поиска по отношению к пользователю, который придает запоминанию в раз больше значения, чем точности». ^[3] Он основан на показателе эффективности Ван Рейсбергена. $F_{\beta }$ $\beta$

E=1-\left({\frac {\alpha }{p}}+{\frac {1-\alpha }{r}}\right)^{-1}

Их отношения вот где . $F_{\beta }=1-E$ $\alpha ={\frac {1}{1+\beta ^{2}}}$

Диагностическое тестирование

Это связано с областью бинарной классификации , где отзыв часто называют «чувствительностью».

^ количество реальных положительных случаев в данных
^ Результат теста, который правильно указывает на наличие состояния или характеристики.
^ Ошибка типа II: результат теста, который ошибочно указывает на отсутствие определенного условия или атрибута.
^ количество реальных отрицательных случаев в данных
^ Результат теста, который правильно указывает на отсутствие состояния или характеристики.
^ Ошибка типа I: результат теста, который ошибочно указывает на наличие определенного условия или атрибута.

Зависимость F-оценки от классового дисбаланса

Кривая точности отзыва и, следовательно , оценка явно зависят от соотношения положительных и отрицательных тестовых случаев. ^[12] Это означает, что сравнение F-оценки различных задач с разным соотношением классов проблематично. Один из способов решения этой проблемы (см., например, Siblini et al., 2020 ^[13] ) — использовать стандартное соотношение классов при проведении таких сравнений. $F_{\beta }$ $r$ $r_{0}$

Приложения

F-показатель часто используется в области поиска информации для измерения эффективности поиска , классификации документов и классификации запросов . ^[14] Это особенно актуально в приложениях, которые в первую очередь касаются положительного класса и где положительный класс встречается редко по сравнению с отрицательным классом.

Более ранние работы были сосредоточены в первую очередь на показателе F ₁ , но с распространением крупномасштабных поисковых систем цели производительности изменились, чтобы уделять больше внимания точности или полноте ^[15], и поэтому наблюдается широкое применение. $F_{\beta }$

F-оценка также используется в машинном обучении . ^[16] Однако F-меры не учитывают истинные отрицательные значения, поэтому такие меры, как коэффициент корреляции Мэтьюза , информированность или каппа Коэна, могут быть предпочтительными для оценки производительности бинарного классификатора. ^[17]

F-оценка широко используется в литературе по обработке естественного языка ^[18] , например, при оценке распознавания названных объектов и сегментации слов .

Характеристики

Оценка F ₁ представляет собой коэффициент Дайса набора извлеченных элементов и набора соответствующих элементов. ^[19]

Показатель F ₁ классификатора, который всегда предсказывает положительный класс, стремится к 1 по мере увеличения вероятности положительного класса.
Показатель F ₁ классификатора, который всегда предсказывает положительный класс, равен 2 * пропорция_положительного_класса / (1 + пропорция_положительного_класса), поскольку отзыв равен 1, а точность равна доле положительного_класса. ^[20]
Если модель оценки неинформативна (не может различать положительный и отрицательный класс), то оптимальным порогом является 0, чтобы всегда прогнозировался положительный класс.
Оценка F _{1 имеет}вогнутую форму при истинно положительном показателе. ^[21]

Критика

Дэвид Хэнд и другие критикуют широкое использование шкалы F ₁ , поскольку она придает одинаковое значение точности и запоминаемости. На практике разные типы ошибочной классификации влекут за собой разные издержки. Другими словами, относительная важность точности и полноты является аспектом проблемы. ^[22]

По мнению Давиде Чикко и Джузеппе Юрмана, оценка F ₁ менее правдива и информативна, чем коэффициент корреляции Мэтьюза (MCC) в классификации бинарной оценки. ^[23]

Дэвид М.В. Пауэрс отметил, что F ₁ игнорирует истинные отрицательные значения и, таким образом, вводит в заблуждение несбалансированные классы, в то время как меры каппа и корреляции симметричны и оценивают оба направления предсказуемости - классификатор, предсказывающий истинный класс, и истинный класс, предсказывающий предсказание классификатора, предлагая отдельные мультиклассовые меры Информированности и Маркированности для двух направлений, отмечая, что их среднее геометрическое является корреляцией. ^[24]

Еще одним источником критики F ₁ является отсутствие симметрии. Это означает, что он может изменить свое значение при изменении маркировки набора данных — «положительные» образцы называются «отрицательными» и наоборот. На эту критику отвечает определение метрики P4 , которое иногда называют симметричным расширением F ₁ . ^[25]

Отличие от индекса Фаулкса-Мэллоуза

В то время как F-мера представляет собой среднее гармоническое запоминаемость и точность, индекс Фаулкса-Мэллоуза представляет собой их среднее геометрическое . ^[26]

Расширение многоклассовой классификации

F-оценка также используется для оценки задач классификации с более чем двумя классами ( мультиклассовая классификация ). В этой схеме окончательный балл получается путем микроусреднения (с учетом частоты занятий) или макроусреднения (принимая все классы как одинаково важные). Для макроусреднения заявители использовали две разные формулы: F-показатель (арифметических) классовых значений точности и полноты или среднее арифметическое классовых F-показателей, где последний демонстрирует более желательные свойства. ^[27]