В статистическом анализе систем бинарной классификации и поиска информации F-оценка или F-мера является мерой предсказательной эффективности. Она рассчитывается на основе точности и полноты теста, где точность — это количество истинно положительных результатов, деленное на количество всех образцов, которые, как прогнозируется, будут положительными, включая те, которые были идентифицированы неправильно, а полнота — это количество истинно положительных результатов, деленное на количество всех образцов, которые должны были быть идентифицированы как положительные. Точность также известна как положительное предсказательное значение , а полнота также известна как чувствительность в диагностической бинарной классификации.
Оценка F 1 — это гармоническое среднее значение точности и полноты. Таким образом, она симметрично представляет как точность, так и полноту в одной метрике. Более общая оценка применяет дополнительные веса, оценивая одну из точности или полноты больше, чем другую.
Максимально возможное значение F-оценки составляет 1,0, что указывает на идеальную точность и полноту, а минимально возможное значение составляет 0, если точность и полнота равны нулю.
Этимология
Считается, что название F-мера произошло от другой функции F из книги Ван Рийсбергена, представленной на Четвертой конференции по пониманию сообщений (MUC-4, 1992). [1]
Определение
Традиционная F-мера или сбалансированная F-оценка ( оценка F1 ) представляет собой гармоническое среднее значение точности и полноты: [2]
.
Фβсчет
Более общая оценка F, которая использует положительный действительный фактор , где выбрано так, что полнота считается в разы более важной, чем точность, выглядит следующим образом:
Два наиболее часто используемых значения — это 2, при котором полнота имеет больший вес, чем точность, и 0,5, при котором полнота имеет меньший вес, чем точность.
F-мера была выведена таким образом, чтобы «измерять эффективность поиска по отношению к пользователю, который придает в разы большее значение запоминанию, чем точности». [3] Она основана на мере эффективности Ван Рейсбергена
.
Их отношения - это то, где .
Диагностическое тестирование
Это связано с областью бинарной классификации , где отзыв часто называют «чувствительностью».
^ количество реальных положительных случаев в данных
^ Результат теста, который правильно указывает на наличие состояния или характеристики.
^ Ошибка типа II: результат теста, который ошибочно указывает на отсутствие определенного условия или атрибута.
^ количество реальных отрицательных случаев в данных
^ Результат теста, который правильно указывает на отсутствие состояния или характеристики.
^ Ошибка типа I: результат теста, который ошибочно указывает на наличие определенного состояния или атрибута.
Зависимость F-оценки от дисбаланса классов
Кривая точности-полноты и, следовательно, оценка явно зависят от соотношения положительных и отрицательных тестовых случаев. [12]
Это означает, что сравнение F-оценки по разным задачам с разными соотношениями классов проблематично. Одним из способов решения этой проблемы (см., например, Siblini et al., 2020 [13]
) является использование стандартного соотношения классов при проведении таких сравнений.
Приложения
F-оценка часто используется в области поиска информации для измерения производительности поиска , классификации документов и классификации запросов . [14] Она особенно актуальна в приложениях, которые в первую очередь связаны с положительным классом и где положительный класс встречается реже отрицательного класса.
Более ранние работы были сосредоточены в основном на оценке F 1 , но с распространением крупномасштабных поисковых систем цели производительности изменились, и теперь больше внимания уделяется либо точности, либо полноте [15] , поэтому этот метод нашел широкое применение.
Оценка F 1 представляет собой коэффициент Дайса для набора извлеченных элементов и набора соответствующих элементов. [19]
F - оценка классификатора, который всегда предсказывает положительный класс, стремится к 1 по мере увеличения вероятности положительного класса.
F 1 -оценка классификатора, который всегда предсказывает положительный класс, равна 2 * пропорция_положительного_класса / ( 1 + пропорция_положительного_класса ), поскольку полнота равна 1, а точность равна пропорции положительного класса. [20]
Если модель оценки неинформативна (не может различить положительный и отрицательный класс), то оптимальный порог равен 0, так что положительный класс всегда прогнозируется.
Показатель F 1 вогнут в истинно положительном показателе. [21]
Критика
Дэвид Хэнд и другие критикуют широкое использование оценки F 1 , поскольку она придает одинаковое значение точности и отзыву. На практике разные типы ошибочных классификаций влекут за собой разные издержки. Другими словами, относительная важность точности и отзыва является аспектом проблемы. [22]
По мнению Давиде Чикко и Джузеппе Юрмана, оценка F 1 менее правдива и информативна, чем коэффициент корреляции Мэтьюза (MCC) в бинарной оценочной классификации. [23]
Дэвид М. В. Пауэрс указал на то, что F 1 игнорирует истинно отрицательные значения и, таким образом, вводит в заблуждение для несбалансированных классов, в то время как меры каппа и корреляции симметричны и оценивают оба направления предсказуемости — классификатор, предсказывающий истинный класс, и истинный класс, предсказывающий предсказание классификатора, предлагая отдельные многоклассовые меры информированности и маркированности для двух направлений, отмечая, что их геометрическое среднее является корреляцией. [24]
Другим источником критики F 1 является его отсутствие симметрии. Это означает, что он может изменить свое значение при изменении маркировки набора данных - "положительные" образцы называются "отрицательными" и наоборот. Эта критика встречается с определением метрики P4 , которое иногда указывается как симметричное расширение F 1 . [25]
F-оценка также используется для оценки проблем классификации с более чем двумя классами ( мультиклассовая классификация ). Распространенным методом является усреднение F-оценки по каждому классу с целью сбалансированного измерения производительности. [27]
Макрос F1
Macro F1 — это макроусредненная оценка F1, нацеленная на сбалансированное измерение производительности. Для расчета macro F1 использовались две различные формулы усреднения: оценка F1 (арифметических) средних значений точности и полноты по классам или среднее арифметическое оценок F1 по классам, где последняя демонстрирует более желательные свойства. [28]
Микро F1
Micro F1 — это гармоническое среднее микроточности (количество правильных предсказаний, нормализованное по ложным положительным результатам) и микроотзыва (количество правильных предсказаний, нормализованное по ложным отрицательным результатам). Поскольку при многоклассовой оценке общее количество ложных положительных результатов равно количеству ложных отрицательных результатов, micro F1 эквивалентно Accuracy . [27]
^ Сасаки, Y. (2007). «Истина F-меры» (PDF) . Teach tutor mater . Том 1, № 5. С. 1–5.
^ Азиз Таха, Абдель (2015). «Метрики для оценки сегментации 3D-медицинских изображений: анализ, выбор и инструмент». BMC Medical Imaging . 15 (29): 1–28. doi : 10.1186/s12880-015-0068-x . PMC 4533825. PMID 26263899 .
^ Ван Рейсберген, CJ (1979). Информационный поиск (2-е изд.). Баттерворт-Хайнеманн.
^ Фосетт, Том (2006). «Введение в ROC-анализ» (PDF) . Pattern Recognition Letters . 27 (8): 861–874. doi :10.1016/j.patrec.2005.10.010. S2CID 2027090.
^ Провост, Фостер; Том Фосетт (2013-08-01). «Наука о данных для бизнеса: что вам нужно знать о добыче данных и аналитическом мышлении». O'Reilly Media, Inc.
^ Пауэрс, Дэвид МВ (2011). «Оценка: от точности, полноты и F-меры до ROC, информированности, маркированности и корреляции». Журнал технологий машинного обучения . 2 (1): 37–63.
^ Ting, Kai Ming (2011). Sammut, Claude; Webb, Geoffrey I. (ред.). Энциклопедия машинного обучения . Springer. doi :10.1007/978-0-387-30164-8. ISBN978-0-387-30164-8.
^ Брукс, Гарольд; Браун, Барб; Эберт, Бет; Ферро, Крис; Джоллифф, Ян; Кох, Тие-Йонг; Рёббер, Пол; Стивенсон, Дэвид (2015-01-26). "WWRP/WGNE Joint Working Group on Forecast Verification Research". Collaboration for Australian Weather and Climate Research . World Meteorological Organization . Получено 17 июля 2019 г.
^ Chicco D, Jurman G (январь 2020 г.). «Преимущества коэффициента корреляции Мэтьюса (MCC) над оценкой F1 и точностью оценки бинарной классификации». BMC Genomics . 21 (1): 6-1–6-13. doi : 10.1186/s12864-019-6413-7 . PMC 6941312 . PMID 31898477.
^ Chicco D, Toetsch N, Jurman G (февраль 2021 г.). «Коэффициент корреляции Мэтьюса (MCC) более надежен, чем сбалансированная точность, информированность букмекера и маркированность при оценке двухклассовой матрицы путаницы». BioData Mining . 14 (13): 13. doi : 10.1186/s13040-021-00244-z . PMC 7863449 . PMID 33541410.
^ Tharwat A. (август 2018 г.). «Методы оценки классификации». Прикладная вычислительная техника и информатика . 17 : 168–192. doi : 10.1016/j.aci.2018.08.003 .
^ Брабец, Ян; Комарек, Томаш; Франк, Войтех; Махлица, Лукаш (2020). «Об оценке модели в условиях непостоянного классового дисбаланса». Международная конференция по вычислительной науке . Спрингер. стр. 74–87. arXiv : 2001.05571 . дои : 10.1007/978-3-030-50423-6_6 .
^ Siblini, W.; Fréry, J.; He-Guelton, L.; Oblé, F.; Wang, YQ (2020). «Овладейте своими метриками с помощью калибровки». В M. Berthold; A. Feelders; G. Krempl (ред.). Advances in Intelligent Data Analysis XVIII . Springer. стр. 457–469. arXiv : 1909.02827 . doi : 10.1007/978-3-030-44584-3_36 .
^ Beitzel., Steven M. (2006). О понимании и классификации веб-запросов (диссертация). IIT. CiteSeerX 10.1.1.127.634 .
^ X. Li; Y.-Y. Wang; A. Acero (июль 2008 г.). Изучение намерения запроса с помощью регуляризованных графов кликов . Труды 31-й конференции SIGIR . стр. 339. doi :10.1145/1390334.1390393. ISBN9781605581644. S2CID 8482989.
^ См., например, оценку [1].
^ Пауэрс, Дэвид М. В. (2015). «Что не измеряет F-мера». arXiv : 1503.06410 [cs.IR].
^ Дерчински, Л. (2016). Комплементарность, F-оценка и оценка НЛП. Труды Международной конференции по языковым ресурсам и оценке .
^ Мэннинг, Кристофер (1 апреля 2009 г.). Введение в информационный поиск (PDF) . Упражнение 8.7: Cambridge University Press. стр. 200. Получено 18 июля 2022 г.{{cite book}}: CS1 maint: местоположение ( ссылка )
^ «Каков базовый уровень оценки F1 для бинарного классификатора?».
^ Липтон, З. К., Элкан, К. П. и Нараянасвами, Б. (2014). Оптимальное пороговое значение F1 в многомаркерной настройке. ArXiv, abs/1402.1892.
^ Хэнд, Дэвид. «Заметка об использовании F-меры для оценки алгоритмов связывания записей — Измерения». app.dimensions.ai . doi :10.1007/s11222-017-9746-6. hdl : 10044/1/46235 . S2CID 38782128 . Получено 08.12.2018 .
^ Chicco D, Jurman G (январь 2020 г.). «Преимущества коэффициента корреляции Мэтьюса (MCC) по сравнению с оценкой F1 и точностью оценки бинарной классификации». BMC Genomics . 21 (6): 6. doi : 10.1186/s12864-019-6413-7 . PMC 6941312 . PMID 31898477.
^ Пауэрс, Дэвид МВ (2011). «Оценка: от точности, отзыва и F-оценки до ROC, информированности, маркированности и корреляции». Журнал технологий машинного обучения . 2 (1): 37–63. hdl :2328/27165.
^ Tharwat A (август 2018). «Методы оценки классификации». Прикладная вычислительная техника и информатика . 17 : 168–192. doi : 10.1016/j.aci.2018.08.003 .
^ ab Opitz, Juri (2024). «Более пристальный взгляд на метрики оценки классификации и критическое отражение общей практики оценки». Труды Ассоциации компьютерной лингвистики . 12 : 820–836. arXiv : 2404.16958 . doi : 10.1162/tacl_a_00675.
^ J. Opitz; S. Burst (2019). «Макро F1 и макро F1». arXiv : 1911.03347 [stat.ML].