stringtranslate.com

F-оценка

Точность и отзыв

В статистическом анализе систем бинарной классификации и поиска информации F-оценка или F-мера является мерой предсказательной эффективности. Она рассчитывается на основе точности и полноты теста, где точность — это количество истинно положительных результатов, деленное на количество всех образцов, которые, как прогнозируется, будут положительными, включая те, которые были идентифицированы неправильно, а полнота — это количество истинно положительных результатов, деленное на количество всех образцов, которые должны были быть идентифицированы как положительные. Точность также известна как положительное предсказательное значение , а полнота также известна как чувствительность в диагностической бинарной классификации.

Оценка F 1 — это гармоническое среднее значение точности и полноты. Таким образом, она симметрично представляет как точность, так и полноту в одной метрике. Более общая оценка применяет дополнительные веса, оценивая одну из точности или полноты больше, чем другую.

Максимально возможное значение F-оценки составляет 1,0, что указывает на идеальную точность и полноту, а минимально возможное значение составляет 0, если точность и полнота равны нулю.

Этимология

Считается, что название F-мера произошло от другой функции F из книги Ван Рийсбергена, представленной на Четвертой конференции по пониманию сообщений (MUC-4, 1992). [1]

Определение

Традиционная F-мера или сбалансированная F-оценка ( оценка F1 ) представляет собой гармоническое среднее значение точности и полноты: [2]

.

Фβсчет

Более общая оценка F, которая использует положительный действительный фактор , где выбрано так, что полнота считается в разы более важной, чем точность, выглядит следующим образом:

.

С точки зрения ошибок типа I и типа II это становится:

.

Два наиболее часто используемых значения — это 2, при котором полнота имеет больший вес, чем точность, и 0,5, при котором полнота имеет меньший вес, чем точность.

F-мера была выведена таким образом, чтобы «измерять эффективность поиска по отношению к пользователю, который придает в разы большее значение запоминанию, чем точности». [3] Она основана на мере эффективности Ван Рейсбергена

.

Их отношения - это то, где .

Диагностическое тестирование

Это связано с областью бинарной классификации , где отзыв часто называют «чувствительностью».

  1. ^ количество реальных положительных случаев в данных
  2. ^ Результат теста, который правильно указывает на наличие состояния или характеристики.
  3. ^ Ошибка типа II: результат теста, который ошибочно указывает на отсутствие определенного условия или атрибута.
  4. ^ количество реальных отрицательных случаев в данных
  5. ^ Результат теста, который правильно указывает на отсутствие состояния или характеристики.
  6. ^ Ошибка типа I: результат теста, который ошибочно указывает на наличие определенного состояния или атрибута.
Нормализованный график гармонического среднего, где x — точность, y — полнота, а вертикальная ось — оценка F 1 в процентных пунктах.
Кривая точности-полноты: точки с разными пороговыми значениями обозначены цветом, точка с оптимальным F-баллом выделена красным

Зависимость F-оценки от дисбаланса классов

Кривая точности-полноты и, следовательно, оценка явно зависят от соотношения положительных и отрицательных тестовых случаев. [12] Это означает, что сравнение F-оценки по разным задачам с разными соотношениями классов проблематично. Одним из способов решения этой проблемы (см., например, Siblini et al., 2020 [13] ) является использование стандартного соотношения классов при проведении таких сравнений.

Приложения

F-оценка часто используется в области поиска информации для измерения производительности поиска , классификации документов и классификации запросов . [14] Она особенно актуальна в приложениях, которые в первую очередь связаны с положительным классом и где положительный класс встречается реже отрицательного класса.

Более ранние работы были сосредоточены в основном на оценке F 1 , но с распространением крупномасштабных поисковых систем цели производительности изменились, и теперь больше внимания уделяется либо точности, либо полноте [15] , поэтому этот метод нашел широкое применение.

F-оценка также используется в машинном обучении . [16] Однако F-меры не учитывают истинно отрицательные значения, поэтому для оценки эффективности бинарного классификатора могут быть предпочтительны такие меры, как коэффициент корреляции Мэтьюза , информированность или каппа Коэна . [17]

F-оценка широко используется в литературе по обработке естественного языка [18] , например, при оценке распознавания именованных сущностей и сегментации слов .

Характеристики

Оценка F 1 представляет собой коэффициент Дайса для набора извлеченных элементов и набора соответствующих элементов. [19]

Критика

Дэвид Хэнд и другие критикуют широкое использование оценки F 1 , поскольку она придает одинаковое значение точности и отзыву. На практике разные типы ошибочных классификаций влекут за собой разные издержки. Другими словами, относительная важность точности и отзыва является аспектом проблемы. [22]

По мнению Давиде Чикко и Джузеппе Юрмана, оценка F 1 менее правдива и информативна, чем коэффициент корреляции Мэтьюза (MCC) в бинарной оценочной классификации. [23]

Дэвид М. В. Пауэрс указал на то, что F 1 игнорирует истинно отрицательные значения и, таким образом, вводит в заблуждение для несбалансированных классов, в то время как меры каппа и корреляции симметричны и оценивают оба направления предсказуемости — классификатор, предсказывающий истинный класс, и истинный класс, предсказывающий предсказание классификатора, предлагая отдельные многоклассовые меры информированности и маркированности для двух направлений, отмечая, что их геометрическое среднее является корреляцией. [24]

Другим источником критики F 1 является его отсутствие симметрии. Это означает, что он может изменить свое значение при изменении маркировки набора данных - "положительные" образцы называются "отрицательными" и наоборот. Эта критика встречается с определением метрики P4 , которое иногда указывается как симметричное расширение F 1 . [25]

Отличие от индекса Фаулкса–Мэллоуза

В то время как F-мера представляет собой гармоническое среднее полноты и точности, индекс Фаулкса-Мэллоуза представляет собой их геометрическое среднее . [26]

Расширение многоклассовой классификации

F-оценка также используется для оценки проблем классификации с более чем двумя классами ( мультиклассовая классификация ). Распространенным методом является усреднение F-оценки по каждому классу с целью сбалансированного измерения производительности. [27]

Макрос F1

Macro F1 — это макроусредненная оценка F1, нацеленная на сбалансированное измерение производительности. Для расчета macro F1 использовались две различные формулы усреднения: оценка F1 (арифметических) средних значений точности и полноты по классам или среднее арифметическое оценок F1 по классам, где последняя демонстрирует более желательные свойства. [28]

Микро F1

Micro F1 — это гармоническое среднее микроточности (количество правильных предсказаний, нормализованное по ложным положительным результатам) и микроотзыва (количество правильных предсказаний, нормализованное по ложным отрицательным результатам). Поскольку при многоклассовой оценке общее количество ложных положительных результатов равно количеству ложных отрицательных результатов, micro F1 эквивалентно Accuracy . [27]

Смотрите также

Ссылки

  1. ^ Сасаки, Y. (2007). «Истина F-меры» (PDF) . Teach tutor mater . Том 1, № 5. С. 1–5.
  2. ^ Азиз Таха, Абдель (2015). «Метрики для оценки сегментации 3D-медицинских изображений: анализ, выбор и инструмент». BMC Medical Imaging . 15 (29): 1–28. doi : 10.1186/s12880-015-0068-x . PMC 4533825. PMID  26263899 . 
  3. ^ Ван Рейсберген, CJ (1979). Информационный поиск (2-е изд.). Баттерворт-Хайнеманн.
  4. ^ Фосетт, Том (2006). «Введение в ROC-анализ» (PDF) . Pattern Recognition Letters . 27 (8): 861–874. doi :10.1016/j.patrec.2005.10.010. S2CID  2027090.
  5. ^ Провост, Фостер; Том Фосетт (2013-08-01). «Наука о данных для бизнеса: что вам нужно знать о добыче данных и аналитическом мышлении». O'Reilly Media, Inc.
  6. ^ Пауэрс, Дэвид МВ (2011). «Оценка: от точности, полноты и F-меры до ROC, информированности, маркированности и корреляции». Журнал технологий машинного обучения . 2 (1): 37–63.
  7. ^ Ting, Kai Ming (2011). Sammut, Claude; Webb, Geoffrey I. (ред.). Энциклопедия машинного обучения . Springer. doi :10.1007/978-0-387-30164-8. ISBN 978-0-387-30164-8.
  8. ^ Брукс, Гарольд; Браун, Барб; Эберт, Бет; Ферро, Крис; Джоллифф, Ян; Кох, Тие-Йонг; Рёббер, Пол; Стивенсон, Дэвид (2015-01-26). "WWRP/WGNE Joint Working Group on Forecast Verification Research". Collaboration for Australian Weather and Climate Research . World Meteorological Organization . Получено 17 июля 2019 г.
  9. ^ Chicco D, Jurman G (январь 2020 г.). «Преимущества коэффициента корреляции Мэтьюса (MCC) над оценкой F1 и точностью оценки бинарной классификации». BMC Genomics . 21 (1): 6-1–6-13. doi : 10.1186/s12864-019-6413-7 . PMC 6941312 . PMID  31898477. 
  10. ^ Chicco D, Toetsch N, Jurman G (февраль 2021 г.). «Коэффициент корреляции Мэтьюса (MCC) более надежен, чем сбалансированная точность, информированность букмекера и маркированность при оценке двухклассовой матрицы путаницы». BioData Mining . 14 (13): 13. doi : 10.1186/s13040-021-00244-z . PMC 7863449 . PMID  33541410. 
  11. ^ Tharwat A. (август 2018 г.). «Методы оценки классификации». Прикладная вычислительная техника и информатика . 17 : 168–192. doi : 10.1016/j.aci.2018.08.003 .
  12. ^ Брабец, Ян; Комарек, Томаш; Франк, Войтех; Махлица, Лукаш (2020). «Об оценке модели в условиях непостоянного классового дисбаланса». Международная конференция по вычислительной науке . Спрингер. стр. 74–87. arXiv : 2001.05571 . дои : 10.1007/978-3-030-50423-6_6 .
  13. ^ Siblini, W.; Fréry, J.; He-Guelton, L.; Oblé, F.; Wang, YQ (2020). «Овладейте своими метриками с помощью калибровки». В M. Berthold; A. Feelders; G. Krempl (ред.). Advances in Intelligent Data Analysis XVIII . Springer. стр. 457–469. arXiv : 1909.02827 . doi : 10.1007/978-3-030-44584-3_36 .
  14. ^ Beitzel., Steven M. (2006). О понимании и классификации веб-запросов (диссертация). IIT. CiteSeerX 10.1.1.127.634 . 
  15. ^ X. Li; Y.-Y. Wang; A. Acero (июль 2008 г.). Изучение намерения запроса с помощью регуляризованных графов кликов . Труды 31-й конференции SIGIR . стр. 339. doi :10.1145/1390334.1390393. ISBN 9781605581644. S2CID  8482989.
  16. ^ См., например, оценку [1].
  17. ^ Пауэрс, Дэвид М. В. (2015). «Что не измеряет F-мера». arXiv : 1503.06410 [cs.IR].
  18. ^ Дерчински, Л. (2016). Комплементарность, F-оценка и оценка НЛП. Труды Международной конференции по языковым ресурсам и оценке .
  19. ^ Мэннинг, Кристофер (1 апреля 2009 г.). Введение в информационный поиск (PDF) . Упражнение 8.7: Cambridge University Press. стр. 200. Получено 18 июля 2022 г.{{cite book}}: CS1 maint: местоположение ( ссылка )
  20. ^ «Каков базовый уровень оценки F1 для бинарного классификатора?».
  21. ^ Липтон, З. К., Элкан, К. П. и Нараянасвами, Б. (2014). Оптимальное пороговое значение F1 в многомаркерной настройке. ArXiv, abs/1402.1892.
  22. ^ Хэнд, Дэвид. «Заметка об использовании F-меры для оценки алгоритмов связывания записей — Измерения». app.dimensions.ai . doi :10.1007/s11222-017-9746-6. hdl : 10044/1/46235 . S2CID  38782128 . Получено 08.12.2018 .
  23. ^ Chicco D, Jurman G (январь 2020 г.). «Преимущества коэффициента корреляции Мэтьюса (MCC) по сравнению с оценкой F1 и точностью оценки бинарной классификации». BMC Genomics . 21 (6): 6. doi : 10.1186/s12864-019-6413-7 . PMC 6941312 . PMID  31898477. 
  24. ^ Пауэрс, Дэвид МВ (2011). «Оценка: от точности, отзыва и F-оценки до ROC, информированности, маркированности и корреляции». Журнал технологий машинного обучения . 2 (1): 37–63. hdl :2328/27165.
  25. ^ Ситарц, Миколай (2022). «Расширение метрики F1, вероятностный подход». arXiv : 2210.11997 [cs.LG].
  26. ^ Tharwat A (август 2018). «Методы оценки классификации». Прикладная вычислительная техника и информатика . 17 : 168–192. doi : 10.1016/j.aci.2018.08.003 .
  27. ^ ab Opitz, Juri (2024). «Более пристальный взгляд на метрики оценки классификации и критическое отражение общей практики оценки». Труды Ассоциации компьютерной лингвистики . 12 : 820–836. arXiv : 2404.16958 . doi : 10.1162/tacl_a_00675.
  28. ^ J. Opitz; S. Burst (2019). «Макро F1 и макро F1». arXiv : 1911.03347 [stat.ML].