stringtranslate.com

F-оценка

Точность и отзыв

В статистическом анализе систем двоичной классификации и поиска информации F-показатель или F-мера является мерой эффективности прогнозирования. Он рассчитывается на основе точности и полноты теста, где точность представляет собой количество истинно положительных результатов, деленное на количество всех образцов, которые, по прогнозам, будут положительными, включая те, которые были идентифицированы неправильно, а отзыв представляет собой количество истинно положительных результатов. разделить на количество всех образцов, которые должны были быть идентифицированы как положительные. Точность также известна как положительная прогностическая ценность , а отзыв также известен как чувствительность в диагностической бинарной классификации.

Показатель F 1 представляет собой среднее гармоническое значение точности и полноты. Таким образом, он симметрично представляет и точность, и полноту в одной метрике. Более общая оценка применяет дополнительные веса, оценивая одну точность или полноту больше, чем другую.

Наивысшее возможное значение F-показателя равно 1,0, что указывает на идеальную точность и полноту, а наименьшее возможное значение равно 0, если точность и полнота равны нулю.

Этимология

Считается, что название F-мера названо в честь другой F-функции из книги Ван Рейсбергена, представленной на Четвертой конференции по пониманию сообщений (MUC-4, 1992). [1]

Определение

Традиционная F-мера или сбалансированная F-оценка ( оценка F 1 ) представляет собой гармоническое среднее значение точности и полноты: [2]

.

Оценка F β

Более общий показатель F, в котором используется положительный реальный коэффициент , выбранный таким образом, что отзыв считается в несколько раз более важным, чем точность, следующий:

.

Что касается ошибок типа I и типа II, это выглядит следующим образом:

.

Два наиболее часто используемых значения : 2, которое оценивает полноту выше точности, и 0,5, которое оценивает полноту ниже точности.

F-мера была выведена таким образом, чтобы «измерять эффективность поиска по отношению к пользователю, который придает запоминанию в раз больше значения, чем точности». [3] Он основан на показателе эффективности Ван Рейсбергена.

.

Их отношения вот где .

Диагностическое тестирование

Это связано с областью бинарной классификации , где отзыв часто называют «чувствительностью».

  1. ^ количество реальных положительных случаев в данных
  2. ^ Результат теста, который правильно указывает на наличие состояния или характеристики.
  3. ^ Ошибка типа II: результат теста, который ошибочно указывает на отсутствие определенного условия или атрибута.
  4. ^ количество реальных отрицательных случаев в данных
  5. ^ Результат теста, который правильно указывает на отсутствие состояния или характеристики.
  6. ^ Ошибка типа I: результат теста, который ошибочно указывает на наличие определенного условия или атрибута.
График нормализованного среднего гармонического значения, где x — точность, y — отзыв, а вертикальная ось — балл F 1 , в процентных пунктах.
Кривая точного отзыва: точки с разными порогами имеют цветовую маркировку, точка с оптимальным F-показателем выделена красным.

Зависимость F-оценки от классового дисбаланса

Кривая точности отзыва и, следовательно , оценка явно зависят от соотношения положительных и отрицательных тестовых случаев. [12] Это означает, что сравнение F-оценки различных задач с разным соотношением классов проблематично. Один из способов решения этой проблемы (см., например, Siblini et al., 2020 [13] ) — использовать стандартное соотношение классов при проведении таких сравнений.

Приложения

F-показатель часто используется в области поиска информации для измерения эффективности поиска , классификации документов и классификации запросов . [14] Это особенно актуально в приложениях, которые в первую очередь касаются положительного класса и где положительный класс встречается редко по сравнению с отрицательным классом.

Более ранние работы были сосредоточены в первую очередь на показателе F 1 , но с распространением крупномасштабных поисковых систем цели производительности изменились, чтобы уделять больше внимания точности или полноте [15], и поэтому наблюдается широкое применение.

F-оценка также используется в машинном обучении . [16] Однако F-меры не учитывают истинные отрицательные значения, поэтому такие меры, как коэффициент корреляции Мэтьюза , информированность или каппа Коэна, могут быть предпочтительными для оценки производительности бинарного классификатора. [17]

F-оценка широко используется в литературе по обработке естественного языка [18] , например, при оценке распознавания названных объектов и сегментации слов .

Характеристики

Оценка F 1 представляет собой коэффициент Дайса набора извлеченных элементов и набора соответствующих элементов. [19]

Критика

Дэвид Хэнд и другие критикуют широкое использование шкалы F 1 , поскольку она придает одинаковое значение точности и запоминаемости. На практике разные типы ошибочной классификации влекут за собой разные издержки. Другими словами, относительная важность точности и полноты является аспектом проблемы. [22]

По мнению Давиде Чикко и Джузеппе Юрмана, оценка F 1 менее правдива и информативна, чем коэффициент корреляции Мэтьюза (MCC) в классификации бинарной оценки. [23]

Дэвид М.В. Пауэрс отметил, что F 1 игнорирует истинные отрицательные значения и, таким образом, вводит в заблуждение несбалансированные классы, в то время как меры каппа и корреляции симметричны и оценивают оба направления предсказуемости - классификатор, предсказывающий истинный класс, и истинный класс, предсказывающий предсказание классификатора, предлагая отдельные мультиклассовые меры Информированности и Маркированности для двух направлений, отмечая, что их среднее геометрическое является корреляцией. [24]

Еще одним источником критики F 1 является отсутствие симметрии. Это означает, что он может изменить свое значение при изменении маркировки набора данных — «положительные» образцы называются «отрицательными» и наоборот. На эту критику отвечает определение метрики P4 , которое иногда называют симметричным расширением F 1 . [25]

Отличие от индекса Фаулкса-Мэллоуза

В то время как F-мера представляет собой среднее гармоническое запоминаемость и точность, индекс Фаулкса-Мэллоуза представляет собой их среднее геометрическое . [26]

Расширение многоклассовой классификации

F-оценка также используется для оценки задач классификации с более чем двумя классами ( мультиклассовая классификация ). В этой схеме окончательный балл получается путем микроусреднения (с учетом частоты занятий) или макроусреднения (принимая все классы как одинаково важные). Для макроусреднения заявители использовали две разные формулы: F-показатель (арифметических) классовых значений точности и полноты или среднее арифметическое классовых F-показателей, где последний демонстрирует более желательные свойства. [27]

Смотрите также

Рекомендации

  1. ^ Сасаки, Ю. (2007). «Истинность F-меры» (PDF) . Научите репетитора матер . Том. 1, нет. 5. С. 1–5.
  2. ^ Азиз Таха, Абдель (2015). «Метрики оценки сегментации медицинских 3D-изображений: анализ, выбор и инструмент». Медицинская визуализация BMC . 15 (29): 1–28. дои : 10.1186/s12880-015-0068-x . ПМЦ 4533825 . ПМИД  26263899. 
  3. ^ Ван Рейсберген, CJ (1979). Информационный поиск (2-е изд.). Баттерворт-Хайнеманн.
  4. ^ Фосетт, Том (2006). «Введение в ROC-анализ» (PDF) . Буквы для распознавания образов . 27 (8): 861–874. doi :10.1016/j.patrec.2005.10.010. S2CID  2027090.
  5. ^ Провост, Фостер; Том Фосетт (01 августа 2013 г.). «Наука о данных для бизнеса: что нужно знать об интеллектуальном анализе данных и аналитическом мышлении». О'Рейли Медиа, Инк .
  6. ^ Пауэрс, Дэвид М.В. (2011). «Оценка: от точности, отзыва и F-меры к ROC, информированности, маркированности и корреляции». Журнал технологий машинного обучения . 2 (1): 37–63.
  7. ^ Тинг, Кай Мин (2011). Саммут, Клод; Уэбб, Джеффри И. (ред.). Энциклопедия машинного обучения . Спрингер. дои : 10.1007/978-0-387-30164-8. ISBN 978-0-387-30164-8.
  8. ^ Брукс, Гарольд; Браун, Барб; Эберт, Бет; Ферро, Крис; Джоллифф, Ян; Ко, Тие-Ён; Роббер, Пол; Стивенсон, Дэвид (26 января 2015 г.). «Совместная рабочая группа ВПМИ/РГЧЭ по исследованиям по проверке прогнозов». Сотрудничество в области австралийских исследований погоды и климата . Всемирная метеорологическая организация . Проверено 17 июля 2019 г.
  9. ^ Чикко Д., Джурман Дж. (январь 2020 г.). «Преимущества коэффициента корреляции Мэтьюза (MCC) перед показателем F1 и точность оценки двоичной классификации». БМК Геномика . 21 (1): 6-1–6-13. дои : 10.1186/s12864-019-6413-7 . ПМК 6941312 . ПМИД  31898477. 
  10. Чикко Д., Тётч Н., Юрман Г. (февраль 2021 г.). «Коэффициент корреляции Мэтьюза (MCC) более надежен, чем сбалансированная точность, информированность букмекеров и выраженность при оценке двухклассовой матрицы путаницы». Добыча биоданных . 14 (13): 13. дои : 10.1186/s13040-021-00244-z . ПМЦ 7863449 . ПМИД  33541410. 
  11. ^ Тарват А. (август 2018 г.). «Классификация методов оценки». Прикладная вычислительная техника и информатика . 17 : 168–192. дои : 10.1016/j.aci.2018.08.003 .
  12. ^ Брабец, Ян; Комарек, Томаш; Франк, Войтех; Махлица, Лукаш (2020). «Об оценке модели в условиях непостоянного классового дисбаланса». Международная конференция по вычислительной науке . Спрингер. стр. 74–87. arXiv : 2001.05571 . дои : 10.1007/978-3-030-50423-6_6 .
  13. ^ Сиблини, В.; Фрери, Дж.; Хе-Гелтон, Л.; Обле, Ф.; Ван, YQ (2020). «Совершенствуйте свои показатели с помощью калибровки». У М. Бертольда; А. Филдерс; Г. Кремль (ред.). Достижения в области интеллектуального анализа данных XVIII . Спрингер. стр. 457–469. arXiv : 1909.02827 . дои : 10.1007/978-3-030-44584-3_36 .
  14. ^ Бейтцель, Стивен М. (2006). О понимании и классификации веб-запросов (кандидатская диссертация). ИИТ. CiteSeerX 10.1.1.127.634 . 
  15. ^ X. Ли; Д.-Ю. Ван; А. Асеро (июль 2008 г.). Изучение намерения запроса на основе регуляризованных графиков кликов . Материалы 31-й конференции СИГИР . п. 339. дои : 10.1145/1390334.1390393. ISBN 9781605581644. S2CID  8482989.
  16. ^ См., например, оценку [1].
  17. ^ Пауэрс, Дэвид М.В. (2015). «То, что не измеряет F-мера». arXiv : 1503.06410 [cs.IR].
  18. ^ Дерчинский, Л. (2016). Дополнительность, F-оценка и оценка НЛП. Материалы Международной конференции по языковым ресурсам и оценке .
  19. Мэннинг, Кристофер (1 апреля 2009 г.). Введение в поиск информации (PDF) . Упражнение 8.7: Издательство Кембриджского университета. п. 200 . Проверено 18 июля 2022 г.{{cite book}}: CS1 maint: location (link)
  20. ^ «Какова базовая оценка F1 для бинарного классификатора?».
  21. ^ Липтон, З.К., Элкан, К.П., и Нараянасвами, Б. (2014). F1 — оптимальное пороговое значение в настройке нескольких меток. ArXiv, абс/1402.1892.
  22. ^ Хэнд, Дэвид. «Примечание об использовании F-меры для оценки алгоритмов связывания записей — Размеры». app.dimensions.ai . дои : 10.1007/s11222-017-9746-6. hdl : 10044/1/46235 . S2CID  38782128 . Проверено 8 декабря 2018 г.
  23. ^ Чикко Д., Джурман Дж. (январь 2020 г.). «Преимущества коэффициента корреляции Мэтьюза (MCC) перед показателем F1 и точность оценки двоичной классификации». БМК Геномика . 21 (6): 6. дои : 10.1186/s12864-019-6413-7 . ПМК 6941312 . ПМИД  31898477. 
  24. ^ Пауэрс, Дэвид М.В. (2011). «Оценка: от точности, отзыва и F-оценки к ROC, информированности, маркированности и корреляции». Журнал технологий машинного обучения . 2 (1): 37–63. hdl : 2328/27165.
  25. ^ Ситарц, Миколай (2022). «Расширение метрики F1, вероятностный подход». arXiv : 2210.11997 [cs.LG].
  26. ^ Тарват А (август 2018 г.). «Классификация методов оценки». Прикладная вычислительная техника и информатика . 17 : 168–192. дои : 10.1016/j.aci.2018.08.003 .
  27. ^ Дж. Опиц; С. Берст (2019). «Макро Ф1 и Макро Ф1». arXiv : 1911.03347 [stat.ML].