В статистическом анализе систем двоичной классификации и поиска информации F-показатель или F-мера является мерой эффективности прогнозирования. Он рассчитывается на основе точности и полноты теста, где точность представляет собой количество истинно положительных результатов, деленное на количество всех образцов, которые, по прогнозам, будут положительными, включая те, которые были идентифицированы неправильно, а отзыв представляет собой количество истинно положительных результатов. разделить на количество всех образцов, которые должны были быть идентифицированы как положительные. Точность также известна как положительная прогностическая ценность , а отзыв также известен как чувствительность в диагностической бинарной классификации.
Показатель F 1 представляет собой среднее гармоническое значение точности и полноты. Таким образом, он симметрично представляет и точность, и полноту в одной метрике. Более общая оценка применяет дополнительные веса, оценивая одну точность или полноту больше, чем другую.
Наивысшее возможное значение F-показателя равно 1,0, что указывает на идеальную точность и полноту, а наименьшее возможное значение равно 0, если точность и полнота равны нулю.
Этимология
Считается, что название F-мера названо в честь другой F-функции из книги Ван Рейсбергена, представленной на Четвертой конференции по пониманию сообщений (MUC-4, 1992). [1]
Определение
Традиционная F-мера или сбалансированная F-оценка ( оценка F 1 ) представляет собой гармоническое среднее значение точности и полноты: [2]
.
Оценка F β
Более общий показатель F, в котором используется положительный реальный коэффициент , выбранный таким образом, что отзыв считается в несколько раз более важным, чем точность, следующий:
Два наиболее часто используемых значения : 2, которое оценивает полноту выше точности, и 0,5, которое оценивает полноту ниже точности.
F-мера была выведена таким образом, чтобы «измерять эффективность поиска по отношению к пользователю, который придает запоминанию в раз больше значения, чем точности». [3] Он основан на показателе эффективности Ван Рейсбергена.
.
Их отношения вот где .
Диагностическое тестирование
Это связано с областью бинарной классификации , где отзыв часто называют «чувствительностью».
^ количество реальных положительных случаев в данных
^ Результат теста, который правильно указывает на наличие состояния или характеристики.
^ Ошибка типа II: результат теста, который ошибочно указывает на отсутствие определенного условия или атрибута.
^ количество реальных отрицательных случаев в данных
^ Результат теста, который правильно указывает на отсутствие состояния или характеристики.
^ Ошибка типа I: результат теста, который ошибочно указывает на наличие определенного условия или атрибута.
Зависимость F-оценки от классового дисбаланса
Кривая точности отзыва и, следовательно , оценка явно зависят от соотношения положительных и отрицательных тестовых случаев. [12]
Это означает, что сравнение F-оценки различных задач с разным соотношением классов проблематично. Один из способов решения этой проблемы (см., например, Siblini et al., 2020 [13]
) — использовать стандартное соотношение классов при проведении таких сравнений.
Приложения
F-показатель часто используется в области поиска информации для измерения эффективности поиска , классификации документов и классификации запросов . [14] Это особенно актуально в приложениях, которые в первую очередь касаются положительного класса и где положительный класс встречается редко по сравнению с отрицательным классом.
Более ранние работы были сосредоточены в первую очередь на показателе F 1 , но с распространением крупномасштабных поисковых систем цели производительности изменились, чтобы уделять больше внимания точности или полноте [15], и поэтому наблюдается широкое применение.
Оценка F 1 представляет собой коэффициент Дайса набора извлеченных элементов и набора соответствующих элементов. [19]
Показатель F 1 классификатора, который всегда предсказывает положительный класс, стремится к 1 по мере увеличения вероятности положительного класса.
Показатель F 1 классификатора, который всегда предсказывает положительный класс, равен 2 * пропорция_положительного_класса / (1 + пропорция_положительного_класса), поскольку отзыв равен 1, а точность равна доле положительного_класса. [20]
Если модель оценки неинформативна (не может различать положительный и отрицательный класс), то оптимальным порогом является 0, чтобы всегда прогнозировался положительный класс.
Оценка F 1 имеет вогнутую форму при истинно положительном показателе. [21]
Критика
Дэвид Хэнд и другие критикуют широкое использование шкалы F 1 , поскольку она придает одинаковое значение точности и запоминаемости. На практике разные типы ошибочной классификации влекут за собой разные издержки. Другими словами, относительная важность точности и полноты является аспектом проблемы. [22]
По мнению Давиде Чикко и Джузеппе Юрмана, оценка F 1 менее правдива и информативна, чем коэффициент корреляции Мэтьюза (MCC) в классификации бинарной оценки. [23]
Дэвид М.В. Пауэрс отметил, что F 1 игнорирует истинные отрицательные значения и, таким образом, вводит в заблуждение несбалансированные классы, в то время как меры каппа и корреляции симметричны и оценивают оба направления предсказуемости - классификатор, предсказывающий истинный класс, и истинный класс, предсказывающий предсказание классификатора, предлагая отдельные мультиклассовые меры Информированности и Маркированности для двух направлений, отмечая, что их среднее геометрическое является корреляцией. [24]
Еще одним источником критики F 1 является отсутствие симметрии. Это означает, что он может изменить свое значение при изменении маркировки набора данных — «положительные» образцы называются «отрицательными» и наоборот. На эту критику отвечает определение метрики P4 , которое иногда называют симметричным расширением F 1 . [25]
F-оценка также используется для оценки задач классификации с более чем двумя классами ( мультиклассовая классификация ). В этой схеме окончательный балл получается путем микроусреднения (с учетом частоты занятий) или макроусреднения (принимая все классы как одинаково важные). Для макроусреднения заявители использовали две разные формулы: F-показатель (арифметических) классовых значений точности и полноты или среднее арифметическое классовых F-показателей, где последний демонстрирует более желательные свойства. [27]
^ Сасаки, Ю. (2007). «Истинность F-меры» (PDF) . Научите репетитора матер . Том. 1, нет. 5. С. 1–5.
^ Азиз Таха, Абдель (2015). «Метрики оценки сегментации медицинских 3D-изображений: анализ, выбор и инструмент». Медицинская визуализация BMC . 15 (29): 1–28. дои : 10.1186/s12880-015-0068-x . ПМЦ 4533825 . ПМИД 26263899.
^ Ван Рейсберген, CJ (1979). Информационный поиск (2-е изд.). Баттерворт-Хайнеманн.
^ Фосетт, Том (2006). «Введение в ROC-анализ» (PDF) . Буквы для распознавания образов . 27 (8): 861–874. doi :10.1016/j.patrec.2005.10.010. S2CID 2027090.
^ Провост, Фостер; Том Фосетт (01 августа 2013 г.). «Наука о данных для бизнеса: что нужно знать об интеллектуальном анализе данных и аналитическом мышлении». О'Рейли Медиа, Инк .
^ Пауэрс, Дэвид М.В. (2011). «Оценка: от точности, отзыва и F-меры к ROC, информированности, маркированности и корреляции». Журнал технологий машинного обучения . 2 (1): 37–63.
^ Тинг, Кай Мин (2011). Саммут, Клод; Уэбб, Джеффри И. (ред.). Энциклопедия машинного обучения . Спрингер. дои : 10.1007/978-0-387-30164-8. ISBN978-0-387-30164-8.
^ Брукс, Гарольд; Браун, Барб; Эберт, Бет; Ферро, Крис; Джоллифф, Ян; Ко, Тие-Ён; Роббер, Пол; Стивенсон, Дэвид (26 января 2015 г.). «Совместная рабочая группа ВПМИ/РГЧЭ по исследованиям по проверке прогнозов». Сотрудничество в области австралийских исследований погоды и климата . Всемирная метеорологическая организация . Проверено 17 июля 2019 г.
^ Чикко Д., Джурман Дж. (январь 2020 г.). «Преимущества коэффициента корреляции Мэтьюза (MCC) перед показателем F1 и точность оценки двоичной классификации». БМК Геномика . 21 (1): 6-1–6-13. дои : 10.1186/s12864-019-6413-7 . ПМК 6941312 . ПМИД 31898477.
↑ Чикко Д., Тётч Н., Юрман Г. (февраль 2021 г.). «Коэффициент корреляции Мэтьюза (MCC) более надежен, чем сбалансированная точность, информированность букмекеров и выраженность при оценке двухклассовой матрицы путаницы». Добыча биоданных . 14 (13): 13. дои : 10.1186/s13040-021-00244-z . ПМЦ 7863449 . ПМИД 33541410.
^ Тарват А. (август 2018 г.). «Классификация методов оценки». Прикладная вычислительная техника и информатика . 17 : 168–192. дои : 10.1016/j.aci.2018.08.003 .
^ Брабец, Ян; Комарек, Томаш; Франк, Войтех; Махлица, Лукаш (2020). «Об оценке модели в условиях непостоянного классового дисбаланса». Международная конференция по вычислительной науке . Спрингер. стр. 74–87. arXiv : 2001.05571 . дои : 10.1007/978-3-030-50423-6_6 .
^ Сиблини, В.; Фрери, Дж.; Хе-Гелтон, Л.; Обле, Ф.; Ван, YQ (2020). «Совершенствуйте свои показатели с помощью калибровки». У М. Бертольда; А. Филдерс; Г. Кремль (ред.). Достижения в области интеллектуального анализа данных XVIII . Спрингер. стр. 457–469. arXiv : 1909.02827 . дои : 10.1007/978-3-030-44584-3_36 .
^ Бейтцель, Стивен М. (2006). О понимании и классификации веб-запросов (кандидатская диссертация). ИИТ. CiteSeerX 10.1.1.127.634 .
^ X. Ли; Д.-Ю. Ван; А. Асеро (июль 2008 г.). Изучение намерения запроса на основе регуляризованных графиков кликов . Материалы 31-й конференции СИГИР . п. 339. дои : 10.1145/1390334.1390393. ISBN9781605581644. S2CID 8482989.
^ См., например, оценку [1].
^ Пауэрс, Дэвид М.В. (2015). «То, что не измеряет F-мера». arXiv : 1503.06410 [cs.IR].
^ Дерчинский, Л. (2016). Дополнительность, F-оценка и оценка НЛП. Материалы Международной конференции по языковым ресурсам и оценке .
↑ Мэннинг, Кристофер (1 апреля 2009 г.). Введение в поиск информации (PDF) . Упражнение 8.7: Издательство Кембриджского университета. п. 200 . Проверено 18 июля 2022 г.{{cite book}}: CS1 maint: location (link)
^ «Какова базовая оценка F1 для бинарного классификатора?».
^ Липтон, З.К., Элкан, К.П., и Нараянасвами, Б. (2014). F1 — оптимальное пороговое значение в настройке нескольких меток. ArXiv, абс/1402.1892.
^ Хэнд, Дэвид. «Примечание об использовании F-меры для оценки алгоритмов связывания записей — Размеры». app.dimensions.ai . дои : 10.1007/s11222-017-9746-6. hdl : 10044/1/46235 . S2CID 38782128 . Проверено 8 декабря 2018 г.
^ Чикко Д., Джурман Дж. (январь 2020 г.). «Преимущества коэффициента корреляции Мэтьюза (MCC) перед показателем F1 и точность оценки двоичной классификации». БМК Геномика . 21 (6): 6. дои : 10.1186/s12864-019-6413-7 . ПМК 6941312 . ПМИД 31898477.
^ Пауэрс, Дэвид М.В. (2011). «Оценка: от точности, отзыва и F-оценки к ROC, информированности, маркированности и корреляции». Журнал технологий машинного обучения . 2 (1): 37–63. hdl : 2328/27165.
^ Тарват А (август 2018 г.). «Классификация методов оценки». Прикладная вычислительная техника и информатика . 17 : 168–192. дои : 10.1016/j.aci.2018.08.003 .
^ Дж. Опиц; С. Берст (2019). «Макро Ф1 и Макро Ф1». arXiv : 1911.03347 [stat.ML].