stringtranslate.com

Коэффициент Фи

В статистике коэффициент фи (или среднеквадратичный коэффициент непредвиденности , обозначаемый φ или r φ ) является мерой связи двух двоичных переменных .

В машинном обучении он известен как коэффициент корреляции Мэтьюза (MCC) и используется как мера качества бинарных (двухклассовых) классификаций , введенный биохимиком Брайаном Мэтьюзом в 1975 году. [1]

Введенная Карлом Пирсоном [ 2] и также известная как коэффициент Юла Фи из-за его введения Удным Юлом в 1912 году [3], эта мера аналогична коэффициенту корреляции Пирсона в своей интерпретации.

Определение

Коэффициент корреляции Пирсона , оцененный для двух двоичных переменных, вернет коэффициент фи. [4]

Две двоичные переменные считаются положительно связанными, если большая часть данных приходится на диагональные ячейки. Напротив, две двоичные переменные считаются отрицательно связанными, если большая часть данных выходит за пределы диагонали.

Если у нас есть таблица 2×2 для двух случайных величин x и  y

где n 11 , n 10 , n 01 , n 00 — неотрицательные числа наблюдений, которые в сумме дают  n — общее количество наблюдений. Коэффициент фи, который описывает связь x и y , равен

Phi связана с коэффициентом точечной бисериальной корреляции и d Коэна и оценивает степень связи между двумя переменными (2 × 2). [5]

Коэффициент фи также можно выразить, используя только , , и , как

Максимальные значения

Хотя в вычислительном отношении коэффициент корреляции Пирсона сводится к коэффициенту фи в случае 2×2, в целом они не одинаковы. Коэффициент корреляции Пирсона находится в диапазоне от -1 до +1, где ±1 указывает на полное согласие или несогласие, а 0 указывает на отсутствие связи. Коэффициент фи имеет максимальное значение, которое определяется распределением двух переменных, если одна или обе переменные могут принимать более двух значений. [ необходимо дальнейшее объяснение ] Подробное обсуждение см. в Davenport and El-Sanhury (1991) [6] .

Машинное обучение

MCC определяется идентично коэффициенту фи, введенному Карлом Пирсоном , [2] [7] также известному как коэффициент фи Юла с момента его введения Удным Юлом в 1912 году. [3] Несмотря на эти предшественники, которые предшествовали использованию Мэтьюза на несколько десятилетий, термин MCC широко используется в области биоинформатики и машинного обучения.

Коэффициент учитывает истинные и ложные положительные и отрицательные результаты и обычно рассматривается как сбалансированная мера, которую можно использовать, даже если классы имеют очень разные размеры. [8] MCC по сути является коэффициентом корреляции между наблюдаемыми и прогнозируемыми бинарными классификациями; он возвращает значение от −1 до +1. Коэффициент +1 представляет собой идеальное предсказание, 0 — не лучше, чем случайное предсказание, а —1 указывает на полное несоответствие между предсказанием и наблюдением. Однако, если MCC не равен ни −1, ни 0, ни +1, это не является надежным индикатором того, насколько предиктор похож на случайное угадывание, поскольку MCC зависит от набора данных. [9] MCC тесно связан со статистикой хи-квадрат для таблицы непредвиденных обстоятельств 2 × 2.

где n — общее количество наблюдений.

Хотя не существует идеального способа описания матрицы путаницы истинных, ложных положительных и отрицательных результатов с помощью одного числа, коэффициент корреляции Мэтьюза обычно считается одним из лучших таких показателей. [10] Другие показатели, такие как доля правильных прогнозов (также называемая точностью ), бесполезны, когда два класса имеют очень разные размеры. Например, отнесение каждого объекта к более широкому набору позволяет достичь высокой доли правильных предсказаний, но в целом это бесполезная классификация.

MCC можно рассчитать непосредственно из матрицы путаницы по формуле:

В этом уравнении TP — количество истинных положительных результатов , TN — количество истинных отрицательных результатов , FP — количество ложных положительных результатов и FN — количество ложных отрицательных результатов . Если ровно одна из четырех сумм в знаменателе равна нулю, знаменатель можно произвольно установить равным единице; в результате коэффициент корреляции Мэтьюза равен нулю, что, как можно показать, является правильным предельным значением. В случае, если две или более суммы равны нулю (например, обе метки и прогнозы модели положительные или отрицательные), предел не существует.

МКК можно рассчитать по формуле:

используя положительную прогностическую ценность, истинно положительный уровень, истинно отрицательный уровень, отрицательную прогностическую ценность, уровень ложного обнаружения, уровень ложноотрицательного результата, уровень ложноположительного результата и уровень ложного пропуска.

Исходная формула, данная Мэтьюзом, была: [1]

Это соответствует формуле, приведенной выше. В качестве коэффициента корреляции коэффициент корреляции Мэтьюза представляет собой среднее геометрическое коэффициентов регрессии задачи и ее двойника . Коэффициентами регрессии компонентов коэффициента корреляции Мэтьюза являются маркированность (Δp) и статистика Юдена J ( информированность или Δp'). [10] [11] Маркированность и информированность соответствуют различным направлениям информационного потока и обобщают J-статистику Юдена , p-статистику, в то время как их среднее геометрическое обобщает коэффициент корреляции Мэтьюза на более чем два класса. [10]

Некоторые ученые утверждают, что коэффициент корреляции Мэтьюза является наиболее информативным единственным показателем, позволяющим установить качество прогноза двоичного классификатора в контексте матрицы путаницы. [12] [13]

Пример

Учитывая выборку из 12 изображений, 8 кошек и 4 собак, где кошки относятся к классу 1, а собаки относятся к классу 0,

фактическое = [1,1,1,1,1,1,1,1,0,0,0,0],

Предположим, что классификатор, который различает кошек и собак, обучен, и мы берем 12 изображений и пропускаем их через классификатор, и классификатор делает 9 точных прогнозов и пропускает 3: 2 кошки ошибочно предсказаны как собаки (первые 2 прогноза) и 1 собака ошибочно была предсказана как кошка (последнее предсказание).

прогноз = [0,0, 1 , 1 , 1 , 1 , 1 , 1 , 0 , 0 , 0 , 1]

С помощью этих двух помеченных наборов (фактических и прогнозируемых) мы можем создать матрицу путаницы, которая будет суммировать результаты тестирования классификатора:

В этой матрице путаницы из 8 изображений кошек система решила, что 2 были собаками, а из 4 изображений собак она предсказала, что 1 — кошка. Все правильные прогнозы расположены по диагонали таблицы (выделены жирным шрифтом), поэтому легко визуально проверить таблицу на наличие ошибок прогнозов, поскольку они будут представлены значениями вне диагонали.

В абстрактных терминах матрица путаницы выглядит следующим образом:

где P = положительный; Н = отрицательный; TP = истинно положительный результат; FP = ложное срабатывание; TN = истинно отрицательный результат; ФН = ложноотрицательный результат.

Подставляем числа из формулы:

Матрица путаницы

Давайте определим эксперимент из P положительных экземпляров и N отрицательных экземпляров для некоторого условия. Четыре результата можно сформулировать в виде таблицы непредвиденных обстоятельств или матрицы путаницы 2×2 следующим образом:

  1. ^ количество реальных положительных случаев в данных
  2. ^ Результат теста, который правильно указывает на наличие состояния или характеристики.
  3. ^ Ошибка типа II: результат теста, который ошибочно указывает на отсутствие определенного условия или атрибута.
  4. ^ количество реальных отрицательных случаев в данных
  5. ^ Результат теста, который правильно указывает на отсутствие состояния или характеристики.
  6. ^ Ошибка типа I: результат теста, который ошибочно указывает на наличие определенного условия или атрибута.


Мультиклассовый случай

Коэффициент корреляции Мэтьюза был обобщен на многоклассовый случай. Обобщение, называемое статистикой (для K различных классов), было определено в терминах матрицы путаницы [22] . [23]

При наличии более двух меток MCC больше не будет находиться в диапазоне от –1 до +1. Вместо этого минимальное значение будет между –1 и 0 в зависимости от истинного распределения. Максимальное значение всегда +1.


Эту формулу легче понять, определив промежуточные переменные: [24]

Использование приведенной выше формулы для вычисления меры MCC для примера собаки и кошки, рассмотренного выше, где матрица путаницы рассматривается как пример 2 × Multiclass:

Альтернативное обобщение коэффициента корреляции Мэтьюза на более чем два класса было дано Пауэрсом [10] путем определения корреляции как среднего геометрического информированности и маркированности .

Несколько обобщений коэффициента корреляции Мэтьюса на более чем два класса вместе с новыми метриками многомерной корреляции для многомерной классификации были представлены П. Стойкой и П. Бабу [25] .

Преимущества перед точностью и оценкой F1

Как объяснил Давиде Чикко в своей статье «Десять быстрых советов по машинному обучению в вычислительной биологии » [12] ( BioData Mining , 2017) и «Преимущества коэффициента корреляции Мэтьюза (MCC) над оценкой F1 и точностью при оценке двоичной классификации» [26] ( BMC Genomics , 2020), коэффициент корреляции Мэтьюза более информативен, чем показатель F1 и точность при оценке задач бинарной классификации, поскольку он учитывает соотношения баланса четырех категорий матрицы путаницы (истинно положительные, истинные отрицательные, ложные положительные, ложноотрицательные). [12] [26]

В предыдущей статье объясняется Совет 8 : [ чрезмерная цитата ]

Чтобы получить общее представление о своем прогнозе, вы решаете воспользоваться общими статистическими показателями, такими как точность и показатель F1.

(Уравнение 1, точность: худшее значение = 0; лучшее значение = 1)

(Уравнение 2, оценка F1: худшее значение = 0; лучшее значение = 1)

Однако даже если точность и показатель F1 широко используются в статистике, оба могут вводить в заблуждение, поскольку они не полностью учитывают размер четырех классов матрицы путаницы при окончательном вычислении оценок.

Предположим, например, что у вас есть очень несбалансированный набор проверки, состоящий из 100 элементов, 95 из которых являются положительными элементами, и только 5 — отрицательными элементами (как описано в совете 5). Предположим также, что вы допустили некоторые ошибки при разработке и обучении классификатора машинного обучения, и теперь у вас есть алгоритм, который всегда предсказывает положительный результат. Представьте, что вы не в курсе этой проблемы.

Таким образом, применяя свой только положительный предиктор к несбалансированному набору проверки, вы получаете значения для категорий матрицы путаницы:

ТП = 95, ФП = 5; ТН = 0, ФН = 0.

Эти значения приводят к следующим показателям производительности: точность = 95 % и оценка F1 = 97,44 %. Прочитав эти чрезмерно оптимистичные оценки, вы будете очень счастливы и подумаете, что ваш алгоритм машинного обучения отлично справляется со своей задачей. Очевидно, вы будете на неправильном пути.

Напротив, чтобы избежать этих опасных обманчивых иллюзий, вы можете использовать еще один показатель производительности: коэффициент корреляции Мэтьюза [40] (MCC).

(Уравнение 3, MCC: худшее значение = −1; лучшее значение = +1).

Учитывая долю каждого класса матрицы путаницы в формуле, ее оценка будет высокой только в том случае, если ваш классификатор хорошо справляется как с отрицательными, так и с положительными элементами.

В приведенном выше примере показатель MCC будет неопределенным (поскольку TN и FN будут равны 0, поэтому знаменатель уравнения 3 будет равен 0). Проверив это значение вместо точности и оценки F1, вы сможете заметить, что ваш классификатор движется в неправильном направлении, и вы поймете, что есть проблемы, которые вам следует решить, прежде чем продолжить.

Рассмотрим другой пример. Вы выполнили классификацию для того же набора данных, что привело к следующим значениям для категорий матрицы путаницы:

ТП = 90, ФП = 4; ТН = 1, ФН = 5.

В этом примере классификатор хорошо справился с классификацией положительных экземпляров, но не смог правильно распознать отрицательные элементы данных. Опять же, итоговая оценка F1 и точность будут чрезвычайно высокими: точность = 91%, а оценка F1 = 95,24%. Как и в предыдущем случае, если бы исследователь проанализировал только эти два показателя оценки, не принимая во внимание MCC, он бы ошибочно решил, что алгоритм достаточно хорошо справляется со своей задачей, и у него возникла бы иллюзия успеха.

С другой стороны, проверка коэффициента корреляции Мэтьюза будет иметь решающее значение еще раз. В этом примере значение MCC будет 0,14 (уравнение 3), что указывает на то, что алгоритм работает аналогично случайному угадыванию. Действуя как сигнал тревоги, MCC сможет проинформировать специалиста по интеллектуальному анализу данных о том, что статистическая модель работает плохо.

По этим причинам мы настоятельно рекомендуем оценивать производительность каждого теста с помощью коэффициента корреляции Мэтьюза (MCC), а не точности и оценки F1, для любой проблемы двоичной классификации.

-  Давиде Чикко, Десять быстрых советов по машинному обучению в вычислительной биологии [12]

Отрывок Чикко можно рассматривать как одобрение оценки MCC в случаях с несбалансированными наборами данных. Это, однако, оспаривается; в частности, Чжу (2020) предлагает решительное опровержение. [27]

Обратите внимание, что оценка F1 зависит от того, какой класс определен как положительный класс. В первом примере выше оценка F1 высока, поскольку класс большинства определяется как положительный класс. Инвертирование положительных и отрицательных классов приводит к следующей матрице путаницы:

ТП = 0, ФП = 0; ТН = 5, ФН = 95

Это дает оценку F1 = 0%.

MCC не зависит от того, какой класс является положительным, который имеет преимущество перед показателем F1, чтобы избежать неправильного определения положительного класса.

Смотрите также

Рекомендации

  1. ^ Аб Мэтьюз, BW (1975). «Сравнение предсказанной и наблюдаемой вторичной структуры лизоцима фага Т4». Biochimica et Biophysical Acta (BBA) — Структура белка . 405 (2): 442–451. дои : 10.1016/0005-2795(75)90109-9. ПМИД  1180967.
  2. ^ аб Крамер, Х. (1946). Математические методы статистики . Принстон: Издательство Принстонского университета, стр. 282 (второй абзац). ISBN 0-691-08004-6 https://archive.org/details/in.ernet.dli.2015.223699 
  3. ^ аб Юл, Г. Удный (1912). «О методах измерения связи между двумя атрибутами». Журнал Королевского статистического общества . 75 (6): 579–652. дои : 10.2307/2340126. JSTOR  2340126.
  4. ^ Гилфорд, Дж. (1936). Психометрические методы . Нью-Йорк: McGraw – Hill Book Company, Inc.
  5. ^ Аарон Б., Кромри Дж. Д. и Феррон Дж. М. (1998, ноябрь). Приравнивание индексов величины эффекта на основе r и d: проблемы с общепринятой формулой. Доклад, представленный на ежегодном собрании Флоридской ассоциации исследований в области образования, Орландо, Флорида. (Служба воспроизведения документов ERIC № ED433353)
  6. ^ Давенпорт, Э., и Эль-Санхури, Н. (1991). Фи/Фимакс: обзор и синтез. Образовательные и психологические измерения, 51, 821–828.
  7. Дата неясна, но до его смерти в 1936 году.
  8. ^ Бугорбель, SB (2017). «Оптимальный классификатор несбалансированных данных с использованием метрики коэффициента корреляции Мэтьюза». ПЛОС ОДИН . 12 (6): e0177678. Бибкод : 2017PLoSO..1277678B. дои : 10.1371/journal.pone.0177678 . ПМК 5456046 . ПМИД  28574989. 
  9. ^ Чикко, Д.; Тётч, Н.; Джурман, Г. (2021). «Коэффициент корреляции Мэтьюза (MCC) более надежен, чем сбалансированная точность, информированность букмекеров и выраженность при оценке двухклассовой матрицы путаницы». Добыча биоданных . 14 (1): 13. дои : 10.1186/s13040-021-00244-z . ПМЦ 7863449 . ПМИД  33541410. 
  10. ↑ abcd Powers, Дэвид М.В. (10 октября 2020 г.). «Оценка: от точности, отзыва и F-меры к ROC, информированности, маркированности и корреляции». arXiv : 2010.16061 [cs.LG].
  11. ^ Перрюше, П.; Пиреман, Р. (2004). «Использование распределительной информации при обработке слогов». Ж. Нейролингвистика . 17 (2–3): 97–119. дои : 10.1016/s0911-6044(03)00059-9. S2CID  17104364.
  12. ^ abcd Chicco D (декабрь 2017 г.). «Десять быстрых советов по машинному обучению в вычислительной биологии». Добыча биоданных . 10 (35): 35. дои : 10.1186/s13040-017-0155-3 . ПМК 5721660 . ПМИД  29234465. 
  13. ^ Чикко Д., Джурман Г. Коэффициент корреляции Мэтьюза (MCC) должен заменить ROC AUC в качестве стандартного показателя для оценки бинарной классификации. Биоданные Мин. 2023, 17 февраля;16(1):4. дои: 10.1186/s13040-023-00322-4. PMID: 36800973; PMCID: PMC9938573. https://biodatamining.biomedcentral.com/articles/10.1186/s13040-023-00322-4
  14. ^ Фосетт, Том (2006). «Введение в ROC-анализ» (PDF) . Буквы для распознавания образов . 27 (8): 861–874. doi :10.1016/j.patrec.2005.10.010. S2CID  2027090.
  15. ^ Провост, Фостер; Том Фосетт (01 августа 2013 г.). «Наука о данных для бизнеса: что нужно знать об интеллектуальном анализе данных и аналитическом мышлении». О'Рейли Медиа, Инк .
  16. ^ Пауэрс, Дэвид М.В. (2011). «Оценка: от точности, отзыва и F-меры к ROC, информированности, маркированности и корреляции». Журнал технологий машинного обучения . 2 (1): 37–63.
  17. ^ Тинг, Кай Мин (2011). Саммут, Клод; Уэбб, Джеффри И. (ред.). Энциклопедия машинного обучения . Спрингер. дои : 10.1007/978-0-387-30164-8. ISBN 978-0-387-30164-8.
  18. ^ Брукс, Гарольд; Браун, Барб; Эберт, Бет; Ферро, Крис; Джоллифф, Ян; Ко, Тие-Ён; Роббер, Пол; Стивенсон, Дэвид (26 января 2015 г.). «Совместная рабочая группа ВПМИ/РГЧЭ по исследованиям по проверке прогнозов». Сотрудничество в области австралийских исследований погоды и климата . Всемирная метеорологическая организация . Проверено 17 июля 2019 г.
  19. ^ Чикко Д., Джурман Дж. (январь 2020 г.). «Преимущества коэффициента корреляции Мэтьюза (MCC) перед показателем F1 и точность оценки двоичной классификации». БМК Геномика . 21 (1): 6-1–6-13. дои : 10.1186/s12864-019-6413-7 . ПМК 6941312 . ПМИД  31898477. 
  20. Чикко Д., Тётч Н., Юрман Г. (февраль 2021 г.). «Коэффициент корреляции Мэтьюза (MCC) более надежен, чем сбалансированная точность, информированность букмекеров и выраженность при оценке двухклассовой матрицы путаницы». Добыча биоданных . 14 (13): 13. дои : 10.1186/s13040-021-00244-z . ПМЦ 7863449 . ПМИД  33541410. 
  21. ^ Тарват А. (август 2018 г.). «Классификация методов оценки». Прикладная вычислительная техника и информатика . 17 : 168–192. дои : 10.1016/j.aci.2018.08.003 .
  22. ^ Городкин, Ян (2004). «Сравнение двух присвоений K-категории по коэффициенту корреляции K-категории». Вычислительная биология и химия . 28 (5): 367–374. doi :10.1016/j.compbiolchem.2004.09.006. ПМИД  15556477.
  23. ^ Городкин, Ян. "Страница РК". Страница РК . Проверено 28 декабря 2016 г.
  24. ^ «Коэффициент корреляции Мэтью». scikit-learn.org .
  25. ^ Стойка П. и Бабу П. (2024), Коэффициенты корреляции Пирсона – Мэтьюза для двоичной и многочленной классификации, Elsevier Signal Processing, 222, 109511, doi = https://doi.org/10.1016/j.sigpro.2024.109511
  26. ^ аб Чикко Д., Джурман Дж. (январь 2020 г.). «Преимущества коэффициента корреляции Мэтьюза (MCC) перед показателем F1 и точность оценки двоичной классификации». БМК Геномика . 21 (1): 6-1–6-13. дои : 10.1186/s12864-019-6413-7 . ПМК 6941312 . ПМИД  31898477. 
  27. ^ Чжу, Цюмин (01 августа 2020 г.). «О работе коэффициента корреляции Мэтьюза (MCC) для несбалансированного набора данных». Буквы для распознавания образов . 136 : 71–80. Бибкод : 2020PaReL.136...71Z. doi :10.1016/j.patrec.2020.03.030. ISSN  0167-8655. S2CID  219762950.