В статистике коэффициент фи (или среднеквадратичный коэффициент непредвиденности , обозначаемый φ или r φ ) является мерой связи двух двоичных переменных .
В машинном обучении он известен как коэффициент корреляции Мэтьюза (MCC) и используется как мера качества бинарных (двухклассовых) классификаций , введенный биохимиком Брайаном Мэтьюзом в 1975 году. [1]
Введенная Карлом Пирсоном [ 2] и также известная как коэффициент Юла Фи из-за его введения Удным Юлом в 1912 году [3], эта мера аналогична коэффициенту корреляции Пирсона в своей интерпретации.
Коэффициент корреляции Пирсона , оцененный для двух двоичных переменных, вернет коэффициент фи. [4]
Две двоичные переменные считаются положительно связанными, если большая часть данных приходится на диагональные ячейки. Напротив, две двоичные переменные считаются отрицательно связанными, если большая часть данных выходит за пределы диагонали.
Если у нас есть таблица 2×2 для двух случайных величин x и y
где n 11 , n 10 , n 01 , n 00 — неотрицательные числа наблюдений, которые в сумме дают n — общее количество наблюдений. Коэффициент фи, который описывает связь x и y , равен
Phi связана с коэффициентом точечной бисериальной корреляции и d Коэна и оценивает степень связи между двумя переменными (2 × 2). [5]
Коэффициент фи также можно выразить, используя только , , и , как
Хотя в вычислительном отношении коэффициент корреляции Пирсона сводится к коэффициенту фи в случае 2×2, в целом они не одинаковы. Коэффициент корреляции Пирсона находится в диапазоне от -1 до +1, где ±1 указывает на полное согласие или несогласие, а 0 указывает на отсутствие связи. Коэффициент фи имеет максимальное значение, которое определяется распределением двух переменных, если одна или обе переменные могут принимать более двух значений. [ необходимо дальнейшее объяснение ] Подробное обсуждение см. в Davenport and El-Sanhury (1991) [6] .
MCC определяется идентично коэффициенту фи, введенному Карлом Пирсоном , [2] [7] также известному как коэффициент фи Юла с момента его введения Удным Юлом в 1912 году. [3] Несмотря на эти предшественники, которые предшествовали использованию Мэтьюза на несколько десятилетий, термин MCC широко используется в области биоинформатики и машинного обучения.
Коэффициент учитывает истинные и ложные положительные и отрицательные результаты и обычно рассматривается как сбалансированная мера, которую можно использовать, даже если классы имеют очень разные размеры. [8] MCC по сути является коэффициентом корреляции между наблюдаемыми и прогнозируемыми бинарными классификациями; он возвращает значение от −1 до +1. Коэффициент +1 представляет собой идеальное предсказание, 0 — не лучше, чем случайное предсказание, а —1 указывает на полное несоответствие между предсказанием и наблюдением. Однако, если MCC не равен ни −1, ни 0, ни +1, это не является надежным индикатором того, насколько предиктор похож на случайное угадывание, поскольку MCC зависит от набора данных. [9] MCC тесно связан со статистикой хи-квадрат для таблицы непредвиденных обстоятельств 2 × 2.
где n — общее количество наблюдений.
Хотя не существует идеального способа описания матрицы путаницы истинных, ложных положительных и отрицательных результатов с помощью одного числа, коэффициент корреляции Мэтьюза обычно считается одним из лучших таких показателей. [10] Другие показатели, такие как доля правильных прогнозов (также называемая точностью ), бесполезны, когда два класса имеют очень разные размеры. Например, отнесение каждого объекта к более широкому набору позволяет достичь высокой доли правильных предсказаний, но в целом это бесполезная классификация.
MCC можно рассчитать непосредственно из матрицы путаницы по формуле:
В этом уравнении TP — количество истинных положительных результатов , TN — количество истинных отрицательных результатов , FP — количество ложных положительных результатов и FN — количество ложных отрицательных результатов . Если ровно одна из четырех сумм в знаменателе равна нулю, знаменатель можно произвольно установить равным единице; в результате коэффициент корреляции Мэтьюза равен нулю, что, как можно показать, является правильным предельным значением. В случае, если две или более суммы равны нулю (например, обе метки и прогнозы модели положительные или отрицательные), предел не существует.
МКК можно рассчитать по формуле:
используя положительную прогностическую ценность, истинно положительный уровень, истинно отрицательный уровень, отрицательную прогностическую ценность, уровень ложного обнаружения, уровень ложноотрицательного результата, уровень ложноположительного результата и уровень ложного пропуска.
Исходная формула, данная Мэтьюзом, была: [1]
Это соответствует формуле, приведенной выше. В качестве коэффициента корреляции коэффициент корреляции Мэтьюза представляет собой среднее геометрическое коэффициентов регрессии задачи и ее двойника . Коэффициентами регрессии компонентов коэффициента корреляции Мэтьюза являются маркированность (Δp) и статистика Юдена J ( информированность или Δp'). [10] [11] Маркированность и информированность соответствуют различным направлениям информационного потока и обобщают J-статистику Юдена , p-статистику, в то время как их среднее геометрическое обобщает коэффициент корреляции Мэтьюза на более чем два класса. [10]
Некоторые ученые утверждают, что коэффициент корреляции Мэтьюза является наиболее информативным единственным показателем, позволяющим установить качество прогноза двоичного классификатора в контексте матрицы путаницы. [12] [13]
Учитывая выборку из 12 изображений, 8 кошек и 4 собак, где кошки относятся к классу 1, а собаки относятся к классу 0,
Предположим, что классификатор, который различает кошек и собак, обучен, и мы берем 12 изображений и пропускаем их через классификатор, и классификатор делает 9 точных прогнозов и пропускает 3: 2 кошки ошибочно предсказаны как собаки (первые 2 прогноза) и 1 собака ошибочно была предсказана как кошка (последнее предсказание).
С помощью этих двух помеченных наборов (фактических и прогнозируемых) мы можем создать матрицу путаницы, которая будет суммировать результаты тестирования классификатора:
В этой матрице путаницы из 8 изображений кошек система решила, что 2 были собаками, а из 4 изображений собак она предсказала, что 1 — кошка. Все правильные прогнозы расположены по диагонали таблицы (выделены жирным шрифтом), поэтому легко визуально проверить таблицу на наличие ошибок прогнозов, поскольку они будут представлены значениями вне диагонали.
В абстрактных терминах матрица путаницы выглядит следующим образом:
где P = положительный; Н = отрицательный; TP = истинно положительный результат; FP = ложное срабатывание; TN = истинно отрицательный результат; ФН = ложноотрицательный результат.
Подставляем числа из формулы:
Давайте определим эксперимент из P положительных экземпляров и N отрицательных экземпляров для некоторого условия. Четыре результата можно сформулировать в виде таблицы непредвиденных обстоятельств или матрицы путаницы 2×2 следующим образом:
Коэффициент корреляции Мэтьюза был обобщен на многоклассовый случай. Обобщение, называемое статистикой (для K различных классов), было определено в терминах матрицы путаницы [22] . [23]
При наличии более двух меток MCC больше не будет находиться в диапазоне от –1 до +1. Вместо этого минимальное значение будет между –1 и 0 в зависимости от истинного распределения. Максимальное значение всегда +1.
Эту формулу легче понять, определив промежуточные переменные: [24]
Использование приведенной выше формулы для вычисления меры MCC для примера собаки и кошки, рассмотренного выше, где матрица путаницы рассматривается как пример 2 × Multiclass:
Альтернативное обобщение коэффициента корреляции Мэтьюза на более чем два класса было дано Пауэрсом [10] путем определения корреляции как среднего геометрического информированности и маркированности .
Несколько обобщений коэффициента корреляции Мэтьюса на более чем два класса вместе с новыми метриками многомерной корреляции для многомерной классификации были представлены П. Стойкой и П. Бабу [25] .
Как объяснил Давиде Чикко в своей статье «Десять быстрых советов по машинному обучению в вычислительной биологии » [12] ( BioData Mining , 2017) и «Преимущества коэффициента корреляции Мэтьюза (MCC) над оценкой F1 и точностью при оценке двоичной классификации» [26] ( BMC Genomics , 2020), коэффициент корреляции Мэтьюза более информативен, чем показатель F1 и точность при оценке задач бинарной классификации, поскольку он учитывает соотношения баланса четырех категорий матрицы путаницы (истинно положительные, истинные отрицательные, ложные положительные, ложноотрицательные). [12] [26]
В предыдущей статье объясняется Совет 8 : [ чрезмерная цитата ]
Чтобы получить общее представление о своем прогнозе, вы решаете воспользоваться общими статистическими показателями, такими как точность и показатель F1.
(Уравнение 1, точность: худшее значение = 0; лучшее значение = 1)
(Уравнение 2, оценка F1: худшее значение = 0; лучшее значение = 1)
Однако даже если точность и показатель F1 широко используются в статистике, оба могут вводить в заблуждение, поскольку они не полностью учитывают размер четырех классов матрицы путаницы при окончательном вычислении оценок.
Предположим, например, что у вас есть очень несбалансированный набор проверки, состоящий из 100 элементов, 95 из которых являются положительными элементами, и только 5 — отрицательными элементами (как описано в совете 5). Предположим также, что вы допустили некоторые ошибки при разработке и обучении классификатора машинного обучения, и теперь у вас есть алгоритм, который всегда предсказывает положительный результат. Представьте, что вы не в курсе этой проблемы.
Таким образом, применяя свой только положительный предиктор к несбалансированному набору проверки, вы получаете значения для категорий матрицы путаницы:
- ТП = 95, ФП = 5; ТН = 0, ФН = 0.
Эти значения приводят к следующим показателям производительности: точность = 95 % и оценка F1 = 97,44 %. Прочитав эти чрезмерно оптимистичные оценки, вы будете очень счастливы и подумаете, что ваш алгоритм машинного обучения отлично справляется со своей задачей. Очевидно, вы будете на неправильном пути.
Напротив, чтобы избежать этих опасных обманчивых иллюзий, вы можете использовать еще один показатель производительности: коэффициент корреляции Мэтьюза [40] (MCC).
(Уравнение 3, MCC: худшее значение = −1; лучшее значение = +1).
Учитывая долю каждого класса матрицы путаницы в формуле, ее оценка будет высокой только в том случае, если ваш классификатор хорошо справляется как с отрицательными, так и с положительными элементами.
В приведенном выше примере показатель MCC будет неопределенным (поскольку TN и FN будут равны 0, поэтому знаменатель уравнения 3 будет равен 0). Проверив это значение вместо точности и оценки F1, вы сможете заметить, что ваш классификатор движется в неправильном направлении, и вы поймете, что есть проблемы, которые вам следует решить, прежде чем продолжить.
Рассмотрим другой пример. Вы выполнили классификацию для того же набора данных, что привело к следующим значениям для категорий матрицы путаницы:
- ТП = 90, ФП = 4; ТН = 1, ФН = 5.
В этом примере классификатор хорошо справился с классификацией положительных экземпляров, но не смог правильно распознать отрицательные элементы данных. Опять же, итоговая оценка F1 и точность будут чрезвычайно высокими: точность = 91%, а оценка F1 = 95,24%. Как и в предыдущем случае, если бы исследователь проанализировал только эти два показателя оценки, не принимая во внимание MCC, он бы ошибочно решил, что алгоритм достаточно хорошо справляется со своей задачей, и у него возникла бы иллюзия успеха.
С другой стороны, проверка коэффициента корреляции Мэтьюза будет иметь решающее значение еще раз. В этом примере значение MCC будет 0,14 (уравнение 3), что указывает на то, что алгоритм работает аналогично случайному угадыванию. Действуя как сигнал тревоги, MCC сможет проинформировать специалиста по интеллектуальному анализу данных о том, что статистическая модель работает плохо.
По этим причинам мы настоятельно рекомендуем оценивать производительность каждого теста с помощью коэффициента корреляции Мэтьюза (MCC), а не точности и оценки F1, для любой проблемы двоичной классификации.
- Давиде Чикко, Десять быстрых советов по машинному обучению в вычислительной биологии [12]
Отрывок Чикко можно рассматривать как одобрение оценки MCC в случаях с несбалансированными наборами данных. Это, однако, оспаривается; в частности, Чжу (2020) предлагает решительное опровержение. [27]
Обратите внимание, что оценка F1 зависит от того, какой класс определен как положительный класс. В первом примере выше оценка F1 высока, поскольку класс большинства определяется как положительный класс. Инвертирование положительных и отрицательных классов приводит к следующей матрице путаницы:
Это дает оценку F1 = 0%.
MCC не зависит от того, какой класс является положительным, который имеет преимущество перед показателем F1, чтобы избежать неправильного определения положительного класса.