Коэффициент Фи

В статистике коэффициент фи (или среднеквадратичный коэффициент непредвиденности , обозначаемый φ или r _φ ) является мерой связи двух двоичных переменных .

В машинном обучении он известен как коэффициент корреляции Мэтьюза (MCC) и используется как мера качества бинарных (двухклассовых) классификаций , введенный биохимиком Брайаном Мэтьюзом в 1975 году. ^[1]

Введенная Карлом Пирсоном [ ^2] и также известная как коэффициент Юла Фи из-за его введения Удным Юлом в 1912 году ^[3], эта мера аналогична коэффициенту корреляции Пирсона в своей интерпретации.

Определение

Коэффициент корреляции Пирсона , оцененный для двух двоичных переменных, вернет коэффициент фи. ^[4]

Две двоичные переменные считаются положительно связанными, если большая часть данных приходится на диагональные ячейки. Напротив, две двоичные переменные считаются отрицательно связанными, если большая часть данных выходит за пределы диагонали.

Если у нас есть таблица 2×2 для двух случайных величин x и y

где n ₁₁ , n ₁₀ , n ₀₁ , n ₀₀ — неотрицательные числа наблюдений, которые в сумме дают n — общее количество наблюдений. Коэффициент фи, который описывает связь x и y , равен

\phi ={\frac {n_{11}n_{00}-n_{10}n_{01}}{\sqrt {n_{1\bullet }n_{0\bullet }n_{\bullet 0} n_{\bullet 1}}}}.

Phi связана с коэффициентом точечной бисериальной корреляции и d Коэна и оценивает степень связи между двумя переменными (2 × 2). ^[5]

Коэффициент фи также можно выразить, используя только , , и , как $п$ $n_{11}$ $n_{1\bullet }$ $n_{\bullet 1}$

\phi ={\frac {nn_{11}-n_{1\bullet }n_{\bullet 1}}{\sqrt {n_{1\bullet }n_{\bullet 1}(n-n_{1 \bullet })(n-n_{\bullet 1})}}}.

Максимальные значения

Хотя в вычислительном отношении коэффициент корреляции Пирсона сводится к коэффициенту фи в случае 2×2, в целом они не одинаковы. Коэффициент корреляции Пирсона находится в диапазоне от -1 до +1, где ±1 указывает на полное согласие или несогласие, а 0 указывает на отсутствие связи. Коэффициент фи имеет максимальное значение, которое определяется распределением двух переменных, если одна или обе переменные могут принимать более двух значений. ^{[ необходимо дальнейшее объяснение ]} Подробное обсуждение см. в Davenport and El-Sanhury (1991) ^{[6] .}

Машинное обучение

MCC определяется идентично коэффициенту фи, введенному Карлом Пирсоном , ^[2]^[7] также известному как коэффициент фи Юла с момента его введения Удным Юлом в 1912 году. ^[3] Несмотря на эти предшественники, которые предшествовали использованию Мэтьюза на несколько десятилетий, термин MCC широко используется в области биоинформатики и машинного обучения.

Коэффициент учитывает истинные и ложные положительные и отрицательные результаты и обычно рассматривается как сбалансированная мера, которую можно использовать, даже если классы имеют очень разные размеры. ^[8] MCC по сути является коэффициентом корреляции между наблюдаемыми и прогнозируемыми бинарными классификациями; он возвращает значение от −1 до +1. Коэффициент +1 представляет собой идеальное предсказание, 0 — не лучше, чем случайное предсказание, а —1 указывает на полное несоответствие между предсказанием и наблюдением. Однако, если MCC не равен ни −1, ни 0, ни +1, это не является надежным индикатором того, насколько предиктор похож на случайное угадывание, поскольку MCC зависит от набора данных. ^[9] MCC тесно связан со статистикой хи-квадрат для таблицы непредвиденных обстоятельств 2 × 2.

|{\text{MCC}}|={\sqrt {\frac {\chi ^{2}}{n}}}

где n — общее количество наблюдений.

Хотя не существует идеального способа описания матрицы путаницы истинных, ложных положительных и отрицательных результатов с помощью одного числа, коэффициент корреляции Мэтьюза обычно считается одним из лучших таких показателей. ^[10] Другие показатели, такие как доля правильных прогнозов (также называемая точностью ), бесполезны, когда два класса имеют очень разные размеры. Например, отнесение каждого объекта к более широкому набору позволяет достичь высокой доли правильных предсказаний, но в целом это бесполезная классификация.

MCC можно рассчитать непосредственно из матрицы путаницы по формуле:

{\text{MCC}}={\frac {{\mathit {TP}}\times {\mathit {TN}}-{\mathit {FP}}\times {\mathit {FN}}}{ \sqrt {({\mathit {TP}}+{\mathit {FP}})({\mathit {TP}}+{\mathit {FN}})({\mathit {TN}}+{\mathit { FP}})({\mathit {TN}}+{\mathit {FN}})}}}

В этом уравнении TP — количество истинных положительных результатов , TN — количество истинных отрицательных результатов , FP — количество ложных положительных результатов и FN — количество ложных отрицательных результатов . Если ровно одна из четырех сумм в знаменателе равна нулю, знаменатель можно произвольно установить равным единице; в результате коэффициент корреляции Мэтьюза равен нулю, что, как можно показать, является правильным предельным значением. В случае, если две или более суммы равны нулю (например, обе метки и прогнозы модели положительные или отрицательные), предел не существует.

МКК можно рассчитать по формуле:

{\text{MCC}}={\sqrt {{\mathit {PPV}}\times {\mathit {TPR}}\times {\mathit {TNR}}\times {\mathit {NPV}}} }-{\sqrt {{\mathit {FDR}}\times {\mathit {FNR}}\times {\mathit {FPR}}\times {\mathit {FOR}}}}

используя положительную прогностическую ценность, истинно положительный уровень, истинно отрицательный уровень, отрицательную прогностическую ценность, уровень ложного обнаружения, уровень ложноотрицательного результата, уровень ложноположительного результата и уровень ложного пропуска.

Исходная формула, данная Мэтьюзом, была: ^[1]

{\begin{aligned}N&={\mathit {TN}}+{\mathit {TP}}+{\mathit {FN}}+{\mathit {FP}}\\S&={\frac { {\mathit {TP}}+{\mathit {FN}}}{N}}\\P&={\frac {{\mathit {TP}}+{\mathit {FP}}}{N}}\\ {\text{MCC}}&={\frac {{\mathit {TP}}/NS\times P}{\sqrt {PS(1-S)(1-P)}}}\end{aligned}}

Это соответствует формуле, приведенной выше. В качестве коэффициента корреляции коэффициент корреляции Мэтьюза представляет собой среднее геометрическое коэффициентов регрессии задачи и ее двойника . Коэффициентами регрессии компонентов коэффициента корреляции Мэтьюза являются маркированность (Δp) и статистика Юдена J ( информированность или Δp'). ^[10]^[11] Маркированность и информированность соответствуют различным направлениям информационного потока и обобщают J-статистику Юдена , p-статистику, в то время как их среднее геометрическое обобщает коэффициент корреляции Мэтьюза на более чем два класса. ^[10] $\delta$

Некоторые ученые утверждают, что коэффициент корреляции Мэтьюза является наиболее информативным единственным показателем, позволяющим установить качество прогноза двоичного классификатора в контексте матрицы путаницы. ^[12]^[13]

Пример

Учитывая выборку из 12 изображений, 8 кошек и 4 собак, где кошки относятся к классу 1, а собаки относятся к классу 0,

фактическое = [1,1,1,1,1,1,1,1,0,0,0,0],

Предположим, что классификатор, который различает кошек и собак, обучен, и мы берем 12 изображений и пропускаем их через классификатор, и классификатор делает 9 точных прогнозов и пропускает 3: 2 кошки ошибочно предсказаны как собаки (первые 2 прогноза) и 1 собака ошибочно была предсказана как кошка (последнее предсказание).

прогноз = [0,0, 1 , 1 , 1 , 1 , 1 , 1 , 0 , 0 , 0 , 1]

С помощью этих двух помеченных наборов (фактических и прогнозируемых) мы можем создать матрицу путаницы, которая будет суммировать результаты тестирования классификатора:

В этой матрице путаницы из 8 изображений кошек система решила, что 2 были собаками, а из 4 изображений собак она предсказала, что 1 — кошка. Все правильные прогнозы расположены по диагонали таблицы (выделены жирным шрифтом), поэтому легко визуально проверить таблицу на наличие ошибок прогнозов, поскольку они будут представлены значениями вне диагонали.

В абстрактных терминах матрица путаницы выглядит следующим образом:

где P = положительный; Н = отрицательный; TP = истинно положительный результат; FP = ложное срабатывание; TN = истинно отрицательный результат; ФН = ложноотрицательный результат.

Подставляем числа из формулы:

{\text{MCC}}={\frac {6\times 3-1\times 2}{\sqrt {(6+1)\times (6+2)\times (3+1)\times (3+2)}}}={\frac {16}{\sqrt {1120}}}\приблизительно 0,478

Матрица путаницы

Давайте определим эксперимент из P положительных экземпляров и N отрицательных экземпляров для некоторого условия. Четыре результата можно сформулировать в виде таблицы непредвиденных обстоятельств или матрицы путаницы 2×2 следующим образом:

^ количество реальных положительных случаев в данных
^ Результат теста, который правильно указывает на наличие состояния или характеристики.
^ Ошибка типа II: результат теста, который ошибочно указывает на отсутствие определенного условия или атрибута.
^ количество реальных отрицательных случаев в данных
^ Результат теста, который правильно указывает на отсутствие состояния или характеристики.
^ Ошибка типа I: результат теста, который ошибочно указывает на наличие определенного условия или атрибута.

Мультиклассовый случай

Коэффициент корреляции Мэтьюза был обобщен на многоклассовый случай. Обобщение, называемое статистикой (для K различных классов), было определено в терминах матрицы путаницы ^[22] . ^[23] $R_{K}$ $K\times K$ $C$

{\text{MCC}}={\frac {\sum _{k}\sum _{l}\sum _{m}C_{kk}C_{lm}-C_{kl}C_{mk}}{{\sqrt {\sum _{k}\left(\sum _{l}C_{kl}\right)\left(\sum _{k'|k'\neq k}\sum _{l'}C_{k'l'}\right)}}{\sqrt {\sum _{k}\left(\sum _{l}C_{lk}\right)\left(\sum _{k'|k'\neq k}\sum _{l'}C_{l'k'}\right)}}}}

При наличии более двух меток MCC больше не будет находиться в диапазоне от –1 до +1. Вместо этого минимальное значение будет между –1 и 0 в зависимости от истинного распределения. Максимальное значение всегда +1.

Эту формулу легче понять, определив промежуточные переменные: ^[24]

$t_{k}=\sum _{i}C_{ik}$ сколько раз действительно возникал класс k,
$p_{k}=\sum _{i}C_{ki}$ сколько раз класс k был предсказан,
$c=\sum _{k}C_{kk}$ общее количество правильно предсказанных образцов,
$s=\sum _{i}\sum _{j}C_{ij}$ общее количество образцов. Это позволяет выразить формулу следующим образом:

{\text{MCC}}={\frac {cs-{\vec {t}}\cdot {\vec {p}}}{{\sqrt {s^{2}-{\vec {p}}\cdot {\vec {p}}}}{\sqrt {s^{2}-{\vec {t}}\cdot {\vec {t}}}}}}

Использование приведенной выше формулы для вычисления меры MCC для примера собаки и кошки, рассмотренного выше, где матрица путаницы рассматривается как пример 2 × Multiclass:

{\text{MCC}}={\frac {(6+3)\times {\color {green}12}\;-\;{\color {blue}5}\times {\color {brown}4}\;-\;{\color {purple}7}\times {\color {maroon}8}}{{\sqrt {{\color {green}12}^{2}-{\color {blue}5}^{2}-{\color {purple}7}^{2}}}{\sqrt {{\color {green}12}^{2}-{\color {brown}4}^{2}-{\color {maroon}8}^{2}}}}}={\frac {32}{\sqrt {4480}}}\approx 0.478

Альтернативное обобщение коэффициента корреляции Мэтьюза на более чем два класса было дано Пауэрсом ^[10] путем определения корреляции как среднего геометрического информированности и маркированности .

Несколько обобщений коэффициента корреляции Мэтьюса на более чем два класса вместе с новыми метриками многомерной корреляции для многомерной классификации были представлены П. Стойкой и П. Бабу ^[25] .

Преимущества перед точностью и оценкой F1

Как объяснил Давиде Чикко в своей статье «Десять быстрых советов по машинному обучению в вычислительной биологии » ^[12] ( BioData Mining , 2017) и «Преимущества коэффициента корреляции Мэтьюза (MCC) над оценкой F1 и точностью при оценке двоичной классификации» ^[26] ( BMC Genomics , 2020), коэффициент корреляции Мэтьюза более информативен, чем показатель F1 и точность при оценке задач бинарной классификации, поскольку он учитывает соотношения баланса четырех категорий матрицы путаницы (истинно положительные, истинные отрицательные, ложные положительные, ложноотрицательные). ^[12]^[26]

В предыдущей статье объясняется Совет 8 : ^{[ чрезмерная цитата ]}

Чтобы получить общее представление о своем прогнозе, вы решаете воспользоваться общими статистическими показателями, такими как точность и показатель F1.
${\text{accuracy}}={\frac {TP+TN}{TP+TN+FP+FN}}$
(Уравнение 1, точность: худшее значение = 0; лучшее значение = 1)
${\text{F1 score}}={\frac {2TP}{2TP+FP+FN}}$
(Уравнение 2, оценка F1: худшее значение = 0; лучшее значение = 1)
Однако даже если точность и показатель F1 широко используются в статистике, оба могут вводить в заблуждение, поскольку они не полностью учитывают размер четырех классов матрицы путаницы при окончательном вычислении оценок.
Предположим, например, что у вас есть очень несбалансированный набор проверки, состоящий из 100 элементов, 95 из которых являются положительными элементами, и только 5 — отрицательными элементами (как описано в совете 5). Предположим также, что вы допустили некоторые ошибки при разработке и обучении классификатора машинного обучения, и теперь у вас есть алгоритм, который всегда предсказывает положительный результат. Представьте, что вы не в курсе этой проблемы.
Таким образом, применяя свой только положительный предиктор к несбалансированному набору проверки, вы получаете значения для категорий матрицы путаницы:
ТП = 95, ФП = 5; ТН = 0, ФН = 0.
Эти значения приводят к следующим показателям производительности: точность = 95 % и оценка F1 = 97,44 %. Прочитав эти чрезмерно оптимистичные оценки, вы будете очень счастливы и подумаете, что ваш алгоритм машинного обучения отлично справляется со своей задачей. Очевидно, вы будете на неправильном пути.
Напротив, чтобы избежать этих опасных обманчивых иллюзий, вы можете использовать еще один показатель производительности: коэффициент корреляции Мэтьюза [40] (MCC).
${\text{MCC}}={\frac {TP\times TN-FP\times FN}{\sqrt {(TP+FP)(TP+FN)(TN+FP)(TN+FN)}}}$
(Уравнение 3, MCC: худшее значение = −1; лучшее значение = +1).
Учитывая долю каждого класса матрицы путаницы в формуле, ее оценка будет высокой только в том случае, если ваш классификатор хорошо справляется как с отрицательными, так и с положительными элементами.
В приведенном выше примере показатель MCC будет неопределенным (поскольку TN и FN будут равны 0, поэтому знаменатель уравнения 3 будет равен 0). Проверив это значение вместо точности и оценки F1, вы сможете заметить, что ваш классификатор движется в неправильном направлении, и вы поймете, что есть проблемы, которые вам следует решить, прежде чем продолжить.
Рассмотрим другой пример. Вы выполнили классификацию для того же набора данных, что привело к следующим значениям для категорий матрицы путаницы:
ТП = 90, ФП = 4; ТН = 1, ФН = 5.
В этом примере классификатор хорошо справился с классификацией положительных экземпляров, но не смог правильно распознать отрицательные элементы данных. Опять же, итоговая оценка F1 и точность будут чрезвычайно высокими: точность = 91%, а оценка F1 = 95,24%. Как и в предыдущем случае, если бы исследователь проанализировал только эти два показателя оценки, не принимая во внимание MCC, он бы ошибочно решил, что алгоритм достаточно хорошо справляется со своей задачей, и у него возникла бы иллюзия успеха.
С другой стороны, проверка коэффициента корреляции Мэтьюза будет иметь решающее значение еще раз. В этом примере значение MCC будет 0,14 (уравнение 3), что указывает на то, что алгоритм работает аналогично случайному угадыванию. Действуя как сигнал тревоги, MCC сможет проинформировать специалиста по интеллектуальному анализу данных о том, что статистическая модель работает плохо.
По этим причинам мы настоятельно рекомендуем оценивать производительность каждого теста с помощью коэффициента корреляции Мэтьюза (MCC), а не точности и оценки F1, для любой проблемы двоичной классификации.
- Давиде Чикко, Десять быстрых советов по машинному обучению в вычислительной биологии ^[12]

Отрывок Чикко можно рассматривать как одобрение оценки MCC в случаях с несбалансированными наборами данных. Это, однако, оспаривается; в частности, Чжу (2020) предлагает решительное опровержение. ^[27]

Обратите внимание, что оценка F1 зависит от того, какой класс определен как положительный класс. В первом примере выше оценка F1 высока, поскольку класс большинства определяется как положительный класс. Инвертирование положительных и отрицательных классов приводит к следующей матрице путаницы:

ТП = 0, ФП = 0; ТН = 5, ФН = 95

Это дает оценку F1 = 0%.

MCC не зависит от того, какой класс является положительным, который имеет преимущество перед показателем F1, чтобы избежать неправильного определения положительного класса.

Смотрите также

Каппа Коэна
Таблица сопряженности
V Крамера , аналогичная мера связи между номинальными переменными.
Оценка F1
Индекс Фаулкса-Мэллоуза
Полихорическая корреляция (подтип: тетрахорическая корреляция), когда переменные рассматриваются как дихотомические версии (латентных) непрерывных переменных.