В области машинного обучения и, в частности, в задаче статистической классификации , матрица путаницы , также известная как матрица ошибок , [1] представляет собой особую табличную структуру, которая позволяет визуализировать производительность алгоритма, как правило, контролируемого обучения ; в неконтролируемом обучении ее обычно называют матрицей соответствия .
Каждая строка матрицы представляет экземпляры в реальном классе, в то время как каждый столбец представляет экземпляры в предсказанном классе, или наоборот — оба варианта встречаются в литературе. [2] Таким образом, диагональ матрицы представляет все экземпляры, которые были правильно предсказаны. [3] Название происходит от того факта, что оно позволяет легко увидеть, путает ли система два класса (т. е. часто ошибочно маркирует один из них как другой).
Это особый вид таблицы сопряженности с двумя измерениями («фактическое» и «прогнозируемое») и идентичными наборами «классов» в обоих измерениях (каждая комбинация измерения и класса является переменной в таблице сопряженности).
Учитывая выборку из 12 человек, 8 из которых были диагностированы с раком, а 4 — без рака, где люди с раком относятся к классу 1 (положительные), а люди без рака — к классу 0 (отрицательные), мы можем отобразить эти данные следующим образом:
Предположим, что у нас есть классификатор, который каким-то образом различает людей с раком и без него, мы можем взять 12 человек и пропустить их через классификатор. Затем классификатор делает 9 точных прогнозов и пропускает 3: 2 человека с раком, ошибочно предсказанных как не имеющих рака (выборки 1 и 2), и 1 человек без рака, ошибочно предсказанный как имеющий рак (выборка 9).
Обратите внимание, что если мы сравним фактический набор классификации с предсказанным набором классификации, то в любом конкретном столбце может быть 4 разных результата. Во-первых, если фактическая классификация положительна и предсказанная классификация положительна (1,1), это называется истинно положительным результатом, потому что положительный образец был правильно идентифицирован классификатором. Во-вторых, если фактическая классификация положительна и предсказанная классификация отрицательна (1,0), это называется ложноотрицательным результатом, потому что положительный образец неправильно идентифицирован классификатором как отрицательный. В-третьих, если фактическая классификация отрицательна и предсказанная классификация положительна (0,1), это называется ложноположительным результатом, потому что отрицательный образец неправильно идентифицирован классификатором как положительный. В-четвертых, если фактическая классификация отрицательна и предсказанная классификация отрицательна (0,0), это называется истинно отрицательным результатом, потому что отрицательный образец правильно идентифицирован классификатором.
Затем мы можем выполнить сравнение между фактическими и прогнозируемыми классификациями и добавить эту информацию в таблицу, отобразив правильные результаты зеленым цветом, чтобы их было легче идентифицировать.
Шаблон для любой бинарной матрицы путаницы использует четыре вида результатов, обсуждавшихся выше (истинно положительные, ложно отрицательные, ложно положительные и истинно отрицательные) вместе с положительными и отрицательными классификациями. Четыре результата можно сформулировать в матрице путаницы 2×2 следующим образом:
Цветовая маркировка трех таблиц данных, приведенных выше, была выбрана в соответствии с этой матрицей неточностей, чтобы можно было легко различать данные.
Теперь мы можем просто суммировать каждый тип результата, подставить в шаблон и создать матрицу неточностей, которая кратко обобщит результаты тестирования классификатора:
В этой матрице путаницы из 8 образцов с раком система определила, что 2 не имеют рака, а из 4 образцов без рака она предсказала, что 1 имеет рак. Все правильные прогнозы расположены на диагонали таблицы (выделены зеленым), поэтому легко визуально проверить таблицу на наличие ошибок прогнозирования, поскольку значения за пределами диагонали будут их представлять. Суммируя 2 строки матрицы путаницы, можно также вывести общее количество положительных (P) и отрицательных (N) образцов в исходном наборе данных, т. е. и .
В предиктивной аналитике таблица путаницы (иногда также называемая матрицей путаницы ) представляет собой таблицу с двумя строками и двумя столбцами, в которой указано количество истинно положительных , ложно отрицательных , ложно положительных и истинно отрицательных результатов . Это позволяет проводить более подробный анализ, чем простое наблюдение за долей правильных классификаций (точностью). Точность приведет к вводящим в заблуждение результатам, если набор данных несбалансирован; то есть когда количество наблюдений в разных классах сильно различается.
Например, если бы в данных было 95 образцов рака и только 5 образцов нерака, определенный классификатор мог бы классифицировать все наблюдения как имеющие рак. Общая точность была бы 95%, но более подробно классификатор имел бы 100% уровень распознавания ( чувствительность ) для класса рака, но 0% уровень распознавания для класса нерака. Оценка F1 еще более ненадежна в таких случаях и здесь дала бы более 97,4%, тогда как информированность устраняет такую предвзятость и дает 0 как вероятность информированного решения для любой формы угадывания (здесь всегда угадывание рака).
По мнению Давиде Чикко и Джузеппе Юрмана, наиболее информативной метрикой для оценки матрицы путаницы является коэффициент корреляции Мэтьюза (MCC) . [11]
В матрицу неточностей можно включить и другие показатели, каждый из которых имеет свое значение и применение.
Матрица путаницы не ограничивается бинарной классификацией и может использоваться также в многоклассовых классификаторах. Матрицы путаницы, обсуждаемые выше, имеют только два условия: положительное и отрицательное. Например, в таблице ниже суммируется коммуникация свистящего языка между двумя говорящими, при этом нулевые значения опущены для ясности. [20]