Двоичная классификация — это задача классификации элементов множества в одну из двух групп (каждая из которых называется классом ). Типичные задачи бинарной классификации включают в себя:
При измерении точности бинарного классификатора самый простой способ — подсчитать ошибки. Но в реальном мире часто один из двух классов важнее, поэтому интерес представляет количество обоих типов ошибок . Например, в медицинских тестах обнаружение заболевания, когда его нет ( ложноположительный результат ), рассматривается иначе, чем необнаружение заболевания, когда оно есть ( ложноотрицательный результат ).
Учитывая классификацию конкретного набора данных, существует четыре основные комбинации фактической категории данных и назначенной категории: истинно положительные результаты TP (правильные положительные назначения), истинно отрицательные результаты TN (правильные отрицательные назначения), ложно положительные результаты FP (неправильные положительные назначения) и ложно отрицательные результаты FN (неправильные отрицательные назначения).
Их можно организовать в таблицу сопряженности 2×2 , в которой строки соответствуют фактическому значению — положительному или отрицательному состоянию, а столбцы соответствуют значению классификации — положительному или отрицательному результату теста.
Из подсчетов четырех основных результатов, существует множество подходов, которые можно использовать для измерения точности классификатора или предиктора. Различные области имеют разные предпочтения.
Обычный подход к оценке — начать с вычисления двух соотношений стандартного шаблона. Существует восемь основных соотношений этой формы, которые можно вычислить из таблицы сопряженности, которые поставляются в четырех дополнительных парах (каждая пара в сумме дает 1). Они получаются путем деления каждого из четырех чисел на сумму его строки или столбца, что дает восемь чисел, которые можно назвать обобщенно в форме «истинно положительное отношение строки» или «ложно отрицательное отношение столбца».
Таким образом, имеется две пары соотношений столбцов и две пары соотношений строк, и их можно суммировать четырьмя числами, выбрав одно отношение из каждой пары – остальные четыре числа являются дополнениями.
Соотношения рядов следующие:
Соотношения столбцов следующие:
В диагностическом тестировании основными используемыми соотношениями являются истинные соотношения столбцов — истинно положительный показатель и истинно отрицательный показатель — где они известны как чувствительность и специфичность . В информационном поиске основными соотношениями являются истинные положительные соотношения (строка и столбец) — положительная прогностическая ценность и истинно положительный показатель — где они известны как точность и полнота .
Каллерн Боун предложил схему для определения того, какую пару индикаторов следует использовать и когда. [1] В противном случае нет общего правила для принятия решения. Также нет общего соглашения о том, как следует использовать пару индикаторов для принятия решения по конкретным вопросам, например, когда предпочесть один классификатор другому.
Можно взять отношения комплементарной пары отношений, что даст четыре отношения правдоподобия (два отношения столбцов отношений, два отношения строк отношений). Это в первую очередь делается для отношений столбцов (условий), что дает отношения правдоподобия в диагностическом тестировании . Взятие отношения одной из этих групп отношений дает окончательное отношение, диагностическое отношение шансов (DOR). Его также можно определить напрямую как (TP×TN)/(FP×FN) = (TP/FN)/(FP/TN); это имеет полезную интерпретацию — как отношение шансов — и не зависит от распространенности.
Существует ряд других метрик, наиболее просто точность или дробь правильных ответов (FC), которая измеряет долю всех случаев, которые правильно классифицированы; дополнением является дробь неправильных ответов (FiC). F-оценка объединяет точность и полноту в одно число с помощью выбора взвешивания, наиболее просто равного взвешивания, как сбалансированная F-оценка (оценка F1 ). Некоторые метрики исходят из коэффициентов регрессии : маркированности и информированности , а также их геометрического среднего , коэффициента корреляции Мэтьюза . Другие метрики включают статистику J Юдена , коэффициент неопределенности , коэффициент фи и каппу Коэна .
Статистическая классификация — это проблема, изучаемая в машинном обучении , в которой классификация выполняется на основе правила классификации . Это тип контролируемого обучения , метод машинного обучения, в котором категории предопределены, и используется для категоризации новых вероятностных наблюдений в указанные категории. Когда есть только две категории, проблема известна как статистическая бинарная классификация.
Некоторые из методов, обычно используемых для бинарной классификации:
Каждый классификатор является лучшим только в выбранной области на основе количества наблюдений, размерности вектора признаков , шума в данных и многих других факторов. Например, случайные леса работают лучше, чем классификаторы SVM для 3D-облаков точек. [2] [3]
Бинарная классификация может быть формой дихотомизации , в которой непрерывная функция преобразуется в двоичную переменную. Тесты, результаты которых представляют собой непрерывные значения, такие как большинство показателей крови , можно искусственно сделать бинарными, определив пороговое значение , при этом результаты теста будут обозначены как положительные или отрицательные в зависимости от того, выше или ниже полученное значение порогового значения.
Однако такое преобразование приводит к потере информации, поскольку результирующая бинарная классификация не сообщает, насколько выше или ниже порогового значения находится значение. В результате при преобразовании непрерывного значения, близкого к пороговому значению, в бинарное результирующее положительное или отрицательное предсказательное значение обычно выше, чем предсказательное значение, полученное непосредственно из непрерывного значения. В таких случаях обозначение теста как положительного или отрицательного дает видимость ненадлежаще высокой уверенности, в то время как значение на самом деле находится в интервале неопределенности. Например, при концентрации ХГЧ в моче в качестве непрерывного значения тест на беременность в моче , который измерял 52 мМЕ/мл ХГЧ в качестве порогового значения, может показывать «положительный» результат с 50 мМЕ/мл в качестве порогового значения, но на самом деле находится в интервале неопределенности, что может быть очевидно, только зная исходное непрерывное значение. С другой стороны, результат теста, очень далекий от порогового значения, обычно имеет результирующее положительное или отрицательное предсказательное значение, которое ниже предсказательного значения, полученного из непрерывного значения. Например, значение ХГЧ в моче 200 000 мМЕ/мл указывает на очень высокую вероятность беременности, но при переводе в двоичные значения оно оказывается таким же «положительным», как и значение 52 мМЕ/мл.