Двоичная классификация

Двоичная классификация — это задача классификации элементов множества в одну из двух групп (каждая из которых называется классом ). Типичные задачи бинарной классификации включают в себя:

Медицинское обследование для определения наличия у пациента определенного заболевания;
Контроль качества в промышленности, принятие решения о соответствии спецификации;
В информационном поиске , принятие решения о том, должна ли страница быть в наборе результатов поиска или нет.
В сфере администрирования , при принятии решения о выдаче кому-либо водительских прав или нет.
В познании — принятие решения о том, является ли объект пищей или нет.

При измерении точности бинарного классификатора самый простой способ — подсчитать ошибки. Но в реальном мире часто один из двух классов важнее, поэтому интерес представляет количество обоих типов ошибок . Например, в медицинских тестах обнаружение заболевания, когда его нет ( ложноположительный результат ), рассматривается иначе, чем необнаружение заболевания, когда оно есть ( ложноотрицательный результат ).

В этом наборе протестированных экземпляров экземпляры слева от разделителя имеют проверяемое условие; правая половина — нет. Овал ограничивает те экземпляры, которые алгоритм тестирования классифицирует как имеющие условие. Зеленые области выделяют экземпляры, которые алгоритм тестирования классифицировал правильно. Метки относятся к:
TP = истинно положительный; TN = истинно отрицательный; FP = ложно положительный (ошибка типа I); FN = ложно отрицательный (ошибка типа II); TPR = набор экземпляров для определения истинно положительной частоты; FPR = набор экземпляров для определения ложно положительной частоты; PPV = положительное предсказательное значение; NPV = отрицательное предсказательное значение.

Четыре результата

Учитывая классификацию конкретного набора данных, существует четыре основные комбинации фактической категории данных и назначенной категории: истинно положительные результаты TP (правильные положительные назначения), истинно отрицательные результаты TN (правильные отрицательные назначения), ложно положительные результаты FP (неправильные положительные назначения) и ложно отрицательные результаты FN (неправильные отрицательные назначения).

Их можно организовать в таблицу сопряженности 2×2 , в которой строки соответствуют фактическому значению — положительному или отрицательному состоянию, а столбцы соответствуют значению классификации — положительному или отрицательному результату теста.

Оценка

Из подсчетов четырех основных результатов, существует множество подходов, которые можно использовать для измерения точности классификатора или предиктора. Различные области имеют разные предпочтения.

Восемь основных соотношений

Обычный подход к оценке — начать с вычисления двух соотношений стандартного шаблона. Существует восемь основных соотношений этой формы, которые можно вычислить из таблицы сопряженности, которые поставляются в четырех дополнительных парах (каждая пара в сумме дает 1). Они получаются путем деления каждого из четырех чисел на сумму его строки или столбца, что дает восемь чисел, которые можно назвать обобщенно в форме «истинно положительное отношение строки» или «ложно отрицательное отношение столбца».

Таким образом, имеется две пары соотношений столбцов и две пары соотношений строк, и их можно суммировать четырьмя числами, выбрав одно отношение из каждой пары – остальные четыре числа являются дополнениями.

Соотношения рядов следующие:

истинно положительный показатель (TPR) = (TP/(TP+FN)), также известный как чувствительность или отзыв . Это доля населения с состоянием , для которого тест является правильным.
- с дополнением ложноотрицательный коэффициент (ЛКО) = (ЛОК/(ЛОК+ЛОК))
истинно отрицательный показатель (TNR) = (TN/(TN+FP), также известный как специфичность (SPC),
- с дополнительным показателем ложноположительных результатов (FPR) = (FP/(TN+FP)), также называемым независимым от распространенности

Соотношения столбцов следующие:

положительная прогностическая ценность (ППЦ, также известная как точность ) (TP/(TP+FP)). Это доля популяции с данным результатом теста , для которой тест является правильным.
- с дополнением коэффициента ложных срабатываний (FDR) (FP/(TP+FP))
Отрицательная прогностическая ценность (NPV) (TN/(TN+FN))
- с дополнением к показателю ложного пропуска (ЛП) (ЛП/(ЛП+ЛП)), также называемому зависимостью от распространенности.

В диагностическом тестировании основными используемыми соотношениями являются истинные соотношения столбцов — истинно положительный показатель и истинно отрицательный показатель — где они известны как чувствительность и специфичность . В информационном поиске основными соотношениями являются истинные положительные соотношения (строка и столбец) — положительная прогностическая ценность и истинно положительный показатель — где они известны как точность и полнота .

Каллерн Боун предложил схему для определения того, какую пару индикаторов следует использовать и когда. ^[1] В противном случае нет общего правила для принятия решения. Также нет общего соглашения о том, как следует использовать пару индикаторов для принятия решения по конкретным вопросам, например, когда предпочесть один классификатор другому.

Можно взять отношения комплементарной пары отношений, что даст четыре отношения правдоподобия (два отношения столбцов отношений, два отношения строк отношений). Это в первую очередь делается для отношений столбцов (условий), что дает отношения правдоподобия в диагностическом тестировании . Взятие отношения одной из этих групп отношений дает окончательное отношение, диагностическое отношение шансов (DOR). Его также можно определить напрямую как (TP×TN)/(FP×FN) = (TP/FN)/(FP/TN); это имеет полезную интерпретацию — как отношение шансов — и не зависит от распространенности.

Другие показатели

Существует ряд других метрик, наиболее просто точность или дробь правильных ответов (FC), которая измеряет долю всех случаев, которые правильно классифицированы; дополнением является дробь неправильных ответов (FiC). F-оценка объединяет точность и полноту в одно число с помощью выбора взвешивания, наиболее просто равного взвешивания, как сбалансированная F-оценка (оценка F1 ). Некоторые метрики исходят из коэффициентов регрессии : маркированности и информированности , а также их геометрического среднего , коэффициента корреляции Мэтьюза . Другие метрики включают статистику J Юдена , коэффициент неопределенности , коэффициент фи и каппу Коэна .

Статистическая бинарная классификация

Статистическая классификация — это проблема, изучаемая в машинном обучении , в которой классификация выполняется на основе правила классификации . Это тип контролируемого обучения , метод машинного обучения, в котором категории предопределены, и используется для категоризации новых вероятностных наблюдений в указанные категории. Когда есть только две категории, проблема известна как статистическая бинарная классификация.

Некоторые из методов, обычно используемых для бинарной классификации:

Каждый классификатор является лучшим только в выбранной области на основе количества наблюдений, размерности вектора признаков , шума в данных и многих других факторов. Например, случайные леса работают лучше, чем классификаторы SVM для 3D-облаков точек. ^[2]^[3]

Преобразование непрерывных значений в двоичные

Бинарная классификация может быть формой дихотомизации , в которой непрерывная функция преобразуется в двоичную переменную. Тесты, результаты которых представляют собой непрерывные значения, такие как большинство показателей крови , можно искусственно сделать бинарными, определив пороговое значение , при этом результаты теста будут обозначены как положительные или отрицательные в зависимости от того, выше или ниже полученное значение порогового значения.

Однако такое преобразование приводит к потере информации, поскольку результирующая бинарная классификация не сообщает, насколько выше или ниже порогового значения находится значение. В результате при преобразовании непрерывного значения, близкого к пороговому значению, в бинарное результирующее положительное или отрицательное предсказательное значение обычно выше, чем предсказательное значение, полученное непосредственно из непрерывного значения. В таких случаях обозначение теста как положительного или отрицательного дает видимость ненадлежаще высокой уверенности, в то время как значение на самом деле находится в интервале неопределенности. Например, при концентрации ХГЧ в моче в качестве непрерывного значения тест на беременность в моче , который измерял 52 мМЕ/мл ХГЧ в качестве порогового значения, может показывать «положительный» результат с 50 мМЕ/мл в качестве порогового значения, но на самом деле находится в интервале неопределенности, что может быть очевидно, только зная исходное непрерывное значение. С другой стороны, результат теста, очень далекий от порогового значения, обычно имеет результирующее положительное или отрицательное предсказательное значение, которое ниже предсказательного значения, полученного из непрерывного значения. Например, значение ХГЧ в моче 200 000 мМЕ/мл указывает на очень высокую вероятность беременности, но при переводе в двоичные значения оно оказывается таким же «положительным», как и значение 52 мМЕ/мл.

Смотрите также

Ссылки

^ Уильям Каллерн Боун (2024). «Чувствительность и специфичность против точности и полноты и связанные с ними дилеммы». Журнал классификации .
^ Чжан и Захор, Ричард и Авидех (2014). «Автоматическая идентификация областей окон в облаках точек внутри помещений с использованием лидара и камер». VIP Lab Publications . CiteSeerX 10.1.1.649.303 .
^ Y. Lu и C. Rasmussen (2012). "Упрощенные марковские случайные поля для эффективной семантической маркировки трехмерных облаков точек" (PDF) . IROS .

Библиография

Нелло Кристианини и Джон Шоу-Тейлор . Введение в опорные векторные машины и другие методы обучения на основе ядра . Cambridge University Press, 2000. ISBN 0-521-78019-5 ([1] SVM Book)
Джон Шоу-Тейлор и Нелло Кристианини. Методы ядра для анализа шаблонов . Cambridge University Press, 2004. ISBN 0-521-81397-2 (Веб-сайт книги)
Бернхард Шёлькопф и А. Дж. Смола: Обучение с помощью ядер . MIT Press, Кембридж, Массачусетс, 2002. ISBN 0-262-19475-9