Классификация — это деятельность по назначению объектов некоторым уже существующим классам или категориям. Это отличается от задачи установления самих классов (например, посредством кластерного анализа ). [1] Примерами служат диагностические тесты, выявление спам-писем и принятие решения о выдаче кому-либо водительских прав.
Помимо слова «категория», синонимами или почти синонимами слова «класс» являются слова «тип», «вид», «отряд», «концепция», «таксон», «группа», «идентификация» и «подразделение».
Значение слова «классификация» (и его синонимы) может принимать одно из нескольких связанных значений. Оно может охватывать как классификацию, так и создание классов, как, например, в «задаче категоризации страниц в Википедии»; эта общая деятельность указана в разделе Таксономия . Оно может относиться исключительно к базовой схеме классов (которая иначе может называться таксономией). Или оно может относиться к метке, присвоенной объекту классификатором.
Классификация является частью многих видов деятельности и изучается с разных точек зрения, включая медицину , философию , право , антропологию , биологию , таксономию , познание , коммуникации , организацию знаний , психологию , статистику , машинное обучение , экономику и математику .
Методологическая работа, направленная на повышение точности классификатора, обычно делится на случаи, когда имеется ровно два класса ( бинарная классификация ), и случаи, когда имеется три или более классов ( многоклассовая классификация ).
В отличие от теории принятия решений , предполагается, что классификатор повторяет задачу классификации снова и снова. И в отличие от лотереи , предполагается, что каждая классификация может быть либо правильной, либо неправильной; в теории измерения классификация понимается как измерение по номинальной шкале. Таким образом, можно попытаться измерить точность классификатора.
Измерение точности классификатора позволяет сделать выбор между двумя альтернативными классификаторами. Это важно как при разработке классификатора, так и при выборе того, какой классификатор использовать. Однако существует множество различных методов оценки точности классификатора и нет общего метода определения того, какой метод следует использовать в каких обстоятельствах. Различные области используют разные подходы, даже в бинарной классификации. В распознавании образов популярна частота ошибок. Коэффициент Джини и статистика KS широко используются в отрасли кредитного скоринга. Чувствительность и специфичность широко используются в эпидемиологии и медицине. Точность и полнота широко используются в поиске информации. [2]
Точность классификатора во многом зависит от характеристик классифицируемых данных. Не существует единого классификатора, который бы лучше всего подходил для всех заданных задач (явление, которое можно объяснить теоремой о не-бесплатном-обеде ).