Когда классификация выполняется компьютером, для разработки алгоритма обычно используются статистические методы.
Часто отдельные наблюдения анализируются в набор количественных свойств, известных по-разному как объясняющие переменные или признаки . Эти свойства могут быть по-разному категориальными (например, «A», «B», «AB» или «O» для группы крови ), порядковыми (например, «большой», «средний» или «маленький»), целочисленными (например, количество появлений определенного слова в электронном письме ) или действительными (например, измерение артериального давления ). Другие классификаторы работают, сравнивая наблюдения с предыдущими наблюдениями с помощью функции сходства или расстояния .
Алгоритм , реализующий классификацию, особенно в конкретной реализации, называется классификатором . Термин «классификатор» иногда также относится к математической функции , реализуемой алгоритмом классификации, которая сопоставляет входные данные с категорией.
Терминология в разных областях довольно разнообразна. В статистике , где классификация часто выполняется с помощью логистической регрессии или аналогичной процедуры, свойства наблюдений называются объясняющими переменными (или независимыми переменными , регрессорами и т. д.), а категории, которые должны быть предсказаны, называются результатами, которые считаются возможными значениями зависимой переменной . В машинном обучении наблюдения часто называются экземплярами , объясняющие переменные называются признаками (сгруппированными в вектор признаков ), а возможные категории, которые должны быть предсказаны, называются классами . Другие области могут использовать другую терминологию: например, в экологии сообществ термин «классификация» обычно относится к кластерному анализу .
Классификация и кластеризация являются примерами более общей проблемы распознавания образов , которая заключается в назначении некоторого выходного значения заданному входному значению. Другие примеры — регрессия , которая назначает действительное выходное значение каждому входу; маркировка последовательностей , которая назначает класс каждому члену последовательности значений (например, маркировка частей речи , которая назначает часть речи каждому слову во входном предложении); синтаксический анализ , который назначает дерево синтаксического анализа входному предложению, описывающее синтаксическую структуру предложения; и т. д.
Распространенным подклассом классификации является вероятностная классификация . Алгоритмы такого рода используют статистический вывод для поиска наилучшего класса для данного экземпляра. В отличие от других алгоритмов, которые просто выводят «наилучший» класс, вероятностные алгоритмы выводят вероятность принадлежности экземпляра к каждому из возможных классов. Лучший класс обычно затем выбирается как класс с наибольшей вероятностью. Однако такой алгоритм имеет многочисленные преимущества перед невероятностными классификаторами:
Ранняя работа по статистической классификации была предпринята Фишером [1] [2] в контексте двухгрупповых задач, что привело к линейной дискриминантной функции Фишера как правилу назначения группы новому наблюдению. [3] Эта ранняя работа предполагала, что значения данных в каждой из двух групп имели многомерное нормальное распределение . Расширение этого же контекста на более чем две группы также рассматривалось с ограничением, что правило классификации должно быть линейным . [3] [4] Более поздняя работа по многомерному нормальному распределению позволила классификатору быть нелинейным : [5] несколько правил классификации могут быть выведены на основе различных корректировок расстояния Махаланобиса , при этом новое наблюдение назначается группе, центр которой имеет наименьшее скорректированное расстояние от наблюдения.
В отличие от частотных процедур, байесовские процедуры классификации обеспечивают естественный способ учета любой доступной информации об относительных размерах различных групп в общей популяции. [6] Байесовские процедуры, как правило, требуют больших вычислительных затрат, и до того, как были разработаны вычисления Монте-Карло на основе цепей Маркова , были разработаны приближения для байесовских правил кластеризации. [7]
Некоторые байесовские процедуры включают расчет вероятностей принадлежности к группе : они обеспечивают более информативный результат, чем простое приписывание одной групповой метки каждому новому наблюдению.
Классификацию можно рассматривать как две отдельные проблемы – бинарную классификацию и многоклассовую классификацию . В бинарной классификации, более понятной задаче, задействованы только два класса, тогда как многоклассовая классификация подразумевает отнесение объекта к одному из нескольких классов. [8] Поскольку многие методы классификации были разработаны специально для бинарной классификации, многоклассовая классификация часто требует комбинированного использования нескольких бинарных классификаторов.
Большинство алгоритмов описывают отдельный экземпляр, категория которого должна быть предсказана с использованием вектора признаков индивидуальных, измеримых свойств экземпляра. Каждое свойство называется признаком , также известным в статистике как объясняющая переменная (или независимая переменная , хотя признаки могут быть или не быть статистически независимыми ). Признаки могут быть по-разному бинарными (например, «вкл» или «выкл»); категориальными (например, «A», «B», «AB» или «O» для группы крови ); порядковыми (например, «большой», «средний» или «маленький»); целочисленными (например, количество появлений определенного слова в электронном письме); или действительными (например, измерение кровяного давления). Если экземпляр является изображением, значения признаков могут соответствовать пикселям изображения; если экземпляр является фрагментом текста, значения признаков могут быть частотами появления различных слов. Некоторые алгоритмы работают только с дискретными данными и требуют, чтобы действительные или целочисленные данные были дискретизированы в группы (например, меньше 5, от 5 до 10 или больше 10).
Большое количество алгоритмов классификации можно сформулировать в терминах линейной функции , которая присваивает оценку каждой возможной категории k путем объединения вектора признаков экземпляра с вектором весов с использованием скалярного произведения . Предсказанная категория — это категория с наивысшей оценкой. Этот тип функции оценки известен как линейная предикторная функция и имеет следующую общую форму: где X i — вектор признаков экземпляра i , β k — вектор весов, соответствующий категории k , а оценка ( X i , k ) — оценка, связанная с отнесением экземпляра i к категории k . В теории дискретного выбора , где экземпляры представляют людей, а категории представляют выборы, оценка считается полезностью, связанной с выбором человеком i категории k .
Алгоритмы с такой базовой настройкой известны как линейные классификаторы . Их отличает процедура определения (обучения) оптимальных весов/коэффициентов и способ интерпретации оценки.
Примеры таких алгоритмов включают в себя
Поскольку ни одна форма классификации не подходит для всех наборов данных, был разработан большой набор алгоритмов классификации. Наиболее часто используемые включают: [9]
Выбор между различными возможными алгоритмами часто делается на основе количественной оценки точности .
Классификация имеет множество приложений. В некоторых из них она используется как процедура добычи данных , в то время как в других осуществляется более детальное статистическое моделирование.