stringtranslate.com

Статистическая классификация

В статистике классификация — это проблема определения того, к какой из множества категорий (субпопуляций) принадлежит наблюдение (или наблюдения). Примерами могут служить отнесение данного электронного письма к классу «спам» или «не спам» , а также назначение диагноза данному пациенту на основе наблюдаемых характеристик пациента (пол, артериальное давление, наличие или отсутствие определенных симптомов и т. д.). .

Часто отдельные наблюдения анализируются с целью получения набора количественных свойств, известных как объясняющие переменные или характеристики . Эти свойства могут быть категориальными (например, «A», «B», «AB» или «O» для группы крови ), порядковыми (например, «большой», «средний» или «малый»), целочисленными (например, количество появлений определенного слова в электронном письме ) или вещественное значение (например, измерение артериального давления ). Другие классификаторы работают путем сравнения наблюдений с предыдущими наблюдениями с помощью функции сходства или расстояния .

Алгоритм , реализующий классификацию, особенно в конкретной реализации, известен как классификатор . Термин «классификатор» иногда также относится к математической функции , реализуемой алгоритмом классификации, которая отображает входные данные в категорию.

Терминология в разных областях весьма разнообразна. В статистике , где классификация часто выполняется с помощью логистической регрессии или аналогичной процедуры, свойства наблюдений называются объясняющими переменными (или независимыми переменными , регрессорами и т. д.), а прогнозируемые категории известны как результаты, которые считаются быть возможными значениями зависимой переменной . В машинном обучении наблюдения часто называются экземплярами , независимые переменные называются признаками (сгруппированными в вектор признаков ), а возможные категории, подлежащие прогнозированию, — классами . В других областях может использоваться другая терминология: например, в экологии сообществ термин «классификация» обычно относится к кластерному анализу .

Связь с другими проблемами

Классификация и кластеризация являются примерами более общей проблемы распознавания образов , которая заключается в присвоении некоторого рода выходного значения заданному входному значению. Другими примерами являются регрессия , которая присваивает каждому входу выходной сигнал с действительным знаком; маркировка последовательности , которая присваивает класс каждому члену последовательности значений (например, маркировка части речи , которая присваивает часть речи каждому слову во входном предложении); синтаксический анализ , который присваивает входному предложению дерево разбора , описывающее синтаксическую структуру предложения; и т. д.

Распространенным подклассом классификации является вероятностная классификация . Алгоритмы такого типа используют статистический вывод , чтобы найти лучший класс для данного экземпляра. В отличие от других алгоритмов, которые просто выводят «лучший» класс, вероятностные алгоритмы выводят вероятность того, что экземпляр является членом каждого из возможных классов. Лучший класс обычно выбирается как класс с наибольшей вероятностью. Однако такой алгоритм имеет множество преимуществ перед невероятностными классификаторами:

Частотные процедуры

Ранняя работа по статистической классификации была предпринята Фишером [1] [2] в контексте проблем двух групп, что привело к линейной дискриминантной функции Фишера как правилу для назначения группы новому наблюдению. [3] В этой ранней работе предполагалось, что значения данных в каждой из двух групп имеют многомерное нормальное распределение . Распространение этого же контекста на более чем две группы также рассматривалось с ограничением, согласно которому правило классификации должно быть линейным . [3] [4] Более поздние работы по многомерному нормальному распределению позволили классификатору быть нелинейным : [5] несколько правил классификации могут быть получены на основе различных корректировок расстояния Махаланобиса , при этом новое наблюдение присваивается группе, центр которой имеет наименьшее скорректированное расстояние от наблюдения.

Байесовские процедуры

В отличие от частотных процедур, процедуры байесовской классификации обеспечивают естественный способ учета любой доступной информации об относительных размерах различных групп в общей популяции. [6] Байесовские процедуры, как правило, требуют больших вычислительных затрат, и задолго до того, как были разработаны вычисления методом Монте-Карло для цепей Маркова , были разработаны аппроксимации для правил байесовской кластеризации. [7]

Некоторые байесовские процедуры включают расчет вероятностей членства в группе : они обеспечивают более информативный результат, чем простое присвоение одной групповой метки каждому новому наблюдению.

Бинарная и мультиклассовая классификация

Классификацию можно рассматривать как две отдельные проблемы — бинарную классификацию и мультиклассовую классификацию . В бинарной классификации, более понятной задаче, задействованы только два класса, тогда как многоклассовая классификация предполагает отнесение объекта к одному из нескольких классов. [8] Поскольку многие методы классификации были разработаны специально для бинарной классификации, многоклассовая классификация часто требует совместного использования нескольких бинарных классификаторов.

Векторы признаков

Большинство алгоритмов описывают отдельный экземпляр, категория которого должна быть предсказана с использованием вектора признаков отдельных измеримых свойств экземпляра. Каждое свойство называется признаком , также известным в статистике как объясняющая переменная (или независимая переменная , хотя признаки могут быть или не быть статистически независимыми ). Функции могут быть двоичными (например, «включено» или «выключено»); категориальный (например, «А», «В», «АВ» или «О» для группы крови ); порядковый номер (например, «большой», «средний» или «маленький»); целочисленное значение (например, количество вхождений определенного слова в электронное письмо); или вещественное значение (например, измерение артериального давления). Если экземпляр является изображением, значения признаков могут соответствовать пикселям изображения; если экземпляр представляет собой фрагмент текста, значения признаков могут быть частотами появления разных слов. Некоторые алгоритмы работают только с дискретными данными и требуют, чтобы вещественные или целочисленные данные были дискретизированы на группы (например, меньше 5, от 5 до 10 или больше 10).

Линейные классификаторы

Большое количество алгоритмов классификации можно сформулировать в виде линейной функции , которая присваивает балл каждой возможной категории k путем объединения вектора признаков экземпляра с вектором весов с использованием скалярного произведения . Прогнозируемая категория — это категория с наивысшим баллом. Этот тип функции оценки известен как функция линейного прогнозирования и имеет следующую общую форму:

X iiβ kkX ikikдискретного выбораполезностью,ik

Алгоритмы с такой базовой настройкой известны как линейные классификаторы . Что их отличает, так это процедура определения (обучения) оптимальных весов/коэффициентов и способ интерпретации результатов.

Примеры таких алгоритмов включают в себя

Алгоритмы

Поскольку ни одна форма классификации не подходит для всех наборов данных, был разработан большой набор алгоритмов классификации. Наиболее часто используемые включают в себя: [9]

Оценка

Производительность классификатора во многом зависит от характеристик классифицируемых данных. Не существует единого классификатора, который лучше всего работал бы для всех заданных задач (феномен, который можно объяснить теоремой об отсутствии бесплатного обеда ). Для сравнения производительности классификатора и определения характеристик данных, определяющих производительность классификатора, были проведены различные эмпирические тесты. Однако определение подходящего классификатора для данной проблемы все еще является скорее искусством, чем наукой.

Точность и полнота измерений — популярные метрики, используемые для оценки качества системы классификации. Совсем недавно кривые рабочих характеристик приемника (ROC) использовались для оценки компромисса между истинными и ложноположительными показателями алгоритмов классификации.

Как показатель производительности коэффициент неопределенности имеет преимущество перед простой точностью , поскольку на него не влияют относительные размеры различных классов.[10] Кроме того, это не будет наказывать алгоритм за простую перестановку классов.

Домены приложений

Классификация имеет множество применений. В некоторых из них он используется в качестве процедуры интеллектуального анализа данных , тогда как в других проводится более детальное статистическое моделирование.

Смотрите также

Рекомендации

  1. ^ Фишер, РА (1936). «Использование множественных измерений в таксономических задачах». Анналы евгеники . 7 (2): 179–188. doi :10.1111/j.1469-1809.1936.tb02137.x. hdl : 2440/15227 .
  2. ^ Фишер, РА (1938). «Статистическое использование множественных измерений». Анналы евгеники . 8 (4): 376–386. doi :10.1111/j.1469-1809.1938.tb02189.x. hdl : 2440/15232 .
  3. ^ ab Гнанадэсикан, Р. (1977) Методы статистического анализа данных многомерных наблюдений , Wiley. ISBN 0-471-30845-5 (стр. 83–86) 
  4. ^ Рао, CR (1952) Расширенные статистические методы в многомерном анализе , Wiley. (Раздел 9в)
  5. ^ Андерсон, Т.В. (1958) Введение в многомерный статистический анализ , Wiley.
  6. ^ Биндер, Д.А. (1978). «Байесовский кластерный анализ». Биометрика . 65 : 31–38. дои : 10.1093/biomet/65.1.31.
  7. ^ Биндер, Дэвид А. (1981). «Приближения к байесовским правилам кластеризации». Биометрика . 68 : 275–285. дои : 10.1093/biomet/68.1.275.
  8. ^ Хар-Пелед, С. , Рот, Д., Зимак, Д. (2003) «Классификация ограничений для мультиклассовой классификации и ранжирования». В: Беккер Б., Трун С. , Обермайер К. (редакторы) Достижения в области нейронных систем обработки информации 15: Материалы конференции 2002 г. , MIT Press. ISBN 0-262-02550-7 
  9. ^ «Обзор 10 лучших алгоритмов для новичков в машинном обучении» . Встроенный . 20 января 2018 г. Проверено 10 июня 2019 г.
  10. ^ Питер Миллс (2011). «Эффективная статистическая классификация спутниковых измерений». Международный журнал дистанционного зондирования . 32 (21): 6109–6132. arXiv : 1202.2194 . Бибкод : 2011IJRS...32.6109M. дои : 10.1080/01431161.2010.507795. S2CID  88518570.