stringtranslate.com

Статистическая классификация

Когда классификация выполняется компьютером, для разработки алгоритма обычно используются статистические методы.

Часто отдельные наблюдения анализируются в набор количественных свойств, известных по-разному как объясняющие переменные или признаки . Эти свойства могут быть по-разному категориальными (например, «A», «B», «AB» или «O» для группы крови ), порядковыми (например, «большой», «средний» или «маленький»), целочисленными (например, количество появлений определенного слова в электронном письме ) или действительными (например, измерение артериального давления ). Другие классификаторы работают, сравнивая наблюдения с предыдущими наблюдениями с помощью функции сходства или расстояния .

Алгоритм , реализующий классификацию, особенно в конкретной реализации, называется классификатором . Термин «классификатор» иногда также относится к математической функции , реализуемой алгоритмом классификации, которая сопоставляет входные данные с категорией.

Терминология в разных областях довольно разнообразна. В статистике , где классификация часто выполняется с помощью логистической регрессии или аналогичной процедуры, свойства наблюдений называются объясняющими переменными (или независимыми переменными , регрессорами и т. д.), а категории, которые должны быть предсказаны, называются результатами, которые считаются возможными значениями зависимой переменной . В машинном обучении наблюдения часто называются экземплярами , объясняющие переменные называются признаками (сгруппированными в вектор признаков ), а возможные категории, которые должны быть предсказаны, называются классами . Другие области могут использовать другую терминологию: например, в экологии сообществ термин «классификация» обычно относится к кластерному анализу .

Связь с другими проблемами

Классификация и кластеризация являются примерами более общей проблемы распознавания образов , которая заключается в назначении некоторого выходного значения заданному входному значению. Другие примеры — регрессия , которая назначает действительное выходное значение каждому входу; маркировка последовательностей , которая назначает класс каждому члену последовательности значений (например, маркировка частей речи , которая назначает часть речи каждому слову во входном предложении); синтаксический анализ , который назначает входному предложению дерево синтаксического анализа , описывающее синтаксическую структуру предложения; и т. д.

Распространенным подклассом классификации является вероятностная классификация . Алгоритмы такого рода используют статистический вывод для поиска наилучшего класса для данного экземпляра. В отличие от других алгоритмов, которые просто выводят «наилучший» класс, вероятностные алгоритмы выводят вероятность принадлежности экземпляра к каждому из возможных классов. Лучший класс обычно затем выбирается как класс с наибольшей вероятностью. Однако такой алгоритм имеет многочисленные преимущества перед невероятностными классификаторами:

Процедуры частых посещений

Ранняя работа по статистической классификации была предпринята Фишером [1] [2] в контексте двухгрупповых задач, что привело к линейной дискриминантной функции Фишера как правилу назначения группы новому наблюдению. [3] Эта ранняя работа предполагала, что значения данных в каждой из двух групп имели многомерное нормальное распределение . Расширение этого же контекста на более чем две группы также рассматривалось с ограничением, что правило классификации должно быть линейным . [3] [4] Более поздняя работа по многомерному нормальному распределению позволила классификатору быть нелинейным : [5] несколько правил классификации могут быть выведены на основе различных корректировок расстояния Махаланобиса , при этом новое наблюдение назначается группе, центр которой имеет наименьшее скорректированное расстояние от наблюдения.

Байесовские процедуры

В отличие от частотных процедур, байесовские процедуры классификации обеспечивают естественный способ учета любой доступной информации об относительных размерах различных групп в общей популяции. [6] Байесовские процедуры, как правило, требуют больших вычислительных затрат, и до того, как были разработаны вычисления Монте-Карло на основе цепей Маркова , были разработаны приближения для байесовских правил кластеризации. [7]

Некоторые байесовские процедуры включают расчет вероятностей принадлежности к группе : они обеспечивают более информативный результат, чем простое приписывание одной групповой метки каждому новому наблюдению.

Бинарная и многоклассовая классификация

Классификацию можно рассматривать как две отдельные проблемы – бинарную классификацию и многоклассовую классификацию . В бинарной классификации, более понятной задаче, задействованы только два класса, тогда как многоклассовая классификация подразумевает отнесение объекта к одному из нескольких классов. [8] Поскольку многие методы классификации были разработаны специально для бинарной классификации, многоклассовая классификация часто требует комбинированного использования нескольких бинарных классификаторов.

Векторы признаков

Большинство алгоритмов описывают отдельный экземпляр, категория которого должна быть предсказана с использованием вектора признаков индивидуальных, измеримых свойств экземпляра. Каждое свойство называется признаком , также известным в статистике как объясняющая переменная (или независимая переменная , хотя признаки могут быть или не быть статистически независимыми ). Признаки могут быть по-разному бинарными (например, «вкл» или «выкл»); категориальными (например, «A», «B», «AB» или «O» для группы крови ); порядковыми (например, «большой», «средний» или «маленький»); целочисленными (например, количество появлений определенного слова в электронном письме); или действительными (например, измерение кровяного давления). Если экземпляр является изображением, значения признаков могут соответствовать пикселям изображения; если экземпляр является фрагментом текста, значения признаков могут быть частотами появления различных слов. Некоторые алгоритмы работают только с дискретными данными и требуют, чтобы действительные или целочисленные данные были дискретизированы в группы (например, меньше 5, от 5 до 10 или больше 10).

Линейные классификаторы

Большое количество алгоритмов классификации можно сформулировать в терминах линейной функции , которая присваивает оценку каждой возможной категории k путем объединения вектора признаков экземпляра с вектором весов с использованием скалярного произведения . Предсказанная категория — это категория с наивысшей оценкой. Этот тип функции оценки известен как линейная предикторная функция и имеет следующую общую форму: где X i — вектор признаков экземпляра i , β k — вектор весов, соответствующий категории k , а оценка ( X i , k ) — оценка, связанная с отнесением экземпляра i к категории k . В теории дискретного выбора , где экземпляры представляют людей, а категории представляют выборы, оценка считается полезностью, связанной с выбором человеком i категории k .

Алгоритмы с такой базовой настройкой известны как линейные классификаторы . Их отличает процедура определения (обучения) оптимальных весов/коэффициентов и способ интерпретации оценки.

Примеры таких алгоритмов включают в себя

Алгоритмы

Поскольку ни одна форма классификации не подходит для всех наборов данных, был разработан большой набор алгоритмов классификации. Наиболее часто используемые включают: [9]

Выбор между различными возможными алгоритмами часто делается на основе количественной оценки точности .

Домены приложений

Классификация имеет множество приложений. В некоторых из них она используется как процедура добычи данных , в то время как в других осуществляется более детальное статистическое моделирование.

Смотрите также

Ссылки

  1. ^ Фишер, РА (1936). «Использование множественных измерений в таксономических проблемах». Annals of Eugenics . 7 (2): 179–188. doi :10.1111/j.1469-1809.1936.tb02137.x. hdl : 2440/15227 .
  2. ^ Фишер, РА (1938). «Статистическое использование множественных измерений». Annals of Eugenics . 8 (4): 376–386. doi :10.1111/j.1469-1809.1938.tb02189.x. hdl : 2440/15232 .
  3. ^ ab Gnanadesikan, R. (1977) Методы статистического анализа данных многомерных наблюдений , Wiley. ISBN 0-471-30845-5 (стр. 83–86) 
  4. ^ Рао, CR (1952) Расширенные статистические методы в многомерном анализе , Wiley. (Раздел 9c)
  5. ^ Андерсон, TW (1958) Введение в многомерный статистический анализ , Wiley.
  6. ^ Биндер, ДА (1978). «Байесовский кластерный анализ». Biometrika . 65 : 31–38. doi :10.1093/biomet/65.1.31.
  7. ^ Биндер, Дэвид А. (1981). «Приближения к байесовским правилам кластеризации». Biometrika . 68 : 275–285. doi :10.1093/biomet/68.1.275.
  8. ^ Har-Peled, S. , Roth, D., Zimak, D. (2003) "Ограниченная классификация для многоклассовой классификации и ранжирования". В: Becker, B., Thrun, S. , Obermayer, K. (ред.) Advances in Neural Information Processing Systems 15: Proceedings of the 2002 Conference , MIT Press. ISBN 0-262-02550-7 
  9. ^ "Обзор 10 лучших алгоритмов для новичков в машинном обучении". Встроено . 2018-01-20 . Получено 2019-06-10 .