Статистическая классификация

Когда классификация выполняется компьютером, для разработки алгоритма обычно используются статистические методы.

Часто отдельные наблюдения анализируются в набор количественных свойств, известных по-разному как объясняющие переменные или признаки . Эти свойства могут быть по-разному категориальными (например, «A», «B», «AB» или «O» для группы крови ), порядковыми (например, «большой», «средний» или «маленький»), целочисленными (например, количество появлений определенного слова в электронном письме ) или действительными (например, измерение артериального давления ). Другие классификаторы работают, сравнивая наблюдения с предыдущими наблюдениями с помощью функции сходства или расстояния .

Алгоритм , реализующий классификацию, особенно в конкретной реализации, называется классификатором . Термин «классификатор» иногда также относится к математической функции , реализуемой алгоритмом классификации, которая сопоставляет входные данные с категорией.

Терминология в разных областях довольно разнообразна. В статистике , где классификация часто выполняется с помощью логистической регрессии или аналогичной процедуры, свойства наблюдений называются объясняющими переменными (или независимыми переменными , регрессорами и т. д.), а категории, которые должны быть предсказаны, называются результатами, которые считаются возможными значениями зависимой переменной . В машинном обучении наблюдения часто называются экземплярами , объясняющие переменные называются признаками (сгруппированными в вектор признаков ), а возможные категории, которые должны быть предсказаны, называются классами . Другие области могут использовать другую терминологию: например, в экологии сообществ термин «классификация» обычно относится к кластерному анализу .

Связь с другими проблемами

Классификация и кластеризация являются примерами более общей проблемы распознавания образов , которая заключается в назначении некоторого выходного значения заданному входному значению. Другие примеры — регрессия , которая назначает действительное выходное значение каждому входу; маркировка последовательностей , которая назначает класс каждому члену последовательности значений (например, маркировка частей речи , которая назначает часть речи каждому слову во входном предложении); синтаксический анализ , который назначает дерево синтаксического анализа входному предложению, описывающее синтаксическую структуру предложения; и т. д.

Распространенным подклассом классификации является вероятностная классификация . Алгоритмы такого рода используют статистический вывод для поиска наилучшего класса для данного экземпляра. В отличие от других алгоритмов, которые просто выводят «наилучший» класс, вероятностные алгоритмы выводят вероятность принадлежности экземпляра к каждому из возможных классов. Лучший класс обычно затем выбирается как класс с наибольшей вероятностью. Однако такой алгоритм имеет многочисленные преимущества перед невероятностными классификаторами:

Он может выводить значение достоверности, связанное с его выбором (в общем случае классификатор, который может это делать, называется классификатором с весовыми коэффициентами достоверности ).
Соответственно, он может воздержаться , когда его уверенность в выборе какого-либо конкретного результата слишком мала.
Благодаря генерируемым вероятностям вероятностные классификаторы могут быть более эффективно включены в более крупные задачи машинного обучения, таким образом, чтобы частично или полностью избежать проблемы распространения ошибок .

Процедуры частых посещений

Ранняя работа по статистической классификации была предпринята Фишером ^[1]^[2] в контексте двухгрупповых задач, что привело к линейной дискриминантной функции Фишера как правилу назначения группы новому наблюдению. ^[3] Эта ранняя работа предполагала, что значения данных в каждой из двух групп имели многомерное нормальное распределение . Расширение этого же контекста на более чем две группы также рассматривалось с ограничением, что правило классификации должно быть линейным . ^[3]^[4] Более поздняя работа по многомерному нормальному распределению позволила классификатору быть нелинейным : ^[5] несколько правил классификации могут быть выведены на основе различных корректировок расстояния Махаланобиса , при этом новое наблюдение назначается группе, центр которой имеет наименьшее скорректированное расстояние от наблюдения.

Байесовские процедуры

В отличие от частотных процедур, байесовские процедуры классификации обеспечивают естественный способ учета любой доступной информации об относительных размерах различных групп в общей популяции. ^[6] Байесовские процедуры, как правило, требуют больших вычислительных затрат, и до того, как были разработаны вычисления Монте-Карло на основе цепей Маркова , были разработаны приближения для байесовских правил кластеризации. ^[7]

Некоторые байесовские процедуры включают расчет вероятностей принадлежности к группе : они обеспечивают более информативный результат, чем простое приписывание одной групповой метки каждому новому наблюдению.

Бинарная и многоклассовая классификация

Классификацию можно рассматривать как две отдельные проблемы – бинарную классификацию и многоклассовую классификацию . В бинарной классификации, более понятной задаче, задействованы только два класса, тогда как многоклассовая классификация подразумевает отнесение объекта к одному из нескольких классов. ^[8] Поскольку многие методы классификации были разработаны специально для бинарной классификации, многоклассовая классификация часто требует комбинированного использования нескольких бинарных классификаторов.

Векторы признаков

Большинство алгоритмов описывают отдельный экземпляр, категория которого должна быть предсказана с использованием вектора признаков индивидуальных, измеримых свойств экземпляра. Каждое свойство называется признаком , также известным в статистике как объясняющая переменная (или независимая переменная , хотя признаки могут быть или не быть статистически независимыми ). Признаки могут быть по-разному бинарными (например, «вкл» или «выкл»); категориальными (например, «A», «B», «AB» или «O» для группы крови ); порядковыми (например, «большой», «средний» или «маленький»); целочисленными (например, количество появлений определенного слова в электронном письме); или действительными (например, измерение кровяного давления). Если экземпляр является изображением, значения признаков могут соответствовать пикселям изображения; если экземпляр является фрагментом текста, значения признаков могут быть частотами появления различных слов. Некоторые алгоритмы работают только с дискретными данными и требуют, чтобы действительные или целочисленные данные были дискретизированы в группы (например, меньше 5, от 5 до 10 или больше 10).

Линейные классификаторы

Большое количество алгоритмов классификации можно сформулировать в терминах линейной функции , которая присваивает оценку каждой возможной категории k путем объединения вектора признаков экземпляра с вектором весов с использованием скалярного произведения . Предсказанная категория — это категория с наивысшей оценкой. Этот тип функции оценки известен как линейная предикторная функция и имеет следующую общую форму: где X _i — вектор признаков экземпляра i , β _k — вектор весов, соответствующий категории k , а оценка ( X _i , k ) — оценка, связанная с отнесением экземпляра i к категории k . В теории дискретного выбора , где экземпляры представляют людей, а категории представляют выборы, оценка считается полезностью, связанной с выбором человеком i категории k . $\operatorname {score} (\mathbf {X} _{i},k)={\boldsymbol {\beta }}_{k}\cdot \mathbf {X} _{i},$

Алгоритмы с такой базовой настройкой известны как линейные классификаторы . Их отличает процедура определения (обучения) оптимальных весов/коэффициентов и способ интерпретации оценки.

Примеры таких алгоритмов включают в себя

Логистическая регрессия – статистическая модель для бинарной зависимой переменной
- Мультиномиальная логистическая регрессия – регрессия для более чем двух дискретных результатов
Пробит-регрессия – статистическая регрессия, в которой зависимая переменная может принимать только два значения.
Алгоритм персептрона
Машина опорных векторов – набор методов для контролируемого статистического обучения
Линейный дискриминантный анализ – метод, используемый в статистике, распознавании образов и других областях.

Алгоритмы

Поскольку ни одна форма классификации не подходит для всех наборов данных, был разработан большой набор алгоритмов классификации. Наиболее часто используемые включают: ^[9]

Искусственные нейронные сети – вычислительная модель, используемая в машинном обучении, основанная на связанных иерархических функциях.
Boosting (машинное обучение) – Метод в машинном обучении
Случайный лес – ансамблевый метод машинного обучения на основе деревьев
Генетическое программирование – разработка компьютерных программ с использованием методов, аналогичных естественным генетическим процессам.
- Программирование экспрессии генов – Эволюционный алгоритм
- Программирование с несколькими выражениями
- Линейное генетическое программирование – тип алгоритма генетического программирования
Оценка ядра – Оконная функцияСтраницы, отображающие краткие описания целей перенаправления
- Метод k-ближайших соседей – Непараметрический метод классификации
Изучение векторного квантования
Линейный классификатор – Статистическая классификация в машинном обучении
- Линейный дискриминант Фишера – метод, используемый в статистике, распознавании образов и других областях.
- Логистическая регрессия – статистическая модель для бинарной зависимой переменной
- Наивный байесовский классификатор – Вероятностный алгоритм классификации
- Персептрон – алгоритм контролируемого обучения бинарных классификаторов
Квадратичный классификатор – используется в машинном обучении для разделения измерений двух или более классов объектов.
Машина опорных векторов – набор методов для контролируемого статистического обучения
- Машина опорных векторов наименьших квадратов

Выбор между различными возможными алгоритмами часто делается на основе количественной оценки точности .

Домены приложений

Классификация имеет множество приложений. В некоторых из них она используется как процедура добычи данных , в то время как в других осуществляется более детальное статистическое моделирование.

Биологическая классификация – наука об идентификации, описании, определении и наименовании групп биологических организмов.
Биометрические данные – показатели, связанные с идентификацией характеристик человека.
Компьютерное зрение – компьютерное извлечение информации из изображений
- Анализ медицинских изображений и медицинская визуализация – Методика и процесс создания визуальных представлений внутренних органов тела
- Оптическое распознавание символов – компьютерное распознавание визуального текста
- Видеоотслеживание – определение местоположения движущегося объекта путем анализа кадров видео.
Кредитный скоринг – числовое выражение, представляющее кредитоспособность человека.
Классификация документов – Процесс категоризации документов
Открытие и разработка лекарственных препаратов – процесс вывода нового фармацевтического препарата на рынок
- Токсикогеномика – раздел токсикологии и геномики
- Количественная связь структуры и активности – Предсказательная химическая модель
Геостатистика – раздел статистики, изучающий пространственные наборы данных.
Распознавание рукописного текста – способность компьютера получать и интерпретировать понятный рукописный ввод.
Интернет -поисковые системы
Классификация микрочипов
Распознавание образов – Автоматическое распознавание образов и закономерностей в данных.
Рекомендательная система – система фильтрации информации для прогнозирования предпочтений пользователей.
Распознавание речи – автоматическое преобразование устной речи в текст
Статистическая обработка естественного языка – Область лингвистики и информатики

Смотрите также

Искусственный интеллект – Интеллект машин
Бинарная классификация – разделение вещей на две категории
Мультиклассовая классификация – Проблема машинного обучения и статистической классификации
Вероятности принадлежности к классу – Проблема машинного обучения
Правило классификации
Обработка сложных терминов
Матрица ошибок – табличная структура для визуализации производительности; также называется матрицей ошибок.
Интеллектуальный анализ данных – процесс извлечения и обнаружения закономерностей в больших наборах данных.
Хранилище данных – Централизованное хранение знаний
Нечеткая логика – система рассуждений о неопределенности
Поиск информации – получение информационных ресурсов, соответствующих информационной потребности.
Список наборов данных для исследования машинного обучения – Обнаружение неисправностей в электронных схемах на основе машинного обучения
Машинное обучение – изучение алгоритмов, которые автоматически совершенствуются с опытом.
Рекомендательная система – система фильтрации информации для прогнозирования предпочтений пользователей.

Ссылки

На Викискладе есть медиафайлы по теме «Статистическая классификация» .

^ Фишер, РА (1936). «Использование множественных измерений в таксономических проблемах». Annals of Eugenics . 7 (2): 179–188. doi :10.1111/j.1469-1809.1936.tb02137.x. hdl : 2440/15227 .
^ Фишер, РА (1938). «Статистическое использование множественных измерений». Annals of Eugenics . 8 (4): 376–386. doi :10.1111/j.1469-1809.1938.tb02189.x. hdl : 2440/15232 .
^ ab Gnanadesikan, R. (1977) Методы статистического анализа данных многомерных наблюдений , Wiley. ISBN 0-471-30845-5 (стр. 83–86)
^ Рао, CR (1952) Расширенные статистические методы в многомерном анализе , Wiley. (Раздел 9c)
^ Андерсон, TW (1958) Введение в многомерный статистический анализ , Wiley.
^ Биндер, ДА (1978). «Байесовский кластерный анализ». Biometrika . 65 : 31–38. doi :10.1093/biomet/65.1.31.
^ Биндер, Дэвид А. (1981). «Приближения к байесовским правилам кластеризации». Biometrika . 68 : 275–285. doi :10.1093/biomet/68.1.275.
^ Har-Peled, S. , Roth, D., Zimak, D. (2003) "Ограниченная классификация для многоклассовой классификации и ранжирования". В: Becker, B., Thrun, S. , Obermayer, K. (ред.) Advances in Neural Information Processing Systems 15: Proceedings of the 2002 Conference , MIT Press. ISBN 0-262-02550-7
^ "Обзор 10 лучших алгоритмов для новичков в машинном обучении". Встроено . 2018-01-20 . Получено 2019-06-10 .