stringtranslate.com

Вероятностная классификация

В машинном обучении вероятностный классификатор — это классификатор , который способен предсказать, учитывая наблюдение за входными данными, распределение вероятностей по набору классов, а не только выводить наиболее вероятный класс, к которому должно принадлежать наблюдение. Вероятностные классификаторы обеспечивают классификацию, которая может быть полезна сама по себе [1] или при объединении классификаторов в ансамбли .

Типы классификации

Формально «обычный» классификатор — это некоторое правило или функция , которая присваивает образцу x метку класса ŷ :

Образцы берутся из некоторого множества X (например, множества всех документов или множества всех изображений ), в то время как метки классов образуют конечное множество Y, определенное до обучения.

Вероятностные классификаторы обобщают это понятие классификаторов: вместо функций они являются условными распределениями , что означает, что для заданного они назначают вероятности всем (и эти вероятности в сумме дают единицу). «Жесткая» классификация может быть выполнена с использованием оптимального решающего правила [2] : 39–40 

или, говоря по-английски, прогнозируемый класс — это тот, который имеет наибольшую вероятность.

Бинарные вероятностные классификаторы также называются в статистике бинарными регрессионными моделями . В эконометрике вероятностная классификация в целом называется дискретным выбором .

Некоторые модели классификации, такие как наивный байесовский , логистическая регрессия и многослойные персептроны (при обучении с использованием соответствующей функции потерь ) являются естественно вероятностными. Другие модели, такие как машины опорных векторов, не являются таковыми, но существуют методы, позволяющие превратить их в вероятностные классификаторы.

Генеративное и условное обучение

Некоторые модели, такие как логистическая регрессия , обучаются условно: они оптимизируют условную вероятность непосредственно на обучающем наборе (см. минимизация эмпирического риска ). Другие классификаторы, такие как наивный байесовский , обучаются генеративно : во время обучения находятся класс-условное распределение и класс- априор , а условное распределение выводится с использованием правила Байеса . [2] : 43 

Калибровка вероятности

Не все модели классификации являются естественно вероятностными, и некоторые из них, особенно наивные байесовские классификаторы, деревья решений и методы усиления , создают искаженные распределения вероятностей классов. [3] В случае деревьев решений, где Pr( y | x ) — это доля обучающих выборок с меткой y в листе, где заканчивается x , эти искажения возникают из-за того, что алгоритмы обучения, такие как C4.5 или CART, явно нацелены на создание однородных листьев (давая вероятности, близкие к нулю или единице, и, следовательно, высокое смещение ) при использовании небольшого количества выборок для оценки соответствующей доли (высокая дисперсия ). [4]

Пример калибровочного графика

Калибровку можно оценить с помощью калибровочного графика (также называемого диаграммой надежности ). [3] [5] Калибровочный график показывает долю элементов в каждом классе для полос предсказанной вероятности или оценки (например, искаженное распределение вероятностей или «знаковое расстояние до гиперплоскости» в машине опорных векторов). Отклонения от функции тождества указывают на плохо откалиброванный классификатор, для которого предсказанные вероятности или оценки не могут использоваться в качестве вероятностей. В этом случае можно использовать метод, чтобы превратить эти оценки в должным образом откалиброванные вероятности принадлежности к классу.

Для бинарного случая распространенным подходом является применение масштабирования Платта , которое обучает модель логистической регрессии на основе оценок. [6] Альтернативный метод, использующий изотоническую регрессию [7] , как правило, превосходит метод Платта, когда доступно достаточно данных для обучения. [3]

В случае с несколькими классами можно использовать сведение к бинарным задачам, за которым следует одномерная калибровка с помощью алгоритма, описанного выше, и дальнейшее применение алгоритма парной связи Хасти и Тибширани. [8]

Оценка вероятностной классификации

Обычно используемые метрики оценки, которые сравнивают прогнозируемую вероятность с наблюдаемыми результатами, включают логарифм потерь , оценку Брайера и различные ошибки калибровки. Первый также используется как функция потерь при обучении логистических моделей.

Метрики ошибок калибровки направлены на количественную оценку степени, в которой выходные данные вероятностного классификатора хорошо откалиброваны . Как выразился Филип Дэвид , «прогнозист хорошо откалиброван, если, например, из тех событий, которым он назначает вероятность 30 процентов, долгосрочная доля, которая фактически происходит, оказывается равной 30 процентам». [9] Основополагающая работа в области измерения ошибки калибровки — это метрика ожидаемой ошибки калибровки (ECE). [10] Более поздние работы предлагают варианты ECE, которые устраняют ограничения метрики ECE, которые могут возникнуть, когда оценки классификатора концентрируются на узком подмножестве [0,1], включая адаптивную ошибку калибровки (ACE) [11] и ошибку калибровки на основе теста (TCE). [12]

Метод, используемый для присвоения оценок парам прогнозируемых вероятностей и фактических дискретных результатов, чтобы можно было сравнивать различные методы прогнозирования, называется правилом подсчета баллов .

Реализации программного обеспечения

Ссылки

  1. ^ Хасти, Тревор; Тибширани, Роберт; Фридман, Джером (2009). Элементы статистического обучения. стр. 348. Архивировано из оригинала 26.01.2015. [В] приложениях для интеллектуального анализа данных интерес часто больше сосредоточен на самих вероятностях классов, а не на выполнении задания класса.
  2. ^ ab Bishop, Christopher M. (2006). Распознавание образов и машинное обучение . Springer.
  3. ^ abc Никулеску-Мизил, Александру; Каруана, Рич (2005). Прогнозирование хороших вероятностей с помощью контролируемого обучения (PDF) . ICML. doi :10.1145/1102351.1102430. Архивировано из оригинала (PDF) 2014-03-11.
  4. ^ Задрозный, Бьянка; Элкан, Чарльз (2001). Получение калиброванных оценок вероятности из деревьев решений и наивных байесовских классификаторов (PDF) . ICML. стр. 609–616.
  5. ^ "Калибровка вероятности". jmetzen.github.io . Получено 2019-06-18 .
  6. ^ Платт, Джон (1999). «Вероятностные результаты для опорных векторных машин и сравнения с регуляризованными методами правдоподобия». Advances in Large Margin Classifiers . 10 (3): 61–74.
  7. ^ Задрозный, Бьянка; Элкан, Чарльз (2002). «Преобразование оценок классификаторов в точные оценки вероятности мультиклассов» (PDF) . Труды восьмой международной конференции ACM SIGKDD по обнаружению знаний и добыче данных — KDD '02 . стр. 694–699. CiteSeerX 10.1.1.164.8140 . doi :10.1145/775047.775151. ISBN  978-1-58113-567-1. S2CID  3349576. CiteSeerX : 10.1.1.13.7457 .
  8. ^ Хасти, Тревор; Тибширани, Роберт (1998). «Классификация по парной связи». Анналы статистики . 26 (2): 451–471. CiteSeerX 10.1.1.309.4720 . дои : 10.1214/aos/1028144844. Збл  0932.62071. CiteSeerX : 10.1.1.46.6032 . 
  9. ^ Дэвид, А. П. (1982). «Хорошо калиброванный байесовский». Журнал Американской статистической ассоциации . 77 (379): 605–610. doi :10.1080/01621459.1982.10477856.
  10. ^ Naeini, MP; Cooper, G.; Hauskrecht, M. (2015). «Получение хорошо откалиброванных вероятностей с использованием байесовского биннинга» (PDF) . Труды конференции AAAI по искусственному интеллекту .
  11. ^ Никсон, Дж.; Дьюсенберри, М. В.; Чжан, Л.; Джерфель, Г.; Тран, Д. (2019). «Измерение калибровки в глубоком обучении» (PDF) . Семинары CVPR .
  12. ^ Мацубара, Т.; Такс, Н.; Мадд, Р.; Гай, И. (2023). «TCE: Тестовый подход к измерению погрешности калибровки». Труды Тридцать девятой конференции по неопределенности в искусственном интеллекте (UAI) . arXiv : 2306.14343 .
  13. ^ "MoRPE". GitHub . Получено 17 февраля 2023 г. .