Повышение (машинное обучение)

В машинном обучении (ML) бустинг — это ансамблевая метаэвристика , в первую очередь, для снижения смещения (в отличие от дисперсии) . ^[1] Он также может улучшить стабильность и точность алгоритмов классификации и регрессии ML . Следовательно, он распространен в контролируемом обучении для преобразования слабых учеников в сильных учеников. ^[2]

Концепция усиления основана на вопросе, поставленном Кернсом и Валиантом (1988, 1989): ^[3]^[4] «Может ли набор слабых учеников создать одного сильного ученика?» Слабый ученик определяется как классификатор , который лишь немного коррелирует с истинной классификацией. Сильный ученик — это классификатор, который произвольно хорошо коррелирует с истинной классификацией. Роберт Шапир ответил на этот вопрос утвердительно в статье, опубликованной в 1990 году. ^[5] Это имело значительные последствия в машинном обучении и статистике , в частности, приведя к разработке усиления. ^[6]

Первоначально проблема усиления гипотезы просто относилась к процессу превращения слабого ученика в сильного. ^[3] Алгоритмы, которые достигают этого, быстро стали известны как «усиление». Дуга Фройнда и Шапира (Adapt[at]ive Resampling and Combining), ^[7] как общая техника, более или менее синонимична усилению. ^[8]

Алгоритмы

Хотя усиление алгоритмически не ограничено, большинство алгоритмов усиления состоят из итеративного обучения слабых классификаторов относительно распределения и добавления их к окончательному сильному классификатору. Когда они добавляются, они взвешиваются способом, который связан с точностью слабых учеников. После добавления слабого ученика веса данных перенастраиваются, что известно как «повторное взвешивание ». Неправильно классифицированные входные данные получают более высокий вес, а примеры, которые классифицированы правильно, теряют вес. ^{[примечание 1]} Таким образом, будущие слабые ученики больше сосредотачиваются на примерах, которые предыдущие слабые ученики неправильно классифицировали.

Существует множество алгоритмов усиления. Первоначальные, предложенные Робертом Шапиром ( рекурсивная формулировка большинства), ^[5] и Йоавом Фройндом (усиление большинством), ^[9] не были адаптивными и не могли в полной мере использовать слабых учеников. Затем Шапир и Фройнд разработали AdaBoost , адаптивный алгоритм усиления, который выиграл престижную премию Гёделя .

Только алгоритмы, которые являются доказуемыми алгоритмами усиления в вероятно приблизительно правильной формулировке обучения, могут быть точно названы алгоритмами усиления . Другие алгоритмы, которые по духу похожи ^{[ необходимо разъяснение ]} на алгоритмы усиления, иногда называются «алгоритмами усиления», хотя их также иногда неправильно называют алгоритмами усиления. ^[9]

Основное различие между многими алгоритмами повышения эффективности заключается в их методе взвешивания точек данных обучения и гипотез . AdaBoost очень популярен и исторически наиболее значим, поскольку это был первый алгоритм, который смог адаптироваться к слабым ученикам. Он часто является основой вводного освещения повышения эффективности в университетских курсах машинного обучения. ^[10] Существует множество более поздних алгоритмов, таких как LPBoost , TotalBoost, BrownBoost , xgboost , MadaBoost, LogitBoost и другие. Многие алгоритмы повышения эффективности вписываются в структуру AnyBoost, ^[9] которая показывает, что повышение эффективности выполняет градиентный спуск в функциональном пространстве с использованием выпуклой функции стоимости .

Категоризация объектов в компьютерном зрении

Учитывая изображения, содержащие различные известные объекты в мире, классификатор может быть обучен на их основе для автоматической классификации объектов в будущих изображениях. Простые классификаторы, построенные на основе некоторых особенностей изображения объекта, как правило, слабы в производительности категоризации. Использование методов усиления для категоризации объектов — это способ объединить слабые классификаторы особым образом, чтобы повысить общую способность категоризации. ^{[ необходима цитата ]}

Проблема категоризации объектов

Категоризация объектов — типичная задача компьютерного зрения , которая включает определение того, содержит ли изображение определенную категорию объектов. Идея тесно связана с распознаванием, идентификацией и обнаружением. Категоризация объектов на основе внешнего вида обычно включает извлечение признаков , обучение классификатора и применение классификатора к новым примерам. Существует много способов представления категории объектов, например, с помощью анализа формы , моделей мешка слов или локальных дескрипторов , таких как SIFT и т. д. Примерами контролируемых классификаторов являются наивные байесовские классификаторы , машины опорных векторов , смеси гауссианов и нейронные сети . Однако исследования ^[^which?^] показали, что категории объектов и их расположение на изображениях можно обнаружить и неконтролируемым образом . ^[11]

Статус-кво для категоризации объектов

Распознавание категорий объектов на изображениях является сложной проблемой в компьютерном зрении , особенно когда количество категорий велико. Это связано с высокой внутриклассовой изменчивостью и необходимостью обобщения между вариациями объектов в пределах одной категории. Объекты в пределах одной категории могут выглядеть совершенно по-разному. Даже один и тот же объект может казаться непохожим при разной точке обзора, масштабе и освещении . Фоновый беспорядок и частичная окклюзия также усложняют распознавание. ^[12] Люди способны распознавать тысячи типов объектов, тогда как большинство существующих систем распознавания объектов обучены распознавать только несколько, ^{[ количественно определять ],} например, человеческие лица , автомобили , простые объекты и т. д. ^[13]^{[ требуется обновление? ]} Исследования были очень активны в отношении работы с большим количеством категорий и обеспечения возможности постепенного добавления новых категорий, и хотя общая проблема остается нерешенной, было разработано несколько детекторов многокатегорийных объектов (для сотен или тысяч категорий ^[14] ). Одним из способов является совместное использование и усиление признаков .

Повышение бинарной категоризации

AdaBoost может использоваться для обнаружения лиц в качестве примера бинарной категоризации . Две категории — это лица и фон. Общий алгоритм выглядит следующим образом:

Образуют большой набор простых функций
Инициализация весов для обучающих изображений
Для раундов T
1. Нормализовать веса
2. Для доступных признаков из набора обучить классификатор, используя один признак, и оценить ошибку обучения.
3. Выберите классификатор с наименьшей ошибкой
4. Обновите веса обучающих изображений: увеличьте, если классифицированы этим классификатором неправильно, уменьшите, если правильно.
Сформировать окончательный сильный классификатор как линейную комбинацию классификаторов T (коэффициент больше, если ошибка обучения мала)

После усиления классификатор, созданный на основе 200 признаков, может обеспечить 95%-ный уровень обнаружения при уровне ложных срабатываний . ^[15] $10^{-5}$

Другим применением бустинга для бинарной категоризации является система, которая обнаруживает пешеходов, используя шаблоны движения и внешнего вида. ^[16] Эта работа является первой, которая объединяет как информацию о движении, так и информацию о внешнем виде в качестве признаков для обнаружения идущего человека. Она использует аналогичный подход к фреймворку обнаружения объектов Виолы-Джонса .

Повышение многоклассовой категоризации

По сравнению с бинарной категоризацией, многоклассовая категоризация ищет общие признаки, которые могут быть общими для всех категорий одновременно. Они оказываются более общими признаками, похожими на края . Во время обучения детекторы для каждой категории могут обучаться совместно. По сравнению с обучением по отдельности, она лучше обобщает , требует меньше обучающих данных и требует меньше признаков для достижения той же производительности.

Основной поток алгоритма аналогичен бинарному случаю. Отличие заключается в том, что мера ошибки совместного обучения должна быть определена заранее. Во время каждой итерации алгоритм выбирает классификатор одного признака (признаки, которые могут быть общими для большего количества категорий, должны поощряться). Это можно сделать путем преобразования многоклассовой классификации в бинарную (набор категорий против остальных), ^[17] или путем введения штрафной ошибки из категорий, которые не имеют признака классификатора. ^[18]

В статье «Обмен визуальными признаками для обнаружения многоклассовых и многовидовых объектов» А. Торральба и др. использовали GentleBoost для усиления и показали, что при ограниченном объеме обучающих данных обучение посредством обмена признаками дает гораздо лучшие результаты, чем отсутствие обмена при тех же раундах усиления. Кроме того, для заданного уровня производительности общее количество требуемых признаков (и, следовательно, стоимость времени выполнения классификатора) для детекторов совместного использования признаков, как наблюдается, масштабируется приблизительно логарифмически с числом классов, т. е. медленнее, чем линейный рост в случае отсутствия обмена. Аналогичные результаты показаны в статье «Инкрементальное обучение детекторов объектов с использованием визуального алфавита форм», однако авторы использовали AdaBoost для усиления.

Выпуклые и невыпуклые алгоритмы бустинга

Алгоритмы повышения могут быть основаны на выпуклых или невыпуклых алгоритмах оптимизации. Выпуклые алгоритмы, такие как AdaBoost и LogitBoost , могут быть «побеждены» случайным шумом, так что они не смогут изучить базовые и обучаемые комбинации слабых гипотез. ^[19]^[20] Это ограничение было указано Long & Servedio в 2008 году. Однако к 2009 году несколько авторов продемонстрировали, что алгоритмы повышения, основанные на невыпуклой оптимизации, такие как BrownBoost , могут обучаться на зашумленных наборах данных и могут, в частности, изучать базовый классификатор набора данных Long–Servedio.

Смотрите также

Реализации

scikit-learn — библиотека машинного обучения с открытым исходным кодом для Python
Orange , бесплатный программный пакет для анализа данных, модуль Orange.ensemble
Weka — это набор инструментов машинного обучения, который предлагает различные реализации алгоритмов повышения производительности, таких как AdaBoost и LogitBoost.
Пакет R GBM (Generalized Boosted Regression Models) реализует расширения алгоритма AdaBoost Фройнда и Шапира и градиентной бустирующей машины Фридмана.
jboost; AdaBoost, LogitBoost, RobustBoost, Boostexter и альтернативные деревья решений
Пакет R adabag: Применяет Multiclass AdaBoost.M1, AdaBoost-SAMME и Bagging
Пакет R xgboost: Реализация градиентного бустинга для линейных и древовидных моделей.

Примечания

^ Некоторые алгоритмы классификации, основанные на усилении, на самом деле уменьшают вес многократно неправильно классифицированных примеров; например, усиление по большинству и BrownBoost .

Ссылки

^ Лео Брейман (1996). "КЛАССИФИКАТОРЫ СМЕЩЕНИЯ, ДИСПЕРСИИ И ДУГОВОГО РАЗРЫВА" (PDF) . ТЕХНИЧЕСКИЙ ОТЧЕТ. Архивировано из оригинала (PDF) 2015-01-19 . Получено 19 января 2015. Дугообразование [усиление] более успешно, чем бэггинг в снижении дисперсии
^ Чжоу Чжи-Хуа (2012). Методы ансамбля: основы и алгоритмы . Chapman and Hall/CRC. стр. 23. ISBN 978-1439830031Термин «усиление» относится к семейству алгоритмов, которые способны преобразовывать слабых учеников в сильных учеников .
^ ab Майкл Кернс (1988); Размышления о повышении гипотез, неопубликованная рукопись (проект класса по машинному обучению, декабрь 1988 г.)
^ Майкл Кернс ; Лесли Валиант (1989). "Критографические ограничения на изучение булевых формул и конечных автоматов". Труды двадцать первого ежегодного симпозиума ACM по теории вычислений - STOC '89 . Том 21. ACM. С. 433–444. doi :10.1145/73007.73049. ISBN 978-0897913072. S2CID 536357.
^ ab Schapire, Robert E. (1990). "Сила слабой обучаемости" (PDF) . Машинное обучение . 5 (2): 197–227. CiteSeerX 10.1.1.20.723 . doi :10.1007/bf00116037. S2CID 53304535. Архивировано из оригинала (PDF) 2012-10-10 . Получено 2012-08-23 .
^ Лео Брейман (1998). "Дуговой классификатор (с обсуждением и ответом автора)". Ann. Stat . 26 (3): 801–849. doi : 10.1214/aos/1024691079 . Шапир (1990) доказал, что бустинг возможен. (Страница 823)
^ Йоав Фройнд и Роберт Э. Шапир (1997); Обобщение теории принятия решений в области онлайн-обучения и его применение для повышения эффективности, Журнал компьютерных и системных наук, 55(1):119-139
^ Лео Брейман (1998); Arcing Classifier (с обсуждением и ответом автора), Annals of Statistics, т. 26, № 3, стр. 801-849: «Концепция слабого обучения была введена Кернсом и Валиантом (1988, 1989), которые оставили открытым вопрос об эквивалентности слабой и сильной обучаемости. Вопрос был назван проблемой усиления , поскольку решение «усиливает» низкую точность слабого ученика до высокой точности сильного ученика. Шапир (1990) доказал, что усиление возможно. Алгоритм усиления — это метод, который берет слабого ученика и преобразует его в сильного. Фройнд и Шапир (1997) доказали, что алгоритм, похожий на arc-fs, является усилением.
^ abc Лью Мейсон, Джонатан Бакстер, Питер Бартлетт и Маркус Фрин (2000); Повышение алгоритмов с помощью градиентного спуска , в SA Solla , TK Leen и K.-R. Muller, редакторы, Advances in Neural Information Processing Systems 12, стр. 512-518, MIT Press
^ Эмер, Эрик. "Усиление (алгоритм AdaBoost)" (PDF) . MIT . Архивировано (PDF) из оригинала 2022-10-09 . Получено 2018-10-10 .
^ Сивик, Рассел, Эфрос, Фримен и Зиссерман, «Обнаружение объектов и их местоположения на изображениях», ICCV 2005
^ А. Опельт, А. Пинц и др., «Универсальное распознавание объектов с усилением», Труды IEEE по PAMI 2006
^ М. Маршалек, «Семантические иерархии для распознавания визуальных объектов», 2007
^ «Крупномасштабное испытание визуального распознавания». Декабрь 2017 г.
^ П. Виола, М. Джонс, «Надежное обнаружение объектов в реальном времени», 2001 г.
^ Виола, П.; Джонс, М.; Сноу, Д. (2003). Обнаружение пешеходов с использованием шаблонов движения и внешнего вида (PDF) . ICCV. Архивировано (PDF) из оригинала 2022-10-09.
^ А. Торральба, К. П. Мерфи и др., «Совместное использование визуальных признаков для обнаружения многоклассовых и многовидовых объектов», IEEE Transactions on PAMI 2006
^ А. Опельт и др., «Постепенное обучение детекторов объектов с использованием алфавита визуальных форм», CVPR 2006
^ П. Лонг и Р. Серведио. 25-я Международная конференция по машинному обучению (ICML), 2008, стр. 608--615.
^ Лонг, Филип М.; Серведио, Рокко А. (март 2010 г.). «Случайный шум классификации побеждает все выпуклые потенциальные усилители» (PDF) . Машинное обучение . 78 (3): 287–304. doi : 10.1007/s10994-009-5165-z . S2CID 53861. Архивировано (PDF) из оригинала 2022-10-09 . Получено 2015-11-17 .

Дальнейшее чтение

Фройнд, Йоав; Шапир, Роберт Э. (1997). «Обобщение теории принятия решений в области онлайн-обучения и его применение для повышения эффективности» (PDF) . Журнал компьютерных и системных наук . 55 (1): 119–139. doi :10.1006/jcss.1997.1504.
Шапир, Роберт Э. (1990). «Сила слабой обучаемости». Машинное обучение . 5 (2): 197–227. doi : 10.1007/BF00116037 . S2CID 6207294.
Шапир, Роберт Э.; Сингер, Йорам (1999). «Улучшенные алгоритмы повышения с использованием предикторов с рейтингом уверенности». Машинное обучение . 37 (3): 297–336. doi : 10.1023/A:1007614523901 . S2CID 2329907.
Чжоу, Чжихуа (2008). «О краевом объяснении алгоритма повышения» (PDF) . В: Труды 21-й ежегодной конференции по теории обучения (COLT'08) : 479–490.
Чжоу, Чжихуа (2013). «О сомнении в объяснении усиления с помощью маржи» (PDF) . Искусственный интеллект . 203 : 1–18. arXiv : 1009.3613 . doi : 10.1016/j.artint.2013.07.002. S2CID 2828847.

Внешние ссылки

Роберт Э. Шапир (2003); Подход к машинному обучению с использованием метода Boosting: обзор, MSRI (Исследовательский институт математических наук), семинар по нелинейной оценке и классификации
Чжоу Чжи-Хуа (2014) Повышение эффективности за 25 лет. Архивировано 20 августа 2016 г. на Wayback Machine , основной доклад CCL 2014.