В статистике и машинном обучении ансамблевые методы используют несколько алгоритмов обучения для получения лучшей предсказательной эффективности , чем та, которая могла бы быть получена от любого из составляющих алгоритмов обучения в отдельности. [1] [2] [3] В отличие от статистического ансамбля в статистической механике, который обычно бесконечен, ансамбль машинного обучения состоит только из конкретного конечного набора альтернативных моделей, но обычно допускает существование гораздо более гибкой структуры среди этих альтернатив.
Алгоритмы контролируемого обучения просматривают пространство гипотез , чтобы найти подходящую гипотезу, которая будет делать хорошие прогнозы для конкретной проблемы. [4] Даже если это пространство содержит гипотезы, которые очень хорошо подходят для конкретной проблемы, может быть очень сложно найти хорошую. Ансамбли объединяют несколько гипотез, чтобы сформировать одну, которая должна быть теоретически лучше.
Ансамблевое обучение обучает два или более алгоритмов машинного обучения на определенной задаче классификации или регрессии . Алгоритмы в рамках ансамблевой модели обычно называются в литературе «базовыми моделями», «базовыми обучающимися» или «слабыми обучающимися». Эти базовые модели могут быть построены с использованием одного алгоритма моделирования или нескольких различных алгоритмов. Идея состоит в том, чтобы обучить разнообразный набор слабых моделей на одной и той же задаче моделирования, так что выходные данные каждого слабого обучающегося имеют плохую предсказательную способность (т. е. высокую предвзятость ), а среди всех слабых обучающихся значения результата и ошибки демонстрируют высокую дисперсию . По сути, ансамблевая модель обучения обучает по крайней мере две модели с высоким смещением (слабые) и высокой дисперсией (разнообразные), которые затем объединяются в более эффективную модель. Набор слабых моделей, которые по отдельности не давали бы удовлетворительных предсказательных результатов, объединяются или усредняются для получения единой, высокопроизводительной, точной и низкодисперсной модели, которая соответствует задаче в соответствии с требованиями.
Обучение ансамбля обычно относится к методам бэггинга ( бутстрап-агрегации ), бустинга или стекинга/смешивания для получения высокой дисперсии среди базовых моделей. Бэггинг создает разнообразие путем генерации случайных выборок из обучающих наблюдений и подгонки одной и той же модели к каждой отдельной выборке — также известно как однородные параллельные ансамбли . Бустинг следует за итеративным процессом путем последовательного обучения каждой базовой модели на взвешенных ошибках предыдущей базовой модели, создавая аддитивную модель для уменьшения окончательных ошибок модели — также известно как последовательное обучение ансамбля . Стекинг или смешивание состоит из различных базовых моделей, каждая из которых обучается независимо (т. е. разнообразная/высокая дисперсия) для объединения в модель ансамбля — создавая неоднородный параллельный ансамбль . Распространенные приложения обучения ансамбля включают случайные леса (расширение бэггинга), модели Boosted Tree и модели Gradient Boosted Tree. Модели в приложениях стекинга, как правило, более специфичны для задач — например, объединение методов кластеризации с другими параметрическими и/или непараметрическими методами. [5]
Более широкий термин « системы множественных классификаторов» также охватывает гибридизацию гипотез, которые не индуцируются одним и тем же базовым обучающимся алгоритмом. [ необходима ссылка ]
Оценка прогноза ансамбля обычно требует больше вычислений, чем оценка прогноза одной модели. В каком-то смысле ансамблевое обучение можно рассматривать как способ компенсации плохих алгоритмов обучения путем выполнения большого количества дополнительных вычислений. С другой стороны, альтернативой является выполнение гораздо большего обучения с одной неансамблевой моделью. Ансамбль может быть более эффективным в повышении общей точности для того же увеличения вычислительных, хранилищных или коммуникационных ресурсов, используя это увеличение на двух или более методах, чем это было бы улучшено за счет увеличения использования ресурсов для одного метода. Быстрые алгоритмы, такие как деревья решений , обычно используются в ансамблевых методах (например, случайные леса), хотя более медленные алгоритмы также могут выиграть от ансамблевых методов.
По аналогии ансамблевые методы использовались также в сценариях неконтролируемого обучения , например, при консенсусной кластеризации или при обнаружении аномалий .
Эмпирически ансамбли, как правило, дают лучшие результаты, когда существует значительное разнообразие среди моделей. [6] [7] Поэтому многие методы ансамблей стремятся способствовать разнообразию среди моделей, которые они объединяют. [8] [9] Хотя, возможно, это и не интуитивно, более случайные алгоритмы (например, случайные деревья решений) могут использоваться для создания более сильного ансамбля, чем очень преднамеренные алгоритмы (например, деревья решений, уменьшающие энтропию). [10] Однако было показано, что использование различных сильных алгоритмов обучения более эффективно, чем использование методов, которые пытаются упростить модели для содействия разнообразию. [11] Можно увеличить разнообразие на этапе обучения модели, используя корреляцию для задач регрессии [12] или используя информационные меры, такие как перекрестная энтропия для задач классификации. [13]
Теоретически можно обосновать концепцию разнообразия, поскольку нижняя граница коэффициента ошибок ансамблевой системы может быть разложена на точность, разнообразие и другой член. [14]
Обучение ансамбля, включая задачи регрессии и классификации, можно объяснить с помощью геометрической структуры. [15] В рамках этой структуры выход каждого отдельного классификатора или регрессора для всего набора данных можно рассматривать как точку в многомерном пространстве. Кроме того, целевой результат также представлен как точка в этом пространстве, называемая «идеальной точкой».
Евклидово расстояние используется в качестве метрики для измерения как производительности отдельного классификатора или регрессора (расстояние между его точкой и идеальной точкой), так и различия между двумя классификаторами или регрессорами (расстояние между их соответствующими точками). Эта перспектива превращает ансамблевое обучение в детерминированную задачу.
Например, в рамках этой геометрической структуры можно доказать, что усреднение выходов (баллов) всех базовых классификаторов или регрессоров может привести к равным или лучшим результатам, чем среднее значение всех индивидуальных моделей. Можно также доказать, что если используется оптимальная схема взвешивания, то подход взвешенного усреднения может превзойти любой из индивидуальных классификаторов или регрессоров, составляющих ансамбль, или быть по крайней мере таким же хорошим, как лучший исполнитель.
Хотя количество классификаторов компонентов ансамбля оказывает большое влияние на точность прогнозирования, существует ограниченное количество исследований, посвященных этой проблеме. Априорное определение размера ансамбля, а также объема и скорости потоков больших данных делает это еще более важным для онлайн-классификаторов ансамбля. В основном статистические тесты использовались для определения надлежащего количества компонентов. Совсем недавно теоретическая структура предположила, что существует идеальное количество классификаторов компонентов для ансамбля, такое, что наличие большего или меньшего количества классификаторов ухудшит точность. Это называется «законом убывающей доходности при построении ансамбля». Их теоретическая структура показывает, что использование того же количества независимых классификаторов компонентов в качестве меток классов дает наивысшую точность. [16] [17]
Оптимальный классификатор Байеса — это метод классификации. Это ансамбль всех гипотез в пространстве гипотез. В среднем никакой другой ансамбль не может превзойти его. [18] Наивный классификатор Байеса — это версия этого, которая предполагает, что данные условно независимы от класса, и делает вычисления более осуществимыми. Каждой гипотезе дается голос, пропорциональный вероятности того, что обучающий набор данных будет выбран из системы, если эта гипотеза верна. Для упрощения обучающих данных конечного размера голос каждой гипотезы также умножается на априорную вероятность этой гипотезы. Оптимальный классификатор Байеса можно выразить с помощью следующего уравнения:
где — предсказанный класс, — множество всех возможных классов, — пространство гипотез, относится к вероятности , а — обучающие данные. Как ансамбль, оптимальный классификатор Байеса представляет гипотезу, которая не обязательно находится в . Однако гипотеза, представленная оптимальным классификатором Байеса, является оптимальной гипотезой в пространстве ансамблей (пространстве всех возможных ансамблей, состоящих только из гипотез в ).
Эту формулу можно переформулировать с помощью теоремы Байеса , которая гласит, что апостериорная вероятность пропорциональна правдоподобию, умноженному на априорную вероятность:
следовательно,
Агрегация бутстрапа ( бэггинг ) подразумевает обучение ансамбля на наборах данных бутстрапа . Набор бутстрапа создается путем выбора из исходного набора данных обучения с заменой. Таким образом, набор бутстрапа может содержать заданный пример ноль, один или несколько раз. Члены ансамбля также могут иметь ограничения на признаки (например, узлы дерева решений), чтобы поощрять исследование разнообразных признаков. [19] Дисперсия локальной информации в наборах бутстрапа и соображения о признаках способствуют разнообразию в ансамбле и могут усилить ансамбль. [20] Чтобы уменьшить переобучение, член может быть проверен с использованием набора out-of-bag (примеров, которые не входят в его набор бутстрапа). [21]
Вывод выполняется путем голосования прогнозов членов ансамбля, называемого агрегацией . Ниже он проиллюстрирован ансамблем из четырех деревьев решений. Пример запроса классифицируется каждым деревом. Поскольку три из четырех предсказывают положительный класс, общая классификация ансамбля положительна . Случайные леса, подобные показанному, являются распространенным применением бэггинга.
Усиление подразумевает обучение последовательных моделей путем акцентирования обучающих данных, неправильно классифицированных ранее обученными моделями. Изначально все данные (D1) имеют одинаковый вес и используются для обучения базовой модели M1. Примерам, неправильно классифицированным M1, присваивается вес, больший, чем правильно классифицированным примерам. Эти усиленные данные (D2) используются для обучения второй базовой модели M2 и т. д. Вывод делается путем голосования.
В некоторых случаях бустинг показал лучшую точность, чем бэггинг, но имеет тенденцию к большему переобучению. Наиболее распространенной реализацией бустинга является Adaboost , но сообщается, что некоторые более новые алгоритмы достигают лучших результатов. [ необходима цитата ]
Усреднение байесовской модели (BMA) делает прогнозы путем усреднения прогнозов моделей, взвешенных по их апостериорным вероятностям с учетом данных. [22] Известно, что BMA обычно дает лучшие ответы, чем одна модель, полученная, например, с помощью пошаговой регрессии , особенно когда очень разные модели имеют почти одинаковую производительность в обучающем наборе, но в остальном могут работать совершенно по-разному.
Вопрос при любом использовании теоремы Байеса — это априор, т. е. вероятность (возможно, субъективная), что каждая модель является лучшей для использования в данной цели. Концептуально BMA может использоваться с любым априором. Пакеты R ensembleBMA [23] и BMA [24] используют априор, подразумеваемый байесовским информационным критерием (BIC), следуя Рафтери (1995). [25] Пакет R BAS поддерживает использование априорных данных, подразумеваемых информационным критерием Акаике (AIC) и другими критериями по альтернативным моделям, а также априорных данных по коэффициентам. [26]
Разница между BIC и AIC заключается в силе предпочтения экономии. Штраф BIC за сложность модели составляет , тогда как AIC — . Асимптотическая теория больших выборок устанавливает, что если есть лучшая модель, то с увеличением размеров выборки BIC строго последовательна, т. е. почти наверняка найдет ее, в то время как AIC может и не найти, потому что AIC может продолжать приписывать чрезмерную апостериорную вероятность моделям, которые сложнее, чем им нужно. С другой стороны, AIC и AICc асимптотически «эффективны» (т. е. имеют минимальную среднеквадратичную ошибку прогнозирования), тогда как BIC — нет. [27]
Хаусслер и др. (1994) показали, что при использовании BMA для классификации его ожидаемая ошибка не превышает в два раза ожидаемую ошибку оптимального классификатора Байеса. [28] Бернхэм и Андерсон (1998, 2002) внесли большой вклад в ознакомление более широкой аудитории с основными идеями усреднения байесовской модели и популяризацию методологии. [29] Доступность программного обеспечения, включая другие бесплатные пакеты с открытым исходным кодом для R, помимо упомянутых выше, помогла сделать методы доступными для более широкой аудитории. [30]
Комбинация байесовских моделей (BMC) — это алгоритмическая поправка к усреднению байесовских моделей (BMA). Вместо того, чтобы выбирать каждую модель в ансамбле по отдельности, она выбирает из пространства возможных ансамблей (с весами моделей, выбранными случайным образом из распределения Дирихле с однородными параметрами). Эта модификация преодолевает тенденцию BMA сходиться к тому, чтобы отдавать весь вес одной модели. Хотя BMC несколько более затратен в вычислительном отношении, чем BMA, он имеет тенденцию давать значительно лучшие результаты. Было показано, что BMC в среднем лучше (со статистической значимостью), чем BMA и бэггинг. [31]
Использование закона Байеса для вычисления весов моделей требует вычисления вероятности данных, заданных для каждой модели. Обычно ни одна из моделей в ансамбле не является в точности распределением, из которого были сгенерированы обучающие данные, поэтому все они правильно получают значение, близкое к нулю для этого термина. Это работало бы хорошо, если бы ансамбль был достаточно большим, чтобы охватить все пространство модели, но это редко возможно. Следовательно, каждый шаблон в обучающих данных приведет к смещению веса ансамбля в сторону модели в ансамбле, которая ближе всего к распределению обучающих данных. По сути, это сводится к неоправданно сложному методу выбора модели.
Возможные веса для ансамбля можно визуализировать как лежащие на симплексе. В каждой вершине симплекса весь вес дается одной модели в ансамбле. BMA сходится к вершине, которая ближе всего к распределению обучающих данных. Напротив, BMC сходится к точке, где это распределение проецируется на симплекс. Другими словами, вместо выбора одной модели, которая ближе всего к генерирующему распределению, он ищет комбинацию моделей, которая ближе всего к генерирующему распределению.
Результаты BMA часто можно аппроксимировать с помощью перекрестной проверки для выбора лучшей модели из набора моделей. Аналогично, результаты BMC можно аппроксимировать с помощью перекрестной проверки для выбора лучшей ансамблевой комбинации из случайной выборки возможных весов.
«Корзина моделей» — это ансамблевая техника, в которой алгоритм выбора модели используется для выбора лучшей модели для каждой проблемы. При тестировании только с одной проблемой корзина моделей может не дать лучших результатов, чем лучшая модель в наборе, но при оценке по многим проблемам она, как правило, даст в среднем гораздо лучшие результаты, чем любая модель в наборе.
Наиболее распространенный подход, используемый для выбора модели, — это выбор с перекрестной проверкой (иногда называемый «конкурсом выпечек»). Он описывается следующим псевдокодом:
Для каждой модели m в ведре: Сделать c раз: (где 'c' — некоторая константа) Случайным образом разделите обучающий набор данных на два набора: A и B. Поезд m с A Тест m с BВыберите модель, которая получит наивысший средний балл
Выбор перекрестной проверки можно обобщить следующим образом: «попробуйте их все с обучающим набором и выберите тот, который работает лучше всего». [32]
Gating — это обобщение Cross-Validation Selection. Он включает в себя обучение другой обучающей модели для решения, какая из моделей в корзине лучше всего подходит для решения проблемы. Часто для модели gating используется персептрон . Его можно использовать для выбора «лучшей» модели или для придания линейного веса прогнозам каждой модели в корзине.
Когда используется ведро моделей с большим набором проблем, может быть желательно избегать обучения некоторых моделей, которые требуют много времени для обучения. Обучение по ориентирам — это подход метаобучения, который стремится решить эту проблему. Он включает в себя обучение только быстрых (но неточных) алгоритмов в ведро, а затем использование производительности этих алгоритмов для определения того, какой медленный (но точный) алгоритм, скорее всего, справится лучше всего. [33]
Наиболее распространенный подход к обучению классификатора — использование функции стоимости кросс-энтропии . Однако хотелось бы обучить ансамбль моделей, которые имеют разнообразие, чтобы при их объединении получить наилучшие результаты. [34] [35] Предположим, что мы используем простой ансамбль усредняющих классификаторов. Тогда измененная стоимость кросс-энтропии равна
где — функция стоимости классификатора , — вероятность классификатора , — истинная вероятность, которую нам нужно оценить, и — параметр от 0 до 1, определяющий разнообразие, которое мы хотели бы установить. Когда мы хотим, чтобы каждый классификатор делал все возможное независимо от ансамбля, и когда мы хотим, чтобы классификатор был максимально разнообразным.
Стекирование (иногда называемое стекированным обобщением ) подразумевает обучение модели для объединения предсказаний нескольких других алгоритмов обучения. Сначала все другие алгоритмы обучаются с использованием доступных данных, затем алгоритм комбинирования (окончательный оценщик) обучается делать окончательный прогноз, используя все предсказания других алгоритмов (базовые оценщики) в качестве дополнительных входных данных или используя перекрестно проверенные предсказания от базовых оценщиков, которые могут предотвратить переобучение. [36] Если используется произвольный алгоритм комбинирования, то стекирование теоретически может представлять любой из методов ансамбля, описанных в этой статье, хотя на практике в качестве комбинирования часто используется модель логистической регрессии .
Стекирование обычно обеспечивает производительность, превышающую производительность любой из обученных моделей в отдельности. [37] Оно успешно использовалось как в задачах контролируемого обучения (регрессия, [38] классификация и дистанционное обучение [39] ), так и в задачах неконтролируемого обучения (оценка плотности). [40] Оно также использовалось для оценки частоты ошибок бэггинга. [3] [41] Сообщалось, что оно превосходит байесовское усреднение модели. [42] Два лучших исполнителя в соревновании Netflix использовали смешивание, которое можно считать формой стекирования. [43]
Голосование — это еще одна форма ансамблирования. См., например, алгоритм взвешенного большинства (машинное обучение) .
В последние годы, в связи с ростом вычислительной мощности, которая позволяет проводить обучение в больших ансамблях в разумные сроки, число приложений ансамблевого обучения постоянно растет. [49] Некоторые из приложений ансамблевых классификаторов включают в себя:
Картографирование земельного покрова является одним из основных приложений спутниковых датчиков наблюдения за Землей , использующих данные дистанционного зондирования и геопространственные данные для идентификации материалов и объектов, которые расположены на поверхности целевых областей. Как правило, классы целевых материалов включают дороги, здания, реки, озера и растительность. [50] Для эффективной идентификации объектов земельного покрова предлагаются некоторые различные подходы к ансамблевому обучению, основанные на искусственных нейронных сетях , [ 51] анализе главных компонент ядра (KPCA), [52] деревьях решений с усилением , [53] случайном лесу [50] [54] и автоматическом проектировании систем множественных классификаторов [55] .
Обнаружение изменений — это проблема анализа изображений , состоящая из идентификации мест, где со временем изменился покров земли . Обнаружение изменений широко используется в таких областях, как рост городов , динамика лесов и растительности , землепользование и мониторинг стихийных бедствий . [56] Самые ранние приложения ансамблевых классификаторов для обнаружения изменений были разработаны с использованием большинства голосов , [57] байесовского усреднения модели , [58] и максимальной апостериорной вероятности . [59] Учитывая рост спутниковых данных с течением времени, в последнее десятилетие все больше используются методы временных рядов для непрерывного обнаружения изменений из стеков изображений. [60] Одним из примеров является метод обнаружения точек изменения байесовского ансамбля, называемый BEAST, с программным обеспечением, доступным в виде пакета Rbeast в R, Python и Matlab. [61]
Распределенный отказ в обслуживании является одной из самых опасных кибератак , которая может произойти с поставщиком интернет-услуг . [49] Объединяя выходные данные отдельных классификаторов, ансамблевые классификаторы уменьшают общую ошибку обнаружения и различения таких атак от законных массовых атак . [62]
Классификация вредоносных кодов, таких как компьютерные вирусы , компьютерные черви , трояны , программы-вымогатели и шпионские программы , с использованием методов машинного обучения , вдохновлена проблемой категоризации документов . [63] Системы коллективного обучения показали надлежащую эффективность в этой области. [64] [65]
Система обнаружения вторжений контролирует компьютерную сеть или компьютерные системы для идентификации кодов злоумышленников, как процесс обнаружения аномалий . Ансамбльное обучение успешно помогает таким системам мониторинга снижать их общую ошибку. [66] [67]
Распознавание лиц , которое в последнее время стало одним из самых популярных направлений исследований распознавания образов , справляется с идентификацией или проверкой личности по ее цифровым изображениям . [68]
Иерархические ансамбли, основанные на классификаторе Габора-Фишера и методах предварительной обработки независимого компонентного анализа , являются одними из самых ранних ансамблей, используемых в этой области. [69] [70] [71]
В то время как распознавание речи в основном основано на глубоком обучении , поскольку большинство игроков отрасли в этой области, таких как Google , Microsoft и IBM, показывают, что основная технология их распознавания речи основана на этом подходе, распознавание эмоций на основе речи также может иметь удовлетворительную производительность с ансамблевым обучением. [72] [73]
Он также успешно используется для распознавания эмоций на лице . [74] [75] [76]
Обнаружение мошенничества связано с выявлением банковского мошенничества , такого как отмывание денег , мошенничество с кредитными картами и телекоммуникационное мошенничество, которые имеют обширные области исследований и приложений машинного обучения . Поскольку ансамблевое обучение повышает надежность моделирования нормального поведения, оно было предложено в качестве эффективного метода для обнаружения таких мошеннических случаев и действий в банковских системах и системах кредитных карт. [77] [78]
Точность прогнозирования банкротства бизнеса является очень важным вопросом в принятии финансовых решений. Поэтому предлагаются различные ансамблевые классификаторы для прогнозирования финансовых кризисов и финансовых затруднений . [79] Кроме того, в проблеме манипуляции на основе торговли , где трейдеры пытаются манипулировать ценами акций с помощью купли-продажи, ансамблевые классификаторы требуются для анализа изменений в данных фондового рынка и обнаружения подозрительных симптомов манипуляции ценами акций . [79]
Классификаторы ансамбля успешно применяются в нейронауке , протеомике и медицинской диагностике, например, при обнаружении нейрокогнитивных расстройств (например, болезни Альцгеймера или миотонической дистрофии ) на основе наборов данных МРТ [80] [81] [82] и классификации цитологии шейки матки. [83] [84]
{{cite journal}}
: CS1 maint: DOI inactive as of November 2024 (link)