Ансамбльное обучение

В статистике и машинном обучении ансамблевые методы используют несколько алгоритмов обучения для получения лучшей предсказательной эффективности , чем та, которая могла бы быть получена от любого из составляющих алгоритмов обучения в отдельности. ^[1]^[2]^[3] В отличие от статистического ансамбля в статистической механике, который обычно бесконечен, ансамбль машинного обучения состоит только из конкретного конечного набора альтернативных моделей, но обычно допускает существование гораздо более гибкой структуры среди этих альтернатив.

Обзор

Алгоритмы контролируемого обучения просматривают пространство гипотез , чтобы найти подходящую гипотезу, которая будет делать хорошие прогнозы для конкретной проблемы. ^[4] Даже если это пространство содержит гипотезы, которые очень хорошо подходят для конкретной проблемы, может быть очень сложно найти хорошую. Ансамбли объединяют несколько гипотез, чтобы сформировать одну, которая должна быть теоретически лучше.

Ансамблевое обучение обучает два или более алгоритмов машинного обучения на определенной задаче классификации или регрессии . Алгоритмы в рамках ансамблевой модели обычно называются в литературе «базовыми моделями», «базовыми обучающимися» или «слабыми обучающимися». Эти базовые модели могут быть построены с использованием одного алгоритма моделирования или нескольких различных алгоритмов. Идея состоит в том, чтобы обучить разнообразный набор слабых моделей на одной и той же задаче моделирования, так что выходные данные каждого слабого обучающегося имеют плохую предсказательную способность (т. е. высокую предвзятость ), а среди всех слабых обучающихся значения результата и ошибки демонстрируют высокую дисперсию . По сути, ансамблевая модель обучения обучает по крайней мере две модели с высоким смещением (слабые) и высокой дисперсией (разнообразные), которые затем объединяются в более эффективную модель. Набор слабых моделей, которые по отдельности не давали бы удовлетворительных предсказательных результатов, объединяются или усредняются для получения единой, высокопроизводительной, точной и низкодисперсной модели, которая соответствует задаче в соответствии с требованиями.

Обучение ансамбля обычно относится к методам бэггинга ( бутстрап-агрегации ), бустинга или стекинга/смешивания для получения высокой дисперсии среди базовых моделей. Бэггинг создает разнообразие путем генерации случайных выборок из обучающих наблюдений и подгонки одной и той же модели к каждой отдельной выборке — также известно как однородные параллельные ансамбли . Бустинг следует за итеративным процессом путем последовательного обучения каждой базовой модели на взвешенных ошибках предыдущей базовой модели, создавая аддитивную модель для уменьшения окончательных ошибок модели — также известно как последовательное обучение ансамбля . Стекинг или смешивание состоит из различных базовых моделей, каждая из которых обучается независимо (т. е. разнообразная/высокая дисперсия) для объединения в модель ансамбля — создавая неоднородный параллельный ансамбль . Распространенные приложения обучения ансамбля включают случайные леса (расширение бэггинга), модели Boosted Tree и модели Gradient Boosted Tree. Модели в приложениях стекинга, как правило, более специфичны для задач — например, объединение методов кластеризации с другими параметрическими и/или непараметрическими методами. ^[5]

Более широкий термин « системы множественных классификаторов» также охватывает гибридизацию гипотез, которые не индуцируются одним и тем же базовым обучающимся алгоритмом. ^{[ необходима ссылка ]}

Оценка прогноза ансамбля обычно требует больше вычислений, чем оценка прогноза одной модели. В каком-то смысле ансамблевое обучение можно рассматривать как способ компенсации плохих алгоритмов обучения путем выполнения большого количества дополнительных вычислений. С другой стороны, альтернативой является выполнение гораздо большего обучения с одной неансамблевой моделью. Ансамбль может быть более эффективным в повышении общей точности для того же увеличения вычислительных, хранилищных или коммуникационных ресурсов, используя это увеличение на двух или более методах, чем это было бы улучшено за счет увеличения использования ресурсов для одного метода. Быстрые алгоритмы, такие как деревья решений , обычно используются в ансамблевых методах (например, случайные леса), хотя более медленные алгоритмы также могут выиграть от ансамблевых методов.

По аналогии ансамблевые методы использовались также в сценариях неконтролируемого обучения , например, при консенсусной кластеризации или при обнаружении аномалий .

Теория ансамбля

Эмпирически ансамбли, как правило, дают лучшие результаты, когда существует значительное разнообразие среди моделей. ^[6]^[7] Поэтому многие методы ансамблей стремятся способствовать разнообразию среди моделей, которые они объединяют. ^[8]^[9] Хотя, возможно, это и не интуитивно, более случайные алгоритмы (например, случайные деревья решений) могут использоваться для создания более сильного ансамбля, чем очень преднамеренные алгоритмы (например, деревья решений, уменьшающие энтропию). ^[10] Однако было показано, что использование различных сильных алгоритмов обучения более эффективно, чем использование методов, которые пытаются упростить модели для содействия разнообразию. ^[11] Можно увеличить разнообразие на этапе обучения модели, используя корреляцию для задач регрессии ^[12] или используя информационные меры, такие как перекрестная энтропия для задач классификации. ^[13]

Теоретически можно обосновать концепцию разнообразия, поскольку нижняя граница коэффициента ошибок ансамблевой системы может быть разложена на точность, разнообразие и другой член. ^[14]

Геометрический каркас

Обучение ансамбля, включая задачи регрессии и классификации, можно объяснить с помощью геометрической структуры. ^[15] В рамках этой структуры выход каждого отдельного классификатора или регрессора для всего набора данных можно рассматривать как точку в многомерном пространстве. Кроме того, целевой результат также представлен как точка в этом пространстве, называемая «идеальной точкой».

Евклидово расстояние используется в качестве метрики для измерения как производительности отдельного классификатора или регрессора (расстояние между его точкой и идеальной точкой), так и различия между двумя классификаторами или регрессорами (расстояние между их соответствующими точками). Эта перспектива превращает ансамблевое обучение в детерминированную задачу.

Например, в рамках этой геометрической структуры можно доказать, что усреднение выходов (баллов) всех базовых классификаторов или регрессоров может привести к равным или лучшим результатам, чем среднее значение всех индивидуальных моделей. Можно также доказать, что если используется оптимальная схема взвешивания, то подход взвешенного усреднения может превзойти любой из индивидуальных классификаторов или регрессоров, составляющих ансамбль, или быть по крайней мере таким же хорошим, как лучший исполнитель.

Размер ансамбля

Хотя количество классификаторов компонентов ансамбля оказывает большое влияние на точность прогнозирования, существует ограниченное количество исследований, посвященных этой проблеме. Априорное определение размера ансамбля, а также объема и скорости потоков больших данных делает это еще более важным для онлайн-классификаторов ансамбля. В основном статистические тесты использовались для определения надлежащего количества компонентов. Совсем недавно теоретическая структура предположила, что существует идеальное количество классификаторов компонентов для ансамбля, такое, что наличие большего или меньшего количества классификаторов ухудшит точность. Это называется «законом убывающей доходности при построении ансамбля». Их теоретическая структура показывает, что использование того же количества независимых классификаторов компонентов в качестве меток классов дает наивысшую точность. ^[16]^[17]

Распространенные типы ансамблей

Оптимальный классификатор Байеса

Оптимальный классификатор Байеса — это метод классификации. Это ансамбль всех гипотез в пространстве гипотез. В среднем никакой другой ансамбль не может превзойти его. ^[18] Наивный классификатор Байеса — это версия этого, которая предполагает, что данные условно независимы от класса, и делает вычисления более осуществимыми. Каждой гипотезе дается голос, пропорциональный вероятности того, что обучающий набор данных будет выбран из системы, если эта гипотеза верна. Для упрощения обучающих данных конечного размера голос каждой гипотезы также умножается на априорную вероятность этой гипотезы. Оптимальный классификатор Байеса можно выразить с помощью следующего уравнения:

y={\underset {c_{j}\in C}{\mathrm {argmax} }}\sum _{h_{i}\in H}{P(c_{j}|h_{i})P(T|h_{i})P(h_{i})}

где — предсказанный класс, — множество всех возможных классов, — пространство гипотез, относится к вероятности , а — обучающие данные. Как ансамбль, оптимальный классификатор Байеса представляет гипотезу, которая не обязательно находится в . Однако гипотеза, представленная оптимальным классификатором Байеса, является оптимальной гипотезой в пространстве ансамблей (пространстве всех возможных ансамблей, состоящих только из гипотез в ). $y$ $C$ $H$ $P$ $T$ $H$ $H$

Эту формулу можно переформулировать с помощью теоремы Байеса , которая гласит, что апостериорная вероятность пропорциональна правдоподобию, умноженному на априорную вероятность:

P(h_{i}|T)\propto P(T|h_{i})P(h_{i})

следовательно,

y={\underset {c_{j}\in C}{\mathrm {argmax} }}\sum _{h_{i}\in H}{P(c_{j}|h_{i})P(h_{i}|T)}

Агрегирование методом Bootstrap (бэггинг)

Агрегация бутстрапа ( бэггинг ) подразумевает обучение ансамбля на наборах данных бутстрапа . Набор бутстрапа создается путем выбора из исходного набора данных обучения с заменой. Таким образом, набор бутстрапа может содержать заданный пример ноль, один или несколько раз. Члены ансамбля также могут иметь ограничения на признаки (например, узлы дерева решений), чтобы поощрять исследование разнообразных признаков. ^[19] Дисперсия локальной информации в наборах бутстрапа и соображения о признаках способствуют разнообразию в ансамбле и могут усилить ансамбль. ^[20] Чтобы уменьшить переобучение, член может быть проверен с использованием набора out-of-bag (примеров, которые не входят в его набор бутстрапа). ^[21]

Вывод выполняется путем голосования прогнозов членов ансамбля, называемого агрегацией . Ниже он проиллюстрирован ансамблем из четырех деревьев решений. Пример запроса классифицируется каждым деревом. Поскольку три из четырех предсказывают положительный класс, общая классификация ансамбля положительна . Случайные леса, подобные показанному, являются распространенным применением бэггинга.

Повышение

Усиление подразумевает обучение последовательных моделей путем акцентирования обучающих данных, неправильно классифицированных ранее обученными моделями. Изначально все данные (D1) имеют одинаковый вес и используются для обучения базовой модели M1. Примерам, неправильно классифицированным M1, присваивается вес, больший, чем правильно классифицированным примерам. Эти усиленные данные (D2) используются для обучения второй базовой модели M2 и т. д. Вывод делается путем голосования.

В некоторых случаях бустинг показал лучшую точность, чем бэггинг, но имеет тенденцию к большему переобучению. Наиболее распространенной реализацией бустинга является Adaboost , но сообщается, что некоторые более новые алгоритмы достигают лучших результатов. ^{[ необходима цитата ]}

Усреднение байесовской модели

Усреднение байесовской модели (BMA) делает прогнозы путем усреднения прогнозов моделей, взвешенных по их апостериорным вероятностям с учетом данных. ^[22] Известно, что BMA обычно дает лучшие ответы, чем одна модель, полученная, например, с помощью пошаговой регрессии , особенно когда очень разные модели имеют почти одинаковую производительность в обучающем наборе, но в остальном могут работать совершенно по-разному.

Вопрос при любом использовании теоремы Байеса — это априор, т. е. вероятность (возможно, субъективная), что каждая модель является лучшей для использования в данной цели. Концептуально BMA может использоваться с любым априором. Пакеты R ensembleBMA ^[23] и BMA ^[24] используют априор, подразумеваемый байесовским информационным критерием (BIC), следуя Рафтери (1995). ^{[25] Пакет} R BAS поддерживает использование априорных данных, подразумеваемых информационным критерием Акаике (AIC) и другими критериями по альтернативным моделям, а также априорных данных по коэффициентам. ^[26]

Разница между BIC и AIC заключается в силе предпочтения экономии. Штраф BIC за сложность модели составляет , тогда как AIC — . Асимптотическая теория больших выборок устанавливает, что если есть лучшая модель, то с увеличением размеров выборки BIC строго последовательна, т. е. почти наверняка найдет ее, в то время как AIC может и не найти, потому что AIC может продолжать приписывать чрезмерную апостериорную вероятность моделям, которые сложнее, чем им нужно. С другой стороны, AIC и AICc асимптотически «эффективны» (т. е. имеют минимальную среднеквадратичную ошибку прогнозирования), тогда как BIC — нет. ^[27] $\ln(n)k$ $2k$

Хаусслер и др. (1994) показали, что при использовании BMA для классификации его ожидаемая ошибка не превышает в два раза ожидаемую ошибку оптимального классификатора Байеса. ^[28] Бернхэм и Андерсон (1998, 2002) внесли большой вклад в ознакомление более широкой аудитории с основными идеями усреднения байесовской модели и популяризацию методологии. ^[29] Доступность программного обеспечения, включая другие бесплатные пакеты с открытым исходным кодом для R, помимо упомянутых выше, помогла сделать методы доступными для более широкой аудитории. ^[30]

Комбинация байесовской модели

Комбинация байесовских моделей (BMC) — это алгоритмическая поправка к усреднению байесовских моделей (BMA). Вместо того, чтобы выбирать каждую модель в ансамбле по отдельности, она выбирает из пространства возможных ансамблей (с весами моделей, выбранными случайным образом из распределения Дирихле с однородными параметрами). Эта модификация преодолевает тенденцию BMA сходиться к тому, чтобы отдавать весь вес одной модели. Хотя BMC несколько более затратен в вычислительном отношении, чем BMA, он имеет тенденцию давать значительно лучшие результаты. Было показано, что BMC в среднем лучше (со статистической значимостью), чем BMA и бэггинг. ^[31]

Использование закона Байеса для вычисления весов моделей требует вычисления вероятности данных, заданных для каждой модели. Обычно ни одна из моделей в ансамбле не является в точности распределением, из которого были сгенерированы обучающие данные, поэтому все они правильно получают значение, близкое к нулю для этого термина. Это работало бы хорошо, если бы ансамбль был достаточно большим, чтобы охватить все пространство модели, но это редко возможно. Следовательно, каждый шаблон в обучающих данных приведет к смещению веса ансамбля в сторону модели в ансамбле, которая ближе всего к распределению обучающих данных. По сути, это сводится к неоправданно сложному методу выбора модели.

Возможные веса для ансамбля можно визуализировать как лежащие на симплексе. В каждой вершине симплекса весь вес дается одной модели в ансамбле. BMA сходится к вершине, которая ближе всего к распределению обучающих данных. Напротив, BMC сходится к точке, где это распределение проецируется на симплекс. Другими словами, вместо выбора одной модели, которая ближе всего к генерирующему распределению, он ищет комбинацию моделей, которая ближе всего к генерирующему распределению.

Результаты BMA часто можно аппроксимировать с помощью перекрестной проверки для выбора лучшей модели из набора моделей. Аналогично, результаты BMC можно аппроксимировать с помощью перекрестной проверки для выбора лучшей ансамблевой комбинации из случайной выборки возможных весов.

Ведро моделей

«Корзина моделей» — это ансамблевая техника, в которой алгоритм выбора модели используется для выбора лучшей модели для каждой проблемы. При тестировании только с одной проблемой корзина моделей может не дать лучших результатов, чем лучшая модель в наборе, но при оценке по многим проблемам она, как правило, даст в среднем гораздо лучшие результаты, чем любая модель в наборе.

Наиболее распространенный подход, используемый для выбора модели, — это выбор с перекрестной проверкой (иногда называемый «конкурсом выпечек»). Он описывается следующим псевдокодом:

Для каждой модели m в ведре: Сделать c раз: (где 'c' — некоторая константа) Случайным образом разделите обучающий набор данных на два набора: A и B. Поезд m с A Тест m с BВыберите модель, которая получит наивысший средний балл

Выбор перекрестной проверки можно обобщить следующим образом: «попробуйте их все с обучающим набором и выберите тот, который работает лучше всего». ^[32]

Gating — это обобщение Cross-Validation Selection. Он включает в себя обучение другой обучающей модели для решения, какая из моделей в корзине лучше всего подходит для решения проблемы. Часто для модели gating используется персептрон . Его можно использовать для выбора «лучшей» модели или для придания линейного веса прогнозам каждой модели в корзине.

Когда используется ведро моделей с большим набором проблем, может быть желательно избегать обучения некоторых моделей, которые требуют много времени для обучения. Обучение по ориентирам — это подход метаобучения, который стремится решить эту проблему. Он включает в себя обучение только быстрых (но неточных) алгоритмов в ведро, а затем использование производительности этих алгоритмов для определения того, какой медленный (но точный) алгоритм, скорее всего, справится лучше всего. ^[33]

Измененная стоимость кросс-энтропии: подход к поощрению разнообразия в ансамбле классификаций

Наиболее распространенный подход к обучению классификатора — использование функции стоимости кросс-энтропии . Однако хотелось бы обучить ансамбль моделей, которые имеют разнообразие, чтобы при их объединении получить наилучшие результаты. ^[34]^[35] Предположим, что мы используем простой ансамбль усредняющих классификаторов. Тогда измененная стоимость кросс-энтропии равна $K$

e^{k}=H(p,q^{k})-{\frac {\lambda }{K}}\sum _{j\neq k}H(q^{j},q^{k})

где — функция стоимости классификатора , — вероятность классификатора , — истинная вероятность, которую нам нужно оценить, и — параметр от 0 до 1, определяющий разнообразие, которое мы хотели бы установить. Когда мы хотим, чтобы каждый классификатор делал все возможное независимо от ансамбля, и когда мы хотим, чтобы классификатор был максимально разнообразным. $e^{k}$ $k^{th}$ $q^{k}$ $k^{th}$ $p$ $\lambda$ $\lambda =0$ $\lambda =1$

Укладка

Стекирование (иногда называемое стекированным обобщением ) подразумевает обучение модели для объединения предсказаний нескольких других алгоритмов обучения. Сначала все другие алгоритмы обучаются с использованием доступных данных, затем алгоритм комбинирования (окончательный оценщик) обучается делать окончательный прогноз, используя все предсказания других алгоритмов (базовые оценщики) в качестве дополнительных входных данных или используя перекрестно проверенные предсказания от базовых оценщиков, которые могут предотвратить переобучение. ^[36] Если используется произвольный алгоритм комбинирования, то стекирование теоретически может представлять любой из методов ансамбля, описанных в этой статье, хотя на практике в качестве комбинирования часто используется модель логистической регрессии .

Стекирование обычно обеспечивает производительность, превышающую производительность любой из обученных моделей в отдельности. ^[37] Оно успешно использовалось как в задачах контролируемого обучения (регрессия, ^[38] классификация и дистанционное обучение ^[39] ), так и в задачах неконтролируемого обучения (оценка плотности). ^[40] Оно также использовалось для оценки частоты ошибок бэггинга. ^[3]^[41] Сообщалось, что оно превосходит байесовское усреднение модели. ^[42] Два лучших исполнителя в соревновании Netflix использовали смешивание, которое можно считать формой стекирования. ^[43]

Голосование

Голосование — это еще одна форма ансамблирования. См., например, алгоритм взвешенного большинства (машинное обучение) .

Реализации в статистических пакетах

R : по крайней мере три пакета предлагают инструменты усреднения байесовской модели, [ ^44] включая пакет BMS (аббревиатура от Bayesian Model Selection), ^[45] пакет BAS (аббревиатура от Bayesian Adaptive Sampling) ^[46] и пакет BMA . ^[47]
Python : scikit-learn , пакет для машинного обучения на Python, предлагает пакеты для ансамблевого обучения, включая пакеты для методов бэггинга, голосования и усреднения.
MATLAB : ансамбли классификации реализованы в Statistics and Machine Learning Toolbox. ^[48]

Ансамблевое обучение

В последние годы, в связи с ростом вычислительной мощности, которая позволяет проводить обучение в больших ансамблях в разумные сроки, число приложений ансамблевого обучения постоянно растет. ^[49] Некоторые из приложений ансамблевых классификаторов включают в себя:

Дистанционное зондирование

Картографирование земельного покрова

Картографирование земельного покрова является одним из основных приложений спутниковых датчиков наблюдения за Землей , использующих данные дистанционного зондирования и геопространственные данные для идентификации материалов и объектов, которые расположены на поверхности целевых областей. Как правило, классы целевых материалов включают дороги, здания, реки, озера и растительность. ^[50] Для эффективной идентификации объектов земельного покрова предлагаются некоторые различные подходы к ансамблевому обучению, основанные на искусственных нейронных сетях , [ ^51] анализе главных компонент ядра (KPCA), ^[52] деревьях решений с усилением , ^[53] случайном лесу ^[50]^[54] и автоматическом проектировании систем множественных классификаторов ^[55] .

Обнаружение изменений

Обнаружение изменений — это проблема анализа изображений , состоящая из идентификации мест, где со временем изменился покров земли . Обнаружение изменений широко используется в таких областях, как рост городов , динамика лесов и растительности , землепользование и мониторинг стихийных бедствий . ^[56] Самые ранние приложения ансамблевых классификаторов для обнаружения изменений были разработаны с использованием большинства голосов , ^[57] байесовского усреднения модели , ^[58] и максимальной апостериорной вероятности . ^[59] Учитывая рост спутниковых данных с течением времени, в последнее десятилетие все больше используются методы временных рядов для непрерывного обнаружения изменений из стеков изображений. ^[60] Одним из примеров является метод обнаружения точек изменения байесовского ансамбля, называемый BEAST, с программным обеспечением, доступным в виде пакета Rbeast в R, Python и Matlab. ^[61]

Компьютерная безопасность

Распределенный отказ в обслуживании

Распределенный отказ в обслуживании является одной из самых опасных кибератак , которая может произойти с поставщиком интернет-услуг . ^[49] Объединяя выходные данные отдельных классификаторов, ансамблевые классификаторы уменьшают общую ошибку обнаружения и различения таких атак от законных массовых атак . ^[62]

Обнаружение вредоносных программ

Классификация вредоносных кодов, таких как компьютерные вирусы , компьютерные черви , трояны , программы-вымогатели и шпионские программы , с использованием методов машинного обучения , вдохновлена проблемой категоризации документов . ^[63] Системы коллективного обучения показали надлежащую эффективность в этой области. ^[64]^[65]

Обнаружение вторжений

Система обнаружения вторжений контролирует компьютерную сеть или компьютерные системы для идентификации кодов злоумышленников, как процесс обнаружения аномалий . Ансамбльное обучение успешно помогает таким системам мониторинга снижать их общую ошибку. ^[66]^[67]

Распознавание лиц

Распознавание лиц , которое в последнее время стало одним из самых популярных направлений исследований распознавания образов , справляется с идентификацией или проверкой личности по ее цифровым изображениям . ^[68]

Иерархические ансамбли, основанные на классификаторе Габора-Фишера и методах предварительной обработки независимого компонентного анализа , являются одними из самых ранних ансамблей, используемых в этой области. ^[69]^[70]^[71]

Распознавание эмоций

В то время как распознавание речи в основном основано на глубоком обучении , поскольку большинство игроков отрасли в этой области, таких как Google , Microsoft и IBM, показывают, что основная технология их распознавания речи основана на этом подходе, распознавание эмоций на основе речи также может иметь удовлетворительную производительность с ансамблевым обучением. ^[72]^[73]

Он также успешно используется для распознавания эмоций на лице . ^[74]^[75]^[76]

Обнаружение мошенничества

Обнаружение мошенничества связано с выявлением банковского мошенничества , такого как отмывание денег , мошенничество с кредитными картами и телекоммуникационное мошенничество, которые имеют обширные области исследований и приложений машинного обучения . Поскольку ансамблевое обучение повышает надежность моделирования нормального поведения, оно было предложено в качестве эффективного метода для обнаружения таких мошеннических случаев и действий в банковских системах и системах кредитных карт. ^[77]^[78]

Принятие финансовых решений

Точность прогнозирования банкротства бизнеса является очень важным вопросом в принятии финансовых решений. Поэтому предлагаются различные ансамблевые классификаторы для прогнозирования финансовых кризисов и финансовых затруднений . ^[79] Кроме того, в проблеме манипуляции на основе торговли , где трейдеры пытаются манипулировать ценами акций с помощью купли-продажи, ансамблевые классификаторы требуются для анализа изменений в данных фондового рынка и обнаружения подозрительных симптомов манипуляции ценами акций . ^[79]

Лекарство

Классификаторы ансамбля успешно применяются в нейронауке , протеомике и медицинской диагностике, например, при обнаружении нейрокогнитивных расстройств (например, болезни Альцгеймера или миотонической дистрофии ) на основе наборов данных МРТ ^[80]^[81]^[82] и классификации цитологии шейки матки. ^[83]^[84]

Смотрите также

Ссылки

^ Опиц, Д.; Маклин, Р. (1999). «Популярные ансамблевые методы: эмпирическое исследование». Журнал исследований искусственного интеллекта . 11 : 169–198. arXiv : 1106.0257 . doi : 10.1613/jair.614 .
^ Поликар, Р. (2006). «Системы на основе ансамбля в принятии решений». Журнал IEEE Circuits and Systems . 6 (3): 21–45. doi :10.1109/MCAS.2006.1688199. S2CID 18032543.
^ ab Rokach, L. (2010). «Классификаторы на основе ансамбля». Обзор искусственного интеллекта . 33 (1–2): 1–39. doi :10.1007/s10462-009-9124-7. hdl : 11323/1748 . S2CID 11149239.
^ Блокил Х. (2011). «Пространство гипотез». Энциклопедия машинного обучения . С. 511–513. doi :10.1007/978-0-387-30164-8_373. ISBN 978-0-387-30768-8.
^ Ибомойе Домор Миенье, Янся Сан (2022). Обзор ансамблевого обучения: концепции, алгоритмы, приложения и перспективы.
^ Кунчева, Л. и Уитакер, К., Меры разнообразия в ансамблях классификаторов, Машинное обучение , 51, стр. 181-207, 2003
^ Соллих, П. и Крог, А., Обучение с помощью ансамблей: как переобучение может быть полезным, Достижения в области нейронных систем обработки информации, том 8, стр. 190-196, 1996.
^ Браун, Г. и Уайетт, Дж. и Харрис, Р. и Яо, X., Методы создания разнообразия: обзор и категоризация., Information Fusion , 6(1), стр. 5-20, 2005.
^ Адева, Дж. Дж. Гарсия; Червиньо, Улисес; Кальво, Р. (декабрь 2005 г.). «Точность и разнообразие ансамблей текстовых категоризаторов» (PDF) . Журнал CLEI . 8 (2): 1:1–1:12. doi : 10.19153/cleiej.8.2.1 (неактивен с 1 ноября 2024 г.).{{cite journal}}: CS1 maint: DOI inactive as of November 2024 (link)
^ Хо, Т., Случайные леса решений, Труды Третьей международной конференции по анализу и распознаванию документов , стр. 278-282, 1995.
^ Гашлер, М.; Жиро-Карриер, К.; Мартинес, Т. (2008). «Ансамбль деревьев решений: небольшие неоднородности лучше крупных однородных» (PDF) . 2008 Седьмая международная конференция по машинному обучению и приложениям. Том 2008. С. 900–905. doi :10.1109/ICMLA.2008.154. ISBN 978-0-7695-3495-4. S2CID 614810.
^ Лю, И.; Яо, С. (декабрь 1999 г.). «Обучение ансамбля с помощью отрицательной корреляции». Neural Networks . 12 (10): 1399–1404. doi :10.1016/S0893-6080(99)00073-8. ISSN 0893-6080. PMID 12662623.
^ Шохам, Рон; Пермутер, Хаим (2019). «Измененная стоимость кросс-энтропии: подход к поощрению разнообразия в ансамбле классификации (краткое объявление)». Кибербезопасность, криптография и машинное обучение . Конспект лекций по информатике. Том 11527. С. 202–207. doi :10.1007/978-3-030-20951-3_18. ISBN 978-3-030-20950-6. S2CID 189926552.
^ Теруфуми Моришита и др., Переосмысление неравенства Фано в ансамблевом обучении, Международная конференция по машинному обучению, 2022 г.
^ Wu, S., Li, J., & Ding, W. (2023) Геометрическая структура для многоклассовых ансамблевых классификаторов, Machine Learning , 112(12), стр. 4929-4958. doi :10.1007/S10994-023-06406-W
^ R. Bonab, Hamed; Can, Fazli (2016). Теоретическая основа идеального количества классификаторов для онлайн-ансамблей в потоках данных. CIKM. США: ACM. стр. 2053.
^ Бонаб, Хамед; Кан, Фазли (2017). «Меньше значит больше: всеобъемлющая структура для числа компонентов ансамблевых классификаторов». arXiv : 1709.02925 [cs.LG].
^ Том М. Митчелл , Машинное обучение , 1997, стр. 175
^ Салман, Р., Альзаатрех, А., Сулиман, Х. и Фейсал, С. (2021). Структура Bootstrap для агрегации внутри и между методами выбора признаков. Entropy (Базель, Швейцария), 23(2), 200. doi :10.3390/e23020200
^ Брейман, Л., Предикторы бэггинга, Машинное обучение , 24(2), стр.123-140, 1996. doi :10.1007/BF00058655
^ Бродер, ЗП, Герман, ДжД и Штайншнайдер, С. (2020). Методы агрегации и перекрестной проверки для снижения переобучения при поиске политики управления водохранилищем. Исследования водных ресурсов, 56, e2020WR027184. doi :10.1029/2020WR027184
^ например, Дженнифер А. Хоетинг ; Дэвид Мэдиган ; Адриан Рафтери ; Крис Волински (1999). "Усреднение байесовской модели: Учебное пособие". Статистическая наука . ISSN 0883-4237. Wikidata Q98974344.
^ Крис Фрейли; Адриан Рафтери ; Дж. Маклин Слоутер; Тилманн Гнейтинг, ensembleBMA: Вероятностное прогнозирование с использованием ансамблей и байесовской модели усреднения , Wikidata Q98972500
^ Адриан Рафтери ; Дженнифер А. Хоетинг ; Крис Волински; Ян Пейнтер; Ка Йи Йенг, BMA: Усреднение байесовской модели, Wikidata Q91674106.
^ Адриан Рафтери (1995). «Выбор байесовской модели в социальных исследованиях». Социологическая методология : 111–196. doi : 10.2307/271063. ISSN 0081-1750. Wikidata Q91670340.
^ Мерлиз А. Клайд ; Майкл Л. Литтман ; Куанли Ванг; Джойи Гош; Инбо Ли; Дон ван ден Берг, BAS: Байесовский выбор переменных и усреднение моделей с использованием байесовского адаптивного отбора , Wikidata Q98974089.
^ Герда Клаескенс ; Нильс Лид Хьорт (2008), Выбор модели и усреднение модели , Cambridge University Press , Wikidata Q62568358, гл. 4.
^ Хаусслер, Дэвид; Кернс, Майкл; Шапир, Роберт Э. (1994). «Границы сложности выборки байесовского обучения с использованием теории информации и измерения VC». Машинное обучение . 14 : 83–113. doi : 10.1007/bf00993163 .
^ Кеннет П. Бернхэм; Дэвид Р. Андерсон (1998), Выбор модели и вывод: практический информационно-теоретический подход , Springer Science+Business Media , Wikidata Q62670082и Кеннет П. Бернхэм; Дэвид Р. Андерсон (2002), Выбор модели и вывод многомодельных моделей: практический информационно-теоретический подход , Springer Science+Business Media , Wikidata Q76889160.
^ Статья Wikiversity о поиске пакетов R упоминает несколько способов поиска доступных пакетов для чего-то вроде этого. Например, "sos::findFn('{Bayesian model averaging}')" из R будет искать файлы справки в предоставленных пакетах, которые включают поисковый запрос, и откроет две вкладки в браузере по умолчанию. Первая выведет список всех найденных файлов справки, отсортированных по пакету. Вторая суммирует найденные пакеты, отсортированные по очевидной силе совпадения.
^ Монтейт, Кристин; Кэрролл, Джеймс; Сеппи, Кевин; Мартинес, Тони. (2011). Превращение байесовской модели усреднения в байесовскую модель комбинации (PDF) . Труды Международной объединенной конференции по нейронным сетям IJCNN'11. С. 2657–2663.
^ Сашо Дзероски, Бернард Зенко, Комбинирование классификаторов лучше, чем выбор лучшего? Машинное обучение, 2004, стр. 255-273
^ Бенсусан, Хилан; Жиро-Карриер, Кристоф (2000). «Открытие окрестностей задач с помощью показательных учебных показателей» (PDF) . Принципы добычи данных и обнаружения знаний . Конспект лекций по информатике. Том 1910. С. 325–330. doi :10.1007/3-540-45372-5_32. ISBN 978-3-540-41066-9.
^ Шохам, Рон; Пермутер, Хаим (2019). «Измененная стоимость кросс-энтропии: подход к поощрению разнообразия в ансамбле классификации (краткое объявление)». Кибербезопасность, криптография и машинное обучение . Конспект лекций по информатике. Том 11527. С. 202–207. doi :10.1007/978-3-030-20951-3_18. ISBN 978-3-030-20950-6.
^ Шохам, Рон; Пермутер, Хаим (2020). «Измененная стоимость перекрестной энтропии: структура для явного поощрения разнообразия». arXiv : 2007.08140 [cs.LG].
^ "1.11. Ансамблевые методы".
^ Вольперт (1992). «Сложенное обобщение». Нейронные сети . 5 (2): 241–259. doi :10.1016/s0893-6080(05)80023-1.
^ Брейман, Лео (1996). «Сложенные регрессии». Машинное обучение . 24 : 49–64. doi : 10.1007/BF00117832 .
^ Озай, М.; Ярман Вурал, Ф. Т. (2013). «Новый метод нечеткого стекового обобщения и анализ его эффективности». arXiv : 1204.0171 [cs.LG].
^ Смит, Падраик; Вольперт, Дэвид (1999). «Линейное комбинирование оценок плотности с помощью стекирования» (PDF) . Машинное обучение . 36 (1): 59–83. doi :10.1023/A:1007511322260. S2CID 16006860.
^ Вулперт, Дэвид Х.; Макриди, Уильям Г. (1999). «Эффективный метод оценки ошибки обобщения бэггинга» (PDF) . Машинное обучение . 35 (1): 41–55. doi :10.1023/A:1007519102914. S2CID 14357246.
^ Кларк, Б., Усреднение и стекирование моделей Байеса, когда нельзя игнорировать ошибку аппроксимации модели, Журнал исследований машинного обучения, стр. 683-712, 2003
^ Силл, Дж.; Такач, Г.; Макки, Л.; Лин, Д. (2009). «Линейное стекирование с весовыми коэффициентами». arXiv : 0911.0460 [cs.LG].
^ Амини, Шахрам М.; Парметер, Кристофер Ф. (2011). «Усреднение байесовской модели в R» (PDF) . Журнал экономических и социальных измерений . 36 (4): 253–287. doi :10.3233/JEM-2011-0350.
^ "BMS: Bayesian Model Averaging Library". The Comprehensive R Archive Network . 2015-11-24 . Получено 9 сентября 2016 г.
^ "BAS: Bayesian Model Averaging using Bayesian Adaptive Sampling". The Comprehensive R Archive Network . Получено 9 сентября 2016 г.
^ "BMA: Bayesian Model Averaging". The Comprehensive R Archive Network . Получено 9 сентября 2016 г.
^ "Ансамбли классификации". MATLAB и Simulink . Получено 8 июня 2017 г.
^ ab Woźniak, Michał; Graña, Manuel; Corchado, Emilio (март 2014 г.). «Обзор систем множественных классификаторов как гибридных систем». Information Fusion . 16 : 3–17. doi : 10.1016/j.inffus.2013.04.006. hdl : 10366/134320 . S2CID 11632848.
^ ab Rodriguez-Galiano, VF; Ghimire, B.; Rogan, J.; Chica-Olmo, M.; Rigol-Sanchez, JP (январь 2012 г.). «Оценка эффективности случайного классификатора лесов для классификации земельного покрова». Журнал фотограмметрии и дистанционного зондирования ISPRS . 67 : 93–104. Bibcode : 2012JPRS...67...93R. doi : 10.1016/j.isprsjprs.2011.11.002.
^ Giacinto, Giorgio; Roli, Fabio (август 2001 г.). «Проектирование эффективных ансамблей нейронных сетей для целей классификации изображений». Image and Vision Computing . 19 (9–10): 699–707. CiteSeerX 10.1.1.11.5820 . doi :10.1016/S0262-8856(01)00045-2.
^ Ся, Джунши; Ёкоя, Наото; Ивасаки, Якира (март 2017 г.). «Новый ансамблевый классификатор гиперспектральных и лидарных данных с использованием морфологических признаков». Международная конференция IEEE по акустике, речи и обработке сигналов (ICASSP) 2017 г. стр. 6185–6189. doi :10.1109/ICASSP.2017.7953345. ISBN 978-1-5090-4117-6. S2CID 40210273.
^ Mochizuki, S.; Murakami, T. (ноябрь 2012 г.). «Сравнение точности картографирования земельного покрова с использованием объектно-ориентированной классификации изображений с алгоритмами машинного обучения». 33-я Азиатская конференция по дистанционному зондированию 2012 г., ACRS 2012. 1 : 126–133.
^ Лю, Дэн; Томан, Элизабет; Фуллер, Зейн; Чэнь, Ганг; Лондо, Алексис; Сюэсонг, Чжан; Кайгуан, Чжао (2018). «Интеграция исторической карты и аэрофотоснимков для характеристики долгосрочных изменений в землепользовании и динамики ландшафта: объектно-ориентированный анализ с помощью случайных лесов» (PDF) . Экологические индикаторы . 95 (1): 595–605. Bibcode : 2018EcInd..95..595L. doi : 10.1016/j.ecolind.2018.08.004. S2CID 92025959.
^ Giacinto, G.; Roli, F.; Fumera, G. (сентябрь 2000 г.). «Проектирование эффективных систем множественных классификаторов путем кластеризации классификаторов». Труды 15-й Международной конференции по распознаванию образов. ICPR-2000 . Том 2. С. 160–163. CiteSeerX 10.1.1.11.5328 . doi :10.1109/ICPR.2000.906039. ISBN 978-0-7695-0750-7. S2CID 2625643.
^ Ду, Пэйцзюнь; Лю, Сыконг; Ся, Цзюньши; Чжао, Йинди (январь 2013 г.). «Методы слияния информации для обнаружения изменений на основе многовременных изображений дистанционного зондирования». Information Fusion . 14 (1): 19–27. doi :10.1016/j.inffus.2012.05.003.
^ Определено Bruzzone и др. (2002) как «Класс данных, который получает наибольшее количество голосов, принимается в качестве класса входного шаблона», это простое большинство , более точно описанное как относительное голосование.
^ Чжао, Кайгуан; Вулдер, Майкл А.; Ху, Тонгкс; Брайт, Райан; У, Цюшэн; Цинь, Хайминг; Ли, Ян (2019). «Обнаружение точек изменения, тренда и сезонности в данных спутниковых временных рядов для отслеживания резких изменений и нелинейной динамики: алгоритм байесовского ансамбля». Дистанционное зондирование окружающей среды . 232 : 111181. Bibcode : 2019RSEnv.23211181Z. doi : 10.1016/j.rse.2019.04.034 . hdl : 11250/2651134 . S2CID 201310998.
^ Bruzzone, Lorenzo; Cossu, Roberto; Vernazza, Gianni (декабрь 2002 г.). «Объединение параметрических и непараметрических алгоритмов для частично неконтролируемой классификации многовременных изображений дистанционного зондирования» (PDF) . Information Fusion . 3 (4): 289–297. doi :10.1016/S1566-2535(02)00091-X.
^ Теодомир, Мугиранеза; Наскетти, Андреа; Бан., Ифан (2020). «Непрерывный мониторинг траекторий изменения городского земельного покрова с помощью временных рядов landsat и облачных вычислений landtrendr-google earth engine». Дистанционное зондирование . 12 (18): 2883. Bibcode : 2020RemS...12.2883M. doi : 10.3390/rs12182883 .
^ Ли, Ян; Чжао, Кайгуан; Ху, Тонгси; Чжан, Сюэсун. «BEAST: байесовский ансамблевый алгоритм для обнаружения точек изменения и разложения временных рядов». GitHub .
^ Радж Кумар, П. Арун; Сельвакумар, С. (июль 2011 г.). «Распределенное обнаружение атак типа «отказ в обслуживании» с использованием ансамбля нейронных классификаторов». Computer Communications . 34 (11): 1328–1341. doi :10.1016/j.comcom.2011.01.012.
^ Шабтай, Асаф; Москович, Роберт; Эловичи, Ювал; Глезер, Чанан (февраль 2009 г.). «Обнаружение вредоносного кода путем применения классификаторов машинного обучения к статическим признакам: современное исследование». Технический отчет по информационной безопасности . 14 (1): 16–29. doi :10.1016/j.istr.2009.03.003.
^ Чжан, Боюнь; Инь, Цзяньпин; Хао, Цзинбо; Чжан, Динсин; Ван, Шулинь (2007). «Обнаружение вредоносных кодов на основе ансамблевого обучения». Автономные и доверенные вычисления . Конспект лекций по информатике. Том 4610. С. 468–477. doi :10.1007/978-3-540-73547-2_48. ISBN 978-3-540-73546-5.
^ Менахем, Эйтан; Шабтай, Асаф; Рокач, Лиор; Эловичи, Ювал (февраль 2009 г.). «Улучшение обнаружения вредоносных программ путем применения ансамбля из нескольких индукторов». Computational Statistics & Data Analysis . 53 (4): 1483–1494. CiteSeerX 10.1.1.150.2722 . doi :10.1016/j.csda.2008.10.015.
^ Локасто, Майкл Э.; Ванг, Ке; Керомитис, Анхелес Д.; Сальваторе, Дж. Столфо (2005). «FLIPS: Гибридное адаптивное предотвращение вторжений». Последние достижения в обнаружении вторжений . Конспект лекций по информатике. Том 3858. С. 82–101. CiteSeerX 10.1.1.60.3798 . doi :10.1007/11663812_5. ISBN 978-3-540-31778-4.
^ Джачинто, Джорджио; Пердиски, Роберто; Дель Рио, Мауро; Роли, Фабио (январь 2008 г.). «Обнаружение вторжений в компьютерные сети модульным ансамблем одноклассовых классификаторов». Информационный синтез . 9 (1): 69–82. CiteSeerX 10.1.1.69.9132 . doi :10.1016/j.inffus.2006.10.002.
^ Mu, Xiaoyan; Lu, Jiangfeng; Watta, Paul; Hassoun, Mohamad H. (июль 2009 г.). «Взвешенные ансамблевые классификаторы на основе голосования с применением к распознаванию лиц и голоса человека». Международная объединенная конференция по нейронным сетям 2009 г. стр. 2168–2171. doi :10.1109/IJCNN.2009.5178708. ISBN 978-1-4244-3548-7. S2CID 18850747.
^ Юй, Су; Шань, Шигуан; Чэнь, Силинь; Гао, Вэнь (апрель 2006 г.). «Иерархический ансамбль классификатора Габора-Фишера для распознавания лиц». 7-я Международная конференция по автоматическому распознаванию лиц и жестов (FGR06) . стр. 91–96. doi :10.1109/FGR.2006.64. ISBN 978-0-7695-2503-7. S2CID 1513315.
^ Su, Y.; Shan, S.; Chen, X.; Gao, W. (сентябрь 2006 г.). «Классификатор Габора-Фишера на основе патчей для распознавания лиц». 18-я Международная конференция по распознаванию образов (ICPR'06) . Том 2. стр. 528–531. doi :10.1109/ICPR.2006.917. ISBN 978-0-7695-2521-1. S2CID 5381806.
^ Лю, Ян; Линь, Юнчжэн; Чэнь, Юэхуэй (июль 2008 г.). «Классификация ансамбля на основе ICA для распознавания лиц». Конгресс по обработке изображений и сигналов 2008 г. стр. 144–148. doi :10.1109/CISP.2008.581. ISBN 978-0-7695-3119-9. S2CID 16248842.
^ Ригер, Стивен А.; Муралидхаран, Раджани; Рамачандран, Рави П. (2014). «Распознавание эмоций на основе речи с использованием извлечения спектральных признаков и ансамбля классификаторов KNN». 9-й Международный симпозиум по обработке китайского разговорного языка . С. 589–593. doi :10.1109/ISCSLP.2014.6936711. ISBN 978-1-4799-4219-0. S2CID 31370450.
^ Краевский, Ярек; Батлинер, Антон; Кессель, Силке (октябрь 2010 г.). «Сравнение нескольких классификаторов для определения уверенности в себе на основе речи — пилотное исследование». 2010 20-я Международная конференция по распознаванию образов (PDF) . стр. 3716–3719. doi :10.1109/ICPR.2010.905. ISBN 978-1-4244-7542-1. S2CID 15431610.
^ Рани, П. Итайя; Мунисваран, К. (25 мая 2016 г.). «Распознавание эмоций на лице в видеопоследовательностях с использованием временных признаков Габора для глаз и рта». Мультимедийные инструменты и приложения . 76 (7): 10017–10040. doi :10.1007/s11042-016-3592-y. S2CID 20143585.
^ Рани, П. Итайя; Мунисваран, К. (август 2016 г.). «Распознавание эмоций на лице на основе областей глаз и рта». Международный журнал распознавания образов и искусственного интеллекта . 30 (7): 1655020. doi :10.1142/S021800141655020X.
^ Рани, П. Итайя; Мунисваран, К. (28 марта 2018 г.). «Распознавание эмоций по компонентам лица». Садхана . 43 (3). дои : 10.1007/s12046-018-0801-6 .
^ Лузада, Франциско; Ара, Андерсон (октябрь 2012 г.). «Сети вероятностной зависимости k-bagging: альтернативный мощный инструмент обнаружения мошенничества». Expert Systems with Applications . 39 (14): 11583–11592. doi :10.1016/j.eswa.2012.04.024.
^ Sundarkumar, G. Ganesh; Ravi, Vadlamani (январь 2015 г.). «Новый гибридный метод субдискретизации для добычи несбалансированных наборов данных в банковском деле и страховании». Engineering Applications of Artificial Intelligence . 37 : 368–377. doi :10.1016/j.engappai.2014.09.019.
^ ab Kim, Yoonseong; Sohn, So Young (август 2012 г.). «Обнаружение мошенничества с акциями с использованием анализа групп сверстников». Expert Systems with Applications . 39 (10): 8986–8992. doi :10.1016/j.eswa.2012.02.025.
^ Савио, А.; Гарсия-Себастьян, Монтана; Чизык, Д.; Эрнандес, К.; Гранья, М.; Систиага, А.; Лопес де Мунаин, А.; Вильянуа, Дж. (август 2011 г.). «Обнаружение нейрокогнитивных расстройств на основе векторов признаков, извлеченных из анализа VBM структурной МРТ». Компьютеры в биологии и медицине . 41 (8): 600–610. doi : 10.1016/j.compbiomed.2011.05.010. ПМИД 21621760.
^ Ayerdi, B.; Savio, A.; Graña, M. (июнь 2013 г.). «Метаансамбли классификаторов для обнаружения болезни Альцгеймера с использованием независимых признаков ROI». Естественные и искусственные вычисления в инженерных и медицинских приложениях . Конспект лекций по информатике. Том 7931. С. 122–130. doi :10.1007/978-3-642-38622-0_13. ISBN 978-3-642-38621-3.
^ Гу, Цюань; Дин, Юн-Шэн; Чжан, Тонг-Лян (апрель 2015 г.). «Предсказание классов рецепторов, сопряженных с G-белком, на основе ансамблевого классификатора при низкой гомологии». Neurocomputing . 154 : 110–118. doi :10.1016/j.neucom.2014.12.013.
^ Сюэ, Дэн; Чжоу, Сяоминь; Ли, Чен; Яо, Юдун; Рахаман, штат Мэриленд Мамунур; Чжан, Цзинхуа; Чен, Хао; Чжан, Цзиньпэн; Ци, Шулян; Сунь, Хунцзан (2020). «Применение методов трансферного обучения и ансамблевого обучения для классификации изображений гистопатологии шейки матки». Доступ IEEE . 8 : 104603–104618. Бибкод : 2020IEEA...8j4603X. дои : 10.1109/ACCESS.2020.2999816 . ISSN 2169-3536. S2CID 219689893.
^ Манна, Анкур; Кунду, Рохит; Каплун, Дмитрий; Синица, Александр; Саркар, Рам (декабрь 2021 г.). «Нечеткий ранговый ансамбль моделей CNN для классификации цитологии шейки матки». Научные отчеты . 11 (1): 14538. Бибкод : 2021NatSR..1114538M. дои : 10.1038/s41598-021-93783-8. ISSN 2045-2322. ПМЦ 8282795 . ПМИД 34267261.

Дальнейшее чтение

Чжоу Чжихуа (2012). Методы ансамбля: основы и алгоритмы . Chapman and Hall/CRC. ISBN 978-1-439-83003-1.
Роберт Шапир ; Йоав Фройнд (2012). Бустинг: основы и алгоритмы . Массачусетский технологический институт. ISBN 978-0-262-01718-3.

Внешние ссылки

Роби Поликар (ред.). "Ансамблевое обучение". Scholarpedia .
Набор инструментов Waffles (машинное обучение) содержит реализации бэггинга, бустинга, усреднения байесовских моделей, комбинирования байесовских моделей, корзины моделей и других ансамблевых методов.