Метод машинного обучения
В машинном обучении метод случайного подпространства [1] , также называемый бэггингом атрибутов [2] или бэггингом признаков , представляет собой метод ансамблевого обучения , который пытается уменьшить корреляцию между оценщиками в ансамбле, обучая их на случайных выборках признаков, а не на всем наборе признаков.
Мотивация
В ансамблевом обучении пытаются объединить модели, созданные несколькими учениками , в ансамбль , который работает лучше, чем исходные ученики. Одним из способов объединения учеников является бутстрап-агрегирование или бэггинг , который показывает каждому ученику случайно выбранное подмножество точек обучения, так что ученики будут создавать разные модели , которые можно разумно усреднить. [a] В бэггинге выбираются точки обучения с заменой из полного набора обучения.
Метод случайного подпространства похож на бэггинг, за исключением того, что признаки («атрибуты», «предикторы», «независимые переменные») выбираются случайным образом с заменой для каждого обучающегося. Неформально, это приводит к тому, что отдельные обучающиеся не слишком сосредотачиваются на признаках, которые кажутся высокопредиктивными/описательными в обучающем наборе, но не являются столь же предиктивными для точек за пределами этого набора. По этой причине случайные подпространства являются привлекательным выбором для многомерных задач, где количество признаков намного больше количества обучающих точек, таких как обучение на основе данных фМРТ [3] или данных экспрессии генов. [4]
Метод случайного подпространства использовался для деревьев решений ; в сочетании с «обычным» бэггингом деревьев решений полученные модели называются случайными лесами . [5] Он также применялся к линейным классификаторам , [6] машинам опорных векторов , [7] ближайшим соседям [8] [9] и другим типам классификаторов. Этот метод также применим к одноклассовым классификаторам . [10] [11] Метод случайного подпространства также применялся к проблеме выбора портфеля [12] [13] [14] [15], показывая его превосходство над обычным повторно выбранным портфелем, по сути, основанным на бэггинге.
Для решения многомерных разреженных задач была разработана структура под названием Random Subspace Ensemble (RaSE) [16] . RaSE объединяет слабых учеников, обученных в случайных подпространствах, с двухслойной структурой и итеративным процессом. [17] Было показано, что RaSE обладает привлекательными теоретическими свойствами и практической производительностью. [16]
Алгоритм
Ансамбль моделей, использующих метод случайного подпространства, можно построить с помощью следующего алгоритма :
- Пусть количество точек обучения равно N , а количество признаков в обучающих данных равно D.
- Пусть L — число отдельных моделей в ансамбле.
- Для каждой отдельной модели l выберите n l (n l < N) в качестве числа входных точек для l. Обычно для всех отдельных моделей имеется только одно значение n l .
- Для каждой отдельной модели l создайте обучающий набор, выбрав d l признаков из D с заменой, и обучите модель.
Теперь, чтобы применить ансамблевую модель к невидимой точке, объедините выходные данные L отдельных моделей путем голосования большинством голосов или путем объединения апостериорных вероятностей .
Сноски
- ^ Если каждый обучающийся следует одному и тому же детерминированному алгоритму, то созданные им модели обязательно будут одинаковыми.
Ссылки
- ^ Хо, Тин Кам (1998). «Метод случайного подпространства для построения лесов решений» (PDF) . Труды IEEE по анализу шаблонов и машинному интеллекту . 20 (8): 832–844. doi :10.1109/34.709601. S2CID 206420153. Архивировано из оригинала (PDF) 2019-05-14.
- ^ Bryll, R. (2003). «Атрибутный бэггинг: повышение точности ансамблей классификаторов с помощью случайных подмножеств признаков». Pattern Recognition . 36 (6): 1291–1302. doi :10.1016/s0031-3203(02)00121-8.
- ^ Кунчева, Людмила и др. (2010). «Случайные подпространственные ансамбли для классификации фМРТ» (PDF) . IEEE Transactions on Medical Imaging . 29 (2): 531–542. CiteSeerX 10.1.1.157.1178 . doi :10.1109/TMI.2009.2037756. PMID 20129853.
- ^ Бертони, Альберто; Фольгиери, Раффаэлла; Валентини, Джорджио (2005). «Биомолекулярное прогнозирование рака с использованием случайных подпространственных ансамблей опорных векторных машин» (PDF) . Нейрокомпьютинг . 63 : 535–539. doi :10.1016/j.neucom.2004.07.007. hdl : 2434/9370 .
- ^ Хо, Тин Кам (1995). Случайный лес решений (PDF) . Труды 3-й Международной конференции по анализу и распознаванию документов, Монреаль, Квебек, 14–16 августа 1995 г. стр. 278–282.
- ^ Скуричина, Марина (2002). «Бэггинг, бустинг и метод случайного подпространства для линейных классификаторов». Pattern Analysis and Applications . 5 (2): 121–135. doi :10.1007/s100440200011.
- ^ Тао, Д. (2006). «Асимметричное бэггирование и случайное подпространство для обратной связи по релевантности на основе опорных векторных машин при поиске изображений» (PDF) . Труды IEEE по анализу шаблонов и машинному интеллекту . 28 (7): 1088–99. doi :10.1109/tpami.2006.134. PMID 16792098.
- ^ Хо, Тин Кам (1998). «Ближайшие соседи в случайных подпространствах». Достижения в области распознавания образов . Конспект лекций по информатике. Том 1451. С. 640–648. doi :10.1007/BFb0033288. ISBN 978-3-540-64858-1.
- ^ Тремблей, Г. (2004). Оптимизация ближайшего соседа в случайных подпространствах с использованием многоцелевого генетического алгоритма (PDF) . 17-я Международная конференция по распознаванию образов. стр. 208–211. doi :10.1109/ICPR.2004.1334060. ISBN 978-0-7695-2128-2.
- ^ Нанни, Л. (2006). «Экспериментальное сравнение одноклассовых классификаторов для онлайн-проверки подписей». Neurocomputing . 69 (7): 869–873. doi :10.1016/j.neucom.2005.06.007.
- ^ Чеплыгина, Вероника; Такс, Дэвид МДж (2011-06-15). "Метод обрезки случайного подпространства для одноклассовых классификаторов". В Сансоне, Карло; Киттлер, Йозеф; Роли, Фабио (ред.). Системы множественных классификаторов . Конспект лекций по информатике. Том 6713. Springer Berlin Heidelberg. стр. 96–105. doi :10.1007/978-3-642-21557-5_12. ISBN 9783642215568.
- ^ Варади, Дэвид (2013). «Оптимизация случайного подпространства (RSO)». CSS Analytics .
- ^ Гиллен, Бен (2016). «Оптимизация подмножества для распределения активов». CaltechAUTHORS .
- ^ Шэнь, Вэйвэй; Ван, Цзюнь (2017), «Выбор портфеля с помощью повторной выборки подмножества», Труды конференции AAAI по искусственному интеллекту (AAAI2017)
- ^ Шэнь, Вэйвэй; Ван, Бин; Пу, Цзянь; Ван, Цзюнь (2019), «Оптимальный портфель роста Келли с ансамблевым обучением», Труды конференции AAAI по искусственному интеллекту (AAAI2019) , 33 : 1134–1141, doi : 10.1609/aaai.v33i01.33011134
- ^ ab Tian, Ye; Feng, Yang (2021). «RaSE: Классификация ансамблей случайных подпространств». Журнал исследований машинного обучения . 22 (45): 1–93. ISSN 1533-7928.
- ^ Тянь, Йе; Фэн, Ян (2021). «Пакет R «RaSEn»: классификация ансамблей случайных подпространств и скрининг переменных». CRAN .