stringtranslate.com

Метод случайного подпространства

В машинном обучении метод случайного подпространства , [1] также называемый пакетированием атрибутов [2] или объединением признаков , представляет собой метод ансамблевого обучения , который пытается уменьшить корреляцию между оценщиками в ансамбле, обучая их на случайных выборках признаков , а не на всей совокупности. набор функций.

Мотивация

При ансамблевом обучении пытаются объединить модели, созданные несколькими учащимися, в ансамбль , который работает лучше, чем первоначальные учащиеся. Одним из способов объединения учащихся является бутстреп-агрегирование или пакетирование , которое показывает каждому учащемуся случайно выбранное подмножество точек обучения, так что учащиеся создают разные модели , которые можно разумно усреднить. [a] При сборе тренировочных точек производится выборка тренировочных точек с заменой из полного тренировочного набора.

Метод случайного подпространства аналогичен пакетированию, за исключением того, что признаки («атрибуты», «предикторы», «независимые переменные») выбираются случайным образом с заменой для каждого учащегося. Неформально это заставляет отдельных учащихся не уделять чрезмерного внимания функциям, которые кажутся высокопрогностическими/описательными в обучающем наборе, но не столь же предсказуемыми для точек за пределами этого набора. По этой причине случайные подпространства являются привлекательным выбором для многомерных задач, где количество признаков намного превышает количество точек обучения, например, обучение на основе данных фМРТ [3] или данных экспрессии генов. [4]

Для деревьев решений использовался метод случайных подпространств ; в сочетании с «обычной» сборкой деревьев решений полученные модели называются случайными лесами . [5] Он также применялся к линейным классификаторам , [6] машинам опорных векторов , [7] ближайшим соседям [8] [9] и другим типам классификаторов. Этот метод применим и к одноклассовым классификаторам . [10] [11] Метод случайных подпространств также применялся для решения задачи выбора портфеля [12] [13] [14] [15] , демонстрируя его превосходство над обычным портфелем с повторной выборкой, по существу основанным на мешке.

Для решения многомерных разреженных задач была разработана структура под названием Random Subspace Ensemble (RaSE) [16] . RaSE сочетает в себе слабых учащихся, обученных в случайных подпространствах, с двухуровневой структурой и итеративным процессом. [17] Было показано, что RaSE обладает привлекательными теоретическими свойствами и практическими характеристиками. [16]

Алгоритм

Ансамбль моделей, использующих метод случайных подпространств, можно построить с помощью следующего алгоритма :

  1. Пусть количество обучающих точек равно N , а количество признаков в обучающих данных равно D.
  2. Пусть L — количество отдельных моделей в ансамбле.
  3. Для каждой отдельной модели l выберите n l (n l < N) как количество входных точек для l. Обычно для всех отдельных моделей используется только одно значение n l .
  4. Для каждой отдельной модели l создайте обучающий набор, выбрав d l признаков из D с заменой, и обучите модель.

Теперь, чтобы применить модель ансамбля к невидимой точке, объедините результаты L отдельных моделей путем голосования большинства или путем объединения апостериорных вероятностей .

Сноски

  1. ^ Если каждый учащийся следует одному и тому же детерминированному алгоритму, полученные модели обязательно будут одинаковыми.

Рекомендации

  1. ^ Хо, Тин Кам (1998). «Метод случайного подпространства для построения лесов решений» (PDF) . Транзакции IEEE по анализу шаблонов и машинному интеллекту . 20 (8): 832–844. дои : 10.1109/34.709601. S2CID  206420153. Архивировано из оригинала (PDF) 14 мая 2019 г.
  2. ^ Брилл, Р. (2003). «Упаковка атрибутов: повышение точности ансамблей классификаторов за счет использования случайных подмножеств признаков». Распознавание образов . 36 (6): 1291–1302. дои : 10.1016/s0031-3203(02)00121-8.
  3. ^ Кунчева, Людмила ; и другие. (2010). «Случайные ансамбли подпространств для классификации фМРТ» (PDF) . Транзакции IEEE по медицинской визуализации . 29 (2): 531–542. CiteSeerX 10.1.1.157.1178 . дои : 10.1109/TMI.2009.2037756. ПМИД  20129853. 
  4. ^ Бертони, Альберто; Фольджери, Рафаэлла; Валентини, Джорджио (2005). «Прогнозирование биомолекулярного рака с помощью случайных подпространственных ансамблей машин опорных векторов» (PDF) . Нейрокомпьютинг . 63 : 535–539. doi : 10.1016/j.neucom.2004.07.007. HDL : 2434/9370 .
  5. ^ Хо, Тин Кам (1995). Лес случайных решений (PDF) . Материалы 3-й Международной конференции по анализу и распознаванию документов, Монреаль, Квебек, 14–16 августа 1995 г., стр. 278–282.
  6. ^ Скуричина, Марина (2002). «Бэггинг, повышение и метод случайных подпространств для линейных классификаторов». Анализ шаблонов и приложения . 5 (2): 121–135. дои : 10.1007/s100440200011.
  7. ^ Тао, Д. (2006). «Асимметричная упаковка и случайное подпространство для обратной связи по релевантности на основе опорных векторных машин при поиске изображений» (PDF) . Транзакции IEEE по анализу шаблонов и машинному интеллекту . 28 (7): 1088–99. дои : 10.1109/tpami.2006.134. ПМИД  16792098.
  8. ^ Хо, Тин Кам (1998). «Ближайшие соседи в случайных подпространствах». Достижения в распознавании образов . Конспекты лекций по информатике. Том. 1451. стр. 640–648. дои : 10.1007/BFb0033288. ISBN 978-3-540-64858-1. {{cite book}}: |journal=игнорируется ( помощь )
  9. ^ Трамбле, Г. (2004). Оптимизация ближайшего соседа в случайных подпространствах с использованием многоцелевого генетического алгоритма (PDF) . 17-я Международная конференция по распознаванию образов. стр. 208–211. дои : 10.1109/ICPR.2004.1334060. ISBN 978-0-7695-2128-2.
  10. ^ Нанни, Л. (2006). «Экспериментальное сравнение одноклассников для онлайн-проверки подписей». Нейрокомпьютинг . 69 (7): 869–873. doi : 10.1016/j.neucom.2005.06.007.
  11. ^ Чеплыгина, Вероника; Налог, Дэвид М.Дж. (15 июня 2011 г.). «Метод сокращенного случайного подпространства для одноклассовых классификаторов». В Сансоне, Карло; Киттлер, Йозеф; Роли, Фабио (ред.). Множественные системы классификаторов . Конспекты лекций по информатике. Том. 6713. Шпрингер Берлин Гейдельберг. стр. 96–105. дои : 10.1007/978-3-642-21557-5_12. ISBN 9783642215568.
  12. ^ Варади, Дэвид (2013). «Случайная оптимизация подпространства (RSO)». CSS-аналитика .
  13. ^ Гиллен, Бен (2016). «Оптимизация подмножества для распределения активов». КалтехАВТОРЫ .
  14. ^ Шен, Вэйвэй; Ван, Джун (2017), «Выбор портфеля посредством повторной выборки подмножества», Материалы конференции AAAI по искусственному интеллекту (AAAI2017)
  15. ^ Шен, Вэйвэй; Ван, Бин; Пу, Цзянь; Ван, Джун (2019), «Оптимальный портфель Келли для роста с ансамблевым обучением», Труды конференции AAAI по искусственному интеллекту (AAAI2019) , 33 : 1134–1141, doi : 10.1609/aaai.v33i01.33011134
  16. ^ аб Тиан, Йе; Фэн, Ян (2021). «RaSE: Классификация ансамблей случайных подпространств». Журнал исследований машинного обучения . 22 (45): 1–93. ISSN  1533-7928.
  17. ^ Тиан, Йе; Фэн, Ян (2021). «Пакет R «RaSEn»: классификация ансамблей случайных подпространств и отбор переменных». КРАН .