stringtranslate.com

Машина экстремального обучения

Машины экстремального обучения — это нейронные сети прямого распространения для классификации , регрессии , кластеризации , разреженной аппроксимации , сжатия и обучения признаков с одним или несколькими слоями скрытых узлов, где параметры скрытых узлов (а не только веса, соединяющие входы со скрытыми узлами) должны быть настроены. Эти скрытые узлы могут быть назначены случайным образом и никогда не обновляться (т. е. они являются случайной проекцией , но с нелинейными преобразованиями), или могут быть унаследованы от своих предков без изменения. В большинстве случаев выходные веса скрытых узлов обычно изучаются за один шаг, что по сути равнозначно обучению линейной модели.

Название «машина экстремального обучения» (ELM) было дано таким моделям Гуан-Бин Хуаном, который изначально предложил сети с любым типом нелинейных кусочно-непрерывных скрытых узлов, включая биологические нейроны и различные типы математических базисных функций. [1] [2] Идея искусственных нейронных сетей восходит к Фрэнку Розенблатту , который не только опубликовал однослойный персептрон в 1958 году, [3] но и представил многослойный персептрон с 3 слоями: входной слой, скрытый слой со случайными весами, который не обучался, и обучающийся выходной слой. [4]

По мнению некоторых исследователей, эти модели способны обеспечивать хорошую производительность обобщения и обучаться в тысячи раз быстрее, чем сети, обученные с использованием обратного распространения . [5] В литературе также показано, что эти модели могут превосходить машины опорных векторов как в приложениях классификации, так и регрессии. [6] [1] [7]

История

В 2001-2010 годах исследования ELM в основном были сосредоточены на унифицированной структуре обучения для «обобщенных» однослойных скрытых нейронных сетей прямого распространения (SLFN), включая, помимо прочего, сигмоидные сети, сети RBF, пороговые сети, [8] тригонометрические сети, системы нечеткого вывода, ряды Фурье, [9] [10] преобразование Лапласа, вейвлет-сети, [11] и т. д. Одним из значительных достижений тех лет стало успешное доказательство универсальных возможностей аппроксимации и классификации ELM в теории. [9] [12] [13]

С 2010 по 2015 год исследования ELM распространились на унифицированную структуру обучения для обучения ядра, SVM и несколько типичных методов обучения признаков, таких как анализ главных компонент (PCA) и неотрицательная матричная факторизация (NMF). Показано, что SVM на самом деле обеспечивает неоптимальные решения по сравнению с ELM, а ELM может обеспечить отображение ядра белого ящика, которое реализуется случайным отображением признаков ELM, вместо ядра черного ящика, используемого в SVM. PCA и NMF можно рассматривать как особые случаи, когда в ELM используются линейные скрытые узлы. [14] [15]

С 2015 по 2017 год все больше внимания уделялось иерархическим реализациям [16] [17] ELM. Кроме того, с 2011 года были проведены значительные биологические исследования, которые подтверждают некоторые теории ELM. [18] [19] [20]

Начиная с 2017 года, для преодоления проблемы низкой сходимости во время обучения LU-разложению , подходы, основанные на разложении Хессенберга и QR-разложении с регуляризацией, начали привлекать внимание [21] [22] [23].

В 2017 году блог Google Scholar опубликовал список «Классических статей: статьи, выдержавшие испытание временем». [24] Среди них есть две статьи, написанные об ELM, которые показаны в исследованиях 2 и 7 из «Списка 10 классических статей по ИИ с 2006 года». [25] [26] [27]

Алгоритмы

Учитывая один скрытый слой ELM, предположим, что выходная функция -го скрытого узла равна , где и являются параметрами -го скрытого узла. Выходная функция ELM для одиночных скрытых слоев сетей прямой связи (SLFN) со скрытыми узлами равна:

, где — выходной вес -го скрытого узла.

это отображение выходных данных скрытого слоя ELM. При наличии обучающих образцов выходная матрица скрытого слоя ELM задается как:

и представляет собой целевую матрицу обучающих данных:

В общем случае ELM представляет собой разновидность регуляризационных нейронных сетей, но с ненастроенными отображениями скрытых слоев (образованными случайными скрытыми узлами, ядрами или другими реализациями), ее целевая функция имеет вид:

где .

Различные комбинации , и могут использоваться и приводить к различным алгоритмам обучения для регрессии, классификации, разреженного кодирования, сжатия, обучения признаков и кластеризации .

В качестве частного случая простейший алгоритм обучения ELM изучает модель вида (для однослойных сигмоидальных нейронных сетей со скрытым слоем):

где W 1 — матрица весов входного и скрытого слоев, — функция активации, а W 2 — матрица весов скрытого и выходного слоев. Алгоритм работает следующим образом:

  1. Заполнить W 1 случайными значениями (например, гауссовский случайный шум );
  2. оценка W 2 методом наименьших квадратов, подходящая к матрице переменных отклика Y , вычисленной с использованием псевдообратной матрицы + , с учетом матрицы дизайна X :

Архитектура

В большинстве случаев ELM используется как однослойная сеть прямой связи (SLFN), включая, помимо прочего, сигмоидные сети, сети RBF, пороговые сети, сети нечеткого вывода, сложные нейронные сети, вейвлет-сети, преобразование Фурье, преобразование Лапласа и т. д. Благодаря различным реализациям алгоритмов обучения для регрессии, классификации, разреженного кодирования, сжатия, обучения признакам и кластеризации, многослойные ELM использовались для формирования многослойных сетей скрытого слоя, сетей глубокого обучения или иерархических сетей. [16] [17] [28]

Скрытый узел в ELM — это вычислительный элемент, который не обязательно должен рассматриваться как классический нейрон. Скрытый узел в ELM может быть классическим искусственным нейроном, базисной функцией или подсетью, образованной некоторыми скрытыми узлами. [12]

Теории

В литературе были доказаны как универсальные возможности аппроксимации, так и возможности классификации [6] [1] для ELM. В частности, Гуан-Бин Хуан и его команда потратили почти семь лет (2001-2008) на строгие доказательства универсальной возможности аппроксимации ELM. [9] [12] [13]

Универсальная возможность аппроксимации

Теоретически, любая непостоянная кусочно-непрерывная функция может быть использована в качестве функции активации в скрытых узлах ELM, такая функция активации не обязательно должна быть дифференциальной. Если настройка параметров скрытых узлов может заставить SLFN приближаться к любой целевой функции , то параметры скрытых узлов могут быть сгенерированы случайным образом в соответствии с любой вероятностью непрерывного распределения и сохраняются с вероятностью единица с соответствующими выходными весами .

Возможность классификации

Если в качестве функции активации в SLFN взять любую непостоянную кусочно-непрерывную функцию, то, если настройка параметров скрытых узлов может заставить SLFN приближаться к любой целевой функции , то SLFN со случайным отображением скрытых слоев могут разделять произвольные непересекающиеся области любых форм.

Нейроны

В скрытых нейронах ELM может использоваться широкий спектр нелинейных кусочно-непрерывных функций , например:

Реальный домен

Сигмовидная функция:

Функция Фурье:

Функция жесткого ограничения:

Функция Гаусса:

Функция мультиквадрики:

Вейвлет: где — одиночная материнская вейвлет-функция.

Комплексный домен

Круговые функции:

Обратные круговые функции:

Гиперболические функции:

Обратные гиперболические функции:

Надежность

Характер нейронных сетей в целом и машин экстремального обучения (ELM) в частности как черного ящика является одной из основных проблем, которая отталкивает инженеров от применения в небезопасных задачах автоматизации. Эта конкретная проблема была решена с помощью нескольких различных методов. Один подход заключается в уменьшении зависимости от случайного ввода. [29] [30] Другой подход фокусируется на включении непрерывных ограничений в процесс обучения ELM [31] [32] , которые выводятся из предшествующих знаний о конкретной задаче. Это разумно, поскольку решения машинного обучения должны гарантировать безопасную работу во многих областях применения. Упомянутые исследования показали, что специальная форма ELM с ее функциональным разделением и линейными весами считывания особенно хорошо подходит для эффективного включения непрерывных ограничений в предопределенные области входного пространства.

Противоречие

В академическом сообществе есть две основные претензии к этой работе: первая касается «переосмысления и игнорирования предыдущих идей», вторая — «неправильного наименования и популяризации», как показали некоторые дебаты в 2008 и 2015 годах. [33] В частности, в письме [34] редактору IEEE Transactions on Neural Networks было указано , что идея использования скрытого слоя, связанного с входами случайными необученными весами, уже была предложена в оригинальных статьях о сетях RBF в конце 1980-х годов; Гуан-Бин Хуан ответил, указав на тонкие различия. [35] В статье 2015 года [1] Хуан ответил на жалобы по поводу его изобретения названия ELM для уже существующих методов, пожаловавшись на «крайне негативные и бесполезные комментарии по ELM ни в академической, ни в профессиональной манере из-за различных причин и намерений» и на «безответственную анонимную атаку, которая направлена ​​на разрушение среды исследований гармонии», утверждая, что его работа «предоставляет унифицированную платформу обучения» для различных типов нейронных сетей, [1] включая иерархически структурированный ELM. [28] В 2015 году Хуан также дал официальное опровержение того, что он считал «злонамеренным и атакующим». [36] Недавние исследования заменяют случайные веса ограниченными случайными весами. [6] [37]

Открытые источники

Смотрите также

Ссылки

  1. ^ abcde Хуан, Гуан-Бин (2015). «Что такое экстремальные обучающиеся машины? Заполнение пробела между мечтой Фрэнка Розенблатта и головоломкой Джона фон Неймана» (PDF) . Cognitive Computation . 7 (3): 263–278. doi :10.1007/s12559-015-9333-0. S2CID  13936498. Архивировано из оригинала (PDF) 2017-06-10 . Получено 2015-07-30 .
  2. ^ Хуан, Гуан-Бин (2014). «Взгляд на экстремальные обучающиеся машины: случайные нейроны, случайные признаки и ядра» (PDF) . Когнитивные вычисления . 6 (3): 376–390. doi :10.1007/s12559-014-9255-2. S2CID  7419259.
  3. ^ Розенблатт, Франк (1958). «Персептрон: вероятностная модель хранения и организации информации в мозге». Psychological Review . 65 (6): 386–408. CiteSeerX 10.1.1.588.3775 . doi :10.1037/h0042519. PMID  13602029. S2CID  12781225. 
  4. ^ Розенблатт, Франк (1962). Принципы нейродинамики . Spartan, Нью-Йорк.
  5. ^ Хуан, Гуан-Бин; Чжу, Цинь-Ю; Сью, Чи-Кхонг (2006). «Экстремальная обучающая машина: теория и приложения». Neurocomputing . 70 (1): 489–501. CiteSeerX 10.1.1.217.3692 . doi :10.1016/j.neucom.2005.12.126. S2CID  116858. 
  6. ^ abc Huang, Guang-Bin; Hongming Zhou; Xiaojian Ding; and Rui Zhang (2012). "Extreme Learning Machine for Regression and Multiclass Classification" (PDF) . IEEE Transactions on Systems, Man, and Cybernetics - Part B: Cybernetics . 42 (2): 513–529. CiteSeerX 10.1.1.298.1213 . doi :10.1109/tsmcb.2011.2168604. PMID  21984515. S2CID  15037168. Архивировано из оригинала (PDF) 29.08.2017 . Получено 19.08.2017 . {{cite journal}}: CS1 maint: multiple names: authors list (link)
  7. ^ Хуан, Гуан-Бин (2014). «Взгляд на экстремальные обучающиеся машины: случайные нейроны, случайные признаки и ядра» (PDF) . Когнитивные вычисления . 6 (3): 376–390. doi :10.1007/s12559-014-9255-2. S2CID  7419259.
  8. ^ Хуан, Гуан-Бин, Цинь-Ю Чжу, КЗ Мао, Чи-Кхонг Сью, П. Саратчандран и Н. Сундарараджан (2006). «Можно ли обучать пороговые сети напрямую?» (PDF) . IEEE Transactions on Circuits and Systems-II: Express Briefs . 53 (3): 187–191. doi :10.1109/tcsii.2005.857540. S2CID  18076010. Архивировано из оригинала (PDF) 29-08-2017 . Получено 22-08-2017 .{{cite journal}}: CS1 maint: multiple names: authors list (link)
  9. ^ abc Huang, Guang-Bin, Lei Chen и Chee-Kheong Siew (2006). «Универсальная аппроксимация с использованием инкрементальных конструктивных сетей прямого распространения со случайными скрытыми узлами» (PDF) . IEEE Transactions on Neural Networks . 17 (4): 879–892. doi :10.1109/tnn.2006.875977. PMID  16856652. S2CID  6477031. Архивировано из оригинала (PDF) 29-08-2017 . Получено 22-08-2017 .{{cite journal}}: CS1 maint: multiple names: authors list (link)
  10. ^ Рахими, Али и Бенджамин Рехт (2008). «Взвешенные суммы случайных кухонных раковин: замена минимизации рандомизацией в обучении» (PDF) . Достижения в области нейронных систем обработки информации . 21 .{{cite journal}}: CS1 maint: multiple names: authors list (link)
  11. ^ Цао, Цзювэнь, Чжипин Линь, Гуан-Бин Хуан (2010). «Нейронные сети с вейвлетами и составными функциями с экстремальной обучающей машиной». Neurocomputing . 73 (7–9): 1405–1416. doi :10.1016/j.neucom.2009.12.007.{{cite journal}}: CS1 maint: multiple names: authors list (link)
  12. ^ abc Huang, Guang-Bin, Lei Chen (2007). "Convex Incremental Extreme Learning Machine" (PDF) . Neurocomputing . 70 (16–18): 3056–3062. doi :10.1016/j.neucom.2007.02.009. Архивировано из оригинала (PDF) 2017-08-10 . Получено 2017-08-22 .{{cite journal}}: CS1 maint: multiple names: authors list (link)
  13. ^ ab Huang, Guang-Bin и Lei Chen (2008). "Enhanced Random Search Based Incremental Extreme Learning Machine" (PDF) . Neurocomputing . 71 (16–18): 3460–3468. CiteSeerX 10.1.1.217.3009 . doi :10.1016/j.neucom.2007.10.008. Архивировано из оригинала (PDF) 2014-10-14 . Получено 2017-08-22 . {{cite journal}}: CS1 maint: multiple names: authors list (link)
  14. ^ Он, Цин, Синь Цзинь, Чанъин Ду, Фучжэнь Чжуан, Чжунчжи Ши (2014). «Кластеризация в пространстве функций машин экстремального обучения» (PDF) . Нейрокомпьютинг . 128 : 88–95. doi : 10.1016/j.neucom.2012.12.063. S2CID  30906342.{{cite journal}}: CS1 maint: multiple names: authors list (link)
  15. ^ Касун, Лиянаарачи Лекамалаге Чамара, Ян Ян, Гуан-Бин Хуан и Чжэнъю Чжан (2016). «Уменьшение размеров с помощью машины экстремального обучения» (PDF) . Транзакции IEEE при обработке изображений . 25 (8): 3906–3918. Бибкод : 2016ITIP...25.3906K. дои : 10.1109/tip.2016.2570569. PMID  27214902. S2CID  1803922.{{cite journal}}: CS1 maint: multiple names: authors list (link)
  16. ^ ab Huang, Guang-Bin, Zuo Bai, and Liyanaarachchi Lekamalage Chamara Kasun, and Chi Man Vong (2015). "Машина экстремального обучения на основе локальных рецептивных полей" (PDF) . Журнал IEEE Computational Intelligence . 10 (2): 18–29. doi :10.1109/mci.2015.2405316. S2CID  1417306. Архивировано из оригинала (PDF) 2017-08-08 . Получено 2017-08-22 .{{cite journal}}: CS1 maint: multiple names: authors list (link)
  17. ^ ab Tang, Jiexiong, Chenwei Deng и Guang-Bin Huang (2016). "Extreme Learning Machine for Multilayer Perceptron" (PDF) . IEEE Transactions on Neural Networks and Learning Systems . 27 (4): 809–821. doi :10.1109/tnnls.2015.2424995. PMID  25966483. S2CID  206757279. Архивировано из оригинала (PDF) 2017-07-12 . Получено 2017-08-22 .{{cite journal}}: CS1 maint: multiple names: authors list (link)
  18. ^ Барак, Омри; Риготти, Маттиа; и Фузи, Стефано (2013). «Разреженность нейронов смешанной селективности контролирует компромисс между обобщением и дискриминацией». Журнал нейронауки . 33 (9): 3844–3856. doi :10.1523/jneurosci.2753-12.2013. PMC 6119179. PMID  23447596 . {{cite journal}}: CS1 maint: multiple names: authors list (link)
  19. ^ Риготти, Маттиа; Барак, Омри; Уорден, Мелисса Р.; Ван, Сяо-Цзин; Доу, Натаниэль Д.; Миллер, Эрл К.; и Фуси, Стефано (2013). «Важность смешанной селективности в сложных когнитивных задачах». Nature . 497 (7451): 585–590. Bibcode :2013Natur.497..585R. doi :10.1038/nature12160. PMC 4412347 . PMID  23685452. {{cite journal}}: CS1 maint: multiple names: authors list (link)
  20. ^ Fusi, Stefano, Earl K Miller и Mattia Rigotti (2015). «Почему нейроны смешиваются: высокая размерность для более высокого познания» (PDF) . Current Opinion in Neurobiology . 37 : 66–74. doi : 10.1016/j.conb.2016.01.010. PMID  26851755. S2CID  13897721.{{cite journal}}: CS1 maint: multiple names: authors list (link)
  21. ^ Кутлу, Якуп Кутлу, Апдулла Яик, Эсен Йылдырым и Сердар Йылдырым (2017). «Машина экстремального обучения триангуляции LU в классификации когнитивных задач ЭЭГ». Нейронные вычисления и их приложения . 31 (4): 1117–1126. дои : 10.1007/s00521-017-3142-1. S2CID  6572895.{{cite journal}}: CS1 maint: multiple names: authors list (link)
  22. ^ Апдулла Яйик; Якуп Кутлу; Гёкхан Алтан (12 июля 2019 г.). «Регуляризированный HessELM и измерение наклонной энтропии для прогнозирования застойной сердечной недостаточности». arXiv : 1907.05888 [cs.LG].
  23. ^ Алтан, Гекхан Алтан, Якуп Кутлу, Аднан Ожан Пекмецчи и Апдулла Яик (2018). «Диагностика хронической обструктивной болезни легких с использованием машин глубокого экстремального обучения с ядром автоэнкодера LU». Международная конференция по передовым технологиям .{{cite journal}}: CS1 maint: multiple names: authors list (link)
  24. ^ «Классические статьи: статьи, выдержавшие испытание временем». Ноттингемский университет . 15 июня 2017 г. Получено 21 декабря 2023 г.
  25. ^ ""Список 10 классических статей по ИИ с 2006 года"". 2017 . Получено 21 декабря 2023 .
  26. ^ Huang, GB; Zhu, QY; Siew, CK (декабрь 2006 г.). «Экстремальная обучающая машина: теория и приложения». Neurocomputing . 70 (1–3): 489–501. doi :10.1016/j.neucom.2005.12.126. ISSN  0925-2312. S2CID  116858 . Получено 21 декабря 2023 г. .
  27. ^ Liang, NY; Huang, GB; Saratchandran, P.; Sundararajan, N. (ноябрь 2006 г.). «Быстрый и точный алгоритм последовательного обучения в режиме онлайн для сетей прямого распространения». IEEE Transactions on Neural Networks . 17 (6): 1411–1423. doi :10.1109/TNN.2006.880583. PMID  17131657. S2CID  7028394. Получено 21 декабря 2023 г.
  28. ^ ab Zhu, W.; Miao, J.; Qing, L.; Huang, GB (2015-07-01). "Иерархическая экстремальная обучающая машина для неконтролируемого обучения представлений". 2015 Международная объединенная конференция по нейронным сетям (IJCNN) . стр. 1–8. doi :10.1109/IJCNN.2015.7280669. ISBN 978-1-4799-1960-4. S2CID  14222151.
  29. ^ Нойманн, Клаус; Штайль, Йохен Дж. (2011). «Пакетная внутренняя пластичность для машин экстремального обучения». Труды Международной конференции по искусственным нейронным сетям : 339–346.{{cite journal}}: CS1 maint: multiple names: authors list (link)
  30. ^ Нойманн, Клаус; Штайль, Йохен Дж. (2013). «Оптимизация экстремальных обучающих машин с помощью гребневой регрессии и пакетной внутренней пластичности». Нейрокомпьютинг . 102 : 23–30. doi :10.1016/j.neucom.2012.01.041.{{cite journal}}: CS1 maint: multiple names: authors list (link)
  31. ^ Нойманн, Клаус; Рольф, Маттиас; Штайл, Йохен Дж. (2013). «Надежная интеграция непрерывных ограничений в экстремальные обучающие машины». Международный журнал неопределенности, нечеткости и систем, основанных на знаниях . 21 (supp02): 35–50. doi :10.1142/S021848851340014X. ISSN  0218-4885.{{cite journal}}: CS1 maint: multiple names: authors list (link)
  32. ^ Нойманн, Клаус (2014). Надежность. Университетская библиотека Билефельда. стр. 49–74.
  33. ^ "Официальная домашняя страница о происхождении машин экстремального обучения (ELM)" . Получено 15 декабря 2018 г. .
  34. ^ Ван, Липо П.; Ван, Чунру Р. (2008). «Комментарии к «Машине экстремального обучения»". IEEE Trans. Neural Netw . 19 (8): 1494–5, ответ автора 1495–6. CiteSeerX  10.1.1.217.2330 . doi :10.1109/TNN.2008.2002273. PMID  18701376.
  35. ^ Хуан, Гуан-Бин (2008). "Ответ на "комментарии о 'экстремальной обучающейся машине'"". Труды IEEE по нейронным сетям . 19 (8): 1495–1496. doi :10.1109/tnn.2008.2002275. S2CID  14720232.
  36. ^ Гуан-Бин, Хуан (2015). «КТО стоит за злонамеренной атакой на ELM, ЦЕЛЬ атаки и СУТЬ ELM» (PDF) . www.extreme-learning-machines.org .
  37. ^ Чжу, В.; Мяо, Дж.; Цин, Л. (2014-07-01). «Ограниченная экстремальная обучающая машина: новая высокодискриминантная случайная нейронная сеть прямого распространения». Международная объединенная конференция по нейронным сетям 2014 г. (IJCNN) . стр. 800–807. doi :10.1109/IJCNN.2014.6889761. ISBN 978-1-4799-1484-5. S2CID  5769519.
  38. ^ Акусок, Антон; Бьорк, Кай-Микаэль; Мише, Йоан; Лендассе, Амори (2015). «Высокопроизводительные экстремальные обучающие машины: полный набор инструментов для приложений с большими данными». IEEE Access . 3 : 1011–1025. Bibcode : 2015IEEEEA...3.1011A. doi : 10.1109/access.2015.2450498 .{{cite journal}}: CS1 maint: multiple names: authors list (link)