Тип искусственной нейронной сети
Машины экстремального обучения — это нейронные сети прямого распространения для классификации , регрессии , кластеризации , разреженной аппроксимации , сжатия и обучения признаков с одним или несколькими слоями скрытых узлов, где параметры скрытых узлов (а не только веса, соединяющие входы со скрытыми узлами) должны быть настроены. Эти скрытые узлы могут быть назначены случайным образом и никогда не обновляться (т. е. они являются случайной проекцией , но с нелинейными преобразованиями), или могут быть унаследованы от своих предков без изменения. В большинстве случаев выходные веса скрытых узлов обычно изучаются за один шаг, что по сути равнозначно обучению линейной модели.
Название «машина экстремального обучения» (ELM) было дано таким моделям Гуан-Бин Хуаном, который изначально предложил сети с любым типом нелинейных кусочно-непрерывных скрытых узлов, включая биологические нейроны и различные типы математических базисных функций. [1] [2] Идея искусственных нейронных сетей восходит к Фрэнку Розенблатту , который не только опубликовал однослойный персептрон в 1958 году, [3] но и представил многослойный персептрон с 3 слоями: входной слой, скрытый слой со случайными весами, который не обучался, и обучающийся выходной слой. [4]
По мнению некоторых исследователей, эти модели способны обеспечивать хорошую производительность обобщения и обучаться в тысячи раз быстрее, чем сети, обученные с использованием обратного распространения . [5] В литературе также показано, что эти модели могут превосходить машины опорных векторов как в приложениях классификации, так и регрессии. [6] [1] [7]
История
В 2001-2010 годах исследования ELM в основном были сосредоточены на унифицированной структуре обучения для «обобщенных» однослойных скрытых нейронных сетей прямого распространения (SLFN), включая, помимо прочего, сигмоидные сети, сети RBF, пороговые сети, [8] тригонометрические сети, системы нечеткого вывода, ряды Фурье, [9] [10] преобразование Лапласа, вейвлет-сети, [11] и т. д. Одним из значительных достижений тех лет стало успешное доказательство универсальных возможностей аппроксимации и классификации ELM в теории. [9] [12] [13]
С 2010 по 2015 год исследования ELM распространились на унифицированную структуру обучения для обучения ядра, SVM и несколько типичных методов обучения признаков, таких как анализ главных компонент (PCA) и неотрицательная матричная факторизация (NMF). Показано, что SVM на самом деле обеспечивает неоптимальные решения по сравнению с ELM, а ELM может обеспечить отображение ядра белого ящика, которое реализуется случайным отображением признаков ELM, вместо ядра черного ящика, используемого в SVM. PCA и NMF можно рассматривать как особые случаи, когда в ELM используются линейные скрытые узлы. [14] [15]
С 2015 по 2017 год все больше внимания уделялось иерархическим реализациям [16] [17] ELM. Кроме того, с 2011 года были проведены значительные биологические исследования, которые подтверждают некоторые теории ELM. [18] [19] [20]
Начиная с 2017 года, для преодоления проблемы низкой сходимости во время обучения LU-разложению , подходы, основанные на разложении Хессенберга и QR-разложении с регуляризацией, начали привлекать внимание [21] [22] [23].
В 2017 году блог Google Scholar опубликовал список «Классических статей: статьи, выдержавшие испытание временем». [24] Среди них есть две статьи, написанные об ELM, которые показаны в исследованиях 2 и 7 из «Списка 10 классических статей по ИИ с 2006 года». [25] [26] [27]
Алгоритмы
Учитывая один скрытый слой ELM, предположим, что выходная функция -го скрытого узла равна , где и являются параметрами -го скрытого узла. Выходная функция ELM для одиночных скрытых слоев сетей прямой связи (SLFN) со скрытыми узлами равна:
, где — выходной вес -го скрытого узла.
это отображение выходных данных скрытого слоя ELM. При наличии обучающих образцов выходная матрица скрытого слоя ELM задается как:
и представляет собой целевую матрицу обучающих данных:
В общем случае ELM представляет собой разновидность регуляризационных нейронных сетей, но с ненастроенными отображениями скрытых слоев (образованными случайными скрытыми узлами, ядрами или другими реализациями), ее целевая функция имеет вид:
где .
Различные комбинации , и могут использоваться и приводить к различным алгоритмам обучения для регрессии, классификации, разреженного кодирования, сжатия, обучения признаков и кластеризации .
В качестве частного случая простейший алгоритм обучения ELM изучает модель вида (для однослойных сигмоидальных нейронных сетей со скрытым слоем):
где W 1 — матрица весов входного и скрытого слоев, — функция активации, а W 2 — матрица весов скрытого и выходного слоев. Алгоритм работает следующим образом:
- Заполнить W 1 случайными значениями (например, гауссовский случайный шум );
- оценка W 2 методом наименьших квадратов, подходящая к матрице переменных отклика Y , вычисленной с использованием псевдообратной матрицы ⋅ + , с учетом матрицы дизайна X :
Архитектура
В большинстве случаев ELM используется как однослойная сеть прямой связи (SLFN), включая, помимо прочего, сигмоидные сети, сети RBF, пороговые сети, сети нечеткого вывода, сложные нейронные сети, вейвлет-сети, преобразование Фурье, преобразование Лапласа и т. д. Благодаря различным реализациям алгоритмов обучения для регрессии, классификации, разреженного кодирования, сжатия, обучения признакам и кластеризации, многослойные ELM использовались для формирования многослойных сетей скрытого слоя, сетей глубокого обучения или иерархических сетей. [16] [17] [28]
Скрытый узел в ELM — это вычислительный элемент, который не обязательно должен рассматриваться как классический нейрон. Скрытый узел в ELM может быть классическим искусственным нейроном, базисной функцией или подсетью, образованной некоторыми скрытыми узлами. [12]
Теории
В литературе были доказаны как универсальные возможности аппроксимации, так и возможности классификации [6] [1] для ELM. В частности, Гуан-Бин Хуан и его команда потратили почти семь лет (2001-2008) на строгие доказательства универсальной возможности аппроксимации ELM. [9] [12] [13]
Универсальная возможность аппроксимации
Теоретически, любая непостоянная кусочно-непрерывная функция может быть использована в качестве функции активации в скрытых узлах ELM, такая функция активации не обязательно должна быть дифференциальной. Если настройка параметров скрытых узлов может заставить SLFN приближаться к любой целевой функции , то параметры скрытых узлов могут быть сгенерированы случайным образом в соответствии с любой вероятностью непрерывного распределения и сохраняются с вероятностью единица с соответствующими выходными весами .
Возможность классификации
Если в качестве функции активации в SLFN взять любую непостоянную кусочно-непрерывную функцию, то, если настройка параметров скрытых узлов может заставить SLFN приближаться к любой целевой функции , то SLFN со случайным отображением скрытых слоев могут разделять произвольные непересекающиеся области любых форм.
Нейроны
В скрытых нейронах ELM может использоваться широкий спектр нелинейных кусочно-непрерывных функций , например:
Реальный домен
Сигмовидная функция:
Функция Фурье:
Функция жесткого ограничения:
Функция Гаусса:
Функция мультиквадрики:
Вейвлет: где — одиночная материнская вейвлет-функция.
Комплексный домен
Круговые функции:
Обратные круговые функции:
Гиперболические функции:
Обратные гиперболические функции:
Надежность
Характер нейронных сетей в целом и машин экстремального обучения (ELM) в частности как черного ящика является одной из основных проблем, которая отталкивает инженеров от применения в небезопасных задачах автоматизации. Эта конкретная проблема была решена с помощью нескольких различных методов. Один подход заключается в уменьшении зависимости от случайного ввода. [29] [30] Другой подход фокусируется на включении непрерывных ограничений в процесс обучения ELM [31] [32] , которые выводятся из предшествующих знаний о конкретной задаче. Это разумно, поскольку решения машинного обучения должны гарантировать безопасную работу во многих областях применения. Упомянутые исследования показали, что специальная форма ELM с ее функциональным разделением и линейными весами считывания особенно хорошо подходит для эффективного включения непрерывных ограничений в предопределенные области входного пространства.
Противоречие
В академическом сообществе есть две основные претензии к этой работе: первая касается «переосмысления и игнорирования предыдущих идей», вторая — «неправильного наименования и популяризации», как показали некоторые дебаты в 2008 и 2015 годах. [33] В частности, в письме [34] редактору IEEE Transactions on Neural Networks было указано , что идея использования скрытого слоя, связанного с входами случайными необученными весами, уже была предложена в оригинальных статьях о сетях RBF в конце 1980-х годов; Гуан-Бин Хуан ответил, указав на тонкие различия. [35] В статье 2015 года [1] Хуан ответил на жалобы по поводу его изобретения названия ELM для уже существующих методов, пожаловавшись на «крайне негативные и бесполезные комментарии по ELM ни в академической, ни в профессиональной манере из-за различных причин и намерений» и на «безответственную анонимную атаку, которая направлена на разрушение среды исследований гармонии», утверждая, что его работа «предоставляет унифицированную платформу обучения» для различных типов нейронных сетей, [1] включая иерархически структурированный ELM. [28] В 2015 году Хуан также дал официальное опровержение того, что он считал «злонамеренным и атакующим». [36] Недавние исследования заменяют случайные веса ограниченными случайными весами. [6] [37]
Открытые источники
- Библиотека Matlab
- Библиотека Python [38]
Смотрите также
Ссылки
- ^ abcde Хуан, Гуан-Бин (2015). «Что такое экстремальные обучающиеся машины? Заполнение пробела между мечтой Фрэнка Розенблатта и головоломкой Джона фон Неймана» (PDF) . Cognitive Computation . 7 (3): 263–278. doi :10.1007/s12559-015-9333-0. S2CID 13936498. Архивировано из оригинала (PDF) 2017-06-10 . Получено 2015-07-30 .
- ^ Хуан, Гуан-Бин (2014). «Взгляд на экстремальные обучающиеся машины: случайные нейроны, случайные признаки и ядра» (PDF) . Когнитивные вычисления . 6 (3): 376–390. doi :10.1007/s12559-014-9255-2. S2CID 7419259.
- ^ Розенблатт, Франк (1958). «Персептрон: вероятностная модель хранения и организации информации в мозге». Psychological Review . 65 (6): 386–408. CiteSeerX 10.1.1.588.3775 . doi :10.1037/h0042519. PMID 13602029. S2CID 12781225.
- ^ Розенблатт, Франк (1962). Принципы нейродинамики . Spartan, Нью-Йорк.
- ^ Хуан, Гуан-Бин; Чжу, Цинь-Ю; Сью, Чи-Кхонг (2006). «Экстремальная обучающая машина: теория и приложения». Neurocomputing . 70 (1): 489–501. CiteSeerX 10.1.1.217.3692 . doi :10.1016/j.neucom.2005.12.126. S2CID 116858.
- ^ abc Huang, Guang-Bin; Hongming Zhou; Xiaojian Ding; and Rui Zhang (2012). "Extreme Learning Machine for Regression and Multiclass Classification" (PDF) . IEEE Transactions on Systems, Man, and Cybernetics - Part B: Cybernetics . 42 (2): 513–529. CiteSeerX 10.1.1.298.1213 . doi :10.1109/tsmcb.2011.2168604. PMID 21984515. S2CID 15037168. Архивировано из оригинала (PDF) 29.08.2017 . Получено 19.08.2017 .
{{cite journal}}
: CS1 maint: multiple names: authors list (link) - ^ Хуан, Гуан-Бин (2014). «Взгляд на экстремальные обучающиеся машины: случайные нейроны, случайные признаки и ядра» (PDF) . Когнитивные вычисления . 6 (3): 376–390. doi :10.1007/s12559-014-9255-2. S2CID 7419259.
- ^ Хуан, Гуан-Бин, Цинь-Ю Чжу, КЗ Мао, Чи-Кхонг Сью, П. Саратчандран и Н. Сундарараджан (2006). «Можно ли обучать пороговые сети напрямую?» (PDF) . IEEE Transactions on Circuits and Systems-II: Express Briefs . 53 (3): 187–191. doi :10.1109/tcsii.2005.857540. S2CID 18076010. Архивировано из оригинала (PDF) 29-08-2017 . Получено 22-08-2017 .
{{cite journal}}
: CS1 maint: multiple names: authors list (link) - ^ abc Huang, Guang-Bin, Lei Chen и Chee-Kheong Siew (2006). «Универсальная аппроксимация с использованием инкрементальных конструктивных сетей прямого распространения со случайными скрытыми узлами» (PDF) . IEEE Transactions on Neural Networks . 17 (4): 879–892. doi :10.1109/tnn.2006.875977. PMID 16856652. S2CID 6477031. Архивировано из оригинала (PDF) 29-08-2017 . Получено 22-08-2017 .
{{cite journal}}
: CS1 maint: multiple names: authors list (link) - ^ Рахими, Али и Бенджамин Рехт (2008). «Взвешенные суммы случайных кухонных раковин: замена минимизации рандомизацией в обучении» (PDF) . Достижения в области нейронных систем обработки информации . 21 .
{{cite journal}}
: CS1 maint: multiple names: authors list (link) - ^ Цао, Цзювэнь, Чжипин Линь, Гуан-Бин Хуан (2010). «Нейронные сети с вейвлетами и составными функциями с экстремальной обучающей машиной». Neurocomputing . 73 (7–9): 1405–1416. doi :10.1016/j.neucom.2009.12.007.
{{cite journal}}
: CS1 maint: multiple names: authors list (link) - ^ abc Huang, Guang-Bin, Lei Chen (2007). "Convex Incremental Extreme Learning Machine" (PDF) . Neurocomputing . 70 (16–18): 3056–3062. doi :10.1016/j.neucom.2007.02.009. Архивировано из оригинала (PDF) 2017-08-10 . Получено 2017-08-22 .
{{cite journal}}
: CS1 maint: multiple names: authors list (link) - ^ ab Huang, Guang-Bin и Lei Chen (2008). "Enhanced Random Search Based Incremental Extreme Learning Machine" (PDF) . Neurocomputing . 71 (16–18): 3460–3468. CiteSeerX 10.1.1.217.3009 . doi :10.1016/j.neucom.2007.10.008. Архивировано из оригинала (PDF) 2014-10-14 . Получено 2017-08-22 .
{{cite journal}}
: CS1 maint: multiple names: authors list (link) - ^ Он, Цин, Синь Цзинь, Чанъин Ду, Фучжэнь Чжуан, Чжунчжи Ши (2014). «Кластеризация в пространстве функций машин экстремального обучения» (PDF) . Нейрокомпьютинг . 128 : 88–95. doi : 10.1016/j.neucom.2012.12.063. S2CID 30906342.
{{cite journal}}
: CS1 maint: multiple names: authors list (link) - ^ Касун, Лиянаарачи Лекамалаге Чамара, Ян Ян, Гуан-Бин Хуан и Чжэнъю Чжан (2016). «Уменьшение размеров с помощью машины экстремального обучения» (PDF) . Транзакции IEEE при обработке изображений . 25 (8): 3906–3918. Бибкод : 2016ITIP...25.3906K. дои : 10.1109/tip.2016.2570569. PMID 27214902. S2CID 1803922.
{{cite journal}}
: CS1 maint: multiple names: authors list (link) - ^ ab Huang, Guang-Bin, Zuo Bai, and Liyanaarachchi Lekamalage Chamara Kasun, and Chi Man Vong (2015). "Машина экстремального обучения на основе локальных рецептивных полей" (PDF) . Журнал IEEE Computational Intelligence . 10 (2): 18–29. doi :10.1109/mci.2015.2405316. S2CID 1417306. Архивировано из оригинала (PDF) 2017-08-08 . Получено 2017-08-22 .
{{cite journal}}
: CS1 maint: multiple names: authors list (link) - ^ ab Tang, Jiexiong, Chenwei Deng и Guang-Bin Huang (2016). "Extreme Learning Machine for Multilayer Perceptron" (PDF) . IEEE Transactions on Neural Networks and Learning Systems . 27 (4): 809–821. doi :10.1109/tnnls.2015.2424995. PMID 25966483. S2CID 206757279. Архивировано из оригинала (PDF) 2017-07-12 . Получено 2017-08-22 .
{{cite journal}}
: CS1 maint: multiple names: authors list (link) - ^ Барак, Омри; Риготти, Маттиа; и Фузи, Стефано (2013). «Разреженность нейронов смешанной селективности контролирует компромисс между обобщением и дискриминацией». Журнал нейронауки . 33 (9): 3844–3856. doi :10.1523/jneurosci.2753-12.2013. PMC 6119179. PMID 23447596 .
{{cite journal}}
: CS1 maint: multiple names: authors list (link) - ^ Риготти, Маттиа; Барак, Омри; Уорден, Мелисса Р.; Ван, Сяо-Цзин; Доу, Натаниэль Д.; Миллер, Эрл К.; и Фуси, Стефано (2013). «Важность смешанной селективности в сложных когнитивных задачах». Nature . 497 (7451): 585–590. Bibcode :2013Natur.497..585R. doi :10.1038/nature12160. PMC 4412347 . PMID 23685452.
{{cite journal}}
: CS1 maint: multiple names: authors list (link) - ^ Fusi, Stefano, Earl K Miller и Mattia Rigotti (2015). «Почему нейроны смешиваются: высокая размерность для более высокого познания» (PDF) . Current Opinion in Neurobiology . 37 : 66–74. doi : 10.1016/j.conb.2016.01.010. PMID 26851755. S2CID 13897721.
{{cite journal}}
: CS1 maint: multiple names: authors list (link) - ^ Кутлу, Якуп Кутлу, Апдулла Яик, Эсен Йылдырым и Сердар Йылдырым (2017). «Машина экстремального обучения триангуляции LU в классификации когнитивных задач ЭЭГ». Нейронные вычисления и их приложения . 31 (4): 1117–1126. дои : 10.1007/s00521-017-3142-1. S2CID 6572895.
{{cite journal}}
: CS1 maint: multiple names: authors list (link) - ^ Апдулла Яйик; Якуп Кутлу; Гёкхан Алтан (12 июля 2019 г.). «Регуляризированный HessELM и измерение наклонной энтропии для прогнозирования застойной сердечной недостаточности». arXiv : 1907.05888 [cs.LG].
- ^ Алтан, Гекхан Алтан, Якуп Кутлу, Аднан Ожан Пекмецчи и Апдулла Яик (2018). «Диагностика хронической обструктивной болезни легких с использованием машин глубокого экстремального обучения с ядром автоэнкодера LU». Международная конференция по передовым технологиям .
{{cite journal}}
: CS1 maint: multiple names: authors list (link) - ^ «Классические статьи: статьи, выдержавшие испытание временем». Ноттингемский университет . 15 июня 2017 г. Получено 21 декабря 2023 г.
- ^ ""Список 10 классических статей по ИИ с 2006 года"". 2017 . Получено 21 декабря 2023 .
- ^ Huang, GB; Zhu, QY; Siew, CK (декабрь 2006 г.). «Экстремальная обучающая машина: теория и приложения». Neurocomputing . 70 (1–3): 489–501. doi :10.1016/j.neucom.2005.12.126. ISSN 0925-2312. S2CID 116858 . Получено 21 декабря 2023 г. .
- ^ Liang, NY; Huang, GB; Saratchandran, P.; Sundararajan, N. (ноябрь 2006 г.). «Быстрый и точный алгоритм последовательного обучения в режиме онлайн для сетей прямого распространения». IEEE Transactions on Neural Networks . 17 (6): 1411–1423. doi :10.1109/TNN.2006.880583. PMID 17131657. S2CID 7028394. Получено 21 декабря 2023 г.
- ^ ab Zhu, W.; Miao, J.; Qing, L.; Huang, GB (2015-07-01). "Иерархическая экстремальная обучающая машина для неконтролируемого обучения представлений". 2015 Международная объединенная конференция по нейронным сетям (IJCNN) . стр. 1–8. doi :10.1109/IJCNN.2015.7280669. ISBN 978-1-4799-1960-4. S2CID 14222151.
- ^ Нойманн, Клаус; Штайль, Йохен Дж. (2011). «Пакетная внутренняя пластичность для машин экстремального обучения». Труды Международной конференции по искусственным нейронным сетям : 339–346.
{{cite journal}}
: CS1 maint: multiple names: authors list (link) - ^ Нойманн, Клаус; Штайль, Йохен Дж. (2013). «Оптимизация экстремальных обучающих машин с помощью гребневой регрессии и пакетной внутренней пластичности». Нейрокомпьютинг . 102 : 23–30. doi :10.1016/j.neucom.2012.01.041.
{{cite journal}}
: CS1 maint: multiple names: authors list (link) - ^ Нойманн, Клаус; Рольф, Маттиас; Штайл, Йохен Дж. (2013). «Надежная интеграция непрерывных ограничений в экстремальные обучающие машины». Международный журнал неопределенности, нечеткости и систем, основанных на знаниях . 21 (supp02): 35–50. doi :10.1142/S021848851340014X. ISSN 0218-4885.
{{cite journal}}
: CS1 maint: multiple names: authors list (link) - ^ Нойманн, Клаус (2014). Надежность. Университетская библиотека Билефельда. стр. 49–74.
- ^ "Официальная домашняя страница о происхождении машин экстремального обучения (ELM)" . Получено 15 декабря 2018 г. .
- ^ Ван, Липо П.; Ван, Чунру Р. (2008). «Комментарии к «Машине экстремального обучения»". IEEE Trans. Neural Netw . 19 (8): 1494–5, ответ автора 1495–6. CiteSeerX 10.1.1.217.2330 . doi :10.1109/TNN.2008.2002273. PMID 18701376.
- ^ Хуан, Гуан-Бин (2008). "Ответ на "комментарии о 'экстремальной обучающейся машине'"". Труды IEEE по нейронным сетям . 19 (8): 1495–1496. doi :10.1109/tnn.2008.2002275. S2CID 14720232.
- ^ Гуан-Бин, Хуан (2015). «КТО стоит за злонамеренной атакой на ELM, ЦЕЛЬ атаки и СУТЬ ELM» (PDF) . www.extreme-learning-machines.org .
- ^ Чжу, В.; Мяо, Дж.; Цин, Л. (2014-07-01). «Ограниченная экстремальная обучающая машина: новая высокодискриминантная случайная нейронная сеть прямого распространения». Международная объединенная конференция по нейронным сетям 2014 г. (IJCNN) . стр. 800–807. doi :10.1109/IJCNN.2014.6889761. ISBN 978-1-4799-1484-5. S2CID 5769519.
- ^ Акусок, Антон; Бьорк, Кай-Микаэль; Мише, Йоан; Лендассе, Амори (2015). «Высокопроизводительные экстремальные обучающие машины: полный набор инструментов для приложений с большими данными». IEEE Access . 3 : 1011–1025. Bibcode : 2015IEEEEA...3.1011A. doi : 10.1109/access.2015.2450498 .
{{cite journal}}
: CS1 maint: multiple names: authors list (link)