stringtranslate.com

Многослойный персептрон

Многослойный перцептрон ( MLP ) — это название современной искусственной нейронной сети прямого распространения , состоящей из полностью связанных нейронов с нелинейным типом функции активации, организованных как минимум в три слоя и отличающихся способностью различать данные, которые не являются линейно разделимыми . [1] Это неправильное название, поскольку оригинальный персептрон использовал ступенчатую функцию Хевисайда вместо нелинейной функции активации (используемой в современных сетях).

Современные сети прямого распространения обучаются с использованием метода обратного распространения ошибки [2] [3] [4] [5] [6] и в просторечии называются «ванильными» нейронными сетями. [7]

График

Математические основы

Функция активации

Если многослойный персептрон имеет линейную функцию активации во всех нейронах, то есть линейную функцию, которая сопоставляет взвешенные входы с выходом каждого нейрона, то линейная алгебра показывает, что любое количество слоев можно свести к двухслойному входу. выходная модель. В MLP некоторые нейроны используют нелинейную функцию активации, которая была разработана для моделирования частоты потенциалов действия или срабатывания биологических нейронов.

Две исторически распространенные функции активации являются сигмоидами и описываются формулой

.

Первый — это гиперболический тангенс , который находится в диапазоне от −1 до 1, а другой — логистическая функция , которая аналогична по форме, но находится в диапазоне от 0 до 1. Вот выходные данные узла (нейрона) и — взвешенная сумма входных соединений. Были предложены альтернативные функции активации, включая функции выпрямителя и softplus . Более специализированные функции активации включают радиальные базисные функции (используются в радиальных базисных сетях — другом классе контролируемых моделей нейронных сетей).

В недавних разработках глубокого обучения выпрямленная линейная единица (ReLU) чаще используется как один из возможных способов преодоления числовых проблем , связанных с сигмоидами.

Слои

MLP состоит из трех или более слоев (входной и выходной слой с одним или несколькими скрытыми слоями ) узлов нелинейной активации. Поскольку MLP полностью связаны, каждый узел на одном уровне соединяется с определенным весом с каждым узлом на следующем уровне.

Обучение

Обучение происходит в персептроне путем изменения весов соединений после обработки каждого фрагмента данных в зависимости от количества ошибок на выходе по сравнению с ожидаемым результатом. Это пример обучения с учителем , который осуществляется посредством обратного распространения ошибки — обобщения алгоритма наименьших средних квадратов в линейном персептроне.

Мы можем представить степень ошибки в выходном узле в th точке данных (пример обучения) как , где – желаемое целевое значение для th точки данных в узле , и – значение, создаваемое перцептроном в узле, когда th точка данных подается в качестве входных данных.

Затем веса узлов можно скорректировать на основе поправок, которые минимизируют ошибку во всем выводе для th точки данных, определяемую выражением

.

Используя градиентный спуск , изменение каждого веса равно

где — выход предыдущего нейрона , а — скорость обучения , которая выбирается для того, чтобы веса быстро сходились к ответу, без колебаний. В предыдущем выражении обозначает частную производную ошибки согласно взвешенной сумме входных соединений нейрона .

Производная, которую необходимо вычислить, зависит от индуцированного локального поля , которое само меняется. Легко доказать, что для выходного узла эту производную можно упростить до

где – производная описанной выше функции активации, которая сама по себе не меняется. Анализ более сложен для изменения весов в скрытом узле, но можно показать, что соответствующая производная равна

.

Это зависит от изменения весов узлов , которые представляют выходной слой. Таким образом, чтобы изменить веса скрытого слоя, веса выходного слоя изменяются в соответствии с производной функции активации, и поэтому этот алгоритм представляет собой обратное распространение функции активации. [23]

Рекомендации

  1. ^ Цыбенко, Г. 1989. Приближение суперпозициями сигмоидальной функции. Математика управления, сигналов и систем , 2 (4), 303–314.
  2. ^ аб Линнаинмаа, Сеппо (1970). Представление совокупной ошибки округления алгоритма в виде разложения Тейлора локальных ошибок округления (Мастерс) (на финском языке). Университет Хельсинки. стр. 6–7.
  3. ^ аб Келли, Генри Дж. (1960). «Градиентная теория оптимальных траекторий полета». Журнал АРС . 30 (10): 947–954. дои : 10.2514/8.5282.
  4. ^ Розенблатт, Фрэнк. Икс. Принципы нейродинамики: перцептроны и теория механизмов мозга. Спартанские книги, Вашингтон, округ Колумбия, 1961 г.
  5. ^ аб Вербос, Пол (1982). «Применение достижений нелинейного анализа чувствительности» (PDF) . Системное моделирование и оптимизация . Спрингер. стр. 762–770. Архивировано (PDF) из оригинала 14 апреля 2016 года . Проверено 2 июля 2017 г.
  6. ^ аб Румелхарт, Дэвид Э., Джеффри Э. Хинтон и Р. Дж. Уильямс. «Изучение внутренних представлений путем распространения ошибок». Дэвид Э. Румельхарт, Джеймс Л. Макклелланд и исследовательская группа НДП. (редакторы), Параллельная распределенная обработка: Исследования микроструктуры познания, Том 1: Фонд. Массачусетский технологический институт Пресс, 1986.
  7. ^ Хасти, Тревор. Тибширани, Роберт. Фридман, Джером. Элементы статистического обучения: интеллектуальный анализ данных, логический вывод и прогнозирование. Спрингер, Нью-Йорк, 2009 г.
  8. ^ Розенблатт, Франк (1958). «Персептрон: вероятностная модель хранения и организации информации в мозге». Психологический обзор . 65 (6): 386–408. CiteSeerX 10.1.1.588.3775 . дои : 10.1037/h0042519. PMID  13602029. S2CID  12781225. 
  9. ^ аб Розенблатт, Франк (1962). Принципы нейродинамики . Спартан, Нью-Йорк.
  10. ^ abcdefgh Шмидхубер, Юрген (2022). «Аннотированная история современного искусственного интеллекта и глубокого обучения». arXiv : 2212.11279 [cs.NE].
  11. ^ Хуан, Гуан-Бин; Чжу, Цинь-Юй; Сью, Чи-Хеонг (2006). «Машина экстремального обучения: теория и приложения». Нейрокомпьютинг . 70 (1): 489–501. CiteSeerX 10.1.1.217.3692 . doi : 10.1016/j.neucom.2005.12.126. S2CID  116858. 
  12. ^ Ивахненко, А.Г. (1973). Кибернетические предсказывающие устройства. Информационная корпорация CCM.
  13. ^ Ивахненко, А.Г .; Григорьевич Лапа, Валентин (1967). Кибернетика и методы прогнозирования. Американский паб Elsevier. Ко.
  14. ^ Амари, Шуничи (1967). «Теория адаптивного классификатора шаблонов». IEEE-транзакции . ЕС (16): 279–307.
  15. ^ Родригес, Омар Эрнандес; Лопес Фернандес, Хорхе М. (2010). «Семиотическое размышление о дидактике правила цепочки». Любитель математики . 7 (2): 321–332. дои : 10.54870/1551-3440.1191 . S2CID  29739148 . Проверено 4 августа 2019 г.
  16. ^ Лейбниц, Готфрид Вильгельм Фрайхерр фон (1920). Ранние математические рукописи Лейбница: перевод с латинских текстов, опубликованных Карлом Иммануэлем Герхардтом с критическими и историческими примечаниями (Лейбниц опубликовал цепное правило в мемуарах 1676 года). Издательство «Открытый суд». ISBN 9780598818461.
  17. ^ Линнаинмаа, Сеппо (1976). «Разложение Тейлора накопленной ошибки округления». БИТ Численная математика . 16 (2): 146–160. дои : 10.1007/bf01931367. S2CID  122357351.
  18. ^ Р. Коллоберт и С. Бенджио (2004). Связи между перцептронами, MLP и SVM. Учеб. Международная конференция. по машинному обучению (ICML).
  19. ^ Бенджио, Йошуа; Дюшарм, Режан; Винсент, Паскаль; Джанвин, Кристиан (март 2003 г.). «Нейронно-вероятностная языковая модель». Журнал исследований машинного обучения . 3 : 1137–1155.
  20. ^ Васвани, Ашиш; Шазир, Ноам; Пармар, Ники; Ушкорейт, Якоб; Джонс, Лион; Гомес, Эйдан Н; Кайзер, Лукаш; Полосухин, Илья (2017). «Внимание – это все, что вам нужно». Достижения в области нейронных систем обработки информации . Карран Ассошиэйтс, Инк. 30 .
  21. ^ Гева, Мор; Шустер, Рой; Берант, Джонатан; Леви, Омер (2021). «Слои прямой связи трансформатора представляют собой память с ключевыми значениями». Материалы конференции 2021 года по эмпирическим методам обработки естественного языка . стр. 5484–5495. doi :10.18653/v1/2021.emnlp-main.446. S2CID  229923720.
  22. ^ «Документы с кодом - MLP-Mixer: полностью MLP-архитектура для видения» .
  23. ^ Хайкин, Саймон (1998). Нейронные сети: комплексный фундамент (2-е изд.). Прентис Холл. ISBN 0-13-273350-1.

Внешние ссылки