Многослойный персептрон

Многослойный перцептрон ( MLP ) — это название современной искусственной нейронной сети прямого распространения , состоящей из полностью связанных нейронов с нелинейным типом функции активации, организованных как минимум в три слоя и отличающихся способностью различать данные, которые не являются линейно разделимыми . ^[1] Это неправильное название, поскольку оригинальный персептрон использовал ступенчатую функцию Хевисайда вместо нелинейной функции активации (используемой в современных сетях).

Современные сети прямого распространения обучаются с использованием метода обратного распространения ошибки ^[2]^[3]^[4]^[5]^[6] и в просторечии называются «ванильными» нейронными сетями. ^[7]

График

В 1958 году многослойная сеть перцептронов, состоящая из входного слоя, скрытого слоя со рандомизированными весами, которые не обучаются, и выходного слоя с обучающими связями, была представлена уже Фрэнком Розенблаттом в его книге «Перцептрон» . ^[8]^[9]^[10] Эта машина экстремального обучения ^[11]^[10] еще не была сетью глубокого обучения .

В 1965 году Алексеем Григорьевичем Ивахненко и Валентином Лапой была опубликована первая сеть прямого обучения с глубоким обучением , еще не использующая стохастический градиентный спуск , которая в то время называлась « Групповой метод обработки данных ». ^[12]^[13]^[10]

В 1967 году Шуничи Амари опубликовал сеть глубокого обучения, впервые использовавшую стохастический градиентный спуск и способную классифицировать нелинейно разделимые классы шаблонов . ^[14] Сайто, ученик Амари, провел компьютерные эксперименты, используя пятислойную сеть прямого распространения с двумя уровнями обучения.

В 1970 году современный метод обратного распространения ошибки , эффективное применение контролируемого обучения на основе цепных правил , ^[15]^[16] был впервые опубликован финским исследователем Сеппо Линнаинмаа . ^[2]^[17]^[10] Сам термин (т.е. «ошибки обратного распространения ошибки») использовался самим Розенблаттом, ^[9] но он не знал, как его реализовать, ^[10] хотя это был непрерывный предшественник обратного распространения ошибки. уже использовался в контексте теории управления в 1960 году Генри Дж. Келли . ^[3]^[10] Он также известен как обратный режим автоматического дифференцирования .

В 1982 году обратное распространение ошибки было применено способом, ставшим стандартным, впервые Полом Вербосом . ^[5]^[10]

В 1985 году Дэвид Э. Румельхарт и др. провели экспериментальный анализ метода . ^[6] В последующие десятилетия в этот подход было внесено множество усовершенствований, ^[10] .

В 1990-х годах Владимир Вапник и его коллеги разработали (гораздо более простую) альтернативу использованию нейронных сетей, хотя и до сих пор родственную [ ^18] . Помимо выполнения линейной классификации , они смогли эффективно выполнить нелинейную классификацию, используя так называемый трюк с ядром , используя многомерные пространства признаков .

В 2003 году интерес к сетям обратного распространения ошибки вернулся благодаря успехам применения глубокого обучения к языковому моделированию Йошуа Бенджио с соавторами. ^[19]

В 2017 году были представлены современные архитектуры трансформаторов . ^[20] ^[21]

В 2021 году была разработана очень простая архитектура NN, объединяющая два глубоких MLP с пропусками соединений и нормализацией слоев, которая получила название MLP-Mixer; Было показано, что его реализации, содержащие от 19 до 431 миллионов параметров, сопоставимы с преобразователями изображения аналогичного размера в ImageNet и аналогичными задачами классификации изображений . ^[22]

Математические основы

Функция активации

Если многослойный персептрон имеет линейную функцию активации во всех нейронах, то есть линейную функцию, которая сопоставляет взвешенные входы с выходом каждого нейрона, то линейная алгебра показывает, что любое количество слоев можно свести к двухслойному входу. выходная модель. В MLP некоторые нейроны используют нелинейную функцию активации, которая была разработана для моделирования частоты потенциалов действия или срабатывания биологических нейронов.

Две исторически распространенные функции активации являются сигмоидами и описываются формулой

y(v_{i})=\tanh(v_{i})~~{\textrm {and}}~~y(v_{i})=(1+e^{-v_{i}})^{-1}

Первый — это гиперболический тангенс , который находится в диапазоне от −1 до 1, а другой — логистическая функция , которая аналогична по форме, но находится в диапазоне от 0 до 1. Вот выходные данные узла (нейрона) и — взвешенная сумма входных соединений. Были предложены альтернативные функции активации, включая функции выпрямителя и softplus . Более специализированные функции активации включают радиальные базисные функции (используются в радиальных базисных сетях — другом классе контролируемых моделей нейронных сетей). $y_{i}$ $i$ $v_{i}$

В недавних разработках глубокого обучения выпрямленная линейная единица (ReLU) чаще используется как один из возможных способов преодоления числовых проблем , связанных с сигмоидами.

Слои

MLP состоит из трех или более слоев (входной и выходной слой с одним или несколькими скрытыми слоями ) узлов нелинейной активации. Поскольку MLP полностью связаны, каждый узел на одном уровне соединяется с определенным весом с каждым узлом на следующем уровне. $w_{ij}$

Обучение

Обучение происходит в персептроне путем изменения весов соединений после обработки каждого фрагмента данных в зависимости от количества ошибок на выходе по сравнению с ожидаемым результатом. Это пример обучения с учителем , который осуществляется посредством обратного распространения ошибки — обобщения алгоритма наименьших средних квадратов в линейном персептроне.

Мы можем представить степень ошибки в выходном узле в th точке данных (пример обучения) как , где – желаемое целевое значение для th точки данных в узле , и – значение, создаваемое перцептроном в узле, когда th точка данных подается в качестве входных данных. $j$ $n$ $e_{j}(n)=d_{j}(n)-y_{j}(n)$ $d_{j}(n)$ $n$ $j$ $y_{j}(n)$ $j$ $n$

Затем веса узлов можно скорректировать на основе поправок, которые минимизируют ошибку во всем выводе для th точки данных, определяемую выражением $n$

{\mathcal {E}}(n)={\frac {1}{2}}\sum _{{\text{output node }}j}e_{j}^{2}(n)

Используя градиентный спуск , изменение каждого веса равно $w_{ij}$

\Delta w_{ji}(n)=-\eta {\frac {\partial {\mathcal {E}}(n)}{\partial v_{j}(n)}}y_{i}(n)

где — выход предыдущего нейрона , а — скорость обучения , которая выбирается для того, чтобы веса быстро сходились к ответу, без колебаний. В предыдущем выражении обозначает частную производную ошибки согласно взвешенной сумме входных соединений нейрона . $y_{i}(n)$ $i$ $\eta$ ${\frac {\partial {\mathcal {E}}(n)}{\partial v_{j}(n)}}$ ${\mathcal {E}}(n)$ $v_{j}(n)$ $i$

Производная, которую необходимо вычислить, зависит от индуцированного локального поля , которое само меняется. Легко доказать, что для выходного узла эту производную можно упростить до $v_{j}$

-{\frac {\partial {\mathcal {E}}(n)}{\partial v_{j}(n)}}=e_{j}(n)\phi ^{\prime }(v_{j}(n))

где – производная описанной выше функции активации, которая сама по себе не меняется. Анализ более сложен для изменения весов в скрытом узле, но можно показать, что соответствующая производная равна $\phi ^{\prime }$

-{\frac {\partial {\mathcal {E}}(n)}{\partial v_{j}(n)}}=\phi ^{\prime }(v_{j}(n))\sum _{k}-{\frac {\partial {\mathcal {E}}(n)}{\partial v_{k}(n)}}w_{kj}(n)

Это зависит от изменения весов узлов , которые представляют выходной слой. Таким образом, чтобы изменить веса скрытого слоя, веса выходного слоя изменяются в соответствии с производной функции активации, и поэтому этот алгоритм представляет собой обратное распространение функции активации. ^[23] $k$

Внешние ссылки

Weka: программное обеспечение для анализа данных с открытым исходным кодом и реализацией многослойного персептрона.
Документация Neuroph Studio реализует этот и некоторые другие алгоритмы.