График функций выпрямителя ReLU (синий) и GELU (зеленый) вблизи x = 0
В контексте искусственных нейронных сетей функция активации выпрямителя или ReLU (выпрямленная линейная единица) [ 1] [2] представляет собой функцию активации , определяемую как положительная часть ее аргумента:
Разреженная активация: например, в случайно инициализированной сети активируется только около 50% скрытых модулей (имеют ненулевой выход).
Лучшее распространение градиента: меньше проблем с исчезающим градиентом по сравнению с сигмоидальными функциями активации, которые насыщаются в обоих направлениях. [8]
Эффективные вычисления: только сравнение, сложение и умножение.
Масштабно-инвариантный: .
Выпрямляющие функции активации использовались для разделения специфического возбуждения и неспецифического торможения в пирамиде нейронной абстракции, которая была обучена под наблюдением для изучения нескольких задач компьютерного зрения. [16] В 2011 году [8] было показано, что использование выпрямителя в качестве нелинейного устройства позволяет обучать нейронные сети с глубоким учителем , не требуя предварительного обучения без учителя. Выпрямленные линейные единицы по сравнению с сигмовидной функцией или аналогичными функциями активации позволяют быстрее и эффективнее обучать глубокие нейронные архитектуры на больших и сложных наборах данных.
Потенциальные проблемы
Недифференцируемый в нуле; однако он дифференцируем в любом другом месте, и значение производной в нуле может быть произвольно выбрано равным 0 или 1.
Не с нулевым центром.
Неограниченный.
Умирающая проблема ReLU: нейроны ReLU (выпрямленная линейная единица) иногда могут быть переведены в состояния, в которых они становятся неактивными практически для всех входных данных. В этом состоянии градиенты не текут обратно через нейрон, и поэтому нейрон застревает в постоянно неактивном состоянии и «умирает». Это одна из форм проблемы исчезающего градиента . В некоторых случаях большое количество нейронов в сети может застрять в мертвом состоянии, что существенно снижает емкость модели. Эта проблема обычно возникает, когда скорость обучения установлена слишком высока. Это можно смягчить, используя вместо этого дырявые ReLU, которые присваивают небольшой положительный наклон для x < 0; однако производительность снижается.
Варианты
Кусочно-линейные варианты
Дырявый РеЛУ
Утечки ReLU допускают небольшой положительный градиент, когда устройство неактивно, [12] помогая смягчить проблему исчезновения градиента.
Параметрический ReLU
Параметрические ReLU (PReLU) развивают эту идею дальше, превращая коэффициент утечки в параметр, который изучается вместе с другими параметрами нейронной сети. [17]
Обратите внимание, что для a ≤ 1 это эквивалентно
и, таким образом, имеет отношение к сетям «maxout». [17]
Эта функция активации показана на рисунке в начале этой статьи. Он имеет «выпуклость» слева от x < 0 и служит активацией по умолчанию для таких моделей, как BERT . [18]
СиЛУ
SiLU (сигмовидная линейная единица) или функция взмаха [19] — это еще одно гладкое приближение, впервые предложенное в статье GELU: [18]
которая называется функцией softplus [20] [8] или SmoothReLU . [21] Для большого отрицательного значения оно составляет примерно , то есть чуть выше 0, а для большого положительного — примерно , то есть чуть выше .
Эту функцию можно аппроксимировать следующим образом:
Многопараметрическим обобщением softplus с одной переменной является LogSumExp с первым аргументом, установленным в ноль:
Функция LogSumExp
и его градиент — softmax ; softmax с первым аргументом, равным нулю, представляет собой многовариантное обобщение логистической функции. И LogSumExp, и softmax используются в машинном обучении.
ЭЛУ
Экспоненциальные линейные блоки пытаются приблизить средние активации к нулю, что ускоряет обучение. Было показано, что ELU могут обеспечить более высокую точность классификации, чем ReLU. [22]
В этих формулах — гиперпараметр , который необходимо настроить с помощью ограничения .
ELU можно рассматривать как сглаженную версию сдвинутого ReLU (SReLU), которая имеет форму при той же интерпретации .
Миш
Миш-функцию также можно использовать в качестве плавной аппроксимации выпрямителя. [19] Это определяется как
Миш немонотонен и самодостаточен. [23] Он был вдохновлен Swish , который сам по себе является вариантом ReLU . [23]
Скверплюс
Squareplus [24] — это функция
где – гиперпараметр, определяющий «размер» изогнутой области вблизи . (Например, спуск дает ReLU, а спуск дает функцию металлического среднего .) Squareplus имеет много общих свойств с softplus: он монотонен , строго положителен , приближается к 0 как , приближается к тождеству как и является гладким . Однако Squareplus можно вычислить, используя только алгебраические функции , что делает его хорошо подходящим для ситуаций, когда вычислительные ресурсы или наборы команд ограничены. Кроме того, Squareplus не требует специального рассмотрения для обеспечения числовой стабильности, когда оно велико.
↑ Браунли, Джейсон (8 января 2019 г.). «Нежное введение в выпрямленный линейный блок (ReLU)». Мастерство машинного обучения . Проверено 8 апреля 2021 г.
↑ Лю, Даньцин (30 ноября 2017 г.). «Практическое руководство по ReLU». Середина . Проверено 8 апреля 2021 г.
^ Фукусима, К. (1969). «Визуальное извлечение признаков с помощью многослойной сети аналоговых пороговых элементов». Транзакции IEEE по системным наукам и кибернетике . 5 (4): 322–333. дои : 10.1109/TSSC.1969.300225.
^ Фукусима, К.; Мияке, С. (1982). «Неокогнитрон: самоорганизующаяся модель нейронной сети для механизма распознавания визуальных образов». Конкуренция и сотрудничество в нейронных сетях . Конспект лекций по биоматематике. Спрингер. 45 : 267–285. дои : 10.1007/978-3-642-46466-9_18. ISBN978-3-540-11574-8.
^ Шмидхубер, Юрген (2022). «Аннотированная история современного искусственного интеллекта и глубокого обучения». arXiv : 2212.11279 [cs.NE].
^ Ханлозер, Р.; Сын, HS (2001). Разрешенные и запрещенные множества в симметричных порогово-линейных сетях . НИПС 2001.
^ abcde Ксавье Глорот; Антуан Борд; Йошуа Бенджио (2011). Нейронные сети с глубоким разреженным выпрямителем (PDF) . АЙСТАТС. Функции активации выпрямителя и softplus. Второй вариант является более гладкой версией первого.
^ Янн ЛеКун ; Леон Ботту ; Женевьева Б. Орр; Клаус-Роберт Мюллер (1998). «Эффективный BackProp» (PDF) . У Г. Орра; К. Мюллер (ред.). Нейронные сети: хитрости . Спрингер.
^ Рамачандран, Праджит; Баррет, Зоф; Куок, В. Ле (16 октября 2017 г.). «Поиск функций активации». arXiv : 1710.05941 [cs.NE].
^ Ласло Тот (2013). Распознавание телефона с помощью глубоких разреженных нейронных сетей выпрямителя (PDF) . ИКАССП .
^ ab Эндрю Л. Маас, Ауни Ю. Ханнун, Эндрю Ю. Нг (2014). Нелинейность выпрямителя улучшает акустические модели нейронных сетей.
^ Гензель, Д.; ван Вресвейк, К. (2002). «Как шум способствует контрастной инвариантности настройки ориентации зрительной коры кошки». Дж. Нейроски. 22 (12): 5118–5128. doi :10.1523/JNEUROSCI.22-12-05118.2002. ПМК 6757721 . ПМИД 12077207.
^ Кадмон, Джонатан; Сомполинский, Хаим (19 ноября 2015 г.). «Переход к хаосу в случайных нейронных сетях». Физический обзор X . 5 (4): 041030. arXiv : 1508.06486 . Бибкод : 2015PhRvX...5d1030K. doi : 10.1103/PhysRevX.5.041030. S2CID 7813832.
^ Бенке, Свен (2003). Иерархические нейронные сети для интерпретации изображений. Конспекты лекций по информатике. Том. 2766. Спрингер. дои : 10.1007/b11963. ISBN978-3-540-40722-5. S2CID 1304548.
^ аб Хе, Кайминг; Чжан, Сянъюй; Рен, Шаоцин; Сунь, Цзянь (2015). «Углубление выпрямителей: превосходство человеческого уровня при классификации сетей изображений ». arXiv : 1502.01852 [cs.CV].
^ ab Diganta Misra (23 августа 2019 г.), Mish: Саморегуляризованная немонотонная функция активации (PDF) , arXiv : 1908.08681v1 , получено 26 марта 2022 г..
^ Дугас, Чарльз; Бенджио, Йошуа; Белиль, Франсуа; Надо, Клод; Гарсия, Рене (1 января 2000 г.). «Включение функциональных знаний второго порядка для лучшего ценообразования опционов» (PDF) . Материалы 13-й Международной конференции по нейронным системам обработки информации (NIPS'00) . Массачусетский технологический институт Пресс: 451–457. Поскольку сигмоида h имеет положительную первую производную, ее примитивная форма, которую мы называем softplus, является выпуклой.
^ «Прямой слой линейного блока плавного выпрямителя (SmoothReLU)» . Руководство разработчика по библиотеке ускорения Intel Data Analytics . 2017 . Проверено 4 декабря 2018 г.
^ Клеверт, Джорк-Арне; Унтертинер, Томас; Хохрайтер, Зепп (2015). «Быстрое и точное глубокое сетевое обучение с помощью экспоненциальных линейных единиц (ELU)». arXiv : 1511.07289 [cs.LG].
^ Аб Шоу, Света (10 мая 2020 г.). «Функции активации по сравнению с экспериментами». В&Б . Проверено 11 июля 2022 г.
↑ Бэррон, Джонатан Т. (22 декабря 2021 г.). «Squareplus: алгебраический выпрямитель в стиле Softplus». arXiv : 2112.11687 [cs.NE].