В контексте искусственных нейронных сетей функция активации выпрямителя или ReLU (выпрямленного линейного блока) [1] [ 2] представляет собой функцию активации, определяемую как неотрицательная часть ее аргумента:
Впервые он был использован Олстоном Хаусхолдером в 1941 году в качестве математической абстракции биологических нейронных сетей. [10] Он был введен Кунихико Фукусимой в 1969 году в контексте извлечения визуальных признаков в иерархических нейронных сетях. [11] [12] Позднее утверждалось, что он имеет сильные биологические мотивы и математические обоснования. [13] [14] В 2011 году [4] активация ReLU позволила обучать глубокие контролируемые нейронные сети без неконтролируемого предварительного обучения по сравнению с широко используемыми функциями активации до 2011 года, например, логистической сигмоидой (которая вдохновлена теорией вероятностей ; см. логистическая регрессия ) и ее более практичным [15] аналогом, гиперболическим тангенсом .
Лучшее распространение градиента: меньше проблем с исчезающим градиентом по сравнению с сигмоидальными функциями активации, которые насыщаются в обоих направлениях. [4]
Эффективность: требуется только сравнение и сложение.
Недифференцируемость в нуле (однако дифференцируемость в любом другом месте, и значение производной в нуле может быть выбрано произвольным образом равным 0 или 1).
Не нуль-центрированный: выходы ReLU всегда неотрицательны. Это может усложнить обучение сети во время обратного распространения, поскольку обновления градиента имеют тенденцию толкать веса в одном направлении (положительном или отрицательном). Пакетная нормализация может помочь решить эту проблему. [ необходима цитата ]
ReLU не имеет ограничений.
Умирающий ReLU: нейроны ReLU иногда могут быть переведены в состояния, в которых они становятся неактивными практически для всех входов. В этом состоянии градиенты не текут обратно через нейрон, и поэтому нейрон застревает в постоянно неактивном состоянии (он «умирает»). Это форма проблемы исчезающего градиента . В некоторых случаях большое количество нейронов в сети может застрять в мертвых состояниях, что эффективно снижает емкость модели и потенциально даже останавливает процесс обучения. Эта проблема обычно возникает, когда скорость обучения установлена слишком высокой. Ее можно смягчить, используя вместо этого «дырявый» ReLU, где небольшой положительный наклон назначается для . Однако в зависимости от задачи производительность может снизиться.
Варианты
Кусочно-линейные варианты
Leaky ReLU допускает небольшой положительный градиент, когда блок неактивен, [6] помогая смягчить проблему исчезающего градиента. Этот градиент определяется параметром , обычно установленным на 0,01–0,3. [16] [17]
Параметрический ReLU (PReLU) развивает эту идею дальше, создавая обучаемый параметр наряду с другими параметрами сети. [18]
Обратите внимание, что для это эквивалентно
и, таким образом, имеет отношение к сетям «maxout». [18]
Конкатенированный ReLU (CReLU) сохраняет положительную и отрицательную фазовую информацию: [19]
Эта функция активации проиллюстрирована на рисунке в начале этой статьи. Она имеет «выступ» слева от x < 0 и служит в качестве активации по умолчанию для таких моделей, как BERT . [20]
СиЛУ
SiLU (сигмоидальная линейная единица) или функция свиста [21] — это еще одно гладкое приближение, впервые введенное в научный оборот в статье GELU: [20]
которая называется функцией softplus [22] [4] или SmoothReLU . [23] Для больших отрицательных значений это примерно , то есть чуть выше 0, в то время как для больших положительных значений это примерно , то есть чуть выше .
Эту функцию можно аппроксимировать следующим образом:
Многомерным обобщением однопеременной softplus является LogSumExp , где первый аргумент равен нулю:
Функция LogSumExp — это
и его градиент — softmax ; softmax с первым аргументом, установленным в ноль, является многомерным обобщением логистической функции. И LogSumExp, и softmax используются в машинном обучении.
ЭЛУ
Экспоненциальные линейные единицы пытаются приблизить средние активации к нулю, что ускоряет обучение. Было показано, что ELU могут получить более высокую точность классификации, чем ReLU. [24]
В этих формулах — гиперпараметр, настраиваемый с учетом ограничения .
Учитывая ту же интерпретацию , ELU можно рассматривать как сглаженную версию смещенного ReLU (SReLU), имеющего вид .
Миш
Функцию Миш можно также использовать в качестве плавной аппроксимации выпрямителя. [21] Она определяется как
Mish немонотонна и саморегулируема . [ 25] Она была вдохновлена Swish , который сам по себе является вариантом ReLU . [25]
Squareplus
Squareplus [26] — это функция
где — гиперпараметр, определяющий «размер» изогнутой области вблизи . (Например, позволяя дает ReLU, а позволяя дает металлическую среднюю функцию.) Squareplus имеет много общих свойств с softplus: он монотонен , строго положителен , стремится к 0 как , приближается к тождеству как и является гладким . Однако squareplus можно вычислить, используя только алгебраические функции , что делает его подходящим для условий, где вычислительные ресурсы или наборы инструкций ограничены. Кроме того, squareplus не требует специального рассмотрения для обеспечения численной устойчивости, когда велико.
^ Браунли, Джейсон (8 января 2019 г.). «Нежное введение в ректифицированную линейную единицу (ReLU)». Machine Learning Mastery . Получено 8 апреля 2021 г. .
^ Лю, Даньцин (30 ноября 2017 г.). "Практическое руководство по ReLU". Medium . Получено 8 апреля 2021 г. .
^ Рамачандран, Праджит; Баррет, Зоф; Куок, В. Ле (16 октября 2017 г.). «Поиск функций активации». arXiv : 1710.05941 [cs.NE].
^ abcd Ксавье Глорот; Антуан Бордес; Йошуа Бенжио (2011). Глубокие разреженные выпрямительные нейронные сети (PDF) . AISTATS. Функции активации выпрямителя и softplus. Вторая — это сглаженная версия первой.
^ Ласло Тот (2013). Распознавание телефона с помощью глубоких разреженных выпрямительных нейронных сетей (PDF) . ICASSP .
^ ab Эндрю Л. Маас, Авни Й. Ханнун, Эндрю Й. Нг (2014). Нелинейности выпрямителя улучшают акустические модели нейронных сетей.
^ Hansel, D.; van Vreeswijk, C. (2002). «Как шум влияет на контрастную инвариантность настройки ориентации в зрительной коре кошки». J. Neurosci. 22 (12): 5118–5128. doi :10.1523/JNEUROSCI.22-12-05118.2002. PMC 6757721 . PMID 12077207.
^ Энгелькен, Райнер; Вольф, Фред; Эбботт, Л. Ф. (2020-06-03). "Спектры Ляпунова хаотических рекуррентных нейронных сетей". arXiv : 2006.02427 [nlin.CD].
^ Хаусхолдер, Олстон С. (июнь 1941 г.). «Теория стационарной активности в сетях нервных волокон: I. Определения и предварительные леммы». Бюллетень математической биофизики . 3 (2): 63–69. doi :10.1007/BF02478220. ISSN 0007-4985.
^ Фукусима, К. (1969). «Извлечение визуальных признаков с помощью многослойной сети аналоговых пороговых элементов». Труды IEEE по системной науке и кибернетике . 5 (4): 322–333. doi :10.1109/TSSC.1969.300225.
^ Фукусима, К.; Мияке, С. (1982). «Неокогнитрон: самоорганизующаяся модель нейронной сети для механизма распознавания визуальных образов». Конкуренция и сотрудничество в нейронных сетях . Конспект лекций по биоматематике. Том 45. Springer. С. 267–285. doi :10.1007/978-3-642-46466-9_18. ISBN978-3-540-11574-8. {{cite book}}: |journal=проигнорировано ( помощь )
^ Ханлозер, Р.; Сарпешкар, Р.; Маховальд, МА; Дуглас, Р.Дж.; Сынг, Х.С. (2000). «Цифровой отбор и аналоговое усиление сосуществуют в кремниевой схеме, вдохновленной корой головного мозга». Nature . 405 (6789): 947–951. Bibcode :2000Natur.405..947H. doi :10.1038/35016072. PMID 10879535. S2CID 4399014.
^ Ханлозер, Р.; Сын, Х.С. (2001). Разрешенные и запрещенные наборы в симметричных порогово-линейных сетях . NIPS 2001.
^ Ян ЛеКун ; Леон Ботту ; Женевьева Б. Орр; Клаус-Роберт Мюллер (1998). "Efficient BackProp" (PDF) . В G. Orr; K. Müller (ред.). Neural Networks: Tricks of the Trade . Springer.
^ "PyTorch Leaky ReLU docs".
^ «Документация TensorFlow Leaky ReLU».
^ ab He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (2015). «Глубокое изучение выпрямителей: превосходство человеческого уровня в классификации сетей изображений». arXiv : 1502.01852 [cs.CV].
^ Шан, Вэньлин; Сон, Кихюк; Алмейда, Диого; Ли, Хонглак (2016-06-11). «Понимание и улучшение сверточных нейронных сетей с помощью конкатенированных выпрямленных линейных блоков». Труды 33-й Международной конференции по машинному обучению . PMLR: 2217–2225. arXiv : 1603.05201 .
^ ab Diganta Misra (23 августа 2019 г.), Mish: Саморегуляризованная немонотонная функция активации (PDF) , arXiv : 1908.08681v1 , получено 26 марта 2022 г..
^ Дюгас, Шарль; Бенжио, Йошуа; Белиль, Франсуа; Надо, Клод; Гарсия, Рене (2000-01-01). "Включение функциональных знаний второго порядка для лучшего ценообразования опционов" (PDF) . Труды 13-й Международной конференции по системам обработки нейронной информации (NIPS'00) . MIT Press: 451–457. Поскольку сигмоид h имеет положительную первую производную, его примитив, который мы называем softplus, является выпуклым.
^ "Smooth Rectifier Linear Unit (SmoothReLU) Forward Layer". Руководство разработчика для библиотеки Intel Data Analytics Acceleration Library . 2017. Получено 04.12.2018 .
^ Клеверт, Джорк-Арне; Унтертинер, Томас; Хохрейтер, Зепп (2015). «Быстрое и точное глубокое сетевое обучение с помощью экспоненциальных линейных единиц (ELU)». arXiv : 1511.07289 [cs.LG].
^ ab Shaw, Sweta (2020-05-10). "Функции активации в сравнении с экспериментами". W&B . Получено 2022-07-11 .
^ Баррон, Джонатан Т. (22 декабря 2021 г.). «Squareplus: алгебраический выпрямитель типа Softplus». arXiv : 2112.11687 [cs.NE].