stringtranslate.com

Выпрямитель (нейронные сети)

График функций ReLU (синий) и GELU (зеленый) вблизи x = 0

В контексте искусственных нейронных сетей функция активации выпрямителя или ReLU (выпрямленного линейного блока) [1] [ 2] представляет собой функцию активации, определяемую как неотрицательная часть ее аргумента:

где — вход нейрона . Это также известно как рамповая функция и аналогично однополупериодному выпрямлению в электротехнике .

ReLU — одна из самых популярных функций активации для искусственных нейронных сетей [3] , которая находит применение в компьютерном зрении [4] и распознавании речи [5] [6] с использованием глубоких нейронных сетей и вычислительной нейронауки . [7] [8] [9]

Впервые он был использован Олстоном Хаусхолдером в 1941 году в качестве математической абстракции биологических нейронных сетей. [10] Он был введен Кунихико Фукусимой в 1969 году в контексте извлечения визуальных признаков в иерархических нейронных сетях. [11] [12] Позднее утверждалось, что он имеет сильные биологические мотивы и математические обоснования. [13] [14] В 2011 году [4] активация ReLU позволила обучать глубокие контролируемые нейронные сети без неконтролируемого предварительного обучения по сравнению с широко используемыми функциями активации до 2011 года, например, логистической сигмоидой (которая вдохновлена ​​теорией вероятностей ; см. логистическая регрессия ) и ее более практичным [15] аналогом, гиперболическим тангенсом .

Преимущества

Преимущества ReLU включают в себя:

.

Возможные проблемы

Возможные недостатки включают в себя:

Варианты

Кусочно-линейные варианты

Leaky ReLU допускает небольшой положительный градиент, когда блок неактивен, [6] помогая смягчить проблему исчезающего градиента. Этот градиент определяется параметром , обычно установленным на 0,01–0,3. [16] [17]

Параметрический ReLU (PReLU) развивает эту идею дальше, создавая обучаемый параметр наряду с другими параметрами сети. [18]

Обратите внимание, что для это эквивалентно

и, таким образом, имеет отношение к сетям «maxout». [18]

Конкатенированный ReLU (CReLU) сохраняет положительную и отрицательную фазовую информацию: [19]

Другие нелинейные варианты

Линейный блок гауссовой ошибки (GELU)

GELU — это плавное приближение к выпрямителю:

где — кумулятивная функция распределения стандартного нормального распределения .

Эта функция активации проиллюстрирована на рисунке в начале этой статьи. Она имеет «выступ» слева от x < 0 и служит в качестве активации по умолчанию для таких моделей, как BERT . [20]

СиЛУ

SiLU (сигмоидальная линейная единица) или функция свиста [21] — это еще одно гладкое приближение, впервые введенное в научный оборот в статье GELU: [20]

где - сигмоидальная функция .

Софтплюс

Плавным приближением к выпрямителю является аналитическая функция

которая называется функцией softplus [22] [4] или SmoothReLU . [23] Для больших отрицательных значений это примерно , то есть чуть выше 0, в то время как для больших положительных значений это примерно , то есть чуть выше .

Эту функцию можно аппроксимировать следующим образом:

Сделав замену переменных , это эквивалентно

Параметр резкости может быть включен:

Производная softplus — это логистическая функция .

Логистическая сигмоидальная функция представляет собой плавную аппроксимацию производной выпрямителя, ступенчатой ​​функции Хевисайда .

Многомерным обобщением однопеременной softplus является LogSumExp , где первый аргумент равен нулю:

Функция LogSumExp — это

и его градиент — softmax ; softmax с первым аргументом, установленным в ноль, является многомерным обобщением логистической функции. И LogSumExp, и softmax используются в машинном обучении.

ЭЛУ

Экспоненциальные линейные единицы пытаются приблизить средние активации к нулю, что ускоряет обучение. Было показано, что ELU могут получить более высокую точность классификации, чем ReLU. [24]

В этих формулах — гиперпараметр, настраиваемый с учетом ограничения .

Учитывая ту же интерпретацию , ELU можно рассматривать как сглаженную версию смещенного ReLU (SReLU), имеющего вид .

Миш

Функцию Миш можно также использовать в качестве плавной аппроксимации выпрямителя. [21] Она определяется как

где — гиперболический тангенс , а — функция softplus .

Mish немонотонна и саморегулируема . [ 25] Она была вдохновлена ​​Swish , который сам по себе является вариантом ReLU . [25]

Squareplus

Squareplus [26] — это функция

где — гиперпараметр, определяющий «размер» изогнутой области вблизи . (Например, позволяя дает ReLU, а позволяя дает металлическую среднюю функцию.) Squareplus имеет много общих свойств с softplus: он монотонен , строго положителен , стремится к 0 как , приближается к тождеству как и является гладким . Однако squareplus можно вычислить, используя только алгебраические функции , что делает его подходящим для условий, где вычислительные ресурсы или наборы инструкций ограничены. Кроме того, squareplus не требует специального рассмотрения для обеспечения численной устойчивости, когда велико.

Смотрите также

Ссылки

  1. ^ Браунли, Джейсон (8 января 2019 г.). «Нежное введение в ректифицированную линейную единицу (ReLU)». Machine Learning Mastery . Получено 8 апреля 2021 г. .
  2. ^ Лю, Даньцин (30 ноября 2017 г.). "Практическое руководство по ReLU". Medium . Получено 8 апреля 2021 г. .
  3. ^ Рамачандран, Праджит; Баррет, Зоф; Куок, В. Ле (16 октября 2017 г.). «Поиск функций активации». arXiv : 1710.05941 [cs.NE].
  4. ^ abcd Ксавье Глорот; Антуан Бордес; Йошуа Бенжио (2011). Глубокие разреженные выпрямительные нейронные сети (PDF) . AISTATS. Функции активации выпрямителя и softplus. Вторая — это сглаженная версия первой.
  5. ^ Ласло Тот (2013). Распознавание телефона с помощью глубоких разреженных выпрямительных нейронных сетей (PDF) . ICASSP .
  6. ^ ab Эндрю Л. Маас, Авни Й. Ханнун, Эндрю Й. Нг (2014). Нелинейности выпрямителя улучшают акустические модели нейронных сетей.
  7. ^ Hansel, D.; van Vreeswijk, C. (2002). «Как шум влияет на контрастную инвариантность настройки ориентации в зрительной коре кошки». J. Neurosci. 22 (12): 5118–5128. doi :10.1523/JNEUROSCI.22-12-05118.2002. PMC 6757721 . PMID  12077207.  
  8. ^ Кадмон, Джонатан; Сомполинский, Хаим (2015-11-19). «Переход к хаосу в случайных нейронных сетях». Physical Review X. 5 ( 4): 041030. arXiv : 1508.06486 . Bibcode : 2015PhRvX...5d1030K. doi : 10.1103/PhysRevX.5.041030. S2CID  7813832.
  9. ^ Энгелькен, Райнер; Вольф, Фред; Эбботт, Л. Ф. (2020-06-03). "Спектры Ляпунова хаотических рекуррентных нейронных сетей". arXiv : 2006.02427 [nlin.CD].
  10. ^ Хаусхолдер, Олстон С. (июнь 1941 г.). «Теория стационарной активности в сетях нервных волокон: I. Определения и предварительные леммы». Бюллетень математической биофизики . 3 (2): 63–69. doi :10.1007/BF02478220. ISSN  0007-4985.
  11. ^ Фукусима, К. (1969). «Извлечение визуальных признаков с помощью многослойной сети аналоговых пороговых элементов». Труды IEEE по системной науке и кибернетике . 5 (4): 322–333. doi :10.1109/TSSC.1969.300225.
  12. ^ Фукусима, К.; Мияке, С. (1982). «Неокогнитрон: самоорганизующаяся модель нейронной сети для механизма распознавания визуальных образов». Конкуренция и сотрудничество в нейронных сетях . Конспект лекций по биоматематике. Том 45. Springer. С. 267–285. doi :10.1007/978-3-642-46466-9_18. ISBN 978-3-540-11574-8. {{cite book}}: |journal=проигнорировано ( помощь )
  13. ^ Ханлозер, Р.; Сарпешкар, Р.; Маховальд, МА; Дуглас, Р.Дж.; Сынг, Х.С. (2000). «Цифровой отбор и аналоговое усиление сосуществуют в кремниевой схеме, вдохновленной корой головного мозга». Nature . 405 (6789): 947–951. Bibcode :2000Natur.405..947H. doi :10.1038/35016072. PMID  10879535. S2CID  4399014.
  14. ^ Ханлозер, Р.; Сын, Х.С. (2001). Разрешенные и запрещенные наборы в симметричных порогово-линейных сетях . NIPS 2001.
  15. ^ Ян ЛеКун ; Леон Ботту ; Женевьева Б. Орр; Клаус-Роберт Мюллер (1998). "Efficient BackProp" (PDF) . В G. Orr; K. Müller (ред.). Neural Networks: Tricks of the Trade . Springer.
  16. ^ "PyTorch Leaky ReLU docs".
  17. ^ «Документация TensorFlow Leaky ReLU».
  18. ^ ab He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (2015). «Глубокое изучение выпрямителей: превосходство человеческого уровня в классификации сетей изображений». arXiv : 1502.01852 [cs.CV].
  19. ^ Шан, Вэньлин; Сон, Кихюк; Алмейда, Диого; Ли, Хонглак (2016-06-11). «Понимание и улучшение сверточных нейронных сетей с помощью конкатенированных выпрямленных линейных блоков». Труды 33-й Международной конференции по машинному обучению . PMLR: 2217–2225. arXiv : 1603.05201 .
  20. ^ ab Хендрикс, Дэн; Гимпель, Кевин (2016). «Линейные единицы гауссовской погрешности (GELU)». arXiv : 1606.08415 [cs.LG].
  21. ^ ab Diganta Misra (23 августа 2019 г.), Mish: Саморегуляризованная немонотонная функция активации (PDF) , arXiv : 1908.08681v1 , получено 26 марта 2022 г..
  22. ^ Дюгас, Шарль; Бенжио, Йошуа; Белиль, Франсуа; Надо, Клод; Гарсия, Рене (2000-01-01). "Включение функциональных знаний второго порядка для лучшего ценообразования опционов" (PDF) . Труды 13-й Международной конференции по системам обработки нейронной информации (NIPS'00) . MIT Press: 451–457. Поскольку сигмоид h имеет положительную первую производную, его примитив, который мы называем softplus, является выпуклым.
  23. ^ "Smooth Rectifier Linear Unit (SmoothReLU) Forward Layer". Руководство разработчика для библиотеки Intel Data Analytics Acceleration Library . 2017. Получено 04.12.2018 .
  24. ^ Клеверт, Джорк-Арне; Унтертинер, Томас; Хохрейтер, Зепп (2015). «Быстрое и точное глубокое сетевое обучение с помощью экспоненциальных линейных единиц (ELU)». arXiv : 1511.07289 [cs.LG].
  25. ^ ab Shaw, Sweta (2020-05-10). "Функции активации в сравнении с экспериментами". W&B . Получено 2022-07-11 .
  26. ^ Баррон, Джонатан Т. (22 декабря 2021 г.). «Squareplus: алгебраический выпрямитель типа Softplus». arXiv : 2112.11687 [cs.NE].