stringtranslate.com

Выпрямитель (нейронные сети)

График функций выпрямителя ReLU (синий) и GELU (зеленый) вблизи x = 0

В контексте искусственных нейронных сетей функция активации выпрямителя или ReLU (выпрямленная линейная единица) [ 1] [2] представляет собой функцию активации , определяемую как положительная часть ее аргумента:

где x — входной сигнал нейрона. Это также известно как функция линейного изменения и аналогично полуволновому выпрямлению в электротехнике . Эта функция активации была введена Кунихико Фукусимой в 1969 году в контексте извлечения визуальных признаков в иерархических нейронных сетях. [3] [4] [5] Позже утверждалось, что это имеет сильную биологическую мотивацию и математическое обоснование. [6] [7] В 2011 году было обнаружено, что он позволяет лучше обучать более глубокие сети, [8] по сравнению с широко используемыми функциями активации до 2011 года, например, логистической сигмоидой (которая основана на теории вероятностей ; см. логистическую регрессию ) и его более практичный аналог [9] — гиперболический тангенс . Выпрямитель — по состоянию на 2017 год самая популярная функция активации для глубоких нейронных сетей . [10]

Выпрямленные линейные единицы находят применение в компьютерном зрении [8] и распознавании речи [11] [12] с использованием глубоких нейронных сетей и вычислительной нейробиологии . [13] [14] [15]

Преимущества

Выпрямляющие функции активации использовались для разделения специфического возбуждения и неспецифического торможения в пирамиде нейронной абстракции, которая была обучена под наблюдением для изучения нескольких задач компьютерного зрения. [16] В 2011 году [8] было показано, что использование выпрямителя в качестве нелинейного устройства позволяет обучать нейронные сети с глубоким учителем , не требуя предварительного обучения без учителя. Выпрямленные линейные единицы по сравнению с сигмовидной функцией или аналогичными функциями активации позволяют быстрее и эффективнее обучать глубокие нейронные архитектуры на больших и сложных наборах данных.

Потенциальные проблемы

Варианты

Кусочно-линейные варианты

Дырявый РеЛУ

Утечки ReLU допускают небольшой положительный градиент, когда устройство неактивно, [12] помогая смягчить проблему исчезновения градиента.

Параметрический ReLU

Параметрические ReLU (PReLU) развивают эту идею дальше, превращая коэффициент утечки в параметр, который изучается вместе с другими параметрами нейронной сети. [17]

Обратите внимание, что для a ≤ 1 это эквивалентно

и, таким образом, имеет отношение к сетям «maxout». [17]

Другие нелинейные варианты

Линейный блок с гауссовой ошибкой (GELU)

GELU — плавное приближение к выпрямителю:

где – кумулятивная функция распределения стандартного нормального распределения .

Эта функция активации показана на рисунке в начале этой статьи. Он имеет «выпуклость» слева от x < 0 и служит активацией по умолчанию для таких моделей, как BERT . [18]

СиЛУ

SiLU (сигмовидная линейная единица) или функция взмаха [19] — это еще одно гладкое приближение, впервые предложенное в статье GELU: [18]

где сигмовидная функция .

Софтплюс

Гладким приближением выпрямителя является аналитическая функция

которая называется функцией softplus [20] [8] или SmoothReLU . [21] Для большого отрицательного значения оно составляет примерно , то есть чуть выше 0, а для большого положительного — примерно , то есть чуть выше .

Эту функцию можно аппроксимировать следующим образом:

Сделав замену переменных , это эквивалентно

Параметр резкости может быть включен:

Производная softplus — логистическая функция .

Логистическая сигмоидальная функция представляет собой гладкую аппроксимацию производной выпрямителя, ступенчатой ​​функции Хевисайда .

Многопараметрическим обобщением softplus с одной переменной является LogSumExp с первым аргументом, установленным в ноль:

Функция LogSumExp

и его градиент — softmax ; softmax с первым аргументом, равным нулю, представляет собой многовариантное обобщение логистической функции. И LogSumExp, и softmax используются в машинном обучении.

ЭЛУ

Экспоненциальные линейные блоки пытаются приблизить средние активации к нулю, что ускоряет обучение. Было показано, что ELU могут обеспечить более высокую точность классификации, чем ReLU. [22]

В этих формулах — гиперпараметр , который необходимо настроить с помощью ограничения .

ELU можно рассматривать как сглаженную версию сдвинутого ReLU (SReLU), которая имеет форму при той же интерпретации .

Миш

Миш-функцию также можно использовать в качестве плавной аппроксимации выпрямителя. [19] Это определяется как

где – гиперболический тангенс , – функция softplus .

Миш немонотонен и самодостаточен. [23] Он был вдохновлен Swish , который сам по себе является вариантом ReLU . [23]

Скверплюс

Squareplus [24] — это функция

где – гиперпараметр, определяющий «размер» изогнутой области вблизи . (Например, спуск дает ReLU, а спуск дает функцию металлического среднего .) Squareplus имеет много общих свойств с softplus: он монотонен , строго положителен , приближается к 0 как , приближается к тождеству как и является гладким . Однако Squareplus можно вычислить, используя только алгебраические функции , что делает его хорошо подходящим для ситуаций, когда вычислительные ресурсы или наборы команд ограничены. Кроме того, Squareplus не требует специального рассмотрения для обеспечения числовой стабильности, когда оно велико.

Смотрите также

Рекомендации

  1. Браунли, Джейсон (8 января 2019 г.). «Нежное введение в выпрямленный линейный блок (ReLU)». Мастерство машинного обучения . Проверено 8 апреля 2021 г.
  2. Лю, Даньцин (30 ноября 2017 г.). «Практическое руководство по ReLU». Середина . Проверено 8 апреля 2021 г.
  3. ^ Фукусима, К. (1969). «Визуальное извлечение признаков с помощью многослойной сети аналоговых пороговых элементов». Транзакции IEEE по системным наукам и кибернетике . 5 (4): 322–333. дои : 10.1109/TSSC.1969.300225.
  4. ^ Фукусима, К.; Мияке, С. (1982). «Неокогнитрон: самоорганизующаяся модель нейронной сети для механизма распознавания визуальных образов». Конкуренция и сотрудничество в нейронных сетях . Конспект лекций по биоматематике. Спрингер. 45 : 267–285. дои : 10.1007/978-3-642-46466-9_18. ISBN 978-3-540-11574-8.
  5. ^ Шмидхубер, Юрген (2022). «Аннотированная история современного искусственного интеллекта и глубокого обучения». arXiv : 2212.11279 [cs.NE].
  6. ^ Ханлозер, Р.; Сарпешкар Р.; Маховальд, Массачусетс; Дуглас, Р.Дж.; Сын, HS (2000). «Цифровая селекция и аналоговое усиление сосуществуют в кремниевой схеме, основанной на коре головного мозга». Природа . 405 (6789): 947–951. Бибкод : 2000Natur.405..947H. дои : 10.1038/35016072. PMID  10879535. S2CID  4399014.
  7. ^ Ханлозер, Р.; Сын, HS (2001). Разрешенные и запрещенные множества в симметричных порогово-линейных сетях . НИПС 2001.
  8. ^ abcde Ксавье Глорот; Антуан Борд; Йошуа Бенджио (2011). Нейронные сети с глубоким разреженным выпрямителем (PDF) . АЙСТАТС. Функции активации выпрямителя и softplus. Второй вариант является более гладкой версией первого.
  9. ^ Янн ЛеКун ; Леон Ботту ; Женевьева Б. Орр; Клаус-Роберт Мюллер (1998). «Эффективный BackProp» (PDF) . У Г. Орра; К. Мюллер (ред.). Нейронные сети: хитрости . Спрингер.
  10. ^ Рамачандран, Праджит; Баррет, Зоф; Куок, В. Ле (16 октября 2017 г.). «Поиск функций активации». arXiv : 1710.05941 [cs.NE].
  11. ^ Ласло Тот (2013). Распознавание телефона с помощью глубоких разреженных нейронных сетей выпрямителя (PDF) . ИКАССП .
  12. ^ ab Эндрю Л. Маас, Ауни Ю. Ханнун, Эндрю Ю. Нг (2014). Нелинейность выпрямителя улучшает акустические модели нейронных сетей.
  13. ^ Гензель, Д.; ван Вресвейк, К. (2002). «Как шум способствует контрастной инвариантности настройки ориентации зрительной коры кошки». Дж. Нейроски. 22 (12): 5118–5128. doi :10.1523/JNEUROSCI.22-12-05118.2002. ПМК 6757721 . ПМИД  12077207.  
  14. ^ Кадмон, Джонатан; Сомполинский, Хаим (19 ноября 2015 г.). «Переход к хаосу в случайных нейронных сетях». Физический обзор X . 5 (4): 041030. arXiv : 1508.06486 . Бибкод : 2015PhRvX...5d1030K. doi : 10.1103/PhysRevX.5.041030. S2CID  7813832.
  15. ^ Энгелькен, Райнер; Вольф, Фред; Эбботт, LF (03.06.2020). «Ляпуновские спектры хаотических рекуррентных нейронных сетей». arXiv : 2006.02427 [nlin.CD].
  16. ^ Бенке, Свен (2003). Иерархические нейронные сети для интерпретации изображений. Конспекты лекций по информатике. Том. 2766. Спрингер. дои : 10.1007/b11963. ISBN 978-3-540-40722-5. S2CID  1304548.
  17. ^ аб Хе, Кайминг; Чжан, Сянъюй; Рен, Шаоцин; Сунь, Цзянь (2015). «Углубление выпрямителей: превосходство человеческого уровня при классификации сетей изображений ». arXiv : 1502.01852 [cs.CV].
  18. ^ аб Хендрикс, Дэн; Гимпел, Кевин (2016). «Линейные единицы гауссовой ошибки (GELU)». arXiv : 1606.08415 [cs.LG].
  19. ^ ab Diganta Misra (23 августа 2019 г.), Mish: Саморегуляризованная немонотонная функция активации (PDF) , arXiv : 1908.08681v1 , получено 26 марта 2022 г..
  20. ^ Дугас, Чарльз; Бенджио, Йошуа; Белиль, Франсуа; Надо, Клод; Гарсия, Рене (1 января 2000 г.). «Включение функциональных знаний второго порядка для лучшего ценообразования опционов» (PDF) . Материалы 13-й Международной конференции по нейронным системам обработки информации (NIPS'00) . Массачусетский технологический институт Пресс: 451–457. Поскольку сигмоида h имеет положительную первую производную, ее примитивная форма, которую мы называем softplus, является выпуклой.
  21. ^ «Прямой слой линейного блока плавного выпрямителя (SmoothReLU)» . Руководство разработчика по библиотеке ускорения Intel Data Analytics . 2017 . Проверено 4 декабря 2018 г.
  22. ^ Клеверт, Джорк-Арне; Унтертинер, Томас; Хохрайтер, Зепп (2015). «Быстрое и точное глубокое сетевое обучение с помощью экспоненциальных линейных единиц (ELU)». arXiv : 1511.07289 [cs.LG].
  23. ^ Аб Шоу, Света (10 мая 2020 г.). «Функции активации по сравнению с экспериментами». В&Б . Проверено 11 июля 2022 г.
  24. Бэррон, Джонатан Т. (22 декабря 2021 г.). «Squareplus: алгебраический выпрямитель в стиле Softplus». arXiv : 2112.11687 [cs.NE].