Выпрямитель (нейронные сети)

В контексте искусственных нейронных сетей функция активации выпрямителя или ReLU (выпрямленная линейная единица) [ ^1]^[2] представляет собой функцию активации , определяемую как положительная часть ее аргумента:

f(x)=x^{+}=\max(0,x)={\frac {x+|x|}{2}}={\begin{cases}x&{\text{if }}x>0,\\0&{\text{otherwise}},\end{cases}}

где x — входной сигнал нейрона. Это также известно как функция линейного изменения и аналогично полуволновому выпрямлению в электротехнике . Эта функция активации была введена Кунихико Фукусимой в 1969 году в контексте извлечения визуальных признаков в иерархических нейронных сетях. ^[3]^[4]^[5] Позже утверждалось, что это имеет сильную биологическую мотивацию и математическое обоснование. ^[6]^[7] В 2011 году было обнаружено, что он позволяет лучше обучать более глубокие сети, ^[8] по сравнению с широко используемыми функциями активации до 2011 года, например, логистической сигмоидой (которая основана на теории вероятностей ; см. логистическую регрессию ) и его более практичный аналог ^{[9] —}гиперболический тангенс . Выпрямитель — по состоянию на 2017 год ^[update]самая популярная функция активации для глубоких нейронных сетей . ^[10]

Выпрямленные линейные единицы находят применение в компьютерном зрении ^[8] и распознавании речи ^[11]^[12] с использованием глубоких нейронных сетей и вычислительной нейробиологии . ^[13]^[14]^[15]

Преимущества

Разреженная активация: например, в случайно инициализированной сети активируется только около 50% скрытых модулей (имеют ненулевой выход).
Лучшее распространение градиента: меньше проблем с исчезающим градиентом по сравнению с сигмоидальными функциями активации, которые насыщаются в обоих направлениях. ^[8]
Эффективные вычисления: только сравнение, сложение и умножение.
Масштабно-инвариантный: . $\max(0,ax)=a\max(0,x){\text{ for }}a\geq 0$

Выпрямляющие функции активации использовались для разделения специфического возбуждения и неспецифического торможения в пирамиде нейронной абстракции, которая была обучена под наблюдением для изучения нескольких задач компьютерного зрения. ^[16] В 2011 году ^[8] было показано, что использование выпрямителя в качестве нелинейного устройства позволяет обучать нейронные сети с глубоким учителем , не требуя предварительного обучения без учителя. Выпрямленные линейные единицы по сравнению с сигмовидной функцией или аналогичными функциями активации позволяют быстрее и эффективнее обучать глубокие нейронные архитектуры на больших и сложных наборах данных.

Потенциальные проблемы

Недифференцируемый в нуле; однако он дифференцируем в любом другом месте, и значение производной в нуле может быть произвольно выбрано равным 0 или 1.
Не с нулевым центром.
Неограниченный.
Умирающая проблема ReLU: нейроны ReLU (выпрямленная линейная единица) иногда могут быть переведены в состояния, в которых они становятся неактивными практически для всех входных данных. В этом состоянии градиенты не текут обратно через нейрон, и поэтому нейрон застревает в постоянно неактивном состоянии и «умирает». Это одна из форм проблемы исчезающего градиента . В некоторых случаях большое количество нейронов в сети может застрять в мертвом состоянии, что существенно снижает емкость модели. Эта проблема обычно возникает, когда скорость обучения установлена слишком высока. Это можно смягчить, используя вместо этого дырявые ReLU, которые присваивают небольшой положительный наклон для x < 0; однако производительность снижается.

Варианты

Кусочно-линейные варианты

Дырявый РеЛУ

Утечки ReLU допускают небольшой положительный градиент, когда устройство неактивно, ^[12] помогая смягчить проблему исчезновения градиента.

f(x)={\begin{cases}x&{\text{if }}x>0,\\0.01x&{\text{otherwise}}.\end{cases}}\qquad \qquad f'(x)={\begin{cases}1&{\text{if }}x>0,\\0.01&{\text{otherwise}}.\end{cases}}

Параметрический ReLU

Параметрические ReLU (PReLU) развивают эту идею дальше, превращая коэффициент утечки в параметр, который изучается вместе с другими параметрами нейронной сети. ^[17]

f(x)={\begin{cases}x&{\text{if }}x>0,\\a\cdot x&{\text{otherwise}}.\end{cases}}\qquad \qquad \qquad f'(x)={\begin{cases}1&{\text{if }}x>0,\\a&{\text{otherwise}}.\end{cases}}

Обратите внимание, что для a ≤ 1 это эквивалентно

f(x)=\max(x,ax)

и, таким образом, имеет отношение к сетям «maxout». ^[17]

Другие нелинейные варианты

Линейный блок с гауссовой ошибкой (GELU)

GELU — плавное приближение к выпрямителю:

f(x)=x\cdot \Phi (x),

f'(x)=x\cdot \Phi '(x)+\Phi (x),

где – кумулятивная функция распределения стандартного нормального распределения . $\Phi (x)=P(X\leqslant x)$

Эта функция активации показана на рисунке в начале этой статьи. Он имеет «выпуклость» слева от x < 0 и служит активацией по умолчанию для таких моделей, как BERT . ^[18]

СиЛУ

SiLU (сигмовидная линейная единица) или функция взмаха ^[19] — это еще одно гладкое приближение, впервые предложенное в статье GELU: ^[18]

f(x)=x\cdot \operatorname {sigmoid} (x),

f'(x)=x\cdot \operatorname {sigmoid} '(x)+\operatorname {sigmoid} (x),

где сигмовидная функция . $\operatorname {sigmoid} (x)$

Софтплюс

Гладким приближением выпрямителя является аналитическая функция

f(x)=\ln(1+e^{x}),\qquad \qquad f'(x)={\frac {e^{x}}{1+e^{x}}}={\frac {1}{1+e^{-x}}},

которая называется функцией softplus ^[20]^[8] или SmoothReLU . ^[21] Для большого отрицательного значения оно составляет примерно , то есть чуть выше 0, а для большого положительного — примерно , то есть чуть выше . $x$ $\ln 1$ $x$ $\ln(e^{x})$ $x$

Эту функцию можно аппроксимировать следующим образом:

\ln \left(1+e^{x}\right)\approx {\begin{cases}\ln 2,&x=0,\\[6pt]{\frac {x}{1-e^{-x/\ln 2}}},&x\neq 0\end{cases}}

Сделав замену переменных , это эквивалентно $x=y\ln(2)$

\log _{2}(1+2^{y})\approx {\begin{cases}1,&y=0,\\[6pt]{\frac {y}{1-e^{-y}}},&y\neq 0.\end{cases}}

Параметр резкости может быть включен: $k$

f(x)={\frac {\ln(1+e^{kx})}{k}},\qquad \qquad f'(x)={\frac {e^{kx}}{1+e^{kx}}}={\frac {1}{1+e^{-kx}}}.

Производная softplus — логистическая функция .

Логистическая сигмоидальная функция представляет собой гладкую аппроксимацию производной выпрямителя, ступенчатой функции Хевисайда .

Многопараметрическим обобщением softplus с одной переменной является LogSumExp с первым аргументом, установленным в ноль:

\operatorname {LSE_{0}} ^{+}(x_{1},\dots ,x_{n}):=\operatorname {LSE} (0,x_{1},\dots ,x_{n})=\ln(1+e^{x_{1}}+\cdots +e^{x_{n}}).

Функция LogSumExp

\operatorname {LSE} (x_{1},\dots ,x_{n})=\ln(e^{x_{1}}+\cdots +e^{x_{n}}),

и его градиент — softmax ; softmax с первым аргументом, равным нулю, представляет собой многовариантное обобщение логистической функции. И LogSumExp, и softmax используются в машинном обучении.

ЭЛУ

Экспоненциальные линейные блоки пытаются приблизить средние активации к нулю, что ускоряет обучение. Было показано, что ELU могут обеспечить более высокую точность классификации, чем ReLU. ^[22]

f(x)={\begin{cases}x&{\text{if }}x>0,\\a\left(e^{x}-1\right)&{\text{otherwise}}.\end{cases}}\qquad \qquad f'(x)={\begin{cases}1&{\text{if }}x>0,\\a\cdot e^{x}&{\text{otherwise}}.\end{cases}}

В этих формулах — гиперпараметр , который необходимо настроить с помощью ограничения . $a$ $a\geq 0$

ELU можно рассматривать как сглаженную версию сдвинутого ReLU (SReLU), которая имеет форму при той же интерпретации . $f(x)=\max(-a,x)$ $a$

Миш

Миш-функцию также можно использовать в качестве плавной аппроксимации выпрямителя. ^[19] Это определяется как

f(x)=x\tanh {\big (}\operatorname {softplus} (x){\big )},

где – гиперболический тангенс , – функция softplus . $\tanh(x)$ $\operatorname {softplus} (x)$

Миш немонотонен и самодостаточен. ^[23] Он был вдохновлен Swish , который сам по себе является вариантом ReLU . ^[23]

Скверплюс

Squareplus ^[24] — это функция

\operatorname {squareplus} _{b}(x)={\frac {x+{\sqrt {x^{2}+b}}}{2}}

где – гиперпараметр, определяющий «размер» изогнутой области вблизи . (Например, спуск дает ReLU, а спуск дает функцию металлического среднего .) Squareplus имеет много общих свойств с softplus: он монотонен , строго положителен , приближается к 0 как , приближается к тождеству как и является гладким . Однако Squareplus можно вычислить, используя только алгебраические функции , что делает его хорошо подходящим для ситуаций, когда вычислительные ресурсы или наборы команд ограничены. Кроме того, Squareplus не требует специального рассмотрения для обеспечения числовой стабильности, когда оно велико. $b\geq 0$ $x=0$ $b=0$ $b=4$ $x\to -\infty$ $x\to +\infty$ $C^{\infty }$ $x$