Функция активации

Функция активации узла в искусственной нейронной сети — это функция, которая вычисляет выходные данные узла на основе его отдельных входов и их весов. Нетривиальные задачи можно решить, используя всего несколько узлов, если функция активации нелинейна . ^[1] Современные функции активации включают гладкую версию ReLU , GELU, которая использовалась в модели BERT 2018 года , ^[2] логистическую ( сигмовидную ) функцию, используемую в модели распознавания речи 2012 года , разработанной Хинтоном и др., ^{[3] ]} ReLU , используемый в модели компьютерного зрения AlexNet 2012 года ^[4]^[5] и в модели ResNet 2015 года .

Сравнение функций активации

Помимо эмпирических характеристик, функции активации также обладают различными математическими свойствами:

Нелинейный: Когда функция активации нелинейна, можно доказать, что двухслойная нейронная сеть является универсальным аппроксиматором функции. ^[6] Это известно как теорема универсального приближения . Функция активации идентичности не удовлетворяет этому свойству. Когда несколько уровней используют функцию активации идентификации, вся сеть эквивалентна одноуровневой модели.
Диапазон: Когда диапазон функции активации конечен, методы обучения на основе градиента имеют тенденцию быть более стабильными, поскольку представление шаблонов существенно влияет только на ограниченные веса. Когда диапазон бесконечен, обучение, как правило, более эффективно, поскольку представление шаблонов существенно влияет на большую часть весов. В последнем случае обычно необходимы меньшие скорости обучения . ^{[ нужна цитата ]}
Непрерывно дифференцируемый: Это свойство желательно ( ReLU не является непрерывно дифференцируемым и имеет некоторые проблемы с оптимизацией на основе градиента, но это все же возможно) для включения методов оптимизации на основе градиента. Функция активации двоичного шага не дифференцируема при 0 и дифференцируется до 0 для всех других значений, поэтому методы на основе градиента не могут добиться с ней прогресса. ^[7]

Эти свойства не оказывают решающего влияния на производительность и не являются единственными математическими свойствами, которые могут быть полезны. Например, строго положительный диапазон softplus делает его пригодным для прогнозирования отклонений в вариационных автоэнкодерах .

Математические детали

Наиболее распространенные функции активации можно разделить на три категории: функции гребня , радиальные функции и функции складки .

Функция активации является насыщающей , если . Оно ненасыщающее , если оно не насыщает. Ненасыщающие функции активации, такие как ReLU , могут быть лучше, чем насыщающие функции активации, поскольку они с меньшей вероятностью страдают от проблемы исчезающего градиента . ^[8] $f$ $\lim _{|v|\to \infty }|\nabla f(v)|=0$

Функции активации гребня

Ридж-функции — это многомерные функции, действующие на линейную комбинацию входных переменных. Часто используемые примеры включают в себя: ^{[ нужны разъяснения ]}

Линейная активация: , $\phi (\mathbf {v} )=a+\mathbf {v} '\mathbf {b}$
Активация ReLU : , $\phi (\mathbf {v} )=\max(0,a+\mathbf {v} '\mathbf {b} )$
Активация Хевисайда : , $\phi (\mathbf {v} )=1_{a+\mathbf {v} '\mathbf {b} >0}$
Логистическая активация: . $\phi (\mathbf {v} )=(1+\exp(-a-\mathbf {v} '\mathbf {b} ))^{-1}$

В биологических нейронных сетях функция активации обычно представляет собой абстракцию, представляющую скорость срабатывания потенциала действия в клетке. ^[9] В своей простейшей форме эта функция является бинарной , то есть либо нейрон срабатывает, либо нет. Нейроны также не могут срабатывать быстрее определенной частоты, что мотивирует функции активации сигмовидной мышцы , диапазон которых составляет конечный интервал.

Функция имеет вид , где – ступенчатая функция Хевисайда . $\phi (\mathbf {v} )=U(a+\mathbf {v} '\mathbf {b} )$ $U$

С другой стороны, если линия имеет положительный наклон , это может отражать увеличение скорости срабатывания, которое происходит по мере увеличения входного тока. Такая функция будет иметь вид . $\phi (\mathbf {v} )=a+\mathbf {v} '\mathbf {b}$

Функции радиальной активации

В RBF-сетях используется специальный класс функций активации, известный как радиальные базисные функции (RBF) , которые чрезвычайно эффективны в качестве универсальных аппроксиматоров функций. Эти функции активации могут принимать разные формы, но обычно они представляют собой одну из следующих функций:

Гауссово : $\,\phi (\mathbf {v} )=\exp \left(-{\frac {\|\mathbf {v} -\mathbf {c} \|^{2}}{2\sigma ^{2}}}\right)$
Мультиквадратика: $\,\phi (\mathbf {v} )={\sqrt {\|\mathbf {v} -\mathbf {c} \|^{2}+a^{2}}}$
Обратная мультиквадратика: $\,\phi (\mathbf {v} )=\left(\|\mathbf {v} -\mathbf {c} \|^{2}+a^{2}\right)^{-{\frac {1}{2}}}$
Полигармонические сплайны

где – вектор, представляющий центр функции , и – параметры, влияющие на разброс радиуса. $\mathbf {c}$ $a$ $\sigma$

Функции активации складывания

Функции активации свертывания широко используются в слоях объединения в сверточных нейронных сетях и в выходных слоях сетей многоклассовой классификации. Эти активации выполняют агрегирование входных данных, например, определение среднего , минимального или максимального значения . В мультиклассовой классификации часто используется активация softmax .

Таблица функций активации

В следующей таблице сравниваются свойства нескольких функций активации, которые являются функциями одной складки $x$ предыдущего слоя или слоев:

В следующей таблице перечислены функции активации, которые не являются функциями одного сгиба $x$ из предыдущего слоя или слоев:

^ Здесь— дельта Кронекера .

\delta _{ij}

^ Например,можно перебирать количество ядер предыдущего слоя нейронной сети, одновременноперебирая количество ядер текущего слоя.

j

i

Квантовые функции активации

В квантовых нейронных сетях , запрограммированных на квантовых компьютерах с вентильной моделью , основанных на квантовых перцептронах вместо вариационных квантовых схем, нелинейность функции активации может быть реализована без необходимости измерения выходного сигнала каждого перцептрона на каждом уровне. Квантовые свойства, загруженные в схему, такие как суперпозиция, могут быть сохранены путем создания ряда Тейлора аргумента, вычисленного самим персептроном, с подходящими квантовыми схемами, вычисляющими степени до желаемой степени аппроксимации. Благодаря гибкости таких квантовых схем их можно спроектировать так, чтобы аппроксимировать любую произвольную классическую функцию активации. ^[20]