Функция активации узла в искусственной нейронной сети — это функция, которая вычисляет выходные данные узла на основе его отдельных входов и их весов. Нетривиальные задачи можно решить, используя всего несколько узлов, если функция активации нелинейна . [1] Современные функции активации включают гладкую версию ReLU , GELU, которая использовалась в модели BERT 2018 года , [2] логистическую ( сигмовидную ) функцию, используемую в модели распознавания речи 2012 года , разработанной Хинтоном и др., [3] ] ReLU , используемый в модели компьютерного зрения AlexNet 2012 года [4] [5] и в модели ResNet 2015 года .
Сравнение функций активации
Помимо эмпирических характеристик, функции активации также обладают различными математическими свойствами:
Нелинейный
Когда функция активации нелинейна, можно доказать, что двухслойная нейронная сеть является универсальным аппроксиматором функции. [6] Это известно как теорема универсального приближения . Функция активации идентичности не удовлетворяет этому свойству. Когда несколько уровней используют функцию активации идентификации, вся сеть эквивалентна одноуровневой модели.
Диапазон
Когда диапазон функции активации конечен, методы обучения на основе градиента имеют тенденцию быть более стабильными, поскольку представление шаблонов существенно влияет только на ограниченные веса. Когда диапазон бесконечен, обучение, как правило, более эффективно, поскольку представление шаблонов существенно влияет на большую часть весов. В последнем случае обычно необходимы меньшие скорости обучения . [ нужна цитата ]
Непрерывно дифференцируемый
Это свойство желательно ( ReLU не является непрерывно дифференцируемым и имеет некоторые проблемы с оптимизацией на основе градиента, но это все же возможно) для включения методов оптимизации на основе градиента. Функция активации двоичного шага не дифференцируема при 0 и дифференцируется до 0 для всех других значений, поэтому методы на основе градиента не могут добиться с ней прогресса. [7]
Эти свойства не оказывают решающего влияния на производительность и не являются единственными математическими свойствами, которые могут быть полезны. Например, строго положительный диапазон softplus делает его пригодным для прогнозирования отклонений в вариационных автоэнкодерах .
Функция активации является насыщающей , если . Оно ненасыщающее , если оно не насыщает. Ненасыщающие функции активации, такие как ReLU , могут быть лучше, чем насыщающие функции активации, поскольку они с меньшей вероятностью страдают от проблемы исчезающего градиента . [8]
Функции активации гребня
Ридж-функции — это многомерные функции, действующие на линейную комбинацию входных переменных. Часто используемые примеры включают в себя: [ нужны разъяснения ]
В биологических нейронных сетях функция активации обычно представляет собой абстракцию, представляющую скорость срабатывания потенциала действия в клетке. [9] В своей простейшей форме эта функция является бинарной , то есть либо нейрон срабатывает, либо нет. Нейроны также не могут срабатывать быстрее определенной частоты, что мотивирует функции активации сигмовидной мышцы , диапазон которых составляет конечный интервал.
С другой стороны, если линия имеет положительный наклон , это может отражать увеличение скорости срабатывания, которое происходит по мере увеличения входного тока. Такая функция будет иметь вид .
Функции активации линейной единицы выпрямленной единицы и гауссовой ошибки
Функции радиальной активации
В RBF-сетях используется специальный класс функций активации, известный как радиальные базисные функции (RBF) , которые чрезвычайно эффективны в качестве универсальных аппроксиматоров функций. Эти функции активации могут принимать разные формы, но обычно они представляют собой одну из следующих функций:
где – вектор, представляющий центр функции , и – параметры, влияющие на разброс радиуса.
Функции активации складывания
Функции активации свертывания широко используются в слоях объединения в сверточных нейронных сетях и в выходных слоях сетей многоклассовой классификации. Эти активации выполняют агрегирование входных данных, например, определение среднего , минимального или максимального значения . В мультиклассовой классификации часто используется активация softmax .
Таблица функций активации
В следующей таблице сравниваются свойства нескольких функций активации, которые являются функциями одной складки x предыдущего слоя или слоев:
В следующей таблице перечислены функции активации, которые не являются функциями одного сгиба x из предыдущего слоя или слоев:
^ Например,можно перебирать количество ядер предыдущего слоя нейронной сети, одновременноперебирая количество ядер текущего слоя.
Квантовые функции активации
В квантовых нейронных сетях , запрограммированных на квантовых компьютерах с вентильной моделью , основанных на квантовых перцептронах вместо вариационных квантовых схем, нелинейность функции активации может быть реализована без необходимости измерения выходного сигнала каждого перцептрона на каждом уровне. Квантовые свойства, загруженные в схему, такие как суперпозиция, могут быть сохранены путем создания ряда Тейлора аргумента, вычисленного самим персептроном, с подходящими квантовыми схемами, вычисляющими степени до желаемой степени аппроксимации. Благодаря гибкости таких квантовых схем их можно спроектировать так, чтобы аппроксимировать любую произвольную классическую функцию активации. [20]
^ Хинкельманн, Кнут. «Нейронные сети, стр. 7» (PDF) . Университет прикладных наук Северо-Западной Швейцарии . Архивировано из оригинала (PDF) 6 октября 2018 г. Проверено 6 октября 2018 г.
^ Хинтон, Джеффри; Дэн, Ли; Дэн, Ли; Ю, Донг; Даль, Джордж; Мохамед, Абдель-Рахман; Джейтли, Навдип; Старший, Эндрю; Ванхук, Винсент; Нгуен, Патрик; Сайнат, Тара ; Кингсбери, Брайан (2012). «Глубокие нейронные сети для акустического моделирования в распознавании речи». Журнал обработки сигналов IEEE . 29 (6): 82–97. дои : 10.1109/MSP.2012.2205597. S2CID 206485943.
^ Крижевский, Алекс; Суцкевер, Илья; Хинтон, Джеффри Э. (24 мая 2017 г.). «Классификация ImageNet с глубокими сверточными нейронными сетями». Коммуникации АКМ . 60 (6): 84–90. дои : 10.1145/3065386. ISSN 0001-0782.
^ Университет короля Абдель Азиза; Аль-Джохания, Нора; Эльрефаи, Ламияа; Университет Бенха (30 июня 2019 г.). «Распознавание дорсальной вен руки с помощью сверточных нейронных сетей: подходы к обучению функциям и переносу обучения» (PDF) . Международный журнал интеллектуальной инженерии и систем . 12 (3): 178–191. дои : 10.22266/ijies2019.0630.19.
^ Цыбенко, Г. (декабрь 1989 г.). «Приближение суперпозицией сигмоидальной функции» (PDF) . Математика управления, сигналов и систем . 2 (4): 303–314. дои : 10.1007/BF02551274. ISSN 0932-4194. S2CID 3958369.
↑ Снайман, январь (3 марта 2005 г.). Практическая математическая оптимизация: введение в базовую теорию оптимизации, а также классические и новые градиентные алгоритмы. Springer Science & Business Media. ISBN978-0-387-24348-1.
^ Крижевский, Алекс; Суцкевер, Илья; Хинтон, Джеффри Э. (24 мая 2017 г.). «Классификация ImageNet с глубокими сверточными нейронными сетями». Коммуникации АКМ . 60 (6): 84–90. дои : 10.1145/3065386 . ISSN 0001-0782. S2CID 195908774.
^ Ходжкин, Алабама; Хаксли, А. Ф. (28 августа 1952 г.). «Количественное описание мембранного тока и его применение к проводимости и возбуждению нерва». Журнал физиологии . 117 (4): 500–544. doi : 10.1113/jphysical.1952.sp004764. ПМК 1392413 . ПМИД 12991237.
^ Наир, Винод; Хинтон, Джеффри Э. (2010), «Выпрямленные линейные единицы улучшают ограниченные машины Больцмана», 27-я Международная конференция по машинному обучению , ICML'10, США: Omnipress, стр. 807–814, ISBN9781605589077
^ Глорот, Ксавье; Борд, Антуан; Бенджио, Йошуа (2011). «Глубокие разреженные нейронные сети выпрямителя» (PDF) . Международная конференция по искусственному интеллекту и статистике .
^ Клеверт, Джорк-Арне; Унтертинер, Томас; Хохрайтер, Зепп (23 ноября 2015 г.). «Быстрое и точное глубокое сетевое обучение с помощью экспоненциальных линейных единиц (ELU)». arXiv : 1511.07289 [cs.LG].
^ Кламбауэр, Гюнтер; Унтертинер, Томас; Майр, Андреас; Хохрайтер, Зепп (08.06.2017). «Самонормализующиеся нейронные сети». Достижения в области нейронных систем обработки информации . 30 (2017). arXiv : 1706.02515 .
^ Маас, Эндрю Л.; Ханнун, Ауни Ю.; Нг, Эндрю Ю. (июнь 2013 г.). «Нелинейность выпрямителя улучшает акустические модели нейронных сетей». Учеб. ИКМЛ . 30 (1). S2CID 16489696.
^ Он, Кайминг; Чжан, Сянъюй; Рен, Шаоцин; Сунь, Цзянь (06 февраля 2015 г.). «Углубление выпрямителей: превосходство производительности человеческого уровня в классификации ImageNet». arXiv : 1502.01852 [cs.CV].
^ Атто, Абдуррахман М.; Пастор Доминик; Мерсье, Грегуар (2008), «Плавное сжатие сигмовидного вейвлета для непараметрической оценки» (PDF) , Международная конференция IEEE по акустике, речи и обработке сигналов , 2008 г., стр. 3265–3268, doi : 10.1109/ICASSP.2008.4518347, ISBN978-1-4244-1483-3, S2CID 9959057
^ Эльфвинг, Стефан; Учибе, Эйдзи; Дойя, Кенджи (2018). «Сигмовидные линейные единицы для аппроксимации функций нейронной сети при обучении с подкреплением». Нейронные сети . 107 : 3–11. arXiv : 1702.03118 . doi :10.1016/j.neunet.2017.12.012. PMID 29395652. S2CID 6940861.
^ Рамачандран, Праджит; Зоф, Баррет; Ле, Куок V (2017). «Поиск функций активации». arXiv : 1710.05941 [cs.NE].
^ Гудфеллоу, Ян Дж.; Вард-Фарли, Дэвид; Мирза, Мехди; Курвиль, Аарон; Бенджио, Йошуа (2013). «Максаут Нетворкс». Материалы семинара и конференции JMLR . 28 (3): 1319–1327. arXiv : 1302.4389 .