stringtranslate.com

Функция активации

Функция активации логистики

Функция активации узла в искусственной нейронной сети — это функция, которая вычисляет выходные данные узла на основе его отдельных входов и их весов. Нетривиальные задачи можно решить, используя всего несколько узлов, если функция активации нелинейна . [1] Современные функции активации включают гладкую версию ReLU , GELU, которая использовалась в модели BERT 2018 года , [2] логистическую ( сигмовидную ) функцию, используемую в модели распознавания речи 2012 года , разработанной Хинтоном и др., [3] ] ReLU , используемый в модели компьютерного зрения AlexNet 2012 года [4] [5] и в модели ResNet 2015 года .

Сравнение функций активации

Помимо эмпирических характеристик, функции активации также обладают различными математическими свойствами:

Нелинейный
Когда функция активации нелинейна, можно доказать, что двухслойная нейронная сеть является универсальным аппроксиматором функции. [6] Это известно как теорема универсального приближения . Функция активации идентичности не удовлетворяет этому свойству. Когда несколько уровней используют функцию активации идентификации, вся сеть эквивалентна одноуровневой модели.
Диапазон
Когда диапазон функции активации конечен, методы обучения на основе градиента имеют тенденцию быть более стабильными, поскольку представление шаблонов существенно влияет только на ограниченные веса. Когда диапазон бесконечен, обучение, как правило, более эффективно, поскольку представление шаблонов существенно влияет на большую часть весов. В последнем случае обычно необходимы меньшие скорости обучения . [ нужна цитата ]
Непрерывно дифференцируемый
Это свойство желательно ( ReLU не является непрерывно дифференцируемым и имеет некоторые проблемы с оптимизацией на основе градиента, но это все же возможно) для включения методов оптимизации на основе градиента. Функция активации двоичного шага не дифференцируема при 0 и дифференцируется до 0 для всех других значений, поэтому методы на основе градиента не могут добиться с ней прогресса. [7]

Эти свойства не оказывают решающего влияния на производительность и не являются единственными математическими свойствами, которые могут быть полезны. Например, строго положительный диапазон softplus делает его пригодным для прогнозирования отклонений в вариационных автоэнкодерах .

Математические детали

Наиболее распространенные функции активации можно разделить на три категории: функции гребня , радиальные функции и функции складки .

Функция активации является насыщающей , если . Оно ненасыщающее , если оно не насыщает. Ненасыщающие функции активации, такие как ReLU , могут быть лучше, чем насыщающие функции активации, поскольку они с меньшей вероятностью страдают от проблемы исчезающего градиента . [8]

Функции активации гребня

Ридж-функции — это многомерные функции, действующие на линейную комбинацию входных переменных. Часто используемые примеры включают в себя: [ нужны разъяснения ]

В биологических нейронных сетях функция активации обычно представляет собой абстракцию, представляющую скорость срабатывания потенциала действия в клетке. [9] В своей простейшей форме эта функция является бинарной , то есть либо нейрон срабатывает, либо нет. Нейроны также не могут срабатывать быстрее определенной частоты, что мотивирует функции активации сигмовидной мышцы , диапазон которых составляет конечный интервал.

Функция имеет вид , где – ступенчатая функция Хевисайда .

С другой стороны, если линия имеет положительный наклон , это может отражать увеличение скорости срабатывания, которое происходит по мере увеличения входного тока. Такая функция будет иметь вид .

Функции активации линейной единицы выпрямленной единицы и гауссовой ошибки

Функции радиальной активации

В RBF-сетях используется специальный класс функций активации, известный как радиальные базисные функции (RBF) , которые чрезвычайно эффективны в качестве универсальных аппроксиматоров функций. Эти функции активации могут принимать разные формы, но обычно они представляют собой одну из следующих функций:

где – вектор, представляющий центр функции , и – параметры, влияющие на разброс радиуса.

Функции активации складывания

Функции активации свертывания широко используются в слоях объединения в сверточных нейронных сетях и в выходных слоях сетей многоклассовой классификации. Эти активации выполняют агрегирование входных данных, например, определение среднего , минимального или максимального значения . В мультиклассовой классификации часто используется активация softmax .

Таблица функций активации

В следующей таблице сравниваются свойства нескольких функций активации, которые являются функциями одной складки x предыдущего слоя или слоев:

В следующей таблице перечислены функции активации, которые не являются функциями одного сгиба x из предыдущего слоя или слоев:

^ Здесь— дельта Кронекера .
^ Например,можно перебирать количество ядер предыдущего слоя нейронной сети, одновременноперебирая количество ядер текущего слоя.

Квантовые функции активации

В квантовых нейронных сетях , запрограммированных на квантовых компьютерах с вентильной моделью , основанных на квантовых перцептронах вместо вариационных квантовых схем, нелинейность функции активации может быть реализована без необходимости измерения выходного сигнала каждого перцептрона на каждом уровне. Квантовые свойства, загруженные в схему, такие как суперпозиция, могут быть сохранены путем создания ряда Тейлора аргумента, вычисленного самим персептроном, с подходящими квантовыми схемами, вычисляющими степени до желаемой степени аппроксимации. Благодаря гибкости таких квантовых схем их можно спроектировать так, чтобы аппроксимировать любую произвольную классическую функцию активации. [20]

Смотрите также

Рекомендации

  1. ^ Хинкельманн, Кнут. «Нейронные сети, стр. 7» (PDF) . Университет прикладных наук Северо-Западной Швейцарии . Архивировано из оригинала (PDF) 6 октября 2018 г. Проверено 6 октября 2018 г.
  2. ^ abc Хендрикс, Дэн; Гимпел, Кевин (2016). «Линейные единицы гауссовой ошибки (GELU)». arXiv : 1606.08415 [cs.LG].
  3. ^ Хинтон, Джеффри; Дэн, Ли; Дэн, Ли; Ю, Донг; Даль, Джордж; Мохамед, Абдель-Рахман; Джейтли, Навдип; Старший, Эндрю; Ванхук, Винсент; Нгуен, Патрик; Сайнат, Тара ; Кингсбери, Брайан (2012). «Глубокие нейронные сети для акустического моделирования в распознавании речи». Журнал обработки сигналов IEEE . 29 (6): 82–97. дои : 10.1109/MSP.2012.2205597. S2CID  206485943.
  4. ^ Крижевский, Алекс; Суцкевер, Илья; Хинтон, Джеффри Э. (24 мая 2017 г.). «Классификация ImageNet с глубокими сверточными нейронными сетями». Коммуникации АКМ . 60 (6): 84–90. дои : 10.1145/3065386. ISSN  0001-0782.
  5. ^ Университет короля Абдель Азиза; Аль-Джохания, Нора; Эльрефаи, Ламияа; Университет Бенха (30 июня 2019 г.). «Распознавание дорсальной вен руки с помощью сверточных нейронных сетей: подходы к обучению функциям и переносу обучения» (PDF) . Международный журнал интеллектуальной инженерии и систем . 12 (3): 178–191. дои : 10.22266/ijies2019.0630.19.
  6. ^ Цыбенко, Г. (декабрь 1989 г.). «Приближение суперпозицией сигмоидальной функции» (PDF) . Математика управления, сигналов и систем . 2 (4): 303–314. дои : 10.1007/BF02551274. ISSN  0932-4194. S2CID  3958369.
  7. Снайман, январь (3 марта 2005 г.). Практическая математическая оптимизация: введение в базовую теорию оптимизации, а также классические и новые градиентные алгоритмы. Springer Science & Business Media. ISBN 978-0-387-24348-1.
  8. ^ Крижевский, Алекс; Суцкевер, Илья; Хинтон, Джеффри Э. (24 мая 2017 г.). «Классификация ImageNet с глубокими сверточными нейронными сетями». Коммуникации АКМ . 60 (6): 84–90. дои : 10.1145/3065386 . ISSN  0001-0782. S2CID  195908774.
  9. ^ Ходжкин, Алабама; Хаксли, А. Ф. (28 августа 1952 г.). «Количественное описание мембранного тока и его применение к проводимости и возбуждению нерва». Журнал физиологии . 117 (4): 500–544. doi : 10.1113/jphysical.1952.sp004764. ПМК 1392413 . ПМИД  12991237. 
  10. ^ Наир, Винод; Хинтон, Джеффри Э. (2010), «Выпрямленные линейные единицы улучшают ограниченные машины Больцмана», 27-я Международная конференция по машинному обучению , ICML'10, США: Omnipress, стр. 807–814, ISBN 9781605589077
  11. ^ Глорот, Ксавье; Борд, Антуан; Бенджио, Йошуа (2011). «Глубокие разреженные нейронные сети выпрямителя» (PDF) . Международная конференция по искусственному интеллекту и статистике .
  12. ^ Клеверт, Джорк-Арне; Унтертинер, Томас; Хохрайтер, Зепп (23 ноября 2015 г.). «Быстрое и точное глубокое сетевое обучение с помощью экспоненциальных линейных единиц (ELU)». arXiv : 1511.07289 [cs.LG].
  13. ^ Кламбауэр, Гюнтер; Унтертинер, Томас; Майр, Андреас; Хохрайтер, Зепп (08.06.2017). «Самонормализующиеся нейронные сети». Достижения в области нейронных систем обработки информации . 30 (2017). arXiv : 1706.02515 .
  14. ^ Маас, Эндрю Л.; Ханнун, Ауни Ю.; Нг, Эндрю Ю. (июнь 2013 г.). «Нелинейность выпрямителя улучшает акустические модели нейронных сетей». Учеб. ИКМЛ . 30 (1). S2CID  16489696.
  15. ^ Он, Кайминг; Чжан, Сянъюй; Рен, Шаоцин; Сунь, Цзянь (06 февраля 2015 г.). «Углубление выпрямителей: превосходство производительности человеческого уровня в классификации ImageNet». arXiv : 1502.01852 [cs.CV].
  16. ^ Атто, Абдуррахман М.; Пастор Доминик; Мерсье, Грегуар (2008), «Плавное сжатие сигмовидного вейвлета для непараметрической оценки» (PDF) , Международная конференция IEEE по акустике, речи и обработке сигналов , 2008 г., стр. 3265–3268, doi : 10.1109/ICASSP.2008.4518347, ISBN 978-1-4244-1483-3, S2CID  9959057
  17. ^ Эльфвинг, Стефан; Учибе, Эйдзи; Дойя, Кенджи (2018). «Сигмовидные линейные единицы для аппроксимации функций нейронной сети при обучении с подкреплением». Нейронные сети . 107 : 3–11. arXiv : 1702.03118 . doi :10.1016/j.neunet.2017.12.012. PMID  29395652. S2CID  6940861.
  18. ^ Рамачандран, Праджит; Зоф, Баррет; Ле, Куок V (2017). «Поиск функций активации». arXiv : 1710.05941 [cs.NE].
  19. ^ Гудфеллоу, Ян Дж.; Вард-Фарли, Дэвид; Мирза, Мехди; Курвиль, Аарон; Бенджио, Йошуа (2013). «Максаут Нетворкс». Материалы семинара и конференции JMLR . 28 (3): 1319–1327. arXiv : 1302.4389 .
  20. ^ Маронезе, Марко; Дестри, Клаудио; Прати, Энрико (2022). «Квантовые функции активации для квантовых нейронных сетей». Квантовая обработка информации . 21 (4): 128. arXiv : 2201.03700 . Бибкод : 2022QuIP...21..128M. дои : 10.1007/s11128-022-03466-0. ISSN  1570-0755.