stringtranslate.com

Сеть автомагистралей

В машинном обучении Highway Network была первой работающей очень глубокой нейронной сетью прямого распространения с сотнями слоев, намного глубже, чем предыдущие нейронные сети . [1] [2] [3] Она использует пропускные соединения, модулированные изученными механизмами стробирования , для регулирования потока информации, вдохновленными рекуррентными нейронными сетями с долгой краткосрочной памятью (LSTM) . [4] [5] Преимущество Highway Network перед другими архитектурами глубокого обучения заключается в ее способности преодолевать или частично предотвращать проблему исчезающего градиента , [6] тем самым улучшая ее оптимизацию. Механизмы стробирования используются для облегчения потока информации через множество слоев («информационные магистрали»). [1] [2]

Сети автомагистралей нашли применение в задачах маркировки текстовых последовательностей и распознавания речи . [7] [8]

В 2014 году последним словом техники было обучение глубоких нейронных сетей с 20–30 слоями. [9] Наложение слишком большого количества слоев приводило к резкому снижению точности обучения , [10] известному как проблема «деградации». [11] В 2015 году были разработаны две методики обучения таких сетей: Highway Network (опубликована в мае) и остаточная нейронная сеть , или ResNet [12] (декабрь). ResNet ведет себя как открытая Highway Net.

Модель

Модель имеет два вентиля в дополнение к вентилю: трансформирующий вентиль и вентиль переноса . Последние два вентиля являются нелинейными передаточными функциями (в частности, сигмоидными по соглашению). Функция может быть любой желаемой передаточной функцией.

Ворота переноса определяются как:

в то время как преобразующий вентиль — это просто вентиль с сигмоидальной передаточной функцией.

Структура

Структура скрытого слоя в сети автомагистралей следует уравнению:

Связанная работа

Зепп Хохрайтер проанализировал проблему исчезающего градиента в 1991 году и объяснил ее причиной того, что глубокое обучение не работало хорошо. [6] Чтобы преодолеть эту проблему, рекуррентные нейронные сети с долговременной краткосрочной памятью (LSTM) [4] имеют остаточные связи с весом 1,0 в каждой ячейке LSTM (называемые постоянной каруселью ошибок) для вычисления . Во время обратного распространения во времени это становится остаточной формулой для нейронных сетей прямого распространения. Это позволяет обучать очень глубокие рекуррентные нейронные сети с очень большим временным интервалом t. Более поздняя версия LSTM, опубликованная в 2000 году [5], модулирует тождественные связи LSTM с помощью так называемых «ворот забывания», так что их веса не фиксируются на 1,0, но могут быть обучены. В экспериментах ворота забывания инициализировались с положительными весами смещения, [5] таким образом открываясь, решая проблему исчезающего градиента. Пока шлюзы забывания LSTM 2000 открыты, он ведет себя так же, как LSTM 1997 года.

Highway Network мая 2015 года [1] применяет эти принципы к нейронным сетям прямого распространения . Сообщалось, что это «первая очень глубокая сеть прямого распространения с сотнями слоев». [13] Это похоже на LSTM 2000 с вентилями забывания, развернутыми во времени , [5] в то время как более поздние Residual Nets не имеют эквивалента вентилей забывания и похожи на развернутый оригинальный LSTM 1997 года. [4] Если пропуски соединений в Highway Networks «без вентилей» или если их вентили остаются открытыми (активация 1.0), они становятся Residual Networks.

Остаточная связь является частным случаем «сокращенной связи» или «пропущенной связи» Розенблатта (1961) [14] и Ланга и Витброка (1988) [15] , которая имеет вид.Здесь случайно инициализированная матрица весов A не обязательно должна быть тождественным отображением. Каждое остаточное соединение является пропускным соединением, но почти все пропускные соединения не являются остаточными соединениями.

Оригинальная статья Highway Network [16] не только представила базовый принцип для очень глубоких сетей прямого распространения, но также включила экспериментальные результаты с сетями из 20, 50 и 100 слоев и упомянула текущие эксперименты с сетями до 900 слоев. Сети с 50 или 100 слоями имели меньшую ошибку обучения, чем их простые сетевые аналоги, но не меньшую ошибку обучения, чем их 20-слойный аналог (на наборе данных MNIST, рисунок 1 в [16] ). Не было зарегистрировано никакого улучшения точности тестирования для сетей глубже 19 слоев (на наборе данных CIFAR-10; таблица 1 в [16] ). Однако статья ResNet [17] предоставила убедительные экспериментальные доказательства преимуществ перехода глубже 20 слоев. В ней утверждалось, что отображение идентичности без модуляции имеет решающее значение, и упоминалось, что модуляция в скачке связи все еще может приводить к исчезновению сигналов при прямом и обратном распространении (раздел 3 в [17] ). Вот почему затворы забывания LSTM 2000 [18] изначально открывались через положительные веса смещения: пока затворы открыты, он ведет себя как LSTM 1997 года. Аналогично, Highway Net, затворы которого открываются через строго положительные веса смещения, ведет себя как ResNet. Связи пропуска, используемые в современных нейронных сетях (например, Transformers ), в основном являются отображениями идентичности.

Ссылки

  1. ^ abc Шривастава, Рупеш Кумар; Грефф, Клаус; Шмидхубер, Юрген (2 мая 2015 г.). «Дорожные сети». arXiv : 1505.00387 [cs.LG].
  2. ^ ab Шривастава, Рупеш К; Грефф, Клаус; Шмидхубер, Юрген (2015). «Обучение очень глубоких сетей». Достижения в области нейронных систем обработки информации . 28. Curran Associates, Inc.: 2377–2385.
  3. ^ Шмидхубер, Юрген (2021). «Все наиболее цитируемые нейронные сети основаны на работе, проделанной в моих лабораториях». Блог AI . IDSIA, Швейцария . Получено 30.04.2022 .
  4. ^ abc Зепп Хохрейтер ; Юрген Шмидхубер (1997). «Длинная кратковременная память». Нейронные вычисления . 9 (8): 1735–1780. дои : 10.1162/neco.1997.9.8.1735. PMID  9377276. S2CID  1915014.
  5. ^ abcd Феликс А. Герс; Юрген Шмидхубер; Фред Камминс (2000). «Учимся забывать: непрерывное прогнозирование с LSTM». Neural Computation . 12 (10): 2451–2471. CiteSeerX 10.1.1.55.5709 . doi :10.1162/089976600300015015. PMID  11032042. S2CID  11598600. 
  6. ^ аб Хохрайтер, Зепп (1991). Untersuruchungen zu dynamischen Neuronalen Netzen (PDF) (дипломная работа). Технический университет Мюнхена, Институт компьютерных наук, руководитель: Й. Шмидхубер.
  7. ^ Лю, Лиюань; Шан, Цзинбо; Сюй, Фрэнк Ф.; Рен, Сян; Гуй, Хуан; Пэн, Цзянь; Хан, Цзявэй (12 сентября 2017 г.). «Расширение возможностей маркировки последовательностей с помощью модели нейронного языка с учетом задач». arXiv : 1709.04109 [cs.CL].
  8. ^ Курата, Гакуто; Рамабхадран, Бхувана ; Саон, Джордж; Сети, Абхинав (19 сентября 2017 г.). «Языковое моделирование с помощью Highway LSTM». arXiv : 1709.06436 [cs.CL].
  9. ^ Симонян, Карен; Зиссерман, Эндрю (2015-04-10), Очень глубокие сверточные сети для крупномасштабного распознавания изображений , arXiv : 1409.1556
  10. ^ Хэ, Каймин; Чжан, Сянъюй; Жэнь, Шаоцин; Сан, Цзянь (2016). «Глубокое изучение выпрямителей: превосходство человеческого уровня в классификации ImageNet». arXiv : 1502.01852 [cs.CV].
  11. ^ Он, Кайминг; Чжан, Сянъюй; Рен, Шаоцин; Сунь, Цзянь (10 декабря 2015 г.). Глубокое остаточное обучение для распознавания изображений . arXiv : 1512.03385 .
  12. ^ He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (2016). Глубокое остаточное обучение для распознавания изображений. Конференция IEEE 2016 года по компьютерному зрению и распознаванию образов (CVPR) . Лас-Вегас, Невада, США: IEEE. стр. 770–778. arXiv : 1512.03385 . doi : 10.1109/CVPR.2016.90. ISBN 978-1-4673-8851-1.
  13. ^ Шмидхубер, Юрген (2015). «Сети автомагистралей (май 2015 г.): первые работающие действительно глубокие нейронные сети прямого распространения с более чем 100 слоями».
  14. ^ Розенблатт, Франк (1961). Принципы нейродинамики. Персептроны и теория мозговых механизмов (PDF) .
  15. ^ Лэнг, Кевин; Витброк, Майкл (1988). «Учимся различать две спирали» (PDF) . Труды летней школы коннекционистских моделей 1988 года : 52–59.
  16. ^ abc Шривастава, Рупеш Кумар; Грефф, Клаус; Шмидхубер, Юрген (3 мая 2015 г.). «Дорожные сети». arXiv : 1505.00387 [cs.LG].
  17. ^ аб Хе, Кайминг; Чжан, Сянъюй; Рен, Шаоцин; Сунь, Цзянь (2015). «Отображения идентичности в глубоких остаточных сетях». arXiv : 1603.05027 [cs.CV].
  18. ^ Феликс А. Герс; Юрген Шмидхубер; Фред Камминс (2000). «Учимся забывать: непрерывное прогнозирование с LSTM». Neural Computation . 12 (10): 2451–2471. CiteSeerX 10.1.1.55.5709 . doi :10.1162/089976600300015015. PMID  11032042. S2CID  11598600.