В машинном обучении Highway Network была первой работающей очень глубокой нейронной сетью прямого распространения с сотнями слоев, намного глубже, чем предыдущие нейронные сети . [1] [2] [3] Она использует пропускные соединения, модулированные изученными механизмами стробирования , для регулирования потока информации, вдохновленными рекуррентными нейронными сетями с долгой краткосрочной памятью (LSTM) . [4] [5] Преимущество Highway Network перед другими архитектурами глубокого обучения заключается в ее способности преодолевать или частично предотвращать проблему исчезающего градиента , [6] тем самым улучшая ее оптимизацию. Механизмы стробирования используются для облегчения потока информации через множество слоев («информационные магистрали»). [1] [2]
Сети автомагистралей нашли применение в задачах маркировки текстовых последовательностей и распознавания речи . [7] [8]
В 2014 году последним словом техники было обучение глубоких нейронных сетей с 20–30 слоями. [9] Наложение слишком большого количества слоев приводило к резкому снижению точности обучения , [10] известному как проблема «деградации». [11] В 2015 году были разработаны две методики обучения таких сетей: Highway Network (опубликована в мае) и остаточная нейронная сеть , или ResNet [12] (декабрь). ResNet ведет себя как открытая Highway Net.
Модель имеет два вентиля в дополнение к вентилю: трансформирующий вентиль и вентиль переноса . Последние два вентиля являются нелинейными передаточными функциями (в частности, сигмоидными по соглашению). Функция может быть любой желаемой передаточной функцией.
Ворота переноса определяются как:
в то время как преобразующий вентиль — это просто вентиль с сигмоидальной передаточной функцией.
Структура скрытого слоя в сети автомагистралей следует уравнению:
Зепп Хохрайтер проанализировал проблему исчезающего градиента в 1991 году и объяснил ее причиной того, что глубокое обучение не работало хорошо. [6] Чтобы преодолеть эту проблему, рекуррентные нейронные сети с долговременной краткосрочной памятью (LSTM) [4] имеют остаточные связи с весом 1,0 в каждой ячейке LSTM (называемые постоянной каруселью ошибок) для вычисления . Во время обратного распространения во времени это становится остаточной формулой для нейронных сетей прямого распространения. Это позволяет обучать очень глубокие рекуррентные нейронные сети с очень большим временным интервалом t. Более поздняя версия LSTM, опубликованная в 2000 году [5], модулирует тождественные связи LSTM с помощью так называемых «ворот забывания», так что их веса не фиксируются на 1,0, но могут быть обучены. В экспериментах ворота забывания инициализировались с положительными весами смещения, [5] таким образом открываясь, решая проблему исчезающего градиента. Пока шлюзы забывания LSTM 2000 открыты, он ведет себя так же, как LSTM 1997 года.
Highway Network мая 2015 года [1] применяет эти принципы к нейронным сетям прямого распространения . Сообщалось, что это «первая очень глубокая сеть прямого распространения с сотнями слоев». [13] Это похоже на LSTM 2000 с вентилями забывания, развернутыми во времени , [5] в то время как более поздние Residual Nets не имеют эквивалента вентилей забывания и похожи на развернутый оригинальный LSTM 1997 года. [4] Если пропуски соединений в Highway Networks «без вентилей» или если их вентили остаются открытыми (активация 1.0), они становятся Residual Networks.
Остаточная связь является частным случаем «сокращенной связи» или «пропущенной связи» Розенблатта (1961) [14] и Ланга и Витброка (1988) [15] , которая имеет вид.Здесь случайно инициализированная матрица весов A не обязательно должна быть тождественным отображением. Каждое остаточное соединение является пропускным соединением, но почти все пропускные соединения не являются остаточными соединениями.
Оригинальная статья Highway Network [16] не только представила базовый принцип для очень глубоких сетей прямого распространения, но также включила экспериментальные результаты с сетями из 20, 50 и 100 слоев и упомянула текущие эксперименты с сетями до 900 слоев. Сети с 50 или 100 слоями имели меньшую ошибку обучения, чем их простые сетевые аналоги, но не меньшую ошибку обучения, чем их 20-слойный аналог (на наборе данных MNIST, рисунок 1 в [16] ). Не было зарегистрировано никакого улучшения точности тестирования для сетей глубже 19 слоев (на наборе данных CIFAR-10; таблица 1 в [16] ). Однако статья ResNet [17] предоставила убедительные экспериментальные доказательства преимуществ перехода глубже 20 слоев. В ней утверждалось, что отображение идентичности без модуляции имеет решающее значение, и упоминалось, что модуляция в скачке связи все еще может приводить к исчезновению сигналов при прямом и обратном распространении (раздел 3 в [17] ). Вот почему затворы забывания LSTM 2000 [18] изначально открывались через положительные веса смещения: пока затворы открыты, он ведет себя как LSTM 1997 года. Аналогично, Highway Net, затворы которого открываются через строго положительные веса смещения, ведет себя как ResNet. Связи пропуска, используемые в современных нейронных сетях (например, Transformers ), в основном являются отображениями идентичности.