Рекуррентная нейронная сеть

Рекуррентная нейронная сеть ( RNN ) — это один из двух широких типов искусственных нейронных сетей , характеризующийся направлением потока информации между ее слоями. В отличие от однонаправленной нейронной сети прямого распространения , это двунаправленная искусственная нейронная сеть, что означает, что она позволяет выходным данным некоторых узлов влиять на последующий ввод в те же узлы. Их способность использовать внутреннее состояние (память) для обработки произвольных последовательностей входных данных ^[1]^[2]^[3] делает их применимыми для таких задач, как несегментированное, связанное распознавание рукописного текста ^[4] или распознавание речи . ^[5]^[6] Термин «рекуррентная нейронная сеть» используется для обозначения класса сетей с бесконечной импульсной характеристикой , тогда как « сверточная нейронная сеть » относится к классу конечной импульсной характеристики. Оба класса сетей демонстрируют временное динамическое поведение . ^[7] Конечная импульсная рекуррентная сеть представляет собой направленный ациклический граф , который можно развернуть и заменить нейронной сетью строго прямого распространения, тогда как бесконечная импульсная рекуррентная сеть представляет собой ориентированный циклический граф , который не может быть развернут.

Дополнительные сохраненные состояния и хранилище под непосредственным управлением сети могут быть добавлены как в бесконечно-импульсные , так и в конечно-импульсные сети. Другая сеть или граф также может заменить хранилище, если оно включает временные задержки или петли обратной связи. Такие контролируемые состояния называются вентильными состояниями или вентилируемой памятью и являются частью сетей долгосрочной краткосрочной памяти (LSTM) и вентилируемых рекуррентных единиц . Это также называется нейронной сетью прямого распространения (FNN). Рекуррентные нейронные сети теоретически полны по Тьюрингу и могут запускать произвольные программы для обработки произвольных последовательностей входных данных. ^[8]

История

Модель Изинга ( 1925 г.), разработанная Вильгельмом Ленцем ^[9] и Эрнстом Изингом ^[10]^[11], была первой архитектурой RNN, которая не обучалась. Шуничи Амари сделал ее адаптивной в 1972 году. ^[12]^[13] Ее также называли сетью Хопфилда (1982). См. также работу Дэвида Румельхарта в 1986 году. ^[14] В 1993 году система сжатия нейронной истории решила задачу «очень глубокого обучения», которая требовала более 1000 последующих слоев в RNN, развернутой во времени. ^[15]

ЛСТМ

Сети с длинной краткосрочной памятью (LSTM) были изобретены Хохрайтером и Шмидхубером в 1997 году и установили рекорды точности во многих областях применения. ^[16]

Примерно в 2007 году LSTM начал производить революцию в распознавании речи , превосходя традиционные модели в некоторых речевых приложениях. ^[17] В 2009 году сеть LSTM, обученная коннекционистской временной классификации (CTC), стала первой RNN, выигравшей конкурсы по распознаванию образов, когда она выиграла несколько соревнований по связанному распознаванию рукописного ввода . ^[18]^[19] В 2014 году китайская компания Baidu использовала обученные CTC RNN, чтобы взломать тест набора данных распознавания речи 2S09 Switchboard Hub5'00 ^[20] без использования каких-либо традиционных методов обработки речи. ^[21]

LSTM также улучшил распознавание речи с большим словарным запасом ^[5]^[6] и синтез речи ^[22] и использовался в Google Android . ^{[18] [}²³^] Сообщается, что в 2015 году производительность системы распознавания речи Google резко выросла на 49% ^{благодаря LSTM,}^{обученному} CTC. ^[24]

LSTM побил рекорды по улучшению машинного перевода , ^[25] языкового моделирования ^[26] и многоязычной языковой обработки. ^[27] LSTM в сочетании со сверточными нейронными сетями (CNN) улучшили автоматическое создание титров к изображениям . ^[28]

Архитектуры

RNN существуют во многих вариантах.

Полностью рецидивирующий

Полностью рекуррентные нейронные сети (FRNN) соединяют выходы всех нейронов со входами всех нейронов. Это наиболее общая топология нейронной сети, поскольку все остальные топологии можно представить, установив для некоторых весов соединений нулевое значение, чтобы имитировать отсутствие связей между этими нейронами. Иллюстрация справа может ввести многих в заблуждение, поскольку практические топологии нейронных сетей часто организованы в «слои», и на рисунке именно такой вид. Однако то, что кажется слоями , на самом деле является разными шагами во времени одной и той же полностью рекуррентной нейронной сети. Самый левый элемент на иллюстрации показывает повторяющиеся соединения в виде дуги с меткой «v». Он «разворачивается» во времени, создавая видимость слоев .

Сети Элмана и сети Джордана

Сеть Элмана — это трехслойная сеть (расположенная горизонтально как x , y и z на рисунке) с добавлением набора контекстных единиц ( u на рисунке). Средний (скрытый) уровень связан с этими единицами контекста, имеющими вес, равный единице. ^[29] На каждом временном шаге входные данные передаются вперед и применяется правило обучения . Фиксированные обратные соединения сохраняют копию предыдущих значений скрытых модулей в контекстных модулях (поскольку они распространяются по соединениям до применения правила обучения). Таким образом, сеть может поддерживать своего рода состояние, позволяющее ей выполнять такие задачи, как прогнозирование последовательности, которые выходят за рамки возможностей стандартного многослойного перцептрона .

Сети Джордана аналогичны сетям Элмана. Единицы контекста поступают из выходного слоя, а не из скрытого слоя. Единицы контекста в сети Иордании также называются уровнем состояния. У них есть постоянная связь с самим собой. ^[29]

Сети Элмана и Джордана также известны как «Простые рекуррентные сети» (SRN).

Сеть Элмана ^[30]: ${\begin{aligned}h_{t}&=\sigma _{h}(W_{h}x_{t}+U_{h}h_{t-1}+b_{h})\\y_{t}&=\sigma _{y}(W_{y}h_{t}+b_{y})\end{aligned}}$
Иорданская сеть ^[31]: ${\begin{aligned}h_{t}&=\sigma _{h}(W_{h}x_{t}+U_{h}y_{t-1}+b_{h})\\y_{t}&=\sigma _{y}(W_{y}h_{t}+b_{y})\end{aligned}}$

Переменные и функции

$x_{t}$ : входной вектор
$h_{t}$ : вектор скрытого слоя
$y_{t}$ : выходной вектор
$W$ , и : матрицы параметров и вектор $U$ $b$
$\sigma _{h}$ и : Функции активации $\sigma _{y}$

Хопфилд

Сеть Хопфилда — это RNN, в которой все соединения между уровнями имеют одинаковый размер. Он требует стационарных входных данных и, следовательно, не является общей RNN, поскольку не обрабатывает последовательности шаблонов. Однако это гарантирует, что оно сойдется. Если соединения обучаются с использованием обучения Хебба , то сеть Хопфилда может работать как надежная память с адресацией по содержимому , устойчивая к изменению соединения.

Двунаправленная ассоциативная память

Представленная Бартом Коско ^[32] сеть двунаправленной ассоциативной памяти (BAM) представляет собой вариант сети Хопфилда, которая хранит ассоциативные данные в виде вектора. Двунаправленность возникает в результате передачи информации через матрицу и ее транспонирования . Обычно биполярное кодирование предпочтительнее двоичного кодирования ассоциативных пар. Недавно стохастические модели BAM, использующие степпинг Маркова , были оптимизированы для повышения стабильности сети и соответствия реальным приложениям. ^[33]

Сеть BAM имеет два уровня, каждый из которых может использоваться в качестве входных данных для вызова ассоциации и создания выходных данных на другом уровне. ^[34]

Состояние эха

Сеть состояний эха (ESN) имеет редко связанный случайный скрытый слой. Веса выходных нейронов — единственная часть сети, которая может изменяться (обучаться). ESN хорошо воспроизводят определенные временные ряды . ^[35] Вариант импульсных нейронов известен как машина с жидким состоянием . ^[36]

Самостоятельно РНН (ИндРНН)

Независимая рекуррентная нейронная сеть (IndRNN) ^[37] решает проблемы исчезновения и взрыва градиента в традиционной полностью связной RNN. Каждый нейрон в одном слое получает только свое прошлое состояние в качестве контекстной информации (вместо полной связи со всеми другими нейронами в этом слое), и, таким образом, нейроны независимы от истории друг друга. Обратное распространение градиента можно регулировать, чтобы избежать исчезновения и взрыва градиента, чтобы сохранить долговременную или краткосрочную память. Информация о перекрестных нейронах исследуется на следующих уровнях. IndRNN можно надежно обучить с помощью ненасыщенных нелинейных функций, таких как ReLU. Глубокие сети можно обучать, используя пропущенные соединения.

Рекурсивный

Рекурсивная нейронная сеть ^[38] создается путем рекурсивного применения одного и того же набора весов к дифференцируемой графоподобной структуре путем обхода структуры в топологическом порядке . Такие сети обычно также обучаются с помощью обратного режима автоматического дифференцирования . ^[39]^[40] Они могут обрабатывать распределенные представления структуры, такие как логические термины . Частным случаем рекурсивных нейронных сетей являются RNN, структура которых соответствует линейной цепочке. Рекурсивные нейронные сети применяются для обработки естественного языка . ^[41] Рекурсивная нейронная тензорная сеть использует тензорную функцию композиции для всех узлов дерева. ^[42]

Компрессор нейронной истории

Компрессор нейронной истории представляет собой неконтролируемый набор RNN. ^[43] На уровне ввода он учится прогнозировать следующий ввод на основе предыдущих входных данных. Только непредсказуемые входные данные некоторых RNN в иерархии становятся входными данными для RNN следующего более высокого уровня, который, следовательно, лишь изредка пересчитывает свое внутреннее состояние. Таким образом, каждая RNN более высокого уровня изучает сжатое представление информации в расположенной ниже RNN. Это сделано для того, чтобы входную последовательность можно было точно восстановить по представлению на самом высоком уровне.

Система эффективно минимизирует длину описания или отрицательный логарифм вероятности данных. ^[44] Учитывая большую предсказуемость входящей последовательности данных, RNN самого высокого уровня может использовать контролируемое обучение, чтобы легко классифицировать даже глубокие последовательности с длинными интервалами между важными событиями.

Иерархию RNN можно разделить на две RNN: «сознательный» блокировщик (более высокий уровень) и «подсознательный» автоматизатор (нижний уровень). ^[43] Как только блокировщик научится предсказывать и сжимать входные данные, которые являются непредсказуемыми для автоматизатора, автоматизатор может быть вынужден на следующем этапе обучения предсказывать или имитировать с помощью дополнительных блоков скрытые блоки более медленно меняющегося блокатора. Это позволяет автоматизатору легко запоминать подходящие, редко меняющиеся воспоминания на протяжении длительных интервалов времени. В свою очередь, это помогает автоматизатору сделать многие из некогда непредсказуемых входных данных предсказуемыми, так что блокировщик может сосредоточиться на оставшихся непредсказуемых событиях. ^[43]

Генеративная модель частично преодолела проблему исчезновения градиента ^[45]автоматического дифференцирования или обратного распространения ошибки в нейронных сетях в 1992 году. В 1993 году такая система решила задачу «очень глубокого обучения», которая требовала более 1000 последующих слоев в RNN, развернутой во времени. . ^[15]

РНС второго порядка

RNN второго порядка используют веса более высокого порядка вместо стандартных весов, и состояния могут быть продуктом. Это позволяет напрямую отображать конечный автомат как при обучении, стабильности, так и при представлении. ^[46]^[47] Длинная кратковременная память является примером этого, но не имеет таких формальных отображений или доказательств стабильности. $w{}_{ijk}$ $w{}_{ij}$

Длинная кратковременная память

Долговременная краткосрочная память (LSTM) — это система глубокого обучения , позволяющая избежать проблемы исчезающего градиента . LSTM обычно дополняется повторяющимися воротами, называемыми «воротами забывания». ^[48] LSTM предотвращает исчезновение или взрывной рост ошибок обратного распространения ошибки. ^[45] Вместо этого ошибки могут течь в обратном направлении через неограниченное количество виртуальных слоев, развернутых в пространстве. То есть LSTM может обучать задачам ^[18] , требующим воспоминаний о событиях, произошедших на тысячи или даже миллионы дискретных временных шагов ранее. Топологии, подобные LSTM, могут быть разработаны для конкретных задач. ^[49] LSTM работает даже при длительных задержках между важными событиями и может обрабатывать сигналы, в которых смешаны низкочастотные и высокочастотные компоненты.

Многие приложения используют стеки LSTM RNN ^[50] и обучают их с помощью коннекционистской временной классификации (CTC) ^[51] для нахождения весовой матрицы RNN, которая максимизирует вероятность последовательностей меток в обучающем наборе с учетом соответствующих входных последовательностей. CTC достигает как согласованности, так и признания.

LSTM может научиться распознавать контекстно-зависимые языки в отличие от предыдущих моделей, основанных на скрытых моделях Маркова (HMM) и подобных концепциях. ^[52]

Закрытый рекуррентный блок

GRU (GRU) — это механизм вентилирования в рекуррентных нейронных сетях, представленный в 2014 году. Они используются в полной форме и в нескольких упрощенных вариантах. ^[53]^[54] Было обнаружено, что их эффективность при моделировании полифонической музыки и речевых сигналов аналогична эффективности долговременной кратковременной памяти. ^[55] У них меньше параметров, чем у LSTM, так как у них нет выходного вентиля. ^[56]

Двунаправленный

Двунаправленные RNN используют конечную последовательность для прогнозирования или маркировки каждого элемента последовательности на основе прошлого и будущего контекста элемента. Это делается путем объединения выходных данных двух RNN, один из которых обрабатывает последовательность слева направо, а другой — справа налево. Объединенные выходные данные представляют собой прогнозы целевых сигналов, заданных учителем. Было доказано, что этот метод особенно полезен в сочетании с LSTM RNN. ^[57]^[58]

Непрерывное время

Рекуррентная нейронная сеть непрерывного времени (CTRNN) использует систему обыкновенных дифференциальных уравнений для моделирования воздействия на нейрон входящих входных данных.

Для нейрона в сети с активацией скорость изменения активации определяется выражением: $i$ $y_{i}$

\tau _{i}{\dot {y}}_{i}=-y_{i}+\sum _{j=1}^{n}w_{ji}\sigma (y_{j}-\Theta _{j})+I_{i}(t)

Где:

$\tau _{i}$ : Постоянная времени постсинаптического узла
$y_{i}$ : Активация постсинаптического узла.
${\dot {y}}_{i}$ : Скорость изменения активации постсинаптического узла.
$w{}_{ji}$ : Вес соединения от пре- к постсинаптическому узлу.
$\sigma (x)$ : Сигмоида x например . $\sigma (x)=1/(1+e^{-x})$
$y_{j}$ : Активация пресинаптического узла.
$\Theta _{j}$ : Смещение пресинаптического узла
$I_{i}(t)$ : Ввод (если есть) в узел

CTRNN были применены в эволюционной робототехнике , где они использовались для решения проблем зрения, ^[59] сотрудничества, ^[60] и минимального когнитивного поведения. ^[61]

Обратите внимание, что согласно теореме выборки Шеннона рекуррентные нейронные сети с дискретным временем можно рассматривать как рекуррентные нейронные сети с непрерывным временем, в которых дифференциальные уравнения преобразуются в эквивалентные разностные уравнения . ^[62] Эту трансформацию можно рассматривать как происходящую после того, как функции активации постсинаптического узла были подвергнуты низкочастотной фильтрации, но до выборки. $y_{i}(t)$

Иерархическая рекуррентная нейронная сеть

Иерархические рекуррентные нейронные сети (HRNN) соединяют свои нейроны различными способами, чтобы разложить иерархическое поведение на полезные подпрограммы. ^[43]^[63] Такие иерархические структуры познания присутствуют в теориях памяти, представленных философом Анри Бергсоном , чьи философские взгляды вдохновили на создание иерархических моделей. ^[64]

Иерархические рекуррентные нейронные сети полезны при прогнозировании , помогая предсказать дезагрегированные инфляционные компоненты индекса потребительских цен (ИПЦ). Модель HRNN использует информацию с более высоких уровней иерархии ИПЦ для улучшения прогнозов на более низком уровне. Оценка значительного набора данных по индексу CPI-U в США демонстрирует превосходную эффективность модели HRNN по сравнению с различными признанными методами прогнозирования инфляции . ^[65]

Рекуррентная многослойная сеть перцептрона

Как правило, рекуррентная многоуровневая сеть перцептрона (сеть RMLP) состоит из каскадных подсетей, каждая из которых содержит несколько уровней узлов. Каждая подсеть является прямой, за исключением последнего уровня, который может иметь соединения обратной связи. Каждая из этих подсетей соединена только прямыми соединениями. ^[66]

Модель с несколькими временными масштабами

Рекуррентная нейронная сеть с несколькими временными масштабами (MTRNN) — это вычислительная модель на основе нейронов, которая может моделировать функциональную иерархию мозга посредством самоорганизации в зависимости от пространственной связи между нейронами и от различных типов активности нейронов, каждый из которых имеет разные временные свойства. ^[67]^[68] При таком разнообразии активности нейронов непрерывные последовательности любого набора действий сегментируются на повторно используемые примитивы, которые, в свою очередь, гибко интегрируются в различные последовательные модели поведения. Биологическое одобрение такого типа иерархии обсуждалось в теории прогнозирования функций мозга Хокинсом в его книге «Об интеллекте» . ^{[ нужна цитата ]} Такая иерархия также согласуется с теориями памяти, выдвинутыми философом Анри Бергсоном , которые были включены в модель MTRNN. ^[64]^[69]

Нейронные машины Тьюринга

Нейронные машины Тьюринга (НТМ) — это метод расширения рекуррентных нейронных сетей путем подключения их к внешним ресурсам памяти , с которыми они могут взаимодействовать посредством процессов внимания. Комбинированная система аналогична машине Тьюринга или архитектуре фон Неймана , но является сквозной дифференцируемой, что позволяет эффективно обучать ее с помощью градиентного спуска . ^[70]

Дифференцируемый нейронный компьютер

Дифференцируемые нейронные компьютеры (DNC) являются расширением нейронных машин Тьюринга, позволяющим использовать нечеткие количества каждого адреса памяти и запись хронологии.

Автоматы с выталкивающим устройством нейронной сети

Автоматы с выталкиванием нейронных сетей (NNPDA) похожи на NTM, но ленты заменены аналоговыми стеками, которые являются дифференцируемыми и обучаемыми. В этом смысле они по сложности аналогичны распознавателям контекстно-свободных грамматик (CFG). ^[71]

Мемристивные сети

Грег Снайдер из HP Labs описывает систему корковых вычислений с использованием мемристивных наноустройств. ^[72] Мемристоры (резисторы памяти) изготавливаются из тонкопленочных материалов, сопротивление которых электрически настраивается посредством транспорта ионов или кислородных вакансий внутри пленки. Проект SyNAPSE DARPA профинансировал исследования IBM и лаборатории HP в сотрудничестве с факультетом когнитивных и нейронных систем (CNS) Бостонского университета для разработки нейроморфных архитектур, которые могут быть основаны на мемристивных системах. Мемристивные сети — это особый тип физической нейронной сети , свойства которой очень похожи на сети (Литтла) Хопфилда, поскольку они имеют непрерывную динамику, ограниченный объем памяти и естественную релаксацию за счет минимизации функции, которая асимптотична модели Изинга . В этом смысле динамика мемристивной схемы имеет преимущество по сравнению с сетью резистор-конденсатор, поскольку имеет более интересное нелинейное поведение. С этой точки зрения инженерные аналоговые мемристивные сети представляют собой своеобразный тип нейроморфной инженерии , в котором поведение устройства зависит от схемы подключения или топологии. Эволюцию этих сетей можно изучать аналитически, используя вариации уравнения Каравелли-Траверса- Ди Вентры . ^[73]

Псевдокод

Дан временной ряд xдлиной sequence_length. В рекуррентной нейронной сети существует цикл, который обрабатывает все записи временного ряда xчерез слои neural_networkодин за другим. Они имеют в качестве возвращаемого значения на каждом временном шаге iкак прогноз y_pred[i], так и обновленное скрытое состояние hidden, имеющее длину hidden_size. В результате после цикла y_predвозвращается коллекция всех прогнозов. Следующий псевдокод (на основе языка программирования Python ) иллюстрирует функциональность рекуррентной нейронной сети. ^[74]

def  RNN_forward ( x ,  последовательность_длина ,  нейронная_сеть ,  скрытый_размер ):  скрытые  =  нули ( размер = скрытый_размер )  # инициализируем нулями для каждого независимого временного ряда отдельно  y_pred  =  нули ( размер = последовательность_длина )  для  i  в  диапазоне ( последовательность_длина ):  y_pred [ i ] ,  скрытый  =  нейронная сеть ( x [ i ],  скрытый )  # обновление скрытого состояния  return  y_pred

Современные библиотеки предоставляют реализации вышеупомянутых функций, оптимизированные во время выполнения, или позволяют ускорить медленный цикл за счет своевременной компиляции .

Обучение

Градиентный спуск

Градиентный спуск — это итеративный алгоритм оптимизации первого порядка для поиска минимума функции. В нейронных сетях его можно использовать для минимизации ошибки путем изменения каждого веса пропорционально производной ошибки по этому весу, при условии , что нелинейные функции активации дифференцируемы . Различные методы для этого были разработаны в 1980-х и начале 1990-х годов Вербосом , Уильямсом , Робинсоном , Шмидхубером , Хохрайтером , Перлмуттером и другими.

Стандартный метод называется « обратным распространением ошибки во времени » или BPTT и представляет собой обобщение обратного распространения ошибки для сетей с прямой связью. ^[75]^[76] Как и этот метод, он является примером автоматического дифференцирования в режиме обратного накопления принципа минимума Понтрягина . Более затратный в вычислительном отношении онлайн-вариант называется «рекуррентное обучение в реальном времени» или RTRL, ^[77]^[78] и представляет собой пример автоматического дифференцирования в режиме прямого накопления с использованием сложенных касательных векторов. В отличие от BPTT, этот алгоритм является локальным во времени, но не локальным в пространстве.

В этом контексте локальность в пространстве означает, что весовой вектор единицы может быть обновлен с использованием только информации, хранящейся в подключенных единицах и самой единице, так что сложность обновления одной единицы является линейной по размерности весового вектора. Локальное по времени означает, что обновления происходят постоянно (онлайн) и зависят только от самого последнего временного шага, а не от нескольких временных шагов в пределах заданного временного горизонта, как в BPTT. Биологические нейронные сети кажутся локальными как во времени, так и в пространстве. ^[79]^[80]

Для рекурсивного вычисления частных производных RTRL имеет временную сложность O (количество скрытых x весов) за временной шаг для вычисления матриц Якоби , в то время как BPTT принимает только O (количество весов) за временной шаг, за счет сохранения всех активных активаций в течение заданного временного интервала. ^[81] Существует онлайн-гибрид между BPTT и RTRL промежуточной сложности, ^[82]^[83] наряду с вариантами для непрерывного времени. ^[84]

Основная проблема градиентного спуска для стандартных архитектур RNN заключается в том, что градиенты ошибок исчезают экспоненциально быстро с увеличением временного лага между важными событиями. ^[45]^[85] LSTM в сочетании с гибридным методом обучения BPTT/RTRL пытается преодолеть эти проблемы. ^[16] Эта проблема также решается в независимой рекуррентной нейронной сети (IndRNN) ^[37] путем сведения контекста нейрона к его собственному прошлому состоянию, после чего межнейронная информация может быть исследована на следующих уровнях. Воспоминания разных диапазонов, включая долговременную память, можно изучить без проблемы исчезновения и взрыва градиента.

Онлайн-алгоритм, называемый причинно-рекурсивным обратным распространением ошибки (CRBP), реализует и объединяет парадигмы BPTT и RTRL для локально рекуррентных сетей. ^[86] Он работает с наиболее распространенными локально-рекуррентными сетями. Алгоритм CRBP может минимизировать глобальную ошибку. Этот факт повышает стабильность алгоритма, обеспечивая единое представление о методах расчета градиента для рекуррентных сетей с локальной обратной связью.

Один из подходов к вычислению градиентной информации в RNN с произвольной архитектурой основан на построении диаграмм графов потока сигналов. ^[87] Он использует пакетный алгоритм BPTT, основанный на теореме Ли для расчета чувствительности сети. ^[88] Его предложили Ван и Бофейс, а его быструю онлайн-версию предложили Камполуччи, Унчини и Пьяцца. ^[88]

Методы глобальной оптимизации

Обучение весов в нейронной сети можно смоделировать как задачу нелинейной глобальной оптимизации . Целевую функцию можно сформировать для оценки пригодности или ошибки конкретного вектора весов следующим образом: во-первых, веса в сети устанавливаются в соответствии с вектором весов. Затем сеть оценивается по обучающей последовательности. Обычно разница суммы квадратов между прогнозами и целевыми значениями, указанными в обучающей последовательности, используется для представления ошибки текущего весового вектора. Затем для минимизации этой целевой функции можно использовать произвольные методы глобальной оптимизации.

Наиболее распространенным методом глобальной оптимизации для обучения RNN являются генетические алгоритмы , особенно в неструктурированных сетях. ^[89]^[90]^[91]

Первоначально генетический алгоритм кодируется с помощью весов нейронной сети заранее определенным образом, где один ген в хромосоме представляет одно весовое звено. Вся сеть представлена в виде одной хромосомы. Фитнес-функция оценивается следующим образом:

Каждый вес, закодированный в хромосоме, присваивается соответствующему весовому звену сети.
Обучающий набор предоставляется сети, которая распространяет входные сигналы вперед.
Среднеквадратическая ошибка возвращается в функцию фитнеса.
Эта функция управляет процессом генетического отбора.

Многие хромосомы составляют популяцию; поэтому развивается множество различных нейронных сетей до тех пор, пока не будет выполнен критерий остановки. Распространенная схема остановки:

Когда нейронная сеть изучила определенный процент обучающих данных или
Когда минимальное значение среднеквадратической ошибки удовлетворяется или
Когда достигнуто максимальное количество обучающих поколений.

Функция пригодности оценивает критерий остановки, поскольку во время обучения она получает среднеквадратическую ошибку, обратную от каждой сети. Следовательно, цель генетического алгоритма — максимизировать функцию приспособленности, уменьшив среднеквадратическую ошибку.

Для поиска хорошего набора весов можно использовать другие методы глобальной (и/или эволюционной) оптимизации, такие как моделирование отжига или оптимизация роя частиц .

Связанные поля и модели

RNN могут вести себя хаотично . В таких случаях для анализа можно использовать теорию динамических систем .

На самом деле это рекурсивные нейронные сети с особой структурой: линейной цепочкой. В то время как рекурсивные нейронные сети работают с любой иерархической структурой, объединяя дочерние представления с родительскими представлениями, рекуррентные нейронные сети работают с линейной прогрессией времени, объединяя предыдущий временной шаг и скрытое представление в представление для текущего временного шага.

В частности, RNN могут выглядеть как нелинейные версии фильтров с конечной импульсной характеристикой и бесконечной импульсной характеристикой , а также как нелинейная авторегрессионная экзогенная модель (NARX). ^[92]

Структура рекомендаций по алгоритмам обучения может помочь в выборе алгоритмов обучения и научной дисциплины (например, RNN, GAN, RL, CNN,...). Преимущество этой структуры заключается в том, что она была создана на основе обширного анализа литературы и посвящена рекуррентным нейронным сетям и их вариациям. ^[93]

Эффект обучения на основе памяти для распознавания последовательностей также может быть реализован с помощью более биологической модели, которая использует механизм молчания, проявляющийся в нейронах с относительно высокочастотной импульсной активностью. ^[94]

Библиотеки

Апач Синга
Кафе : создано Центром видения и обучения Беркли (BVLC). Он поддерживает как процессор, так и графический процессор. Разработан на C++ и имеет оболочки Python и MATLAB .
Chainer : Полностью на Python, производственная поддержка процессоров, графических процессоров, распределенное обучение.
Deeplearning4j : глубокое обучение Java и Scala в Spark с поддержкой нескольких графических процессоров .
Flux : включает интерфейсы для RNN, включая GRU и LSTM, написанные на Julia .
Keras : API высокого уровня, предоставляющий оболочку для многих других библиотек глубокого обучения.
Когнитивный инструментарий Microsoft
MXNet : платформа глубокого обучения с открытым исходным кодом, используемая для обучения и развертывания глубоких нейронных сетей.
PyTorch : тензоры и динамические нейронные сети на Python с ускорением на графическом процессоре.
TensorFlow : Theano-подобная библиотека под лицензией Apache 2.0 с поддержкой CPU, GPU и фирменного TPU Google , ^[95] для мобильных устройств.
Theano : библиотека глубокого обучения для Python с API, в значительной степени совместимым с библиотекой NumPy .
Torch : среда научных вычислений с поддержкой алгоритмов машинного обучения, написанная на C и Lua .

Приложения

Приложения рекуррентных нейронных сетей включают:

Машинный перевод ^[25]
Управление роботом ^[96]
Прогнозирование временных рядов ^[97]^[98]^[99]
Распознавание речи ^[100]^[17]^[101]
Синтез речи ^[102]
Интерфейсы мозг–компьютер ^[103]
Обнаружение аномалий временных рядов ^[104]
Модель преобразования текста в видео ^[105]
Обучение ритму ^[106]
Музыкальная композиция ^[107]
Изучение грамматики ^[108]^[52]^[109]
Распознавание рукописного ввода ^[110]^[111]
Распознавание действий человека ^[112]
Обнаружение гомологии белков ^[113]
Прогнозирование субклеточной локализации белков ^[58]
Некоторые задачи прогнозирования в области управления бизнес-процессами ^[114]
Прогнозирование в путях оказания медицинской помощи ^[115]
Прогнозирование разрушения термоядерной плазмы в реакторах (код Fusion Recurrent Neural Network (FRNN)) ^[116]

дальнейшее чтение

Мандич, Данило П.; Чемберс, Джонатон А. (2001). Рекуррентные нейронные сети для прогнозирования: алгоритмы обучения, архитектура и стабильность . Уайли. ISBN 978-0-471-49517-8.

Внешние ссылки

Рекуррентные нейронные сети с более чем 60 статьями RNN группы Юргена Шмидхубера в Институте исследований искусственного интеллекта Далле Молле.
Реализация нейронной сети Элмана для WEKA