stringtranslate.com

Рекуррентная нейронная сеть

Рекуррентная нейронная сеть ( RNN ) — это один из двух широких типов искусственных нейронных сетей , характеризующийся направлением потока информации между ее слоями. В отличие от однонаправленной нейронной сети прямого распространения , это двунаправленная искусственная нейронная сеть, что означает, что она позволяет выходным данным некоторых узлов влиять на последующий ввод в те же узлы. Их способность использовать внутреннее состояние (память) для обработки произвольных последовательностей входных данных [1] [2] [3] делает их применимыми для таких задач, как несегментированное, связанное распознавание рукописного текста [4] или распознавание речи . [5] [6] Термин «рекуррентная нейронная сеть» используется для обозначения класса сетей с бесконечной импульсной характеристикой , тогда как « сверточная нейронная сеть » относится к классу конечной импульсной характеристики. Оба класса сетей демонстрируют временное динамическое поведение . [7] Конечная импульсная рекуррентная сеть представляет собой направленный ациклический граф , который можно развернуть и заменить нейронной сетью строго прямого распространения, тогда как бесконечная импульсная рекуррентная сеть представляет собой ориентированный циклический граф , который не может быть развернут.

Дополнительные сохраненные состояния и хранилище под непосредственным управлением сети могут быть добавлены как в бесконечно-импульсные , так и в конечно-импульсные сети. Другая сеть или граф также может заменить хранилище, если оно включает временные задержки или петли обратной связи. Такие контролируемые состояния называются вентильными состояниями или вентилируемой памятью и являются частью сетей долгосрочной краткосрочной памяти (LSTM) и вентилируемых рекуррентных единиц . Это также называется нейронной сетью прямого распространения (FNN). Рекуррентные нейронные сети теоретически полны по Тьюрингу и могут запускать произвольные программы для обработки произвольных последовательностей входных данных. [8]

История

Модель Изинга ( 1925 г.), разработанная Вильгельмом Ленцем [9] и Эрнстом Изингом [10] [11], была первой архитектурой RNN, которая не обучалась. Шуничи Амари сделал ее адаптивной в 1972 году. [12] [13] Ее также называли сетью Хопфилда (1982). См. также работу Дэвида Румельхарта в 1986 году. [14] В 1993 году система сжатия нейронной истории решила задачу «очень глубокого обучения», которая требовала более 1000 последующих слоев в RNN, развернутой во времени. [15]

ЛСТМ

Сети с длинной краткосрочной памятью (LSTM) были изобретены Хохрайтером и Шмидхубером в 1997 году и установили рекорды точности во многих областях применения. [16]

Примерно в 2007 году LSTM начал производить революцию в распознавании речи , превосходя традиционные модели в некоторых речевых приложениях. [17] В 2009 году сеть LSTM, обученная коннекционистской временной классификации (CTC), стала первой RNN, выигравшей конкурсы по распознаванию образов, когда она выиграла несколько соревнований по связанному распознаванию рукописного ввода . [18] [19] В 2014 году китайская компания Baidu использовала обученные CTC RNN, чтобы взломать тест набора данных распознавания речи 2S09 Switchboard Hub5'00 [20] без использования каких-либо традиционных методов обработки речи. [21]

LSTM также улучшил распознавание речи с большим словарным запасом [5] [6] и синтез речи [22] и использовался в Google Android . [18] [ 23 ] Сообщается, что в 2015 году производительность системы распознавания речи Google резко выросла на 49% благодаря LSTM, обученному CTC. [24]

LSTM побил рекорды по улучшению машинного перевода , [25] языкового моделирования [26] и многоязычной языковой обработки. [27] LSTM в сочетании со сверточными нейронными сетями (CNN) улучшили автоматическое создание титров к изображениям . [28]

Архитектуры

RNN существуют во многих вариантах.

Полностью рецидивирующий

Сжатая (слева) и развернутая (справа) базовая рекуррентная нейронная сеть

Полностью рекуррентные нейронные сети (FRNN) соединяют выходы всех нейронов со входами всех нейронов. Это наиболее общая топология нейронной сети, поскольку все остальные топологии можно представить, установив для некоторых весов соединений нулевое значение, чтобы имитировать отсутствие связей между этими нейронами. Иллюстрация справа может ввести многих в заблуждение, поскольку практические топологии нейронных сетей часто организованы в «слои», и на рисунке именно такой вид. Однако то, что кажется слоями , на самом деле является разными шагами во времени одной и той же полностью рекуррентной нейронной сети. Самый левый элемент на иллюстрации показывает повторяющиеся соединения в виде дуги с меткой «v». Он «разворачивается» во времени, создавая видимость слоев .

Сети Элмана и сети Джордана

Сеть Элман

Сеть Элмана — это трехслойная сеть (расположенная горизонтально как x , y и z на рисунке) с добавлением набора контекстных единиц ( u на рисунке). Средний (скрытый) уровень связан с этими единицами контекста, имеющими вес, равный единице. [29] На каждом временном шаге входные данные передаются вперед и применяется правило обучения . Фиксированные обратные соединения сохраняют копию предыдущих значений скрытых модулей в контекстных модулях (поскольку они распространяются по соединениям до применения правила обучения). Таким образом, сеть может поддерживать своего рода состояние, позволяющее ей выполнять такие задачи, как прогнозирование последовательности, которые выходят за рамки возможностей стандартного многослойного перцептрона .

Сети Джордана аналогичны сетям Элмана. Единицы контекста поступают из выходного слоя, а не из скрытого слоя. Единицы контекста в сети Иордании также называются уровнем состояния. У них есть постоянная связь с самим собой. [29]

Сети Элмана и Джордана также известны как «Простые рекуррентные сети» (SRN).

Сеть Элмана [30]
Иорданская сеть [31]

Переменные и функции

Хопфилд

Сеть Хопфилда — это RNN, в которой все соединения между уровнями имеют одинаковый размер. Он требует стационарных входных данных и, следовательно, не является общей RNN, поскольку не обрабатывает последовательности шаблонов. Однако это гарантирует, что оно сойдется. Если соединения обучаются с использованием обучения Хебба , то сеть Хопфилда может работать как надежная память с адресацией по содержимому , устойчивая к изменению соединения.

Двунаправленная ассоциативная память

Представленная Бартом Коско [32] сеть двунаправленной ассоциативной памяти (BAM) представляет собой вариант сети Хопфилда, которая хранит ассоциативные данные в виде вектора. Двунаправленность возникает в результате передачи информации через матрицу и ее транспонирования . Обычно биполярное кодирование предпочтительнее двоичного кодирования ассоциативных пар. Недавно стохастические модели BAM, использующие степпинг Маркова , были оптимизированы для повышения стабильности сети и соответствия реальным приложениям. [33]

Сеть BAM имеет два уровня, каждый из которых может использоваться в качестве входных данных для вызова ассоциации и создания выходных данных на другом уровне. [34]

Состояние эха

Сеть состояний эха (ESN) имеет редко связанный случайный скрытый слой. Веса выходных нейронов — единственная часть сети, которая может изменяться (обучаться). ESN хорошо воспроизводят определенные временные ряды . [35] Вариант импульсных нейронов известен как машина с жидким состоянием . [36]

Самостоятельно РНН (ИндРНН)

Независимая рекуррентная нейронная сеть (IndRNN) [37] решает проблемы исчезновения и взрыва градиента в традиционной полностью связной RNN. Каждый нейрон в одном слое получает только свое прошлое состояние в качестве контекстной информации (вместо полной связи со всеми другими нейронами в этом слое), и, таким образом, нейроны независимы от истории друг друга. Обратное распространение градиента можно регулировать, чтобы избежать исчезновения и взрыва градиента, чтобы сохранить долговременную или краткосрочную память. Информация о перекрестных нейронах исследуется на следующих уровнях. IndRNN можно надежно обучить с помощью ненасыщенных нелинейных функций, таких как ReLU. Глубокие сети можно обучать, используя пропущенные соединения.

Рекурсивный

Рекурсивная нейронная сеть [38] создается путем рекурсивного применения одного и того же набора весов к дифференцируемой графоподобной структуре путем обхода структуры в топологическом порядке . Такие сети обычно также обучаются с помощью обратного режима автоматического дифференцирования . [39] [40] Они могут обрабатывать распределенные представления структуры, такие как логические термины . Частным случаем рекурсивных нейронных сетей являются RNN, структура которых соответствует линейной цепочке. Рекурсивные нейронные сети применяются для обработки естественного языка . [41] Рекурсивная нейронная тензорная сеть использует тензорную функцию композиции для всех узлов дерева. [42]

Компрессор нейронной истории

Компрессор нейронной истории представляет собой неконтролируемый набор RNN. [43] На уровне ввода он учится прогнозировать следующий ввод на основе предыдущих входных данных. Только непредсказуемые входные данные некоторых RNN в иерархии становятся входными данными для RNN следующего более высокого уровня, который, следовательно, лишь изредка пересчитывает свое внутреннее состояние. Таким образом, каждая RNN более высокого уровня изучает сжатое представление информации в расположенной ниже RNN. Это сделано для того, чтобы входную последовательность можно было точно восстановить по представлению на самом высоком уровне.

Система эффективно минимизирует длину описания или отрицательный логарифм вероятности данных. [44] Учитывая большую предсказуемость входящей последовательности данных, RNN самого высокого уровня может использовать контролируемое обучение, чтобы легко классифицировать даже глубокие последовательности с длинными интервалами между важными событиями.

Иерархию RNN можно разделить на две RNN: «сознательный» блокировщик (более высокий уровень) и «подсознательный» автоматизатор (нижний уровень). [43] Как только блокировщик научится предсказывать и сжимать входные данные, которые являются непредсказуемыми для автоматизатора, автоматизатор может быть вынужден на следующем этапе обучения предсказывать или имитировать с помощью дополнительных блоков скрытые блоки более медленно меняющегося блокатора. Это позволяет автоматизатору легко запоминать подходящие, редко меняющиеся воспоминания на протяжении длительных интервалов времени. В свою очередь, это помогает автоматизатору сделать многие из некогда непредсказуемых входных данных предсказуемыми, так что блокировщик может сосредоточиться на оставшихся непредсказуемых событиях. [43]

Генеративная модель частично преодолела проблему исчезновения градиента [45] автоматического дифференцирования или обратного распространения ошибки в нейронных сетях в 1992 году. В 1993 году такая система решила задачу «очень глубокого обучения», которая требовала более 1000 последующих слоев в RNN, развернутой во времени. . [15]

РНС второго порядка

RNN второго порядка используют веса более высокого порядка вместо стандартных весов, и состояния могут быть продуктом. Это позволяет напрямую отображать конечный автомат как при обучении, стабильности, так и при представлении. [46] [47] Длинная кратковременная память является примером этого, но не имеет таких формальных отображений или доказательств стабильности.

Длинная кратковременная память

Блок долговременной кратковременной памяти

Долговременная краткосрочная память (LSTM) — это система глубокого обучения , позволяющая избежать проблемы исчезающего градиента . LSTM обычно дополняется повторяющимися воротами, называемыми «воротами забывания». [48] ​​LSTM предотвращает исчезновение или взрывной рост ошибок обратного распространения ошибки. [45] Вместо этого ошибки могут течь в обратном направлении через неограниченное количество виртуальных слоев, развернутых в пространстве. То есть LSTM может обучать задачам [18] , требующим воспоминаний о событиях, произошедших на тысячи или даже миллионы дискретных временных шагов ранее. Топологии, подобные LSTM, могут быть разработаны для конкретных задач. [49] LSTM работает даже при длительных задержках между важными событиями и может обрабатывать сигналы, в которых смешаны низкочастотные и высокочастотные компоненты.

Многие приложения используют стеки LSTM RNN [50] и обучают их с помощью коннекционистской временной классификации (CTC) [51] для нахождения весовой матрицы RNN, которая максимизирует вероятность последовательностей меток в обучающем наборе с учетом соответствующих входных последовательностей. CTC достигает как согласованности, так и признания.

LSTM может научиться распознавать контекстно-зависимые языки в отличие от предыдущих моделей, основанных на скрытых моделях Маркова (HMM) и подобных концепциях. [52]

Закрытый рекуррентный блок

Закрытый рекуррентный блок

GRU (GRU) — это механизм вентилирования в рекуррентных нейронных сетях, представленный в 2014 году. Они используются в полной форме и в нескольких упрощенных вариантах. [53] [54] Было обнаружено, что их эффективность при моделировании полифонической музыки и речевых сигналов аналогична эффективности долговременной кратковременной памяти. [55] У них меньше параметров, чем у LSTM, так как у них нет выходного вентиля. [56]

Двунаправленный

Двунаправленные RNN используют конечную последовательность для прогнозирования или маркировки каждого элемента последовательности на основе прошлого и будущего контекста элемента. Это делается путем объединения выходных данных двух RNN, один из которых обрабатывает последовательность слева направо, а другой — справа налево. Объединенные выходные данные представляют собой прогнозы целевых сигналов, заданных учителем. Было доказано, что этот метод особенно полезен в сочетании с LSTM RNN. [57] [58]

Непрерывное время

Рекуррентная нейронная сеть непрерывного времени (CTRNN) использует систему обыкновенных дифференциальных уравнений для моделирования воздействия на нейрон входящих входных данных.

Для нейрона в сети с активацией скорость изменения активации определяется выражением:

Где:

CTRNN были применены в эволюционной робототехнике , где они использовались для решения проблем зрения, [59] сотрудничества, [60] и минимального когнитивного поведения. [61]

Обратите внимание, что согласно теореме выборки Шеннона рекуррентные нейронные сети с дискретным временем можно рассматривать как рекуррентные нейронные сети с непрерывным временем, в которых дифференциальные уравнения преобразуются в эквивалентные разностные уравнения . [62] Эту трансформацию можно рассматривать как происходящую после того, как функции активации постсинаптического узла были подвергнуты низкочастотной фильтрации, но до выборки.

Иерархическая рекуррентная нейронная сеть

Иерархические рекуррентные нейронные сети (HRNN) соединяют свои нейроны различными способами, чтобы разложить иерархическое поведение на полезные подпрограммы. [43] [63] Такие иерархические структуры познания присутствуют в теориях памяти, представленных философом Анри Бергсоном , чьи философские взгляды вдохновили на создание иерархических моделей. [64]

Иерархические рекуррентные нейронные сети полезны при прогнозировании , помогая предсказать дезагрегированные инфляционные компоненты индекса потребительских цен (ИПЦ). Модель HRNN использует информацию с более высоких уровней иерархии ИПЦ для улучшения прогнозов на более низком уровне. Оценка значительного набора данных по индексу CPI-U в США демонстрирует превосходную эффективность модели HRNN по сравнению с различными признанными методами прогнозирования инфляции . [65]

Рекуррентная многослойная сеть перцептрона

Как правило, рекуррентная многоуровневая сеть перцептрона (сеть RMLP) состоит из каскадных подсетей, каждая из которых содержит несколько уровней узлов. Каждая подсеть является прямой, за исключением последнего уровня, который может иметь соединения обратной связи. Каждая из этих подсетей соединена только прямыми соединениями. [66]

Модель с несколькими временными масштабами

Рекуррентная нейронная сеть с несколькими временными масштабами (MTRNN) — это вычислительная модель на основе нейронов, которая может моделировать функциональную иерархию мозга посредством самоорганизации в зависимости от пространственной связи между нейронами и от различных типов активности нейронов, каждый из которых имеет разные временные свойства. [67] [68] При таком разнообразии активности нейронов непрерывные последовательности любого набора действий сегментируются на повторно используемые примитивы, которые, в свою очередь, гибко интегрируются в различные последовательные модели поведения. Биологическое одобрение такого типа иерархии обсуждалось в теории прогнозирования функций мозга Хокинсом в его книге «Об интеллекте» . [ нужна цитата ] Такая иерархия также согласуется с теориями памяти, выдвинутыми философом Анри Бергсоном , которые были включены в модель MTRNN. [64] [69]

Нейронные машины Тьюринга

Нейронные машины Тьюринга (НТМ) — это метод расширения рекуррентных нейронных сетей путем подключения их к внешним ресурсам памяти , с которыми они могут взаимодействовать посредством процессов внимания. Комбинированная система аналогична машине Тьюринга или архитектуре фон Неймана , но является сквозной дифференцируемой, что позволяет эффективно обучать ее с помощью градиентного спуска . [70]

Дифференцируемый нейронный компьютер

Дифференцируемые нейронные компьютеры (DNC) являются расширением нейронных машин Тьюринга, позволяющим использовать нечеткие количества каждого адреса памяти и запись хронологии.

Автоматы с выталкивающим устройством нейронной сети

Автоматы с выталкиванием нейронных сетей (NNPDA) похожи на NTM, но ленты заменены аналоговыми стеками, которые являются дифференцируемыми и обучаемыми. В этом смысле они по сложности аналогичны распознавателям контекстно-свободных грамматик (CFG). [71]

Мемристивные сети

Грег Снайдер из HP Labs описывает систему корковых вычислений с использованием мемристивных наноустройств. [72] Мемристоры (резисторы памяти) изготавливаются из тонкопленочных материалов, сопротивление которых электрически настраивается посредством транспорта ионов или кислородных вакансий внутри пленки. Проект SyNAPSE DARPA профинансировал исследования IBM и лаборатории HP в сотрудничестве с факультетом когнитивных и нейронных систем (CNS) Бостонского университета для разработки нейроморфных архитектур, которые могут быть основаны на мемристивных системах. Мемристивные сети — это особый тип физической нейронной сети , свойства которой очень похожи на сети (Литтла) Хопфилда, поскольку они имеют непрерывную динамику, ограниченный объем памяти и естественную релаксацию за счет минимизации функции, которая асимптотична модели Изинга . В этом смысле динамика мемристивной схемы имеет преимущество по сравнению с сетью резистор-конденсатор, поскольку имеет более интересное нелинейное поведение. С этой точки зрения инженерные аналоговые мемристивные сети представляют собой своеобразный тип нейроморфной инженерии , в котором поведение устройства зависит от схемы подключения или топологии. Эволюцию этих сетей можно изучать аналитически, используя вариации уравнения Каравелли-Траверса- Ди Вентры . [73]

Псевдокод

Дан временной ряд xдлиной sequence_length. В рекуррентной нейронной сети существует цикл, который обрабатывает все записи временного ряда xчерез слои neural_networkодин за другим. Они имеют в качестве возвращаемого значения на каждом временном шаге iкак прогноз y_pred[i], так и обновленное скрытое состояние hidden, имеющее длину hidden_size. В результате после цикла y_predвозвращается коллекция всех прогнозов. Следующий псевдокод (на основе языка программирования Python ) иллюстрирует функциональность рекуррентной нейронной сети. [74]

def  RNN_forward ( x ,  последовательность_длина ,  нейронная_сеть ,  скрытый_размер ):  скрытые  =  нули ( размер = скрытый_размер )  # инициализируем нулями для каждого независимого временного ряда отдельно  y_pred  =  нули ( размер = последовательность_длина )  для  i  в  диапазоне ( последовательность_длина ):  y_pred [ i ] ,  скрытый  =  нейронная сеть ( x [ i ],  скрытый )  # обновление скрытого состояния  return  y_pred

Современные библиотеки предоставляют реализации вышеупомянутых функций, оптимизированные во время выполнения, или позволяют ускорить медленный цикл за счет своевременной компиляции .

Обучение

Градиентный спуск

Градиентный спуск — это итеративный алгоритм оптимизации первого порядка для поиска минимума функции. В нейронных сетях его можно использовать для минимизации ошибки путем изменения каждого веса пропорционально производной ошибки по этому весу, при условии , что нелинейные функции активации дифференцируемы . Различные методы для этого были разработаны в 1980-х и начале 1990-х годов Вербосом , Уильямсом , Робинсоном , Шмидхубером , Хохрайтером , Перлмуттером и другими.

Стандартный метод называется « обратным распространением ошибки во времени » или BPTT и представляет собой обобщение обратного распространения ошибки для сетей с прямой связью. [75] [76] Как и этот метод, он является примером автоматического дифференцирования в режиме обратного накопления принципа минимума Понтрягина . Более затратный в вычислительном отношении онлайн-вариант называется «рекуррентное обучение в реальном времени» или RTRL, [77] [78] и представляет собой пример автоматического дифференцирования в режиме прямого накопления с использованием сложенных касательных векторов. В отличие от BPTT, этот алгоритм является локальным во времени, но не локальным в пространстве.

В этом контексте локальность в пространстве означает, что весовой вектор единицы может быть обновлен с использованием только информации, хранящейся в подключенных единицах и самой единице, так что сложность обновления одной единицы является линейной по размерности весового вектора. Локальное по времени означает, что обновления происходят постоянно (онлайн) и зависят только от самого последнего временного шага, а не от нескольких временных шагов в пределах заданного временного горизонта, как в BPTT. Биологические нейронные сети кажутся локальными как во времени, так и в пространстве. [79] [80]

Для рекурсивного вычисления частных производных RTRL имеет временную сложность O (количество скрытых x весов) за временной шаг для вычисления матриц Якоби , в то время как BPTT принимает только O (количество весов) за временной шаг, за счет сохранения всех активных активаций в течение заданного временного интервала. [81] Существует онлайн-гибрид между BPTT и RTRL промежуточной сложности, [82] [83] наряду с вариантами для непрерывного времени. [84]

Основная проблема градиентного спуска для стандартных архитектур RNN заключается в том, что градиенты ошибок исчезают экспоненциально быстро с увеличением временного лага между важными событиями. [45] [85] LSTM в сочетании с гибридным методом обучения BPTT/RTRL пытается преодолеть эти проблемы. [16] Эта проблема также решается в независимой рекуррентной нейронной сети (IndRNN) [37] путем сведения контекста нейрона к его собственному прошлому состоянию, после чего межнейронная информация может быть исследована на следующих уровнях. Воспоминания разных диапазонов, включая долговременную память, можно изучить без проблемы исчезновения и взрыва градиента.

Онлайн-алгоритм, называемый причинно-рекурсивным обратным распространением ошибки (CRBP), реализует и объединяет парадигмы BPTT и RTRL для локально рекуррентных сетей. [86] Он работает с наиболее распространенными локально-рекуррентными сетями. Алгоритм CRBP может минимизировать глобальную ошибку. Этот факт повышает стабильность алгоритма, обеспечивая единое представление о методах расчета градиента для рекуррентных сетей с локальной обратной связью.

Один из подходов к вычислению градиентной информации в RNN с произвольной архитектурой основан на построении диаграмм графов потока сигналов. [87] Он использует пакетный алгоритм BPTT, основанный на теореме Ли для расчета чувствительности сети. [88] Его предложили Ван и Бофейс, а его быструю онлайн-версию предложили Камполуччи, Унчини и Пьяцца. [88]

Методы глобальной оптимизации

Обучение весов в нейронной сети можно смоделировать как задачу нелинейной глобальной оптимизации . Целевую функцию можно сформировать для оценки пригодности или ошибки конкретного вектора весов следующим образом: во-первых, веса в сети устанавливаются в соответствии с вектором весов. Затем сеть оценивается по обучающей последовательности. Обычно разница суммы квадратов между прогнозами и целевыми значениями, указанными в обучающей последовательности, используется для представления ошибки текущего весового вектора. Затем для минимизации этой целевой функции можно использовать произвольные методы глобальной оптимизации.

Наиболее распространенным методом глобальной оптимизации для обучения RNN являются генетические алгоритмы , особенно в неструктурированных сетях. [89] [90] [91]

Первоначально генетический алгоритм кодируется с помощью весов нейронной сети заранее определенным образом, где один ген в хромосоме представляет одно весовое звено. Вся сеть представлена ​​в виде одной хромосомы. Фитнес-функция оценивается следующим образом:

Многие хромосомы составляют популяцию; поэтому развивается множество различных нейронных сетей до тех пор, пока не будет выполнен критерий остановки. Распространенная схема остановки:

Функция пригодности оценивает критерий остановки, поскольку во время обучения она получает среднеквадратическую ошибку, обратную от каждой сети. Следовательно, цель генетического алгоритма — максимизировать функцию приспособленности, уменьшив среднеквадратическую ошибку.

Для поиска хорошего набора весов можно использовать другие методы глобальной (и/или эволюционной) оптимизации, такие как моделирование отжига или оптимизация роя частиц .

Связанные поля и модели

RNN могут вести себя хаотично . В таких случаях для анализа можно использовать теорию динамических систем .

На самом деле это рекурсивные нейронные сети с особой структурой: линейной цепочкой. В то время как рекурсивные нейронные сети работают с любой иерархической структурой, объединяя дочерние представления с родительскими представлениями, рекуррентные нейронные сети работают с линейной прогрессией времени, объединяя предыдущий временной шаг и скрытое представление в представление для текущего временного шага.

В частности, RNN могут выглядеть как нелинейные версии фильтров с конечной импульсной характеристикой и бесконечной импульсной характеристикой , а также как нелинейная авторегрессионная экзогенная модель (NARX). [92]

Структура рекомендаций по алгоритмам обучения может помочь в выборе алгоритмов обучения и научной дисциплины (например, RNN, GAN, RL, CNN,...). Преимущество этой структуры заключается в том, что она была создана на основе обширного анализа литературы и посвящена рекуррентным нейронным сетям и их вариациям. [93]

Эффект обучения на основе памяти для распознавания последовательностей также может быть реализован с помощью более биологической модели, которая использует механизм молчания, проявляющийся в нейронах с относительно высокочастотной импульсной активностью. [94]

Библиотеки

Приложения

Приложения рекуррентных нейронных сетей включают:

Рекомендации

  1. ^ Дюпон, Сэмюэл (2019). «Тщательный обзор текущего развития структур нейронных сетей». Ежегодные обзоры под контролем . 14 : 200–230.
  2. ^ Абиодун, Олюдаре Исаак; Джантан, Аман; Омолара, Абиодун Эстер; Дада, Кеми Виктория; Мохамед, Нахаат ​​Абделатиф; Аршад, Хумайра (01 ноября 2018 г.). «Современное состояние приложений искусственных нейронных сетей: обзор». Гелион . 4 (11): e00938. Бибкод : 2018Heliy...400938A. doi : 10.1016/j.heliyon.2018.e00938 . ISSN  2405-8440. ПМК 6260436 . ПМИД  30519653. 
  3. ^ Тилаб, Ахмед (01 декабря 2018 г.). «Прогнозирование временных рядов с использованием методологий искусственных нейронных сетей: систематический обзор». Журнал будущих вычислений и информатики . 3 (2): 334–340. дои : 10.1016/j.fcij.2018.10.003 . ISSN  2314-7288.
  4. ^ Грейвс, Алекс ; Ливицкий, Маркус; Фернандес, Сантьяго; Бертолами, Роман; Бунке, Хорст; Шмидхубер, Юрген (2009). «Новая коннекционистская система для улучшения неограниченного распознавания рукописного текста» (PDF) . Транзакции IEEE по анализу шаблонов и машинному интеллекту . 31 (5): 855–868. CiteSeerX 10.1.1.139.4502 . дои :10.1109/tpami.2008.137. PMID  19299860. S2CID  14635907. 
  5. ^ аб Сак, Хашим; Старший, Эндрю; Бофе, Франсуаза (2014). «Архитектуры рекуррентных нейронных сетей с долгосрочной кратковременной памятью для крупномасштабного акустического моделирования» (PDF) . Google Исследования.
  6. ^ Аб Ли, Сянган; У, Сихун (15 октября 2014 г.). «Построение глубоких рекуррентных нейронных сетей на основе долговременной памяти для распознавания речи с большим словарным запасом». arXiv : 1410.4281 [cs.CL].
  7. ^ Мильянович, Милош (февраль – март 2012 г.). «Сравнительный анализ нейронных сетей с рекуррентным и конечным импульсным откликом в прогнозировании временных рядов» (PDF) . Индийский журнал компьютеров и техники . 3 (1).
  8. ^ Хётыниеми, Хейкки (1996). «Машины Тьюринга — это рекуррентные нейронные сети». Труды STeP '96/Публикации Финского общества искусственного интеллекта : 13–24.
  9. ^ Ленц, В. (1920), «Beiträge zum Verständnis der Magneticischen Eigenschaften in festen Körpern», Physikalische Zeitschrift , 21 : 613–615.
  10. ^ Изинг, Э. (1925), "Beitrag zur Theorie des Ferromanetismus", Z. Phys. , 31 (1): 253–258, Бибкод : 1925ZPhy...31..253I, doi : 10.1007/BF02980577, S2CID  122157319
  11. ^ Браш, Стивен Г. (1967). «История модели Ленца-Изинга». Обзоры современной физики . 39 (4): 883–893. Бибкод : 1967RvMP...39..883B. doi : 10.1103/RevModPhys.39.883.
  12. ^ Амари, Шун-Ичи (1972). «Обучение шаблонам и последовательностям шаблонов с помощью самоорганизующихся сетей пороговых элементов». Транзакции IEEE на компьютерах . С (21): 1197–1206. дои : 10.1109/TC.1972.223477. S2CID  3708480.
  13. ^ Шмидхубер, Юрген (2022). «Аннотированная история современного искусственного интеллекта и глубокого обучения». arXiv : 2212.11279 [cs.NE].
  14. ^ Уильямс, Рональд Дж.; Хинтон, Джеффри Э.; Румельхарт, Дэвид Э. (октябрь 1986 г.). «Изучение представлений с помощью ошибок обратного распространения». Природа . 323 (6088): 533–536. Бибкод : 1986Natur.323..533R. дои : 10.1038/323533a0. ISSN  1476-4687. S2CID  205001834.
  15. ^ аб Шмидхубер, Юрген (1993). Кандидатская диссертация: Системное моделирование и оптимизация (PDF) .Страница 150 и далее демонстрирует присвоение кредитов по эквиваленту 1200 слоев в развернутой RNN.
  16. ^ аб Хохрейтер, Зепп ; Шмидхубер, Юрген (1 ноября 1997 г.). «Долгая кратковременная память». Нейронные вычисления . 9 (8): 1735–1780. дои : 10.1162/neco.1997.9.8.1735. PMID  9377276. S2CID  1915014.
  17. ^ аб Фернандес, Сантьяго; Грейвс, Алекс; Шмидхубер, Юрген (2007). «Применение рекуррентных нейронных сетей для различительного обнаружения ключевых слов». Материалы 17-й Международной конференции по искусственным нейронным сетям . ICANN'07. Берлин, Гейдельберг: Springer-Verlag. стр. 220–229. ISBN 978-3-540-74693-5.
  18. ^ abc Шмидхубер, Юрген (январь 2015 г.). «Глубокое обучение в нейронных сетях: обзор». Нейронные сети . 61 : 85–117. arXiv : 1404.7828 . doi :10.1016/j.neunet.2014.09.003. PMID  25462637. S2CID  11715509.
  19. ^ Грейвс, Алекс; Шмидхубер, Юрген (2009). «Офлайн-распознавание рукописного текста с помощью многомерных рекуррентных нейронных сетей». В Коллере, Д.; Шурманс, Д.; Бенджио, Ю .; Ботту, Л. (ред.). Достижения в области нейронных систем обработки информации . Том. 21. Фонд нейронных систем обработки информации (NIPS). стр. 545–552.
  20. ^ «Обсуждение оценки английского языка HUB5 2000 года - Консорциум лингвистических данных» . каталог.ldc.upenn.edu .
  21. ^ Ханнун, Ауни; Кейс, Карл; Каспер, Джаред; Катандзаро, Брайан; Диамос, Грег; Элсен, Эрих; Пренгер, Райан; Сатиш, Санджив; Сенгупта, Шубхо (17 декабря 2014 г.). «Глубокая речь: расширение сквозного распознавания речи». arXiv : 1412.5567 [cs.CL].
  22. ^ Фан, Бо; Ван, Лицзюань; Сунг, Фрэнк К.; Се, Лэй (2015). «Фотореалистичная говорящая голова с глубоким двунаправленным LSTM». Материалы Международной конференции IEEE ICASSP 2015 по акустике, речи и обработке сигналов . стр. 4884–8. дои : 10.1109/ICASSP.2015.7178899. ISBN 978-1-4673-6997-8.
  23. ^ Дзен, Хейга; Сак, Хашим (2015). «Однонаправленная рекуррентная нейронная сеть с долговременной краткосрочной памятью и рекуррентным выходным слоем для синтеза речи с малой задержкой» (PDF) . Материалы Международной конференции IEEE ICASSP 2015 по акустике, речи и обработке сигналов . стр. 4470–4. дои : 10.1109/ICASSP.2015.7178816. ISBN 978-1-4673-6997-8.
  24. ^ Сак, Хашим; Старший, Эндрю; Рао, Канишка; Бофе, Франсуаза; Шалквик, Йохан (сентябрь 2015 г.). «Голосовой поиск Google: быстрее и точнее».
  25. ^ аб Суцкевер, Илья; Виньялс, Ориол; Ле, Куок В. (2014). «Последовательное обучение с помощью нейронных сетей» (PDF) . Электронные материалы конференции по нейронным системам обработки информации . 27 : 5346. arXiv : 1409.3215 . Бибкод : 2014arXiv1409.3215S.
  26. ^ Йозефович, Рафаль; Виньялс, Ориол; Шустер, Майк; Шазир, Ноам; Ву, Юнхуэй (07 февраля 2016 г.). «Изучение пределов языкового моделирования». arXiv : 1602.02410 [cs.CL].
  27. ^ Гиллик, Дэн; Бранк, Клифф; Виньялс, Ориол; Субраманья, Амарнаг (30 ноября 2015 г.). «Многоязычная языковая обработка из байтов». arXiv : 1512.00103 [cs.CL].
  28. ^ Виньялс, Ориол; Тошев, Александр; Бенджио, Сами; Эрхан, Дмитрий (17 ноября 2014 г.). «Покажи и расскажи: нейронный генератор подписей к изображениям». arXiv : 1411.4555 [cs.CV].
  29. ^ аб Круз, Холк; Нейронные сети как кибернетические системы, 2-е и исправленное издание
  30. ^ Элман, Джеффри Л. (1990). «В поисках структуры во времени». Когнитивная наука . 14 (2): 179–211. дои : 10.1016/0364-0213(90)90002-E .
  31. ^ Джордан, Майкл И. (1 января 1997 г.). «Последовательный заказ: подход к параллельной распределенной обработке». Нейросетевые модели познания — биоповеденческие основы . Достижения психологии. Том. 121. стр. 471–495. дои : 10.1016/s0166-4115(97)80111-2. ISBN 978-0-444-81931-4. S2CID  15375627.
  32. ^ Коско, Барт (1988). «Двунаправленные ассоциативные воспоминания». Транзакции IEEE по системам, человеку и кибернетике . 18 (1): 49–60. дои : 10.1109/21.87054. S2CID  59875735.
  33. ^ Раккиаппан, Раджан; Чандрасекар, Аруначалам; Лакшманан, Субраманиан; Пак, Джу Х. (2 января 2015 г.). «Экспоненциальная устойчивость марковских прыгающих стохастических нейронных сетей BAM с зависящими от режима вероятностными изменяющимися во времени задержками и импульсным управлением». Сложность . 20 (3): 39–65. Бибкод : 2015Cmplx..20c..39R. дои : 10.1002/cplx.21503.
  34. ^ Рохас, Рауль (1996). Нейронные сети: систематическое введение. Спрингер. п. 336. ИСБН 978-3-540-60505-8.
  35. ^ Джагер, Герберт; Хаас, Харальд (2 апреля 2004 г.). «Использование нелинейности: прогнозирование хаотических систем и экономия энергии в беспроводной связи». Наука . 304 (5667): 78–80. Бибкод : 2004Sci...304...78J. CiteSeerX 10.1.1.719.2301 . дои : 10.1126/science.1091277. PMID  15064413. S2CID  2184251. 
  36. ^ Маасс, Вольфганг; Натшлегер, Томас; Маркрам, Генри (2002). «Вычисления в реальном времени без стабильных состояний: новая основа нейронных вычислений на основе возмущений» (PDF) . Нейронные вычисления . 14 (11): 2531–2560. дои : 10.1162/089976602760407955. PMID  12433288. S2CID  1045112.
  37. ^ Аб Ли, Шуай; Ли, Ваньцин; Кук, Крис; Чжу, Се; Янбо, Гао (2018). «Независимо рекуррентная нейронная сеть (IndRNN): построение более длинной и глубокой RNN». arXiv : 1803.04831 [cs.CV].
  38. ^ Голлер, Кристоф; Кюхлер, Андреас (1996). «Изучение распределенных представлений, зависящих от задачи, путем обратного распространения ошибки через структуру». Материалы Международной конференции по нейронным сетям (ICNN'96) . Том. 1. п. 347. CiteSeerX 10.1.1.52.4759 . doi : 10.1109/ICNN.1996.548916. ISBN  978-0-7803-3210-2. S2CID  6536466.
  39. ^ Линнаинмаа, Сеппо (1970). Представление совокупной ошибки округления алгоритма в виде разложения Тейлора локальных ошибок округления (MSc) (на финском языке). Университет Хельсинки.
  40. ^ Гриванк, Андреас; Вальтер, Андреа (2008). Оценка производных: принципы и методы алгоритмического дифференцирования (второе изд.). СИАМ. ISBN 978-0-89871-776-1.
  41. ^ Сочер, Ричард; Лин, Клифф; Нг, Эндрю Ю.; Мэннинг, Кристофер Д., «Разбор естественных сцен и естественного языка с помощью рекурсивных нейронных сетей» (PDF) , 28-я Международная конференция по машинному обучению (ICML 2011)
  42. ^ Сочер, Ричард; Перелыгин, Алексей; Ву, Джин Ю.; Чуанг, Джейсон; Мэннинг, Кристофер Д.; Нг, Эндрю Ю.; Поттс, Кристофер. «Рекурсивные глубокие модели семантической композиционности в древовидном банке настроений» (PDF) . Эмнлп 2013 .
  43. ^ abcd Шмидхубер, Юрген (1992). «Изучение сложных, расширенных последовательностей с использованием принципа сжатия истории» (PDF) . Нейронные вычисления . 4 (2): 234–242. дои : 10.1162/neco.1992.4.2.234. S2CID  18271205.
  44. ^ Шмидхубер, Юрген (2015). «Глубокое обучение». Схоларпедия . 10 (11): 32832. Бибкод : 2015SchpJ..1032832S. doi : 10.4249/scholarpedia.32832 .
  45. ^ abc Hochreiter, Зепп (1991). Untersuruchungen zu dynamischen Neuronalen Netzen (PDF) (Диплом). Институт ф. Информатика, Технический университет Мюнхена.
  46. ^ Джайлз, К. Ли; Миллер, Клиффорд Б.; Чен, Донг; Чен, Син-Хен; Сунь, Го-Чжэн; Ли, Йи-Чун (1992). «Изучение и извлечение конечных автоматов с помощью рекуррентных нейронных сетей второго порядка» (PDF) . Нейронные вычисления . 4 (3): 393–405. дои : 10.1162/neco.1992.4.3.393. S2CID  19666035.
  47. ^ Омлин, Кристиан В.; Джайлз, К. Ли (1996). «Построение детерминированных конечных автоматов в рекуррентных нейронных сетях». Журнал АКМ . 45 (6): 937–972. CiteSeerX 10.1.1.32.2364 . дои : 10.1145/235809.235811. S2CID  228941. 
  48. ^ Герс, Феликс А.; Шраудольф, Никол Н.; Шмидхубер, Юрген (2002). «Изучение точного времени с помощью рекуррентных сетей LSTM» (PDF) . Журнал исследований машинного обучения . 3 : 115–143 . Проверено 13 июня 2017 г.
  49. ^ Байер, Джастин; Виерстра, Даан; Тогелиус, Джулиан; Шмидхубер, Юрген (14 сентября 2009 г.). «Развитие структур ячеек памяти для последовательного обучения». Искусственные нейронные сети — ICANN 2009 (PDF) . Конспекты лекций по информатике. Том. 5769. Берлин, Гейдельберг: Springer. стр. 755–764. дои : 10.1007/978-3-642-04277-5_76. ISBN 978-3-642-04276-8.
  50. ^ Фернандес, Сантьяго; Грейвс, Алекс; Шмидхубер, Юрген (2007). «Разметка последовательностей в структурированных доменах с помощью иерархических рекуррентных нейронных сетей» (PDF) . Материалы 20-й Международной совместной конференции по искусственному интеллекту, Иджай, 2007 г. стр. 774–9. CiteSeerX 10.1.1.79.1887 . 
  51. ^ Грейвс, Алекс; Фернандес, Сантьяго; Гомес, Фаустино Дж. (2006). «Временная классификация коннекционистов: маркировка данных несегментированных последовательностей с помощью рекуррентных нейронных сетей» (PDF) . Материалы международной конференции по машинному обучению . стр. 369–376. CiteSeerX 10.1.1.75.6306 . дои : 10.1145/1143844.1143891. ISBN  1-59593-383-2.
  52. ^ аб Герс, Феликс А.; Шмидхубер, Юрген (2001). «Рекуррентные сети LSTM изучают простые контекстно-свободные и контекстно-зависимые языки» (PDF) . Транзакции IEEE в нейронных сетях . 12 (6): 1333–40. дои : 10.1109/72.963769. PMID  18249962. S2CID  10192330.
  53. ^ Черт возьми, Джоэл; Салем, Фатхи М. (12 января 2017 г.). «Упрощенные минимальные варианты вентильных единиц для рекуррентных нейронных сетей». arXiv : 1701.03452 [cs.NE].
  54. ^ Дей, Рахул; Салем, Фатхи М. (20 января 2017 г.). «Варианты вентильных нейронных сетей с закрытыми рекуррентными единицами (GRU)». arXiv : 1701.05923 [cs.NE].
  55. ^ Чунг, Джунён; Гульчере, Чаглар; Чо, КёнХён; Бенджио, Йошуа (2014). «Эмпирическая оценка вентилируемых рекуррентных нейронных сетей при моделировании последовательностей». arXiv : 1412.3555 [cs.NE].
  56. Бритц, Денни (27 октября 2015 г.). «Учебное пособие по рекуррентной нейронной сети, часть 4. Реализация GRU/LSTM RNN с помощью Python и Theano – WildML». Wildml.com . Проверено 18 мая 2016 г.
  57. ^ Грейвс, Алекс; Шмидхубер, Юрген (1 июля 2005 г.). «Кадровая классификация фонем с помощью двунаправленного LSTM и других архитектур нейронных сетей». Нейронные сети . IJCNN 2005. 18 (5): 602–610. CiteSeerX 10.1.1.331.5800 . doi :10.1016/j.neunet.2005.06.042. PMID  16112549. S2CID  1856462. 
  58. ^ аб Тиреу, Триас; Речко, Мартин (июль 2007 г.). «Двунаправленные сети долговременной краткосрочной памяти для прогнозирования субклеточной локализации эукариотических белков». Транзакции IEEE/ACM по вычислительной биологии и биоинформатике . 4 (3): 441–446. дои : 10.1109/tcbb.2007.1015. PMID  17666763. S2CID  11787259.
  59. ^ Харви, Инман; Мужья, Фил; Клифф, Дэйв (1994), «Видеть свет: искусственная эволюция, реальное видение», 3-я международная конференция по моделированию адаптивного поведения: от животных к животным 3 , стр. 392–401.
  60. ^ Куинн, Мэтт (2001). «Развитие коммуникации без выделенных каналов связи». Достижения в области искусственной жизни: 6-я Европейская конференция, ECAL 2001 . стр. 357–366. дои : 10.1007/3-540-44811-X_38. ISBN 978-3-540-42567-0.
  61. ^ Пиво, Рэндалл Д. (1997). «Динамика адаптивного поведения: программа исследований». Робототехника и автономные системы . 20 (2–4): 257–289. дои : 10.1016/S0921-8890(96)00063-2.
  62. ^ Шерстинский, Алекс (07.12.2018). Блум-Редди, Бенджамин; Пейдж, Брукс; Куснер, Мэтт; Каруана, Рич; Рейнфорт, Том; Да, Йи Уай (ред.). Получение определения рекуррентной нейронной сети и развертывание RNN с использованием обработки сигналов. Семинар «Критика и коррекция тенденций в машинном обучении» на NeurIPS-2018.
  63. ^ Пейн, Райнер В.; Тани, июнь (01 сентября 2005 г.). «Как иерархическое управление самоорганизуется в искусственных адаптивных системах». Адаптивное поведение . 13 (3): 211–225. дои : 10.1177/105971230501300303. S2CID  9932565.
  64. ^ ab «Бернс, Бенюро, Тани (2018) Адаптивная постоянная времени, вдохновленная Бергсоном, для модели рекуррентной нейронной сети с множеством временных масштабов. JNNS».
  65. ^ Баркан, Орен; Бенчимол, Джонатан; Каспи, Итамар; Коэн, Элия; Хаммер, Аллон; Кенигштейн, Ноам (2023). «Прогнозирование компонентов инфляции ИПЦ с помощью иерархических рекуррентных нейронных сетей». Международный журнал прогнозирования . 39 (3): 1145–1162. arXiv : 2011.07920 . doi :10.1016/j.ijforecast.2022.04.009.
  66. ^ Тучку, Курт (июнь 1995 г.). Рекуррентные многослойные перцептроны для идентификации и контроля: путь к приложениям . Отчет Института компьютерных наук. Том. 118. Вюрцбургский университет-ам-Хубланд. CiteSeerX 10.1.1.45.3527 . 
  67. ^ Ямасита, Юичи; Тани, июнь (07 ноября 2008 г.). «Появление функциональной иерархии в модели нейронной сети с множеством временных масштабов: эксперимент с роботом-гуманоидом». PLOS Вычислительная биология . 4 (11): е1000220. Бибкод : 2008PLSCB...4E0220Y. дои : 10.1371/journal.pcbi.1000220 . ПМК 2570613 . ПМИД  18989398. 
  68. ^ Альнаджар, Фади; Ямасита, Юичи; Тани, июнь (2013). «Иерархическая и функциональная связность когнитивных механизмов высшего порядка: нейророботическая модель для исследования стабильности и гибкости рабочей памяти». Границы нейроробототехники . 7 :2. дои : 10.3389/fnbot.2013.00002 . ПМК 3575058 . ПМИД  23423881. 
  69. ^ «Материалы 28-й ежегодной конференции Японского общества нейронных сетей (октябрь 2018 г.)» (PDF) .
  70. ^ Грейвс, Алекс; Уэйн, Грег; Данигелка, Иво (2014). «Нейронные машины Тьюринга». arXiv : 1410.5401 [cs.NE].
  71. ^ Сунь, Го-Чжэн; Джайлз, К. Ли; Чен, Син-Хен (1998). «Автомат опускания нейронной сети: архитектура, динамика и обучение». В Джайлзе, К. Ли; Гори, Марко (ред.). Адаптивная обработка последовательностей и структур данных . Конспекты лекций по информатике. Берлин, Гейдельберг: Springer. стр. 296–345. CiteSeerX 10.1.1.56.8723 . дои : 10.1007/bfb0054003. ISBN  978-3-540-64341-8.
  72. ^ Снайдер, Грег (2008), «Корковые вычисления с мемристивными наноустройствами», Sci-DAC Review , 10 : 58–65
  73. ^ Каравелли, Франческо; Траверса, Фабио Лоренцо; Ди Вентра, Массимилиано (2017). «Сложная динамика мемристивных цепей: аналитические результаты и универсальная медленная релаксация». Физический обзор E . 95 (2): 022140. arXiv : 1608.08651 . Бибкод : 2017PhRvE..95b2140C. doi : 10.1103/PhysRevE.95.022140. PMID  28297937. S2CID  6758362.
  74. ^ Шолле, Франсуа; Калиновский, Томаш; Аллер, Джей-Джей (13 сентября 2022 г.). Глубокое обучение с помощью R, второе издание. Саймон и Шустер. ISBN 978-1-63835-078-1.
  75. ^ Вербос, Пол Дж. (1988). «Обобщение обратного распространения ошибки с применением к рекуррентной модели газового рынка». Нейронные сети . 1 (4): 339–356. дои : 10.1016/0893-6080(88)90007-x. S2CID  205001834.
  76. ^ Румельхарт, Дэвид Э. (1985). Изучение внутренних представлений путем распространения ошибок. Сан-Диего (Калифорния): Институт когнитивных наук Калифорнийского университета.
  77. ^ Робинсон, Энтони Дж.; Фоллсайд, Фрэнк (1987). Сеть динамического распространения ошибок, управляемая утилитой. Технический отчет CUED/F-INFENG/TR.1. Инженерный факультет Кембриджского университета.
  78. ^ Уильямс, Рональд Дж.; Зипсер, Д. (1 февраля 2013 г.). «Алгоритмы градиентного обучения для рекуррентных сетей и их вычислительная сложность». В Шовене, Ив; Румельхарт, Дэвид Э. (ред.). Обратное распространение ошибки: теория, архитектура и приложения. Психология Пресс. ISBN 978-1-134-77581-1.
  79. ^ Шмидхубер, Юрген (1 января 1989 г.). «Алгоритм локального обучения для динамических сетей прямой связи и рекуррентных сетей». Наука о связях . 1 (4): 403–412. дои : 10.1080/09540098908915650. S2CID  18721007.
  80. ^ Принсипи, Хосе С.; Эулиано, Нил Р.; Лефевр, В. Курт (2000). Нейронные и адаптивные системы: основы посредством моделирования. Уайли. ISBN 978-0-471-35167-2.
  81. ^ Янн, Оливье; Таллек, Корантен; Шарпиа, Гийом (28 июля 2015 г.). «Обучение рекуррентных сетей онлайн без возврата». arXiv : 1507.07680 [cs.NE].
  82. ^ Шмидхубер, Юрген (1 марта 1992 г.). «Алгоритм обучения временной сложности хранилища фиксированного размера O (n3) для полностью рекуррентных, непрерывно работающих сетей». Нейронные вычисления . 4 (2): 243–248. дои : 10.1162/neco.1992.4.2.243. S2CID  11761172.
  83. ^ Уильямс, Рональд Дж. (1989). Сложность алгоритмов точного вычисления градиента для рекуррентных нейронных сетей (Отчет). Технический отчет NU-CCS-89-27. Бостон (Массачусетс): Северо-Восточный университет, Колледж компьютерных наук. Архивировано из оригинала 20 октября 2017 г. Проверено 2 июля 2017 г.
  84. ^ Перлмуттер, Барак А. (1 июня 1989 г.). «Изучение пространственных траекторий состояний в рекуррентных нейронных сетях». Нейронные вычисления . 1 (2): 263–269. дои : 10.1162/neco.1989.1.2.263. S2CID  16813485.
  85. ^ Хохрейтер, Зепп; и другие. (15 января 2001 г.). «Градиентный поток в рекуррентных сетях: сложность изучения долгосрочных зависимостей». В Колене, Джон Ф.; Кремер, Стефан К. (ред.). Полевое руководство по динамическим рекуррентным сетям . Джон Уайли и сыновья. ISBN 978-0-7803-5369-5.
  86. ^ Камполуччи, Паоло; Унчини, Аурелио; Пьяцца, Франческо; Рао, Бхаскар Д. (1999). «Алгоритмы онлайн-обучения для локально рекуррентных нейронных сетей». Транзакции IEEE в нейронных сетях . 10 (2): 253–271. CiteSeerX 10.1.1.33.7550 . дои : 10.1109/72.750549. ПМИД  18252525. 
  87. ^ Ван, Эрик А.; Бофе, Франсуаза (1996). «Диаграмматический вывод градиентных алгоритмов для нейронных сетей». Нейронные вычисления . 8 : 182–201. дои : 10.1162/neco.1996.8.1.182. S2CID  15512077.
  88. ^ аб Камполуччи, Паоло; Унчини, Аурелио; Пьяцца, Франческо (2000). «Подход к онлайн-расчету градиента на основе графика потока сигналов». Нейронные вычисления . 12 (8): 1901–1927. CiteSeerX 10.1.1.212.5406 . дои : 10.1162/089976600300015196. PMID  10953244. S2CID  15090951. 
  89. ^ Гомес, Фаустино Дж.; Мииккулайнен, Ристо (1999), «Решение немарковских задач управления с помощью нейроэволюции» (PDF) , IJCAI 99 , Морган Кауфманн , получено 5 августа 2017 г.
  90. ^ Сайед, Омар (май 1995 г.). Применение генетических алгоритмов к рекуррентным нейронным сетям для изучения параметров и архитектуры сети (MSc). Факультет электротехники Университета Кейс Вестерн Резерв.
  91. ^ Гомес, Фаустино Дж.; Шмидхубер, Юрген; Мииккулайнен, Ристо (июнь 2008 г.). «Ускоренная нервная эволюция посредством совместно развившихся синапсов» (PDF) . Журнал исследований машинного обучения . 9 : 937–965.
  92. ^ Сигельманн, Хава Т.; Хорн, Билл Г.; Джайлз, К. Ли (1995). «Вычислительные возможности рекуррентных нейронных сетей NARX». Транзакции IEEE о системах, человеке и кибернетике. Часть B: Кибернетика . 27 (2): 208–15. CiteSeerX 10.1.1.48.7468 . дои : 10.1109/3477.558801. ПМИД  18255858. 
  93. ^ Фелтус, Кристоф (2022). «Структура рекомендаций по алгоритмам обучения для безопасности IS и CPS: анализ вкладов RNN, LSTM и GRU». Международный журнал IGI по безопасности и защите систем и программного обеспечения (IJSSSP) . 13 (1). doi : 10.4018/IJSSSP.293236. S2CID  247143453.
  94. ^ Ходассман, Шири; Меир, Юваль; Кисос, Карин; Бен-Ноам, Итамар; Тугендхафт, Яэль; Голденталь, Амир; Варди, Рони; Кантер, Идо (29 сентября 2022 г.). «Механизм молчания нейронов, вдохновленный мозгом, обеспечивает надежную идентификацию последовательностей». Научные отчеты . 12 (1): 16003. arXiv : 2203.13028 . Бибкод : 2022NatSR..1216003H. дои : 10.1038/s41598-022-20337-x . ISSN  2045-2322. ПМЦ 9523036 . ПМИД  36175466. 
  95. Мец, Кейд (18 мая 2016 г.). «Google создала собственные чипы для работы своих ботов с искусственным интеллектом». Проводной .
  96. ^ Майер, Герман; Гомес, Фаустино Дж.; Виерстра, Даан; Надь, Иштван; Нолл, Алоис; Шмидхубер, Юрген (октябрь 2006 г.). «Система для роботизированной кардиохирургии, которая учится завязывать узлы с помощью рекуррентных нейронных сетей». 2006 Международная конференция IEEE/RSJ по интеллектуальным роботам и системам . стр. 543–548. CiteSeerX 10.1.1.218.3399 . дои : 10.1109/IROS.2006.282190. ISBN  978-1-4244-0258-8. S2CID  12284900.
  97. ^ Виерстра, Даан; Шмидхубер, Юрген; Гомес, Фаустино Дж. (2005). «Эволино: гибридная нейроэволюция/оптимальный линейный поиск для последовательного обучения». Материалы 19-й Международной совместной конференции по искусственному интеллекту (IJCAI), Эдинбург . стр. 853–8. ОСЛК  62330637.
  98. ^ Петнехази, Габор (01.01.2019). «Рекуррентные нейронные сети для прогнозирования временных рядов». arXiv : 1901.00069 [cs.LG].
  99. ^ Хевамалагэ, Хансика; Бергмейр, Кристоф; Бандара, Касун (2020). «Рекуррентные нейронные сети для прогнозирования временных рядов: текущий статус и будущие направления». Международный журнал прогнозирования . 37 : 388–427. arXiv : 1909.00590 . doi :10.1016/j.ijforecast.2020.06.008. S2CID  202540863.
  100. ^ Грейвс, Алекс; Шмидхубер, Юрген (2005). «Кадровая классификация фонем с помощью двунаправленного LSTM и других архитектур нейронных сетей». Нейронные сети . 18 (5–6): 602–610. CiteSeerX 10.1.1.331.5800 . doi :10.1016/j.neunet.2005.06.042. PMID  16112549. S2CID  1856462. 
  101. ^ Грейвс, Алекс; Мохамед, Абдель-Рахман; Хинтон, Джеффри Э. (2013). «Распознавание речи с помощью глубоких рекуррентных нейронных сетей». Международная конференция IEEE 2013 по акустике, речи и обработке сигналов . стр. 6645–9. arXiv : 1303.5778 . Бибкод : 2013arXiv1303.5778G. дои : 10.1109/ICASSP.2013.6638947. ISBN 978-1-4799-0356-6. S2CID  206741496.
  102. ^ Чанг, Эдвард Ф.; Чартье, Джош; Ануманчипалли, Гопала К. (24 апреля 2019 г.). «Синтез речи на основе нейронного декодирования произнесенных предложений». Природа . 568 (7753): 493–8. Бибкод : 2019Natur.568..493A. дои : 10.1038/s41586-019-1119-1. ISSN  1476-4687. ПМЦ 9714519 . PMID  31019317. S2CID  129946122. 
  103. ^ Моисей, Дэвид А.; Мецгер, Шон Л.; Лю, Джесси Р.; Ануманчипалли, Гопала К.; Макин, Джозеф Г.; Сунь, Пэнфэй Ф.; Чартье, Джош; Догерти, Максимилиан Э.; Лю, Патрисия М.; Абрамс, Гэри М.; Ту-Чан, Аделин; Гангулы, Карунеш; Чанг, Эдвард Ф. (15 июля 2021 г.). «Нейропротез для декодирования речи у парализованного человека с анартрией». Медицинский журнал Новой Англии . 385 (3): 217–227. doi : 10.1056/NEJMoa2027540. ПМЦ 8972947 . ПМИД  34260835. 
  104. ^ Малхотра, Панкадж; Виг, Лавкеш; Шрофф, Гаутам; Агарвал, Пунит (апрель 2015 г.). «Сети долговременной памяти для обнаружения аномалий во временных рядах». Европейский симпозиум по искусственным нейронным сетям, вычислительному интеллекту и машинному обучению – ESANN 2015 . Чако. стр. 89–94. ISBN 978-2-87587-015-5.
  105. ^ «Документы с кодом - DeepHS-HDRVideo: глубокая высокоскоростная реконструкция видео с широким динамическим диапазоном» . paperswithcode.com . Проверено 13 октября 2022 г.
  106. ^ Герс, Феликс А.; Шраудольф, Никол Н.; Шмидхубер, Юрген (2002). «Изучение точного времени с помощью рекуррентных сетей LSTM» (PDF) . Журнал исследований машинного обучения . 3 : 115–143.
  107. ^ Эк, Дуглас; Шмидхубер, Юрген (28 августа 2002 г.). «Изучение долгосрочной структуры блюза». Искусственные нейронные сети — ICANN 2002 . Конспекты лекций по информатике. Том. 2415. Берлин, Гейдельберг: Springer. стр. 284–289. CiteSeerX 10.1.1.116.3620 . дои : 10.1007/3-540-46084-5_47. ISBN  978-3-540-46084-8.
  108. ^ Шмидхубер, Юрген; Герс, Феликс А.; Эк, Дуглас (2002). «Изучение нерегулярных языков: сравнение простых рекуррентных сетей и LSTM». Нейронные вычисления . 14 (9): 2039–2041. CiteSeerX 10.1.1.11.7369 . дои : 10.1162/089976602320263980. PMID  12184841. S2CID  30459046. 
  109. ^ Перес-Ортис, Хуан Антонио; Герс, Феликс А.; Эк, Дуглас; Шмидхубер, Юрген (2003). «Фильтры Калмана улучшают производительность сети LSTM в задачах, неразрешимых традиционными рекуррентными сетями». Нейронные сети . 16 (2): 241–250. CiteSeerX 10.1.1.381.1992 . дои : 10.1016/s0893-6080(02)00219-8. ПМИД  12628609. 
  110. ^ Грейвс, Алекс; Шмидхубер, Юрген (2009). «Офлайн-распознавание рукописного текста с помощью многомерных рекуррентных нейронных сетей» (PDF) . Достижения в области нейронных систем обработки информации . Том. 22, НИПС'22. МТИ Пресс. стр. 545–552.
  111. ^ Грейвс, Алекс; Фернандес, Сантьяго; Ливицкий, Маркус; Бунке, Хорст; Шмидхубер, Юрген (2007). «Неограниченное онлайн-распознавание рукописного текста с помощью рекуррентных нейронных сетей». Материалы 20-й Международной конференции по нейронным системам обработки информации . Карран Ассошиэйтс. стр. 577–584. ISBN 978-1-60560-352-0.
  112. ^ Баккуш, Моэз; Мамалет, Франк; Вольф, Кристиан; Гарсия, Кристоф; Баскурт, Атилла (2011). «Последовательное глубокое обучение для распознавания действий человека». В Салахе Альберт Али; Лепри, Бруно (ред.). Понимание человеческого поведения . Конспекты лекций по информатике. Том. 7065. Амстердам, Нидерланды: Springer. стр. 29–39. дои : 10.1007/978-3-642-25446-8_4. ISBN 978-3-642-25445-1.
  113. ^ Хохрейтер, Зепп; Хойзель, Мартин; Обермайер, Клаус (2007). «Быстрое обнаружение гомологии белков на основе моделей без выравнивания». Биоинформатика . 23 (14): 1728–1736. doi : 10.1093/биоинформатика/btm247 . ПМИД  17488755.
  114. ^ Налог, Ник; Веренич, Илья; Ла Роза, Марчелло; Дюма, Марлон (2017). «Прогнозирующий мониторинг бизнес-процессов с помощью нейронных сетей LSTM». Инженерия передовых информационных систем . Конспекты лекций по информатике. Том. 10253. стр. 477–492. arXiv : 1612.02130 . дои : 10.1007/978-3-319-59536-8_30. ISBN 978-3-319-59535-1. S2CID  2192354.
  115. ^ Чой, Эдвард; Бахадори, Мохаммад Таха; Шуец, Энди; Стюарт, Уолтер Ф.; Сунь, Джимэн (2016). «Доктор ИИ: прогнозирование клинических событий с помощью рекуррентных нейронных сетей». Материалы семинара и конференции JMLR . 56 : 301–318. arXiv : 1511.05942 . Бибкод : 2015arXiv151105942C. ПМК 5341604 . ПМИД  28286600. 
  116. ^ «Искусственный интеллект помогает ускорить прогресс в направлении эффективных термоядерных реакций» . Университет Принстон . Проверено 12 июня 2023 г.

дальнейшее чтение

Внешние ссылки