stringtranslate.com

Рекуррентная нейронная сеть

Рекуррентные нейронные сети ( RNN ) — это класс искусственных нейронных сетей, обычно используемых для последовательной обработки данных. В отличие от нейронных сетей прямого распространения , которые обрабатывают данные за один проход, RNN обрабатывают данные на нескольких временных шагах, что делает их хорошо адаптированными для моделирования и обработки текста, речи и временных рядов . [1]

Строительным блоком RNN является рекуррентный блок . Этот блок поддерживает скрытое состояние, по сути, форму памяти, которая обновляется на каждом временном шаге на основе текущего ввода и предыдущего скрытого состояния. Этот цикл обратной связи позволяет сети учиться на прошлых вводах и включать эти знания в свою текущую обработку.

Ранние RNN страдали от проблемы исчезающего градиента , ограничивающей их способность изучать долгосрочные зависимости. Это было решено вариантом с долговременной краткосрочной памятью (LSTM) в 1997 году, что сделало его стандартной архитектурой для RNN.

RNN были применены для таких задач, как несегментированное, связанное распознавание рукописного текста , [2] распознавание речи , [3] [4] обработка естественного языка и нейронный машинный перевод . [5] [6]

История

До современности

Одним из источников RNN была нейронаука. Слово «рекуррентный» используется для описания петлеобразных структур в анатомии. В 1901 году Кахаль наблюдал «рекуррентные полукруги» в коре мозжечка, образованные параллельными волокнами , клетками Пуркинье и зернистыми клетками . [7] [8] В 1933 году Лоренте де Но открыл «рекуррентные, реципрокные связи» методом Гольджи и предположил, что возбуждающие петли объясняют некоторые аспекты вестибулоокулярного рефлекса . [9] [10] В 1940-х годах несколько человек предположили существование обратной связи в мозге, что контрастировало с предыдущим пониманием нервной системы как чисто прямой структуры. Хебб рассматривал «реверберирующий контур» как объяснение кратковременной памяти. [11] В статье Маккалока и Питтса (1943), в которой была предложена модель нейрона Маккалока-Питтса , рассматривались сети, содержащие циклы. Текущая активность таких сетей может быть затронута активностью, имевшей место неопределенно далеко в прошлом. [12] Они оба интересовались замкнутыми петлями как возможными объяснениями, например, эпилепсии и каузалгии . [13] [14] Рекуррентное торможение было предложено в 1946 году как механизм отрицательной обратной связи в управлении движением. Нейронные петли обратной связи были общей темой обсуждения на конференциях Macy . [15] См. [16] для обширного обзора рекуррентных моделей нейронных сетей в нейронауке.

Сеть персептронов с замкнутым контуром и перекрестными связями. [17] : 403, Рис. 47  .

Фрэнк Розенблатт в 1960 году опубликовал «замкнутые перекрестно-связанные персептроны», которые представляют собой трехслойные сети персептронов , средний слой которых содержит повторяющиеся связи, которые изменяются по правилу обучения Хебба . [18] : 73–75  Позже, в «Принципах нейродинамики» (1961), он описал «замкнутые перекрестно-связанные» и «обратно-связанные» сети персептронов и провел теоретические и экспериментальные исследования обучения Хебба в этих сетях, [17] : Глава 19, 21  и отметил, что полностью перекрестно-связанная сеть персептронов эквивалентна бесконечно глубокой сети прямого распространения. [17] : Раздел 19.11 

Похожие сети были опубликованы Каору Накано в 1971 году [19] [20] , Шуничи Амари в 1972 году [21] и Уильямом А. Литтлом  [de] в 1974 году [22], который был признан Хопфилдом в его статье 1982 года.

Другим источником RNN была статистическая механика . Модель Изинга была разработана Вильгельмом Ленцем [23] и Эрнстом Изингом [24] в 1920-х годах [25] как простая статистическая механическая модель магнитов в равновесии. Глаубер в 1963 году изучал модель Изинга, развивающуюся во времени, как процесс к равновесию ( динамика Глаубера ), добавляя компонент времени. [26]

Модель спинового стекла Шеррингтона–Киркпатрика, опубликованная в 1975 году, [ 27 ] представляет собой сеть Хопфилда со случайной инициализацией. Шеррингтон и Киркпатрик обнаружили, что весьма вероятно, что энергетическая функция модели SK будет иметь много локальных минимумов. В статье 1982 года Хопфилд применил эту недавно разработанную теорию для изучения сети Хопфилда с бинарными функциями активации. [28] В статье 1984 года он распространил ее на непрерывные функции активации. [29] Она стала стандартной моделью для изучения нейронных сетей посредством статистической механики. [30] [31]

Современный

Современные сети RNN в основном основаны на двух архитектурах: LSTM и BRNN. [32]

При возрождении нейронных сетей в 1980-х годах рекуррентные сети снова стали изучаться. Иногда их называли «итерированными сетями». [33] Двумя ранними влиятельными работами были Jordan network (1986) и Elman network (1990), которые применили RNN для изучения когнитивной психологии . В 1993 году система компрессора нейронной истории решила задачу «Очень глубокого обучения», которая требовала более 1000 последовательных слоев в RNN, развернутых во времени. [34]

Сети с долговременной краткосрочной памятью (LSTM) были изобретены Хохрайтером и Шмидхубером в 1995 году и установили рекорды точности в различных областях применения. [35] [36] Они стали выбором по умолчанию для архитектуры RNN.

Двунаправленные рекуррентные нейронные сети (BRNN) используют две RNN, которые обрабатывают один и тот же вход в противоположных направлениях. [37] Эти две сети часто объединяются, образуя двунаправленную архитектуру LSTM.

Около 2006 года двунаправленные LSTM начали революционизировать распознавание речи , превзойдя традиционные модели в некоторых речевых приложениях. [38] [39] Они также улучшили распознавание речи с большим словарным запасом [3] [4] и синтез текста в речь [40] и использовались в голосовом поиске Google и диктовке на устройствах Android . [41] Они побили рекорды по улучшению машинного перевода , [42] языкового моделирования [43] и многоязыковой языковой обработки. [44] Кроме того, LSTM в сочетании со сверточными нейронными сетями (CNN) улучшили автоматическое субтитрование изображений . [45]

Идея кодировщика-декодировщика последовательной трансдукции была разработана в начале 2010-х годов. Наиболее часто цитируемыми статьями, которые создали seq2seq, являются две статьи 2014 года. [46] [47] Архитектура seq2seq использует две RNN, обычно LSTM, «кодер» и «декодер», для последовательной трансдукции, такой как машинный перевод. Они стали передовым достижением в машинном переводе и сыграли важную роль в разработке механизма внимания и Transformer .

Конфигурации

Модель на основе RNN можно разбить на две части: конфигурацию и архитектуру. Несколько RNN можно объединить в поток данных, а сам поток данных является конфигурацией. Каждая RNN может иметь любую архитектуру, включая LSTM, GRU и т. д.

Стандарт

Сжатая (слева) и развернутая (справа) базовая рекуррентная нейронная сеть

RNN существуют во многих вариантах. Абстрактно говоря, RNN — это функция типа , где

На словах это нейронная сеть, которая отображает вход в выход , при этом скрытый вектор играет роль «памяти», частичной записи всех предыдущих пар вход-выход. На каждом шагу она преобразует вход в выход и изменяет свою «память», чтобы лучше выполнять будущую обработку.

Иллюстрация справа может ввести в заблуждение многих, поскольку практические топологии нейронных сетей часто организованы в «слои», и рисунок создает такой вид. Однако то, что кажется слоями , на самом деле является различными шагами во времени, «развернутыми» для создания видимости слоев .

Стекированная RNN

Сложенная RNN.

Сложенная RNN , или глубокая RNN , состоит из нескольких RNN, расположенных друг над другом. Абстрактно, она структурирована следующим образом

  1. Слой 1 имеет скрытые векторы , параметры и карты .
  2. Слой 2 имеет скрытые векторы , параметры и карты .
  3. ...
  4. Слой имеет скрытые векторы , параметры и карты .

Каждый слой работает как автономная RNN, и выходная последовательность каждого слоя используется как входная последовательность для слоя выше. Не существует концептуального ограничения на глубину RNN.

Двунаправленный

Двунаправленная RNN.

Двунаправленная RNN (biRNN) состоит из двух RNN, одна из которых обрабатывает входную последовательность в одном направлении, а другая — в противоположном. Абстрактно она структурирована следующим образом:

Затем две выходные последовательности объединяются для получения общего выходного сигнала: .

Двунаправленная RNN позволяет модели обрабатывать токен как в контексте того, что было до него, так и того, что было после него. Объединяя несколько двунаправленных RNN вместе, модель может обрабатывать токен все более контекстно. Модель ELMo (2018) [48] представляет собой стекированную двунаправленную LSTM , которая принимает в качестве входных данных уровень символов и производит вложения на уровне слов.

Кодер-декодер

Декодер без кодера.
Кодер-декодер RNN без механизма внимания.
Кодер-декодер RNN с механизмом внимания.


Две RNN могут работать фронт-ту-бэк в конфигурации кодер-декодер . RNN кодера преобразует входную последовательность в последовательность скрытых векторов, а RNN декодера преобразует последовательность скрытых векторов в выходную последовательность с дополнительным механизмом внимания . Это использовалось для построения современных нейронных машинных переводчиков в период 2014–2017 годов. Это стало важным шагом на пути к разработке Трансформеров . [49]

PixelRNN

RNN может обрабатывать данные с более чем одним измерением. PixelRNN обрабатывает двумерные данные со многими возможными направлениями. [50] Например, направление по строкам обрабатывает сетку векторов в следующем порядке: Диагональная BiLSTM использует две LSTM для обработки одной и той же сетки. Одна обрабатывает ее от верхнего левого угла до нижнего правого, так что она обрабатывает в зависимости от своего скрытого состояния и состояния ячейки сверху и слева: и . Другая обрабатывает ее от верхнего правого угла до нижнего левого.

Архитектура

Полностью повторяющийся

Полностью связанная RNN с 4 нейронами.

Полностью рекуррентные нейронные сети (FRNN) соединяют выходы всех нейронов со входами всех нейронов. Другими словами, это полностью связанная сеть . Это наиболее общая топология нейронной сети, поскольку все другие топологии могут быть представлены путем установки некоторых весов соединений на ноль для имитации отсутствия соединений между этими нейронами.

Простая сеть Элмана, где .

Хопфилд

Сеть Хопфилда — это RNN, в которой все соединения между слоями имеют одинаковый размер. Она требует стационарных входов и, таким образом, не является общей RNN, поскольку не обрабатывает последовательности шаблонов. Однако она гарантирует, что будет сходиться. Если соединения обучаются с использованием обучения Хебба , то сеть Хопфилда может работать как надежная адресуемая по содержимому память , устойчивая к изменению соединений.

Сети Элмана и сети Джордана

Сеть Элмана

Сеть Элмана представляет собой трехслойную сеть (расположенную горизонтально как x , y и z на иллюстрации) с добавлением набора контекстных единиц ( u на иллюстрации). Средний (скрытый) слой соединен с этими контекстными единицами с фиксированным весом, равным единице. [51] На каждом временном шаге входные данные передаются вперед, и применяется правило обучения . Фиксированные обратные связи сохраняют копию предыдущих значений скрытых единиц в контекстных единицах (поскольку они распространяются по связям до применения правила обучения). Таким образом, сеть может поддерживать своего рода состояние, что позволяет ей выполнять такие задачи, как предсказание последовательности, которые выходят за рамки возможностей стандартного многослойного персептрона .

Сети Джордана похожи на сети Элмана. Контекстные единицы подаются из выходного слоя вместо скрытого слоя. Контекстные единицы в сети Джордана также называются слоем состояния. Они имеют рекуррентное соединение с собой. [51]

Сети Элмана и Джордана также известны как «простые рекуррентные сети» (SRN).

Сеть Элмана [52]
Сеть Иордании [53]

Переменные и функции

Длительная кратковременная память

Долговременная единица кратковременной памяти

Краткосрочная память (LSTM) — наиболее широко используемая архитектура RNN. Она была разработана для решения проблемы исчезающего градиента . LSTM обычно дополняется рекуррентными вентилями, называемыми «вентилями забывания». [54] LSTM предотвращает исчезновение или взрыв ошибок обратного распространения. [55] Вместо этого ошибки могут течь обратно через неограниченное количество виртуальных слоев, развернутых в пространстве. То есть LSTM может изучать задачи, требующие воспоминаний о событиях, которые произошли тысячи или даже миллионы дискретных временных шагов ранее. Можно развивать топологии, подобные LSTM, для конкретных задач. [56] LSTM работает даже при больших задержках между значимыми событиями и может обрабатывать сигналы, которые смешивают низкочастотные и высокочастотные компоненты.

Многие приложения используют стеки LSTM, [57] за что их называют «глубокими LSTM». LSTM может научиться распознавать контекстно-зависимые языки в отличие от предыдущих моделей, основанных на скрытых марковских моделях (HMM) и подобных концепциях. [58]

Закрытый рекуррентный блок

Закрытый рекуррентный блок

Gated recurrent unit (GRU), представленный в 2014 году, был разработан как упрощение LSTM. Они используются в полной форме и нескольких более упрощенных вариантах. [59] [60] Они имеют меньше параметров, чем LSTM, поскольку у них отсутствует выходной вентиль. [61]

Было обнаружено, что их производительность при моделировании полифонической музыки и моделировании речевых сигналов аналогична производительности долговременной кратковременной памяти. [62] Похоже, что особой разницы в производительности между LSTM и GRU не наблюдается. [62] [63]

Двунаправленная ассоциативная память

Представленная Бартом Коско [64] , двунаправленная ассоциативная память (BAM) — это вариант сети Хопфилда, которая хранит ассоциативные данные в виде вектора. Двунаправленность достигается путем передачи информации через матрицу и ее транспонирование . Обычно биполярное кодирование предпочтительнее двоичного кодирования ассоциативных пар. Недавно стохастические модели BAM, использующие марковское пошаговое выполнение, были оптимизированы для повышения стабильности сети и соответствия реальным приложениям. [65]

Сеть BAM состоит из двух слоев, каждый из которых может использоваться в качестве входных данных для вызова ассоциации и создания выходных данных на другом слое. [66]

Эхо-состояние

Сети эхо-состояний (ESN) имеют редко связанный случайный скрытый слой. Веса выходных нейронов являются единственной частью сети, которая может изменяться (обучаться). ESN хороши для воспроизведения определенных временных рядов . [67] Вариант для импульсных нейронов известен как машина с жидким состоянием . [68]

Рекурсивный

Рекурсивная нейронная сеть [69] создается путем рекурсивного применения того же набора весов к дифференцируемой графоподобной структуре путем обхода структуры в топологическом порядке . Такие сети обычно также обучаются с помощью обратного режима автоматического дифференцирования . [70] [71] Они могут обрабатывать распределенные представления структуры, такие как логические термины . Особым случаем рекурсивных нейронных сетей является RNN, структура которой соответствует линейной цепи. Рекурсивные нейронные сети были применены для обработки естественного языка . [72] Рекурсивная нейронная тензорная сеть использует функцию композиции на основе тензора для всех узлов в дереве. [73]

Нейронные машины Тьюринга

Нейронные машины Тьюринга (NTM) — это метод расширения рекуррентных нейронных сетей путем их соединения с внешними ресурсами памяти , с которыми они взаимодействуют. Объединенная система аналогична машине Тьюринга или архитектуре фон Неймана, но является дифференцируемой от начала до конца, что позволяет эффективно обучать ее с помощью градиентного спуска . [74]

Дифференцируемые нейронные компьютеры (DNC) являются расширением нейронных машин Тьюринга, позволяющим использовать нечеткие значения каждого адреса памяти и запись хронологии. [75]

Нейронные сетевые автоматы pushdown (NNPDA) похожи на NTM, но ленты заменены аналоговыми стеками, которые дифференцируемы и обучаемы. Таким образом, они похожи по сложности на распознаватели контекстно-свободных грамматик (CFG). [76]

Рекуррентные нейронные сети являются полными по Тьюрингу и могут запускать произвольные программы для обработки произвольных последовательностей входных данных. [77]

Обучение

Учитель заставляет

Кодер-декодер RNN без механизма внимания. Принуждение учителя показано красным.

RNN можно обучить условно генеративной модели последовательностей, известной как авторегрессия .

Конкретно, давайте рассмотрим задачу машинного перевода, то есть, если задана последовательность английских слов, модель должна создать последовательность французских слов. Она должна быть решена с помощью модели seq2seq .

Теперь, во время обучения, половина модели-кодировщика сначала будет поглощать , затем половина-декодер начнет генерировать последовательность . Проблема в том, что если модель совершает ошибку на раннем этапе, скажем, в , то последующие токены, скорее всего, также будут ошибками. Это делает получение обучающего сигнала моделью неэффективным, поскольку модель в основном научится смещаться в сторону , но не в сторону других.

Принуждение учителя делает так, что декодер использует правильную выходную последовательность для генерации следующей записи в последовательности. Так, например, он увидит, чтобы сгенерировать .

Градиентный спуск

Градиентный спуск — это итеративный алгоритм оптимизации первого порядка для поиска минимума функции. В нейронных сетях его можно использовать для минимизации ошибки, изменяя каждый вес пропорционально производной ошибки по отношению к этому весу, при условии, что нелинейные функции активации дифференцируемы .

Стандартный метод обучения RNN градиентным спуском — это алгоритм « обратного распространения по времени » (BPTT), который является частным случаем общего алгоритма обратного распространения . Более затратный в вычислительном отношении онлайн-вариант называется «Real-Time Recurrent Learning» или RTRL, [78] [79], который является примером автоматического дифференцирования в режиме прямого накопления с уложенными касательными векторами. В отличие от BPTT, этот алгоритм локален во времени, но не локален в пространстве.

В этом контексте локальность в пространстве означает, что вектор веса блока может быть обновлен с использованием только информации, хранящейся в подключенных блоках и самом блоке, так что сложность обновления одного блока линейна по размерности вектора веса. Локализация во времени означает, что обновления происходят непрерывно (онлайн) и зависят только от самого последнего временного шага, а не от нескольких временных шагов в пределах заданного временного горизонта, как в BPTT. Биологические нейронные сети кажутся локальными как по времени, так и по пространству. [80] [81]

Для рекурсивного вычисления частных производных RTRL имеет временную сложность O(количество скрытых x количество весов) на шаг времени для вычисления матриц Якоби , в то время как BPTT берет только O(количество весов) на шаг времени, за счет сохранения всех прямых активаций в пределах заданного временного горизонта. [82] Существует онлайн-гибрид между BPTT и RTRL с промежуточной сложностью, [83] [84] вместе с вариантами для непрерывного времени. [85]

Основная проблема градиентного спуска для стандартных архитектур RNN заключается в том, что градиенты ошибок исчезают экспоненциально быстро с размером временного лага между важными событиями. [55] [86] LSTM в сочетании с гибридным методом обучения BPTT/RTRL пытается преодолеть эти проблемы. [36] Эта проблема также решается в независимо рекуррентной нейронной сети (IndRNN) [87] путем сведения контекста нейрона к его собственному прошлому состоянию, а затем перекрестная информация нейронов может быть исследована в следующих слоях. Воспоминания различных диапазонов, включая долговременную память, могут быть изучены без проблемы исчезновения градиента и взрыва.

Онлайновый алгоритм, называемый причинно-следственным рекурсивным обратным распространением (CRBP), реализует и объединяет парадигмы BPTT и RTRL для локально рекуррентных сетей. [88] Он работает с наиболее общими локально рекуррентными сетями. Алгоритм CRBP может минимизировать глобальный член ошибки. Этот факт повышает стабильность алгоритма, предоставляя унифицированный взгляд на методы вычисления градиента для рекуррентных сетей с локальной обратной связью.

Один из подходов к вычислению градиентной информации в RNN с произвольной архитектурой основан на диаграммном выводе графов потока сигналов. [89] Он использует пакетный алгоритм BPTT, основанный на теореме Ли для вычислений чувствительности сети. [90] Он был предложен Ваном и Бофейсом, в то время как его быстрая онлайн-версия была предложена Камполуччи, Унчини и Пьяцца. [90]

Коннекционистская временная классификация

Коннекционистская временная классификация (CTC) [91] представляет собой специализированную функцию потерь для обучения RNN для задач моделирования последовательностей, где время является переменным. [92]

Методы глобальной оптимизации

Обучение весов в нейронной сети можно смоделировать как нелинейную глобальную задачу оптимизации. Целевая функция может быть сформирована для оценки пригодности или ошибки конкретного вектора весов следующим образом: Сначала веса в сети устанавливаются в соответствии с вектором весов. Затем сеть оценивается по обучающей последовательности. Обычно для представления ошибки текущего вектора весов используется сумма квадратов разностей между прогнозами и целевыми значениями, указанными в обучающей последовательности. Затем для минимизации этой целевой функции могут использоваться произвольные методы глобальной оптимизации.

Наиболее распространенным методом глобальной оптимизации для обучения RNN являются генетические алгоритмы , особенно в неструктурированных сетях. [93] [94] [95]

Первоначально генетический алгоритм кодируется с весами нейронной сети предопределенным образом, где один ген в хромосоме представляет одну весовую связь. Вся сеть представлена ​​как одна хромосома. Функция приспособленности оценивается следующим образом:

Популяция состоит из множества хромосом; поэтому множество различных нейронных сетей развиваются до тех пор, пока не будет удовлетворен критерий остановки. Распространенная схема остановки:

Функция пригодности оценивает критерий остановки, поскольку она получает обратную среднеквадратичную ошибку от каждой сети во время обучения. Таким образом, цель генетического алгоритма — максимизировать функцию пригодности, уменьшая среднеквадратичную ошибку.

Для поиска хорошего набора весов могут использоваться другие глобальные (и/или эволюционные) методы оптимизации, такие как имитация отжига или оптимизация роя частиц .

Другие архитектуры

Независимый RNN (IndRNN)

Независимая рекуррентная нейронная сеть (IndRNN) [87] решает проблемы исчезновения и взрыва градиента в традиционной полностью связанной RNN. Каждый нейрон в одном слое получает только свое собственное прошлое состояние в качестве контекстной информации (вместо полной связи со всеми другими нейронами в этом слое), и, таким образом, нейроны независимы от истории друг друга. Обратное распространение градиента можно регулировать, чтобы избежать исчезновения и взрыва градиента для сохранения долговременной или кратковременной памяти. Перекрестная информация нейронов исследуется в следующих слоях. IndRNN можно надежно обучать с помощью ненасыщаемых нелинейных функций, таких как ReLU. Глубокие сети можно обучать с использованием пропусков соединений.

Компрессор нейронной истории

Компрессор нейронной истории — это неконтролируемый стек RNN. [96] На уровне входных данных он учится предсказывать свои следующие входные данные из предыдущих входных данных. Только непредсказуемые входные данные некоторых RNN в иерархии становятся входными данными для следующего RNN более высокого уровня, который, следовательно, пересчитывает свое внутреннее состояние лишь изредка. Таким образом, каждая RNN более высокого уровня изучает сжатое представление информации в RNN ниже. Это делается таким образом, что входная последовательность может быть точно восстановлена ​​из представления на самом высоком уровне.

Система эффективно минимизирует длину описания или отрицательный логарифм вероятности данных. [97] Учитывая большую предсказуемость в последовательности входящих данных, RNN самого высокого уровня может использовать контролируемое обучение для легкой классификации даже глубоких последовательностей с большими интервалами между важными событиями.

Можно разделить иерархию RNN на две RNN: «сознательный» чанкер (более высокий уровень) и «подсознательный» автоматизатор (более низкий уровень). [96] Как только чанкер научился предсказывать и сжимать входные данные, которые автоматизатор не может предсказать, то автоматизатор может быть вынужден на следующем этапе обучения предсказывать или имитировать с помощью дополнительных единиц скрытые единицы более медленно изменяющегося чанкера. Это позволяет автоматизатору легко изучать соответствующие, редко меняющиеся воспоминания в течение длительных интервалов. В свою очередь, это помогает автоматизатору сделать многие из его когда-то непредсказуемых входных данных предсказуемыми, так что чанкер может сосредоточиться на оставшихся непредсказуемых событиях. [96]

Генеративная модель частично преодолела проблему исчезающего градиента [55] автоматического дифференцирования или обратного распространения в нейронных сетях в 1992 году. В 1993 году такая система решила задачу «Очень глубокого обучения», которая требовала более 1000 последовательных слоев в RNN, развернутых во времени. [34]

RNN второго порядка

RNN второго порядка используют веса более высокого порядка вместо стандартных весов, а состояния могут быть продуктом. Это позволяет осуществлять прямое отображение в конечный автомат как в обучении, так и в стабильности и представлении. [98] [99] Долговременная кратковременная память является примером этого, но не имеет таких формальных отображений или доказательств стабильности.

Иерархическая рекуррентная нейронная сеть

Иерархические рекуррентные нейронные сети (HRNN) соединяют свои нейроны различными способами, чтобы разложить иерархическое поведение на полезные подпрограммы. [96] [100] Такие иерархические структуры познания присутствуют в теориях памяти, представленных философом Анри Бергсоном , чьи философские взгляды вдохновили иерархические модели. [101]

Иерархические рекуррентные нейронные сети полезны в прогнозировании , помогая предсказывать дезагрегированные компоненты инфляции индекса потребительских цен (ИПЦ). Модель HRNN использует информацию с более высоких уровней в иерархии ИПЦ для улучшения прогнозов более низкого уровня. Оценка существенного набора данных из индекса CPI-U США демонстрирует превосходную производительность модели HRNN по сравнению с различными устоявшимися методами прогнозирования инфляции . [102]

Рекуррентная многослойная персептронная сеть

Как правило, рекуррентная многослойная персептронная сеть (RMLP-сеть) состоит из каскадных подсетей, каждая из которых содержит несколько слоев узлов. Каждая подсеть является прямой, за исключением последнего слоя, который может иметь обратные связи. Каждая из этих подсетей связана только прямыми связями. [103]

Модель с несколькими временными шкалами

Многомасштабная рекуррентная нейронная сеть (MTRNN) — это нейронная вычислительная модель, которая может имитировать функциональную иерархию мозга посредством самоорганизации в зависимости от пространственной связи между нейронами и от различных типов нейронной активности, каждая из которых имеет различные временные свойства. [104] [105] При такой разнообразной нейронной активности непрерывные последовательности любого набора поведений сегментируются на повторно используемые примитивы, которые, в свою очередь, гибко интегрируются в разнообразные последовательные поведения. Биологическое одобрение такого типа иерархии обсуждалось в теории памяти-предсказания функций мозга Хокинса в его книге «Об интеллекте» . [ требуется ссылка ] Такая иерархия также согласуется с теориями памяти, предложенными философом Анри Бергсоном , которые были включены в модель MTRNN. [101] [106]

Мемристивные сети

Грег Снайдер из HP Labs описывает систему кортикальных вычислений с мемристивными наноустройствами. [107] Мемристоры (резисторы памяти) реализованы из тонкопленочных материалов, в которых сопротивление электрически настраивается посредством переноса ионов или кислородных вакансий внутри пленки. Проект SyNAPSE DARPA профинансировал IBM Research и HP Labs в сотрудничестве с кафедрой когнитивных и нейронных систем (ЦНС) Бостонского университета для разработки нейроморфных архитектур, которые могут быть основаны на мемристивных системах. Мемристивные сети представляют собой особый тип физической нейронной сети , которая имеет очень похожие свойства с сетями (Литтл-)Хопфилда, поскольку они имеют непрерывную динамику, ограниченную емкость памяти и естественную релаксацию посредством минимизации функции, которая является асимптотической к модели Изинга . В этом смысле динамика мемристивной схемы имеет преимущество по сравнению с сетью резистор-конденсатор, поскольку имеет более интересное нелинейное поведение. С этой точки зрения инженерные аналоговые мемристивные сети составляют особый тип нейроморфной инженерии , в которой поведение устройства зависит от схемы или топологии. Эволюцию этих сетей можно изучать аналитически, используя вариации уравнения Каравелли–Траверса– Ди Вентры . [108]

Непрерывное время

Непрерывно-временная рекуррентная нейронная сеть (CTRNN) использует систему обыкновенных дифференциальных уравнений для моделирования эффектов входящих входов на нейрон. Обычно они анализируются с помощью теории динамических систем . Многие модели RNN в нейронауке являются непрерывными во времени. [16]

Для нейрона в сети с активацией скорость изменения активации определяется по формуле:

Где:

Сети CTRNN применялись в эволюционной робототехнике , где они использовались для решения проблем зрения, [109] сотрудничества [110] и минимального когнитивного поведения. [111]

Обратите внимание, что, согласно теореме Шеннона о дискретизации , рекуррентные нейронные сети с дискретным временем можно рассматривать как рекуррентные нейронные сети с непрерывным временем, в которых дифференциальные уравнения преобразуются в эквивалентные разностные уравнения . [112] Это преобразование можно рассматривать как происходящее после того, как функции активации постсинаптического узла были подвергнуты низкочастотной фильтрации, но до дискретизации.

Они на самом деле являются рекурсивными нейронными сетями с определенной структурой: линейной цепочкой. В то время как рекурсивные нейронные сети работают с любой иерархической структурой, объединяя дочерние представления в родительские представления, рекуррентные нейронные сети работают с линейной прогрессией времени, объединяя предыдущий временной шаг и скрытое представление в представление для текущего временного шага.

С точки зрения временных рядов RNN могут выглядеть как нелинейные версии фильтров с конечным импульсным откликом и бесконечным импульсным откликом , а также как нелинейная авторегрессионная экзогенная модель (NARX). [113] RNN имеет бесконечный импульсный отклик, тогда как сверточные нейронные сети имеют конечный импульсный отклик. Оба класса сетей демонстрируют временное динамическое поведение . [114] Конечная импульсная рекуррентная сеть представляет собой направленный ациклический граф , который можно развернуть и заменить строго прямой нейронной сетью, в то время как бесконечная импульсная рекуррентная сеть представляет собой направленный циклический граф , который нельзя развернуть.

Эффект обучения на основе памяти для распознавания последовательностей может быть также реализован с помощью более биологической модели, которая использует механизм подавления, проявляющийся в нейронах с относительно высокочастотной импульсной активностью. [115]

Дополнительные сохраненные состояния и хранилище под прямым контролем сети могут быть добавлены как к бесконечно-импульсным , так и к конечно-импульсным сетям. Другая сеть или граф также могут заменить хранилище, если они включают временные задержки или имеют петли обратной связи. Такие контролируемые состояния называются стробированными состояниями или стробированной памятью и являются частью сетей краткосрочной памяти (LSTM) и стробированных рекуррентных единиц . Это также называется нейронной сетью с обратной связью (FNN).

Библиотеки

Современные библиотеки предоставляют оптимизированные для выполнения реализации вышеуказанных функций или позволяют ускорить медленный цикл с помощью оперативной компиляции .

Приложения

Области применения рекуррентных нейронных сетей включают:

Ссылки

  1. ^ Теалаб, Ахмед (2018-12-01). «Прогнозирование временных рядов с использованием методов искусственных нейронных сетей: систематический обзор». Future Computing and Informatics Journal . 3 (2): 334–340. doi : 10.1016/j.fcij.2018.10.003 . ISSN  2314-7288.
  2. ^ Грейвс, Алекс ; Ливицки, Маркус; Фернандес, Сантьяго; Бертолами, Роман; Бунке, Хорст; Шмидхубер, Юрген (2009). «Новая система коннекционизма для улучшенного неограниченного распознавания рукописного ввода» (PDF) . Труды IEEE по анализу образов и машинному интеллекту . 31 (5): 855–868. CiteSeerX 10.1.1.139.4502 . doi :10.1109/tpami.2008.137. PMID  19299860. S2CID  14635907. 
  3. ^ ab Sak, Haşim; Senior, Andrew; Beaufays, Françoise (2014). «Рекуррентные архитектуры нейронных сетей с долговременной краткосрочной памятью для крупномасштабного акустического моделирования» (PDF) . Google Research.
  4. ^ ab Ли, Сянган; У, Сихун (2014-10-15). «Построение глубоких рекуррентных нейронных сетей на основе долговременной краткосрочной памяти для распознавания речи с большим словарным запасом». arXiv : 1410.4281 [cs.CL].
  5. ^ Дюпон, Сэмюэл (2019). «Тщательный обзор текущего прогресса структур нейронных сетей». Annual Reviews in Control . 14 : 200–230.
  6. ^ Абиодун, Олюдаре Исаак; Джантан, Аман; Омолара, Абиодун Эстер; Дада, Кеми Виктория; Мохамед, Нахаат ​​Абделатиф; Аршад, Хумайра (01 ноября 2018 г.). «Современное состояние приложений искусственных нейронных сетей: обзор». Гелион . 4 (11): e00938. Бибкод : 2018Heliy...400938A. doi : 10.1016/j.heliyon.2018.e00938 . ISSN  2405-8440. ПМК 6260436 . ПМИД  30519653. 
  7. ^ Эспиноса-Санчес, Хуан Мануэль; Гомес-Марин, Алекс; де Кастро, Фернандо (2023-07-05). «Значение нейронауки Кахаля и Лоренте де Но для зарождения кибернетики». The Neuroscientist . doi :10.1177/10738584231179932. hdl : 10261/348372 . ISSN  1073-8584. PMID  37403768.
  8. ^ Рамон-и-Кахаль, Сантьяго (1909). Гистология нервных систем человека и позвонков. Том. II. Библиотека специальных коллекций Фойла Королевского колледжа Лондона. Париж: А. Малоин. п. 149.
  9. ^ de NÓ, R. Lorente (1933-08-01). "Vestibulo-Ocular Reflex Arc". Архивы неврологии и психиатрии . 30 (2): 245. doi :10.1001/archneurpsyc.1933.02240140009001. ISSN  0096-6754.
  10. ^ Ларрива-Сад, Хорхе А. (3 декабря 2014 г.). «Некоторые предсказания Рафаэля Лоренте де Но 80 лет спустя». Границы нейроанатомии . 8 : 147. дои : 10.3389/fnana.2014.00147 . ISSN  1662-5129. ПМЦ 4253658 . ПМИД  25520630. 
  11. ^ "реверберирующий контур". Oxford Reference . Получено 2024-07-27 .
  12. ^ Маккалок, Уоррен С.; Питтс, Уолтер (декабрь 1943 г.). «Логическое исчисление идей, имманентных нервной деятельности». Бюллетень математической биофизики . 5 (4): 115–133. doi :10.1007/BF02478259. ISSN  0007-4985.
  13. ^ Морено-Диас, Роберто; Морено-Диас, Арминда (апрель 2007 г.). «О наследии У. С. Маккалока». Biosystems . 88 (3): 185–190. Bibcode :2007BiSys..88..185M. doi :10.1016/j.biosystems.2006.08.010. PMID  17184902.
  14. ^ Арбиб, Майкл А. (декабрь 2000 г.). «Поиск логики нервной системы Уоррена Маккалока». Перспективы в биологии и медицине . 43 (2): 193–216. doi :10.1353/pbm.2000.0001. ISSN  1529-8795. PMID  10804585.
  15. ^ Реншоу, Бердси (1946-05-01). «Центральные эффекты центростремительных импульсов в аксонах спинномозговых вентральных корешков». Журнал нейрофизиологии . 9 (3): 191–204. doi :10.1152/jn.1946.9.3.191. ISSN  0022-3077. PMID  21028162.
  16. ^ ab Гроссберг, Стивен (2013-02-22). "Рекуррентные нейронные сети". Scholarpedia . 8 (2): 1888. Bibcode : 2013SchpJ...8.1888G. doi : 10.4249/scholarpedia.1888 . ISSN  1941-6016.
  17. ^ abc Розенблатт, Фрэнк (1961-03-15). DTIC AD0256582: ПРИНЦИПЫ НЕЙРОДИНАМИКИ. ПЕРСЕПТРОНЫ И ТЕОРИЯ МОЗГОВЫХ МЕХАНИЗМОВ. Центр технической информации Министерства обороны.
  18. ^ Ф. Розенблатт, «Обобщение восприятия по группам трансформации», стр. 63–100 в книге « Самоорганизующиеся системы: материалы междисциплинарной конференции», 5 и 6 мая 1959 г. Под редакцией Маршалла К. Йовитца и Скотта Кэмерона. Лондон, Нью-Йорк, [и т. д.], Pergamon Press, 1960. ix, 322 стр.
  19. ^ Накано, Каору (1971). «Процесс обучения в модели ассоциативной памяти». Распознавание образов и машинное обучение . стр. 172–186. doi :10.1007/978-1-4615-7566-5_15. ISBN 978-1-4615-7568-9.
  20. ^ Накано, Каору (1972). «Ассоциатрон — модель ассоциативной памяти». Труды IEEE по системам, человеку и кибернетике . SMC-2 (3): 380–388. doi :10.1109/TSMC.1972.4309133.
  21. ^ Амари, Шун-Ичи (1972). «Изучение шаблонов и последовательностей шаблонов с помощью самоорганизующихся сетей пороговых элементов». Труды IEEE . C (21): 1197–1206.
  22. ^ Little, WA (1974). «Существование устойчивых состояний в мозге». Mathematical Biosciences . 19 (1–2): 101–120. doi :10.1016/0025-5564(74)90031-5.
  23. ^ Ленц, В. (1920), «Beiträge zum Verständnis der Magneticischen Eigenschaften in festen Körpern», Physikalische Zeitschrift , 21 : 613–615.
  24. ^ Изинг, Э. (1925), "Beitrag zur Theorie des Ferromanetismus", Z. Phys. , 31 (1): 253–258, Бибкод : 1925ZPhy...31..253I, doi : 10.1007/BF02980577, S2CID  122157319
  25. ^ Браш, Стивен Г. (1967). «История модели Ленца-Изинга». Reviews of Modern Physics . 39 (4): 883–893. Bibcode : 1967RvMP...39..883B. doi : 10.1103/RevModPhys.39.883.
  26. ^ Глаубер, Рой Дж. (февраль 1963 г.). "Рой Дж. Глаубер "Зависящая от времени статистика модели Изинга"". Журнал математической физики . 4 (2): 294–307. doi :10.1063/1.1703954 . Получено 21.03.2021 .
  27. ^ Шеррингтон, Дэвид; Киркпатрик, Скотт (1975-12-29). «Решаемая модель спинового стекла». Physical Review Letters . 35 (26): 1792–1796. Bibcode : 1975PhRvL..35.1792S. doi : 10.1103/PhysRevLett.35.1792. ISSN  0031-9007.
  28. ^ Хопфилд, Дж. Дж. (1982). «Нейронные сети и физические системы с возникающими коллективными вычислительными способностями». Труды Национальной академии наук . 79 (8): 2554–2558. Bibcode : 1982PNAS...79.2554H. doi : 10.1073/pnas.79.8.2554 . PMC 346238. PMID  6953413 . 
  29. ^ Хопфилд, Дж. Дж. (1984). «Нейроны с градуированным ответом имеют коллективные вычислительные свойства, подобные свойствам двухуровневых нейронов». Труды Национальной академии наук . 81 (10): 3088–3092. Bibcode : 1984PNAS...81.3088H. doi : 10.1073/pnas.81.10.3088 . PMC 345226. PMID  6587342 . 
  30. ^ Энгель, А.; Брок, К. ван ден (2001). Статистическая механика обучения . Кембридж, Великобритания; Нью-Йорк, Нью-Йорк: Cambridge University Press. ISBN 978-0-521-77307-2.
  31. ^ Seung, HS; Sompolinsky, H.; Tishby, N. (1992-04-01). «Статистическая механика обучения на примерах». Physical Review A. 45 ( 8): 6056–6091. Bibcode : 1992PhRvA..45.6056S. doi : 10.1103/PhysRevA.45.6056. PMID  9907706.
  32. ^ Чжан, Астон; Липтон, Закари; Ли, Му; Смола, Александр Дж. (2024). "10. Современные рекуррентные нейронные сети". Погружение в глубокое обучение . Кембридж, Нью-Йорк, Порт Мельбурн, Нью-Дели, Сингапур: Cambridge University Press. ISBN 978-1-009-38943-3.
  33. ^ Rumelhart, David E.; Hinton, Geoffrey E.; Williams, Ronald J. (октябрь 1986 г.). «Изучение представлений с помощью обратного распространения ошибок». Nature . 323 (6088): 533–536. Bibcode :1986Natur.323..533R. doi :10.1038/323533a0. ISSN  1476-4687.
  34. ^ ab Schmidhuber, Jürgen (1993). Диссертация на соискание ученой степени: Моделирование и оптимизация систем (PDF) .[ постоянная неработающая ссылка ] Страница 150 и далее демонстрирует присвоение кредитов через эквивалент 1200 слоев в развернутой RNN.
  35. ^ Зепп Хохрейтер ; Юрген Шмидхубер (21 августа 1995 г.), Кратковременная долговременная память, Викиданные  Q98967430
  36. ^ аб Хохрейтер, Зепп ; Шмидхубер, Юрген (1 ноября 1997 г.). «Долгая кратковременная память». Нейронные вычисления . 9 (8): 1735–1780. дои : 10.1162/neco.1997.9.8.1735. PMID  9377276. S2CID  1915014.
  37. ^ Шустер, Майк и Кулдип К. Паливал. «Двунаправленные рекуррентные нейронные сети». Обработка сигналов, IEEE Transactions 45.11 (1997): 2673-2681.2. Авни Ханнун, Карл Кейс, Джаред Каспер, Брайан Катанзаро, Грег Диамос, Эрих Элсен, Райан
  38. ^ Грейвс, Алекс; Шмидхубер, Юрген (2005-07-01). «Кадровая классификация фонем с двунаправленной LSTM и другими архитектурами нейронных сетей». Нейронные сети . IJCNN 2005. 18 (5): 602–610. CiteSeerX 10.1.1.331.5800 . doi :10.1016/j.neunet.2005.06.042. PMID  16112549. S2CID  1856462. 
  39. ^ ab Fernández, Santiago; Graves, Alex; Schmidhuber, Jürgen (2007). "Применение рекуррентных нейронных сетей для дискриминационного обнаружения ключевых слов". Труды 17-й Международной конференции по искусственным нейронным сетям . ICANN'07. Берлин, Гейдельберг: Springer-Verlag. стр. 220–229. ISBN 978-3-540-74693-5.
  40. ^ Фань, Бо; Ван, Лицзюань; Сунг, Фрэнк К.; Се, Лей (2015). «Фотореалистичная говорящая голова с глубокой двунаправленной LSTM». Труды Международной конференции IEEE по акустике, речи и обработке сигналов ICASSP 2015. стр. 4884–8. doi :10.1109/ICASSP.2015.7178899. ISBN 978-1-4673-6997-8.
  41. ^ Сак, Хашим; Сениор, Эндрю; Рао, Канишка; Бофе, Франсуаза; Шалквик, Йохан (сентябрь 2015 г.). «Голосовой поиск Google: быстрее и точнее».
  42. ^ ab Sutskever, Ilya; Vinyals, Oriol; Le, Quoc V. (2014). "Последовательное обучение с помощью нейронных сетей" (PDF) . Электронные труды конференции по системам обработки нейронной информации . 27 : 5346. arXiv : 1409.3215 . Bibcode : 2014arXiv1409.3215S.
  43. ^ Юзефович, Рафал; Виньялс, Ориол; Шустер, Майк; Шазир, Ноам; Ву, Йонгхуэй (2016-02-07). «Изучение пределов моделирования языка». arXiv : 1602.02410 [cs.CL].
  44. ^ Гиллик, Дэн; Бранк, Клифф; Виньялс, Ориол; Субраманья, Амарнаг (30.11.2015). «Многоязычная обработка языка из байтов». arXiv : 1512.00103 [cs.CL].
  45. ^ Виньялс, Ориол; Тошев, Александр; Бенджио, Сами; Эрхан, Думитру (17.11.2014). «Покажи и расскажи: нейронный генератор подписей к изображениям». arXiv : 1411.4555 [cs.CV].
  46. ^ Чо, Кёнхён; ван Мерриенбур, Барт; Гульчехре, Чаглар; Багданау, Дмитрий; Бугарес, Фетхи; Швенк, Хольгер; Бенжио, Йошуа (2014-06-03). «Изучение представлений фраз с использованием кодировщика-декодера RNN для статистического машинного перевода». arXiv : 1406.1078 [cs.CL].
  47. ^ Суцкевер, Илья; Виньялс, Ориол; Ле, Куок Вьет (14 декабря 2014 г.). «Последовательное обучение с помощью нейронных сетей». arXiv : 1409.3215 [cs.CL].[первая версия опубликована в arXiv 10 сентября 2014 г.]
  48. ^ Питерс М. Э., Нойман М., Айер М., Гарднер М., Кларк С., Ли К., Цеттлемойер Л. (2018). «Глубоко контекстуализированные представления слов». arXiv : 1802.05365 [cs.CL].
  49. ^ Васвани, Ашиш; Шазир, Ноам; Пармар, Ники; Ушкорейт, Якоб; Джонс, Лион; Гомес, Эйдан Н; Кайзер, Лукаш; Полосухин, Илья (2017). «Внимание – это все, что вам нужно». Достижения в области нейронных систем обработки информации . 30 . Карран Ассошиэйтс, Инк.
  50. ^ Оорд, Аарон ван ден; Кальчбреннер, Нал; Кавукчуоглу, Корай (2016-06-11). «Пиксельные рекуррентные нейронные сети». Труды 33-й Международной конференции по машинному обучению . PMLR: 1747–1756.
  51. ^ Круз, Холк; Нейронные сети как кибернетические системы, 2-е и исправленное издание
  52. ^ Элман, Джеффри Л. (1990). «Поиск структуры во времени». Когнитивная наука . 14 (2): 179–211. doi : 10.1016/0364-0213(90)90002-E .
  53. ^ Jordan, Michael I. (1997-01-01). "Serial Order: A Parallel Distributed Processing Approach". Neural-Network Models of Cognition — Biobehavioral Foundations . Advances in Psychology. Vol. 121. pp. 471–495. doi :10.1016/s0166-4115(97)80111-2. ISBN 978-0-444-81931-4. S2CID  15375627.
  54. ^ Gers, Felix A.; Schraudolph, Nicol N.; Schmidhuber, Jürgen (2002). «Изучение точного времени с помощью рекуррентных сетей LSTM» (PDF) . Журнал исследований машинного обучения . 3 : 115–143 . Получено 13 июня 2017 г.
  55. ^ abc Hochreiter, Зепп (1991). Untersuruchungen zu dynamischen Neuronalen Netzen (PDF) (Диплом). Институт ф. Информатика, Технический университет Мюнхена.
  56. ^ Байер, Джастин; Вирстра, Даан; Тогелиус, Джулиан; Шмидхубер, Юрген (2009-09-14). "Evolving Memory Cell Structures for Sequence Learning". Искусственные нейронные сети – ICANN 2009 (PDF) . Lecture Notes in Computer Science. Vol. 5769. Berlin, Heidelberg: Springer. pp. 755–764. doi :10.1007/978-3-642-04277-5_76. ISBN 978-3-642-04276-8.
  57. ^ Фернандес, Сантьяго; Грейвс, Алекс; Шмидхубер, Юрген (2007). «Маркировка последовательностей в структурированных доменах с иерархическими рекуррентными нейронными сетями» (PDF) . Труды 20-й Международной совместной конференции по искусственному интеллекту, Ijcai 2007 . стр. 774–9. CiteSeerX 10.1.1.79.1887 . 
  58. ^ ab Gers, Felix A.; Schmidhuber, Jürgen (2001). "LSTM Recurrent Networks Learn Simple Context Free and Context Sensitive Languages" (PDF) . IEEE Transactions on Neural Networks . 12 (6): 1333–40. doi :10.1109/72.963769. PMID  18249962. S2CID  10192330. Архивировано из оригинала (PDF) 2020-07-10 . Получено 2017-12-12 .
  59. ^ Хек, Джоэл; Салем, Фатхи М. (2017-01-12). «Упрощенные минимальные вариации стробируемых единиц для рекуррентных нейронных сетей». arXiv : 1701.03452 [cs.NE].
  60. ^ Дей, Рахул; Салем, Фатхи М. (2017-01-20). «Варианты нейронных сетей с управляемыми рекуррентными единицами (GRU)». arXiv : 1701.05923 [cs.NE].
  61. ^ Britz, Denny (27 октября 2015 г.). «Учебник по рекуррентным нейронным сетям, часть 4 – Реализация GRU/LSTM RNN с Python и Theano – WildML». Wildml.com . Получено 18 мая 2016 г. .
  62. ^ ab Chung, Junyoung; Gulcehre, Caglar; Cho, KyungHyun; Bengio, Yoshua (2014). «Эмпирическая оценка рекуррентных нейронных сетей с управляемым входом при моделировании последовательностей». arXiv : 1412.3555 [cs.NE].
  63. ^ Грубер, Н.; Йокиш, А. (2020), «Являются ли клетки GRU более специфичными, а клетки LSTM более чувствительными в классификации мотивов текста?», Frontiers in Artificial Intelligence , 3 : 40, doi : 10.3389/frai.2020.00040 , PMC 7861254 , PMID  33733157, S2CID  220252321 
  64. ^ Коско, Барт (1988). «Двунаправленная ассоциативная память». Труды IEEE по системам, человеку и кибернетике . 18 (1): 49–60. doi :10.1109/21.87054. S2CID  59875735.
  65. ^ Раккиаппан, Раджан; Чандрасекар, Аруначалам; Лакшманан, Субраманиан; Парк, Джу Х. (2 января 2015 г.). «Экспоненциальная устойчивость для марковских прыгающих стохастических нейронных сетей BAM с зависимыми от режима вероятностными временными задержками и импульсным управлением». Сложность . 20 (3): 39–65. Bibcode : 2015Cmplx..20c..39R. doi : 10.1002/cplx.21503.
  66. ^ Рохас, Рауль (1996). Нейронные сети: систематическое введение. Springer. стр. 336. ISBN 978-3-540-60505-8.
  67. ^ Jaeger, Herbert; Haas, Harald (2004-04-02). «Использование нелинейности: прогнозирование хаотических систем и экономия энергии в беспроводной связи». Science . 304 (5667): 78–80. Bibcode :2004Sci...304...78J. CiteSeerX 10.1.1.719.2301 . doi :10.1126/science.1091277. PMID  15064413. S2CID  2184251. 
  68. ^ Маасс, Вольфганг; Натшлегер, Томас; Маркрам, Генри (2002). «Вычисления в реальном времени без стабильных состояний: новая структура для нейронных вычислений, основанных на возмущениях» (PDF) . Neural Computation . 14 (11): 2531–2560. doi :10.1162/089976602760407955. PMID  12433288. S2CID  1045112.
  69. ^ Голлер, Кристоф; Кюхлер, Андреас (1996). "Изучение зависимых от задачи распределенных представлений методом обратного распространения через структуру". Труды Международной конференции по нейронным сетям (ICNN'96) . Том 1. стр. 347. CiteSeerX 10.1.1.52.4759 . doi :10.1109/ICNN.1996.548916. ISBN  978-0-7803-3210-2. S2CID  6536466.
  70. ^ Линнайнмаа, Сеппо (1970). Представление кумулятивной ошибки округления алгоритма в виде разложения Тейлора локальных ошибок округления (магистр наук) (на финском языке). Университет Хельсинки.
  71. ^ Гриванк, Андреас; Вальтер, Андреа (2008). Оценка производных: принципы и методы алгоритмического дифференцирования (второе издание). SIAM. ISBN 978-0-89871-776-1.
  72. ^ Сохер, Ричард; Лин, Клифф; Нг, Эндрю Й.; Мэннинг, Кристофер Д., «Анализ природных сцен и естественного языка с помощью рекурсивных нейронных сетей» (PDF) , 28-я Международная конференция по машинному обучению (ICML 2011)
  73. ^ Сохер, Ричард; Перелыгин, Алекс; Ву, Джин Ю.; Чуан, Джейсон; Мэннинг, Кристофер Д.; Нг, Эндрю Ю.; Поттс, Кристофер. «Рекурсивные глубинные модели для семантической композиционности в древовидном банке настроений» (PDF) . Emnlp 2013 .
  74. ^ Грейвс, Алекс; Уэйн, Грег; Данихелька, Иво (2014). «Нейронные машины Тьюринга». arXiv : 1410.5401 [cs.NE].
  75. ^ Грейвс, Алекс; Уэйн, Грег; Рейнольдс, Малкольм; Харли, Тим; Данихелка, Иво; Грабска-Барвинска, Агнешка; Кольменарехо, Серхио Гомес; Грефенстетте, Эдвард; Рамальо, Тиаго (12.10.2016). «Гибридные вычисления с использованием нейронной сети с динамической внешней памятью». Nature . 538 (7626): 471–476. Bibcode :2016Natur.538..471G. doi :10.1038/nature20101. ISSN  1476-4687. PMID  27732574. S2CID  205251479.
  76. ^ Sun, Guo-Zheng; Giles, C. Lee; Chen, Hsing-Hen (1998). "The Neural Network Pushdown Automaton: Architecture, Dynamics and Training". В Giles, C. Lee; Gori, Marco (ред.). Adaptive Processing of Sequences and Data Structures . Lecture Notes in Computer Science. Berlin, Heidelberg: Springer. стр. 296–345. CiteSeerX 10.1.1.56.8723 . doi :10.1007/bfb0054003. ISBN  978-3-540-64341-8.
  77. ^ Хётюниеми, Хейкки (1996). «Машины Тьюринга — это рекуррентные нейронные сети». Труды STeP '96/Публикации Финского общества искусственного интеллекта : 13–24.
  78. ^ Робинсон, Энтони Дж.; Фоллсайд, Фрэнк (1987). Динамическая сеть распространения ошибок, управляемая коммунальными службами. Технический отчет CUED/F-INFENG/TR.1. Инженерный факультет Кембриджского университета.
  79. ^ Уильямс, Рональд Дж.; Зипсер, Д. (1 февраля 2013 г.). «Градиентные алгоритмы обучения для рекуррентных сетей и их вычислительная сложность». В Шовен, Ив; Румельхарт, Дэвид Э. (ред.). Обратное распространение: теория, архитектура и приложения. Psychology Press. ISBN 978-1-134-77581-1.
  80. ^ Шмидхубер, Юрген (1989-01-01). "Локальный алгоритм обучения для динамических сетей прямого распространения и рекуррентных сетей". Connection Science . 1 (4): 403–412. doi :10.1080/09540098908915650. S2CID  18721007.
  81. ^ Príncipe, José C.; Euliano, Neil R.; Lefebvre, W. Curt (2000). Нейронные и адаптивные системы: основы через моделирование. Wiley. ISBN 978-0-471-35167-2.
  82. ^ Янн, Оливье; Таллек, Корантен; Шарпиа, Гийом (28 июля 2015 г.). «Обучение рекуррентных сетей онлайн без возврата». arXiv : 1507.07680 [cs.NE].
  83. ^ Шмидхубер, Юрген (1 марта 1992 г.). «Алгоритм обучения с фиксированным размером памяти и сложностью O(n3) для полностью рекуррентных непрерывно работающих сетей». Neural Computation . 4 (2): 243–248. doi :10.1162/neco.1992.4.2.243. S2CID  11761172.
  84. ^ Уильямс, Рональд Дж. (1989). Сложность точных алгоритмов вычисления градиента для рекуррентных нейронных сетей (Отчет). Технический отчет NU-CCS-89-27. Бостон (Массачусетс): Северо-Восточный университет, Колледж компьютерных наук. Архивировано из оригинала 20-10-2017 . Получено 02-07-2017 .
  85. ^ Pearlmutter, Barak A. (1989-06-01). «Изучение траекторий пространства состояний в рекуррентных нейронных сетях». Neural Computation . 1 (2): 263–269. doi :10.1162/neco.1989.1.2.263. S2CID  16813485.
  86. ^ Хохрайтер, Сепп и др. (15 января 2001 г.). "Градиентный поток в рекуррентных сетях: сложность изучения долгосрочных зависимостей". В Колен, Джон Ф.; Кремер, Стефан К. (ред.). Полевое руководство по динамическим рекуррентным сетям . John Wiley & Sons. ISBN 978-0-7803-5369-5.
  87. ^ ab Ли, Шуай; Ли, Ваньцин; Кук, Крис; Чжу, Се; Яньбо, Гао (2018). «Независимо рекуррентная нейронная сеть (IndRNN): построение более длинной и глубокой RNN». arXiv : 1803.04831 [cs.CV].
  88. ^ Камполуччи, Паоло; Унчини, Аурелио; Пьяцца, Франческо; Рао, Бхаскар Д. (1999). «Алгоритмы онлайн-обучения для локально-рекуррентных нейронных сетей». Труды IEEE по нейронным сетям . 10 (2): 253–271. CiteSeerX 10.1.1.33.7550 . doi :10.1109/72.750549. PMID  18252525. 
  89. ^ Ван, Эрик А.; Бофе, Франсуаза (1996). «Диаграммный вывод градиентных алгоритмов для нейронных сетей». Neural Computation . 8 : 182–201. doi :10.1162/neco.1996.8.1.182. S2CID  15512077.
  90. ^ аб Камполуччи, Паоло; Унчини, Аурелио; Пьяцца, Франческо (2000). «Подход к онлайн-расчету градиента на основе графика потока сигналов». Нейронные вычисления . 12 (8): 1901–1927. CiteSeerX 10.1.1.212.5406 . дои : 10.1162/089976600300015196. PMID  10953244. S2CID  15090951. 
  91. ^ Грейвс, Алекс; Фернандес, Сантьяго; Гомес, Фаустино Дж. (2006). «Временная классификация коннекционистов: маркировка несегментированных данных последовательностей с помощью рекуррентных нейронных сетей» (PDF) . Труды Международной конференции по машинному обучению . стр. 369–376. CiteSeerX 10.1.1.75.6306 . doi :10.1145/1143844.1143891. ISBN  1-59593-383-2.
  92. ^ Ханнун, Авни (2017-11-27). "Моделирование последовательностей с помощью CTC". Distill . 2 (11): e8. doi : 10.23915/distill.00008 . ISSN  2476-0757.
  93. ^ Гомес, Фаустино Дж.; Мииккулайнен, Ристо (1999), «Решение немарковских задач управления с помощью нейроэволюции» (PDF) , IJCAI 99 , Морган Кауфманн , получено 5 августа 2017 г.
  94. ^ Сайед, Омар (май 1995 г.). Применение генетических алгоритмов к рекуррентным нейронным сетям для изучения параметров и архитектуры сетей (магистр наук). Кафедра электротехники, Университет Кейс Вестерн Резерв.
  95. ^ Гомес, Фаустино Дж.; Шмидхубер, Юрген; Мииккулайнен, Ристо (июнь 2008 г.). «Ускоренная нейронная эволюция через кооперативно коэволюционировавшие синапсы» (PDF) . Журнал исследований машинного обучения . 9 : 937–965.
  96. ^ abcd Шмидхубер, Юрген (1992). «Изучение сложных расширенных последовательностей с использованием принципа сжатия истории» (PDF) . Neural Computation . 4 (2): 234–242. doi :10.1162/neco.1992.4.2.234. S2CID  18271205.[ постоянная мертвая ссылка ]
  97. ^ Шмидхубер, Юрген (2015). «Глубокое обучение». Scholarpedia . 10 (11): 32832. Bibcode : 2015SchpJ..1032832S. doi : 10.4249/scholarpedia.32832 .
  98. ^ Джайлс, К. Ли; Миллер, Клиффорд Б.; Чен, Донг; Чен, Хсин-Хен; Сан, Го-Чжэн; Ли, Йи-Чун (1992). «Обучение и извлечение конечных автоматов с помощью рекуррентных нейронных сетей второго порядка» (PDF) . Нейронные вычисления . 4 (3): 393–405. doi :10.1162/neco.1992.4.3.393. S2CID  19666035.
  99. ^ Омлин, Кристиан В.; Джайлс, К. Ли (1996). «Построение детерминированных конечных автоматов в рекуррентных нейронных сетях». Журнал ACM . 45 (6): 937–972. CiteSeerX 10.1.1.32.2364 . doi :10.1145/235809.235811. S2CID  228941. 
  100. ^ Paine, Rainer W.; Tani, Jun (2005-09-01). «Как иерархический контроль самоорганизуется в искусственных адаптивных системах». Adaptive Behavior . 13 (3): 211–225. doi :10.1177/105971230501300303. S2CID  9932565.
  101. ^ ab "Burns, Benureau, Tani (2018) Вдохновленная Бергсоном адаптивная постоянная времени для модели рекуррентной нейронной сети с множественными временными масштабами. JNNS".
  102. ^ Баркан, Орен; Бенчимол, Джонатан; Каспи, Итамар; Коэн, Элия; Хаммер, Аллон; Кенигштейн, Ноам (2023). «Прогнозирование компонентов инфляции ИПЦ с помощью иерархических рекуррентных нейронных сетей». Международный журнал прогнозирования . 39 (3): 1145–1162. arXiv : 2011.07920 . doi : 10.1016/j.ijforecast.2022.04.009.
  103. ^ Тутчку, Курт (июнь 1995 г.). Рекуррентные многослойные персептроны для идентификации и управления: путь к приложениям . Отчет об исследованиях Института компьютерных наук. Том 118. Университет Вюрцбурга-ам-Хабланд. CiteSeerX 10.1.1.45.3527 . 
  104. ^ Ямашита, Юичи; Тани, Джун (2008-11-07). "Возникновение функциональной иерархии в модели нейронной сети с множественной шкалой времени: эксперимент с гуманоидным роботом". PLOS Computational Biology . 4 (11): e1000220. Bibcode : 2008PLSCB...4E0220Y. doi : 10.1371/journal.pcbi.1000220 . PMC 2570613. PMID  18989398 . 
  105. ^ Альнаджар, Фади; Ямашита, Юичи; Тани, Джун (2013). «Иерархическая и функциональная связанность когнитивных механизмов высшего порядка: нейророботическая модель для исследования стабильности и гибкости рабочей памяти». Frontiers in Neurorobotics . 7 : 2. doi : 10.3389/fnbot.2013.00002 . PMC 3575058. PMID  23423881 . 
  106. ^ «Материалы 28-й ежегодной конференции Японского общества нейронных сетей (октябрь 2018 г.)» (PDF) .
  107. Снайдер, Грег (2008), «Кортикальные вычисления с мемристивными наноустройствами», Sci-DAC Review , 10 : 58–65, архивировано из оригинала 2016-05-16 , извлечено 2019-09-06
  108. ^ Каравелли, Франческо; Траверса, Фабио Лоренцо; Ди Вентра, Массимилиано (2017). «Сложная динамика мемристивных цепей: аналитические результаты и универсальная медленная релаксация». Physical Review E. 95 ( 2): 022140. arXiv : 1608.08651 . Bibcode : 2017PhRvE..95b2140C. doi : 10.1103/PhysRevE.95.022140. PMID  28297937. S2CID  6758362.
  109. ^ Харви, Инман; Мужья, Фил; Клифф, Дэйв (1994), «Увидеть свет: искусственная эволюция, реальное видение», 3-я международная конференция по моделированию адаптивного поведения: от животных к аниматам 3 , стр. 392–401
  110. ^ Куинн, Мэтт (2001). «Развивающаяся коммуникация без выделенных каналов связи». Достижения в области искусственной жизни: 6-я Европейская конференция, ECAL 2001. С. 357–366. doi :10.1007/3-540-44811-X_38. ISBN 978-3-540-42567-0.
  111. ^ Бир, Рэндалл Д. (1997). «Динамика адаптивного поведения: исследовательская программа». Робототехника и автономные системы . 20 (2–4): 257–289. doi :10.1016/S0921-8890(96)00063-2.
  112. ^ Шерстинский, Алекс (2018-12-07). Блум-Редди, Бенджамин; Пейдж, Брукс; Каснер, Мэтт; Каруана, Рич; Рейнфорт, Том; Тех, Йи Уай (ред.). Выведение определения рекуррентной нейронной сети и развертывание RNN с использованием обработки сигналов. Семинар «Критика и исправление тенденций в машинном обучении» на NeurIPS-2018.
  113. ^ Siegelmann, Hava T.; Horne, Bill G.; Giles, C. Lee (1995). «Вычислительные возможности рекуррентных нейронных сетей NARX». Труды IEEE по системам, человеку и кибернетике — часть B: Кибернетика . 27 (2): 208–15. CiteSeerX 10.1.1.48.7468 . doi :10.1109/3477.558801. PMID  18255858. 
  114. ^ Милянович, Милош (февраль–март 2012 г.). «Сравнительный анализ рекуррентных и конечных импульсных нейронных сетей в прогнозировании временных рядов» (PDF) . Indian Journal of Computer and Engineering . 3 (1).
  115. ^ Ходассман, Шири; Меир, Ювал; Кисос, Карин; Бен-Ноам, Итамар; Тугендхафт, Яэль; Голдентал, Амир; Варди, Рони; Кантер, Идо (29.09.2022). «Механизм нейронного подавления, созданный мозгом, для обеспечения надежной идентификации последовательностей». Scientific Reports . 12 (1): 16003. arXiv : 2203.13028 . Bibcode : 2022NatSR..1216003H. doi : 10.1038/s41598-022-20337-x . ISSN  2045-2322. PMC 9523036 . PMID  36175466. 
  116. ^ Метц, Кейд (18 мая 2016 г.). «Google создала собственные чипы для своих ботов на базе искусственного интеллекта». Wired .
  117. ^ Майер, Герман; Гомес, Фаустино Дж.; Виерстра, Даан; Надь, Иштван; Нолл, Алоис; Шмидхубер, Юрген (октябрь 2006 г.). «Система для роботизированной кардиохирургии, которая учится завязывать узлы с помощью рекуррентных нейронных сетей». 2006 Международная конференция IEEE/RSJ по интеллектуальным роботам и системам . стр. 543–548. CiteSeerX 10.1.1.218.3399 . дои : 10.1109/IROS.2006.282190. ISBN  978-1-4244-0258-8. S2CID  12284900.
  118. ^ Вирстра, Даан; Шмидхубер, Юрген; Гомес, Фаустино Дж. (2005). «Evolino: гибридная нейроэволюция/оптимальный линейный поиск для последовательного обучения». Труды 19-й Международной совместной конференции по искусственному интеллекту (IJCAI), Эдинбург . С. 853–8. OCLC  62330637.
  119. ^ Петнехази, Габор (01.01.2019). «Рекуррентные нейронные сети для прогнозирования временных рядов». arXiv : 1901.00069 [cs.LG].
  120. ^ Хевамалаге, Хансика; Бергмейр, Кристоф; Бандара, Касун (2020). «Рекуррентные нейронные сети для прогнозирования временных рядов: текущее состояние и будущие направления». Международный журнал прогнозирования . 37 : 388–427. arXiv : 1909.00590 . doi : 10.1016/j.ijforecast.2020.06.008. S2CID  202540863.
  121. ^ Грейвс, Алекс; Шмидхубер, Юрген (2005). «Кадровая классификация фонем с двунаправленной LSTM и другими архитектурами нейронных сетей». Neural Networks . 18 (5–6): 602–610. CiteSeerX 10.1.1.331.5800 . doi :10.1016/j.neunet.2005.06.042. PMID  16112549. S2CID  1856462. 
  122. ^ Грейвс, Алекс; Мохамед, Абдель-Рахман; Хинтон, Джеффри Э. (2013). «Распознавание речи с помощью глубоких рекуррентных нейронных сетей». Международная конференция IEEE по акустике, речи и обработке сигналов 2013 г. , стр. 6645–9. arXiv : 1303.5778 . Bibcode :2013arXiv1303.5778G. doi :10.1109/ICASSP.2013.6638947. ISBN 978-1-4799-0356-6. S2CID  206741496.
  123. ^ Чанг, Эдвард Ф.; Шартье, Джош; Ануманчипалли, Гопала К. (24 апреля 2019 г.). «Синтез речи из нейронного декодирования произнесенных предложений». Nature . 568 (7753): 493–8. Bibcode :2019Natur.568..493A. doi :10.1038/s41586-019-1119-1. ISSN  1476-4687. PMC 9714519 . PMID  31019317. S2CID  129946122. 
  124. ^ Moses, David A.; Metzger, Sean L.; Liu, Jessie R.; Anumanchipalli, Gopala K.; Makin, Joseph G.; Sun, Pengfei F.; Chartier, Josh; Dougherty, Maximilian E.; Liu, Patricia M.; Abrams, Gary M.; Tu-Chan, Adelyn; Ganguly, Karunesh; Chang, Edward F. (15.07.2021). «Нейропротез для декодирования речи у парализованного человека с анартрией». New England Journal of Medicine . 385 (3): 217–227. doi :10.1056/NEJMoa2027540. PMC 8972947. PMID  34260835 . 
  125. ^ Малхотра, Панкадж; Виг, Лавекеш; Шрофф, Гаутам; Агарвал, Пунит (апрель 2015 г.). «Сети краткосрочной памяти для обнаружения аномалий во временных рядах». Европейский симпозиум по искусственным нейронным сетям, вычислительному интеллекту и машинному обучению – ESANN 2015. Ciaco. стр. 89–94. ISBN 978-2-87587-015-5.
  126. ^ "Papers with Code - DeepHS-HDRVideo: глубокая высокоскоростная реконструкция видео с высоким динамическим диапазоном". paperswithcode.com . Получено 13 октября 2022 г.
  127. ^ Gers, Felix A.; Schraudolph, Nicol N.; Schmidhuber, Jürgen (2002). «Изучение точного времени с помощью рекуррентных сетей LSTM» (PDF) . Журнал исследований машинного обучения . 3 : 115–143.
  128. ^ Эк, Дуглас; Шмидхубер, Юрген (2002-08-28). «Изучение долгосрочной структуры блюза». Искусственные нейронные сети — ICANN 2002. Конспект лекций по информатике. Том 2415. Берлин, Гейдельберг: Springer. С. 284–289. CiteSeerX 10.1.1.116.3620 . doi :10.1007/3-540-46084-5_47. ISBN  978-3-540-46084-8.
  129. ^ Шмидхубер, Юрген; Герс, Феликс А.; Эк, Дуглас (2002). «Изучение нерегулярных языков: сравнение простых рекуррентных сетей и LSTM». Neural Computation . 14 (9): 2039–2041. CiteSeerX 10.1.1.11.7369 . doi :10.1162/089976602320263980. PMID  12184841. S2CID  30459046. 
  130. ^ Перес-Ортис, Хуан Антонио; Герс, Феликс А.; Эк, Дуглас; Шмидхубер, Юрген (2003). «Фильтры Калмана улучшают производительность сетей LSTM в задачах, неразрешимых традиционными рекуррентными сетями». Нейронные сети . 16 (2): 241–250. CiteSeerX 10.1.1.381.1992 . doi :10.1016/s0893-6080(02)00219-8. PMID  12628609. 
  131. ^ Грейвс, Алекс; Шмидхубер, Юрген (2009). «Оффлайн-распознавание рукописного ввода с помощью многомерных рекуррентных нейронных сетей» (PDF) . Достижения в области нейронных систем обработки информации . Том 22, NIPS'22. MIT Press. С. 545–552.
  132. ^ Грейвс, Алекс; Фернандес, Сантьяго; Ливицки, Маркус; Бунке, Хорст; Шмидхубер, Юрген (2007). «Неограниченное распознавание рукописного текста в режиме онлайн с помощью рекуррентных нейронных сетей». Труды 20-й Международной конференции по системам обработки нейронной информации . Curran Associates. С. 577–584. ISBN 978-1-60560-352-0.
  133. ^ Baccouche, Moez; Mamalet, Franck; Wolf, Christian; Garcia, Christophe; Baskurt, Atilla (2011). "Последовательное глубокое обучение для распознавания человеческих действий". В Salah, Albert Ali; Lepri, Bruno (ред.). Human Behavior Unterstanding . Lecture Notes in Computer Science. Vol. 7065. Amsterdam, Netherlands: Springer. pp. 29–39. doi :10.1007/978-3-642-25446-8_4. ISBN 978-3-642-25445-1.
  134. ^ Хохрайтер, Зепп; Хойзель, Мартин; Обермайер, Клаус (2007). «Быстрое определение гомологии белков на основе моделей без выравнивания». Биоинформатика . 23 (14): 1728–1736. doi : 10.1093/bioinformatics/btm247 . PMID  17488755.
  135. ^ Тиреу, Триас; Речко, Мартин (июль 2007 г.). «Двунаправленные сети длительной краткосрочной памяти для прогнозирования субклеточной локализации эукариотических белков». Труды IEEE/ACM по вычислительной биологии и биоинформатике . 4 (3): 441–446. doi :10.1109/tcbb.2007.1015. PMID  17666763. S2CID  11787259.
  136. ^ Такс, Ник; Веренич, Илья; Ла Роза, Марчелло; Дюма, Марлон (2017). «Прогностический мониторинг бизнес-процессов с использованием нейронных сетей LSTM». Advanced Information Systems Engineering . Lecture Notes in Computer Science. Vol. 10253. pp. 477–492. arXiv : 1612.02130 . doi :10.1007/978-3-319-59536-8_30. ISBN 978-3-319-59535-1. S2CID  2192354.
  137. ^ Чой, Эдвард; Бахадори, Мохаммад Таха; Шютц, Энди; Стюарт, Уолтер Ф.; Сан, Джименг (2016). «Докторский ИИ: прогнозирование клинических событий с помощью рекуррентных нейронных сетей». Труды семинара и конференции JMLR . 56 : 301–318. arXiv : 1511.05942 . Bibcode : 2015arXiv151105942C. PMC 5341604. PMID  28286600 . 
  138. ^ «Искусственный интеллект помогает ускорить прогресс в направлении эффективных реакций синтеза». Принстонский университет . Получено 2023-06-12 .

Дальнейшее чтение