Длительная кратковременная память

Длительная кратковременная память ( LSTM ) ^[1] — это тип рекуррентной нейронной сети (RNN), направленный на смягчение проблемы исчезающего градиента ^[2], с которой обычно сталкиваются традиционные RNN. Ее относительная нечувствительность к длине зазора является ее преимуществом перед другими RNN, скрытыми марковскими моделями и другими методами обучения последовательностей. Она направлена на обеспечение кратковременной памяти для RNN, которая может длиться тысячи временных шагов (отсюда « длительная кратковременная память»). ^[1] Название сделано по аналогии с долговременной памятью и кратковременной памятью и их взаимосвязью, изучаемой когнитивными психологами с начала 20-го века.

Блок LSTM обычно состоит из ячейки и трех вентилей : входного вентиля , выходного вентиля ^[3] и вентиля забывания . ^[4] Ячейка запоминает значения в течение произвольных интервалов времени , а вентили регулируют поток информации в ячейку и из нее. Вентили забывания решают, какую информацию отбросить из предыдущего состояния, сопоставляя предыдущее состояние и текущий вход со значением от 0 до 1. (Округленное) значение 1 означает сохранение информации, а значение 0 представляет отбрасывание. Вентили ввода решают, какие части новой информации сохранить в текущем состоянии ячейки, используя ту же систему, что и вентили забывания. Вентили вывода контролируют, какие части информации в текущем состоянии ячейки выводить, присваивая информации значение от 0 до 1, учитывая предыдущее и текущее состояния. Выборочный вывод соответствующей информации из текущего состояния позволяет сети LSTM поддерживать полезные долгосрочные зависимости для составления прогнозов как в текущих, так и в будущих временных шагах.

LSTM широко применяется в классификации , ^[5]^[6] обработке данных , задачах анализа временных рядов , ^[7] распознавании речи , ^[8]^[9] машинном переводе , ^[10]^[11] обнаружении речевой активности, ^[12] управлении роботами , ^[13]^[14] видеоиграх , ^[15]^[16] и здравоохранении . ^[17]

Мотивация

Теоретически классические RNN могут отслеживать произвольные долгосрочные зависимости во входных последовательностях. Проблема с классическими RNN носит вычислительный (или практический) характер: при обучении классической RNN с использованием обратного распространения долгосрочные градиенты, которые распространяются обратно, могут «исчезать» , то есть они могут стремиться к нулю из-за очень малых чисел, проникающих в вычисления, в результате чего модель фактически прекращает обучение. RNN, использующие блоки LSTM, частично решают проблему исчезающего градиента , поскольку блоки LSTM позволяют градиентам также течь с небольшим или нулевым затуханием. Однако сети LSTM все еще могут страдать от проблемы взрывного градиента. ^[18]

Интуиция, лежащая в основе архитектуры LSTM, заключается в создании дополнительного модуля в нейронной сети, который учится, когда следует помнить, а когда следует забыть соответствующую информацию. ^[4] Другими словами, сеть эффективно учится тому, какая информация может понадобиться позже в последовательности, и когда эта информация больше не нужна. Например, в контексте обработки естественного языка сеть может изучать грамматические зависимости. ^[19] LSTM может обрабатывать предложение « Дэйв , в результате своих противоречивых заявлений, теперь является изгоем», запоминая (статистически вероятный) грамматический род и число субъекта Дэйв , обратите внимание, что эта информация относится к местоимению his , и обратите внимание, что эта информация больше не важна после глагола is .

Варианты

В приведенных ниже уравнениях строчные переменные представляют векторы. Матрицы и содержат, соответственно, веса входных и рекуррентных соединений, где нижний индекс может быть либо входным вентилем , выходным вентилем , вентилем забывания или ячейкой памяти , в зависимости от вычисляемой активации. Таким образом, в этом разделе мы используем «векторную нотацию». Так, например, не является просто одной единицей одной ячейки LSTM, а содержит единицы ячейки LSTM. $W_{q}$ $U_{q}$ $_{q}$ $i$ $o$ $f$ $c$ $c_{t}\in \mathbb {R} ^{h}$ $h$

См ^{. [20]} для эмпирического исследования 8 архитектурных вариантов LSTM.

LSTM с затвором забывания

Компактные формы уравнений для прямого прохода ячейки LSTM с затвором забывания следующие: ^[1]^[4]

{\begin{aligned}f_{t}&=\sigma _{g}(W_{f}x_{t}+U_{f}h_{t-1}+b_{f})\\i_{t}&=\sigma _{g}(W_{i}x_{t}+U_{i}h_{t-1}+b_{i})\\o_{t}&=\sigma _{g}(W_{o}x_{t}+U_{o}h_{t-1}+b_{o})\\{\tilde {c}}_{t}&=\sigma _{c}(W_{c}x_{t}+U_{c}h_{t-1}+b_{c})\\c_{t}&=f_{t}\odot c_{t-1}+i_{t}\odot {\tilde {c}}_{t}\\h_{t}&=o_{t}\odot \sigma _{h}(c_{t})\end{aligned}}

где начальные значения и , а оператор обозначает произведение Адамара (поэлементное произведение). Нижний индекс индексирует временной шаг. $c_{0}=0$ $h_{0}=0$ $\odot$ $t$

Переменные

Пусть верхние индексы и относятся к числу входных признаков и числу скрытых единиц соответственно: $d$ $h$

$x_{t}\in \mathbb {R} ^{d}$ : входной вектор для блока LSTM
$f_{t}\in {(0,1)}^{h}$ : забудьте вектор активации ворот
$i_{t}\in {(0,1)}^{h}$ : вектор активации входного/обновляющего шлюза
$o_{t}\in {(0,1)}^{h}$ : вектор активации выходного вентиля
$h_{t}\in {(-1,1)}^{h}$ : скрытый вектор состояния, также известный как выходной вектор блока LSTM
${\tilde {c}}_{t}\in {(-1,1)}^{h}$ : вектор активации входного сигнала клетки
$c_{t}\in \mathbb {R} ^{h}$ : вектор состояния ячейки
$W\in \mathbb {R} ^{h\times d}$ , и : весовые матрицы и параметры вектора смещения, которые необходимо изучить во время обучения $U\in \mathbb {R} ^{h\times h}$ $b\in \mathbb {R} ^{h}$

Функции активации

$\sigma _{g}$ : сигмовидная функция .
$\sigma _{c}$ : функция гиперболического тангенса .
$\sigma _{h}$ : функция гиперболического тангенса или, как предполагает статья PEEPHOLE LSTM ^[21]^[22] , . $\sigma _{h}(x)=x$

Дверной глазок LSTM

{\displaystyle я} — Смотровое LSTM-устройство с входными (ie ), выходными (ie ) и забывающими (ie ) вентилями $i$ $o$ $f$

Рисунок справа представляет собой графическое представление блока LSTM с глазковыми соединениями (т. е. глазковым LSTM). ^[21]^[22] Глазковые соединения позволяют вентилям получать доступ к карусели постоянных ошибок (CEC), активация которой является состоянием ячейки. ^[21] не используется, вместо этого используется в большинстве мест. $h_{t-1}$ $c_{t-1}$

{\begin{aligned}f_{t}&=\sigma _{g}(W_{f}x_{t}+U_{f}c_{t-1}+b_{f})\\i_{t}&=\sigma _{g}(W_{i}x_{t}+U_{i}c_{t-1}+b_{i})\\o_{t}&=\sigma _{g}(W_{o}x_{t}+U_{o}c_{t-1}+b_{o})\\c_{t}&=f_{t}\odot c_{t-1}+i_{t}\odot \sigma _{c}(W_{c}x_{t}+b_{c})\\h_{t}&=o_{t}\odot \sigma _{h}(c_{t})\end{aligned}}

Каждый из вентилей можно рассматривать как «стандартный» нейрон в нейронной сети прямого распространения (или многослойной): то есть они вычисляют активацию (используя функцию активации) взвешенной суммы и представляют собой активации соответственно входных, выходных вентилей и вентилей забывания на временном шаге . $i_{t},o_{t}$ $f_{t}$ $t$

Три стрелки выхода из ячейки памяти к трем вентилям и представляют собой глазковые соединения. Эти глазковые соединения на самом деле обозначают вклады активации ячейки памяти на временном шаге , т.е. вклад (а не , как может показаться на рисунке). Другими словами, вентили и вычисляют свои активации на временном шаге (т.е. соответственно, и ), также учитывая активацию ячейки памяти на временном шаге , т.е. . $c$ $i,o$ $f$ $c$ $t-1$ $c_{t-1}$ $c_{t}$ $i,o$ $f$ $t$ $i_{t},o_{t}$ $f_{t}$ $c$ $t-1$ $c_{t-1}$

Единственная стрелка слева направо, выходящая из ячейки памяти, не является глазком и обозначает . $c_{t}$

Маленькие кружки, содержащие символ, представляют поэлементное умножение между его входами. Большие кружки, содержащие S -образную кривую, представляют применение дифференцируемой функции (например, сигмоидальной функции) к взвешенной сумме. $\times$

Сверточный LSTM-микроскоп

Сверточная LSTM-матрица Peephole . ^[23] Обозначает оператор свертки . $*$

{\begin{aligned}f_{t}&=\sigma _{g}(W_{f}*x_{t}+U_{f}*h_{t-1}+V_{f}\odot c_{t-1}+b_{f})\\i_{t}&=\sigma _{g}(W_{i}*x_{t}+U_{i}*h_{t-1}+V_{i}\odot c_{t-1}+b_{i})\\c_{t}&=f_{t}\odot c_{t-1}+i_{t}\odot \sigma _{c}(W_{c}*x_{t}+U_{c}*h_{t-1}+b_{c})\\o_{t}&=\sigma _{g}(W_{o}*x_{t}+U_{o}*h_{t-1}+V_{o}\odot c_{t}+b_{o})\\h_{t}&=o_{t}\odot \sigma _{h}(c_{t})\end{aligned}}

Обучение

RNN, использующая блоки LSTM, может обучаться контролируемым образом на наборе обучающих последовательностей, используя алгоритм оптимизации, такой как градиентный спуск в сочетании с обратным распространением во времени, для вычисления градиентов, необходимых в процессе оптимизации, чтобы изменить каждый вес сети LSTM пропорционально производной ошибки (на выходном слое сети LSTM) относительно соответствующего веса.

Проблема с использованием градиентного спуска для стандартных RNN заключается в том, что градиенты ошибок исчезают экспоненциально быстро с размером временного лага между важными событиями. Это происходит из-за того, что спектральный радиус меньше 1. ^[2]^[24] $\lim _{n\to \infty }W^{n}=0$ $W$

Однако в случае с блоками LSTM, когда значения ошибок распространяются обратно из выходного слоя, ошибка остается в ячейке блока LSTM. Эта «карусель ошибок» непрерывно возвращает ошибку каждому из вентилей блока LSTM, пока они не научатся отсекать значение.

Функция оценки CTC

Многие приложения используют стеки LSTM RNN ^[25] и обучают их с помощью коннекционистской временной классификации (CTC) ^[5] для поиска весовой матрицы RNN, которая максимизирует вероятность последовательностей меток в обучающем наборе, учитывая соответствующие входные последовательности. CTC обеспечивает как выравнивание, так и распознавание.

Альтернативы

Иногда может быть выгодно обучать (части) LSTM с помощью нейроэволюции ^[7] или методов градиента политики, особенно когда нет «учителя» (то есть обучающих меток).

Приложения

Области применения LSTM включают:

Управление роботом ^[13]
Прогнозирование временных рядов ^[7]
Распознавание речи ^[26]^[27]^[28]
Обучение ритму ^[22]
Гидрологическое моделирование осадков и стока ^[29]
Музыкальное произведение ^[30]
Изучение грамматики ^[31]^[21]^[32]
Распознавание рукописного ввода ^[33]^[34]
Распознавание человеческих действий ^[35]
Перевод на язык жестов ^[36]
Определение гомологии белков ^[37]
Прогнозирование субклеточной локализации белков ^[38]
Обнаружение аномалий временных рядов ^[39]
Несколько задач прогнозирования в области управления бизнес-процессами ^[40]
Прогнозирование в путях оказания медицинской помощи ^[41]
Семантический анализ ^[42]
Совместная сегментация объектов ^[43]^[44]
Управление пассажирскими перевозками в аэропорту ^[45]
Краткосрочный прогноз трафика ^[46]
Разработка лекарств ^[47]
Прогноз рынка ^[48]
Классификация активности в видео ^[49]

2015: Google начал использовать LSTM, обученную CTC, для распознавания речи в Google Voice. ^[50]^[51] Согласно официальному сообщению в блоге, новая модель сократила количество ошибок транскрипции на 49%. ^[52]

2016: Google начал использовать LSTM для предложения сообщений в приложении Allo. ^[53] В том же году Google выпустил систему нейронного машинного перевода Google для Google Translate, которая использовала LSTM для сокращения ошибок перевода на 60%. ^[10]^[54]^[55]

Apple объявила на своей Всемирной конференции разработчиков , что начнет использовать LSTM для быстрого ввода ^[56]^[57]^[58] в iPhone и для Siri. ^[59]^[60]

Amazon выпустила Polly , который генерирует голоса для Alexa, используя двунаправленную LSTM для технологии преобразования текста в речь. ^[61]

2017: Facebook ежедневно выполняет около 4,5 миллиардов автоматических переводов, используя сети краткосрочной памяти. ^[11]

Microsoft сообщила о достижении точности распознавания 94,9% на корпусе Switchboard, включающем словарь из 165 000 слов. Подход использовал «диалоговую сессию на основе долго-краткосрочной памяти». ^[62]

2018: OpenAI использовала LSTM, обученную градиентами политики, чтобы победить людей в сложной видеоигре Dota 2 ^[15] и управлять рукой робота, похожей на человека, которая манипулирует физическими объектами с беспрецедентной ловкостью. ^[14]^[63]

2019: DeepMind использовала LSTM, обученную градиентами политики, чтобы преуспеть в сложной видеоигре Starcraft II . ^[16]^[63]

История

Разработка

Некоторые аспекты LSTM были предсказаны «фокусированным обратным распространением» (Mozer, 1989), ^[64] цитируемым в статье LSTM. ^[1]

В своей дипломной работе на немецком языке 1991 года Зепп Хохрайтер проанализировал проблему исчезающего градиента и разработал принципы метода. ^[2] Его научный руководитель Юрген Шмидхубер считал эту диссертацию весьма значимой. ^[65]

Ранняя версия LSTM была опубликована в 1995 году в техническом отчете Зеппа Хохрайтера и Юргена Шмидхубера ^[66] , затем опубликованном на конференции NIPS 1996 года. ^[3]

Наиболее часто используемая точка отсчета для LSTM была опубликована в 1997 году в журнале Neural Computation . ^[1] Вводя блоки Constant Error Carousel (CEC), LSTM решает проблему исчезающего градиента . Первоначальная версия блока LSTM включала ячейки, входные и выходные вентили. ^[20]

( Феликс Герс , Юрген Шмидхубер и Фред Камминс, 1999) ^[67] ввели шлюз забывания (также называемый «шлюзом сохранения») в архитектуру LSTM в 1999 году, что позволило LSTM сбрасывать свое собственное состояние. ^[20] Это наиболее часто используемая версия LSTM в настоящее время.

(Gers, Schmidhuber и Cummins, 2000) добавили соединения через глазок. ^[21]^[22] Кроме того, функция активации выхода была опущена. ^[20]

Разработка вариантов

(Грейвс, Фернандес, Гомес и Шмидхубер, 2006) ^[5] вводят новую функцию ошибок для LSTM: коннекционистскую временную классификацию (CTC) для одновременного выравнивания и распознавания последовательностей.

(Грейвс, Шмидхубер, 2005) ^[26] опубликовали LSTM с полным обратным распространением ошибки во времени и двунаправленную LSTM.

(Кёнхён Чо и др., 2014) ^[68] опубликовали упрощенный вариант LSTM-ворота забывания ^[67], названный Gated recurrent unit (GRU).

(Рупеш Кумар Шривастава, Клаус Грефф и Шмидхубер, 2015) использовали принципы LSTM ^[67] для создания сети Highway , нейронной сети прямого распространения с сотнями слоев, намного более глубокой, чем предыдущие сети. ^[69]^[70]^[71] Одновременно была разработана архитектура ResNet . Она эквивалентна сети автомагистралей с открытыми воротами или без ворот. ^[72]

Современная модернизация LSTM, называемая xLSTM, опубликована группой под руководством Зеппа Хохрайтера (Максимилиан и др., 2024). ^[73]^[74] Один из двух блоков (mLSTM) архитектуры является параллелизуемым, как архитектура Transformer , другие (sLSTM) позволяют отслеживать состояние.

Приложения

2004: Первое успешное применение LSTM к речи Алекс Грейвс и др. ^[75]^[63]

2001: Герс и Шмидхубер обучили LSTM изучать языки, которые невозможно изучить с помощью традиционных моделей, таких как скрытые марковские модели. ^[21]^[63]

Хохрайтер и др. использовали LSTM для метаобучения (т.е. обучения алгоритму обучения). ^[76]

2005: Даан Вирстра, Фаустино Гомес и Шмидхубер обучили LSTM методом нейроэволюции без учителя. ^[7]

Майер и др. обучили LSTM управлять роботами . ^[13]

2007: Вирстра, Фёрстер, Питерс и Шмидхубер обучили LSTM с помощью градиентов политики для обучения с подкреплением без учителя. ^[77]

Хохрайтер, Хойсель и Обермайер применили LSTM для обнаружения гомологии белков в области биологии . ^[37]

2009: Джастин Байер и др. представили поиск нейронной архитектуры для LSTM. ^[78]^[63]

2009: LSTM, обученная CTC, выиграла конкурс распознавания рукописного текста ICDAR . Три такие модели были представлены командой под руководством Алекса Грейвса . ^[79] Одна из них оказалась самой точной моделью в конкурсе, а другая — самой быстрой. ^[80] Это был первый раз, когда RNN выиграла международные соревнования. ^[63]

2013: Алекс Грейвс, Абдель-Рахман Мохамед и Джеффри Хинтон использовали сети LSTM в качестве основного компонента сети, которая достигла рекордного уровня ошибок фонем в 17,7% на классическом наборе данных естественной речи TIMIT . ^[28]

Исследователи из Мичиганского государственного университета , IBM Research и Корнелльского университета опубликовали исследование на конференции Knowledge Discovery and Data Mining (KDD). ^[81]^[82]^[83] Их LSTM с учетом времени (T-LSTM) работает лучше на определенных наборах данных, чем стандартная LSTM.

Смотрите также

Ссылки

^ abcde Зепп Хохрейтер ; Юрген Шмидхубер (1997). «Длинная кратковременная память». Нейронные вычисления . 9 (8): 1735–1780. дои : 10.1162/neco.1997.9.8.1735. PMID 9377276. S2CID 1915014.
^ abc Hochreiter, Зепп (1991). Untersuruchungen zu dynamischen Neuronalen Netzen (PDF) (дипломная работа). Технический университет Мюнхена, Институт компьютерных наук.
^ ab Hochreiter, Sepp; Schmidhuber, Jürgen (1996-12-03). «LSTM может решать сложные проблемы с длительным запаздыванием». Труды 9-й Международной конференции по нейронным системам обработки информации . NIPS'96. Кембридж, Массачусетс, США: MIT Press: 473–479.
^ abc Феликс А. Герс; Юрген Шмидхубер; Фред Камминс (2000). «Учимся забывать: непрерывное прогнозирование с LSTM». Neural Computation . 12 (10): 2451–2471. CiteSeerX 10.1.1.55.5709 . doi :10.1162/089976600300015015. PMID 11032042. S2CID 11598600.
^ abc Грейвс, Алекс; Фернандес, Сантьяго; Гомес, Фаустино; Шмидхубер, Юрген (2006). «Временная классификация коннекционистов: маркировка несегментированных данных последовательностей с помощью рекуррентных нейронных сетей». В Трудах Международной конференции по машинному обучению, ICML 2006 : 369–376. CiteSeerX 10.1.1.75.6306 .
^ Карим, Фазл; Маджумдар, Сомшубра; Дараби, Хушанг; Чен, Шун (2018). «Полностью сверточные сети LSTM для классификации временных рядов». IEEE Access . 6 : 1662–1669. doi :10.1109/ACCESS.2017.2779939. ISSN 2169-3536.
^ abcd Wierstra, Daan; Schmidhuber, J.; Gomez, FJ (2005). «Evolino: гибридная нейроэволюция/оптимальный линейный поиск для последовательного обучения». Труды 19-й Международной совместной конференции по искусственному интеллекту (IJCAI), Эдинбург : 853–858.
^ Сак, Хасим; Сениор, Эндрю; Бофе, Франсуаза (2014). "Рекуррентные архитектуры нейронных сетей с долговременной краткосрочной памятью для крупномасштабного акустического моделирования" (PDF) . Архивировано из оригинала (PDF) 24.04.2018.
^ Ли, Сянган; У, Сихун (2014-10-15). «Построение глубоких рекуррентных нейронных сетей на основе долговременной краткосрочной памяти для распознавания речи с большим словарным запасом». arXiv : 1410.4281 [cs.CL].
^ ab Wu, Yonghui; Schuster, Mike; Chen, Zhifeng; Le, Quoc V.; Norouzi, Mohammad; Macherey, Wolfgang; Krikun, Maxim; Cao, Yuan; Gao, Qin (2016-09-26). «Система нейронного машинного перевода Google: преодоление разрыва между человеческим и машинным переводом». arXiv : 1609.08144 [cs.CL].
^ ab Ong, Thuy (4 августа 2017 г.). «Переводы Facebook теперь полностью работают на основе искусственного интеллекта». www.allthingsdistributed.com . Получено 15.02.2019 .
^ Сахидулла, Мэриленд; Патино, Хосе; Корнелл, Сэмюэл; Инь, Жуйкин; Сивасанкаран, Сунит; Бреден, Эрве; Коршунов Павел; Брутти, Алессио; Серизель, Ромен; Винсент, Эммануэль; Эванс, Николас; Марсель, Себастьян; Сквартини, Стефано; Баррас, Клод (6 ноября 2019 г.). «Скорая подача на DIHARD II: вклад и извлеченные уроки». arXiv : 1911.02388 [eess.AS].
^ abc Mayer, H.; Gomez, F.; Wierstra, D.; Nagy, I.; Knoll, A.; Schmidhuber, J. (октябрь 2006 г.). «Система для роботизированной хирургии сердца, которая учится завязывать узлы с помощью рекуррентных нейронных сетей». Международная конференция IEEE/RSJ по интеллектуальным роботам и системам 2006 г. стр. 543–548. CiteSeerX 10.1.1.218.3399 . doi :10.1109/IROS.2006.282190. ISBN 978-1-4244-0258-8. S2CID 12284900.
^ ab "Learning Dexterity". OpenAI . 30 июля 2018 г. Получено 28 июня 2023 г.
^ ab Rodriguez, Jesus (2 июля 2018 г.). «Наука, стоящая за OpenAI Five, которая только что произвела один из величайших прорывов в истории ИИ». На пути к науке о данных . Архивировано из оригинала 26.12.2019 . Получено 15.01.2019 .
^ ab Stanford, Stacy (25 января 2019 г.). "ИИ DeepMind, AlphaStar демонстрирует значительный прогресс в направлении AGI". Medium ML Memoirs . Получено 15.01.2019 .
^ Шмидхубер, Юрген (2021). «2010-е: наше десятилетие глубокого обучения / Взгляд на 2020-е». Блог AI . IDSIA, Швейцария . Получено 30 апреля 2022 г.
^ Calin, Ovidiu (14 февраля 2020 г.). Архитектуры глубокого обучения . Cham, Швейцария: Springer Nature. стр. 555. ISBN 978-3-030-36720-6.
^ Лакрец, Яир; Крушевский, немец; Десборд, Тео; Хупкес, Дьюк; Деэн, Станислас; Барони, Марко (2019), «Появление числовых и синтаксических единиц», Появление числовых и синтаксических единиц (PDF) , Ассоциация компьютерной лингвистики, стр. 11–20, doi : 10.18653/v1/N19-1002, hdl : 11245.1/16cb6800-e10d-4166-8e0b-fed61ca6ebb4, S2CID 81978369
^ abcd Клаус Грефф; Рупеш Кумар Шривастава; Ян Коутник; Бас Р. Стеунебринк; Юрген Шмидхубер (2015). «LSTM: A Search Space Odyssey». Труды IEEE по нейронным сетям и системам обучения . 28 (10): 2222–2232. arXiv : 1503.04069 . Bibcode : 2015arXiv150304069G. doi : 10.1109/TNNLS.2016.2582924. PMID 27411231. S2CID 3356463.
^ abcdef Gers, FA; Schmidhuber, J. (2001). "LSTM-рекуррентные сети изучают простые контекстно-свободные и контекстно-зависимые языки" (PDF) . IEEE Transactions on Neural Networks . 12 (6): 1333–1340. doi :10.1109/72.963769. PMID 18249962. S2CID 10192330.
^ abcd Gers, F.; Schraudolph, N.; Schmidhuber, J. (2002). «Изучение точного времени с помощью рекуррентных сетей LSTM» (PDF) . Журнал исследований машинного обучения . 3 : 115–143.
^ Синцзянь Ши; Чжоуронг Чен; Хао Ван; Дит-Ян Йенг; Вай-кин Вонг; Ван-чунь Ву (2015). «Сверточная сеть LSTM: подход машинного обучения для прогнозирования осадков». Труды 28-й Международной конференции по нейронным системам обработки информации : 802–810. arXiv : 1506.04214 . Bibcode : 2015arXiv150604214S.
^ Хохрайтер, С.; Бенджио, И.; Фраскони, П.; Шмидхубер, Дж. (2001). «Градиентный поток в рекуррентных сетях: сложность изучения долгосрочных зависимостей (доступна загрузка PDF)». В Kremer и, SC; Kolen, JF (ред.). Полевое руководство по динамическим рекуррентным нейронным сетям . IEEE Press.
^ Фернандес, Сантьяго; Грейвс, Алекс; Шмидхубер, Юрген (2007). «Маркировка последовательностей в структурированных доменах с иерархическими рекуррентными нейронными сетями». Труды 20-й Международной совместной конференции по искусственному интеллекту, Ijcai 2007 : 774–779. CiteSeerX 10.1.1.79.1887 .
^ ab Грейвс, А.; Шмидхубер, Дж. (2005). «Кадровая классификация фонем с двунаправленной LSTM и другими архитектурами нейронных сетей». Нейронные сети . 18 (5–6): 602–610. CiteSeerX 10.1.1.331.5800 . doi :10.1016/j.neunet.2005.06.042. PMID 16112549. S2CID 1856462.
^ Фернандес, С.; Грейвс, А.; Шмидхубер, Дж. (9 сентября 2007 г.). «Применение рекуррентных нейронных сетей для дискриминационного обнаружения ключевых слов». Труды 17-й Международной конференции по искусственным нейронным сетям . ICANN'07. Берлин, Гейдельберг: Springer-Verlag: 220–229. ISBN 978-3540746935. Получено 28 декабря 2023 г. .
^ ab Грейвс, Алекс; Мохамед, Абдель-Рахман; Хинтон, Джеффри (2013). «Распознавание речи с помощью глубоких рекуррентных нейронных сетей». Международная конференция IEEE по акустике, речи и обработке сигналов 2013 г. С. 6645–6649. arXiv : 1303.5778 . doi :10.1109/ICASSP.2013.6638947. ISBN 978-1-4799-0356-6. S2CID 206741496.
^ Kratzert, Frederik; Klotz, Daniel; Shalev, Guy; Klambauer, Günter; Hochreiter, Sepp; Nearing, Grey (17.12.2019). «К изучению универсального, регионального и локального гидрологического поведения с помощью машинного обучения, применяемого к большим наборам данных». Гидрология и науки о системах Земли . 23 (12): 5089–5110. arXiv : 1907.08456 . Bibcode : 2019HESS...23.5089K. doi : 10.5194/hess-23-5089-2019 . ISSN 1027-5606.
^ Эк, Дуглас; Шмидхубер, Юрген (28.08.2002). «Изучение долгосрочной структуры блюза». Искусственные нейронные сети — ICANN 2002. Конспект лекций по информатике. Том 2415. Springer, Берлин, Гейдельберг. С. 284–289. CiteSeerX 10.1.1.116.3620 . doi :10.1007/3-540-46084-5_47. ISBN 978-3540460848.
^ Шмидхубер, Дж.; Герс, Ф.; Эк, Д.; Шмидхубер, Дж.; Герс, Ф. (2002). «Изучение нерегулярных языков: сравнение простых рекуррентных сетей и LSTM». Neural Computation . 14 (9): 2039–2041. CiteSeerX 10.1.1.11.7369 . doi :10.1162/089976602320263980. PMID 12184841. S2CID 30459046.
^ Перес-Ортис, JA; Герс, FA; Эк, Д.; Шмидхубер, Дж. (2003). «Фильтры Калмана улучшают производительность сетей LSTM в задачах, неразрешимых традиционными рекуррентными сетями». Нейронные сети . 16 (2): 241–250. CiteSeerX 10.1.1.381.1992 . doi :10.1016/s0893-6080(02)00219-8. PMID 12628609.
^ А. Грейвс, Дж. Шмидхубер. Оффлайн распознавание рукописного ввода с помощью многомерных рекуррентных нейронных сетей. Достижения в области нейронных систем обработки информации 22, NIPS'22, стр. 545–552, Ванкувер, MIT Press, 2009.
^ Грейвс, А.; Фернандес, С.; Ливицки, М.; Бунке, Х.; Шмидхубер, Дж. (3 декабря 2007 г.). «Неограниченное распознавание рукописного текста в режиме онлайн с помощью рекуррентных нейронных сетей». Труды 20-й Международной конференции по системам обработки нейронной информации . NIPS'07. США: Curran Associates Inc.: 577–584. ISBN 9781605603520. Получено 28 декабря 2023 г. .
^ Baccouche, M.; Mamalet, F.; Wolf, C.; Garcia, C.; Baskurt, A. (2011). «Последовательное глубокое обучение для распознавания действий человека». В Salah, AA; Lepri, B. (ред.). 2-й международный семинар по пониманию поведения человека (HBU) . Конспект лекций по информатике. Том 7065. Амстердам, Нидерланды: Springer. стр. 29–39. doi :10.1007/978-3-642-25446-8_4. ISBN 978-3-642-25445-1.
^ Хуан, Цзе; Чжоу, Венган; Чжан, Цилинь; Ли, Хоуцян; Ли, Вэйпин (30 января 2018 г.). «Распознавание языка жестов на основе видео без временной сегментации». arXiv : 1801.10111 [cs.CV].
^ ab Hochreiter, S.; Heusel, M.; Obermayer, K. (2007). «Быстрое определение гомологии белков на основе моделей без выравнивания». Биоинформатика . 23 (14): 1728–1736. doi : 10.1093/bioinformatics/btm247 . PMID 17488755.
^ Тиреу, Т.; Речко, М. (2007). «Двунаправленные сети краткосрочной памяти для прогнозирования субклеточной локализации эукариотических белков». Труды IEEE/ACM по вычислительной биологии и биоинформатике . 4 (3): 441–446. doi :10.1109/tcbb.2007.1015. PMID 17666763. S2CID 11787259.
^ Малхотра, Панкадж; Виг, Лавекеш; Шрофф, Гаутам; Агарвал, Пунит (апрель 2015 г.). «Сети долговременной краткосрочной памяти для обнаружения аномалий во временных рядах» (PDF) . Европейский симпозиум по искусственным нейронным сетям, вычислительному интеллекту и машинному обучению — ESANN 2015. Архивировано из оригинала (PDF) 2020-10-30 . Получено 2018-02-21 .
^ Такс, Н.; Веренич, И.; Ла Роса, М.; Дюма, М. (2017). «Прогностический мониторинг бизнес-процессов с помощью нейронных сетей LSTM». Advanced Information Systems Engineering . Lecture Notes in Computer Science. Vol. 10253. pp. 477–492. arXiv : 1612.02130 . doi :10.1007/978-3-319-59536-8_30. ISBN 978-3-319-59535-1. S2CID 2192354.
^ Choi, E.; Bahadori, MT; Schuetz, E.; Stewart, W.; Sun, J. (2016). «Докторский ИИ: прогнозирование клинических событий с помощью рекуррентных нейронных сетей». Труды семинара и конференции JMLR . 56 : 301–318. arXiv : 1511.05942 . Bibcode : 2015arXiv151105942C. PMC 5341604. PMID 28286600 .
^ Цзя, Робин; Лян, Перси (2016). «Рекомбинация данных для нейронного семантического анализа». arXiv : 1606.03622 [cs.CL].
^ Ван, Ле; Дуань, Сюхуань; Чжан, Цилинь; Ню, Чжэньсин; Хуа, Ган; Чжэн, Наньнин (2018-05-22). "Segment-Tube: пространственно-временная локализация действия в необрезанных видео с покадровой сегментацией" (PDF) . Датчики . 18 (5): 1657. Bibcode :2018Senso..18.1657W. doi : 10.3390/s18051657 . ISSN 1424-8220. PMC 5982167 . PMID 29789447.
^ Дуань, Сюйхуань; Ван, Ле; Чжай, Чанбо; Чжэн, Наньнин; Чжан, Цилинь; Ню, Чжэньсин; Хуа, Банда (2018). «Совместная локализация пространственно-временных действий в необрезанных видео с покадровой сегментацией». 2018 25-я Международная конференция IEEE по обработке изображений (ICIP) . 25-я Международная конференция IEEE по обработке изображений (ICIP). стр. 918–922. дои : 10.1109/icip.2018.8451692. ISBN 978-1-4799-7061-2.
^ Орсини, Ф.; Гастальди, М.; Мантеккини, Л.; Росси, Р. (2019). Нейронные сети, обученные с помощью трассировок WiFi, для прогнозирования поведения пассажиров в аэропорту . 6-я международная конференция по моделям и технологиям для интеллектуальных транспортных систем. Краков: IEEE. arXiv : 1910.14026 . doi : 10.1109/MTITS.2019.8883365. 8883365.
^ Чжао, З.; Чен, В.; У, С.; Чен, PCY; Лю, Дж. (2017). «Сеть LSTM: подход глубокого обучения для краткосрочного прогнозирования трафика». IET Intelligent Transport Systems . 11 (2): 68–75. doi :10.1049/iet-its.2016.0208. S2CID 114567527.
^ Gupta A, Müller AT, Huisman BJH, Fuchs JA, Schneider P, Schneider G (2018). «Генеративные рекуррентные сети для разработки лекарств De Novo». Mol Inform . 37 (1–2). doi :10.1002/minf.201700111. PMC 5836943. PMID 29095571 . {{cite journal}}: CS1 maint: multiple names: authors list (link)
^ Saiful Islam, Md.; Hossain, Emam (2020-10-26). «Прогнозирование курса иностранной валюты с использованием гибридной сети GRU-LSTM». Soft Computing Letters . 3 : 100009. doi : 10.1016/j.socl.2020.100009 . ISSN 2666-2221.
^ {{Ссылка на Эбби Мартина, Эндрю Дж. Хилла, Константина М. Сейлера и Мехалу Баламурали (2023) Автоматическое распознавание и локализация действий экскаватора для необработанного видео с использованием гибридных сетей LSTM-Transformer, Международный журнал горного дела, рекультивации и окружающей среды, DOI: 10.1080/17480930.2023.2290364}}
^ Бофе, Франсуаза (11 августа 2015 г.). «Нейронные сети, лежащие в основе транскрипции Google Voice». Исследовательский блог . Получено 27 июня 2017 г.
^ Сак, Хашим; Сениор, Эндрю; Рао, Канишка; Бофе, Франсуаза; Шалквик, Йохан (24 сентября 2015 г.). «Голосовой поиск Google: быстрее и точнее». Исследовательский блог . Получено 27 июня 2017 г.
^ "Неоновый рецепт... или, скорее, Новая транскрипция для Google Voice". Официальный блог Google . 23 июля 2015 г. Получено 25.04.2020 .
^ Khaitan, Pranav (18 мая 2016 г.). «Общайтесь умнее с Allo». Исследовательский блог . Получено 27 июня 2017 г.
^ Метц, Кейд (27 сентября 2016 г.). «Внедрение ИИ делает Google Translate мощнее, чем когда-либо | WIRED». Wired . Получено 27.06.2017 .
^ "Нейронная сеть для машинного перевода в масштабе производства". Блог Google AI . 27 сентября 2016 г. Получено 25 апреля 2020 г.
^ Эфрати, Амир (13 июня 2016 г.). «Машины Apple тоже могут учиться». Информация . Получено 27.06.2017 .
↑ Рейнджер, Стив (14 июня 2016 г.). «iPhone, ИИ и большие данные: вот как Apple планирует защитить вашу конфиденциальность». ZDNet . Получено 27 июня 2017 г.
^ «Может ли глобальный семантический контекст улучшить нейронные языковые модели? – Apple». Журнал машинного обучения Apple . Получено 30 апреля 2020 г.
^ Смит, Крис (13.06.2016). «iOS 10: Siri теперь работает в сторонних приложениях, поставляется с дополнительными функциями ИИ». BGR . Получено 27.06.2017 .
^ Capes, Tim; Coles, Paul; Conkie, Alistair; Golipour, Ladan; Hadjitarkhani, Abie; Hu, Qiong; Huddleston, Nancy; Hunt, Melvyn; Li, Jiangchuan; Neeracher, Matthias; Prahallad, Kishore (2017-08-20). "Система преобразования текста в речь с помощью глубокого обучения Siri On-Device". Interspeech 2017. ISCA: 4011–4015. doi :10.21437/Interspeech.2017-1798.
^ Фогельс, Вернер (30 ноября 2016 г.). «Привносим магию искусственного интеллекта Amazon и Alexa в приложения на AWS. – All Things Distributed». www.allthingsdistributed.com . Получено 27 июня 2017 г.
^ Xiong, W.; Wu, L.; Alleva, F.; Droppo, J.; Huang, X.; Stolcke, A. (апрель 2018 г.). «Система распознавания разговорной речи Microsoft 2017». Международная конференция IEEE по акустике, речи и обработке сигналов (ICASSP) 2018 г. IEEE. стр. 5934–5938. doi :10.1109/ICASSP.2018.8461870. ISBN 978-1-5386-4658-8.
^ abcdef Шмидхубер, Юрген (10 мая 2021 г.). «Глубокое обучение: наш чудесный год 1990-1991». arXiv : 2005.05744 [cs.NE].
^ Мозер, Майк (1989). «Алгоритм сфокусированного обратного распространения для распознавания временных образов». Сложные системы .
^ Шмидхубер, Юрген (2022). «Аннотированная история современного ИИ и глубокого обучения». arXiv : 2212.11279 [cs.NE].
^ Зепп Хохрейтер ; Юрген Шмидхубер (21 августа 1995 г.), Кратковременная долговременная память, Викиданные Q98967430
^ abc Gers, Felix; Schmidhuber, Jürgen; Cummins, Fred (1999). "Учимся забывать: непрерывное прогнозирование с LSTM". 9-я Международная конференция по искусственным нейронным сетям: ICANN '99 . Том 1999. С. 850–855. doi :10.1049/cp:19991218. ISBN 0-85296-721-7.
^ Чо, Кёнхён; ван Мерриенбур, Барт; Гульчехре, Чаглар; Багданау, Дмитрий; Бугарес, Фетхи; Швенк, Хольгер; Бенжио, Йошуа (2014). «Изучение представлений фраз с использованием кодировщика-декодера RNN для статистического машинного перевода». arXiv : 1406.1078 [cs.CL].
^ Шривастава, Рупеш Кумар; Грефф, Клаус; Шмидхубер, Юрген (2 мая 2015 г.). «Дорожные сети». arXiv : 1505.00387 [cs.LG].
^ Шривастава, Рупеш К; Грефф, Клаус; Шмидхубер, Юрген (2015). «Обучение очень глубоких сетей». Достижения в области нейронных систем обработки информации . 28. Curran Associates, Inc.: 2377–2385.
^ Шмидхубер, Юрген (2021). «Все наиболее цитируемые нейронные сети основаны на работе, проделанной в моих лабораториях». Блог AI . IDSIA, Швейцария . Получено 30.04.2022 .
^ He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (2016). Глубокое остаточное обучение для распознавания изображений. Конференция IEEE 2016 года по компьютерному зрению и распознаванию образов (CVPR) . Лас-Вегас, Невада, США: IEEE. стр. 770–778. arXiv : 1512.03385 . doi : 10.1109/CVPR.2016.90. ISBN 978-1-4673-8851-1.
^ Бек, Максимилиан; Пеппель, Корбиниан; Спанринг, Маркус; Ауэр, Андреас; Прудникова, Александра; Копп, Майкл; Кламбауэр, Гюнтер; Брандштеттер, Йоханнес; Хохрейтер, Зепп (07 мая 2024 г.). «xLSTM: расширенная долговременная память». arXiv : 2405.04517 [cs.LG].
^ NX-AI/xlstm, NXAI, 04 июня 2024 г. , получено 4 июня 2024 г.
^ Грейвс, Алекс; Берингер, Николь; Эк, Дуглас; Шмидхубер, Юрген (2004). Биологически правдоподобное распознавание речи с помощью нейронных сетей LSTM . Семинар по биологически вдохновленным подходам к передовым информационным технологиям, Bio-ADIT 2004, Лозанна, Швейцария. стр. 175–184.
^ Hochreiter, S.; Younger, AS; Conwell, PR (2001). «Обучение обучению с использованием градиентного спуска». Искусственные нейронные сети — ICANN 2001 (PDF) . Конспект лекций по информатике. Том 2130. С. 87–94. CiteSeerX 10.1.1.5.323 . doi :10.1007/3-540-44668-0_13. ISBN 978-3-540-42486-4. ISSN 0302-9743. S2CID 52872549.
^ Вирстра, Даан; Фёрстер, Александр; Петерс, Ян; Шмидхубер, Юрген (2005). «Решение задач POMDP глубокой памяти с использованием градиентов рекуррентной политики». Международная конференция по искусственным нейронным сетям ICANN'07 .
^ Байер, Джастин; Вирстра, Даан; Тогелиус, Джулиан; Шмидхубер, Юрген (2009). «Развивающиеся структуры ячеек памяти для последовательного обучения». Международная конференция по искусственным нейронным сетям ICANN'09, Кипр .
^ Грейвс, А.; Ливицки, М.; Фернандес, С.; Бертолами, Р.; Бунке, Х.; Шмидхубер, Дж. (май 2009 г.). «Новая система коннекционизма для неограниченного распознавания рукописного ввода». Труды IEEE по анализу образов и машинному интеллекту . 31 (5): 855–868. CiteSeerX 10.1.1.139.4502 . doi :10.1109/tpami.2008.137. ISSN 0162-8828. PMID 19299860. S2CID 14635907.
^ Märgner, Volker; Abed, Haikal El (июль 2009 г.). «ICDAR 2009 Arabic Handwriting Recognition Competition». 2009 10-я Международная конференция по анализу и распознаванию документов . стр. 1383–1387. doi :10.1109/ICDAR.2009.256. ISBN 978-1-4244-4500-4. S2CID 52851337.
^ "Patient Subtypeging via Time-Aware LSTM Networks" (PDF) . msu.edu . Получено 21 ноября 2018 г. .
^ "Patient Subtyping via Time-Aware LSTM Networks". Kdd.org . Получено 24 мая 2018 г. .
^ "SIGKDD". Kdd.org . Получено 24 мая 2018 г. .

Дальнейшее чтение

Monner, Derek D.; Reggia, James A. (2010). "Обобщенный алгоритм обучения, подобный LSTM, для рекуррентных нейронных сетей второго порядка" (PDF) . Neural Networks . 25 (1): 70–83. doi :10.1016/j.neunet.2011.07.003. PMC 3217173 . PMID 21803542. Высокопроизводительное расширение LSTM, упрощенное до типа одного узла и способное обучать произвольные архитектуры
Gers, Felix A.; Schraudolph, Nicol N.; Schmidhuber, Jürgen (август 2002 г.). «Изучение точного времени с помощью рекуррентных сетей LSTM» (PDF) . Журнал исследований машинного обучения . 3 : 115–143.
Герс, Феликс (2001). «Долговременная кратковременная память в рекуррентных нейронных сетях» (PDF) . Кандидатская диссертация .
Абидогун, Олусола Аденийи (2005). Интеллектуальный анализ данных, обнаружение мошенничества и мобильные телекоммуникации: анализ шаблонов вызовов с помощью неконтролируемых нейронных сетей. Магистерская работа (Thesis). Университет Западной Капской провинции. hdl :11394/249. Архивировано (PDF) из оригинала 22 мая 2012 г.
- оригинал с двумя главами, посвященными объяснению рекуррентных нейронных сетей, особенно LSTM.

Внешние ссылки

Рекуррентные нейронные сети с более чем 30 статьями по LSTM группы Юргена Шмидхубера в IDSIA
Чжан, Астон; Липтон, Закари; Ли, Му; Смола, Александр Дж. (2024). "10.1. Долговременная кратковременная память (LSTM)". Погружение в глубокое обучение . Кембридж, Нью-Йорк, Порт Мельбурн, Нью-Дели, Сингапур: Cambridge University Press. ISBN 978-1-009-38943-3.