stringtranslate.com

Длительная кратковременная память

Ячейка долговременной краткосрочной памяти (LSTM) может обрабатывать данные последовательно и сохранять свое скрытое состояние с течением времени.

Длительная кратковременная память ( LSTM ) [1] — это тип рекуррентной нейронной сети (RNN), направленный на смягчение проблемы исчезающего градиента [2], с которой обычно сталкиваются традиционные RNN. Ее относительная нечувствительность к длине зазора является ее преимуществом перед другими RNN, скрытыми марковскими моделями и другими методами обучения последовательностей. Она направлена ​​на обеспечение кратковременной памяти для RNN, которая может длиться тысячи временных шагов (отсюда « длительная кратковременная память»). [1] Название сделано по аналогии с долговременной памятью и кратковременной памятью и их взаимосвязью, изучаемой когнитивными психологами с начала 20-го века.

Блок LSTM обычно состоит из ячейки и трех вентилей : входного вентиля , выходного вентиля [3] и вентиля забывания . [4] Ячейка запоминает значения в течение произвольных интервалов времени , а вентили регулируют поток информации в ячейку и из нее. Вентили забывания решают, какую информацию отбросить из предыдущего состояния, сопоставляя предыдущее состояние и текущий вход со значением от 0 до 1. (Округленное) значение 1 означает сохранение информации, а значение 0 представляет отбрасывание. Вентили ввода решают, какие части новой информации сохранить в текущем состоянии ячейки, используя ту же систему, что и вентили забывания. Вентили вывода контролируют, какие части информации в текущем состоянии ячейки выводить, присваивая информации значение от 0 до 1, учитывая предыдущее и текущее состояния. Выборочный вывод соответствующей информации из текущего состояния позволяет сети LSTM поддерживать полезные долгосрочные зависимости для составления прогнозов как в текущих, так и в будущих временных шагах.

LSTM широко применяется в классификации , [5] [6] обработке данных , задачах анализа временных рядов , [7] распознавании речи , [8] [9] машинном переводе , [10] [11] обнаружении речевой активности, [12] управлении роботами , [13] [14] видеоиграх , [15] [16] и здравоохранении . [17]

Мотивация

Теоретически классические RNN могут отслеживать произвольные долгосрочные зависимости во входных последовательностях. Проблема с классическими RNN носит вычислительный (или практический) характер: при обучении классической RNN с использованием обратного распространения долгосрочные градиенты, которые распространяются обратно, могут «исчезать» , то есть они могут стремиться к нулю из-за очень малых чисел, проникающих в вычисления, в результате чего модель фактически прекращает обучение. RNN, использующие блоки LSTM, частично решают проблему исчезающего градиента , поскольку блоки LSTM позволяют градиентам также течь с небольшим или нулевым затуханием. Однако сети LSTM все еще могут страдать от проблемы взрывного градиента. [18]

Интуиция, лежащая в основе архитектуры LSTM, заключается в создании дополнительного модуля в нейронной сети, который учится, когда следует помнить, а когда следует забыть соответствующую информацию. [4] Другими словами, сеть эффективно учится тому, какая информация может понадобиться позже в последовательности, и когда эта информация больше не нужна. Например, в контексте обработки естественного языка сеть может изучать грамматические зависимости. [19] LSTM может обрабатывать предложение « Дэйв , в результате своих противоречивых заявлений, теперь является изгоем», запоминая (статистически вероятный) грамматический род и число субъекта Дэйв , обратите внимание, что эта информация относится к местоимению his , и обратите внимание, что эта информация больше не важна после глагола is .

Варианты

В приведенных ниже уравнениях строчные переменные представляют векторы. Матрицы и содержат, соответственно, веса входных и рекуррентных соединений, где нижний индекс может быть либо входным вентилем , выходным вентилем , вентилем забывания или ячейкой памяти , в зависимости от вычисляемой активации. Таким образом, в этом разделе мы используем «векторную нотацию». Так, например, не является просто одной единицей одной ячейки LSTM, а содержит единицы ячейки LSTM.

См . [20] для эмпирического исследования 8 архитектурных вариантов LSTM.

LSTM с затвором забывания

Компактные формы уравнений для прямого прохода ячейки LSTM с затвором забывания следующие: [1] [4]

где начальные значения и , а оператор обозначает произведение Адамара (поэлементное произведение). Нижний индекс индексирует временной шаг.

Переменные

Пусть верхние индексы и относятся к числу входных признаков и числу скрытых единиц соответственно:

Функции активации

Дверной глазок LSTM

Смотровое LSTM-устройство с входными (ie ), выходными (ie ) и забывающими (ie ) вентилями

Рисунок справа представляет собой графическое представление блока LSTM с глазковыми соединениями (т. е. глазковым LSTM). [21] [22] Глазковые соединения позволяют вентилям получать доступ к карусели постоянных ошибок (CEC), активация которой является состоянием ячейки. [21] не используется, вместо этого используется в большинстве мест.

Каждый из вентилей можно рассматривать как «стандартный» нейрон в нейронной сети прямого распространения (или многослойной): то есть они вычисляют активацию (используя функцию активации) взвешенной суммы и представляют собой активации соответственно входных, выходных вентилей и вентилей забывания на временном шаге .

Три стрелки выхода из ячейки памяти к трем вентилям и представляют собой глазковые соединения. Эти глазковые соединения на самом деле обозначают вклады активации ячейки памяти на временном шаге , т.е. вклад (а не , как может показаться на рисунке). Другими словами, вентили и вычисляют свои активации на временном шаге (т.е. соответственно, и ), также учитывая активацию ячейки памяти на временном шаге , т.е. .

Единственная стрелка слева направо, выходящая из ячейки памяти, не является глазком и обозначает .

Маленькие кружки, содержащие символ, представляют поэлементное умножение между его входами. Большие кружки, содержащие S -образную кривую, представляют применение дифференцируемой функции (например, сигмоидальной функции) к взвешенной сумме.

Сверточный LSTM-микроскоп

Сверточная LSTM-матрица Peephole . [23] Обозначает оператор свертки .

Обучение

RNN, использующая блоки LSTM, может обучаться контролируемым образом на наборе обучающих последовательностей, используя алгоритм оптимизации, такой как градиентный спуск в сочетании с обратным распространением во времени, для вычисления градиентов, необходимых в процессе оптимизации, чтобы изменить каждый вес сети LSTM пропорционально производной ошибки (на выходном слое сети LSTM) относительно соответствующего веса.

Проблема с использованием градиентного спуска для стандартных RNN заключается в том, что градиенты ошибок исчезают экспоненциально быстро с размером временного лага между важными событиями. Это происходит из-за того, что спектральный радиус меньше 1. [2] [24]

Однако в случае с блоками LSTM, когда значения ошибок распространяются обратно из выходного слоя, ошибка остается в ячейке блока LSTM. Эта «карусель ошибок» непрерывно возвращает ошибку каждому из вентилей блока LSTM, пока они не научатся отсекать значение.

Функция оценки CTC

Многие приложения используют стеки LSTM RNN [25] и обучают их с помощью коннекционистской временной классификации (CTC) [5] для поиска весовой матрицы RNN, которая максимизирует вероятность последовательностей меток в обучающем наборе, учитывая соответствующие входные последовательности. CTC обеспечивает как выравнивание, так и распознавание.

Альтернативы

Иногда может быть выгодно обучать (части) LSTM с помощью нейроэволюции [7] или методов градиента политики, особенно когда нет «учителя» (то есть обучающих меток).

Приложения

Области применения LSTM включают:

2015: Google начал использовать LSTM, обученную CTC, для распознавания речи в Google Voice. [50] [51] Согласно официальному сообщению в блоге, новая модель сократила количество ошибок транскрипции на 49%. [52]

2016: Google начал использовать LSTM для предложения сообщений в приложении Allo. [53] В том же году Google выпустил систему нейронного машинного перевода Google для Google Translate, которая использовала LSTM для сокращения ошибок перевода на 60%. [10] [54] [55]

Apple объявила на своей Всемирной конференции разработчиков , что начнет использовать LSTM для быстрого ввода [56] [57] [58] в iPhone и для Siri. [59] [60]

Amazon выпустила Polly , который генерирует голоса для Alexa, используя двунаправленную LSTM для технологии преобразования текста в речь. [61]

2017: Facebook ежедневно выполняет около 4,5 миллиардов автоматических переводов, используя сети краткосрочной памяти. [11]

Microsoft сообщила о достижении точности распознавания 94,9% на корпусе Switchboard, включающем словарь из 165 000 слов. Подход использовал «диалоговую сессию на основе долго-краткосрочной памяти». [62]

2018: OpenAI использовала LSTM, обученную градиентами политики, чтобы победить людей в сложной видеоигре Dota 2 [15] и управлять рукой робота, похожей на человека, которая манипулирует физическими объектами с беспрецедентной ловкостью. [14] [63]

2019: DeepMind использовала LSTM, обученную градиентами политики, чтобы преуспеть в сложной видеоигре Starcraft II . [16] [63]

История

Разработка

Некоторые аспекты LSTM были предсказаны «фокусированным обратным распространением» (Mozer, 1989), [64] цитируемым в статье LSTM. [1]

В своей дипломной работе на немецком языке 1991 года Зепп Хохрайтер проанализировал проблему исчезающего градиента и разработал принципы метода. [2] Его научный руководитель Юрген Шмидхубер считал эту диссертацию весьма значимой. [65]

Ранняя версия LSTM была опубликована в 1995 году в техническом отчете Зеппа Хохрайтера и Юргена Шмидхубера [66] , затем опубликованном на конференции NIPS 1996 года. [3]

Наиболее часто используемая точка отсчета для LSTM была опубликована в 1997 году в журнале Neural Computation . [1] Вводя блоки Constant Error Carousel (CEC), LSTM решает проблему исчезающего градиента . Первоначальная версия блока LSTM включала ячейки, входные и выходные вентили. [20]

( Феликс Герс , Юрген Шмидхубер и Фред Камминс, 1999) [67] ввели шлюз забывания (также называемый «шлюзом сохранения») в архитектуру LSTM в 1999 году, что позволило LSTM сбрасывать свое собственное состояние. [20] Это наиболее часто используемая версия LSTM в настоящее время.

(Gers, Schmidhuber и Cummins, 2000) добавили соединения через глазок. [21] [22] Кроме того, функция активации выхода была опущена. [20]

Разработка вариантов

(Грейвс, Фернандес, Гомес и Шмидхубер, 2006) [5] вводят новую функцию ошибок для LSTM: коннекционистскую временную классификацию (CTC) для одновременного выравнивания и распознавания последовательностей.

(Грейвс, Шмидхубер, 2005) [26] опубликовали LSTM с полным обратным распространением ошибки во времени и двунаправленную LSTM.

(Кёнхён Чо и др., 2014) [68] опубликовали упрощенный вариант LSTM-ворота забывания [67], названный Gated recurrent unit (GRU).

(Рупеш Кумар Шривастава, Клаус Грефф и Шмидхубер, 2015) использовали принципы LSTM [67] для создания сети Highway , нейронной сети прямого распространения с сотнями слоев, намного более глубокой, чем предыдущие сети. [69] [70] [71] Одновременно была разработана архитектура ResNet . Она эквивалентна сети автомагистралей с открытыми воротами или без ворот. [72]

Современная модернизация LSTM, называемая xLSTM, опубликована группой под руководством Зеппа Хохрайтера (Максимилиан и др., 2024). [73] [74] Один из двух блоков (mLSTM) архитектуры является параллелизуемым, как архитектура Transformer , другие (sLSTM) позволяют отслеживать состояние.

Приложения

2004: Первое успешное применение LSTM к речи Алекс Грейвс и др. [75] [63]

2001: Герс и Шмидхубер обучили LSTM изучать языки, которые невозможно изучить с помощью традиционных моделей, таких как скрытые марковские модели. [21] [63]

Хохрайтер и др. использовали LSTM для метаобучения (т.е. обучения алгоритму обучения). [76]

2005: Даан Вирстра, Фаустино Гомес и Шмидхубер обучили LSTM методом нейроэволюции без учителя. [7]

Майер и др. обучили LSTM управлять роботами . [13]

2007: Вирстра, Фёрстер, Питерс и Шмидхубер обучили LSTM с помощью градиентов политики для обучения с подкреплением без учителя. [77]

Хохрайтер, Хойсель и Обермайер применили LSTM для обнаружения гомологии белков в области биологии . [37]

2009: Джастин Байер и др. представили поиск нейронной архитектуры для LSTM. [78] [63]

2009: LSTM, обученная CTC, выиграла конкурс распознавания рукописного текста ICDAR . Три такие модели были представлены командой под руководством Алекса Грейвса . [79] Одна из них оказалась самой точной моделью в конкурсе, а другая — самой быстрой. [80] Это был первый раз, когда RNN выиграла международные соревнования. [63]

2013: Алекс Грейвс, Абдель-Рахман Мохамед и Джеффри Хинтон использовали сети LSTM в качестве основного компонента сети, которая достигла рекордного уровня ошибок фонем в 17,7% на классическом наборе данных естественной речи TIMIT . [28]

Исследователи из Мичиганского государственного университета , IBM Research и Корнелльского университета опубликовали исследование на конференции Knowledge Discovery and Data Mining (KDD). [81] [82] [83] Их LSTM с учетом времени (T-LSTM) работает лучше на определенных наборах данных, чем стандартная LSTM.

Смотрите также

Ссылки

  1. ^ abcde Зепп Хохрейтер ; Юрген Шмидхубер (1997). «Длинная кратковременная память». Нейронные вычисления . 9 (8): 1735–1780. дои : 10.1162/neco.1997.9.8.1735. PMID  9377276. S2CID  1915014.
  2. ^ abc Hochreiter, Зепп (1991). Untersuruchungen zu dynamischen Neuronalen Netzen (PDF) (дипломная работа). Технический университет Мюнхена, Институт компьютерных наук.
  3. ^ ab Hochreiter, Sepp; Schmidhuber, Jürgen (1996-12-03). «LSTM может решать сложные проблемы с длительным запаздыванием». Труды 9-й Международной конференции по нейронным системам обработки информации . NIPS'96. Кембридж, Массачусетс, США: MIT Press: 473–479.
  4. ^ abc Феликс А. Герс; Юрген Шмидхубер; Фред Камминс (2000). «Учимся забывать: непрерывное прогнозирование с LSTM». Neural Computation . 12 (10): 2451–2471. CiteSeerX 10.1.1.55.5709 . doi :10.1162/089976600300015015. PMID  11032042. S2CID  11598600. 
  5. ^ abc Грейвс, Алекс; Фернандес, Сантьяго; Гомес, Фаустино; Шмидхубер, Юрген (2006). «Временная классификация коннекционистов: маркировка несегментированных данных последовательностей с помощью рекуррентных нейронных сетей». В Трудах Международной конференции по машинному обучению, ICML 2006 : 369–376. CiteSeerX 10.1.1.75.6306 . 
  6. ^ Карим, Фазл; Маджумдар, Сомшубра; Дараби, Хушанг; Чен, Шун (2018). «Полностью сверточные сети LSTM для классификации временных рядов». IEEE Access . 6 : 1662–1669. doi :10.1109/ACCESS.2017.2779939. ISSN  2169-3536.
  7. ^ abcd Wierstra, Daan; Schmidhuber, J.; Gomez, FJ (2005). «Evolino: гибридная нейроэволюция/оптимальный линейный поиск для последовательного обучения». Труды 19-й Международной совместной конференции по искусственному интеллекту (IJCAI), Эдинбург : 853–858.
  8. ^ Сак, Хасим; Сениор, Эндрю; Бофе, Франсуаза (2014). "Рекуррентные архитектуры нейронных сетей с долговременной краткосрочной памятью для крупномасштабного акустического моделирования" (PDF) . Архивировано из оригинала (PDF) 24.04.2018.
  9. ^ Ли, Сянган; У, Сихун (2014-10-15). «Построение глубоких рекуррентных нейронных сетей на основе долговременной краткосрочной памяти для распознавания речи с большим словарным запасом». arXiv : 1410.4281 [cs.CL].
  10. ^ ab Wu, Yonghui; Schuster, Mike; Chen, Zhifeng; Le, Quoc V.; Norouzi, Mohammad; Macherey, Wolfgang; Krikun, Maxim; Cao, Yuan; Gao, Qin (2016-09-26). «Система нейронного машинного перевода Google: преодоление разрыва между человеческим и машинным переводом». arXiv : 1609.08144 [cs.CL].
  11. ^ ab Ong, Thuy (4 августа 2017 г.). «Переводы Facebook теперь полностью работают на основе искусственного интеллекта». www.allthingsdistributed.com . Получено 15.02.2019 .
  12. ^ Сахидулла, Мэриленд; Патино, Хосе; Корнелл, Сэмюэл; Инь, Жуйкин; Сивасанкаран, Сунит; Бреден, Эрве; Коршунов Павел; Брутти, Алессио; Серизель, Ромен; Винсент, Эммануэль; Эванс, Николас; Марсель, Себастьян; Сквартини, Стефано; Баррас, Клод (6 ноября 2019 г.). «Скорая подача на DIHARD II: вклад и извлеченные уроки». arXiv : 1911.02388 [eess.AS].
  13. ^ abc Mayer, H.; Gomez, F.; Wierstra, D.; Nagy, I.; Knoll, A.; Schmidhuber, J. (октябрь 2006 г.). «Система для роботизированной хирургии сердца, которая учится завязывать узлы с помощью рекуррентных нейронных сетей». Международная конференция IEEE/RSJ по интеллектуальным роботам и системам 2006 г. стр. 543–548. CiteSeerX 10.1.1.218.3399 . doi :10.1109/IROS.2006.282190. ISBN  978-1-4244-0258-8. S2CID  12284900.
  14. ^ ab "Learning Dexterity". OpenAI . 30 июля 2018 г. Получено 28 июня 2023 г.
  15. ^ ab Rodriguez, Jesus (2 июля 2018 г.). «Наука, стоящая за OpenAI Five, которая только что произвела один из величайших прорывов в истории ИИ». На пути к науке о данных . Архивировано из оригинала 26.12.2019 . Получено 15.01.2019 .
  16. ^ ab Stanford, Stacy (25 января 2019 г.). "ИИ DeepMind, AlphaStar демонстрирует значительный прогресс в направлении AGI". Medium ML Memoirs . Получено 15.01.2019 .
  17. ^ Шмидхубер, Юрген (2021). «2010-е: наше десятилетие глубокого обучения / Взгляд на 2020-е». Блог AI . IDSIA, Швейцария . Получено 30 апреля 2022 г.
  18. ^ Calin, Ovidiu (14 февраля 2020 г.). Архитектуры глубокого обучения . Cham, Швейцария: Springer Nature. стр. 555. ISBN 978-3-030-36720-6.
  19. ^ Лакрец, Яир; Крушевский, немец; Десборд, Тео; Хупкес, Дьюк; Деэн, Станислас; Барони, Марко (2019), «Появление числовых и синтаксических единиц», Появление числовых и синтаксических единиц (PDF) , Ассоциация компьютерной лингвистики, стр. 11–20, doi : 10.18653/v1/N19-1002, hdl : 11245.1/16cb6800-e10d-4166-8e0b-fed61ca6ebb4, S2CID  81978369
  20. ^ abcd Клаус Грефф; Рупеш Кумар Шривастава; Ян Коутник; Бас Р. Стеунебринк; Юрген Шмидхубер (2015). «LSTM: A Search Space Odyssey». Труды IEEE по нейронным сетям и системам обучения . 28 (10): 2222–2232. arXiv : 1503.04069 . Bibcode : 2015arXiv150304069G. doi : 10.1109/TNNLS.2016.2582924. PMID  27411231. S2CID  3356463.
  21. ^ abcdef Gers, FA; Schmidhuber, J. (2001). "LSTM-рекуррентные сети изучают простые контекстно-свободные и контекстно-зависимые языки" (PDF) . IEEE Transactions on Neural Networks . 12 (6): 1333–1340. doi :10.1109/72.963769. PMID  18249962. S2CID  10192330.
  22. ^ abcd Gers, F.; Schraudolph, N.; Schmidhuber, J. (2002). «Изучение точного времени с помощью рекуррентных сетей LSTM» (PDF) . Журнал исследований машинного обучения . 3 : 115–143.
  23. ^ Синцзянь Ши; Чжоуронг Чен; Хао Ван; Дит-Ян Йенг; Вай-кин Вонг; Ван-чунь Ву (2015). «Сверточная сеть LSTM: подход машинного обучения для прогнозирования осадков». Труды 28-й Международной конференции по нейронным системам обработки информации : 802–810. arXiv : 1506.04214 . Bibcode : 2015arXiv150604214S.
  24. ^ Хохрайтер, С.; Бенджио, И.; Фраскони, П.; Шмидхубер, Дж. (2001). «Градиентный поток в рекуррентных сетях: сложность изучения долгосрочных зависимостей (доступна загрузка PDF)». В Kremer и, SC; Kolen, JF (ред.). Полевое руководство по динамическим рекуррентным нейронным сетям . IEEE Press.
  25. ^ Фернандес, Сантьяго; Грейвс, Алекс; Шмидхубер, Юрген (2007). «Маркировка последовательностей в структурированных доменах с иерархическими рекуррентными нейронными сетями». Труды 20-й Международной совместной конференции по искусственному интеллекту, Ijcai 2007 : 774–779. CiteSeerX 10.1.1.79.1887 . 
  26. ^ ab Грейвс, А.; Шмидхубер, Дж. (2005). «Кадровая классификация фонем с двунаправленной LSTM и другими архитектурами нейронных сетей». Нейронные сети . 18 (5–6): 602–610. CiteSeerX 10.1.1.331.5800 . doi :10.1016/j.neunet.2005.06.042. PMID  16112549. S2CID  1856462. 
  27. ^ Фернандес, С.; Грейвс, А.; Шмидхубер, Дж. (9 сентября 2007 г.). «Применение рекуррентных нейронных сетей для дискриминационного обнаружения ключевых слов». Труды 17-й Международной конференции по искусственным нейронным сетям . ICANN'07. Берлин, Гейдельберг: Springer-Verlag: 220–229. ISBN 978-3540746935. Получено 28 декабря 2023 г. .
  28. ^ ab Грейвс, Алекс; Мохамед, Абдель-Рахман; Хинтон, Джеффри (2013). «Распознавание речи с помощью глубоких рекуррентных нейронных сетей». Международная конференция IEEE по акустике, речи и обработке сигналов 2013 г. С. 6645–6649. arXiv : 1303.5778 . doi :10.1109/ICASSP.2013.6638947. ISBN 978-1-4799-0356-6. S2CID  206741496.
  29. ^ Kratzert, Frederik; Klotz, Daniel; Shalev, Guy; Klambauer, Günter; Hochreiter, Sepp; Nearing, Grey (17.12.2019). «К изучению универсального, регионального и локального гидрологического поведения с помощью машинного обучения, применяемого к большим наборам данных». Гидрология и науки о системах Земли . 23 (12): 5089–5110. arXiv : 1907.08456 . Bibcode : 2019HESS...23.5089K. doi : 10.5194/hess-23-5089-2019 . ISSN  1027-5606.
  30. ^ Эк, Дуглас; Шмидхубер, Юрген (28.08.2002). «Изучение долгосрочной структуры блюза». Искусственные нейронные сети — ICANN 2002. Конспект лекций по информатике. Том 2415. Springer, Берлин, Гейдельберг. С. 284–289. CiteSeerX 10.1.1.116.3620 . doi :10.1007/3-540-46084-5_47. ISBN  978-3540460848.
  31. ^ Шмидхубер, Дж.; Герс, Ф.; Эк, Д.; Шмидхубер, Дж.; Герс, Ф. (2002). «Изучение нерегулярных языков: сравнение простых рекуррентных сетей и LSTM». Neural Computation . 14 (9): 2039–2041. CiteSeerX 10.1.1.11.7369 . doi :10.1162/089976602320263980. PMID  12184841. S2CID  30459046. 
  32. ^ Перес-Ортис, JA; Герс, FA; Эк, Д.; Шмидхубер, Дж. (2003). «Фильтры Калмана улучшают производительность сетей LSTM в задачах, неразрешимых традиционными рекуррентными сетями». Нейронные сети . 16 (2): 241–250. CiteSeerX 10.1.1.381.1992 . doi :10.1016/s0893-6080(02)00219-8. PMID  12628609. 
  33. ^ А. Грейвс, Дж. Шмидхубер. Оффлайн распознавание рукописного ввода с помощью многомерных рекуррентных нейронных сетей. Достижения в области нейронных систем обработки информации 22, NIPS'22, стр. 545–552, Ванкувер, MIT Press, 2009.
  34. ^ Грейвс, А.; Фернандес, С.; Ливицки, М.; Бунке, Х.; Шмидхубер, Дж. (3 декабря 2007 г.). «Неограниченное распознавание рукописного текста в режиме онлайн с помощью рекуррентных нейронных сетей». Труды 20-й Международной конференции по системам обработки нейронной информации . NIPS'07. США: Curran Associates Inc.: 577–584. ISBN 9781605603520. Получено 28 декабря 2023 г. .
  35. ^ Baccouche, M.; Mamalet, F.; Wolf, C.; Garcia, C.; Baskurt, A. (2011). «Последовательное глубокое обучение для распознавания действий человека». В Salah, AA; Lepri, B. (ред.). 2-й международный семинар по пониманию поведения человека (HBU) . Конспект лекций по информатике. Том 7065. Амстердам, Нидерланды: Springer. стр. 29–39. doi :10.1007/978-3-642-25446-8_4. ISBN 978-3-642-25445-1.
  36. ^ Хуан, Цзе; Чжоу, Венган; Чжан, Цилинь; Ли, Хоуцян; Ли, Вэйпин (30 января 2018 г.). «Распознавание языка жестов на основе видео без временной сегментации». arXiv : 1801.10111 [cs.CV].
  37. ^ ab Hochreiter, S.; Heusel, M.; Obermayer, K. (2007). «Быстрое определение гомологии белков на основе моделей без выравнивания». Биоинформатика . 23 (14): 1728–1736. doi : 10.1093/bioinformatics/btm247 . PMID  17488755.
  38. ^ Тиреу, Т.; Речко, М. (2007). «Двунаправленные сети краткосрочной памяти для прогнозирования субклеточной локализации эукариотических белков». Труды IEEE/ACM по вычислительной биологии и биоинформатике . 4 (3): 441–446. doi :10.1109/tcbb.2007.1015. PMID  17666763. S2CID  11787259.
  39. ^ Малхотра, Панкадж; Виг, Лавекеш; Шрофф, Гаутам; Агарвал, Пунит (апрель 2015 г.). «Сети долговременной краткосрочной памяти для обнаружения аномалий во временных рядах» (PDF) . Европейский симпозиум по искусственным нейронным сетям, вычислительному интеллекту и машинному обучению — ESANN 2015. Архивировано из оригинала (PDF) 2020-10-30 . Получено 2018-02-21 .
  40. ^ Такс, Н.; Веренич, И.; Ла Роса, М.; Дюма, М. (2017). «Прогностический мониторинг бизнес-процессов с помощью нейронных сетей LSTM». Advanced Information Systems Engineering . Lecture Notes in Computer Science. Vol. 10253. pp. 477–492. arXiv : 1612.02130 . doi :10.1007/978-3-319-59536-8_30. ISBN 978-3-319-59535-1. S2CID  2192354.
  41. ^ Choi, E.; Bahadori, MT; Schuetz, E.; Stewart, W.; Sun, J. (2016). «Докторский ИИ: прогнозирование клинических событий с помощью рекуррентных нейронных сетей». Труды семинара и конференции JMLR . 56 : 301–318. arXiv : 1511.05942 . Bibcode : 2015arXiv151105942C. PMC 5341604. PMID  28286600 . 
  42. ^ Цзя, Робин; Лян, Перси (2016). «Рекомбинация данных для нейронного семантического анализа». arXiv : 1606.03622 [cs.CL].
  43. ^ Ван, Ле; Дуань, Сюхуань; Чжан, Цилинь; Ню, Чжэньсин; Хуа, Ган; Чжэн, Наньнин (2018-05-22). "Segment-Tube: пространственно-временная локализация действия в необрезанных видео с покадровой сегментацией" (PDF) . Датчики . 18 (5): 1657. Bibcode :2018Senso..18.1657W. doi : 10.3390/s18051657 . ISSN  1424-8220. PMC 5982167 . PMID  29789447. 
  44. ^ Дуань, Сюйхуань; Ван, Ле; Чжай, Чанбо; Чжэн, Наньнин; Чжан, Цилинь; Ню, Чжэньсин; Хуа, Банда (2018). «Совместная локализация пространственно-временных действий в необрезанных видео с покадровой сегментацией». 2018 25-я Международная конференция IEEE по обработке изображений (ICIP) . 25-я Международная конференция IEEE по обработке изображений (ICIP). стр. 918–922. дои : 10.1109/icip.2018.8451692. ISBN 978-1-4799-7061-2.
  45. ^ Орсини, Ф.; Гастальди, М.; Мантеккини, Л.; Росси, Р. (2019). Нейронные сети, обученные с помощью трассировок WiFi, для прогнозирования поведения пассажиров в аэропорту . 6-я международная конференция по моделям и технологиям для интеллектуальных транспортных систем. Краков: IEEE. arXiv : 1910.14026 . doi : 10.1109/MTITS.2019.8883365. 8883365.
  46. ^ Чжао, З.; Чен, В.; У, С.; Чен, PCY; Лю, Дж. (2017). «Сеть LSTM: подход глубокого обучения для краткосрочного прогнозирования трафика». IET Intelligent Transport Systems . 11 (2): 68–75. doi :10.1049/iet-its.2016.0208. S2CID  114567527.
  47. ^ Gupta A, Müller AT, Huisman BJH, Fuchs JA, Schneider P, Schneider G (2018). «Генеративные рекуррентные сети для разработки лекарств De Novo». Mol Inform . 37 (1–2). doi :10.1002/minf.201700111. PMC 5836943. PMID 29095571  . {{cite journal}}: CS1 maint: multiple names: authors list (link)
  48. ^ Saiful Islam, Md.; Hossain, Emam (2020-10-26). «Прогнозирование курса иностранной валюты с использованием гибридной сети GRU-LSTM». Soft Computing Letters . 3 : 100009. doi : 10.1016/j.socl.2020.100009 . ISSN  2666-2221.
  49. ^ {{Ссылка на Эбби Мартина, Эндрю Дж. Хилла, Константина М. Сейлера и Мехалу Баламурали (2023) Автоматическое распознавание и локализация действий экскаватора для необработанного видео с использованием гибридных сетей LSTM-Transformer, Международный журнал горного дела, рекультивации и окружающей среды, DOI: 10.1080/17480930.2023.2290364}}
  50. ^ Бофе, Франсуаза (11 августа 2015 г.). «Нейронные сети, лежащие в основе транскрипции Google Voice». Исследовательский блог . Получено 27 июня 2017 г.
  51. ^ Сак, Хашим; Сениор, Эндрю; Рао, Канишка; Бофе, Франсуаза; Шалквик, Йохан (24 сентября 2015 г.). «Голосовой поиск Google: быстрее и точнее». Исследовательский блог . Получено 27 июня 2017 г.
  52. ^ "Неоновый рецепт... или, скорее, Новая транскрипция для Google Voice". Официальный блог Google . 23 июля 2015 г. Получено 25.04.2020 .
  53. ^ Khaitan, Pranav (18 мая 2016 г.). «Общайтесь умнее с Allo». Исследовательский блог . Получено 27 июня 2017 г.
  54. ^ Метц, Кейд (27 сентября 2016 г.). «Внедрение ИИ делает Google Translate мощнее, чем когда-либо | WIRED». Wired . Получено 27.06.2017 .
  55. ^ "Нейронная сеть для машинного перевода в масштабе производства". Блог Google AI . 27 сентября 2016 г. Получено 25 апреля 2020 г.
  56. ^ Эфрати, Амир (13 июня 2016 г.). «Машины Apple тоже могут учиться». Информация . Получено 27.06.2017 .
  57. Рейнджер, Стив (14 июня 2016 г.). «iPhone, ИИ и большие данные: вот как Apple планирует защитить вашу конфиденциальность». ZDNet . Получено 27 июня 2017 г.
  58. ^ «Может ли глобальный семантический контекст улучшить нейронные языковые модели? – Apple». Журнал машинного обучения Apple . Получено 30 апреля 2020 г.
  59. ^ Смит, Крис (13.06.2016). «iOS 10: Siri теперь работает в сторонних приложениях, поставляется с дополнительными функциями ИИ». BGR . Получено 27.06.2017 .
  60. ^ Capes, Tim; Coles, Paul; Conkie, Alistair; Golipour, Ladan; Hadjitarkhani, Abie; Hu, Qiong; Huddleston, Nancy; Hunt, Melvyn; Li, Jiangchuan; Neeracher, Matthias; Prahallad, Kishore (2017-08-20). "Система преобразования текста в речь с помощью глубокого обучения Siri On-Device". Interspeech 2017. ISCA: 4011–4015. doi :10.21437/Interspeech.2017-1798.
  61. ^ Фогельс, Вернер (30 ноября 2016 г.). «Привносим магию искусственного интеллекта Amazon и Alexa в приложения на AWS. – All Things Distributed». www.allthingsdistributed.com . Получено 27 июня 2017 г.
  62. ^ Xiong, W.; Wu, L.; Alleva, F.; Droppo, J.; Huang, X.; Stolcke, A. (апрель 2018 г.). «Система распознавания разговорной речи Microsoft 2017». Международная конференция IEEE по акустике, речи и обработке сигналов (ICASSP) 2018 г. IEEE. стр. 5934–5938. doi :10.1109/ICASSP.2018.8461870. ISBN 978-1-5386-4658-8.
  63. ^ abcdef Шмидхубер, Юрген (10 мая 2021 г.). «Глубокое обучение: наш чудесный год 1990-1991». arXiv : 2005.05744 [cs.NE].
  64. ^ Мозер, Майк (1989). «Алгоритм сфокусированного обратного распространения для распознавания временных образов». Сложные системы .
  65. ^ Шмидхубер, Юрген (2022). «Аннотированная история современного ИИ и глубокого обучения». arXiv : 2212.11279 [cs.NE].
  66. ^ Зепп Хохрейтер ; Юрген Шмидхубер (21 августа 1995 г.), Кратковременная долговременная память, Викиданные  Q98967430
  67. ^ abc Gers, Felix; Schmidhuber, Jürgen; Cummins, Fred (1999). "Учимся забывать: непрерывное прогнозирование с LSTM". 9-я Международная конференция по искусственным нейронным сетям: ICANN '99 . Том 1999. С. 850–855. doi :10.1049/cp:19991218. ISBN 0-85296-721-7.
  68. ^ Чо, Кёнхён; ван Мерриенбур, Барт; Гульчехре, Чаглар; Багданау, Дмитрий; Бугарес, Фетхи; Швенк, Хольгер; Бенжио, Йошуа (2014). «Изучение представлений фраз с использованием кодировщика-декодера RNN для статистического машинного перевода». arXiv : 1406.1078 [cs.CL].
  69. ^ Шривастава, Рупеш Кумар; Грефф, Клаус; Шмидхубер, Юрген (2 мая 2015 г.). «Дорожные сети». arXiv : 1505.00387 [cs.LG].
  70. ^ Шривастава, Рупеш К; Грефф, Клаус; Шмидхубер, Юрген (2015). «Обучение очень глубоких сетей». Достижения в области нейронных систем обработки информации . 28. Curran Associates, Inc.: 2377–2385.
  71. ^ Шмидхубер, Юрген (2021). «Все наиболее цитируемые нейронные сети основаны на работе, проделанной в моих лабораториях». Блог AI . IDSIA, Швейцария . Получено 30.04.2022 .
  72. ^ He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (2016). Глубокое остаточное обучение для распознавания изображений. Конференция IEEE 2016 года по компьютерному зрению и распознаванию образов (CVPR) . Лас-Вегас, Невада, США: IEEE. стр. 770–778. arXiv : 1512.03385 . doi : 10.1109/CVPR.2016.90. ISBN 978-1-4673-8851-1.
  73. ^ Бек, Максимилиан; Пеппель, Корбиниан; Спанринг, Маркус; Ауэр, Андреас; Прудникова, Александра; Копп, Майкл; Кламбауэр, Гюнтер; Брандштеттер, Йоханнес; Хохрейтер, Зепп (07 мая 2024 г.). «xLSTM: расширенная долговременная память». arXiv : 2405.04517 [cs.LG].
  74. ^ NX-AI/xlstm, NXAI, 04 июня 2024 г. , получено 4 июня 2024 г.
  75. ^ Грейвс, Алекс; Берингер, Николь; Эк, Дуглас; Шмидхубер, Юрген (2004). Биологически правдоподобное распознавание речи с помощью нейронных сетей LSTM . Семинар по биологически вдохновленным подходам к передовым информационным технологиям, Bio-ADIT 2004, Лозанна, Швейцария. стр. 175–184.
  76. ^ Hochreiter, S.; Younger, AS; Conwell, PR (2001). «Обучение обучению с использованием градиентного спуска». Искусственные нейронные сети — ICANN 2001 (PDF) . Конспект лекций по информатике. Том 2130. С. 87–94. CiteSeerX 10.1.1.5.323 . doi :10.1007/3-540-44668-0_13. ISBN  978-3-540-42486-4. ISSN  0302-9743. S2CID  52872549.
  77. ^ Вирстра, Даан; Фёрстер, Александр; Петерс, Ян; Шмидхубер, Юрген (2005). «Решение задач POMDP глубокой памяти с использованием градиентов рекуррентной политики». Международная конференция по искусственным нейронным сетям ICANN'07 .
  78. ^ Байер, Джастин; Вирстра, Даан; Тогелиус, Джулиан; Шмидхубер, Юрген (2009). «Развивающиеся структуры ячеек памяти для последовательного обучения». Международная конференция по искусственным нейронным сетям ICANN'09, Кипр .
  79. ^ Грейвс, А.; Ливицки, М.; Фернандес, С.; Бертолами, Р.; Бунке, Х.; Шмидхубер, Дж. (май 2009 г.). «Новая система коннекционизма для неограниченного распознавания рукописного ввода». Труды IEEE по анализу образов и машинному интеллекту . 31 (5): 855–868. CiteSeerX 10.1.1.139.4502 . doi :10.1109/tpami.2008.137. ISSN  0162-8828. PMID  19299860. S2CID  14635907. 
  80. ^ Märgner, Volker; Abed, Haikal El (июль 2009 г.). «ICDAR 2009 Arabic Handwriting Recognition Competition». 2009 10-я Международная конференция по анализу и распознаванию документов . стр. 1383–1387. doi :10.1109/ICDAR.2009.256. ISBN 978-1-4244-4500-4. S2CID  52851337.
  81. ^ "Patient Subtypeging via Time-Aware LSTM Networks" (PDF) . msu.edu . Получено 21 ноября 2018 г. .
  82. ^ "Patient Subtyping via Time-Aware LSTM Networks". Kdd.org . Получено 24 мая 2018 г. .
  83. ^ "SIGKDD". Kdd.org . Получено 24 мая 2018 г. .

Дальнейшее чтение

Внешние ссылки