Длинная кратковременная память

Сеть долговременной краткосрочной памяти ( LSTM ) ^{[1] представляет собой}рекуррентную нейронную сеть (RNN), предназначенную для решения проблемы исчезающего градиента ^[2] , присутствующей в традиционных RNN. Его относительная нечувствительность к длине промежутка является его преимуществом перед другими RNN, скрытыми моделями Маркова и другими методами обучения последовательностей. Его цель — обеспечить RNN кратковременную память, которая может сохраняться на тысячи временных шагов, то есть « долгую кратковременную память». ^[1] Он применим для классификации , обработки и прогнозирования данных на основе временных рядов , например, при рукописном вводе , ^[3] распознавании речи , ^[4]^[5] машинном переводе , ^[6]^[7] обнаружении речевой активности, ^{[8] ]} управление роботом, ^[9]^[10] видеоигры, ^[11]^[12] и здравоохранение. ^[13]

Обычный блок LSTM состоит из ячейки , входного вентиля , выходного вентиля ^[14] и вентиля забывания . ^[15] Ячейка запоминает значения в течение произвольных интервалов времени, а три ворота регулируют поток информации в ячейку и из нее. Ворота забывания решают, какую информацию следует отбросить из предыдущего состояния, присваивая предыдущему состоянию по сравнению с текущим входом значение от 0 до 1. (Округленное) значение 1 означает сохранение информации, а значение 0 означает сохранение информации. откажитесь от него. Входные ворота решают, какие фрагменты новой информации хранить в текущем состоянии, используя ту же систему, что и ворота забывания. Выходные вентили контролируют, какие фрагменты информации в текущем состоянии выводить, присваивая информации значение от 0 до 1 с учетом предыдущего и текущего состояний. Выборочный вывод соответствующей информации из текущего состояния позволяет сети LSTM поддерживать полезные долгосрочные зависимости для прогнозирования как на текущих, так и на будущих временных шагах.

Мотивация

Теоретически классические (или «ванильные») RNN могут отслеживать произвольные долгосрочные зависимости во входных последовательностях. Проблема с ванильными RNN носит вычислительный (или практический) характер: при обучении ванильных RNN с использованием обратного распространения ошибки долгосрочные градиенты, распространяющиеся с помощью обратного распространения, могут «исчезать» (то есть они могут стремиться к нулю) или «исчезать». взорваться» (то есть они могут стремиться к бесконечности) ^[2] из-за вычислений, участвующих в этом процессе, в которых используются числа конечной точности . RNN, использующие блоки LSTM, частично решают проблему исчезновения градиента , поскольку блоки LSTM позволяют градиентам течь без изменений . Однако сети LSTM все еще могут страдать от проблемы взрывного градиента. ^[16]

Идея архитектуры LSTM заключается в создании дополнительного модуля в нейронной сети, который учится, когда запоминать, а когда забывать соответствующую информацию. ^[15] Другими словами, сеть эффективно узнает, какая информация может понадобиться позже в последовательности, а когда эта информация больше не нужна. Например, в контексте обработки естественного языка сеть может изучать грамматические зависимости. ^[17] LSTM может обработать предложение « Дэйв , в результате его спорных утверждений, теперь является изгоем», запоминая (статистически вероятный) грамматический род и число подлежащего Дэйв , обратите внимание, что эта информация относится к местоимению. his и обратите внимание, что эта информация больше не важна после глагола is .

Варианты

В приведенных ниже уравнениях переменные нижнего регистра представляют векторы. Матрицы и содержат соответственно веса входных и рекуррентных соединений, где индекс может быть либо входным вентилем , выходным вентилем , вентилем забывания или ячейкой памяти , в зависимости от вычисляемой активации. Таким образом, в этом разделе мы используем «векторную запись». Так, например, это не просто одна единица одной ячейки LSTM, но содержит единицы ячейки LSTM. $W_{q}$ $U_{q}$ $_{q}$ $i$ $o$ $f$ $c$ $c_{t}\in \mathbb {R} ^{h}$ $h$

LSTM с воротами забывания

Компактные формы уравнений для прямого прохода ячейки LSTM с воротами забывания: ^[1]^[15]

{\begin{aligned}f_{t}&=\sigma _{g}(W_{f}x_{t}+U_{f}h_{t-1}+b_{f})\\i_{t}&=\sigma _{g}(W_{i}x_{t}+U_{i}h_{t-1}+b_{i})\\o_{t}&=\sigma _{g}(W_{o}x_{t}+U_{o}h_{t-1}+b_{o})\\{\tilde {c}}_{t}&=\sigma _{c}(W_{c}x_{t}+U_{c}h_{t-1}+b_{c})\\c_{t}&=f_{t}\odot c_{t-1}+i_{t}\odot {\tilde {c}}_{t}\\h_{t}&=o_{t}\odot \sigma _{h}(c_{t})\end{aligned}}

где начальные значения — и, а оператор обозначает произведение Адамара (поэлементное произведение). Нижний индекс индексирует шаг по времени. $c_{0}=0$ $h_{0}=0$ $\odot$ $t$

Переменные

Верхние индексы и обозначают количество входных объектов и количество скрытых блоков соответственно: $d$ $h$

$x_{t}\in \mathbb {R} ^{d}$ : входной вектор в модуль LSTM
$f_{t}\in {(0,1)}^{h}$ : забыть вектор активации ворот
$i_{t}\in {(0,1)}^{h}$ : вектор активации входа/обновления ворот
$o_{t}\in {(0,1)}^{h}$ : вектор активации выходного вентиля
$h_{t}\in {(-1,1)}^{h}$ : вектор скрытого состояния, также известный как выходной вектор модуля LSTM.
${\tilde {c}}_{t}\in {(-1,1)}^{h}$ : вектор активации ввода ячейки
$c_{t}\in \mathbb {R} ^{h}$ : вектор состояния ячейки
$W\in \mathbb {R} ^{h\times d}$ , и : весовые матрицы и параметры вектора смещения, которые необходимо изучить во время обучения. $U\in \mathbb {R} ^{h\times h}$ $b\in \mathbb {R} ^{h}$

Функции активации

$\sigma _{g}$ : сигмовидная функция .
$\sigma _{c}$ : функция гиперболического тангенса .
$\sigma _{h}$ : гиперболическая функция тангенса или, как предполагает статья LSTM с глазком ^[18]^[19] , . $\sigma _{h}(x)=x$

Глазок ЛСТМ

{\displaystyle я} — Блок LSTM «глазок» с входными (т.е. ), выходными (т.е. ) и воротами забывания (т.е.) . $i$ $o$ $f$

Рисунок справа представляет собой графическое изображение блока LSTM с глазковыми соединениями (т.е. глазок LSTM). ^[18]^[19] Соединения «глазок» позволяют воротам получить доступ к карусели постоянных ошибок (CEC), активацией которой является состояние ячейки. ^[18] не используется, вместо него используется в большинстве мест. $h_{t-1}$ $c_{t-1}$

{\begin{aligned}f_{t}&=\sigma _{g}(W_{f}x_{t}+U_{f}c_{t-1}+b_{f})\\i_{t}&=\sigma _{g}(W_{i}x_{t}+U_{i}c_{t-1}+b_{i})\\o_{t}&=\sigma _{g}(W_{o}x_{t}+U_{o}c_{t-1}+b_{o})\\c_{t}&=f_{t}\odot c_{t-1}+i_{t}\odot \sigma _{c}(W_{c}x_{t}+b_{c})\\h_{t}&=o_{t}\odot \sigma _{h}(c_{t})\end{aligned}}

Каждый из вентилей можно рассматривать как «стандартный» нейрон в нейронной сети прямого распространения (или многослойной): то есть они вычисляют активацию (используя функцию активации) взвешенной суммы. и представляют собой активации соответственно входных, выходных и вентилей забывания на временном шаге . $i_{t},o_{t}$ $f_{t}$ $t$

Три стрелки выхода из ячейки памяти к трем воротам представляют собой соединения глазка . Эти глазковые связи на самом деле обозначают вклад активации ячейки памяти на временном шаге , т.е. вклад (а не , как можно предположить из рисунка). Другими словами, вентили и вычисляют свои активации на такте времени (т.е. соответственно и ) также учитывая активацию ячейки памяти на такте времени , т.е. $c$ $i,o$ $f$ $c$ $t-1$ $c_{t-1}$ $c_{t}$ $i,o$ $f$ $t$ $i_{t},o_{t}$ $f_{t}$ $c$ $t-1$ $c_{t-1}$

Единственная стрелка слева направо, выходящая из ячейки памяти, не является соединением «глазок» и обозначает . $c_{t}$

Маленькие кружочки, содержащие символ, представляют собой поэлементное умножение между его входами. Большие круги, содержащие S -образную кривую, представляют собой применение дифференцируемой функции (например, сигмовидной функции) к взвешенной сумме. $\times$

Сверточный глазок LSTM

Глазок сверточного LSTM. ^[20] Обозначает оператор свертки . $*$

{\begin{aligned}f_{t}&=\sigma _{g}(W_{f}*x_{t}+U_{f}*h_{t-1}+V_{f}\odot c_{t-1}+b_{f})\\i_{t}&=\sigma _{g}(W_{i}*x_{t}+U_{i}*h_{t-1}+V_{i}\odot c_{t-1}+b_{i})\\c_{t}&=f_{t}\odot c_{t-1}+i_{t}\odot \sigma _{c}(W_{c}*x_{t}+U_{c}*h_{t-1}+b_{c})\\o_{t}&=\sigma _{g}(W_{o}*x_{t}+U_{o}*h_{t-1}+V_{o}\odot c_{t}+b_{o})\\h_{t}&=o_{t}\odot \sigma _{h}(c_{t})\end{aligned}}

Обучение

RNN, использующая блоки LSTM, может быть обучена контролируемым образом на наборе обучающих последовательностей, используя алгоритм оптимизации, такой как градиентный спуск в сочетании с обратным распространением ошибки во времени , для вычисления градиентов, необходимых в процессе оптимизации, чтобы изменить каждый вес LSTM. сети пропорционально производной ошибки (на выходном уровне сети LSTM) по соответствующему весу.

Проблема с использованием градиентного спуска для стандартных RNN заключается в том, что градиенты ошибок исчезают экспоненциально быстро с увеличением временного лага между важными событиями. Это происходит потому, что спектральный радиус меньше 1. ^[2]^[21] $\lim _{n\to \infty }W^{n}=0$ $W$

Однако в модулях LSTM, когда значения ошибок распространяются обратно из выходного слоя, ошибка остается в ячейке модуля LSTM. Эта «карусель ошибок» постоянно передает ошибку обратно каждому из вентилей блока LSTM, пока они не научатся отсекать значение.

Функция оценки CTC

Многие приложения используют стеки LSTM RNN ^[22] и обучают их с помощью коннекционистской временной классификации (CTC) ^[23] для нахождения весовой матрицы RNN, которая максимизирует вероятность последовательностей меток в обучающем наборе с учетом соответствующих входных последовательностей. CTC достигает как согласованности, так и признания.

Альтернативы

Иногда может быть выгодно обучать (части) LSTM с помощью нейроэволюции ^[24] или методов политического градиента, особенно когда нет «учителя» (то есть обучающих меток).

Успех

Было несколько успешных историй обучения RNN без присмотра с помощью модулей LSTM.

В 2018 году Билл Гейтс назвал «огромной вехой в развитии искусственного интеллекта», когда боты, разработанные OpenAI, смогли победить людей в игре Dota 2. ^[11] OpenAI Five состоит из пяти независимых, но скоординированных нейронных сетей. Каждая сеть обучается методом градиента политики без надзора учителя и содержит однослойную долговременную память на 1024 единицы, которая видит текущее состояние игры и генерирует действия через несколько возможных головок действий. ^[11]

В 2018 году OpenAI также обучила аналогичный LSTM с помощью политических градиентов для управления человекоподобной роботизированной рукой, которая манипулирует физическими объектами с беспрецедентной ловкостью. ^[10]

В 2019 году программа AlphaStar компании DeepMind использовала глубокое ядро LSTM, чтобы добиться успеха в сложной видеоигре Starcraft II . ^[12] Это было расценено как значительный прогресс на пути к искусственному общему интеллекту. ^[12]

Приложения

Приложения LSTM включают:

Управление роботом ^[9]
Прогнозирование временных рядов ^[24]
Распознавание речи ^[25]^[26]^[27]
Обучение ритму ^[19]
Гидрологическое моделирование осадков и стока ^[28]
Музыкальная композиция ^[29]
Изучение грамматики ^[30]^[18]^[31]
Распознавание рукописного ввода ^[32]^[33]
Распознавание действий человека ^[34]
Сурдоперевод ^[35]
Обнаружение гомологии белков ^[36]
Прогнозирование субклеточной локализации белков ^[37]
Обнаружение аномалий временных рядов ^[38]
Некоторые задачи прогнозирования в области управления бизнес-процессами ^[39]
Прогнозирование в путях оказания медицинской помощи ^[40]
Семантический анализ ^[41]
Совместная сегментация объектов ^[42]^[43]
Управление пассажирами аэропорта ^[44]
Краткосрочный прогноз трафика ^[45]
Дизайн лекарств ^[46]
Прогноз рынка ^[47]
Классификация действий в видео ^[48]

Хронология разработки

1989: Работа Майка Мозера по сфокусированному обратному распространению ошибки ^[49] позже будет цитироваться в основной статье LSTM. ^[1] Уравнение Мозера (3.1) предвидит аспекты ячеек LSTM: c_i(t+1) = d_i c_i(t) + f(x(t)), где c_i(t) — активация i-го само- подключенная «контекстная единица» на временном шаге t, x(t) — текущий вход, f — нелинейная функция, а d_i — действительный «вес затухания», который можно изучить. Остаточное соединение в «карусели постоянных ошибок» ячейки LSTM упрощает это, устанавливая d_i = 1,0: c_i(t+1) = c_i(t) + f(x(t)). В статье LSTM ^[1] это называется «центральной особенностью LSTM» и утверждается: «Обратите внимание на сходство с системой фиксированной постоянной времени Мозера (1992) — постоянная времени 1,0 подходит для потенциально бесконечных временных задержек».

1991: Зепп Хохрайтер проанализировал проблему исчезающего градиента и разработал принципы метода в своей немецкой дипломной работе ^{[2] , которую его научный руководитель}Юрген Шмидхубер назвал «одним из самых важных документов в истории машинного обучения» . ^[50]

1995: «Долгая кратковременная память (LSTM)» опубликована в техническом отчете Зеппа Хохрайтера и Юргена Шмидхубера . ^[51]

1996: LSTM опубликован на рецензируемой конференции NIPS'1996. ^[14]

1997: Основная статья LSTM опубликована в журнале Neural Computation . ^[1] Вводя блоки карусели постоянных ошибок (CEC), LSTM решает проблему исчезновения градиента . Первоначальная версия блока LSTM включала ячейки, входные и выходные элементы. ^[52]

1999: Феликс Герс , Юрген Шмидхубер и Фред Камминс представили шлюз забывания (также называемый «воротом сохранения») в архитектуру LSTM, ^[53] позволяющий LSTM сбросить свое собственное состояние. ^[52]

2000: Герс, Шмидхубер и Камминс добавили в архитектуру соединения глазков (соединения от ячейки к воротам). ^[18]^[19] Кроме того, функция активации выхода была опущена. ^[52]

2001: Герс и Шмидхубер научили LSTM изучать языки, которые невозможно выучить с помощью традиционных моделей, таких как скрытые марковские модели. ^[18]^[54]

Хохрейтер и др. использовал LSTM для метаобучения (т.е. изучения алгоритма обучения). ^[55]

2004: Первое успешное применение LSTM к речи Алекс Грейвс и др. ^[56]^[54]

2005: Первая публикация (Грейвс и Шмидхубер) LSTM с полным обратным распространением ошибки во времени и двунаправленным LSTM. ^[25]^[54]

2005: Даан Виерстра, Фаустино Гомес и Шмидхубер обучали LSTM методом нейроэволюции без учителя. ^[24]

2006: Грейвс, Фернандес, Гомес и Шмидхубер представляют новую функцию ошибок для LSTM: коннекционистскую временную классификацию (CTC) для одновременного выравнивания и распознавания последовательностей. ^[23] LSTM, обученный CTC, привел к прорыву в распознавании речи. ^[26]^[57]^[58]^[59]

Майер и др. обучил LSTM управлять роботами . ^[9]

2007: Виерстра, Ферстер, Петерс и Шмидхубер обучили LSTM с помощью политических градиентов для обучения с подкреплением без учителя. ^[60]

Хохрейтер, Хойзель и Обермайр применили LSTM для обнаружения гомологии белков в области биологии . ^[36]

2009: LSTM, обученный CTC, выиграл соревнование по распознаванию рукописного текста, подключенное к ICDAR . Три такие модели были представлены командой под руководством Алекса Грейвса . ^[3] Одна из моделей была самой точной на соревновании, а другая — самой быстрой. ^[61] Это был первый раз, когда RNN выиграла международные соревнования. ^[54]

2009: Джастин Байер и др. представил поиск нейронной архитектуры для LSTM. ^[62]^[54]

2013: Алекс Грейвс, Абдель-Рахман Мохамед и Джеффри Хинтон использовали сети LSTM в качестве основного компонента сети, которая достигла рекордного уровня ошибок фонем 17,7% в классическом наборе данных естественной речи TIMIT . ^[27]

2014: Кёнхён Чо и др. выдвинул упрощенный вариант шлюза забывания LSTM ^[53] под названием Gated recurrent unit (GRU). ^[63]

2015: Google начал использовать LSTM, обученный CTC, для распознавания речи в Google Voice. ^[57]^[58] Согласно официальному сообщению в блоге, новая модель сократила количество ошибок транскрипции на 49%. ^[64]

2015: Рупеш Кумар Шривастава, Клаус Грефф и Шмидхубер использовали принципы LSTM ^[53] для создания сети Highway — нейронной сети прямого распространения с сотнями слоев, гораздо более глубокой, чем предыдущие сети. ^[65]^[66]^[67] 7 месяцев спустя, Каймин Хэ, Сянъюй Чжан; Шаоцин Рен и Цзянь Сунь выиграли конкурс ImageNet 2015, предложив вариант сети шоссе с открытыми воротами или без ворот под названием Остаточная нейронная сеть . ^[68] Эта нейронная сеть стала наиболее цитируемой в 21 веке. ^[67]

2016: Google начал использовать LSTM для предложения сообщений в приложении Allo Chat. ^[69] В том же году Google выпустила систему нейронного машинного перевода Google для Google Translate, которая использовала LSTM для уменьшения ошибок перевода на 60%. ^[6]^[70]^[71]

Apple объявила на своей Всемирной конференции разработчиков , что начнет использовать LSTM для быстрого ввода ^[72]^[73]^[74] на iPhone и для Siri. ^[75]^[76]

Amazon выпустила Polly , которая генерирует голоса Alexa, используя двунаправленный LSTM для технологии преобразования текста в речь. ^[77]

2017: Facebook ежедневно выполняет около 4,5 миллиардов автоматических переводов, используя сети долговременной краткосрочной памяти. ^[7]

Исследователи из Мичиганского государственного университета , IBM Research и Корнелльского университета опубликовали исследование на конференции Knowledge Discovery and Data Mining (KDD). ^[78]^[79]^[80] Их LSTM с учетом времени (T-LSTM) работает лучше с определенными наборами данных, чем стандартный LSTM.

Microsoft сообщила о достижении точности распознавания 94,9% в корпусе Switchboard, словарь которого составляет 165 000 слов. В этом подходе использовалась «долговременная память на основе сеансов диалога». ^[59]

2018: OpenAI использовала LSTM, обученную с помощью градиентов политики, чтобы побеждать людей в сложной видеоигре Dota 2 ^[11] и управлять человекоподобной рукой робота, которая манипулирует физическими объектами с беспрецедентной ловкостью. ^[10]^[54]

2019: DeepMind использовала LSTM, обученную по градиентам политики, чтобы преуспеть в сложной видеоигре Starcraft II . ^[12]^[54]

2021: По данным Google Scholar , в 2021 году LSTM цитировали более 16 000 раз в течение одного года. Это отражает применение LSTM во многих различных областях, включая здравоохранение. ^[13]

Смотрите также

дальнейшее чтение

Моннер, Дерек Д.; Реджиа, Джеймс А. (2010). «Обобщенный LSTM-подобный алгоритм обучения для рекуррентных нейронных сетей второго порядка» (PDF) . Нейронные сети . 25 (1): 70–83. doi :10.1016/j.neunet.2011.07.003. ПМК 3217173 . PMID 21803542. Высокопроизводительное расширение LSTM, упрощенное до одного типа узла и способное обучать произвольные архитектуры.
Герс, Феликс А.; Шраудольф, Никол Н.; Шмидхубер, Юрген (август 2002 г.). «Изучение точного времени с помощью рекуррентных сетей LSTM» (PDF) . Журнал исследований машинного обучения . 3 : 115–143.
Герс, Феликс (2001). «Долгая краткосрочная память в рекуррентных нейронных сетях» (PDF) . Кандидатская диссертация .
Абидогун, Олусола Аденийи (2005). Интеллектуальный анализ данных, обнаружение мошенничества и мобильные телекоммуникации: анализ шаблонов вызовов с помощью неконтролируемых нейронных сетей. Магистерская диссертация (Диссертация). Университет Западного Кейпа. hdl : 11394/249. Архивировано (PDF) из оригинала 22 мая 2012 г.
- оригинал с двумя главами, посвященными объяснению рекуррентных нейронных сетей, особенно LSTM.

Внешние ссылки

Рекуррентные нейронные сети с более чем 30 статьями LSTM группы Юргена Шмидхубера в IDSIA
Дельфин, Р. (12 ноября 2021 г.). «Сети LSTM – подробное объяснение». Статья .
Герта, Кристиан. «Как реализовать LSTM в Python с помощью Theano». Руководство .

^ Эбби Мартин, Эндрю Дж. Хилл, Константин М. Зайлер и Мехала Баламурали (2023) Автоматическое распознавание действий экскаватора и локализация необрезанного видео с использованием гибридных сетей LSTM-трансформатора, Международный журнал горного дела, мелиорации и окружающей среды, DOI: 10.1080/17480930.2023. 2290364