stringtranslate.com

Закрытый рекуррентный блок

Gated recurrent units ( GRU ) — это механизм стробирования в рекуррентных нейронных сетях , представленный в 2014 году Кёнхёном Чо и др. [1] GRU похож на долговременную краткосрочную память (LSTM) с механизмом стробирования для ввода или забывания определенных функций, [2] но не имеет контекстного вектора или выходного шлюза, что приводит к меньшему количеству параметров, чем LSTM. [3] Было обнаружено, что производительность GRU при выполнении определенных задач моделирования полифонической музыки, моделирования речевых сигналов и обработки естественного языка аналогична производительности LSTM. [4] [5] GRU показали, что стробирование действительно полезно в целом, и команда Бенджио не пришла к конкретному выводу о том, какой из двух блоков стробирования лучше. [6] [7]

Архитектура

Существует несколько вариаций полностью запертого блока, в которых затвор осуществляется с использованием предыдущего скрытого состояния и смещения в различных комбинациях, а также упрощенная форма, называемая минимальным запертым блоком. [8]

В дальнейшем оператор обозначает произведение Адамара .

Полностью огороженная территория

Закрытый рекуррентный блок, полностью закрытый вариант

Первоначально для выходной вектор равен .

Переменные ( обозначают количество входных признаков и количество выходных признаков):

Функции активации

Возможны альтернативные функции активации при условии, что .

Тип 1
Тип 2
Тип 3

Альтернативные формы могут быть созданы путем изменения и [9]

Минимальный закрытый блок

Минимальный гейтированный блок (MGU) похож на полностью гейтированный блок, за исключением того, что вектор гейта обновления и сброса объединен в гейт забывания. Это также подразумевает, что уравнение для выходного вектора должно быть изменено: [10]

Переменные

Светозащищенный рекуррентный блок

Рекуррентный блок с легким гейтом (LiGRU) [4] полностью удаляет гейт сброса, заменяет tanh активацией ReLU и применяет пакетную нормализацию (BN):

LiGRU изучался с байесовской точки зрения. [11] В результате этого анализа был получен вариант, называемый легкой байесовской рекуррентной единицей (LiBRU), который показал небольшие улучшения по сравнению с LiGRU в задачах распознавания речи .

Ссылки

  1. ^ Чо, Кёнхён; ван Мерриенбур, Барт; Багданау, Дмитриевич; Бугарес, Фетхи; Швенк, Хольгер; Бенжио, Йошуа (2014). «Изучение представлений фраз с использованием кодировщика-декодера RNN для статистического машинного перевода». arXiv : 1406.1078 [cs.CL].
  2. ^ Феликс Герс ; Юрген Шмидхубер ; Фред Камминс (1999). «Учимся забывать: непрерывное прогнозирование с LSTM». 9-я Международная конференция по искусственным нейронным сетям: ICANN '99. Том 1999. С. 850–855. doi :10.1049/cp:19991218. ISBN 0-85296-721-7.
  3. ^ "Учебник по рекуррентным нейронным сетям, часть 4 – Реализация GRU/LSTM RNN с Python и Theano – WildML". Wildml.com . 2015-10-27. Архивировано из оригинала 2021-11-10 . Получено 18 мая 2016 .
  4. ^ ab Раванелли, Мирко; Бракель, Филемон; Омолого, Маурицио; Бенджио, Йошуа (2018). «Световые рекуррентные единицы для распознавания речи». Труды IEEE по новым темам в области вычислительного интеллекта . 2 (2): 92–102. arXiv : 1803.10225 . doi : 10.1109/TETCI.2017.2762739. S2CID  4402991.
  5. ^ Су, Юаханг; Куо, Джей (2019). «О расширенной долговременной краткосрочной памяти и зависимой двунаправленной рекуррентной нейронной сети». Neurocomputing . 356 : 151–161. arXiv : 1803.01686 . doi : 10.1016/j.neucom.2019.04.044. S2CID  3675055.
  6. ^ Чунг, Джуньён; Гульчехре, Чаглар; Чо, Кёнхён; Бенджио, Йошуа (2014). «Эмпирическая оценка рекуррентных нейронных сетей с управляемым входом при моделировании последовательностей». arXiv : 1412.3555 [cs.NE].
  7. ^ Грубер, Н.; Йокиш, А. (2020), «Являются ли клетки GRU более специфичными, а клетки LSTM более чувствительными в классификации мотивов текста?», Frontiers in Artificial Intelligence , 3 : 40, doi : 10.3389/frai.2020.00040 , PMC 7861254 , PMID  33733157, S2CID  220252321  
  8. ^ Чунг, Джуньён; Гульчехре, Чаглар; Чо, Кёнхён; Бенджио, Йошуа (2014). «Эмпирическая оценка рекуррентных нейронных сетей с управляемым входом при моделировании последовательностей». arXiv : 1412.3555 [cs.NE].
  9. ^ Дей, Рахул; Салем, Фатхи М. (2017-01-20). «Варианты нейронных сетей с управляемыми рекуррентными единицами (GRU)». arXiv : 1701.05923 [cs.NE].
  10. ^ Хек, Джоэл; Салем, Фатхи М. (12.01.2017). «Упрощенные минимальные вариации стробируемых единиц для рекуррентных нейронных сетей». arXiv : 1701.03452 [cs.NE].
  11. ^ Биттар, Александр; Гарнер, Филип Н. (май 2021 г.). «Байесовская интерпретация рекуррентной единицы с регулируемым светом». ICASSP 2021. Международная конференция IEEE по акустике, речи и обработке сигналов (ICASSP) 2021 года. Торонто, Онтарио, Канада: IEEE. стр. 2965–2969. 10.1109/ICASSP39728.2021.9414259.