Gated recurrent units ( GRU ) — это механизм стробирования в рекуррентных нейронных сетях , представленный в 2014 году Кёнхёном Чо и др. [1] GRU похож на долговременную краткосрочную память (LSTM) с механизмом стробирования для ввода или забывания определенных функций, [2] но не имеет контекстного вектора или выходного шлюза, что приводит к меньшему количеству параметров, чем LSTM. [3]
Было обнаружено, что производительность GRU при выполнении определенных задач моделирования полифонической музыки, моделирования речевых сигналов и обработки естественного языка аналогична производительности LSTM. [4] [5] GRU показали, что стробирование действительно полезно в целом, и команда Бенджио не пришла к конкретному выводу о том, какой из двух блоков стробирования лучше. [6] [7]
Архитектура
Существует несколько вариаций полностью запертого блока, в которых затвор осуществляется с использованием предыдущего скрытого состояния и смещения в различных комбинациях, а также упрощенная форма, называемая минимальным запертым блоком. [8]
Возможны альтернативные функции активации при условии, что .
Альтернативные формы могут быть созданы путем изменения и [9]
Тип 1, каждый вентиль зависит только от предыдущего скрытого состояния и смещения.
Тип 2, каждый вентиль зависит только от предыдущего скрытого состояния.
Тип 3, каждый вентиль вычисляется только с использованием смещения.
Минимальный закрытый блок
Минимальный гейтированный блок (MGU) похож на полностью гейтированный блок, за исключением того, что вектор гейта обновления и сброса объединен в гейт забывания. Это также подразумевает, что уравнение для выходного вектора должно быть изменено: [10]
Переменные
: входной вектор
: выходной вектор
: кандидат на вектор активации
: забыть вектор
, и : матрицы параметров и вектор
Светозащищенный рекуррентный блок
Рекуррентный блок с легким гейтом (LiGRU) [4] полностью удаляет гейт сброса, заменяет tanh активацией ReLU и применяет пакетную нормализацию (BN):
LiGRU изучался с байесовской точки зрения. [11] В результате этого анализа был получен вариант, называемый легкой байесовской рекуррентной единицей (LiBRU), который показал небольшие улучшения по сравнению с LiGRU в задачах распознавания речи .
Ссылки
^ Чо, Кёнхён; ван Мерриенбур, Барт; Багданау, Дмитриевич; Бугарес, Фетхи; Швенк, Хольгер; Бенжио, Йошуа (2014). «Изучение представлений фраз с использованием кодировщика-декодера RNN для статистического машинного перевода». arXiv : 1406.1078 [cs.CL].
^ Феликс Герс ; Юрген Шмидхубер ; Фред Камминс (1999). «Учимся забывать: непрерывное прогнозирование с LSTM». 9-я Международная конференция по искусственным нейронным сетям: ICANN '99. Том 1999. С. 850–855. doi :10.1049/cp:19991218. ISBN0-85296-721-7.
^ "Учебник по рекуррентным нейронным сетям, часть 4 – Реализация GRU/LSTM RNN с Python и Theano – WildML". Wildml.com . 2015-10-27. Архивировано из оригинала 2021-11-10 . Получено 18 мая 2016 .
^ ab Раванелли, Мирко; Бракель, Филемон; Омолого, Маурицио; Бенджио, Йошуа (2018). «Световые рекуррентные единицы для распознавания речи». Труды IEEE по новым темам в области вычислительного интеллекта . 2 (2): 92–102. arXiv : 1803.10225 . doi : 10.1109/TETCI.2017.2762739. S2CID 4402991.
^ Су, Юаханг; Куо, Джей (2019). «О расширенной долговременной краткосрочной памяти и зависимой двунаправленной рекуррентной нейронной сети». Neurocomputing . 356 : 151–161. arXiv : 1803.01686 . doi : 10.1016/j.neucom.2019.04.044. S2CID 3675055.
^ Грубер, Н.; Йокиш, А. (2020), «Являются ли клетки GRU более специфичными, а клетки LSTM более чувствительными в классификации мотивов текста?», Frontiers in Artificial Intelligence , 3 : 40, doi : 10.3389/frai.2020.00040 , PMC 7861254 , PMID 33733157, S2CID 220252321
^ Дей, Рахул; Салем, Фатхи М. (2017-01-20). «Варианты нейронных сетей с управляемыми рекуррентными единицами (GRU)». arXiv : 1701.05923 [cs.NE].
^ Хек, Джоэл; Салем, Фатхи М. (12.01.2017). «Упрощенные минимальные вариации стробируемых единиц для рекуррентных нейронных сетей». arXiv : 1701.03452 [cs.NE].
^ Биттар, Александр; Гарнер, Филип Н. (май 2021 г.). «Байесовская интерпретация рекуррентной единицы с регулируемым светом». ICASSP 2021. Международная конференция IEEE по акустике, речи и обработке сигналов (ICASSP) 2021 года. Торонто, Онтарио, Канада: IEEE. стр. 2965–2969. 10.1109/ICASSP39728.2021.9414259.