Семейство VGG включает в себя различные конфигурации с различной глубиной, обозначаемые буквой «VGG» с последующим числом весовых слоев. Наиболее распространенными являются VGG-16 (13 сверточных слоев + 3 полностью связанных слоя, 138M параметров) и VGG-19 (16 + 3, 144M параметров). [1]
Серия была исторически важна как ранняя влиятельная модель, разработанная путем составления общих модулей, тогда как AlexNet (2012) была разработана «с нуля». Она также сыграла важную роль в изменении стандартных сверточных ядер в CNN с больших (до 11 на 11 в AlexNet) до всего лишь 3 на 3, решение, которое было пересмотрено только в ConvNext (2022). [6] [7]
VGGNets в основном устарели из-за Inception , ResNet и DenseNet . RepVGG (2021) — это обновленная версия архитектуры. [8]
Архитектура
Ключевым архитектурным принципом моделей VGG является последовательное использование небольших сверточных фильтров по всей сети. Это контрастирует с более ранними архитектурами CNN, которые использовали более крупные фильтры, например, в AlexNet. [7]
Например, две свертки, сложенные вместе, имеют те же самые пиксели рецептивного поля, что и одна свертка, но последняя использует параметры, в то время как первая использует параметры (где — количество каналов). Оригинальная публикация показала, что глубокие и узкие CNN значительно превосходят своих поверхностных и широких аналогов. [7]
Модели серии VGG представляют собой глубокие нейронные сети, состоящие из универсальных модулей:
Свёрточные модули : сверточные слои с шагом 1, за которыми следуют активации ReLU.
Слои максимального пула : После некоторых сверточных модулей, слои максимального пула с фильтром и шагом 2 для понижения разрешения карт признаков. Он уменьшает вдвое и ширину, и высоту, но сохраняет количество каналов.
Полностью связанные слои : три полностью связанных слоя в конце сети, с размерами 4096-4096-1000. Последний имеет 1000 каналов, соответствующих 1000 классам в ImageNet.
Слой Softmax : Слой Softmax выводит распределение вероятностей по классам.
Семейство VGG включает в себя различные конфигурации с различной глубиной, обозначаемые буквой "VGG" с последующим числом весовых слоев. Наиболее распространенными являются VGG-16 (13 сверточных слоев + 3 полностью связанных слоя) и VGG-19 (16 + 3), обозначаемые как конфигурации D и E в оригинальной статье. [10]
В качестве примера, 16 сверточных слоев VGG-19 структурированы следующим образом: где стрелка означает свертку 3x3 с входными каналами и выходными каналами и шагом 1, за которой следует активация ReLU. Означает слой понижения дискретизации с помощью 2x2 maxpooling с шагом 2.
Ссылки
^ ab Симонян, Карен; Зиссерман, Эндрю (2015-04-10), Очень глубокие сверточные сети для крупномасштабного распознавания изображений , arXiv : 1409.1556
^ Диллон, Анамика; Верма, Гьянендра К. (2020-06-01). «Сверточная нейронная сеть: обзор моделей, методологий и приложений для обнаружения объектов». Прогресс в области искусственного интеллекта . 9 (2): 85–112. doi :10.1007/s13748-019-00203-0. ISSN 2192-6360.
^ He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (2016). «Глубокое остаточное обучение для распознавания изображений». Конференция IEEE 2016 года по компьютерному зрению и распознаванию образов (CVPR) . С. 770–778. arXiv : 1512.03385 . Bibcode :2016cvpr.confE...1H. doi :10.1109/CVPR.2016.90. ISBN978-1-4673-8851-1.
^ Gatys, Leon A.; Ecker, Alexander S.; Bethge, Matthias (2016). Передача стиля изображения с использованием сверточных нейронных сетей. Конференция IEEE по компьютерному зрению и распознаванию образов (CVPR). стр. 2414–2423.
^ Лю, Чжуан; Мао, Ханьцзы; У, Чао-Юань; Файхтенхофер, Кристоф; Даррелл, Тревор; Се, Сайнинг (2022). «Сверточная сеть для 2020-х годов». Труды конференции IEEE/CVF по компьютерному зрению и распознаванию образов (CVPR) : 11976–11986. arXiv : 2201.03545 .
^ abc Чжан, Астон; Липтон, Закари; Ли, Му; Смола, Александр Дж. (2024). "8.2. Сети с использованием блоков (VGG)". Погружение в глубокое обучение . Кембридж Нью-Йорк Порт Мельбурн Нью-Дели Сингапур: Cambridge University Press. ISBN978-1-009-38943-3.
^ Дин, Сяохань; Чжан, Сянъюй; Ма, Ниннин; Хан, Джунгонг; Дин, Гуйгуан; Сан, Цзянь (2021). «RepVGG: Делаем сверточные сети в стиле VGG снова великими». Труды конференции IEEE/CVF по компьютерному зрению и распознаванию образов (CVPR) : 13733–13742. arXiv : 2101.03697 .
^ "Очень глубокие сверточные сети для крупномасштабного визуального распознавания". Группа компьютерного зрения из Оксфордского университета . Получено 2024-09-06 .