VGGNet

VGGNets — это серия сверточных нейронных сетей (CNN), разработанная Visual Geometry Group (VGG) Оксфордского университета .

Семейство VGG включает в себя различные конфигурации с различной глубиной, обозначаемые буквой «VGG» с последующим числом весовых слоев. Наиболее распространенными являются VGG-16 (13 сверточных слоев + 3 полностью связанных слоя, 138M параметров) и VGG-19 (16 + 3, 144M параметров). ^[1]

Семейство VGG широко применялось в различных областях компьютерного зрения. ^[2] Модель ансамбля VGGNets достигла передовых результатов в конкурсе ImageNet Large Scale Visual Recognition Challenge (ILSVRC) в 2014 году. ^[1]^[3] Она использовалась в качестве базовой для сравнения в статье ResNet по классификации изображений , ^[4] как сеть в Fast Region-based CNN для обнаружения объектов и как базовая сеть в передаче нейронного стиля . ^[5]

Серия была исторически важна как ранняя влиятельная модель, разработанная путем составления общих модулей, тогда как AlexNet (2012) была разработана «с нуля». Она также сыграла важную роль в изменении стандартных сверточных ядер в CNN с больших (до 11 на 11 в AlexNet) до всего лишь 3 на 3, решение, которое было пересмотрено только в ConvNext (2022). ^[6]^[7]

VGGNets в основном устарели из-за Inception , ResNet и DenseNet . RepVGG (2021) — это обновленная версия архитектуры. ^[8]

Архитектура

Ключевым архитектурным принципом моделей VGG является последовательное использование небольших сверточных фильтров по всей сети. Это контрастирует с более ранними архитектурами CNN, которые использовали более крупные фильтры, например, в AlexNet. ^[7] $3\times 3$ $11\times 11$

Например, две свертки, сложенные вместе, имеют те же самые пиксели рецептивного поля, что и одна свертка, но последняя использует параметры, в то время как первая использует параметры (где — количество каналов). Оригинальная публикация показала, что глубокие и узкие CNN значительно превосходят своих поверхностных и широких аналогов. ^[7] ${\textstyle 3\times 3}$ ${\textstyle 5\times 5}$ ${\textstyle \left(25\cdot c^{2}\right)}$ ${\textstyle \left(18\cdot c^{2}\right)}$ $с$

Модели серии VGG представляют собой глубокие нейронные сети, состоящие из универсальных модулей:

Свёрточные модули : сверточные слои с шагом 1, за которыми следуют активации ReLU. $3\times 3$
Слои максимального пула : После некоторых сверточных модулей, слои максимального пула с фильтром и шагом 2 для понижения разрешения карт признаков. Он уменьшает вдвое и ширину, и высоту, но сохраняет количество каналов. $2\times 2$
Полностью связанные слои : три полностью связанных слоя в конце сети, с размерами 4096-4096-1000. Последний имеет 1000 каналов, соответствующих 1000 классам в ImageNet.
Слой Softmax : Слой Softmax выводит распределение вероятностей по классам.

Семейство VGG включает в себя различные конфигурации с различной глубиной, обозначаемые буквой "VGG" с последующим числом весовых слоев. Наиболее распространенными являются VGG-16 (13 сверточных слоев + 3 полностью связанных слоя) и VGG-19 (16 + 3), обозначаемые как конфигурации D и E в оригинальной статье. ^[10]

В качестве примера, 16 сверточных слоев VGG-19 структурированы следующим образом: где стрелка означает свертку 3x3 с входными каналами и выходными каналами и шагом 1, за которой следует активация ReLU. Означает слой понижения дискретизации с помощью 2x2 maxpooling с шагом 2. ${\begin{align}&3\to 64\to 64&\xrightarrow {\text{downsample}} \\&64\to 128\to 128&\xrightarrow {\text{downsample}} \\&128\to 256\to 256\to 256\to 256&\xrightarrow {\text{downsample}} \\&256\to 512\to 512\to 512\to 512&\xrightarrow {\text{downsample}} \\&512\to 512\to 512\to 512\to 512&\xrightarrow {\text{downsample}} \end{aligned}}$ $c_{1}\to c_{2}$ $c_{1}$ $c_{2}$ $\xrightarrow {\text{downsample}}$

Ссылки

^ ab Симонян, Карен; Зиссерман, Эндрю (2015-04-10), Очень глубокие сверточные сети для крупномасштабного распознавания изображений , arXiv : 1409.1556
^ Диллон, Анамика; Верма, Гьянендра К. (2020-06-01). «Сверточная нейронная сеть: обзор моделей, методологий и приложений для обнаружения объектов». Прогресс в области искусственного интеллекта . 9 (2): 85–112. doi :10.1007/s13748-019-00203-0. ISSN 2192-6360.
^ "Результаты ILSVRC2014". image-net.org . Получено 2024-09-06 .
^ He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (2016). «Глубокое остаточное обучение для распознавания изображений». Конференция IEEE 2016 года по компьютерному зрению и распознаванию образов (CVPR) . С. 770–778. arXiv : 1512.03385 . Bibcode :2016cvpr.confE...1H. doi :10.1109/CVPR.2016.90. ISBN 978-1-4673-8851-1.
^ Gatys, Leon A.; Ecker, Alexander S.; Bethge, Matthias (2016). Передача стиля изображения с использованием сверточных нейронных сетей. Конференция IEEE по компьютерному зрению и распознаванию образов (CVPR). стр. 2414–2423.
^ Лю, Чжуан; Мао, Ханьцзы; У, Чао-Юань; Файхтенхофер, Кристоф; Даррелл, Тревор; Се, Сайнинг (2022). «Сверточная сеть для 2020-х годов». Труды конференции IEEE/CVF по компьютерному зрению и распознаванию образов (CVPR) : 11976–11986. arXiv : 2201.03545 .
^ abc Чжан, Астон; Липтон, Закари; Ли, Му; Смола, Александр Дж. (2024). "8.2. Сети с использованием блоков (VGG)". Погружение в глубокое обучение . Кембридж Нью-Йорк Порт Мельбурн Нью-Дели Сингапур: Cambridge University Press. ISBN 978-1-009-38943-3.
^ Дин, Сяохань; Чжан, Сянъюй; Ма, Ниннин; Хан, Джунгонг; Дин, Гуйгуан; Сан, Цзянь (2021). «RepVGG: Делаем сверточные сети в стиле VGG снова великими». Труды конференции IEEE/CVF по компьютерному зрению и распознаванию образов (CVPR) : 13733–13742. arXiv : 2101.03697 .
^ Лин, Мин; Чен, Цян; Ян, Шуйчэн (2013). «Сеть в сети». arXiv : 1312.4400 [cs.NE].
^ "Очень глубокие сверточные сети для крупномасштабного визуального распознавания". Группа компьютерного зрения из Оксфордского университета . Получено 2024-09-06 .