stringtranslate.com

VGGNet

Архитектура модуля VGG в сравнении с архитектурой AlexNet .

VGGNets это серия сверточных нейронных сетей (CNN), разработанная Visual Geometry Group (VGG) Оксфордского университета .

Семейство VGG включает в себя различные конфигурации с различной глубиной, обозначаемые буквой «VGG» с последующим числом весовых слоев. Наиболее распространенными являются VGG-16 (13 сверточных слоев + 3 полностью связанных слоя, 138M параметров) и VGG-19 (16 + 3, 144M параметров). [1]

Семейство VGG широко применялось в различных областях компьютерного зрения. [2] Модель ансамбля VGGNets достигла передовых результатов в конкурсе ImageNet Large Scale Visual Recognition Challenge (ILSVRC) в 2014 году. [1] [3] Она использовалась в качестве базовой для сравнения в статье ResNet по классификации изображений , [4] как сеть в Fast Region-based CNN для обнаружения объектов и как базовая сеть в передаче нейронного стиля . [5]

Серия была исторически важна как ранняя влиятельная модель, разработанная путем составления общих модулей, тогда как AlexNet (2012) была разработана «с нуля». Она также сыграла важную роль в изменении стандартных сверточных ядер в CNN с больших (до 11 на 11 в AlexNet) до всего лишь 3 на 3, решение, которое было пересмотрено только в ConvNext (2022). [6] [7]

VGGNets в основном устарели из-за Inception , ResNet и DenseNet . RepVGG (2021) — это обновленная версия архитектуры. [8]

Архитектура

Архитектура «сеть в сети» по сравнению с архитектурой VGG. Архитектура «сеть в сети» (2013) [9] была более ранней CNN. Она изменила архитектуру AlexNet, добавив свертки 1x1 и используя глобальное среднее объединение после последней свертки.

Ключевым архитектурным принципом моделей VGG является последовательное использование небольших сверточных фильтров по всей сети. Это контрастирует с более ранними архитектурами CNN, которые использовали более крупные фильтры, например, в AlexNet. [7]

Например, две свертки, сложенные вместе, имеют те же самые пиксели рецептивного поля, что и одна свертка, но последняя использует параметры, в то время как первая использует параметры (где — количество каналов). Оригинальная публикация показала, что глубокие и узкие CNN значительно превосходят своих поверхностных и широких аналогов. [7]

Модели серии VGG представляют собой глубокие нейронные сети, состоящие из универсальных модулей:

  1. Свёрточные модули : сверточные слои с шагом 1, за которыми следуют активации ReLU.
  2. Слои максимального пула : После некоторых сверточных модулей, слои максимального пула с фильтром и шагом 2 для понижения разрешения карт признаков. Он уменьшает вдвое и ширину, и высоту, но сохраняет количество каналов.
  3. Полностью связанные слои : три полностью связанных слоя в конце сети, с размерами 4096-4096-1000. Последний имеет 1000 каналов, соответствующих 1000 классам в ImageNet.
  4. Слой Softmax : Слой Softmax выводит распределение вероятностей по классам.

Семейство VGG включает в себя различные конфигурации с различной глубиной, обозначаемые буквой "VGG" с последующим числом весовых слоев. Наиболее распространенными являются VGG-16 (13 сверточных слоев + 3 полностью связанных слоя) и VGG-19 (16 + 3), обозначаемые как конфигурации D и E в оригинальной статье. [10]

В качестве примера, 16 сверточных слоев VGG-19 структурированы следующим образом: где стрелка означает свертку 3x3 с входными каналами и выходными каналами и шагом 1, за которой следует активация ReLU. Означает слой понижения дискретизации с помощью 2x2 maxpooling с шагом 2.

Ссылки

  1. ^ ab Симонян, Карен; Зиссерман, Эндрю (2015-04-10), Очень глубокие сверточные сети для крупномасштабного распознавания изображений , arXiv : 1409.1556
  2. ^ Диллон, Анамика; Верма, Гьянендра К. (2020-06-01). «Сверточная нейронная сеть: обзор моделей, методологий и приложений для обнаружения объектов». Прогресс в области искусственного интеллекта . 9 (2): 85–112. doi :10.1007/s13748-019-00203-0. ISSN  2192-6360.
  3. ^ "Результаты ILSVRC2014". image-net.org . Получено 2024-09-06 .
  4. ^ He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (2016). «Глубокое остаточное обучение для распознавания изображений». Конференция IEEE 2016 года по компьютерному зрению и распознаванию образов (CVPR) . С. 770–778. arXiv : 1512.03385 . Bibcode :2016cvpr.confE...1H. doi :10.1109/CVPR.2016.90. ISBN 978-1-4673-8851-1.
  5. ^ Gatys, Leon A.; Ecker, Alexander S.; Bethge, Matthias (2016). Передача стиля изображения с использованием сверточных нейронных сетей. Конференция IEEE по компьютерному зрению и распознаванию образов (CVPR). стр. 2414–2423.
  6. ^ Лю, Чжуан; Мао, Ханьцзы; У, Чао-Юань; Файхтенхофер, Кристоф; Даррелл, Тревор; Се, Сайнинг (2022). «Сверточная сеть для 2020-х годов». Труды конференции IEEE/CVF по компьютерному зрению и распознаванию образов (CVPR) : 11976–11986. arXiv : 2201.03545 .
  7. ^ abc Чжан, Астон; Липтон, Закари; Ли, Му; Смола, Александр Дж. (2024). "8.2. Сети с использованием блоков (VGG)". Погружение в глубокое обучение . Кембридж Нью-Йорк Порт Мельбурн Нью-Дели Сингапур: Cambridge University Press. ISBN 978-1-009-38943-3.
  8. ^ Дин, Сяохань; Чжан, Сянъюй; Ма, Ниннин; Хан, Джунгонг; Дин, Гуйгуан; Сан, Цзянь (2021). «RepVGG: Делаем сверточные сети в стиле VGG снова великими». Труды конференции IEEE/CVF по компьютерному зрению и распознаванию образов (CVPR) : 13733–13742. arXiv : 2101.03697 .
  9. ^ Лин, Мин; Чен, Цян; Ян, Шуйчэн (2013). «Сеть в сети». arXiv : 1312.4400 [cs.NE].
  10. ^ "Очень глубокие сверточные сети для крупномасштабного визуального распознавания". Группа компьютерного зрения из Оксфордского университета . Получено 2024-09-06 .