stringtranslate.com

Начало (архитектура глубокого обучения)

Inception [1] — семейство сверточных нейронных сетей (CNN) для компьютерного зрения , представленное исследователями Google в 2014 году как GoogLeNet (позже переименованное в Inception v1). Серия была исторически важна как ранняя CNN, которая разделяет ствол (прием данных), тело (обработка данных) и голову (прогнозирование), архитектурный дизайн, который сохраняется во всех современных CNN. [2]

Модель Inception-v3.

История версий

Начало v1

Архитектура GoogLeNet.

В 2014 году команда Google разработала архитектуру GoogLeNet, экземпляр которой победил в конкурсе ImageNet Large-Scale Visual Recognition Challenge 2014 (ILSVRC14). [1] [3]

Название пришло от LeNet 1998 года, поскольку и LeNet, и GoogLeNet являются CNN. Они также назвали его «Inception» в честь интернет-мема «we need to go depth», фразы из фильма «Начало » (2010) . [1] Поскольку позже было выпущено больше версий, оригинальная архитектура Inception была снова переименована в «Inception v1».

Модели и код были опубликованы под лицензией Apache 2.0 на GitHub. [4]

Отдельный модуль Inception. Слева — стандартный модуль, справа — модуль уменьшенной размерности.
Единый модуль Inception с уменьшенной размерностью.

Архитектура Inception v1 представляет собой глубокую CNN, состоящую из 22 слоев. Большинство этих слоев были «модулями Inception». В оригинальной статье говорилось, что модули Inception являются «логической кульминацией» Network in Network [5] и (Arora et al, 2014). [6]

Поскольку Inception v1 является глубокой, она страдала от проблемы исчезающего градиента . Команда решила ее, используя два «вспомогательных классификатора», которые являются линейными softmax-классификаторами, вставленными на глубину 1/3 и 2/3 внутри сети, а функция потерь представляет собой взвешенную сумму всех трех:

Они были удалены после завершения обучения. Это было позже решено архитектурой ResNet .

Архитектура состоит из трех частей, расположенных друг над другом: [2]

Эта структура используется в большинстве современных архитектур CNN.

Начало v2

Inception v2 был выпущен в 2015 году в статье, которая более известна тем, что предлагает пакетную нормализацию . [7] [8] Он имел 13,6 миллионов параметров.

Он улучшает Inception v1, добавляя пакетную нормализацию и удаляя выпадение и локальную нормализацию отклика , которые, как они обнаружили, стали ненужными при использовании пакетной нормализации.

Начало v3

Inception v3 был выпущен в 2016 году. [7] [9] Он улучшает Inception v2 за счет использования факторизованных свёрток.

Например, одну свертку 5×5 можно разложить на 3×3, уложенные друг на друга 3×3. Оба имеют рецептивное поле размером 5×5. Ядро свертки 5×5 имеет 25 параметров по сравнению с 18 в факторизованной версии. Таким образом, свертка 5×5 строго мощнее факторизованной версии. Однако эта мощность не обязательно нужна. Опытным путем исследовательская группа обнаружила, что факторизованные свертки помогают.

Он также использует форму уменьшения размерности путем объединения выходных данных из сверточного слоя и слоя объединения . Например, тензор размера может быть уменьшен с помощью свертки с шагом 2 до , и с помощью maxpooling с размером пула до . Затем они объединяются в .

Помимо этого, он также удалил самый низкий вспомогательный классификатор во время обучения. Они обнаружили, что вспомогательная головка работала как форма регуляризации .

Они также предложили регуляризацию сглаживания меток в классификации. Для изображения с меткой вместо того, чтобы заставить модель предсказывать распределение вероятностей , они заставили модель предсказывать сглаженное распределение, где — общее число классов.

Начало v4

В 2017 году команда выпустила Inception v4, Inception ResNet v1 и Inception ResNet v2. [10]

Inception v4 — это инкрементное обновление с еще большим количеством факторизованных сверток и другими усложнениями, которые, как было эмпирически обнаружено, улучшают результаты тестов.

Inception ResNet v1 и v2 являются модификациями Inception v4, где остаточные соединения добавляются к каждому модулю Inception, вдохновленному архитектурой ResNet . [11]

Исключение

Xception («Extreme Inception») был опубликован в 2017 году. [12] Это линейный стек глубинно-разделимых слоев свертки с остаточными связями. Дизайн был предложен на основе гипотезы, что в CNN корреляции между каналами и пространственные корреляции в картах признаков могут быть полностью разделены .

Ссылки

  1. ^ abc Szegedy, Christian; Wei Liu; Yangqing Jia; Sermanet, Pierre; Reed, Scott; Anguelov, Dragomir; Erhan, Dumitru; Vanhoucke, Vincent; Rabinovich, Andrew (июнь 2015 г.). "Going depth with convolutions". Конференция IEEE 2015 г. по компьютерному зрению и распознаванию образов (CVPR) . IEEE. стр. 1–9. arXiv : 1409.4842 . doi :10.1109/CVPR.2015.7298594. ISBN 978-1-4673-6964-0.
  2. ^ ab Zhang, Aston; Lipton, Zachary; Li, Mu; Smola, Alexander J. (2024). "8.4. Многофилиальные сети (GoogLeNet)". Погружение в глубокое обучение . Кембридж, Нью-Йорк, Порт Мельбурн, Нью-Дели, Сингапур: Cambridge University Press. ISBN 978-1-009-38943-3.
  3. Официальный репозиторий Inception V1 на Kaggle, опубликованный Google.
  4. ^ "google/inception". Google. 2024-08-19 . Получено 2024-08-19 .
  5. ^ Лин, Мин; Чен, Цян; Ян, Шуйчэн (04 марта 2014 г.). «Сеть в сети». arXiv : 1312.4400 [cs.NE].
  6. ^ Арора, Санджив; Бхаскара, Адитья; Ге, Ронг; Ма, Тенгью (2014-01-27). «Доказуемые границы для обучения некоторым глубоким представлениям». Труды 31-й Международной конференции по машинному обучению . PMLR: 584–592.
  7. ^ ab Szegedy, Christian; Vanhoucke, Vincent; Ioffe, Sergey; Shlens, Jon; Wojna, Zbigniew (2016). «Переосмысление начальной архитектуры компьютерного зрения». Труды конференции IEEE по компьютерному зрению и распознаванию образов (CVPR) : 2818–2826.
  8. Официальный репозиторий Inception V2 на Kaggle, опубликованный Google.
  9. Официальный репозиторий Inception V3 на Kaggle, опубликованный Google.
  10. ^ Szegedy, Christian; Ioffe, Sergey; Vanhoucke, Vincent; Alemi, Alexander (2017-02-12). "Inception-v4, Inception-ResNet и влияние остаточных связей на обучение". Труды конференции AAAI по искусственному интеллекту . 31 (1). arXiv : 1602.07261 . doi :10.1609/aaai.v31i1.11231. ISSN  2374-3468.
  11. ^ Он, Кайминг; Чжан, Сянъюй; Рен, Шаоцин; Сунь, Цзянь (10 декабря 2015 г.). Глубокое остаточное обучение для распознавания изображений . arXiv : 1512.03385 .
  12. ^ Шолле, Франсуа (2017). «Xception: Глубокое обучение с глубинно разделяемыми свертками». Труды конференции IEEE по компьютерному зрению и распознаванию образов (CVPR) : 1251–1258.

Внешние ссылки