Сравнение свертки, объединения и плотных слоев LeNet и AlexNet (размер изображения AlexNet должен быть 227×227×3 вместо 224×224×3, чтобы математические расчеты были верными. В исходной статье были указаны другие цифры, но Андрей Карпати, бывший глава отдела компьютерного зрения в Tesla, сказал, что должно быть 227×227×3 (по его словам, Алекс не объяснил, почему он поставил 224×224×3). Следующая свертка должна быть 11×11 с шагом 4: 55×55×96 (вместо 54×54×96). Это будет рассчитываться, например, как: [(входная ширина 227 - ширина ядра 11) / шаг 4] + 1 = [(227 - 11) / 4 ] + 1 = 55. Поскольку выходные данные ядра имеют ту же длину, что и ширина, его площадь равна 55×55.)
AlexNet участвовала в конкурсе ImageNet по крупномасштабному визуальному распознаванию 30 сентября 2012 года. [3] Сеть достигла пятерки лучших ошибок в размере 15,3%, что более чем на 10,8 процентных пункта ниже, чем у занявшего второе место. Основной результат исходной статьи заключался в том, что глубина модели была важна для ее высокой производительности, что было дорогостоящим в вычислительном отношении, но стало возможным благодаря использованию графических процессоров (GPU) во время обучения. [2]
Исторический контекст
AlexNet была не первой быстрой реализацией CNN на графическом процессоре, выигравшей конкурс по распознаванию изображений. CNN на GPU, автор: К. Челлапилла и др. (2006) было в 4 раза быстрее, чем эквивалентная реализация на ЦП. [4] Глубокий CNN Дэна Чирешана и др. (2011) в IDSIA уже был в 60 раз быстрее [5] и превзошел своих предшественников в августе 2011 года. [6] В период с 15 мая 2011 года по 10 сентября 2012 года их CNN выиграла не менее четырех имиджевых конкурсов. [7] [8] Они также значительно улучшили лучшую производительность, описанную в литературе, для баз данных с несколькими изображениями . [9]
Согласно статье AlexNet, [2] более ранняя сеть Чирешана «в чем-то похожа». Оба изначально были написаны с использованием CUDA для работы с поддержкой графического процессора . Фактически, оба на самом деле являются просто вариантами конструкций CNN, представленными Яном ЛеКуном и др. (1989) [10] [11] применили алгоритм обратного распространения ошибки к варианту оригинальной архитектуры CNN Кунихико Фукусимы, называемому « неокогнитрон ». [12] [13] Позже архитектура была модифицирована методом Дж. Венга, названным max-pooling . [14] [8]
AlexNet содержал восемь слоев; первые пять были сверточными слоями, за некоторыми из них следовали слои максимального пула , а последние три были полностью связанными слоями. Сеть, за исключением последнего слоя, разделена на две копии, каждая из которых работает на одном графическом процессоре. [2] Всю структуру можно записать как
CNN = сверточный слой (с активацией ReLU)
RN = нормализация местного ответа
MP = максимальное объединение
FC = полносвязный уровень (с активацией ReLU)
Линейный = полносвязный слой (без активации)
ДО = отсев
Он использовал ненасыщающую функцию активации ReLU , которая показала улучшенную эффективность тренировки по сравнению с tanh и сигмовидной кишкой . [2]
Влияние
AlexNet считается одной из самых влиятельных статей, опубликованных в области компьютерного зрения, что послужило толчком к публикации многих других статей, в которых используются CNN и графические процессоры для ускорения глубокого обучения . [16] По данным Google Scholar, по состоянию на начало 2023 года статья AlexNet цитировалась более 120 000 раз. [17]
Рекомендации
↑ Гершгорн, Дэйв (26 июля 2017 г.). «Данные, которые изменили исследования ИИ — и, возможно, весь мир». Кварц .
^ abcde Крижевский, Алекс; Суцкевер, Илья; Хинтон, Джеффри Э. (24 мая 2017 г.). «Классификация ImageNet с глубокими сверточными нейронными сетями» (PDF) . Коммуникации АКМ . 60 (6): 84–90. дои : 10.1145/3065386 . ISSN 0001-0782. S2CID 195908774.
^ Кумар Челлапилла; Сидд Пури; Патрис Симар (2006). «Высокопроизводительные сверточные нейронные сети для обработки документов». В Лоретте, Гай (ред.). Десятый международный семинар «Границы в распознавании рукописного текста ». Сувисофт.
^ Чирешан, Дэн; Ули Мейер; Джонатан Маски; Лука М. Гамбарделла; Юрген Шмидхубер (2011). «Гибкие, высокопроизводительные сверточные нейронные сети для классификации изображений» (PDF) . Материалы двадцать второй Международной совместной конференции по искусственному интеллекту, том второй . 2 : 1237–1242 . Проверено 17 ноября 2013 г.
^ "Таблица результатов конкурса IJCNN 2011" . ОФИЦИАЛЬНЫЙ КОНКУРС IJCNN2011 . 2010 . Проверено 14 января 2019 г.
↑ Шмидхубер, Юрген (17 марта 2017 г.). «История конкурсов компьютерного зрения, выигранных глубокими CNN на GPU» . Проверено 14 января 2019 г.
^ ЛеКун, Янн; Леон Ботту; Йошуа Бенджио; Патрик Хаффнер (1998). «Градиентное обучение, применяемое для распознавания документов» (PDF) . Труды IEEE . 86 (11): 2278–2324. CiteSeerX 10.1.1.32.9552 . дои : 10.1109/5.726791. S2CID 14542261 . Проверено 7 октября 2016 г.
^ Фукусима, К. (2007). «Неокогнитрон». Схоларпедия . 2 (1): 1717. Бибкод : 2007SchpJ...2.1717F. doi : 10.4249/scholarpedia.1717 .
^ Фукусима, Кунихико (1980). «Неокогнитрон: самоорганизующаяся модель нейронной сети для механизма распознавания образов, на который не влияет сдвиг положения» (PDF) . Биологическая кибернетика . 36 (4): 193–202. дои : 10.1007/BF00344251. PMID 7370364. S2CID 206775608 . Проверено 16 ноября 2013 г.
^ Венг, Дж; Ахуджа, Н; Хуанг, Т.С. (1993). «Обучение распознаванию и сегментации трехмерных объектов из двухмерных изображений». Учеб. 4-я Международная конференция. Компьютерное зрение : 121–128.
^ Он, Кайминг; Чжан, Сянъюй; Рен, Шаоцин; Сунь, Цзянь (2016). «Глубокое остаточное обучение для распознавания изображений». Конференция IEEE 2016 по компьютерному зрению и распознаванию образов (CVPR) . стр. 770–778. arXiv : 1512.03385 . дои :10.1109/CVPR.2016.90. ISBN978-1-4673-8851-1. S2CID 206594692.
^ Дешпанде, Адит. «9 статей по глубокому обучению, о которых вам нужно знать (понимание CNN, часть 3)». adeshpande3.github.io . Проверено 4 декабря 2018 г.