АлексНет

AlexNet — это название архитектуры сверточной нейронной сети (CNN), разработанной Алексом Крижевским в сотрудничестве с Ильей Суцкевером и Джеффри Хинтоном , который был доктором философии Крижевского. советник Университета Торонто. ^[1]^[2]

AlexNet участвовала в конкурсе ImageNet по крупномасштабному визуальному распознаванию 30 сентября 2012 года. ^[3] Сеть достигла пятерки лучших ошибок в размере 15,3%, что более чем на 10,8 процентных пункта ниже, чем у занявшего второе место. Основной результат исходной статьи заключался в том, что глубина модели была важна для ее высокой производительности, что было дорогостоящим в вычислительном отношении, но стало возможным благодаря использованию графических процессоров (GPU) во время обучения. ^[2]

Исторический контекст

AlexNet была не первой быстрой реализацией CNN на графическом процессоре, выигравшей конкурс по распознаванию изображений. CNN на GPU, автор: К. Челлапилла и др. (2006) было в 4 раза быстрее, чем эквивалентная реализация на ЦП. ^[4] Глубокий CNN Дэна Чирешана и др. (2011) в IDSIA уже был в 60 раз быстрее ^[5] и превзошел своих предшественников в августе 2011 года. ^[6] В период с 15 мая 2011 года по 10 сентября 2012 года их CNN выиграла не менее четырех имиджевых конкурсов. ^[7]^[8] Они также значительно улучшили лучшую производительность, описанную в литературе, для баз данных с несколькими изображениями . ^[9]

Согласно статье AlexNet, ^[2] более ранняя сеть Чирешана «в чем-то похожа». Оба изначально были написаны с использованием CUDA для работы с поддержкой графического процессора . Фактически, оба на самом деле являются просто вариантами конструкций CNN, представленными Яном ЛеКуном и др. (1989) ^[10]^[11] применили алгоритм обратного распространения ошибки к варианту оригинальной архитектуры CNN Кунихико Фукусимы, называемому « неокогнитрон ». ^[12]^[13] Позже архитектура была модифицирована методом Дж. Венга, названным max-pooling . ^[14]^[8]

В 2015 году AlexNet уступила очень глубокую CNN Microsoft Research Asia с более чем 100 слоями , которая выиграла конкурс ImageNet 2015. ^[15]

Проектирование сети

AlexNet содержал восемь слоев; первые пять были сверточными слоями, за некоторыми из них следовали слои максимального пула , а последние три были полностью связанными слоями. Сеть, за исключением последнего слоя, разделена на две копии, каждая из которых работает на одном графическом процессоре. ^[2] Всю структуру можно записать как

(CNN\to RN\to MP)^{2}\to (CNN^{3}\to MP)\to (FC\to DO)^{2}\to Linear\to softmax

CNN = сверточный слой (с активацией ReLU)
RN = нормализация местного ответа
MP = максимальное объединение
FC = полносвязный уровень (с активацией ReLU)
Линейный = полносвязный слой (без активации)
ДО = отсев

Он использовал ненасыщающую функцию активации ReLU , которая показала улучшенную эффективность тренировки по сравнению с tanh и сигмовидной кишкой . ^[2]

Влияние

AlexNet считается одной из самых влиятельных статей, опубликованных в области компьютерного зрения, что послужило толчком к публикации многих других статей, в которых используются CNN и графические процессоры для ускорения глубокого обучения . ^[16] По данным Google Scholar, по состоянию на начало 2023 года статья AlexNet цитировалась более 120 000 раз. ^[17]

Рекомендации

↑ Гершгорн, Дэйв (26 июля 2017 г.). «Данные, которые изменили исследования ИИ — и, возможно, весь мир». Кварц .
^ abcde Крижевский, Алекс; Суцкевер, Илья; Хинтон, Джеффри Э. (24 мая 2017 г.). «Классификация ImageNet с глубокими сверточными нейронными сетями» (PDF) . Коммуникации АКМ . 60 (6): 84–90. дои : 10.1145/3065386 . ISSN 0001-0782. S2CID 195908774.
^ «Крупномасштабный конкурс визуального распознавания ImageNet 2012 (ILSVRC2012)» . image-net.org .
^ Кумар Челлапилла; Сидд Пури; Патрис Симар (2006). «Высокопроизводительные сверточные нейронные сети для обработки документов». В Лоретте, Гай (ред.). Десятый международный семинар «Границы в распознавании рукописного текста ». Сувисофт.
^ Чирешан, Дэн; Ули Мейер; Джонатан Маски; Лука М. Гамбарделла; Юрген Шмидхубер (2011). «Гибкие, высокопроизводительные сверточные нейронные сети для классификации изображений» (PDF) . Материалы двадцать второй Международной совместной конференции по искусственному интеллекту, том второй . 2 : 1237–1242 . Проверено 17 ноября 2013 г.
^ "Таблица результатов конкурса IJCNN 2011" . ОФИЦИАЛЬНЫЙ КОНКУРС IJCNN2011 . 2010 . Проверено 14 января 2019 г.
↑ Шмидхубер, Юрген (17 марта 2017 г.). «История конкурсов компьютерного зрения, выигранных глубокими CNN на GPU» . Проверено 14 января 2019 г.
^ аб Шмидхубер, Юрген (2015). «Глубокое обучение». Схоларпедия . 10 (11): 1527–54. CiteSeerX 10.1.1.76.1541 . дои : 10.1162/neco.2006.18.7.1527. PMID 16764513. S2CID 2309950.
^ Чирешан, Дэн; Мейер, Ули; Шмидхубер, Юрген (июнь 2012 г.). «Многостолбцовые глубокие нейронные сети для классификации изображений». Конференция IEEE 2012 по компьютерному зрению и распознаванию образов . Нью-Йорк, штат Нью-Йорк: Институт инженеров по электротехнике и электронике (IEEE). стр. 3642–3649. arXiv : 1202.2745 . CiteSeerX 10.1.1.300.3283 . дои : 10.1109/CVPR.2012.6248110. ISBN 978-1-4673-1226-4. OCLC 812295155. S2CID 2161592.
^ ЛеКун, Ю.; Бозер, Б.; Денкер, Дж. С.; Хендерсон, Д.; Ховард, RE; Хаббард, В.; Джекель, Л.Д. (1989). «Обратное распространение ошибки, примененное к распознаванию рукописного почтового индекса» (PDF) . Нейронные вычисления . MIT Press - Журналы. 1 (4): 541–551. дои : 10.1162/neco.1989.1.4.541. ISSN 0899-7667. ОСЛК 364746139.
^ ЛеКун, Янн; Леон Ботту; Йошуа Бенджио; Патрик Хаффнер (1998). «Градиентное обучение, применяемое для распознавания документов» (PDF) . Труды IEEE . 86 (11): 2278–2324. CiteSeerX 10.1.1.32.9552 . дои : 10.1109/5.726791. S2CID 14542261 . Проверено 7 октября 2016 г.
^ Фукусима, К. (2007). «Неокогнитрон». Схоларпедия . 2 (1): 1717. Бибкод : 2007SchpJ...2.1717F. doi : 10.4249/scholarpedia.1717 .
^ Фукусима, Кунихико (1980). «Неокогнитрон: самоорганизующаяся модель нейронной сети для механизма распознавания образов, на который не влияет сдвиг положения» (PDF) . Биологическая кибернетика . 36 (4): 193–202. дои : 10.1007/BF00344251. PMID 7370364. S2CID 206775608 . Проверено 16 ноября 2013 г.
^ Венг, Дж; Ахуджа, Н; Хуанг, Т.С. (1993). «Обучение распознаванию и сегментации трехмерных объектов из двухмерных изображений». Учеб. 4-я Международная конференция. Компьютерное зрение : 121–128.
^ Он, Кайминг; Чжан, Сянъюй; Рен, Шаоцин; Сунь, Цзянь (2016). «Глубокое остаточное обучение для распознавания изображений». Конференция IEEE 2016 по компьютерному зрению и распознаванию образов (CVPR) . стр. 770–778. arXiv : 1512.03385 . дои :10.1109/CVPR.2016.90. ISBN 978-1-4673-8851-1. S2CID 206594692.
^ Дешпанде, Адит. «9 статей по глубокому обучению, о которых вам нужно знать (понимание CNN, часть 3)». adeshpande3.github.io . Проверено 4 декабря 2018 г.
^ Статья AlexNet в Google Scholar