stringtranslate.com

АлексНет

Сравнение свертки, объединения и плотных слоев LeNet и AlexNet
(размер изображения AlexNet должен быть 227×227×3 вместо 224×224×3, чтобы математические расчеты были верными. В исходной статье были указаны другие цифры, но Андрей Карпати, бывший глава отдела компьютерного зрения в Tesla, сказал, что должно быть 227×227×3 (по его словам, Алекс не объяснил, почему он поставил 224×224×3). Следующая свертка должна быть 11×11 с шагом 4: 55×55×96 (вместо 54×54×96). Это будет рассчитываться, например, как: [(входная ширина 227 - ширина ядра 11) / шаг 4] + 1 = [(227 - 11) / 4 ] + 1 = 55. Поскольку выходные данные ядра имеют ту же длину, что и ширина, его площадь равна 55×55.)

AlexNet — это название архитектуры сверточной нейронной сети (CNN), разработанной Алексом Крижевским в сотрудничестве с Ильей Суцкевером и Джеффри Хинтоном , который был доктором философии Крижевского. советник Университета Торонто. [1] [2]

AlexNet участвовала в конкурсе ImageNet по крупномасштабному визуальному распознаванию 30 сентября 2012 года. [3] Сеть достигла пятерки лучших ошибок в размере 15,3%, что более чем на 10,8 процентных пункта ниже, чем у занявшего второе место. Основной результат исходной статьи заключался в том, что глубина модели была важна для ее высокой производительности, что было дорогостоящим в вычислительном отношении, но стало возможным благодаря использованию графических процессоров (GPU) во время обучения. [2]

Исторический контекст

AlexNet была не первой быстрой реализацией CNN на графическом процессоре, выигравшей конкурс по распознаванию изображений. CNN на GPU, автор: К. Челлапилла и др. (2006) было в 4 раза быстрее, чем эквивалентная реализация на ЦП. [4] Глубокий CNN Дэна Чирешана и др. (2011) в IDSIA уже был в 60 раз быстрее [5] и превзошел своих предшественников в августе 2011 года. [6] В период с 15 мая 2011 года по 10 сентября 2012 года их CNN выиграла не менее четырех имиджевых конкурсов. [7] [8] Они также значительно улучшили лучшую производительность, описанную в литературе, для баз данных с несколькими изображениями . [9]

Согласно статье AlexNet, [2] более ранняя сеть Чирешана «в чем-то похожа». Оба изначально были написаны с использованием CUDA для работы с поддержкой графического процессора . Фактически, оба на самом деле являются просто вариантами конструкций CNN, представленными Яном ЛеКуном и др. (1989) [10] [11] применили алгоритм обратного распространения ошибки к варианту оригинальной архитектуры CNN Кунихико Фукусимы, называемому « неокогнитрон ». [12] [13] Позже архитектура была модифицирована методом Дж. Венга, названным max-pooling . [14] [8]

В 2015 году AlexNet уступила очень глубокую CNN Microsoft Research Asia с более чем 100 слоями , которая выиграла конкурс ImageNet 2015. [15]

Проектирование сети

AlexNet содержал восемь слоев; первые пять были сверточными слоями, за некоторыми из них следовали слои максимального пула , а последние три были полностью связанными слоями. Сеть, за исключением последнего слоя, разделена на две копии, каждая из которых работает на одном графическом процессоре. [2] Всю структуру можно записать как

Он использовал ненасыщающую функцию активации ReLU , которая показала улучшенную эффективность тренировки по сравнению с tanh и сигмовидной кишкой . [2]

Влияние

AlexNet считается одной из самых влиятельных статей, опубликованных в области компьютерного зрения, что послужило толчком к публикации многих других статей, в которых используются CNN и графические процессоры для ускорения глубокого обучения . [16] По данным Google Scholar, по состоянию на начало 2023 года статья AlexNet цитировалась более 120 000 раз. [17]

Рекомендации

  1. Гершгорн, Дэйв (26 июля 2017 г.). «Данные, которые изменили исследования ИИ — и, возможно, весь мир». Кварц .
  2. ^ abcde Крижевский, Алекс; Суцкевер, Илья; Хинтон, Джеффри Э. (24 мая 2017 г.). «Классификация ImageNet с глубокими сверточными нейронными сетями» (PDF) . Коммуникации АКМ . 60 (6): 84–90. дои : 10.1145/3065386 . ISSN  0001-0782. S2CID  195908774.
  3. ^ «Крупномасштабный конкурс визуального распознавания ImageNet 2012 (ILSVRC2012)» . image-net.org .
  4. ^ Кумар Челлапилла; Сидд Пури; Патрис Симар (2006). «Высокопроизводительные сверточные нейронные сети для обработки документов». В Лоретте, Гай (ред.). Десятый международный семинар «Границы в распознавании рукописного текста ». Сувисофт.
  5. ^ Чирешан, Дэн; Ули Мейер; Джонатан Маски; Лука М. Гамбарделла; Юрген Шмидхубер (2011). «Гибкие, высокопроизводительные сверточные нейронные сети для классификации изображений» (PDF) . Материалы двадцать второй Международной совместной конференции по искусственному интеллекту, том второй . 2 : 1237–1242 . Проверено 17 ноября 2013 г.
  6. ^ "Таблица результатов конкурса IJCNN 2011" . ОФИЦИАЛЬНЫЙ КОНКУРС IJCNN2011 . 2010 . Проверено 14 января 2019 г.
  7. Шмидхубер, Юрген (17 марта 2017 г.). «История конкурсов компьютерного зрения, выигранных глубокими CNN на GPU» . Проверено 14 января 2019 г.
  8. ^ аб Шмидхубер, Юрген (2015). «Глубокое обучение». Схоларпедия . 10 (11): 1527–54. CiteSeerX 10.1.1.76.1541 . дои : 10.1162/neco.2006.18.7.1527. PMID  16764513. S2CID  2309950. 
  9. ^ Чирешан, Дэн; Мейер, Ули; Шмидхубер, Юрген (июнь 2012 г.). «Многостолбцовые глубокие нейронные сети для классификации изображений». Конференция IEEE 2012 по компьютерному зрению и распознаванию образов . Нью-Йорк, штат Нью-Йорк: Институт инженеров по электротехнике и электронике (IEEE). стр. 3642–3649. arXiv : 1202.2745 . CiteSeerX 10.1.1.300.3283 . дои : 10.1109/CVPR.2012.6248110. ISBN  978-1-4673-1226-4. OCLC  812295155. S2CID  2161592.
  10. ^ ЛеКун, Ю.; Бозер, Б.; Денкер, Дж. С.; Хендерсон, Д.; Ховард, RE; Хаббард, В.; Джекель, Л.Д. (1989). «Обратное распространение ошибки, примененное к распознаванию рукописного почтового индекса» (PDF) . Нейронные вычисления . MIT Press - Журналы. 1 (4): 541–551. дои : 10.1162/neco.1989.1.4.541. ISSN  0899-7667. ОСЛК  364746139.
  11. ^ ЛеКун, Янн; Леон Ботту; Йошуа Бенджио; Патрик Хаффнер (1998). «Градиентное обучение, применяемое для распознавания документов» (PDF) . Труды IEEE . 86 (11): 2278–2324. CiteSeerX 10.1.1.32.9552 . дои : 10.1109/5.726791. S2CID  14542261 . Проверено 7 октября 2016 г. 
  12. ^ Фукусима, К. (2007). «Неокогнитрон». Схоларпедия . 2 (1): 1717. Бибкод : 2007SchpJ...2.1717F. doi : 10.4249/scholarpedia.1717 .
  13. ^ Фукусима, Кунихико (1980). «Неокогнитрон: самоорганизующаяся модель нейронной сети для механизма распознавания образов, на который не влияет сдвиг положения» (PDF) . Биологическая кибернетика . 36 (4): 193–202. дои : 10.1007/BF00344251. PMID  7370364. S2CID  206775608 . Проверено 16 ноября 2013 г.
  14. ^ Венг, Дж; Ахуджа, Н; Хуанг, Т.С. (1993). «Обучение распознаванию и сегментации трехмерных объектов из двухмерных изображений». Учеб. 4-я Международная конференция. Компьютерное зрение : 121–128.
  15. ^ Он, Кайминг; Чжан, Сянъюй; Рен, Шаоцин; Сунь, Цзянь (2016). «Глубокое остаточное обучение для распознавания изображений». Конференция IEEE 2016 по компьютерному зрению и распознаванию образов (CVPR) . стр. 770–778. arXiv : 1512.03385 . дои :10.1109/CVPR.2016.90. ISBN 978-1-4673-8851-1. S2CID  206594692.
  16. ^ Дешпанде, Адит. «9 статей по глубокому обучению, о которых вам нужно знать (понимание CNN, часть 3)». adeshpande3.github.io . Проверено 4 декабря 2018 г.
  17. ^ Статья AlexNet в Google Scholar