Проект ImageNet представляет собой большую визуальную базу данных , разработанную для использования в исследованиях программного обеспечения для визуального распознавания объектов . Более 14 миллионов [1] [2] изображений были вручную аннотированы проектом для указания того, какие объекты изображены, и по крайней мере на одном миллионе изображений также предусмотрены ограничивающие рамки. [3] ImageNet содержит более 20 000 категорий, [2] с типичной категорией, такой как «воздушный шар» или «клубника», состоящей из нескольких сотен изображений. [4] База данных аннотаций URL-адресов сторонних изображений свободно доступна напрямую из ImageNet, хотя сами изображения не принадлежат ImageNet. [5] С 2010 года проект ImageNet проводит ежегодный конкурс программного обеспечения, ImageNet Large Scale Visual Recognition Challenge (ILSVRC), где программы соревнуются в правильной классификации и обнаружении объектов и сцен. В конкурсе используется «обрезанный» список из тысячи непересекающихся классов. [6]
30 сентября 2012 года сверточная нейронная сеть (CNN) под названием AlexNet [7] достигла ошибки топ-5 в 15,3% в ImageNet 2012 Challenge, что на 10,8 процентных пунктов ниже, чем у занявшего второе место. Использование сверточных нейронных сетей стало возможным благодаря использованию графических процессоров (GPU) во время обучения [7], что является неотъемлемым компонентом революции глубокого обучения . По данным The Economist , «вдруг люди начали обращать внимание, не только в сообществе ИИ, но и во всей технологической отрасли в целом». [4] [8] [9]
В 2015 году AlexNet уступила место очень глубокой CNN от Microsoft с более чем 100 слоями, которая выиграла конкурс ImageNet 2015. [10]
Исследователь ИИ Фэй-Фэй Ли начала работать над идеей ImageNet в 2006 году. В то время, когда большинство исследований ИИ были сосредоточены на моделях и алгоритмах, Ли хотела расширить и улучшить данные, доступные для обучения алгоритмов ИИ. [11] В 2007 году Ли встретилась с профессором Принстона Кристианой Феллбаум , одним из создателей WordNet , чтобы обсудить проект. В результате этой встречи Ли продолжила создавать ImageNet, начиная примерно с 22 000 существительных WordNet и используя многие из его функций. [12] Она также была вдохновлена оценкой 1987 года [13] , согласно которой среднестатистический человек распознает примерно 30 000 различных видов объектов. [14]
Будучи доцентом Принстона , Ли собрал команду исследователей для работы над проектом ImageNet. Они использовали Amazon Mechanical Turk для помощи в классификации изображений. Потребовалось 2,5 года, чтобы завершить маркировку. [12] У них было достаточно бюджета, чтобы каждое из 14 миллионов изображений было маркировано три раза. [14]
Они впервые представили свою базу данных в качестве постера на конференции по компьютерному зрению и распознаванию образов (CVPR) 2009 года во Флориде. [12] [15] [16]
В 2009 году Алекс Берг предложил добавить локализацию объектов в качестве задачи. В 2009 году Ли обратился к PASCAL Visual Object Classes competition для сотрудничества. Это привело к последующему ImageNet Large Scale Visual Recognition Challenge, начавшемуся в 2010 году, в котором было 1000 классов и локализация объектов, по сравнению с PASCAL VOC, в котором было всего 20 классов. [12]
ImageNet использует краудсорсинг своего процесса аннотирования. Аннотации на уровне изображения указывают на наличие или отсутствие класса объекта на изображении, например, «на этом изображении есть тигры» или «на этом изображении нет тигров». Аннотации на уровне объекта обеспечивают ограничивающую рамку вокруг (видимой части) указанного объекта. ImageNet использует вариант широкой схемы WordNet для категоризации объектов, дополненный 120 категориями пород собак для демонстрации мелкозернистой классификации. [6]
Одним из недостатков использования WordNet является то, что категории могут быть более «возвышенными», чем было бы оптимально для ImageNet: «Большинство людей больше интересуются Леди Гагой или iPod Mini, чем этим редким видом диплодока ». [ необходимо разъяснение ] В 2012 году ImageNet был крупнейшим в мире академическим пользователем Mechanical Turk . Средний работник идентифицировал 50 изображений в минуту. [2]
ImageNet состоит из изображений в формате RGB с различными разрешениями. Например, в ImageNet 2012, категория «рыба», разрешение варьируется от 4288 x 2848 до 75 x 56. В машинном обучении они обычно предварительно обрабатываются в стандартное постоянное разрешение и отбеливаются перед дальнейшей обработкой нейронными сетями.
Например, в PyTorch изображения ImageNet по умолчанию нормализуются путем деления значений пикселей так, чтобы они попадали в диапазон от 0 до 1, затем вычитания на [0,485, 0,456, 0,406], затем деления на [0,229, 0,224, 0,225]. Это среднее значение и стандартное отклонение для ImageNet, поэтому они отбеливают входные данные. [17]
Существуют различные подмножества набора данных ImageNet, используемые в различных контекстах, иногда называемые «версиями». [7]
Одним из наиболее часто используемых подмножеств ImageNet является «ImageNet Large Scale Visual Recognition Challenge (ILSVRC) 2012–2017 image classification and localization dataset». В исследовательской литературе он также упоминается как ImageNet-1K или ILSVRC2017, что отражает исходную задачу ILSVRC, в которой участвовало 1000 классов. ImageNet-1K содержит 1 281 167 обучающих изображений, 50 000 проверочных изображений и 100 000 тестовых изображений. [18] Полный исходный набор данных называется ImageNet-21K. ImageNet-21k содержит 14 197 122 изображения, разделенных на 21 841 класс. В некоторых работах этот набор данных округляется и называется ImageNet-22k. [19]
ImageNetV2 — это новый набор данных, содержащий три тестовых набора по 10 000 каждый, созданных по той же методологии, что и исходный ImageNet. [20]
ILSVRC стремится «идти по стопам» менее масштабного конкурса PASCAL VOC, созданного в 2005 году, который содержал всего около 20 000 изображений и двадцати классов объектов. [6] Чтобы «демократизировать» ImageNet, Фэй-Фэй Ли предложил команде PASCAL VOC сотрудничество, начинающееся в 2010 году, в рамках которого исследовательские группы будут оценивать свои алгоритмы на заданном наборе данных и соревноваться за достижение более высокой точности в нескольких задачах визуального распознавания. [12]
В результате ежегодное соревнование теперь известно как ImageNet Large Scale Visual Recognition Challenge (ILSVRC). ILSVRC использует «урезанный» список всего из 1000 категорий изображений или «классов», включая 90 из 120 пород собак, классифицированных полной схемой ImageNet. [6]
В 2010-х годах наблюдался резкий прогресс в обработке изображений. В первом соревновании участвовало 11 команд, а победу одержала машина опорных векторов (SVM). Во втором соревновании команд было меньше, и победила другая SVM с показателем ошибок в топ-5 25%. [14]
В 2012 году глубокая сверточная нейронная сеть под названием AlexNet достигла 16%; в последующие пару лет топ-5 ошибок снизился до нескольких процентов. [21] В то время как прорыв 2012 года «объединил части, которые были там и раньше», резкое количественное улучшение ознаменовало начало общеотраслевого бума искусственного интеллекта. [4] К 2015 году исследователи из Microsoft сообщили, что их сверточные нейронные сети превзошли человеческие возможности в узких задачах ILSVRC. [10] [22] Однако, как отметила в 2015 году один из организаторов конкурса Ольга Русаковская , программам нужно только идентифицировать изображения как принадлежащие к одной из тысячи категорий; люди могут распознавать большее количество категорий, а также (в отличие от программ) могут судить о контексте изображения. [23]
К 2014 году в ILSVRC приняли участие более пятидесяти учреждений. [6] В 2017 году 29 из 38 конкурирующих команд показали точность более 95%. [24] В 2017 году ImageNet заявила, что в 2018 году представит новую, гораздо более сложную задачу, которая включает классификацию 3D-объектов с использованием естественного языка. Поскольку создание 3D-данных обходится дороже, чем аннотирование уже существующего 2D-изображения, ожидается, что набор данных будет меньше. Применение прогресса в этой области будет варьироваться от роботизированной навигации до дополненной реальности . [1]
По оценкам, более 6% меток в наборе проверки ImageNet-1k неверны. [25] Также обнаружено, что около 10% ImageNet-1k содержат неоднозначные или ошибочные метки, и что при представлении прогноза модели и исходной метки ImageNet люди-аннотаторы предпочитают прогноз современной модели 2020 года, обученной на исходной ImageNet, что говорит о том, что ImageNet-1k был насыщен. [26]
Исследование истории множественных слоев ( таксономия , классы объектов и маркировка) ImageNet и WordNet в 2019 году показало, как смещение [ необходимо разъяснение ] глубоко укоренилось в большинстве подходов к классификации для всех видов изображений. [27] [28] [29] [30] ImageNet работает над устранением различных источников смещения. [31]
Ли, которая вернулась в Принстон, чтобы устроиться на работу доцентом в 2007 г., рассказала о своей идее ImageNet, ей было трудно заставить преподавателей помочь ей. Наконец, профессор, специализирующийся на компьютерной архитектуре, согласился присоединиться к ней в качестве соавтора.
Прочитав о подходе WordNet, Ли встретился с профессором Кристианой Феллбаум, исследователем, оказавшим влияние на дальнейшую работу над WordNet, во время визита в Принстон в 2006 г.
{{cite journal}}
: Цитировать журнал требует |journal=
( помощь )