Проект ImageNet представляет собой большую визуальную базу данных , предназначенную для использования в исследованиях программного обеспечения для распознавания визуальных объектов . Более 14 миллионов [1] [2] изображений были вручную аннотированы в рамках проекта, чтобы указать, какие объекты изображены, и по крайней мере в одном миллионе изображений также предусмотрены ограничивающие рамки. [3] ImageNet содержит более 20 000 категорий, [2] типичная категория, такая как «воздушный шар» или «клубника», состоит из нескольких сотен изображений. [4] База данных аннотаций URL-адресов сторонних изображений находится в свободном доступе непосредственно из ImageNet, хотя сами изображения не принадлежат ImageNet. [5] С 2010 года проект ImageNet проводит ежегодный конкурс программного обеспечения ImageNet Large Scale Visual Recognition Challenge (ILSVRC), в котором программы соревнуются в правильной классификации и обнаружении объектов и сцен. В задаче используется «обрезанный» список из тысячи непересекающихся классов. [6]
30 сентября 2012 года сверточная нейронная сеть (CNN) под названием AlexNet [7] достигла ошибки топ-5 в размере 15,3% в конкурсе ImageNet 2012 Challenge, что более чем на 10,8 процентных пункта ниже, чем у занявшего второе место. Использование сверточных нейронных сетей стало возможным благодаря использованию графических процессоров (GPU) во время обучения, [7] важного компонента революции глубокого обучения . По данным The Economist , «внезапно люди начали обращать на это внимание не только в сообществе ИИ, но и во всей технологической отрасли в целом». [4] [8] [9]
В 2015 году AlexNet уступила очень глубокую CNN от Microsoft с более чем 100 слоями, которая выиграла конкурс ImageNet 2015. [10]
Исследователь искусственного интеллекта Фей-Фей Ли начал работать над идеей ImageNet в 2006 году. В то время, когда большинство исследований искусственного интеллекта были сосредоточены на моделях и алгоритмах, Ли хотел расширить и улучшить данные, доступные для обучения алгоритмов искусственного интеллекта. [11] В 2007 году Ли встретился с профессором Принстона Кристианой Феллбаум , одной из создательниц WordNet , чтобы обсудить проект. В результате этой встречи Ли продолжил создание ImageNet, на основе текстовой базы данных WordNet и используя многие из ее функций. [12]
Будучи доцентом в Принстоне, Ли собрал команду исследователей для работы над проектом ImageNet. Они использовали Amazon Mechanical Turk , чтобы помочь с классификацией изображений. [12]
Впервые они представили свою базу данных в виде плаката на конференции по компьютерному зрению и распознаванию образов (CVPR) 2009 года во Флориде. [12] [13] [14]
ImageNet использует краудсорсинг процесса аннотирования. Аннотации на уровне изображения указывают на наличие или отсутствие класса объекта на изображении, например «на этом изображении есть тигры» или «на этом изображении нет тигров». Аннотации на уровне объекта создают ограничивающую рамку вокруг указанного объекта (видимой части). ImageNet использует вариант широкой схемы WordNet для категоризации объектов, дополненной 120 категориями пород собак для демонстрации детальной классификации. [6] Одним из недостатков использования WordNet является то, что категории могут быть более «возвышенными», чем было бы оптимально для ImageNet: «Большинство людей больше интересуются Леди Гагой или iPod Mini, чем этим редким видом диплодока ». [ необходимы разъяснения ] В 2012 году ImageNet была крупнейшим в мире академическим пользователем Mechanical Turk . Среднестатистический работник идентифицирует 50 изображений в минуту. [2]
Существуют различные подмножества набора данных ImageNet, используемые в различных контекстах. Одним из наиболее часто используемых подмножеств ImageNet является «Набор данных классификации и локализации изображений ImageNet Large Scale Visual Recognition Challenge (ILSVRC) 2012–2017». В исследовательской литературе это также называется ImageNet-1K или ILSVRC2017, что отражает первоначальную задачу ILSVRC, в которой участвовало 1000 классов. ImageNet-1K содержит 1 281 167 обучающих изображений, 50 000 проверочных изображений и 100 000 тестовых изображений. [15] Полный исходный набор данных называется ImageNet-21K. ImageNet-21k содержит 14 197 122 изображения, разделенных на 21 841 класс. В некоторых статьях это округляют и называют ImageNet-22k. [16]
ILSVRC стремится «идти по стопам» меньшего масштаба проекта PASCAL VOC, созданного в 2005 году и содержавшего всего около 20 000 изображений и двадцати классов объектов. [6] Чтобы «демократизировать» ImageNet, Фей-Фей Ли предложил команде PASCAL VOC сотрудничество, начиная с 2010 года, в рамках которого исследовательские группы будут оценивать свои алгоритмы на заданном наборе данных и соревноваться за достижение более высокой точности в нескольких задачах визуального распознавания. . [12]
Итоговый ежегодный конкурс теперь известен как ImageNet Large Scale Visual Recognition Challenge (ILSVRC). ILSVRC использует «обрезанный» список, состоящий всего из 1000 категорий изображений или «классов», включая 90 из 120 пород собак, классифицированных по полной схеме ImageNet. [6] В 2010-х годах произошел значительный прогресс в обработке изображений. Примерно в 2011 году уровень ошибок в топ-5 хорошей классификации ILSVRC составлял 25%. В 2012 году глубокая сверточная нейронная сеть под названием AlexNet достигла 16%; в следующие пару лет уровень ошибок в топ-5 упал до нескольких процентов. [17] В то время как прорыв 2012 года «объединил все, что было раньше», резкое количественное улучшение ознаменовало начало общеотраслевого бума искусственного интеллекта. [4] К 2015 году исследователи из Microsoft сообщили, что их CNN превосходят человеческие способности при выполнении узких задач ILSVRC. [10] [18] Однако, как отметила в 2015 году одна из организаторов конкурса Ольга Русаковский , программам достаточно лишь идентифицировать изображения как принадлежащие к одной из тысячи категорий; люди могут распознавать большее количество категорий, а также (в отличие от программ) оценивать контекст изображения. [19]
К 2014 году в ILSVRC приняли участие более пятидесяти учреждений. [6] В 2017 году 29 из 38 конкурирующих команд имели точность более 95%. [20] В 2017 году ImageNet заявила, что в 2018 году поставит перед собой новую, гораздо более сложную задачу, которая включает в себя классификацию 3D-объектов с использованием естественного языка. Поскольку создание 3D-данных обходится дороже, чем аннотирование уже существующего 2D-изображения, ожидается, что набор данных будет меньше. Применение прогресса в этой области будет варьироваться от роботизированной навигации до дополненной реальности . [1]
Исследование истории нескольких слоев ( таксономия , классы объектов и маркировка) ImageNet и WordNet в 2019 году показало, как предвзятость [ необходимы разъяснения ] глубоко укоренилась в большинстве подходов к классификации всех видов изображений. [21] [22] [23] [24] ImageNet работает над устранением различных источников предвзятости. [25]
Когда Ли, которая в 2007 году вернулась в Принстон, чтобы устроиться на работу доцентом, рассказала о своей идее создания ImageNet, ей было трудно убедить преподавателей помочь ей.
Наконец, профессор, специализирующийся на компьютерной архитектуре, согласился присоединиться к ней в качестве сотрудника.
Прочитав о подходе WordNet, Ли во время визита в Принстон в 2006 году встретился с профессором Кристианой Феллбаум, исследователем, оказавшим влияние на дальнейшую работу над WordNet.