ImageNet

Проект ImageNet представляет собой большую визуальную базу данных , разработанную для использования в исследованиях программного обеспечения для визуального распознавания объектов . Более 14 миллионов ^[1]^[2] изображений были вручную аннотированы проектом для указания того, какие объекты изображены, и по крайней мере на одном миллионе изображений также предусмотрены ограничивающие рамки. ^[3] ImageNet содержит более 20 000 категорий, ^[2] с типичной категорией, такой как «воздушный шар» или «клубника», состоящей из нескольких сотен изображений. ^{[4] База данных аннотаций}URL-адресов сторонних изображений свободно доступна напрямую из ImageNet, хотя сами изображения не принадлежат ImageNet. ^[5] С 2010 года проект ImageNet проводит ежегодный конкурс программного обеспечения, ImageNet Large Scale Visual Recognition Challenge (ILSVRC), где программы соревнуются в правильной классификации и обнаружении объектов и сцен. В конкурсе используется «обрезанный» список из тысячи непересекающихся классов. ^[6]

Значение для глубокого обучения

30 сентября 2012 года сверточная нейронная сеть (CNN) под названием AlexNet ^[7] достигла ошибки топ-5 в 15,3% в ImageNet 2012 Challenge, что на 10,8 процентных пунктов ниже, чем у занявшего второе место. Использование сверточных нейронных сетей стало возможным благодаря использованию графических процессоров (GPU) во время обучения ^[7], что является неотъемлемым компонентом революции глубокого обучения . По данным The Economist , «вдруг люди начали обращать внимание, не только в сообществе ИИ, но и во всей технологической отрасли в целом». ^[4]^[8]^[9]

В 2015 году AlexNet уступила место очень глубокой CNN от Microsoft с более чем 100 слоями, которая выиграла конкурс ImageNet 2015. ^[10]

История базы данных

Исследователь ИИ Фэй-Фэй Ли начала работать над идеей ImageNet в 2006 году. В то время, когда большинство исследований ИИ были сосредоточены на моделях и алгоритмах, Ли хотела расширить и улучшить данные, доступные для обучения алгоритмов ИИ. ^[11] В 2007 году Ли встретилась с профессором Принстона Кристианой Феллбаум , одним из создателей WordNet , чтобы обсудить проект. В результате этой встречи Ли продолжила создавать ImageNet, начиная примерно с 22 000 существительных WordNet и используя многие из его функций. ^[12] Она также была вдохновлена оценкой 1987 года ^[13] , согласно которой среднестатистический человек распознает примерно 30 000 различных видов объектов. ^[14]

Будучи доцентом Принстона , Ли собрал команду исследователей для работы над проектом ImageNet. Они использовали Amazon Mechanical Turk для помощи в классификации изображений. Потребовалось 2,5 года, чтобы завершить маркировку. ^[12] У них было достаточно бюджета, чтобы каждое из 14 миллионов изображений было маркировано три раза. ^[14]

Они впервые представили свою базу данных в качестве постера на конференции по компьютерному зрению и распознаванию образов (CVPR) 2009 года во Флориде. ^[12]^[15]^[16]

В 2009 году Алекс Берг предложил добавить локализацию объектов в качестве задачи. В 2009 году Ли обратился к PASCAL Visual Object Classes competition для сотрудничества. Это привело к последующему ImageNet Large Scale Visual Recognition Challenge, начавшемуся в 2010 году, в котором было 1000 классов и локализация объектов, по сравнению с PASCAL VOC, в котором было всего 20 классов. ^[12]

Набор данных

ImageNet использует краудсорсинг своего процесса аннотирования. Аннотации на уровне изображения указывают на наличие или отсутствие класса объекта на изображении, например, «на этом изображении есть тигры» или «на этом изображении нет тигров». Аннотации на уровне объекта обеспечивают ограничивающую рамку вокруг (видимой части) указанного объекта. ImageNet использует вариант широкой схемы WordNet для категоризации объектов, дополненный 120 категориями пород собак для демонстрации мелкозернистой классификации. ^[6]

Одним из недостатков использования WordNet является то, что категории могут быть более «возвышенными», чем было бы оптимально для ImageNet: «Большинство людей больше интересуются Леди Гагой или iPod Mini, чем этим редким видом диплодока ». ^{[ необходимо разъяснение ]} В 2012 году ImageNet был крупнейшим в мире академическим пользователем Mechanical Turk . Средний работник идентифицировал 50 изображений в минуту. ^[2]

Формат

ImageNet состоит из изображений в формате RGB с различными разрешениями. Например, в ImageNet 2012, категория «рыба», разрешение варьируется от 4288 x 2848 до 75 x 56. В машинном обучении они обычно предварительно обрабатываются в стандартное постоянное разрешение и отбеливаются перед дальнейшей обработкой нейронными сетями.

Например, в PyTorch изображения ImageNet по умолчанию нормализуются путем деления значений пикселей так, чтобы они попадали в диапазон от 0 до 1, затем вычитания на [0,485, 0,456, 0,406], затем деления на [0,229, 0,224, 0,225]. Это среднее значение и стандартное отклонение для ImageNet, поэтому они отбеливают входные данные. ^[17]

Подмножества набора данных

Существуют различные подмножества набора данных ImageNet, используемые в различных контекстах, иногда называемые «версиями». ^[7]

Одним из наиболее часто используемых подмножеств ImageNet является «ImageNet Large Scale Visual Recognition Challenge (ILSVRC) 2012–2017 image classification and localization dataset». В исследовательской литературе он также упоминается как ImageNet-1K или ILSVRC2017, что отражает исходную задачу ILSVRC, в которой участвовало 1000 классов. ImageNet-1K содержит 1 281 167 обучающих изображений, 50 000 проверочных изображений и 100 000 тестовых изображений. ^[18] Полный исходный набор данных называется ImageNet-21K. ImageNet-21k содержит 14 197 122 изображения, разделенных на 21 841 класс. В некоторых работах этот набор данных округляется и называется ImageNet-22k. ^[19]

ImageNetV2 — это новый набор данных, содержащий три тестовых набора по 10 000 каждый, созданных по той же методологии, что и исходный ImageNet. ^[20]

История конкурса ImageNet

ILSVRC стремится «идти по стопам» менее масштабного конкурса PASCAL VOC, созданного в 2005 году, который содержал всего около 20 000 изображений и двадцати классов объектов. ^[6] Чтобы «демократизировать» ImageNet, Фэй-Фэй Ли предложил команде PASCAL VOC сотрудничество, начинающееся в 2010 году, в рамках которого исследовательские группы будут оценивать свои алгоритмы на заданном наборе данных и соревноваться за достижение более высокой точности в нескольких задачах визуального распознавания. ^[12]

В результате ежегодное соревнование теперь известно как ImageNet Large Scale Visual Recognition Challenge (ILSVRC). ILSVRC использует «урезанный» список всего из 1000 категорий изображений или «классов», включая 90 из 120 пород собак, классифицированных полной схемой ImageNet. ^[6]

В 2010-х годах наблюдался резкий прогресс в обработке изображений. В первом соревновании участвовало 11 команд, а победу одержала машина опорных векторов (SVM). Во втором соревновании команд было меньше, и победила другая SVM с показателем ошибок в топ-5 25%. ^[14]

В 2012 году глубокая сверточная нейронная сеть под названием AlexNet достигла 16%; в последующие пару лет топ-5 ошибок снизился до нескольких процентов. ^[21] В то время как прорыв 2012 года «объединил части, которые были там и раньше», резкое количественное улучшение ознаменовало начало общеотраслевого бума искусственного интеллекта. ^[4] К 2015 году исследователи из Microsoft сообщили, что их сверточные нейронные сети превзошли человеческие возможности в узких задачах ILSVRC. ^[10]^[22] Однако, как отметила в 2015 году один из организаторов конкурса Ольга Русаковская , программам нужно только идентифицировать изображения как принадлежащие к одной из тысячи категорий; люди могут распознавать большее количество категорий, а также (в отличие от программ) могут судить о контексте изображения. ^[23]

К 2014 году в ILSVRC приняли участие более пятидесяти учреждений. ^[6] В 2017 году 29 из 38 конкурирующих команд показали точность более 95%. ^[24] В 2017 году ImageNet заявила, что в 2018 году представит новую, гораздо более сложную задачу, которая включает классификацию 3D-объектов с использованием естественного языка. Поскольку создание 3D-данных обходится дороже, чем аннотирование уже существующего 2D-изображения, ожидается, что набор данных будет меньше. Применение прогресса в этой области будет варьироваться от роботизированной навигации до дополненной реальности . ^[1]

Предвзятость в ImageNet

По оценкам, более 6% меток в наборе проверки ImageNet-1k неверны. ^[25] Также обнаружено, что около 10% ImageNet-1k содержат неоднозначные или ошибочные метки, и что при представлении прогноза модели и исходной метки ImageNet люди-аннотаторы предпочитают прогноз современной модели 2020 года, обученной на исходной ImageNet, что говорит о том, что ImageNet-1k был насыщен. ^[26]

Исследование истории множественных слоев ( таксономия , классы объектов и маркировка) ImageNet и WordNet в 2019 году показало, как смещение ^{[ необходимо разъяснение ]} глубоко укоренилось в большинстве подходов к классификации для всех видов изображений. ^[27]^[28]^[29]^[30] ImageNet работает над устранением различных источников смещения. ^[31]

Смотрите также

Ссылки

^ ab "Новая задача компьютерного зрения хочет научить роботов видеть в 3D". New Scientist . 7 апреля 2017 г. Получено 3 февраля 2018 г.
^ abc Markoff, John (19 ноября 2012 г.). «Для веб-изображений: создание новой технологии поиска и нахождения». The New York Times . Получено 3 февраля 2018 г.
^ "ImageNet". 7 сентября 2020 г. Архивировано из оригинала 7 сентября 2020 г. Получено 11 октября 2022 г.
^ abc "От неработы к нейронным сетям". The Economist . 25 июня 2016 г. Получено 3 февраля 2018 г.
^ "Обзор ImageNet". ImageNet . Получено 15 октября 2022 г. .
^ abcde Ольга Русаковский *, Цзя Дэн *, Хао Су, Джонатан Краузе, Санджив Сатиш, Шон Ма, Чжихэн Хуанг, Андрей Карпати , Адитья Хосла, Майкл Бернштейн, Александр К. Берг и Ли Фей-Фей. (* = равный вклад) Масштабный конкурс визуального распознавания ImageNet. ЦЖКВ, 2015.
^ abc Крижевский, Алекс; Суцкевер, Илья; Хинтон, Джеффри Э. (июнь 2017 г.). «Классификация ImageNet с глубокими сверточными нейронными сетями» (PDF) . Сообщения ACM . 60 (6): 84–90. doi : 10.1145/3065386 . ISSN 0001-0782. S2CID 195908774 . Получено 24 мая 2017 г. .
^ «Машины „обгоняют людей“ по все большему числу задач». Financial Times . 30 ноября 2017 г. Получено 3 февраля 2018 г.
^ Гершгорн, Дэйв (18 июня 2018 г.). «Внутренняя история того, как ИИ стал достаточно хорош, чтобы доминировать в Кремниевой долине». Quartz . Получено 10 декабря 2018 г.
^ ab He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (2016). «Глубокое остаточное обучение для распознавания изображений». Конференция IEEE 2016 года по компьютерному зрению и распознаванию образов (CVPR) . стр. 770–778. arXiv : 1512.03385 . doi :10.1109/CVPR.2016.90. ISBN 978-1-4673-8851-1. S2CID 206594692.
^ Hempel, Jesse (13 ноября 2018 г.). «Попытка Фэй-Фэй Ли сделать ИИ лучше для человечества». Wired . Получено 5 мая 2019 г. Когда Ли, которая вернулась в Принстон, чтобы устроиться на работу доцентом в 2007 г., рассказала о своей идее ImageNet, ей было трудно заставить преподавателей помочь ей. Наконец, профессор, специализирующийся на компьютерной архитектуре, согласился присоединиться к ней в качестве соавтора.
^ abcde Гершгорн, Дэйв (26 июля 2017 г.). «Данные, которые изменили исследования ИИ — и, возможно, мир». Quartz . Atlantic Media Co . Получено 26 июля 2017 г. Прочитав о подходе WordNet, Ли встретился с профессором Кристианой Феллбаум, исследователем, оказавшим влияние на дальнейшую работу над WordNet, во время визита в Принстон в 2006 г.
^ Бидерман, Ирвинг (1987). «Распознавание по компонентам: теория понимания человеческого образа». Psychological Review . 94 (2): 115–117. doi :10.1037//0033-295x.94.2.115. ISSN 0033-295X.
^ abc Ли, Тимоти Б. (11 ноября 2024 г.). «Как упрямый компьютерный ученый случайно запустил бум глубокого обучения». Ars Technica . Получено 12 ноября 2024 г.
^ Дэн, Цзя; Донг, Вэй; Сохер, Ричард; Ли, Ли-Цзя; Ли, Кай; Фэй-Фэй, Ли (2009), «ImageNet: крупномасштабная иерархическая база данных изображений» (PDF) , конференция 2009 года по компьютерному зрению и распознаванию образов , заархивировано из оригинала (PDF) 15 января 2021 г. , извлечено 26 июля 2017 г.
↑ Ли, Фэй-Фэй (23 марта 2015 г.), Как мы учим компьютеры понимать изображения , получено 16 декабря 2018 г.
^ "std и среднее значение для нормализации изображения отличаются от ImageNet · Выпуск № 20 · openai/CLIP". GitHub . Получено 19 сентября 2024 г. .
^ "ImageNet". www.image-net.org . Получено 19 октября 2022 г. .
^ Ридник, Таль; Бен-Барух, Эмануэль; Ной, Асаф; Зелник-Манор, Лихи (5 августа 2021 г.). «ImageNet-21K Pretraining for the Masses». arXiv : 2104.10972 [cs.CV].
^ Рехт, Бенджамин; Рулофс, Ребекка; Шмидт, Людвиг; Шанкар, Вайшаал (24 мая 2019 г.). «Обобщают ли классификаторы ImageNet классификаторы ImageNet?». Труды 36-й Международной конференции по машинному обучению . PMLR: 5389–5400.
↑ Роббинс, Мартин (6 мая 2016 г.). «Нужно ли ИИ заниматься любовью с девушкой Рембрандта, чтобы создавать искусство?». The Guardian . Получено 22 июня 2016 г.
^ Маркофф, Джон (10 декабря 2015 г.). «Прогресс в обучении искусственного интеллекта соперничает со способностями человека». The New York Times . Получено 22 июня 2016 г.
^ Арон, Джейкоб (21 сентября 2015 г.). «Забудьте о тесте Тьюринга – есть лучшие способы оценки ИИ». New Scientist . Получено 22 июня 2016 г.
^ Гершгорн, Дэйв (10 сентября 2017 г.). «Руководство Quartz по искусственному интеллекту: что это такое, почему это важно и стоит ли нам бояться?». Quartz . Получено 3 февраля 2018 г.
^ Northcutt, Curtis G.; Athalye, Anish; Mueller, Jonas (7 ноября 2021 г.), Pervasive Label Errors in Test Sets Destabilize Machine Learning Benchmarks, doi : 10.48550/arXiv.2103.14749 , получено 13 ноября 2024 г.
^ Бейер, Лукас; Энафф, Оливье Ж.; Колесников, Александр; Чжай, Сяохуа; Оорд, Аарон ван ден (12 июня 2020 г.), Мы закончили с ImageNet? , doi : 10.48550/arXiv.2006.07159 , получено 13 ноября 2024 г.
^ «Вирусное приложение, которое навешивает на вас ярлыки, — это не совсем то, что вы думаете». Wired . ISSN 1059-1028 . Получено 22 сентября 2019 г. .
^ Вонг, Джулия Кэрри (18 сентября 2019 г.). «Вирусное приложение для селфи ImageNet Roulette казалось забавным — пока оно не назвало меня расистским оскорблением». The Guardian . ISSN 0261-3077 . Получено 22 сентября 2019 г. .
^ Кроуфорд, Кейт; Паглен, Тревор (19 сентября 2019 г.). «Раскопки ИИ: политика обучающих наборов для машинного обучения». - . Получено 22 сентября 2019 г. .
^ Лайонс, Майкл (24 декабря 2020 г.). «Раскопки «Раскопки ИИ»: слон в галерее». arXiv : 2009.01215 . doi : 10.5281/zenodo.4037538. {{cite journal}}: Цитировать журнал требует |journal=( помощь )
^ «На пути к более справедливым наборам данных: фильтрация и балансировка распределения поддерева людей в иерархии ImageNet». image-net.org . 17 сентября 2019 г. . Получено 22 сентября 2019 г. .

Внешние ссылки

Официальный сайт