stringtranslate.com

ImageNet

Проект ImageNet представляет собой большую визуальную базу данных , предназначенную для использования в исследованиях программного обеспечения для распознавания визуальных объектов . Более 14 миллионов [1] [2] изображений были вручную аннотированы в рамках проекта, чтобы указать, какие объекты изображены, и по крайней мере в одном миллионе изображений также предусмотрены ограничивающие рамки. [3] ImageNet содержит более 20 000 категорий, [2] типичная категория, такая как «воздушный шар» или «клубника», состоит из нескольких сотен изображений. [4] База данных аннотаций URL-адресов сторонних изображений находится в свободном доступе непосредственно из ImageNet, хотя сами изображения не принадлежат ImageNet. [5] С 2010 года проект ImageNet проводит ежегодный конкурс программного обеспечения ImageNet Large Scale Visual Recognition Challenge (ILSVRC), в котором программы соревнуются в правильной классификации и обнаружении объектов и сцен. В задаче используется «обрезанный» список из тысячи непересекающихся классов. [6]

Значение для глубокого обучения

30 сентября 2012 года сверточная нейронная сеть (CNN) под названием AlexNet [7] достигла ошибки топ-5 в размере 15,3% в конкурсе ImageNet 2012 Challenge, что более чем на 10,8 процентных пункта ниже, чем у занявшего второе место. Использование сверточных нейронных сетей стало возможным благодаря использованию графических процессоров (GPU) во время обучения, [7] важного компонента революции глубокого обучения . По данным The Economist , «внезапно люди начали обращать на это внимание не только в сообществе ИИ, но и во всей технологической отрасли в целом». [4] [8] [9]

В 2015 году AlexNet уступила очень глубокую CNN от Microsoft с более чем 100 слоями, которая выиграла конкурс ImageNet 2015. [10]

История базы данных

Исследователь искусственного интеллекта Фей-Фей Ли начал работать над идеей ImageNet в 2006 году. В то время, когда большинство исследований искусственного интеллекта были сосредоточены на моделях и алгоритмах, Ли хотел расширить и улучшить данные, доступные для обучения алгоритмов искусственного интеллекта. [11] В 2007 году Ли встретился с профессором Принстона Кристианой Феллбаум , одной из создательниц WordNet , чтобы обсудить проект. В результате этой встречи Ли продолжил создание ImageNet, на основе текстовой базы данных WordNet и используя многие из ее функций. [12]

Будучи доцентом в Принстоне, Ли собрал команду исследователей для работы над проектом ImageNet. Они использовали Amazon Mechanical Turk , чтобы помочь с классификацией изображений. [12]

Впервые они представили свою базу данных в виде плаката на конференции по компьютерному зрению и распознаванию образов (CVPR) 2009 года во Флориде. [12] [13] [14]

Набор данных

ImageNet использует краудсорсинг процесса аннотирования. Аннотации на уровне изображения указывают на наличие или отсутствие класса объекта на изображении, например «на этом изображении есть тигры» или «на этом изображении нет тигров». Аннотации на уровне объекта создают ограничивающую рамку вокруг указанного объекта (видимой части). ImageNet использует вариант широкой схемы WordNet для категоризации объектов, дополненной 120 категориями пород собак для демонстрации детальной классификации. [6] Одним из недостатков использования WordNet является то, что категории могут быть более «возвышенными», чем было бы оптимально для ImageNet: «Большинство людей больше интересуются Леди Гагой или iPod Mini, чем этим редким видом диплодока ». [ необходимы разъяснения ] В 2012 году ImageNet была крупнейшим в мире академическим пользователем Mechanical Turk . Среднестатистический работник идентифицирует 50 изображений в минуту. [2]

Подмножества набора данных

Существуют различные подмножества набора данных ImageNet, используемые в различных контекстах. Одним из наиболее часто используемых подмножеств ImageNet является «Набор данных классификации и локализации изображений ImageNet Large Scale Visual Recognition Challenge (ILSVRC) 2012–2017». В исследовательской литературе это также называется ImageNet-1K или ILSVRC2017, что отражает первоначальную задачу ILSVRC, в которой участвовало 1000 классов. ImageNet-1K содержит 1 281 167 обучающих изображений, 50 000 проверочных изображений и 100 000 тестовых изображений. [15] Полный исходный набор данных называется ImageNet-21K. ImageNet-21k содержит 14 197 122 изображения, разделенных на 21 841 класс. В некоторых статьях это округляют и называют ImageNet-22k. [16]

История конкурса ImageNet

История ошибок в ImageNet (показан лучший результат для каждой команды и до 10 записей в год)

ILSVRC стремится «идти по стопам» меньшего масштаба проекта PASCAL VOC, созданного в 2005 году и содержавшего всего около 20 000 изображений и двадцати классов объектов. [6] Чтобы «демократизировать» ImageNet, Фей-Фей Ли предложил команде PASCAL VOC сотрудничество, начиная с 2010 года, в рамках которого исследовательские группы будут оценивать свои алгоритмы на заданном наборе данных и соревноваться за достижение более высокой точности в нескольких задачах визуального распознавания. . [12]

Итоговый ежегодный конкурс теперь известен как ImageNet Large Scale Visual Recognition Challenge (ILSVRC). ILSVRC использует «обрезанный» список, состоящий всего из 1000 категорий изображений или «классов», включая 90 из 120 пород собак, классифицированных по полной схеме ImageNet. [6] В 2010-х годах произошел значительный прогресс в обработке изображений. Примерно в 2011 году уровень ошибок в топ-5 хорошей классификации ILSVRC составлял 25%. В 2012 году глубокая сверточная нейронная сеть под названием AlexNet достигла 16%; в следующие пару лет уровень ошибок в топ-5 упал до нескольких процентов. [17] В то время как прорыв 2012 года «объединил все, что было раньше», резкое количественное улучшение ознаменовало начало общеотраслевого бума искусственного интеллекта. [4] К 2015 году исследователи из Microsoft сообщили, что их CNN превосходят человеческие способности при выполнении узких задач ILSVRC. [10] [18] Однако, как отметила в 2015 году одна из организаторов конкурса Ольга Русаковский , программам достаточно лишь идентифицировать изображения как принадлежащие к одной из тысячи категорий; люди могут распознавать большее количество категорий, а также (в отличие от программ) оценивать контекст изображения. [19]

К 2014 году в ILSVRC приняли участие более пятидесяти учреждений. [6] В 2017 году 29 из 38 конкурирующих команд имели точность более 95%. [20] В 2017 году ImageNet заявила, что в 2018 году поставит перед собой новую, гораздо более сложную задачу, которая включает в себя классификацию 3D-объектов с использованием естественного языка. Поскольку создание 3D-данных обходится дороже, чем аннотирование уже существующего 2D-изображения, ожидается, что набор данных будет меньше. Применение прогресса в этой области будет варьироваться от роботизированной навигации до дополненной реальности . [1]

Предвзятость в ImageNet

Исследование истории нескольких слоев ( таксономия , классы объектов и маркировка) ImageNet и WordNet в 2019 году показало, как предвзятость [ необходимы разъяснения ] глубоко укоренилась в большинстве подходов к классификации всех видов изображений. [21] [22] [23] [24] ImageNet работает над устранением различных источников предвзятости. [25]

Смотрите также

Рекомендации

  1. ^ ab «Новая задача компьютерного зрения хочет научить роботов видеть в 3D». Новый учёный . 7 апреля 2017 года . Проверено 3 февраля 2018 г.
  2. ^ abc Маркофф, Джон (19 ноября 2012 г.). «Для веб-изображений: создание новых технологий для поиска и нахождения». Нью-Йорк Таймс . Проверено 3 февраля 2018 г.
  3. ^ "Имиджнет". 7 сентября 2020 г. Архивировано из оригинала 7 сентября 2020 г. Проверено 11 октября 2022 г.
  4. ^ abc «От неработоспособности к нейронным сетям». Экономист . 25 июня 2016 г. Проверено 3 февраля 2018 г.
  5. ^ «Обзор ImageNet» . Имиджнет . Проверено 15 октября 2022 г.
  6. ^ abcde Ольга Русаковский *, Цзя Дэн *, Хао Су, Джонатан Краузе, Санджив Сатиш, Шон Ма, Чжихэн Хуанг, Андрей Карпати , Адитья Хосла, Майкл Бернштейн, Александр К. Берг и Ли Фей-Фей. (* = равный вклад) Масштабный конкурс визуального распознавания ImageNet. ЦЖКВ, 2015.
  7. ^ аб Крижевский, Алекс; Суцкевер, Илья; Хинтон, Джеффри Э. (июнь 2017 г.). «Классификация ImageNet с глубокими сверточными нейронными сетями» (PDF) . Коммуникации АКМ . 60 (6): 84–90. дои : 10.1145/3065386 . ISSN  0001-0782. S2CID  195908774 . Проверено 24 мая 2017 г.
  8. ^ «Машины побеждают людей в решении все большего числа задач» . Файнэншл Таймс . 30 ноября 2017 года . Проверено 3 февраля 2018 г.
  9. Гершгорн, Дэйв (18 июня 2018 г.). «Внутренняя история того, как искусственный интеллект стал достаточно хорош, чтобы доминировать в Кремниевой долине». Кварц . Проверено 10 декабря 2018 г.
  10. ^ аб Хе, Кайминг; Чжан, Сянъюй; Рен, Шаоцин; Сунь, Цзянь (2016). «Глубокое остаточное обучение для распознавания изображений». Конференция IEEE 2016 по компьютерному зрению и распознаванию образов (CVPR) . стр. 770–778. arXiv : 1512.03385 . дои :10.1109/CVPR.2016.90. ISBN 978-1-4673-8851-1. S2CID  206594692.
  11. Хемпель, Джесси (13 ноября 2018 г.). «Стремления Фей-Фей Ли по улучшению ИИ для человечества». Проводной . Проверено 5 мая 2019 г. Когда Ли, которая в 2007 году вернулась в Принстон, чтобы устроиться на работу доцентом, рассказала о своей идее создания ImageNet, ей было трудно убедить преподавателей помочь ей. Наконец, профессор, специализирующийся на компьютерной архитектуре, согласился присоединиться к ней в качестве сотрудника.
  12. ↑ abcd Гершгорн, Дэйв (26 июля 2017 г.). «Данные, которые изменили исследования ИИ — и, возможно, весь мир». Кварц . Атлантик Медиа Ко . Проверено 26 июля 2017 г. Прочитав о подходе WordNet, Ли во время визита в Принстон в 2006 году встретился с профессором Кристианой Феллбаум, исследователем, оказавшим влияние на дальнейшую работу над WordNet.
  13. ^ Дэн, Цзя; Донг, Вэй; Сошер, Ричард; Ли, Ли-Цзя; Ли, Кай; Фей-Фей, Ли (2009), «ImageNet: крупномасштабная иерархическая база данных изображений» (PDF) , конференция 2009 г. по компьютерному зрению и распознаванию образов , заархивировано из оригинала (PDF) 15 января 2021 г. , получено 26 июля 2017 г.
  14. Ли, Фей-Фей (23 марта 2015 г.), Как мы учим компьютеры понимать изображения , дата обращения 16 декабря 2018 г.
  15. ^ "Имиджнет". www.image-net.org . Проверено 19 октября 2022 г.
  16. ^ Ридник, Таль; Бен-Барух, Эмануэль; Ной, Асаф; Зельник-Усадьба, Лихи (5 августа 2021 г.). «Предварительная подготовка ImageNet-21K для масс». arXiv : 2104.10972 [cs.CV].
  17. Роббинс, Мартин (6 мая 2016 г.). «Нужно ли ИИ заниматься любовью с девушкой Рембрандта, чтобы заниматься искусством?». Хранитель . Проверено 22 июня 2016 г.
  18. Маркофф, Джон (10 декабря 2015 г.). «Прогресс в области обучения искусственному интеллекту соперничает с человеческими способностями». Нью-Йорк Таймс . Проверено 22 июня 2016 г.
  19. Арон, Джейкоб (21 сентября 2015 г.). «Забудьте о тесте Тьюринга – есть более эффективные способы оценки ИИ». Новый учёный . Проверено 22 июня 2016 г.
  20. Гершгорн, Дэйв (10 сентября 2017 г.). «Кварц-путеводитель по искусственному интеллекту: что это такое, почему это важно и стоит ли нам бояться?». Кварц . Проверено 3 февраля 2018 г.
  21. ^ «Вирусное приложение, которое маркирует вас, - это не совсем то, что вы думаете» . Проводной . ISSN  1059-1028 . Проверено 22 сентября 2019 г.
  22. Вонг, Джулия Кэрри (18 сентября 2019 г.). «Вирусное приложение для селфи ImageNet Roulette казалось забавным, пока оно не назвало меня расистским оскорблением». Хранитель . ISSN  0261-3077 . Проверено 22 сентября 2019 г.
  23. ^ Кроуфорд, Кейт; Паглен, Тревор (19 сентября 2019 г.). «Раскопки ИИ: политика обучающих наборов для машинного обучения». - . Проверено 22 сентября 2019 г.
  24. Лайонс, Майкл (24 декабря 2020 г.). «Раскопки «Раскопки ИИ»: Слон в галерее». arXiv : 2009.01215 .
  25. ^ «На пути к более справедливым наборам данных: фильтрация и балансировка распределения поддерева людей в иерархии ImageNet». image-net.org . 17 сентября 2019 г. Проверено 22 сентября 2019 г.

Внешние ссылки