stringtranslate.com

Обнаружение объектов

Объекты, обнаруженные с помощью модуля глубокой нейронной сети OpenCV (dnn) с использованием модели YOLOv3, обученной на наборе данных COCO, способной обнаруживать объекты 80 распространенных классов.

Обнаружение объектов — это компьютерная технология, связанная с компьютерным зрением и обработкой изображений , которая занимается обнаружением экземпляров семантических объектов определенного класса (например, людей, зданий или автомобилей) на цифровых изображениях и видео. [1] Хорошо изученные области обнаружения объектов включают обнаружение лиц и обнаружение пешеходов . Обнаружение объектов имеет приложения во многих областях компьютерного зрения, включая поиск изображений и видеонаблюдение .

Использует

Обнаружение объектов на дороге

Он широко используется в задачах компьютерного зрения , таких как аннотация изображений , [2] подсчет транспортных средств, [3] распознавание активности , [4] обнаружение лиц , распознавание лиц , сегментация видеообъектов . Он также используется для отслеживания объектов , например, отслеживание мяча во время футбольного матча, отслеживание движения биты для крикета или отслеживание человека на видео.

Часто тестовые изображения выбираются из другого распределения данных, что значительно усложняет задачу обнаружения объектов. [5] Для решения проблем, вызванных разрывом в домене между тренировочными и тестовыми данными, было предложено множество подходов к неконтролируемой адаптации домена. [5] [6] [7] [8] [9] Простым и понятным решением для сокращения разрыва в домене является применение подхода перевода изображения в изображение, такого как циклическая GAN. [10] Помимо прочего, междоменное обнаружение объектов применяется в автономном вождении, где модели можно обучать на большом количестве сцен видеоигр, поскольку метки можно генерировать без ручного труда.

Концепция

Каждый класс объектов имеет свои особые признаки , которые помогают классифицировать класс — например, все круги круглые. Определение класса объектов использует эти особые признаки. Например, при поиске кругов ищутся объекты, которые находятся на определенном расстоянии от точки (т. е. центра). Аналогично, при поиске квадратов нужны объекты, которые перпендикулярны углами и имеют одинаковую длину сторон. Похожий подход используется для идентификации лиц , где можно найти глаза, нос и губы, а также такие признаки , как цвет кожи и расстояние между глазами.

Показатели

Пересечение по объединению как мера сходства для обнаружения объектов на изображениях — важная задача компьютерного зрения .

Для локализации объекта истинное положительное значение часто измеряется пороговым пересечением по объединению . Например, если на изображении есть дорожный знак с ограничивающим прямоугольником, нарисованным человеком («метка истинного значения»), то нейронная сеть обнаружила дорожный знак (истинное положительное значение ) при пороге 0,5, если она нарисовала ограничивающий прямоугольник, IoU которого с истинным значением превышает 0,5. В противном случае ограничивающий прямоугольник является ложным положительным значением .

Если есть только один ограничивающий прямоугольник истинности, но несколько прогнозов, то вычисляется IoU каждого прогноза. Прогноз с самым высоким IoU является истинно положительным, если он выше порогового значения, в противном случае это ложноположительный результат. Все остальные предсказанные ограничивающие прямоугольники являются ложноположительными. Если нет прогноза с IoU выше порогового значения, то метка истинности имеет ложноотрицательный результат .

Для одновременной локализации и классификации объектов истинно положительным считается тот случай, когда метка класса верна, а ограничивающий прямоугольник имеет IoU, превышающий пороговое значение.

Одновременная локализация и классификация объектов оценивается по средней средней точности (mAP). Средняя точность (AP) сети для класса объектов — это площадь под кривой точности-полноты при изменении порога IoU. MAP — это среднее значение AP по всем классам.

Методы

Методы обнаружения объектов обычно делятся на подходы на основе нейронных сетей и не-нейронные подходы. Для не-нейронных подходов становится необходимым сначала определить признаки с помощью одного из методов ниже, а затем использовать такую ​​технику, как машина опорных векторов (SVM), чтобы выполнить классификацию. С другой стороны, нейронные методы способны выполнять сквозное обнаружение объектов без специального определения признаков и, как правило, основаны на сверточных нейронных сетях (CNN).

Смотрите также

Ссылки

  1. ^ Дасиопулу, Стаматия и др. «Семантическое обнаружение видеообъектов с использованием знаний». Труды IEEE по схемам и системам для видеотехнологий 15.10 (2005): 1210–1224.
  2. ^ Лин Гуань; Ифэн Хэ; Сунь-Юань Кунг (1 марта 2012 г.). Обработка мультимедийных изображений и видео. CRC Press. С. 331–. ISBN 978-1-4398-3087-1.
  3. ^ Alsanabani, Ala; Ahmed, Mohammed; AL Smadi, Ahmad (2020). «Подсчет транспортных средств с использованием комбинаций обнаружения и отслеживания: сравнительный анализ». 2020 г. 4-я Международная конференция по обработке видео и изображений . стр. 48–54. doi :10.1145/3447450.3447458. ISBN 9781450389075. S2CID  233194604.
  4. ^ Wu, Jianxin; Osuntogun, Adebola; Choudhury, Tanzeem; Philipose, Matthai; Rehg, James M. (2007). «Масштабируемый подход к распознаванию активности на основе использования объектов». 2007 IEEE 11-я Международная конференция по компьютерному зрению . стр. 1–8. doi :10.1109/ICCV.2007.4408865. ISBN 978-1-4244-1630-1.
  5. ^ ab Oza, Poojan; Sindagi, Vishwanath A.; VS, Vibashan; Patel, Vishal M. (2021-07-04). «Неконтролируемая адаптация доменов детекторов объектов: обзор». arXiv : 2105.13502 [cs.CV].
  6. ^ Ходабандех, Мехран; Вахдат, Араш; Ранджбар, Мани; Макреди, Уильям Г. (18.11.2019). «Надежный подход к обучению адаптивному обнаружению объектов в домене». arXiv : 1904.02361 [cs.LG].
  7. ^ Совяни, Петру; Ионеску, Раду Тудор; Рота, Паоло; Себе, Нику (01.03.2021). «Учебная программа самостоятельного обучения для обнаружения междоменных объектов». Компьютерное зрение и понимание изображений . 204 : 103166. arXiv : 1911.06849 . doi : 10.1016/j.cviu.2021.103166. ISSN  1077-3142. S2CID  208138033.
  8. ^ Менке, Максимилиан; Венцель, Томас; Швунг, Андреас (октябрь 2022 г.). «Улучшение адаптации домена на основе GAN для обнаружения объектов». 2022 IEEE 25-я Международная конференция по интеллектуальным транспортным системам (ITSC) . стр. 3880–3885. doi :10.1109/ITSC55140.2022.9922138. ISBN 978-1-6654-6880-0. S2CID  253251380.
  9. ^ Менке, Максимилиан; Венцель, Томас; Швунг, Андреас (31.08.2022). «AWADA: Адаптация домена состязательности с учетом внимания для обнаружения объектов». arXiv : 2208.14662 [cs.CV].
  10. ^ Чжу, Джун-Ян; Пак, Тэсон; Изола, Филлип; Эфрос, Алексей А. (2020-08-24). «Непарный перевод изображения в изображение с использованием циклически согласованных состязательных сетей». arXiv : 1703.10593 [cs.CV].
  11. ^ Ферри, К. и Кайзер, С. (2019). Нейронные сети для младенцев . Справочники. ISBN 978-1492671206.{{cite book}}: CS1 maint: несколько имен: список авторов ( ссылка )
  12. ^ Далал, Навнит (2005). "Гистограммы ориентированных градиентов для обнаружения человека" (PDF) . Компьютерное зрение и распознавание образов . 1 .
  13. ^ Сермане, Пьер; Эйген, Дэвид; Чжан, Сян; Матье, Майкл; Фергус, Роб; ЛеКун, Ян (2014-02-23). ​​"OverFeat: Интегрированное распознавание, локализация и обнаружение с использованием сверточных сетей". arXiv : 1312.6229 [cs.CV].
  14. ^ Росс, Гиршик (2014). «Богатые иерархии признаков для точного обнаружения объектов и семантической сегментации» (PDF) . Труды конференции IEEE по компьютерному зрению и распознаванию образов . IEEE. стр. 580–587. arXiv : 1311.2524 . doi : 10.1109/CVPR.2014.81. ISBN 978-1-4799-5118-5. S2CID  215827080.
  15. ^ Girschick, Ross (2015). "Fast R-CNN" (PDF) . Труды Международной конференции IEEE по компьютерному зрению . стр. 1440–1448. arXiv : 1504.08083 .
  16. ^ Шаоцин, Жэнь (2015). «Быстрее R-CNN». Достижения в области нейронных систем обработки информации . arXiv : 1506.01497 .
  17. ^ Аб Панг, Цзянмяо; Чен, Кай; Ши, Цзяньпин; Фэн, Хуацзюнь; Оуян, Ванли; Линь, Дахуа (04 апреля 2019 г.). «Весы R-CNN: к сбалансированному обучению для обнаружения объектов». arXiv : 1904.02701v1 [cs.CV].
  18. ^ Редмон, Джозеф; Диввала, Сантош; Гиршик, Росс; Фархади, Али (2016-05-09). «Вы только посмотрите один раз: унифицированное обнаружение объектов в реальном времени». arXiv : 1506.02640 [cs.CV].
  19. ^ Лю, Вэй (октябрь 2016 г.). "SSD: Single Shot MultiBox Detector". Computer Vision – ECCV 2016. Lecture Notes in Computer Science. Vol. 9905. pp. 21–37. arXiv : 1512.02325 . doi :10.1007/978-3-319-46448-0_2. ISBN 978-3-319-46447-3. S2CID  2141740.
  20. ^ Чжан, Шифэн (2018). «Однократная уточненная нейронная сеть для обнаружения объектов». Труды конференции IEEE по компьютерному зрению и распознаванию образов . стр. 4203–4212. arXiv : 1711.06897 .
  21. ^ Лин, Цунг-И (2020). «Потери фокуса при обнаружении плотных объектов». Труды IEEE по анализу образов и машинному интеллекту . 42 (2): 318–327. arXiv : 1708.02002 . doi : 10.1109/TPAMI.2018.2858826. PMID  30040631. S2CID  47252984.
  22. ^ Чжу, Сичжоу (2018). «Деформируемые сверточные сети v2: больше деформируемых, лучшие результаты». arXiv : 1811.11168 [cs.CV].
  23. ^ Дай, Цзифэн (2017). «Деформируемые сверточные сети». arXiv : 1703.06211 [cs.CV].

Внешние ссылки