stringtranslate.com

Совместная сегментация объектов

Примеры видеокадров и их аннотации косегментации объектов (основная правда) в наборе данных Noisy-ViDiSeg [1] . Сегменты объектов обозначены красным краем.

В компьютерном зрении совместная сегментация объектов является частным случаем сегментации изображений , которая определяется как совместная сегментация семантически схожих объектов на нескольких изображениях или видеокадрах. [2] [3]

Вызовы

Часто бывает сложно извлечь маски сегментации цели/объекта из шумной коллекции изображений или видеокадров, что включает обнаружение объектов в сочетании с сегментацией . Шумная коллекция подразумевает, что объект/цель присутствует спорадически в наборе изображений или объект/цель периодически исчезает на протяжении всего интересующего видео. Ранние методы [4] [5] обычно включают представления среднего уровня, такие как предложения объектов .

Методы, основанные на динамических сетях Маркова

Процесс вывода двух связанных динамических сетей Маркова для получения совместного обнаружения и сегментации видеообъектов [1]
Совместная структура обнаружения объектов и совместной сегментации, основанная на связанных динамических сетях Маркова [1] .

Недавно был предложен метод совместного обнаружения объектов и совместной сегментации на основе связанных динамических сетей Маркова [1] , который, как утверждается, обеспечивает значительное повышение устойчивости к нерелевантным/шумным видеокадрам.

В отличие от предыдущих попыток, которые удобно предполагали постоянное присутствие целевых объектов во всем входном видео, этот связанный алгоритм на основе двойной динамической сети Маркова одновременно выполняет задачи обнаружения и сегментации с двумя соответствующими сетями Маркова, совместно обновляемыми посредством распространения убеждений.

В частности, сеть Маркова, отвечающая за сегментацию, инициализируется суперпикселями и предоставляет информацию для своего марковского аналога, отвечающего за задачу обнаружения объектов. Наоборот, сеть Маркова, отвечающая за обнаружение, строит граф предложения объектов с входными данными, включая трубки пространственно-временной сегментации.

Методы, основанные на разрезании графа

Оптимизация разреза графа является популярным инструментом в компьютерном зрении, особенно в более ранних приложениях сегментации изображений . В качестве расширения обычных разрезов графа предлагается многоуровневый разрез гиперграфа [6] для учета более сложных соответствий высокого порядка среди видеогрупп за пределами типичных парных корреляций.

При таком расширении гиперграфа множественные модальности соответствий, включая низкоуровневый внешний вид, заметность, когерентное движение и высокоуровневые характеристики, такие как области объектов, могут быть бесшовно включены в вычисление гиперребер. Кроме того, в качестве основного преимущества по сравнению с подходом, основанным на совместном появлении , гиперграф неявно сохраняет более сложные соответствия между своими вершинами, при этом веса гиперребер удобно вычисляются путем разложения собственных значений матриц Лапласа .

Методы на основе CNN/LSTM

Обзор временной локализации действий от грубой к точной в [7] (a) Грубая локализация. Учитывая необрезанное видео, мы сначала генерируем видеоклипы с учетом значимости с помощью скользящих окон переменной длины. Сеть предложений решает, содержит ли видеоклип какие-либо действия (поэтому клип добавляется в набор кандидатов) или чистый фон (поэтому клип напрямую отбрасывается). Последующая сеть классификации предсказывает конкретный класс действий для каждого клипа-кандидата и выводит баллы классификации и метки действий. (b) Точная локализация. С баллами классификации и метками действий из предыдущей грубой локализации выполняется дальнейшее предсказание категории видео и получаются его начальные и конечные кадры.
Блок-схема детектора пространственно-временной локализации действия segment-tube. [7] В качестве входных данных необрезанное видео содержит несколько кадров действий ( например , все действия в видео парного фигурного катания), и только часть этих кадров принадлежит соответствующей категории ( например , DeathSpirals). Обычно есть нерелевантные предшествующие и последующие действия (фон). Детектор Segment-tube итеративно чередует оптимизацию временной локализации и пространственную сегментацию. Конечный вывод представляет собой последовательность масок сегментации по кадрам с точными начальными/конечными кадрами, обозначенными красным фрагментом внизу, в то время как фон отмечен зеленым фрагментом внизу.

В приложениях локализации действий косегментация объектов также реализуется как пространственно-временной детектор сегментной трубки . [7] Вдохновленные недавними усилиями по локализации пространственно-временных действий с помощью трубочек (последовательностей ограничивающих рамок), Ли и др. представляют новый детектор локализации пространственно-временных действий Segment-tube, который состоит из последовательностей масок сегментации по кадрам. Этот детектор Segment-tube может временно определять начальный/конечный кадр каждой категории действий при наличии предшествующих/последующих интерференционных действий в необрезанных видео. Одновременно детектор Segment-tube создает маски сегментации по кадрам вместо ограничивающих рамок, предлагая превосходную пространственную точность для трубочек. Это достигается путем чередования итеративной оптимизации между локализацией временного действия и сегментацией пространственного действия.

Предлагаемый детектор сегментной трубки показан на блок-схеме справа. Образец входных данных — это необрезанное видео, содержащее все кадры в видео парного фигурного катания, только часть из которых относится к соответствующей категории (например, DeathSpirals). Инициализированный с сегментацией изображения на основе значимости на отдельных кадрах, этот метод сначала выполняет шаг локализации временного действия с каскадной 3D CNN и LSTM и определяет начальный кадр и конечный кадр целевого действия с помощью стратегии «грубо-точно». Затем детектор сегментной трубки уточняет пространственную сегментацию по кадрам с помощью разреза графа , фокусируясь на соответствующих кадрах, идентифицированных шагом локализации временного действия. Оптимизация чередует локализацию временного действия и сегментацию пространственного действия итеративным образом. При практической конвергенции окончательные результаты локализации пространственно-временного действия получаются в формате последовательности масок сегментации по кадрам (нижняя строка на блок-схеме) с точными начальными/конечными кадрами.

Смотрите также

Ссылки

  1. ^ abcd Лю, Цзыи; Ван, Ле; Хуа, Ган; Чжан, Цилинь; Ню, Чжэньсин; У, Ин; Чжэн, Наньнин (2018). «Совместное обнаружение и сегментация видеообъектов с помощью связанных динамических марковских сетей» (PDF) . IEEE Transactions on Image Processing . 27 (12): 5840–5853. Bibcode :2018ITIP...27.5840L. doi : 10.1109/tip.2018.2859622 . ISSN  1057-7149. PMID  30059300. S2CID  51867241.
  2. ^ Висенте, Сара; Ротер, Карстен; Колмогоров, Владимир (2011). «Косегментация объектов». ЦВПР 2011 . IEEE. стр. 2217–2224. дои : 10.1109/cvpr.2011.5995530. ISBN 978-1-4577-0394-2.
  3. ^ Чэнь, Дин-Цзе; Чэнь, Хванн-Цзонг; Чанг, Лонг-Вэнь (2012). "Косегментация видеообъектов". Труды 20-й международной конференции ACM по мультимедиа - MM '12 . Нью-Йорк, Нью-Йорк, США: ACM Press. стр. 805. doi :10.1145/2393347.2396317. ISBN 978-1-4503-1089-5.
  4. ^ Ли, Ён Джэ; Ким, Джэчхуль; Грауман, Кристен (2011). «Ключевые сегменты для сегментации видеообъектов». Международная конференция по компьютерному зрению 2011 г. IEEE. стр. 1995–2002 гг. CiteSeerX 10.1.1.269.2727 . doi :10.1109/iccv.2011.6126471. ISBN  978-1-4577-1102-2.
  5. ^ Ma, Tianyang; Latecki, Longin Jan (2012). Максимальные весовые клики с ограничениями мьютекса для сегментации видеообъектов . IEEE CVPR 2012. стр. 670–677. doi :10.1109/CVPR.2012.6247735. ISBN 978-1-4673-1228-8.
  6. ^ Ван, Ле; Лв, Синь; Чжан, Цилинь; Ню, Чжэньсин; Чжэн, Наньнин; Хуа, Ганг (2020). «Косегментация объектов в зашумленных видео с помощью многоуровневого гиперграфа» (PDF) . IEEE Transactions on Multimedia . 23 . IEEE: 1. doi :10.1109/tmm.2020.2995266. ISSN  1520-9210. S2CID  219410031.
  7. ^ abc Ван, Ле; Дуань, Сюхуань; Чжан, Цилинь; Ню, Чжэньсин; Хуа, Ган; Чжэн, Наньнин (2018-05-22). "Сегментная трубка: пространственно-временная локализация действия в необрезанных видео с покадровой сегментацией" (PDF) . Датчики . 18 (5). MDPI AG: 1657. Bibcode :2018Senso..18.1657W. doi : 10.3390/s18051657 . ISSN  1424-8220. PMC 5982167 . PMID  29789447.  Материал скопирован из этого источника, который доступен по лицензии Creative Commons Attribution 4.0 International.