Схема распознавания объектов

Распознавание объектов – технология в области компьютерного зрения для поиска и идентификации объектов на изображении или видеоряде. Люди распознают множество объектов на изображениях без особых усилий, несмотря на то, что изображение объектов может несколько отличаться в разных точках зрения, во многих разных размерах и масштабах или даже при их перемещении или повороте. Объекты могут быть распознаны даже тогда, когда они частично скрыты от обзора. Эта задача по-прежнему является сложной задачей для систем компьютерного зрения. За несколько десятилетий было реализовано множество подходов к этой задаче.

Подходы, основанные на моделях объектов, подобных САПР

Распознавание по частям

Обобщенные цилиндры ( Томас Бинфорд )
Геоны ( Ирвинг Бидерман )
Дикинсон, Форсайт и Понсе

Методы, основанные на внешнем виде

Используйте примеры изображений (называемые шаблонами или образцами) объектов для выполнения распознавания.
Объекты выглядят по-разному в разных условиях:
- Изменения освещения или цвета
- Изменения направления взгляда
- Изменения размера/формы
Один экземпляр вряд ли будет надежным. Однако невозможно представить все проявления объекта.

Соответствие кромок

Использует методы обнаружения краев, такие как метод обнаружения краев Кэнни , для поиска краев.
Изменения освещения и цвета обычно не оказывают большого влияния на края изображения.
Стратегия:
1. Обнаружение краев в шаблоне и изображении
2. Сравните изображения краев, чтобы найти шаблон
3. Необходимо учитывать диапазон возможных положений шаблона
Измерения:
- Хорошо – подсчитайте количество перекрывающихся рёбер. Не устойчив к изменениям формы
- Лучше – подсчитать количество пикселей края шаблона с некоторым расстоянием от края в искомом изображении
- Лучшее – определить распределение вероятностей расстояния до ближайшего края в поисковом изображении (если шаблон находится в правильном положении). Оценить вероятность того, что каждая позиция шаблона генерирует изображение

Поиск «Разделяй и властвуй»

Стратегия:
- Рассматривать все позиции как множество (ячейку в пространстве позиций)
- Определить нижнюю границу оценки в лучшей позиции в ячейке
- Если граница слишком большая, обрежьте ячейку
- Если граница не слишком велика, разделите ячейку на подъячейки и попробуйте рекурсивно каждую подъячейку.
- Процесс останавливается, когда клетка становится «достаточно маленькой»
В отличие от поиска с несколькими разрешениями, этот метод гарантированно найдет все совпадения, соответствующие критерию (при условии, что нижняя граница точна).
В поисках границы:
- Чтобы найти нижнюю границу наилучшего результата, посмотрите на результат для позиции шаблона, представленной центром ячейки.
- Вычесть максимальное изменение из «центрального» положения для любого другого положения в ячейке (происходит в углах ячейки)
Сложности возникают при определении границ расстояния ^{[ необходима ссылка ]}

Сопоставление оттенков серого

Края (в основном) устойчивы к изменениям освещенности, однако они теряют много информации.
Необходимо вычислить расстояние между пикселями как функцию как положения пикселя, так и интенсивности пикселя.
Можно также применять к цвету.

Соответствие градиента

Еще один способ обеспечить устойчивость к изменениям освещенности, не теряя при этом много информации, — это сравнивать градиенты изображения.
Сопоставление выполняется так же, как сопоставление изображений в оттенках серого.
Простая альтернатива: использовать (нормализованную) корреляцию

Гистограммы реакций рецептивного поля

Избегает явных соответствий точек
Отношения между различными точками изображения неявно закодированы в реакциях рецептивного поля
Суэйн и Баллард (1991), ^[2] Шиле и Кроули (2000), ^[3] Линде и Линдеберг (2004, 2012) ^[4]^[5]

Большие базы моделей

Один из подходов к эффективному поиску в базе данных определенного изображения заключается в использовании собственных векторов шаблонов (называемых собственными лицами ).
Базы моделей представляют собой набор геометрических моделей объектов, которые необходимо распознать.

Методы, основанные на признаках

Поиск используется для нахождения возможных соответствий между характеристиками объекта и характеристиками изображения .
Основным ограничением является то, что одна позиция объекта должна учитывать все возможные совпадения.
методы, которые извлекают признаки из объектов распознавания и изображений, на которых выполняется поиск.
- поверхностные пятна
- углы
- линейные края

Деревья интерпретации

Метод поиска возможных соответствий — поиск по дереву.
Каждый узел в дереве представляет собой набор совпадений.
- Корневой узел представляет собой пустой набор
- Каждый другой узел представляет собой объединение совпадений в родительском узле и одного дополнительного совпадения.
- Подстановочный знак используется для функций, не имеющих соответствия.
Узлы «отсекаются», когда набор соответствий становится невозможным.
- У удаленного узла нет дочерних узлов.
Имеет историческое значение и до сих пор используется, но реже

Выдвигать гипотезы и проверять их

Общая идея:
- Выдвинуть гипотезу о соответствии между набором признаков изображения и набором признаков объекта.
- Затем используйте это, чтобы сгенерировать гипотезу о проекции из системы координат объекта на систему координат изображения.
- Используйте эту проекционную гипотезу для создания рендеринга объекта. Этот шаг обычно называют обратной проекцией
- Сравните визуализацию с изображением и, если они достаточно похожи, примите гипотезу.
Получение гипотезы:
- Существует множество различных способов выдвижения гипотез.
- Когда известны внутренние параметры камеры, гипотеза эквивалентна гипотетическому положению и ориентации — позе — объекта.
- Использовать геометрические ограничения
- Построить соответствие для небольших наборов характеристик объекта каждому подмножеству точек изображения правильного размера. (Это гипотезы)
Три основных подхода:
- Получение гипотез путем последовательности позы
- Получение гипотез с помощью кластеризации поз
- Получение гипотез с использованием инвариантов
Поиск расходов, который также является избыточным, но может быть улучшен с помощью рандомизации и/или группировки
- Рандомизация
  - Изучение небольших наборов характеристик изображения до тех пор, пока вероятность пропуска объекта не станет небольшой
  - Для каждого набора характеристик изображения необходимо рассмотреть все возможные соответствующие наборы характеристик модели.
  - Формула:
    (1 – W ^c ) ^k = Z
    - W = доля точек изображения, которые являются «хорошими» (w ~ m/n)
    - c = необходимое количество соответствий
    - k = количество испытаний
    - Z = вероятность того, что в каждом испытании будет использовано одно (или несколько) неверных соответствий
- Группировка
  - Если мы сможем определить группы точек, которые, скорее всего, принадлежат одному и тому же объекту, мы сможем сократить количество гипотез, которые необходимо проверить.

Последовательность поз

Также называется выравниванием, поскольку объект выравнивается по изображению.
Соответствия между характеристиками изображения и характеристиками модели не являются независимыми – Геометрические ограничения
Небольшое количество соответствий определяет положение объекта – остальные должны соответствовать этому положению.
Общая идея:
- Если мы предположим соответствие между достаточно большой группой характеристик изображения и достаточно большой группой характеристик объекта, то мы сможем восстановить недостающие параметры камеры из этой гипотезы (и таким образом визуализировать остальную часть объекта).
Стратегия:
- Генерация гипотез с использованием небольшого количества соответствий (например, троек точек для 3D-распознавания)
- Проецирование других характеристик модели на изображение ( обратная проекция ) и проверка дополнительных соответствий
Используйте наименьшее количество соответствий, необходимое для достижения дискретных поз объектов.

Кластеризация поз

Общая идея:
- Каждый объект приводит к множеству правильных наборов соответствий, каждое из которых имеет (примерно) одну и ту же позу.
- Голосование по позе. Используйте массив аккумуляторов, который представляет пространство позы для каждого объекта
- По сути это преобразование Хафа.
Стратегия:
- Для каждого объекта создайте массив накопителей, представляющий пространство позы — каждый элемент в массиве накопителей соответствует «корзине» в пространстве позы.
- Затем возьмите каждую группу кадров изображения и выдвиньте гипотезу о соответствии между ней и каждой группой кадров на каждом объекте.
- Для каждого из этих соответствий определите параметры позы и сделайте запись в массиве аккумуляторов для текущего объекта со значением позы.
- Если в массиве накопителя какого-либо объекта имеется большое количество голосов, это можно интерпретировать как доказательство присутствия этого объекта в данной позе.
- Доказательства можно проверить с помощью метода проверки
Обратите внимание, что этот метод использует наборы соответствий, а не отдельные соответствия.
- Реализация проще, поскольку каждый набор дает небольшое количество возможных поз объекта.
Улучшение
- Помехоустойчивость этого метода можно повысить, не подсчитывая голоса за объекты в тех позах, где голос заведомо ненадежен.
§ Например, в случаях, когда, если бы объект находился в этой позе, группа кадра объекта была бы невидимой.
- Этих улучшений достаточно для создания работающих систем.

Инвариантность

Существуют геометрические свойства, которые инвариантны к преобразованиям камеры.
Наиболее прост в разработке для изображений плоских объектов, но может применяться и в других случаях.

Геометрическое хеширование

Алгоритм, который использует геометрические инварианты для голосования за гипотезы объектов
Похоже на кластеризацию позы, однако вместо голосования по позе мы теперь голосуем по геометрии.
Метод, изначально разработанный для сопоставления геометрических характеристик (некалиброванных аффинных представлений плоских моделей) с базой данных таких характеристик.
Широко используется для сопоставления с образцом, CAD/CAM и медицинской визуализации.
Трудно выбрать размер ведер.
Трудно быть уверенным, что означает «достаточно». Поэтому может быть некоторая опасность, что таблица будет забита.

Масштабно-инвариантное преобразование признаков(ПРОСЕЯТЬ)

Ключевые точки объектов сначала извлекаются из набора эталонных изображений и сохраняются в базе данных.
Объект распознается на новом изображении путем индивидуального сравнения каждого признака нового изображения с этой базой данных и поиска потенциальных совпадающих признаков на основе евклидова расстояния их векторов признаков.
Лоу (2004) ^[6]^[7]

Ускоренные надежные функции(СЕРФИНГ)

Надежный детектор и дескриптор изображений
Стандартная версия в несколько раз быстрее SIFT и, по утверждениям ее авторов, более устойчива к различным преобразованиям изображений, чем SIFT.
На основе сумм приближенных двумерных вейвлет-ответов Хаара и эффективного использования интегральных изображений.
Бэй и др. (2008) ^[8]

Мешок слов представления

Генетический алгоритм

Генетические алгоритмы могут работать без предварительного знания заданного набора данных и могут разрабатывать процедуры распознавания без вмешательства человека. Недавний проект достиг 100-процентной точности на эталонных наборах данных изображений мотоциклов, лиц, самолетов и автомобилей из Калтеха и 99,4-процентной точности на наборах данных изображений видов рыб. ^[9]^[10]

Другие подходы

Распознавание и реконструкция 3D-объектов ^[11]
Биологически обусловленное распознавание объектов
Искусственные нейронные сети и глубокое обучение, особенно сверточные нейронные сети
Контекст ^[12]^[13]
Явные и неявные 3D-модели объектов
Быстрая индексация ^[14]
Глобальные представления сцены ^[12]
Градиентные гистограммы
Стохастические грамматики ^[15]
Внутриклассное трансферное обучение
Категоризация объектов из поиска изображений
Отражение ^[16]
Форма-из-за-тенения ^[17]
Соответствие шаблону
Текстура ^[18]
Тематические модели ^[13]
Неконтролируемое обучение
Обнаружение на основе окна
Модель деформируемой детали
Распределение Бингама ^[19]

Приложения

Методы распознавания объектов имеют следующие применения:

Распознавание активности ^[20]
Автоматическая аннотация изображений ^[21]^[22]
Автоматическое распознавание цели
Android Eyes - Распознавание объектов ^[23]
Компьютерная диагностика ^[24]
Панорамные изображения ^[25]
Водяной знак изображения ^[26]
Глобальная локализация робота ^[27]
Распознавание лиц ^[28]
Оптическое распознавание символов ^[29]
Контроль качества производства ^[30]
Поиск изображений на основе контента ^[31]
Подсчет и мониторинг объектов ^[32]
Автоматизированные парковочные системы ^[33]
Визуальное позиционирование и отслеживание ^[34]
Стабилизация видео ^[35]
Обнаружение пешеходов
Интеллектуальная система помощи при движении на большой скорости (в автомобиле и других транспортных средствах)

Опросы

Данилидес и Эклунд, Эдельман.
Рот, Питер М. и Винтер, Мартин (2008). "ОБЗОР МЕТОДОВ, ОСНОВАННЫХ НА ВНЕШНЕМ ВИДЕ, ДЛЯ РАСПОЗНАВАНИЯ ОБЪЕКТОВ" (PDF) . Технический отчет . ICG-TR-01/08. Архивировано из оригинала (PDF) 21-09-2015 . Получено 26-02-2016 .

Смотрите также

Гистограмма направленных градиентов
Сверточная нейронная сеть
OpenCV
Масштабно-инвариантное преобразование признаков (SIFT)
Обнаружение объектов
Статья в Scholarpedia о масштабно-инвариантном преобразовании признаков и связанных с ним методах распознавания объектов
СЕРФИНГ
Соответствие шаблону
Интегральная функция канала

Списки

Примечания

^ Рахеш Мохан и Ракамант Неватия (1992). "Организация восприятия для сегментации и описания сцены" (PDF) . IEEE Trans Pattern Anal Mach Intell .
^ Свейн, Майкл Дж.; Баллард, Дана Х. (1991-11-01). «Цветовая индексация». International Journal of Computer Vision . 7 (1): 11–32. doi :10.1007/BF00130487. ISSN 1573-1405. S2CID 8167136.
^ Шиле, Бернт; Кроули, Джеймс Л. (2000-01-01). «Распознавание без соответствия с использованием многомерных рецептивных полевых гистограмм». Международный журнал компьютерного зрения . 36 (1): 31–50. doi :10.1023/A:1008120406972. ISSN 1573-1405. S2CID 2551159.
^ О. Линде и Т. Линдеберг «Распознавание объектов с использованием составных рецептивных полевых гистограмм более высокой размерности», Труды Международной конференции по распознаванию образов (ICPR'04), Кембридж, Великобритания II:1-6, 2004.
^ О. Линде; Т. Линдеберг (2012). «Составные гистограммы сложных сигналов: исследование информационного содержания в рецептивных полях, основанных на дескрипторах изображений для распознавания объектов». Компьютерное зрение и понимание изображений . 116 (4): 538–560. doi :10.1016/j.cviu.2011.12.003.
^ Лоу, Д.Г., «Отличительные особенности изображения по масштабно-инвариантным ключевым точкам», Международный журнал компьютерного зрения, 60, 2, стр. 91-110, 2004.
^ Линдеберг, Тони (2012). "Преобразование признаков, инвариантных к масштабу". Scholarpedia . 7 (5): 10491. Bibcode :2012SchpJ...710491L. doi : 10.4249/scholarpedia.10491 .
^ Бэй, Герберт; Эсс, Андреас; Туйтелаарс, Тинне; Ван Гул, Люк (2008). «Ускоренные надежные функции (SURF)». Компьютерное зрение и понимание изображений . 110 (3): 346–359. CiteSeerX 10.1.1.205.738 . doi :10.1016/j.cviu.2007.09.014. S2CID 14777911.
^ "Новый алгоритм распознавания объектов учится на лету". Gizmag.com. 20 января 2014 г. Получено 21 января 2014 г.
^ Лиллиуайт, К.; Ли, ДЖ.; Типпеттс, Б.; Арчибальд, Дж. (2013). «Метод построения признаков для общего распознавания объектов». Распознавание образов . 46 (12): 3300. Bibcode : 2013PatRe..46.3300L. doi : 10.1016/j.patcog.2013.06.002.
^ Браун, Мэтью и Дэвид Г. Лоу. «Неконтролируемое распознавание и реконструкция 3D-объектов в неупорядоченных наборах данных». 3-D Digital Imaging and Modeling, 2005. 3DIM 2005. Пятая международная конференция по IEEE, 2005.
^ ab Олива, Оде и Антонио Торральба. «Роль контекста в распознавании объектов». Тенденции в когнитивных науках 11.12 (2007): 520-527.
^ ab Niu, Zhenxing и др. «Контекстно-зависимая тематическая модель для распознавания сцен». Конференция IEEE 2012 года по компьютерному зрению и распознаванию образов. IEEE, 2012.
^ Штейн, Фритьоф и Жерар Медиони. «Структурная индексация: эффективное распознавание трехмерных объектов». Труды IEEE по анализу образов и машинному интеллекту 2 (1992): 125-145.
^ Чжу, Сонг-Чун и Дэвид Мамфорд. «Стохастическая грамматика изображений». Основы и тенденции в компьютерной графике и зрении 2.4 (2007): 259-362.
^ Наяр, Шри К. и Рууд М. Болле. «Распознавание объектов на основе отражения». Международный журнал компьютерного зрения 17.3 (1996): 219-240.
^ Уортингтон, Филип Л. и Эдвин Р. Хэнкок. «Распознавание объектов с использованием формы по затенению». Труды IEEE по анализу образов и машинному интеллекту 23.5 (2001): 535-542.
^ Шоттон, Джейми и др. «Textonboost для понимания изображений: распознавание и сегментация многоклассовых объектов путем совместного моделирования текстуры, компоновки и контекста». Международный журнал компьютерного зрения 81.1 (2009): 2-23.
^ "Лучшее зрение робота". KurzweilAI . Получено 2013-10-09 .
^ Донахью, Джеффри и др. «Долгосрочные рекуррентные сверточные сети для визуального распознавания и описания». Труды конференции IEEE по компьютерному зрению и распознаванию образов. 2015.
^ Карпати, Андрей и Ли Фей-Фей. «Глубокие визуально-семантические выравнивания для генерации описаний изображений». Труды конференции IEEE по компьютерному зрению и распознаванию образов. 2015.
^ P Duygulu; K Barnard; N de Fretias & D Forsyth (2002). «Распознавание объектов как машинный перевод: изучение лексикона для фиксированного словаря изображений». Труды Европейской конференции по компьютерному зрению . стр. 97–112. Архивировано из оригинала 2005-03-05.
^ «Android Eyes Компьютерное зрение».Марта Дж. Фарах «Визуальная агнозия», Компьютерное зрение, вычислительная когнитивная нейронаука, MIT Press, 2011-05-01, страницы 760-781, ISSN 1468-4233 [1] ^{[ нерабочая ссылка ]}
^ Эстева, Андре и др. «Классификация рака кожи на уровне дерматолога с использованием глубоких нейронных сетей». Nature 542.7639 (2017): 115.
^ Браун, М. и Лоу, Д.Г., «Распознавание панорам, архивированных 25 декабря 2014 г. на Wayback Machine », ICCV, стр. 1218, Девятая международная конференция IEEE по компьютерному зрению (ICCV'03) — том 2, Ницца, Франция, 2003 г.
^ Ли, Л., Го, Б. и Шао, К., «Геометрически надежная маркировка изображений водяными знаками с использованием масштабно-инвариантного преобразования признаков и моментов Цернике», Chinese Optics Letters, том 5, выпуск 6, стр. 332-335, 2007.
^ Se,S., Lowe, DG, и Little, JJ, «Глобальная локализация и картографирование на основе машинного зрения для мобильных роботов», IEEE Transactions on Robotics, 21, 3 (2005), стр. 364-375.
^ Томас Серр, Максимиллиан Ризенхубер, Дженнифер Луи, Томазо Поджио, «О роли объектно-специфических признаков для распознавания объектов реального мира в биологическом зрении». Лаборатория искусственного интеллекта и кафедра мозга и когнитивных наук, Массачусетский технологический институт, Центр биологического и вычислительного обучения, Институт МакГоверна по исследованию мозга, Кембридж, Массачусетс, США
^ Пермалофф, Энн; Графтон, Карл (1992). «Оптическое распознавание символов». PS: Политология и политика . 25 (3): 523–531. doi :10.2307/419444. ISSN 1049-0965. JSTOR 419444. S2CID 64806776.
^ Кристиан Демант, Бернд Штрейхер-Абель, Петер Вашкевиц, «Промышленная обработка изображений: визуальный контроль качества в производстве» Краткое описание распознавания объектов в Google Books
^ Нуно Васконселос "Индексирование изображений с помощью смешанных иерархий" Архивировано 18 января 2011 г. в Wayback Machine Compaq Computer Corporation, Proc. Конференция IEEE по компьютерному зрению и распознаванию образов, Кауаи, Гавайи, 2001 г.
^ Хейккиля, Янне; Сильвен, Олли (2004). «Система реального времени для мониторинга велосипедистов и пешеходов». Image and Vision Computing . 22 (7): 563–570. doi :10.1016/j.imavis.2003.09.010.
^ Jung, Ho Gi; Kim, Dong Suk; Yoon, Pal Joo; Kim, Jaihie (2006). «Распознавание разметки парковочного места на основе структурного анализа для полуавтоматической системы парковки». В Yeung, Dit-Yan; Kwok, James T.; Fred, Ana; Roli, Fabio; de Ridder, Dick (ред.). Структурное, синтаксическое и статистическое распознавание образов . Конспект лекций по информатике. Том 4109. Берлин, Гейдельберг: Springer. стр. 384–393. doi : 10.1007/11815921_42 . ISBN 978-3-540-37241-7.
^ SK Nayar, H. Murase и SA Nene, «Обучение, позиционирование и отслеживание визуального образа» Труды Международной конференции IEEE по робототехнике и автоматизации, Сан-Диего, май 1994 г.
^ Лю, Ф.; Глейхер, М.; Джин, Х.; Агарвала, А. (2009). «Сохраняющие содержимое деформации для стабилизации 3D-видео». ACM Transactions on Graphics . 28 (3): 1. CiteSeerX 10.1.1.678.3088 . doi :10.1145/1531326.1531350.

Ссылки

Элгаммал, Ахмед «CS 534: Распознавание на основе 3D-моделей компьютерного зрения», кафедра компьютерных наук, Ратгерский университет;
Хартли, Ричард и Зиссерман, Эндрю «Многомерная геометрия в компьютерном зрении», Cambridge Press, 2000, ISBN 0-521-62304-9 .
Рот, Питер М. и Винтер, Мартин «Обзор методов распознавания объектов на основе внешнего вида», Технический отчет ICG-TR-01/08, Институт компьютерной графики и зрения, Технический университет Граца, Австрия; 15 января 2008 г.
Коллинз, Роберт «Лекция 31: Распознавание объектов: ключи SIFT», CSE486, Университет штата Пенсильвания
IPRG Архивировано 28.12.2020 в Wayback Machine Image Processing - Online Open Research Group
Christian Szegedy Архивировано 06.09.2015 в Wayback Machine , Alexander Toshev Архивировано 04.10.2015 в Wayback Machine и Dumitru Erhan. Deep Neural Networks for Object Detection. Advances in Neural Information Processing Systems 26 Архивировано 05.09.2020 в Wayback Machine , 2013. страницы 2553–2561.