Тематическое руководство по распознаванию объектов
Распознавание объектов – технология в области компьютерного зрения для поиска и идентификации объектов на изображении или видеоряде. Люди без особых усилий распознают множество объектов на изображениях, несмотря на то, что изображение объектов может несколько различаться при разных точках обзора, при разных размерах и масштабах или даже при их перемещении или повороте. Объекты можно распознать даже тогда, когда они частично закрыты из поля зрения. Эта задача по-прежнему остается сложной задачей для систем компьютерного зрения. Многие подходы к решению этой задачи были реализованы за несколько десятилетий.
Подходы, основанные на CAD-подобных объектных моделях
Распознавание по частям
Методы, основанные на внешнем виде
- Используйте примеры изображений (называемых шаблонами или образцами) объектов для распознавания.
- Объекты выглядят по-разному в разных условиях:
- Изменения освещения или цвета
- Изменения направления просмотра
- Изменения размера/формы
- Единственный экземпляр вряд ли будет надежным. Однако невозможно представить все проявления объекта.
Соответствие кромок
- Использует методы обнаружения краев, такие как обнаружение краев Canny , для поиска краев.
- Изменения освещения и цвета обычно не оказывают большого влияния на края изображения.
- Стратегия:
- Обнаружение краев в шаблоне и изображении
- Сравните изображения краев, чтобы найти шаблон
- Необходимо учитывать диапазон возможных положений шаблона.
- Размеры:
- Хорошо – подсчитайте количество перекрывающихся ребер. Неустойчив к изменениям формы.
- Лучше – подсчитайте количество пикселей края шаблона с некоторым расстоянием от края в искомом изображении.
- Лучшее – определить распределение вероятностей расстояния до ближайшего края искомого изображения (если шаблон находится в правильном положении). Оцените вероятность того, что каждая позиция шаблона генерирует изображение.
Поиск по принципу «разделяй и властвуй»
- Стратегия:
- Рассматривать все позиции как множество (ячейку в пространстве позиций)
- Определить нижнюю границу оценки в лучшей позиции в ячейке
- Если граница слишком велика, обрежьте ячейку.
- Если граница не слишком велика, разделите ячейку на подячейки и попробуйте каждую подячейку рекурсивно.
- Процесс останавливается, когда ячейка становится «достаточно маленькой»
- В отличие от поиска с несколькими разрешениями, этот метод гарантированно находит все совпадения, соответствующие критерию (при условии, что нижняя граница точна).
- Нахождение границы:
- Чтобы найти нижнюю границу лучшего результата, посмотрите на балл для позиции шаблона, представленной центром ячейки.
- Вычтите максимальное изменение из «центральной» позиции для любой другой позиции в ячейке (происходит в углах ячейки)
- Сложности возникают при определении границ расстояния .
Сопоставление оттенков серого
- Края (в основном) устойчивы к изменениям освещенности, однако они теряют много информации.
- Необходимо вычислить расстояние до пикселя как функцию положения пикселя и его интенсивности.
- Также можно наносить на цвет
Соответствие градиента
- Еще один способ обеспечить устойчивость к изменениям освещенности, не теряя при этом большого количества информации, — это сравнить градиенты изображения.
- Сопоставление выполняется аналогично сопоставлению изображений в оттенках серого.
- Простая альтернатива: использовать (нормализованную) корреляцию.
Гистограммы ответов рецептивных полей
- Избегает явного соответствия точек
- Отношения между различными точками изображения, неявно закодированные в ответах рецептивного поля.
- Суэйн и Баллард (1991), [2] Шиле и Кроули (2000), [3] Линде и Линдеберг (2004, 2012) [4] [5]
Большие базы моделей
- Один из подходов к эффективному поиску в базе данных определенного изображения — использование собственных векторов шаблонов (называемых собственными лицами ).
- Базы моделей — это совокупность геометрических моделей объектов, которые необходимо распознать.
Методы на основе функций
- поиск используется для нахождения возможных совпадений между характеристиками объекта и характеристиками изображения .
- Основное ограничение состоит в том, что одна позиция объекта должна учитывать все возможные совпадения.
- методы, которые извлекают признаки из распознаваемых объектов и изображений, подлежащих поиску.
- пятна на поверхности
- углы
- линейные края
Деревья интерпретации
- Метод поиска возможных совпадений заключается в поиске по дереву.
- Каждый узел дерева представляет собой набор совпадений.
- Корневой узел представляет пустой набор
- Каждый другой узел представляет собой объединение совпадений в родительском узле и одного дополнительного совпадения.
- Подстановочный знак используется для функций, не имеющих совпадений.
- Узлы «обрезаются», когда набор совпадений невозможен.
- Обрезанный узел не имеет дочерних элементов
- Исторически значимо и до сих пор используется, но реже.
Выдвигайте гипотезы и проверяйте
- Главная идея:
- Выдвинуть гипотезу о соответствии между набором признаков изображения и набором признаков объекта.
- Затем используйте это, чтобы сформулировать гипотезу о проекции из системы координат объекта в рамку изображения.
- Используйте эту гипотезу проекции, чтобы создать визуализацию объекта. Этот шаг обычно известен как обратная проекция.
- Сравните рендеринг с изображением и, если они достаточно похожи, примите гипотезу.
- Получение гипотезы:
- Существует множество различных способов генерации гипотез.
- Когда внутренние параметры камеры известны, гипотеза эквивалентна гипотетическому положению и ориентации ( позе ) объекта.
- Используйте геометрические ограничения
- Постройте соответствие для небольших наборов функций объекта каждому подмножеству точек изображения правильного размера. (Это гипотезы)
- Три основных подхода:
- Получение гипотез путем согласованности поз
- Получение гипотез путем кластеризации поз
- Получение гипотез с помощью инвариантов
- Поиск расходов, который также является избыточным, но его можно улучшить с помощью рандомизации и/или группировки.
- Рандомизация
- Исследование небольших наборов элементов изображения до тех пор, пока вероятность отсутствия объекта не станет минимальной.
- Для каждого набора функций изображения необходимо учитывать все возможные совпадающие наборы функций модели.
- Формула:
- (1 – W c ) k = Z
- W = доля «хороших» точек изображения (w ~ m/n)
- c = количество необходимых соответствий
- k = количество испытаний
- Z = вероятность того, что в каждом испытании будет использовано одно (или несколько) неправильных соответствий.
- Группировка
- Если мы сможем определить группы точек, которые, вероятно, исходят от одного и того же объекта, мы сможем уменьшить количество гипотез, которые необходимо проверить.
Последовательность позы
- Также называется «Выравнивание», поскольку объект выравнивается по изображению.
- Соответствия между функциями изображения и функциями модели не являются независимыми — геометрические ограничения.
- Небольшое количество соответствий дает положение объекта – остальные должны этому соответствовать.
- Главная идея:
- Если мы выдвигаем гипотезу о совпадении между достаточно большой группой функций изображения и достаточно большой группой функций объекта, то мы можем восстановить недостающие параметры камеры из этой гипотезы (и, таким образом, визуализировать остальную часть объекта).
- Стратегия:
- Генерируйте гипотезы, используя небольшое количество соответствий (например, тройки точек для трехмерного распознавания).
- Спроецируйте другие функции модели в изображение ( backproject ) и проверьте дополнительные соответствия.
- Используйте наименьшее количество соответствий, необходимых для достижения дискретных поз объекта.
Кластеризация поз
- Главная идея:
- Каждый объект приводит ко множеству правильных наборов соответствий, каждый из которых имеет (примерно) одну и ту же позу.
- Голосуйте за позу. Используйте массив аккумуляторов, который представляет пространство позы для каждого объекта.
- По сути, это преобразование Хафа.
- Стратегия:
- Для каждого объекта настройте массив аккумуляторов, который представляет пространство поз — каждый элемент массива аккумуляторов соответствует «ведру» в пространстве поз.
- Затем возьмите каждую группу кадров изображения и предположите соответствие между ней и каждой группой кадров на каждом объекте.
- Для каждого из этих соответствий определите параметры позы и сделайте запись в массиве аккумуляторов для текущего объекта со значением позы.
- Если в массиве аккумуляторов какого-либо объекта имеется большое количество голосов, это можно интерпретировать как свидетельство присутствия этого объекта в этой позе.
- Доказательства можно проверить методом проверки.
- Обратите внимание, что этот метод использует наборы соответствий, а не отдельные соответствия.
- Реализация проще, поскольку каждый набор дает небольшое количество возможных поз объекта.
- Улучшение
- Шумоустойчивость этого метода можно повысить, если не считать голоса за объекты в позах, где голосование заведомо ненадежно.
- § Например, в случаях, когда, если бы объект находился в этой позе, группа кадров объекта была бы невидимой.
- Этих улучшений достаточно для создания работающих систем.
Инвариантность
- Существуют геометрические свойства, инвариантные к преобразованиям камеры.
- Наиболее легко разрабатывается для изображений плоских объектов, но может применяться и в других случаях.
Геометрическое хеширование
- Алгоритм, использующий геометрические инварианты для голосования за гипотезы объекта.
- Аналогично кластеризации поз, однако вместо голосования по позе мы теперь голосуем за геометрию.
- Метод, первоначально разработанный для сопоставления геометрических элементов (некалиброванных аффинных представлений плоских моделей) с базой данных таких элементов.
- Широко используется для сопоставления образцов, CAD/CAM и медицинской визуализации.
- Трудно выбрать размер ведер.
- Трудно понять, что означает «достаточно». Поэтому может возникнуть опасность, что стол засорится.
Масштабно-инвариантное преобразование признаков (SIFT)
- Ключевые точки объектов сначала извлекаются из набора эталонных изображений и сохраняются в базе данных.
- Объект распознается на новом изображении путем индивидуального сравнения каждого объекта из нового изображения с этой базой данных и поиска совпадающих объектов-кандидатов на основе евклидова расстояния их векторов признаков.
- Лоу (2004) [6] [7]
Ускоренные надежные функции (SURF)
- Надежный детектор и дескриптор изображений
- Стандартная версия в несколько раз быстрее, чем SIFT, и, по утверждениям ее авторов, более устойчива к различным преобразованиям изображений, чем SIFT.
- На основе сумм аппроксимированных двумерных вейвлет-ответов Хаара и эффективного использования интегральных изображений.
- Бэй и др. (2008) [8]
Мешок слов
Генетический алгоритм
Генетические алгоритмы могут работать без предварительного знания данного набора данных и разрабатывать процедуры распознавания без вмешательства человека. Недавний проект достиг 100-процентной точности эталонных наборов данных изображений мотоциклов, лиц, самолетов и автомобилей из Калифорнийского технологического института и 99,4-процентной точности наборов данных изображений видов рыб. [9] [10]
Другие подходы
Приложения
Методы распознавания объектов имеют следующие применения:
Опросы
- Данилидес и Эклунд, Эдельман.
- Рот, Питер М. и Винтер, Мартин (2008). «МЕТОДЫ РАСПОЗНАВАНИЯ ОБЪЕКТОВ, ОСНОВАННЫЕ НА ВНЕШНЕМ ВИДЕ» (PDF) . Технический отчет . ICG-TR-01/08. Архивировано из оригинала (PDF) 21 сентября 2015 г. Проверено 26 февраля 2016 г.
Смотрите также
- Списки
Примечания
- ^ Рахеш Мохан и Ракамант Неватия (1992). «Перцептивная организация сегментации и описания сцен» (PDF) . IEEE Trans Pattern Anal Mach Intell .
- ^ Суэйн, Майкл Дж.; Баллард, Дана Х. (1 ноября 1991 г.). «Цветовая индексация». Международный журнал компьютерного зрения . 7 (1): 11–32. дои : 10.1007/BF00130487. ISSN 1573-1405. S2CID 8167136.
- ^ Шиле, Бернт; Кроули, Джеймс Л. (1 января 2000 г.). «Распознавание без соответствия с использованием многомерных гистограмм рецептивных полей». Международный журнал компьютерного зрения . 36 (1): 31–50. дои : 10.1023/А: 1008120406972. ISSN 1573-1405. S2CID 2551159.
- ^ О. Линде и Т. Линдеберг «Распознавание объектов с использованием составных гистограмм рецептивного поля более высокой размерности», Proc. Международная конференция по распознаванию образов (ICPR'04), Кембридж, Великобритания II: 1-6, 2004 г.
- ^ О. Линде; Т. Линдеберг (2012). «Составные гистограммы со сложными сигналами: исследование информационного содержания в дескрипторах изображений на основе рецептивных полей для распознавания объектов». Компьютерное зрение и понимание изображений . 116 (4): 538–560. doi :10.1016/j.cviu.2011.12.003.
- ^ Лоу, Д.Г., «Отличительные особенности изображения по ключевым точкам, не зависящим от масштаба», Международный журнал компьютерного зрения, 60, 2, стр. 91–110, 2004.
- ^ Линдеберг, Тони (2012). «Преобразование масштабно-инвариантных признаков». Схоларпедия . 7 (5): 10491. Бибкод : 2012SchpJ...710491L. doi : 10.4249/scholarpedia.10491 .
- ^ Бэй, Герберт; Эсс, Андреас; Туйтелаарс, Тинне; Ван Гул, Люк (2008). «Ускоренные надежные функции (SURF)». Компьютерное зрение и понимание изображений . 110 (3): 346–359. CiteSeerX 10.1.1.205.738 . doi :10.1016/j.cviu.2007.09.014. S2CID 14777911.
- ^ «Новый алгоритм распознавания объектов обучается на лету» . Gizmag.com. 20 января 2014 года . Проверено 21 января 2014 г.
- ^ Лиллиуайт, К.; Ли, диджей; Типпеттс, Б.; Арчибальд, Дж. (2013). «Метод построения признаков для общего распознавания объектов». Распознавание образов . 46 (12): 3300. Бибкод : 2013PatRe..46.3300L. дои : 10.1016/j.patcog.2013.06.002.
- ^ Браун, Мэтью и Дэвид Г. Лоу. «Неконтролируемое распознавание и реконструкция 3D-объектов в неупорядоченных наборах данных». 3-D цифровая визуализация и моделирование, 2005. 3DIM 2005. Пятая международная конференция. ИИЭР, 2005.
- ^ аб Олива, Ода и Антонио Торральба. «Роль контекста в распознавании объектов». Тенденции в когнитивных науках 11.12 (2007): 520-527.
- ^ Аб Ню, Чжэньсин и др. «Контекстно-зависимая тематическая модель для распознавания сцен». Конференция IEEE 2012 г. по компьютерному зрению и распознаванию образов. ИИЭР, 2012.
- ^ Штейн, Фритьоф и Жерар Медиони. «Структурная индексация: эффективное распознавание трехмерных объектов». Транзакции IEEE по анализу шаблонов и машинному интеллекту 2 (1992): 125–145.
- ^ Чжу, Сон-Чун и Дэвид Мамфорд. «Стохастическая грамматика изображений». Основы и тенденции в компьютерной графике и зрении 2.4 (2007): 259-362.
- ^ Наяр, Шри К. и Рууд М. Болле. «Распознавание объектов на основе отражения». Международный журнал компьютерного зрения 17.3 (1996): 219-240.
- ^ Уортингтон, Филип Л. и Эдвин Р. Хэнкок. «Распознавание объектов с использованием формы из затенения». Транзакции IEEE по анализу шаблонов и машинному интеллекту 23.5 (2001): 535-542.
- ^ Шоттон, Джейми и др. «Textonboost для понимания изображений: распознавание и сегментация объектов нескольких классов путем совместного моделирования текстуры, макета и контекста». Международный журнал компьютерного зрения 81.1 (2009): 2-23.
- ^ «Лучшее зрение роботов». КурцвейлАИ . Проверено 9 октября 2013 г.
- ^ Донахью, Джеффри и др. «Долгосрочные рекуррентные сверточные сети для визуального распознавания и описания». Материалы конференции IEEE по компьютерному зрению и распознаванию образов. 2015.
- ^ Карпаты, Андрей и Ли Фей-Фей. «Глубокое визуально-семантическое выравнивание для создания описаний изображений». Материалы конференции IEEE по компьютерному зрению и распознаванию образов. 2015.
- ^ П Дуйгулу; К. Барнард; Н де Фретиас и Д. Форсайт (2002). «Распознавание объектов как машинный перевод: изучение лексики для словаря фиксированных изображений». Материалы Европейской конференции по компьютерному зрению . стр. 97–112. Архивировано из оригинала 5 марта 2005 г.
- ^ «Компьютерное зрение Android Eyes» .Марта Дж. Фара «Визуальная агнозия», Когнитивная нейронаука с компьютерным зрением, MIT Press, 01 мая 2011 г., страницы 760–781, ISSN 1468-4233 [1] [ мертвая ссылка ]
- ^ Эстева, Андре и др. «Классификация рака кожи на уровне дерматолога с помощью глубоких нейронных сетей». Природа 542.7639 (2017): 115.
- ^ Браун, М., и Лоу, Д.Г., «Распознавание панорам, заархивированных 25 декабря 2014 г. в Wayback Machine », ICCV, стр. 1218, Девятая международная конференция IEEE по компьютерному зрению (ICCV'03) - Том 2, Ницца, Франция, 2003 г.
- ^ Ли, Л., Го, Б., и Шао, К., «Геометрически надежное нанесение водяных знаков на изображения с использованием масштабно-инвариантного преобразования признаков и моментов Цернике», Chinese Optics Letters, Том 5, Выпуск 6, стр. 332-335, 2007 г. .
- ^ С. С., Лоу Д. Г. и Литтл Дж. Дж., «Глобальная локализация и картографирование на основе машинного зрения для мобильных роботов», IEEE Transactions on Robotics, 21, 3 (2005), стр. 364–375.
- ^ Томас Серр, Максимилиан Ризенхубер, Дженнифер Луи, Томазо Поджо, «О роли объектно-специфичных функций в распознавании объектов реального мира в биологическом зрении». Лаборатория искусственного интеллекта и кафедра мозговых и когнитивных наук, Массачусетский технологический институт, Центр биологического и вычислительного обучения, Институт исследований мозга Мак-Говерна, Кембридж, Массачусетс, США
- ^ Пермалофф, Энн; Графтон, Карл (1992). "Оптическое распознавание символов". PS: Политология и политика . 25 (3): 523–531. дои : 10.2307/419444. ISSN 1049-0965. JSTOR 419444. S2CID 64806776.
- ^ Кристиан Демант, Бернд Штрайхер-Абель, Питер Вашкевиц, «Промышленная обработка изображений: визуальный контроль качества на производстве». Схема распознавания объектов в Google Книгах.
- ^ Нуно Васконселос «Индексирование изображений с помощью смешанных иерархий». Архивировано 18 января 2011 г. в Wayback Machine Compaq Computer Corporation, Proc. Конференция IEEE по компьютерному зрению и распознаванию образов, Кауаи, Гавайи, 2001 г.
- ^ Хейккиля, Янне; Сильвен, Олли (2004). «Система реального времени для мониторинга велосипедистов и пешеходов». Вычисление изображений и зрительных образов . 22 (7): 563–570. doi :10.1016/j.imavis.2003.09.010.
- ^ Юнг, Хо Ги; Ким, Дон Сок; Юн, Пал Джу; Ким, Джайхи (2006). «Распознавание маркировки парковочных мест на основе анализа конструкции для полуавтоматической парковочной системы». Ин Юнг, Дит-Ян; Квок, Джеймс Т.; Фред, Ана; Роли, Фабио; де Риддер, Дик (ред.). Структурное, синтаксическое и статистическое распознавание образов . Конспекты лекций по информатике. Том. 4109. Берлин, Гейдельберг: Springer. стр. 384–393. дои : 10.1007/11815921_42 . ISBN 978-3-540-37241-7.
- ^ С.К. Наяр, Х. Мурасе и С.А. Нене, «Обучение, позиционирование и отслеживание визуального внешнего вида», Proc. IEEE Intl. Конф. по робототехнике и автоматизации, Сан-Диего, май 1994 г.
- ^ Лю, Ф.; Глейхер, М.; Джин, Х.; Агарвала, А. (2009). «Деформация с сохранением контента для стабилизации 3D-видео». Транзакции ACM с графикой . 28 (3): 1. CiteSeerX 10.1.1.678.3088 . дои : 10.1145/1531326.1531350.
Рекомендации
- Эльгаммал, Ахмед «CS 534: Распознавание на основе 3D-моделей компьютерного зрения», факультет компьютерных наук, Университет Рутгерса;
- Хартли, Ричард и Зиссерман, Эндрю «Множественная геометрия в компьютерном зрении», Cambridge Press, 2000, ISBN 0-521-62304-9 .
- Рот, Питер М. и Винтер, Мартин «Обзор методов распознавания объектов на основе внешнего вида», Технический отчет ICG-TR-01/08, Inst. факультет компьютерной графики и зрения, Технологический университет Граца, Австрия; 15 января 2008 г.
- Коллинз, Роберт «Лекция 31: Распознавание объектов: ключи SIFT», CSE486, штат Пенсильвания
- IPRG. Архивировано 28 декабря 2020 г. в Wayback Machine Image Processing - Открытая онлайн-исследовательская группа.
- Кристиан Сегеди. Архивировано 6 сентября 2015 г. в Wayback Machine , Александр Тошев. Архивировано 4 октября 2015 г. в Wayback Machine и Думитру Эрхане. Глубокие нейронные сети для обнаружения объектов. Достижения в области нейронных систем обработки информации 26. Архивировано 5 сентября 2020 г. в Wayback Machine , 2013. стр. 2553–2561.
Внешние ссылки