Тематическое руководство по распознаванию объектов
Распознавание объектов – технология в области компьютерного зрения для поиска и идентификации объектов на изображении или видеоряде. Люди распознают множество объектов на изображениях без особых усилий, несмотря на то, что изображение объектов может несколько отличаться в разных точках зрения, во многих разных размерах и масштабах или даже при их перемещении или повороте. Объекты могут быть распознаны даже тогда, когда они частично скрыты от обзора. Эта задача по-прежнему является сложной задачей для систем компьютерного зрения. За несколько десятилетий было реализовано множество подходов к этой задаче.
Подходы, основанные на моделях объектов, подобных САПР
Распознавание по частям
Методы, основанные на внешнем виде
- Используйте примеры изображений (называемые шаблонами или образцами) объектов для выполнения распознавания.
- Объекты выглядят по-разному в разных условиях:
- Изменения освещения или цвета
- Изменения направления взгляда
- Изменения размера/формы
- Один экземпляр вряд ли будет надежным. Однако невозможно представить все проявления объекта.
Соответствие кромок
- Использует методы обнаружения краев, такие как метод обнаружения краев Кэнни , для поиска краев.
- Изменения освещения и цвета обычно не оказывают большого влияния на края изображения.
- Стратегия:
- Обнаружение краев в шаблоне и изображении
- Сравните изображения краев, чтобы найти шаблон
- Необходимо учитывать диапазон возможных положений шаблона
- Измерения:
- Хорошо – подсчитайте количество перекрывающихся рёбер. Не устойчив к изменениям формы
- Лучше – подсчитать количество пикселей края шаблона с некоторым расстоянием от края в искомом изображении
- Лучшее – определить распределение вероятностей расстояния до ближайшего края в поисковом изображении (если шаблон находится в правильном положении). Оценить вероятность того, что каждая позиция шаблона генерирует изображение
Поиск «Разделяй и властвуй»
- Стратегия:
- Рассматривать все позиции как множество (ячейку в пространстве позиций)
- Определить нижнюю границу оценки в лучшей позиции в ячейке
- Если граница слишком большая, обрежьте ячейку
- Если граница не слишком велика, разделите ячейку на подъячейки и попробуйте рекурсивно каждую подъячейку.
- Процесс останавливается, когда клетка становится «достаточно маленькой»
- В отличие от поиска с несколькими разрешениями, этот метод гарантированно найдет все совпадения, соответствующие критерию (при условии, что нижняя граница точна).
- В поисках границы:
- Чтобы найти нижнюю границу наилучшего результата, посмотрите на результат для позиции шаблона, представленной центром ячейки.
- Вычесть максимальное изменение из «центрального» положения для любого другого положения в ячейке (происходит в углах ячейки)
- Сложности возникают при определении границ расстояния [ необходима ссылка ]
Сопоставление оттенков серого
- Края (в основном) устойчивы к изменениям освещенности, однако они теряют много информации.
- Необходимо вычислить расстояние между пикселями как функцию как положения пикселя, так и интенсивности пикселя.
- Можно также применять к цвету.
Соответствие градиента
- Еще один способ обеспечить устойчивость к изменениям освещенности, не теряя при этом много информации, — это сравнивать градиенты изображения.
- Сопоставление выполняется так же, как сопоставление изображений в оттенках серого.
- Простая альтернатива: использовать (нормализованную) корреляцию
Гистограммы реакций рецептивного поля
- Избегает явных соответствий точек
- Отношения между различными точками изображения неявно закодированы в реакциях рецептивного поля
- Суэйн и Баллард (1991), [2] Шиле и Кроули (2000), [3] Линде и Линдеберг (2004, 2012) [4] [5]
Большие базы моделей
- Один из подходов к эффективному поиску в базе данных определенного изображения заключается в использовании собственных векторов шаблонов (называемых собственными лицами ).
- Базы моделей представляют собой набор геометрических моделей объектов, которые необходимо распознать.
Методы, основанные на признаках
- Поиск используется для нахождения возможных соответствий между характеристиками объекта и характеристиками изображения .
- Основным ограничением является то, что одна позиция объекта должна учитывать все возможные совпадения.
- методы, которые извлекают признаки из объектов распознавания и изображений, на которых выполняется поиск.
- поверхностные пятна
- углы
- линейные края
Деревья интерпретации
- Метод поиска возможных соответствий — поиск по дереву.
- Каждый узел в дереве представляет собой набор совпадений.
- Корневой узел представляет собой пустой набор
- Каждый другой узел представляет собой объединение совпадений в родительском узле и одного дополнительного совпадения.
- Подстановочный знак используется для функций, не имеющих соответствия.
- Узлы «отсекаются», когда набор соответствий становится невозможным.
- У удаленного узла нет дочерних узлов.
- Имеет историческое значение и до сих пор используется, но реже
Выдвигать гипотезы и проверять их
- Общая идея:
- Выдвинуть гипотезу о соответствии между набором признаков изображения и набором признаков объекта.
- Затем используйте это, чтобы сгенерировать гипотезу о проекции из системы координат объекта на систему координат изображения.
- Используйте эту проекционную гипотезу для создания рендеринга объекта. Этот шаг обычно называют обратной проекцией
- Сравните визуализацию с изображением и, если они достаточно похожи, примите гипотезу.
- Получение гипотезы:
- Существует множество различных способов выдвижения гипотез.
- Когда известны внутренние параметры камеры, гипотеза эквивалентна гипотетическому положению и ориентации — позе — объекта.
- Использовать геометрические ограничения
- Построить соответствие для небольших наборов характеристик объекта каждому подмножеству точек изображения правильного размера. (Это гипотезы)
- Три основных подхода:
- Получение гипотез путем последовательности позы
- Получение гипотез с помощью кластеризации поз
- Получение гипотез с использованием инвариантов
- Поиск расходов, который также является избыточным, но может быть улучшен с помощью рандомизации и/или группировки
- Рандомизация
- Изучение небольших наборов характеристик изображения до тех пор, пока вероятность пропуска объекта не станет малой.
- Для каждого набора характеристик изображения необходимо рассмотреть все возможные соответствующие наборы характеристик модели.
- Формула:
- (1 – W c ) k = Z
- W = доля точек изображения, которые являются «хорошими» (w ~ m/n)
- c = необходимое количество соответствий
- k = количество испытаний
- Z = вероятность того, что в каждом испытании будет использовано одно (или несколько) неверных соответствий
- Группировка
- Если мы сможем определить группы точек, которые, скорее всего, принадлежат одному и тому же объекту, мы сможем сократить количество гипотез, которые необходимо проверить.
Последовательность поз
- Также называется выравниванием, поскольку объект выравнивается по изображению.
- Соответствия между характеристиками изображения и характеристиками модели не являются независимыми – Геометрические ограничения
- Небольшое количество соответствий определяет положение объекта – остальные должны соответствовать этому положению.
- Общая идея:
- Если мы предположим соответствие между достаточно большой группой характеристик изображения и достаточно большой группой характеристик объекта, то мы сможем восстановить недостающие параметры камеры из этой гипотезы (и таким образом визуализировать остальную часть объекта).
- Стратегия:
- Генерация гипотез с использованием небольшого количества соответствий (например, троек точек для 3D-распознавания)
- Проецирование других характеристик модели на изображение ( обратная проекция ) и проверка дополнительных соответствий
- Используйте наименьшее количество соответствий, необходимое для достижения дискретных поз объектов.
Кластеризация поз
- Общая идея:
- Каждый объект приводит к множеству правильных наборов соответствий, каждое из которых имеет (примерно) одну и ту же позу.
- Голосование по позе. Используйте массив аккумуляторов, который представляет пространство позы для каждого объекта
- По сути это преобразование Хафа.
- Стратегия:
- Для каждого объекта создайте массив накопителей, представляющий пространство позы — каждый элемент в массиве накопителей соответствует «корзине» в пространстве позы.
- Затем возьмите каждую группу кадров изображения и выдвиньте гипотезу о соответствии между ней и каждой группой кадров на каждом объекте.
- Для каждого из этих соответствий определите параметры позы и сделайте запись в массиве аккумуляторов для текущего объекта со значением позы.
- Если в массиве накопителя какого-либо объекта имеется большое количество голосов, это можно интерпретировать как доказательство присутствия этого объекта в данной позе.
- Доказательства можно проверить с помощью метода проверки
- Обратите внимание, что этот метод использует наборы соответствий, а не отдельные соответствия.
- Реализация проще, поскольку каждый набор дает небольшое количество возможных поз объекта.
- Улучшение
- Помехоустойчивость этого метода можно повысить, не подсчитывая голоса за объекты в тех позах, где голос заведомо ненадежен.
- § Например, в случаях, когда, если бы объект находился в этой позе, группа кадра объекта была бы невидимой.
- Этих улучшений достаточно для создания работающих систем.
Инвариантность
- Существуют геометрические свойства, которые инвариантны к преобразованиям камеры.
- Наиболее прост в разработке для изображений плоских объектов, но может применяться и в других случаях.
Геометрическое хеширование
- Алгоритм, который использует геометрические инварианты для голосования за гипотезы объектов
- Похоже на кластеризацию позы, однако вместо голосования по позе мы теперь голосуем по геометрии.
- Метод, изначально разработанный для сопоставления геометрических характеристик (некалиброванных аффинных представлений плоских моделей) с базой данных таких характеристик.
- Широко используется для сопоставления с образцом, CAD/CAM и медицинской визуализации.
- Трудно выбрать размер ведер.
- Трудно быть уверенным, что означает «достаточно». Поэтому может быть некоторая опасность, что таблица будет забита.
Масштабно-инвариантное преобразование признаков(ПРОСЕЯТЬ)
- Ключевые точки объектов сначала извлекаются из набора эталонных изображений и сохраняются в базе данных.
- Объект распознается на новом изображении путем индивидуального сравнения каждого признака нового изображения с этой базой данных и поиска потенциальных совпадающих признаков на основе евклидова расстояния их векторов признаков.
- Лоу (2004) [6] [7]
Ускоренные надежные функции(СЕРФИНГ)
- Надежный детектор и дескриптор изображений
- Стандартная версия в несколько раз быстрее SIFT и, по утверждениям ее авторов, более устойчива к различным преобразованиям изображений, чем SIFT.
- На основе сумм приближенных двумерных вейвлет-ответов Хаара и эффективного использования интегральных изображений.
- Бэй и др. (2008) [8]
Мешок слов представления
Генетический алгоритм
Генетические алгоритмы могут работать без предварительного знания заданного набора данных и могут разрабатывать процедуры распознавания без вмешательства человека. Недавний проект достиг 100-процентной точности на эталонных наборах данных изображений мотоциклов, лиц, самолетов и автомобилей из Калтеха и 99,4-процентной точности на наборах данных изображений видов рыб. [9] [10]
Другие подходы
Приложения
Методы распознавания объектов имеют следующие применения:
Опросы
- Данилидес и Эклунд, Эдельман.
- Рот, Питер М. и Винтер, Мартин (2008). "ОБЗОР МЕТОДОВ, ОСНОВАННЫХ НА ВНЕШНЕМ ВИДЕ, ДЛЯ РАСПОЗНАВАНИЯ ОБЪЕКТОВ" (PDF) . Технический отчет . ICG-TR-01/08. Архивировано из оригинала (PDF) 21-09-2015 . Получено 26-02-2016 .
Смотрите также
- Списки
Примечания
- ^ Рахеш Мохан и Ракамант Неватия (1992). "Организация восприятия для сегментации и описания сцены" (PDF) . IEEE Trans Pattern Anal Mach Intell .
- ^ Свейн, Майкл Дж.; Баллард, Дана Х. (1991-11-01). «Цветовая индексация». International Journal of Computer Vision . 7 (1): 11–32. doi :10.1007/BF00130487. ISSN 1573-1405. S2CID 8167136.
- ^ Шиле, Бернт; Кроули, Джеймс Л. (2000-01-01). «Распознавание без соответствия с использованием многомерных рецептивных полевых гистограмм». Международный журнал компьютерного зрения . 36 (1): 31–50. doi :10.1023/A:1008120406972. ISSN 1573-1405. S2CID 2551159.
- ^ О. Линде и Т. Линдеберг «Распознавание объектов с использованием составных рецептивных полевых гистограмм более высокой размерности», Труды Международной конференции по распознаванию образов (ICPR'04), Кембридж, Великобритания II:1-6, 2004.
- ^ О. Линде; Т. Линдеберг (2012). «Составные гистограммы сложных сигналов: исследование информационного содержания в рецептивных полях, основанных на дескрипторах изображений для распознавания объектов». Компьютерное зрение и понимание изображений . 116 (4): 538–560. doi :10.1016/j.cviu.2011.12.003.
- ^ Лоу, Д.Г., «Отличительные особенности изображения по масштабно-инвариантным ключевым точкам», Международный журнал компьютерного зрения, 60, 2, стр. 91-110, 2004.
- ^ Линдеберг, Тони (2012). "Преобразование признаков, инвариантных к масштабу". Scholarpedia . 7 (5): 10491. Bibcode :2012SchpJ...710491L. doi : 10.4249/scholarpedia.10491 .
- ^ Бэй, Герберт; Эсс, Андреас; Туйтелаарс, Тинне; Ван Гул, Люк (2008). «Ускоренные надежные функции (SURF)». Компьютерное зрение и понимание изображений . 110 (3): 346–359. CiteSeerX 10.1.1.205.738 . doi :10.1016/j.cviu.2007.09.014. S2CID 14777911.
- ^ "Новый алгоритм распознавания объектов учится на лету". Gizmag.com. 20 января 2014 г. Получено 21 января 2014 г.
- ^ Лиллиуайт, К.; Ли, ДЖ.; Типпеттс, Б.; Арчибальд, Дж. (2013). «Метод построения признаков для общего распознавания объектов». Распознавание образов . 46 (12): 3300. Bibcode : 2013PatRe..46.3300L. doi : 10.1016/j.patcog.2013.06.002.
- ^ Браун, Мэтью и Дэвид Г. Лоу. «Неконтролируемое распознавание и реконструкция 3D-объектов в неупорядоченных наборах данных». 3-D Digital Imaging and Modeling, 2005. 3DIM 2005. Пятая международная конференция по IEEE, 2005.
- ^ ab Олива, Оде и Антонио Торральба. «Роль контекста в распознавании объектов». Тенденции в когнитивных науках 11.12 (2007): 520-527.
- ^ ab Niu, Zhenxing и др. «Контекстно-зависимая тематическая модель для распознавания сцен». Конференция IEEE 2012 года по компьютерному зрению и распознаванию образов. IEEE, 2012.
- ^ Штейн, Фритьоф и Жерар Медиони. «Структурная индексация: эффективное распознавание трехмерных объектов». Труды IEEE по анализу образов и машинному интеллекту 2 (1992): 125-145.
- ^ Чжу, Сонг-Чун и Дэвид Мамфорд. «Стохастическая грамматика изображений». Основы и тенденции в компьютерной графике и зрении 2.4 (2007): 259-362.
- ^ Наяр, Шри К. и Рууд М. Болле. «Распознавание объектов на основе отражения». Международный журнал компьютерного зрения 17.3 (1996): 219-240.
- ^ Уортингтон, Филип Л. и Эдвин Р. Хэнкок. «Распознавание объектов с использованием формы по затенению». Труды IEEE по анализу образов и машинному интеллекту 23.5 (2001): 535-542.
- ^ Шоттон, Джейми и др. «Textonboost для понимания изображений: распознавание и сегментация многоклассовых объектов путем совместного моделирования текстуры, компоновки и контекста». Международный журнал компьютерного зрения 81.1 (2009): 2-23.
- ^ "Лучшее зрение робота". KurzweilAI . Получено 2013-10-09 .
- ^ Донахью, Джеффри и др. «Долгосрочные рекуррентные сверточные сети для визуального распознавания и описания». Труды конференции IEEE по компьютерному зрению и распознаванию образов. 2015.
- ^ Карпати, Андрей и Ли Фей-Фей. «Глубокие визуально-семантические выравнивания для генерации описаний изображений». Труды конференции IEEE по компьютерному зрению и распознаванию образов. 2015.
- ^ P Duygulu; K Barnard; N de Fretias & D Forsyth (2002). «Распознавание объектов как машинный перевод: изучение лексикона для фиксированного словаря изображений». Труды Европейской конференции по компьютерному зрению . стр. 97–112. Архивировано из оригинала 2005-03-05.
- ^ «Android Eyes Компьютерное зрение».Марта Дж. Фарах «Визуальная агнозия», Компьютерное зрение, вычислительная когнитивная нейронаука, MIT Press, 2011-05-01, страницы 760-781, ISSN 1468-4233 [1] [ нерабочая ссылка ]
- ^ Эстева, Андре и др. «Классификация рака кожи на уровне дерматолога с использованием глубоких нейронных сетей». Nature 542.7639 (2017): 115.
- ^ Браун, М. и Лоу, Д.Г., «Распознавание панорам, архивированных 25 декабря 2014 г. на Wayback Machine », ICCV, стр. 1218, Девятая международная конференция IEEE по компьютерному зрению (ICCV'03) — том 2, Ницца, Франция, 2003 г.
- ^ Ли, Л., Го, Б. и Шао, К., «Геометрически надежная маркировка изображений водяными знаками с использованием масштабно-инвариантного преобразования признаков и моментов Цернике», Chinese Optics Letters, том 5, выпуск 6, стр. 332-335, 2007.
- ^ Se,S., Lowe, DG, и Little, JJ, «Глобальная локализация и картографирование на основе машинного зрения для мобильных роботов», IEEE Transactions on Robotics, 21, 3 (2005), стр. 364-375.
- ^ Томас Серр, Максимиллиан Ризенхубер, Дженнифер Луи, Томазо Поджио, «О роли объектно-специфических признаков для распознавания объектов реального мира в биологическом зрении». Лаборатория искусственного интеллекта и кафедра мозга и когнитивных наук, Массачусетский технологический институт, Центр биологического и вычислительного обучения, Институт МакГоверна по исследованию мозга, Кембридж, Массачусетс, США
- ^ Пермалофф, Энн; Графтон, Карл (1992). «Оптическое распознавание символов». PS: Политология и политика . 25 (3): 523–531. doi :10.2307/419444. ISSN 1049-0965. JSTOR 419444. S2CID 64806776.
- ^ Кристиан Демант, Бернд Штрейхер-Абель, Петер Вашкевиц, «Промышленная обработка изображений: визуальный контроль качества в производстве» Краткое описание распознавания объектов в Google Books
- ^ Нуно Васконселос "Индексирование изображений с помощью смешанных иерархий" Архивировано 18 января 2011 г. в Wayback Machine Compaq Computer Corporation, Proc. IEEE Conference in Computer Vision and Pattern Recognition, Кауаи, Гавайи, 2001 г.
- ^ Хейккиля, Янне; Сильвен, Олли (2004). «Система реального времени для мониторинга велосипедистов и пешеходов». Image and Vision Computing . 22 (7): 563–570. doi :10.1016/j.imavis.2003.09.010.
- ^ Jung, Ho Gi; Kim, Dong Suk; Yoon, Pal Joo; Kim, Jaihie (2006). «Распознавание разметки парковочного места на основе структурного анализа для полуавтоматической системы парковки». В Yeung, Dit-Yan; Kwok, James T.; Fred, Ana; Roli, Fabio; de Ridder, Dick (ред.). Структурное, синтаксическое и статистическое распознавание образов . Конспект лекций по информатике. Том 4109. Берлин, Гейдельберг: Springer. стр. 384–393. doi : 10.1007/11815921_42 . ISBN 978-3-540-37241-7.
- ^ SK Nayar, H. Murase и SA Nene, «Обучение, позиционирование и отслеживание визуального образа» Труды Международной конференции IEEE по робототехнике и автоматизации, Сан-Диего, май 1994 г.
- ^ Лю, Ф.; Глейхер, М.; Джин, Х.; Агарвала, А. (2009). «Сохраняющие содержимое деформации для стабилизации 3D-видео». ACM Transactions on Graphics . 28 (3): 1. CiteSeerX 10.1.1.678.3088 . doi :10.1145/1531326.1531350.
Ссылки
- Элгаммал, Ахмед «CS 534: Распознавание на основе 3D-моделей компьютерного зрения», кафедра компьютерных наук, Ратгерский университет;
- Хартли, Ричард и Зиссерман, Эндрю «Многомерная геометрия в компьютерном зрении», Cambridge Press, 2000, ISBN 0-521-62304-9 .
- Рот, Питер М. и Винтер, Мартин «Обзор методов распознавания объектов на основе внешнего вида», Технический отчет ICG-TR-01/08, Институт компьютерной графики и зрения, Технический университет Граца, Австрия; 15 января 2008 г.
- Коллинз, Роберт «Лекция 31: Распознавание объектов: ключи SIFT», CSE486, Университет штата Пенсильвания
- IPRG Архивировано 28.12.2020 в Wayback Machine Image Processing - Online Open Research Group
- Christian Szegedy Архивировано 06.09.2015 в Wayback Machine , Alexander Toshev Архивировано 04.10.2015 в Wayback Machine и Dumitru Erhan. Deep Neural Networks for Object Detection. Advances in Neural Information Processing Systems 26 Архивировано 05.09.2020 в Wayback Machine , 2013. страницы 2553–2561.
Внешние ссылки