stringtranslate.com

Поиск изображений на основе контента

Общая схема поиска изображений по содержанию

Поиск изображений на основе контента , также известный как запрос по содержимому изображения ( QBIC ) и поиск визуальной информации на основе контента ( CBVIR ), представляет собой применение методов компьютерного зрения к проблеме поиска изображений , то есть к проблеме поиска цифровых изображений в больших базах данных (см. этот обзор [1] для научного обзора области CBIR). Поиск изображений на основе контента противопоставляется традиционным подходам на основе концепций (см. Индексация изображений на основе концепций ).

«Основанный на содержании» означает, что поиск анализирует содержимое изображения, а не метаданные, такие как ключевые слова, теги или описания, связанные с изображением. Термин «содержание» в этом контексте может относиться к цветам, формам, текстурам или любой другой информации, которая может быть получена из самого изображения. CBIR желателен, поскольку поиск, который опирается исключительно на метаданные, зависит от качества и полноты аннотаций .

Сравнение с поиском метаданных

Метапоиск изображений требует, чтобы люди вручную аннотировали изображения, вводя ключевые слова или метаданные в большую базу данных, что может занять много времени и может не охватить ключевые слова, необходимые для описания изображения. Оценка эффективности поиска изображений по ключевым словам субъективна и не была четко определена. В том же отношении системы CBIR имеют схожие проблемы в определении успеха. [2] «Ключевые слова также ограничивают объем запросов набором предопределенных критериев». и «быть настроенным» менее надежны, чем использование самого контента. [3]

История

Термин «поиск изображений на основе контента», по-видимому, возник в 1992 году, когда его использовал инженер японской электротехнической лаборатории Тошиказу Като для описания экспериментов по автоматическому извлечению изображений из базы данных на основе присутствующих цветов и форм. [2] [4] С тех пор этот термин используется для описания процесса извлечения желаемых изображений из большой коллекции на основе синтаксических признаков изображения. Методы, инструменты и алгоритмы, которые используются, берут начало в таких областях, как статистика, распознавание образов, обработка сигналов и компьютерное зрение. [1]

.mw-parser-output .vanchor>:target~.vanchor-text{background-color:#b1d2ff}@media screen{html.skin-theme-clientpref-night .mw-parser-output .vanchor>:target~.vanchor-text{background-color:#0f4dc9}}@media screen and (prefers-color-scheme:dark){html.skin-theme-clientpref-os .mw-parser-output .vanchor>:target~.vanchor-text{background-color:#0f4dc9}}QBIC- Запрос по содержанию изображения

Самая ранняя коммерческая система CBIR была разработана IBM и называлась QBIC ( Q uery B y I mage Content ). [5] [6] Современные подходы, основанные на сетях и графах, представили простую и привлекательную альтернативу существующим методам. [7]

Хотя хранение нескольких изображений как части единого объекта предшествовало появлению термина BLOB ( двоичный большой объект ), [8] возможность полного поиска по содержимому, а не по описанию, должна была дождаться появления QBIC от IBM. [ 3 ]

VisualRank

VisualRank — это система поиска и ранжирования изображений путем анализа и сравнения их содержимого, а не поиска по названиям изображений, веб-ссылкам или другому тексту. Ученые Google представили свою работу VisualRank в статье, описывающей применение PageRank к поиску изображений Google на Международной конференции World Wide Web в Пекине в 2008 году.

[9]

Технический прогресс

Интерес к CBIR вырос из-за ограничений, присущих системам на основе метаданных, а также большого диапазона возможных применений для эффективного поиска изображений. Текстовую информацию об изображениях можно легко искать с помощью существующих технологий, но это требует от людей ручного описания каждого изображения в базе данных. Это может быть непрактично для очень больших баз данных или для изображений, которые генерируются автоматически, например, с камер наблюдения . Также возможно пропустить изображения, которые используют разные синонимы в своих описаниях. Системы, основанные на категоризации изображений в семантических классах, таких как «кошка» как подкласс «животное», могут избежать проблемы неправильной категоризации, но потребуют от пользователя больше усилий для поиска изображений, которые могут быть «кошками», но классифицируются только как «животное». Было разработано много стандартов для категоризации изображений, но все они по-прежнему сталкиваются с проблемами масштабирования и неправильной категоризации. [2]

Первоначальные системы CBIR были разработаны для поиска в базах данных на основе свойств цвета, текстуры и формы изображения. После разработки этих систем стала очевидной потребность в удобных для пользователя интерфейсах. Поэтому усилия в области CBIR начали включать ориентированный на человека дизайн, который пытался удовлетворить потребности пользователя, выполняющего поиск. Это обычно означает включение: методов запросов, которые могут допускать описательную семантику, запросов, которые могут включать обратную связь с пользователем, систем, которые могут включать машинное обучение, и систем, которые могут понимать уровни удовлетворенности пользователя. [1]

Методы

Было разработано много систем CBIR, но по состоянию на 2006 год проблема извлечения изображений на основе их пиксельного содержимого оставалась в значительной степени нерешенной. [1] [ требуется обновление ]

Различные методы запросов и реализации CBIR используют различные типы пользовательских запросов.

Запрос по примеру

QBE ( Q uery B y Example ) — это метод запроса [10] , который включает предоставление системе CBIR примера изображения, на котором она затем будет основывать свой поиск. Базовые алгоритмы поиска могут различаться в зависимости от приложения, но все изображения результатов должны иметь общие элементы с предоставленным примером. [11]

Варианты предоставления примеров изображений в систему включают:

Этот метод запроса устраняет трудности, которые могут возникнуть при попытке описать изображения словами.

Семантический поиск

Семантический поиск начинается с того, что пользователь делает запрос типа «найти фотографии Авраама Линкольна». Этот тип открытой задачи очень сложен для выполнения компьютерами — Линкольн не всегда может быть обращен к камере или находиться в одной и той же позе . Поэтому многие системы CBIR обычно используют низкоуровневые функции, такие как текстура, цвет и форма. Эти функции используются либо в сочетании с интерфейсами, которые позволяют упростить ввод критериев, либо с базами данных, которые уже обучены сопоставлять функции (такие как лица, отпечатки пальцев или сопоставление форм). Однако, в целом, поиск изображений требует человеческой обратной связи для определения концепций более высокого уровня. [6]

Обратная связь по релевантности (человеческое взаимодействие)

Объединение доступных методов поиска CBIR с широким кругом потенциальных пользователей и их намерений может быть сложной задачей. Аспект, делающий CBIR успешным, полностью зависит от способности понимать намерения пользователя. [12] Системы CBIR могут использовать обратную связь по релевантности , где пользователь постепенно уточняет результаты поиска, отмечая изображения в результатах как «релевантные», «нерелевантные» или «нейтральные» для поискового запроса, а затем повторяя поиск с новой информацией. Были разработаны примеры такого типа интерфейса. [13]

Итеративное/машинное обучение

Машинное обучение и применение итеративных методов становятся все более распространенными в CBIR. [14]

Другие методы запроса

Другие методы запроса включают просмотр примеров изображений, навигацию по настроенным/иерархическим категориям, запрос по области изображения (а не по всему изображению), запрос по нескольким примерам изображений, запрос по визуальному эскизу, запрос по прямому указанию характеристик изображения и многомодальные запросы (например, объединение прикосновений, голоса и т. д.) [15]

Сравнение контента с использованием мер расстояния между изображениями

Наиболее распространенным методом сравнения двух изображений при поиске изображений на основе контента (обычно это пример изображения и изображение из базы данных) является использование меры расстояния между изображениями. Мера расстояния между изображениями сравнивает сходство двух изображений по различным параметрам, таким как цвет, текстура, форма и другие. Например, расстояние 0 означает точное совпадение с запросом относительно рассматриваемых параметров. Как можно интуитивно понять, значение больше 0 указывает на различные степени сходства между изображениями. Результаты поиска затем можно сортировать на основе их расстояния до запрашиваемого изображения. [11] Было разработано множество мер расстояния между изображениями (моделей сходства). [16]

Цвет

Вычисление мер расстояния на основе сходства цветов достигается путем вычисления цветовой гистограммы для каждого изображения, которая определяет долю пикселей в изображении, содержащих определенные значения. [2] Изучение изображений на основе содержащихся в них цветов является одним из наиболее широко используемых методов, поскольку его можно выполнять независимо от размера или ориентации изображения. [6] Однако исследования также пытались сегментировать пропорцию цвета по областям и по пространственным отношениям между несколькими цветовыми областями. [15]

Текстура

Меры текстуры ищут визуальные шаблоны в изображениях и то, как они пространственно определены. Текстуры представлены текселями , которые затем помещаются в ряд наборов, в зависимости от того, сколько текстур обнаружено на изображении. Эти наборы не только определяют текстуру, но и то, где на изображении она расположена. [11]

Текстура — сложная концепция для представления. Идентификация конкретных текстур на изображении достигается в первую очередь путем моделирования текстуры как двумерной вариации уровня серого. Относительная яркость пар пикселей вычисляется таким образом, что можно оценить степень контрастности, регулярности, грубости и направленности. [6] [17] Проблема заключается в идентификации моделей вариации сопикселей и связывании их с определенными классами текстур, такими как шелковистая или шероховатая .

Другие методы классификации текстур включают:

Форма

Форма не относится к форме изображения, а к форме определенной области, которая ищется. Формы часто определяются сначала с применением сегментации или обнаружения краев к изображению. Другие методы используют фильтры формы для определения заданных форм изображения. [18] Дескрипторы формы также могут быть инвариантны к перемещению, вращению и масштабированию. [6]

Некоторые дескрипторы формы включают: [6]

Уязвимости, атаки и защита

Как и другие задачи в области компьютерного зрения, такие как распознавание и обнаружение, недавние алгоритмы поиска на основе нейронных сетей подвержены состязательным атакам , как в качестве кандидатов, так и в качестве запросов. [19] Показано, что извлеченный рейтинг может быть радикально изменен лишь небольшими возмущениями, незаметными для человека. Кроме того, также возможны независимые от модели переносимые состязательные примеры, что позволяет проводить состязательные атаки черного ящика на системы глубокого ранжирования, не требуя доступа к их базовым реализациям. [19] [20]

И наоборот, сопротивление таким атакам можно улучшить с помощью состязательной защиты, такой как защита Мадри. [21]

Оценка поиска изображений

Меры поиска изображений можно определить с точки зрения точности и отзыва . Однако рассматриваются и другие методы. [22]

Поиск изображений в системе CBIR одновременно разными методами

Изображение извлекается в системе CBIR путем одновременного применения нескольких методов, таких как интеграционная индексация кластера пикселей, методы пересечения гистограмм и дискретного вейвлет-преобразования. [23]

Приложения

Потенциальные варианты использования CBIR включают: [2]

Разработанные коммерческие системы включают: [2]

Экспериментальные системы включают: [2]

Смотрите также

Ссылки

  1. ^ abcd Поиск мультимедийной информации на основе контента: современное состояние и проблемы (Исходный источник, 404'd) Поиск мультимедийной информации на основе контента: современное состояние и проблемы Архивировано 28 сентября 2007 г. в Wayback Machine , Майкл Лью и др., ACM Transactions on Multimedia Computing, Communications, and Applications , стр. 1–19, 2006 г.
  2. ^ abcdefg Икинс, Джон; Грэм, Маргарет. «Поиск изображений на основе контента». Университет Нортумбрии в Ньюкасле. Архивировано из оригинала 2012-02-05 . Получено 2014-03-10 .
  3. ^ ab Julie Anderson (29 апреля 1996 г.). "Search Images / Object Design Inc - Сделка года Форумы по обсуждению акций (6 августа 1996 г.)". Information Week (перепечатано в режиме онлайн в Silicon Investor's Stock Discussion Forums (6 августа 1996 г.) . стр. 69 (IW). На выставке DB Expo в Сан-Франциско в начале этого месяца ...[ постоянная мертвая ссылка ]
  4. ^ Като, Тошиказу (апрель 1992 г.). Джамбердино, Альберт А.; Ниблэк, Карлтон У. (ред.). «Архитектура базы данных для поиска изображений на основе контента». Системы хранения и поиска изображений . 1662. Международное общество оптики и фотоники: 112–123. Bibcode : 1992SPIE.1662..112K. doi : 10.1117/12.58497. S2CID  14342247.
  5. ^ Flickner, M.; Sawhney, H.; Niblack, W.; Ashley, J.; Qian Huang; Dom, B.; Gorkani, M.; Hafner, J.; Lee, D.; Petkovic, D.; Steele, D.; Yanker, P. (1995). "Запрос по содержимому изображения и видео: система QBIC". Computer . 28 (9): 23–32. doi :10.1109/2.410146. Аннотация: Исследования по способам расширения и улучшения методов запросов для баз данных изображений широко распространены. Мы разработали QBIC (запрос по содержимому изображения) ...
  6. ^ abcdef Руи, Йонг; Хуан, Томас С.; Чанг, Ши-Фу (1999). «Извлечение изображений: современные методы, перспективные направления и открытые вопросы». Журнал визуальной коммуникации и представления изображений . 10 : 39–62. CiteSeerX 10.1.1.32.7819 . doi :10.1006/jvci.1999.0413. S2CID  2910032. [ постоянная мертвая ссылка ]
  7. ^ Баннерджи, С. Дж. и др. (2015). «Использование сложных сетей для поиска информации и диагностики в многомерной визуализации». Scientific Reports . 5 : 17271. arXiv : 1506.02602 . Bibcode :2015NatSR...517271B. doi :10.1038/srep17271. PMC 4667282 . PMID  26626047. 
  8. ^ "Правдивая история BLOB". Архивировано из оригинала 2011-07-23.
  9. ^ Юши Цзин и Балуджа, С. (2008). «VisualRank: применение PageRank к крупномасштабному поиску изображений». Труды IEEE по анализу шаблонов и машинному интеллекту . 30 (11): 1877–1890. CiteSeerX 10.1.1.309.741 . doi :10.1109/TPAMI.2008.121. ISSN  0162-8828. PMID  18787237. S2CID  10545157. .
  10. ^ "Query-by-Example". IBM.com KnowledgeCenter . QBE — язык для запросов ...
  11. ^ abcd Шапиро, Линда ; Джордж Стокман (2001). Компьютерное зрение . Верхняя Сэддл-Ривер, Нью-Джерси: Prentice Hall. ISBN 978-0-13-030796-5.
  12. ^ Датта, Ритендра; Дхирадж Джоши; Цзя Ли ; Джеймс З. Ван (2008). «Поиск изображений: идеи, влияния и тенденции нового века». ACM Computing Surveys . 40 (2): 1–60. doi :10.1145/1348246.1348248. S2CID  7060187.
  13. ^ ab Bird, CL; PJ Elliott; E. Griffiths (1996). "Пользовательские интерфейсы для поиска изображений на основе контента". Коллоквиум IEE по интеллектуальным базам данных изображений . IET. doi :10.1049/ic:19960746.
  14. ^ Кардосо, Дуглас и др. «Итеративный метод поиска изображений на основе контента с использованием нескольких ансамблей SVM» (PDF) . Федеральный университет Параны (Бразилия) . Получено 11.03.2014 .
  15. ^ ab Лиам М. Мейрон. "Поиск изображений с использованием визуального внимания" (PDF) . Mayron.net . Получено 18.10.2012 .
  16. ^ Эйденбергер, Хорст (2011). «Фундаментальное понимание медиа», atpress. ISBN 978-3-8423-7917-6
  17. ^ Тамура, Хидеюки; Мори, Сюндзи; Ямаваки, Такаши (1978). «Текстурные особенности, соответствующие визуальному восприятию». Труды IEEE по системам, человеку и кибернетике . 8 (6): 460, 473. doi :10.1109/tsmc.1978.4309999. S2CID  32197839.
  18. ^ Tushabe, F.; MHF Wilkinson (2008). «Поиск изображений на основе контента с использованием комбинированных спектров шаблонов атрибутов 2D». Достижения в области многоязычного и мультимодального поиска информации (PDF) . Конспект лекций по информатике. Том 5152. С. 554–561. doi :10.1007/978-3-540-85760-0_69. ISBN 978-3-540-85759-4. S2CID  18566543.
  19. ^ Аб Чжоу, Мо; Ню, Чжэньсин; Ван, Ле; Чжан, Цилинь; Хуа, Банда (2020). «Состязательная рейтинговая атака и защита». arXiv : 2002.11293v2 [cs.CV].
  20. ^ Ли, Цзе; Цзи, Ронгронг; Лю, Хун; Хун, Сяопэн; Гао, Юэ; Тянь, Ци (2019). «Универсальная пертурбационная атака на поиск изображений». стр. 4899–4908. arXiv : 1812.00552 [cs.CV].
  21. ^ Мадри, Александр; Макелов, Александр; Шмидт, Людвиг; Ципрас, Димитрис; Владу, Адриан (19 июня 2017 г.). «На пути к моделям глубокого обучения, устойчивым к состязательным атакам». arXiv : 1706.06083v4 [stat.ML].
  22. ^ Deselaers, Thomas; Keysers, Daniel; Ney, Hermann (2007). "Features for Image Retrieval: An Experimental Comparison" (PDF) . RWTH Aachen University . Получено 11 марта 2014 г. .
  23. ^ Бхаттачарджи, Пиджуш Канти (2010). "Интеграция индексации кластеров пикселей, пересечения гистограмм и методов дискретного вейвлет-преобразования для системы поиска изображений на основе содержимого цветных изображений" (PDF) . Международный журнал компьютерной и электротехнической инженерии [IJCEE], Сингапур, т. 2, № 2, стр. 345-352, 2010 .
  24. ^ Ван, Джеймс Зе; Цзя Ли ; Джио Видерхольд; Оскар Фиршайн (1998). «Система отсева нежелательных изображений». Computer Communications . 21 (15): 1355–1360. CiteSeerX 10.1.1.78.7689 . doi :10.1016/s0140-3664(98)00203-5. 

Дальнейшее чтение

Соответствующие исследовательские работы

Внешние ссылки