Поиск изображений на основе контента , также известный как запрос по содержимому изображения ( QBIC ) и поиск визуальной информации на основе контента ( CBVIR ), представляет собой применение методов компьютерного зрения к проблеме поиска изображений , то есть к проблеме поиска цифровых изображений в больших базах данных (см. этот обзор [1] для научного обзора области CBIR). Поиск изображений на основе контента противопоставляется традиционным подходам на основе концепций (см. Индексация изображений на основе концепций ).
«Основанный на содержании» означает, что поиск анализирует содержимое изображения, а не метаданные, такие как ключевые слова, теги или описания, связанные с изображением. Термин «содержание» в этом контексте может относиться к цветам, формам, текстурам или любой другой информации, которая может быть получена из самого изображения. CBIR желателен, поскольку поиск, который опирается исключительно на метаданные, зависит от качества и полноты аннотаций .
Метапоиск изображений требует, чтобы люди вручную аннотировали изображения, вводя ключевые слова или метаданные в большую базу данных, что может занять много времени и может не охватить ключевые слова, необходимые для описания изображения. Оценка эффективности поиска изображений по ключевым словам субъективна и не была четко определена. В том же отношении системы CBIR имеют схожие проблемы в определении успеха. [2] «Ключевые слова также ограничивают объем запросов набором предопределенных критериев». и «быть настроенным» менее надежны, чем использование самого контента. [3]
Термин «поиск изображений на основе контента», по-видимому, возник в 1992 году, когда его использовал инженер японской электротехнической лаборатории Тошиказу Като для описания экспериментов по автоматическому извлечению изображений из базы данных на основе присутствующих цветов и форм. [2] [4] С тех пор этот термин используется для описания процесса извлечения желаемых изображений из большой коллекции на основе синтаксических признаков изображения. Методы, инструменты и алгоритмы, которые используются, берут начало в таких областях, как статистика, распознавание образов, обработка сигналов и компьютерное зрение. [1]
Самая ранняя коммерческая система CBIR была разработана IBM и называлась QBIC ( Q uery B y I mage Content ). [5] [6] Современные подходы, основанные на сетях и графах, представили простую и привлекательную альтернативу существующим методам. [7]
Хотя хранение нескольких изображений как части единого объекта предшествовало появлению термина BLOB ( двоичный большой объект ), [8] возможность полного поиска по содержимому, а не по описанию, должна была дождаться появления QBIC от IBM. [ 3 ]
VisualRank — это система поиска и ранжирования изображений путем анализа и сравнения их содержимого, а не поиска по названиям изображений, веб-ссылкам или другому тексту. Ученые Google представили свою работу VisualRank в статье, описывающей применение PageRank к поиску изображений Google на Международной конференции World Wide Web в Пекине в 2008 году.
[9]Интерес к CBIR вырос из-за ограничений, присущих системам на основе метаданных, а также большого диапазона возможных применений для эффективного поиска изображений. Текстовую информацию об изображениях можно легко искать с помощью существующих технологий, но это требует от людей ручного описания каждого изображения в базе данных. Это может быть непрактично для очень больших баз данных или для изображений, которые генерируются автоматически, например, с камер наблюдения . Также возможно пропустить изображения, которые используют разные синонимы в своих описаниях. Системы, основанные на категоризации изображений в семантических классах, таких как «кошка» как подкласс «животное», могут избежать проблемы неправильной категоризации, но потребуют от пользователя больше усилий для поиска изображений, которые могут быть «кошками», но классифицируются только как «животное». Было разработано много стандартов для категоризации изображений, но все они по-прежнему сталкиваются с проблемами масштабирования и неправильной категоризации. [2]
Первоначальные системы CBIR были разработаны для поиска в базах данных на основе свойств цвета, текстуры и формы изображения. После разработки этих систем стала очевидной потребность в удобных для пользователя интерфейсах. Поэтому усилия в области CBIR начали включать ориентированный на человека дизайн, который пытался удовлетворить потребности пользователя, выполняющего поиск. Это обычно означает включение: методов запросов, которые могут допускать описательную семантику, запросов, которые могут включать обратную связь с пользователем, систем, которые могут включать машинное обучение, и систем, которые могут понимать уровни удовлетворенности пользователя. [1]
Было разработано много систем CBIR, но по состоянию на 2006 год [обновлять]проблема извлечения изображений на основе их пиксельного содержимого оставалась в значительной степени нерешенной. [1] [ требуется обновление ]
Различные методы запросов и реализации CBIR используют различные типы пользовательских запросов.
QBE ( Q uery B y Example ) — это метод запроса [10] , который включает предоставление системе CBIR примера изображения, на котором она затем будет основывать свой поиск. Базовые алгоритмы поиска могут различаться в зависимости от приложения, но все изображения результатов должны иметь общие элементы с предоставленным примером. [11]
Варианты предоставления примеров изображений в систему включают:
Этот метод запроса устраняет трудности, которые могут возникнуть при попытке описать изображения словами.
Семантический поиск начинается с того, что пользователь делает запрос типа «найти фотографии Авраама Линкольна». Этот тип открытой задачи очень сложен для выполнения компьютерами — Линкольн не всегда может быть обращен к камере или находиться в одной и той же позе . Поэтому многие системы CBIR обычно используют низкоуровневые функции, такие как текстура, цвет и форма. Эти функции используются либо в сочетании с интерфейсами, которые позволяют упростить ввод критериев, либо с базами данных, которые уже обучены сопоставлять функции (такие как лица, отпечатки пальцев или сопоставление форм). Однако, в целом, поиск изображений требует человеческой обратной связи для определения концепций более высокого уровня. [6]
Объединение доступных методов поиска CBIR с широким кругом потенциальных пользователей и их намерений может быть сложной задачей. Аспект, делающий CBIR успешным, полностью зависит от способности понимать намерения пользователя. [12] Системы CBIR могут использовать обратную связь по релевантности , где пользователь постепенно уточняет результаты поиска, отмечая изображения в результатах как «релевантные», «нерелевантные» или «нейтральные» для поискового запроса, а затем повторяя поиск с новой информацией. Были разработаны примеры такого типа интерфейса. [13]
Машинное обучение и применение итеративных методов становятся все более распространенными в CBIR. [14]
Другие методы запроса включают просмотр примеров изображений, навигацию по настроенным/иерархическим категориям, запрос по области изображения (а не по всему изображению), запрос по нескольким примерам изображений, запрос по визуальному эскизу, запрос по прямому указанию характеристик изображения и многомодальные запросы (например, объединение прикосновений, голоса и т. д.) [15]
Наиболее распространенным методом сравнения двух изображений при поиске изображений на основе контента (обычно это пример изображения и изображение из базы данных) является использование меры расстояния между изображениями. Мера расстояния между изображениями сравнивает сходство двух изображений по различным параметрам, таким как цвет, текстура, форма и другие. Например, расстояние 0 означает точное совпадение с запросом относительно рассматриваемых параметров. Как можно интуитивно понять, значение больше 0 указывает на различные степени сходства между изображениями. Результаты поиска затем можно сортировать на основе их расстояния до запрашиваемого изображения. [11] Было разработано множество мер расстояния между изображениями (моделей сходства). [16]
Вычисление мер расстояния на основе сходства цветов достигается путем вычисления цветовой гистограммы для каждого изображения, которая определяет долю пикселей в изображении, содержащих определенные значения. [2] Изучение изображений на основе содержащихся в них цветов является одним из наиболее широко используемых методов, поскольку его можно выполнять независимо от размера или ориентации изображения. [6] Однако исследования также пытались сегментировать пропорцию цвета по областям и по пространственным отношениям между несколькими цветовыми областями. [15]
Меры текстуры ищут визуальные шаблоны в изображениях и то, как они пространственно определены. Текстуры представлены текселями , которые затем помещаются в ряд наборов, в зависимости от того, сколько текстур обнаружено на изображении. Эти наборы не только определяют текстуру, но и то, где на изображении она расположена. [11]
Текстура — сложная концепция для представления. Идентификация конкретных текстур на изображении достигается в первую очередь путем моделирования текстуры как двумерной вариации уровня серого. Относительная яркость пар пикселей вычисляется таким образом, что можно оценить степень контрастности, регулярности, грубости и направленности. [6] [17] Проблема заключается в идентификации моделей вариации сопикселей и связывании их с определенными классами текстур, такими как шелковистая или шероховатая .
Другие методы классификации текстур включают:
Форма не относится к форме изображения, а к форме определенной области, которая ищется. Формы часто определяются сначала с применением сегментации или обнаружения краев к изображению. Другие методы используют фильтры формы для определения заданных форм изображения. [18] Дескрипторы формы также могут быть инвариантны к перемещению, вращению и масштабированию. [6]
Некоторые дескрипторы формы включают: [6]
Как и другие задачи в области компьютерного зрения, такие как распознавание и обнаружение, недавние алгоритмы поиска на основе нейронных сетей подвержены состязательным атакам , как в качестве кандидатов, так и в качестве запросов. [19] Показано, что извлеченный рейтинг может быть радикально изменен лишь небольшими возмущениями, незаметными для человека. Кроме того, также возможны независимые от модели переносимые состязательные примеры, что позволяет проводить состязательные атаки черного ящика на системы глубокого ранжирования, не требуя доступа к их базовым реализациям. [19] [20]
И наоборот, сопротивление таким атакам можно улучшить с помощью состязательной защиты, такой как защита Мадри. [21]
Меры поиска изображений можно определить с точки зрения точности и отзыва . Однако рассматриваются и другие методы. [22]
Изображение извлекается в системе CBIR путем одновременного применения нескольких методов, таких как интеграционная индексация кластера пикселей, методы пересечения гистограмм и дискретного вейвлет-преобразования. [23]
Потенциальные варианты использования CBIR включают: [2]
Разработанные коммерческие системы включают: [2]
Экспериментальные системы включают: [2]
На выставке DB Expo в Сан-Франциско в начале этого месяца ...[ постоянная мертвая ссылка ]
Аннотация: Исследования по способам расширения и улучшения методов запросов для баз данных изображений широко распространены. Мы разработали QBIC (запрос по содержимому изображения) ...
QBE — язык для запросов ...