В компьютерном зрении и обработке изображений признак — это часть информации о содержании изображения; как правило, о том, имеет ли определенная область изображения определенные свойства. Признаками могут быть определенные структуры на изображении, такие как точки, края или объекты. Признаки также могут быть результатом общей операции соседства или обнаружения признаков, примененных к изображению. Другие примеры признаков связаны с движением в последовательностях изображений или с формами, определенными в терминах кривых или границ между различными областями изображения.
В более широком смысле признак — это любая часть информации, которая имеет отношение к решению вычислительной задачи, связанной с определенным приложением. Это тот же смысл, что и признак в машинном обучении и распознавании образов в целом, хотя обработка изображений имеет очень сложный набор признаков. Концепция признака является очень общей, и выбор признаков в конкретной системе компьютерного зрения может сильно зависеть от конкретной рассматриваемой проблемы.
Не существует универсального или точного определения того, что представляет собой признак, и точное определение часто зависит от проблемы или типа приложения. Тем не менее, признак обычно определяется как «интересная» часть изображения , и признаки используются в качестве отправной точки для многих алгоритмов компьютерного зрения.
Поскольку признаки используются в качестве отправной точки и основных примитивов для последующих алгоритмов, общий алгоритм часто будет настолько хорош, насколько хорош его детектор признаков. Следовательно, желательным свойством для детектора признаков является повторяемость : будет ли обнаружен один и тот же признак на двух или более различных изображениях одной и той же сцены.
Обнаружение признаков — это низкоуровневая операция обработки изображений . То есть она обычно выполняется как первая операция на изображении и проверяет каждый пиксель , чтобы увидеть, присутствует ли признак в этом пикселе. Если это часть более крупного алгоритма, то алгоритм обычно проверяет изображение только в области признаков. В качестве встроенного предварительного условия для обнаружения признаков входное изображение обычно сглаживается гауссовым ядром в масштабно -пространственном представлении , и вычисляется одно или несколько изображений признаков, часто выражаемых в терминах локальных производных операций изображения.
Иногда, когда обнаружение признаков требует больших вычислительных затрат и существуют ограничения по времени, для управления этапом обнаружения признаков может использоваться алгоритм более высокого уровня, чтобы поиск признаков выполнялся только в определенных частях изображения.
Существует множество алгоритмов компьютерного зрения, которые используют обнаружение признаков в качестве начального шага, поэтому в результате было разработано очень большое количество детекторов признаков. Они сильно различаются по типам обнаруженных признаков, вычислительной сложности и повторяемости.
Когда признаки определяются в терминах локальных операций соседства, применяемых к изображению, процедура, обычно называемая извлечением признаков , можно различать подходы обнаружения признаков, которые производят локальные решения о том, есть ли признак заданного типа в заданной точке изображения или нет, и те, которые производят недвоичные данные в качестве результата. Различие становится важным, когда полученные обнаруженные признаки относительно редки. Хотя принимаются локальные решения, вывод с этапа обнаружения признаков не обязательно должен быть бинарным изображением. Результат часто представляется в терминах наборов (связанных или несвязанных) координат точек изображения, где были обнаружены признаки, иногда с субпиксельной точностью.
Когда извлечение признаков выполняется без локального принятия решений, результат часто называют изображением признаков . Следовательно, изображение признаков можно рассматривать как изображение в том смысле, что оно является функцией тех же пространственных (или временных) переменных, что и исходное изображение, но где значения пикселей содержат информацию об особенностях изображения вместо интенсивности или цвета. Это означает, что изображение признаков можно обрабатывать так же, как и обычное изображение, сгенерированное датчиком изображения. Изображения признаков также часто вычисляются как интегрированный шаг в алгоритмах обнаружения признаков.
В некоторых приложениях недостаточно извлечь только один тип признаков, чтобы получить соответствующую информацию из данных изображения. Вместо этого извлекаются два или более различных признаков, что приводит к двум или более дескрипторам признаков в каждой точке изображения. Распространенной практикой является организация информации, предоставляемой всеми этими дескрипторами, в качестве элементов одного вектора, обычно называемого вектором признаков . Набор всех возможных векторов признаков составляет пространство признаков . [1]
Распространенный пример векторов признаков появляется, когда каждая точка изображения должна быть классифицирована как принадлежащая к определенному классу. Предполагая, что каждая точка изображения имеет соответствующий вектор признаков, основанный на подходящем наборе признаков, что означает, что каждый класс хорошо разделен в соответствующем пространстве признаков, классификация каждой точки изображения может быть выполнена с использованием стандартного метода классификации .
Другой и связанный пример возникает, когда обработка на основе нейронной сети применяется к изображениям. Входные данные, подаваемые в нейронную сеть, часто даются в виде вектора признаков из каждой точки изображения, где вектор строится из нескольких различных признаков, извлеченных из данных изображения. Во время фазы обучения сеть может сама находить, какие комбинации различных признаков полезны для решения поставленной задачи.
Края — это точки, где есть граница (или край) между двумя областями изображения. В общем случае край может иметь почти произвольную форму и может включать соединения. На практике края обычно определяются как наборы точек на изображении, которые имеют сильную величину градиента . Кроме того, некоторые распространенные алгоритмы затем объединяют вместе точки с высоким градиентом, чтобы сформировать более полное описание края. Эти алгоритмы обычно накладывают некоторые ограничения на свойства края, такие как форма, гладкость и значение градиента.
Локально ребра имеют одномерную структуру.
Термины «углы» и «точки интереса» используются в некоторой степени взаимозаменяемо и относятся к точечным особенностям на изображении, имеющим локальную двумерную структуру. Название «Угол» возникло, поскольку ранние алгоритмы сначала выполняли обнаружение краев , а затем анализировали края для поиска быстрых изменений направления (углов). Затем эти алгоритмы были разработаны таким образом, что явное обнаружение краев больше не требовалось, например, путем поиска высоких уровней кривизны в градиенте изображения . Затем было замечено, что так называемые углы также обнаруживались на частях изображения, которые не были углами в традиционном смысле (например, может быть обнаружено небольшое яркое пятно на темном фоне). Эти точки часто называют точками интереса, но по традиции используется термин «угол» [ требуется цитата ] .
Капли предоставляют дополнительное описание структур изображения в терминах областей, в отличие от углов, которые более точечные. Тем не менее, дескрипторы капель часто могут содержать предпочтительную точку (локальный максимум ответа оператора или центр тяжести), что означает, что многие детекторы капель также могут рассматриваться как операторы точек интереса. Детекторы капель могут обнаруживать области на изображении, которые слишком гладкие для обнаружения детектором углов.
Рассмотрим уменьшение изображения и последующее выполнение обнаружения углов. Детектор будет реагировать на точки, которые резкие на уменьшенном изображении, но могут быть гладкими на исходном изображении. Именно в этот момент разница между детектором углов и детектором пятен становится несколько размытой. В значительной степени это различие можно устранить, включив соответствующее понятие масштаба. Тем не менее, из-за их свойств реагирования на различные типы структур изображения в различных масштабах, детекторы пятен LoG и DoH также упоминаются в статье об обнаружении углов .
Для вытянутых объектов понятие хребтов является естественным инструментом. Дескриптор хребта, вычисленный из серого изображения, можно рассматривать как обобщение срединной оси . С практической точки зрения, хребет можно рассматривать как одномерную кривую, которая представляет ось симметрии и, кроме того, имеет атрибут локальной ширины хребта, связанный с каждой точкой хребта. К сожалению, однако, алгоритмически сложнее извлекать особенности хребта из общих классов серых изображений, чем особенности краев, углов или пятен. Тем не менее, дескрипторы хребта часто используются для извлечения дорог на аэрофотоснимках и для извлечения кровеносных сосудов на медицинских изображениях — см. обнаружение хребта .
Обнаружение признаков включает методы вычисления абстракций информации изображения и принятия локальных решений в каждой точке изображения, есть ли в этой точке признак изображения заданного типа или нет. Результирующие признаки будут подмножествами области изображения, часто в форме изолированных точек, непрерывных кривых или связанных областей.
Извлечение признаков иногда выполняется с помощью нескольких масштабирований. Одним из таких методов является масштабно-инвариантное преобразование признаков (SIFT).
После обнаружения признаков можно извлечь локальный фрагмент изображения вокруг признака. Это извлечение может включать довольно значительный объем обработки изображения. Результат известен как дескриптор признака или вектор признака. Среди подходов, которые используются для описания признаков, можно упомянуть N -струи и локальные гистограммы (см. масштабно-инвариантное преобразование признаков для одного примера локального дескриптора гистограммы). В дополнение к такой информации об атрибутах, шаг обнаружения признаков сам по себе может также предоставлять дополнительные атрибуты, такие как ориентация края и величина градиента при обнаружении края, а также полярность и сила пятна при обнаружении пятна.
Конкретная функция изображения, определяемая в терминах определенной структуры в данных изображения, часто может быть представлена различными способами. Например, ребро может быть представлено как булевская переменная в каждой точке изображения, которая описывает, присутствует ли ребро в этой точке. В качестве альтернативы мы можем вместо этого использовать представление, которое обеспечивает меру определенности вместо булевого утверждения о существовании ребра, и объединить это с информацией об ориентации ребра. Аналогично цвет определенной области может быть представлен либо в терминах среднего цвета (три скаляра), либо в виде цветовой гистограммы (три функции).
При проектировании системы или алгоритма компьютерного зрения выбор представления признаков может быть критически важным вопросом. В некоторых случаях для решения проблемы может потребоваться более высокий уровень детализации описания признака, но это достигается ценой необходимости иметь дело с большим количеством данных и более сложной обработкой. Ниже обсуждаются некоторые факторы, которые имеют значение для выбора подходящего представления. В этом обсуждении пример представления признаков называетсядескриптор признака или простодескриптор.
Два примера признаков изображения — это локальная ориентация ребра и локальная скорость в последовательности изображений. В случае ориентации значение этого признака может быть более или менее неопределенным, если в соответствующей окрестности присутствует более одного ребра. Локальная скорость не определена, если соответствующая область изображения не содержит никаких пространственных вариаций. Вследствие этого наблюдения может быть уместным использовать представление признака, которое включает меру определенности или уверенности, связанную с утверждением о значении признака. В противном случае типичной является ситуация, когда один и тот же дескриптор используется для представления значений признаков с низкой определенностью и значений признаков, близких к нулю, что приводит к неоднозначности в интерпретации этого дескриптора. В зависимости от приложения такая неоднозначность может быть приемлемой или неприемлемой.
В частности, если выделенное изображение будет использоваться в последующей обработке, может быть хорошей идеей использовать представление признаков, которое включает информацию о достоверности или уверенности . Это позволяет вычислять новый дескриптор признаков из нескольких дескрипторов, например, вычисленных в одной и той же точке изображения, но в разных масштабах, или из разных, но соседних точек, в терминах взвешенного среднего, где веса выводятся из соответствующих достоверностей. В простейшем случае соответствующее вычисление может быть реализовано как низкочастотная фильтрация выделенного изображения. Результирующее изображение признаков будет, в общем, более устойчивым к шуму.
В дополнение к включению в представление мер определенности, представление соответствующих значений признаков может само по себе подходить для операции усреднения или нет. Большинство представлений признаков могут быть усреднены на практике, но только в определенных случаях полученному дескриптору может быть дана правильная интерпретация в терминах значения признака. Такие представления называются усредняемыми .
Например, если ориентация ребра представлена в терминах угла, это представление должно иметь разрыв, где угол переходит от своего максимального значения к своему минимальному значению. Следовательно, может случиться, что две похожие ориентации представлены углами, имеющими среднее значение, которое не лежит близко ни к одному из исходных углов, и, следовательно, это представление не является усредняемым. Существуют другие представления ориентации ребра, такие как структурный тензор , которые являются усредняемыми.
Другой пример относится к движению, где в некоторых случаях может быть извлечена только нормальная скорость относительно некоторого края. Если были извлечены две такие характеристики и можно предположить, что они относятся к одной и той же истинной скорости, эта скорость не дается как среднее значение нормальных векторов скорости. Следовательно, нормальные векторы скорости не подлежат усреднению. Вместо этого существуют другие представления движений, использующие матрицы или тензоры, которые дают истинную скорость в терминах усредненной операции нормальных дескрипторов скорости. [ необходима цитата ]
Особенности, обнаруженные на каждом изображении, можно сопоставить с несколькими изображениями, чтобы установить соответствующие особенности, такие как соответствующие точки .
Алгоритм основан на сравнении и анализе соответствий точек между опорным изображением и целевым изображением. Если какая-либо часть загроможденной сцены разделяет соответствия, превышающие пороговое значение, эта часть изображения загроможденной сцены становится целевой и считается включающей в себя опорный объект. [18]
{{cite book}}
: CS1 maint: multiple names: authors list (link)