В математике структурный тензор , также называемый матрицей второго момента , представляет собой матрицу, полученную из градиента функции . Он описывает распределение градиента в указанной окрестности вокруг точки и делает информацию инвариантной к координатам наблюдения. Структурный тензор часто используется в обработке изображений и компьютерном зрении . [1] [2] [3]
Для функции двух переменных p = ( x , y ) структурный тензор представляет собой матрицу 2×2
где и являются частными производными по x и y ; интегралы ранжируются по плоскости ; и w является некоторой фиксированной "функцией окна" (например, гауссовским размытием ), распределением по двум переменным. Обратите внимание , что матрица сама по себе является функцией p = ( x , y ) .
Формулу выше можно записать также как , где — матричная функция, определяемая как
Если градиент рассматривать как матрицу 2×1 (одностолбцовую), где обозначает операцию транспонирования , превращающую вектор-строку в вектор-столбец, то матрицу можно записать как произведение матриц или тензор или внешнее произведение . Однако следует отметить, что структурный тензор в общем случае не может быть разложен таким образом, за исключением случая, когда является дельта-функцией Дирака .
В обработке изображений и других подобных приложениях функция обычно задается как дискретный массив выборок , где p — пара целочисленных индексов. Тензор двумерной структуры в данном пикселе обычно принимается за дискретную сумму
Здесь индекс суммирования r варьируется по конечному набору пар индексов («окно», как правило, для некоторого m ), а w [ r ] — фиксированный «вес окна», который зависит от r , так что сумма всех весов равна 1. Значения представляют собой частные производные, выбранные в пикселе p ; которые, например, можно оценить с помощью формул конечных разностей .
Формулу структурного тензора можно записать также в виде , где — матричнозначный массив, такой что
Важность тензора двумерной структуры вытекает из того факта, что собственные значения (которые можно упорядочить так, что ) и соответствующие им собственные векторы суммируют распределение градиента в пределах окна, определяемого с центром в . [1] [2] [3]
А именно, если , то (или ) — это направление, которое максимально совпадает с градиентом внутри окна.
В частности, если то градиент всегда кратен (положительному, отрицательному или нулю); это имеет место тогда и только тогда, когда внутри окна изменяется вдоль направления , но постоянен вдоль . Это условие собственных значений также называется условием линейной симметрии, поскольку тогда изокривые состоят из параллельных линий, т.е. существует одномерная функция , которая может генерировать двумерную функцию как для некоторого постоянного вектора и координат .
Если , с другой стороны, градиент в окне не имеет преобладающего направления; что происходит, например, когда изображение имеет вращательную симметрию в этом окне. Это состояние собственных значений также называется сбалансированным телом или условием направленного равновесия, поскольку оно выполняется, когда все направления градиента в окне одинаково часты/вероятны.
Более того, условие выполняется тогда и только тогда, когда функция постоянна ( ) в пределах .
В более общем смысле значение , для k =1 или k =2, является -взвешенным средним, в окрестности p , квадрата производной по направлению вдоль . Относительное расхождение между двумя собственными значениями является индикатором степени анизотропии градиента в окне, а именно, насколько сильно он смещен в сторону определенного направления (и его противоположности). [4] [5] Этот атрибут может быть количественно определен с помощью когерентности , определяемой как
если . Эта величина равна 1, когда градиент полностью выровнен, и 0, когда он не имеет предпочтительного направления. Формула не определена даже в пределе , когда изображение постоянно в окне ( ). Некоторые авторы определяют его как 0 в этом случае.
Обратите внимание, что среднее значение градиента внутри окна не является хорошим индикатором анизотропии. Выровненные, но противоположно ориентированные векторы градиента будут отменяться в этом среднем, тогда как в структурном тензоре они правильно суммируются. [6] Это причина того, почему используется при усреднении структурного тензора для оптимизации направления вместо .
Расширяя эффективный радиус оконной функции (то есть увеличивая ее дисперсию), можно сделать структурный тензор более устойчивым к шуму за счет уменьшения пространственного разрешения. [5] [7] Формальная основа этого свойства более подробно описана ниже, где показано, что многомасштабная формулировка структурного тензора, называемая многомасштабным структурным тензором, представляет собой истинное многомасштабное представление направленных данных при вариациях пространственной протяженности оконной функции .
Интерпретация и реализация тензора двумерной структуры становится особенно доступной при использовании комплексных чисел . [2] Тензор структуры состоит из 3 действительных чисел
где , и в котором интегралы можно заменить суммами для дискретного представления. Используя тождество Парсеваля , ясно, что три действительных числа являются моментами второго порядка спектра мощности . Следующий комплексный момент второго порядка спектра мощности может быть тогда записан как
где и — угол направления самого значимого собственного вектора тензора структуры, тогда как и — самые и самые значимые собственные значения. Из этого следует, что содержит как определенность , так и оптимальное направление в представлении двойного угла, поскольку это комплексное число, состоящее из двух действительных чисел. Из этого следует также, что если градиент представлен как комплексное число и переотображен путем возведения в квадрат (т. е. углы аргумента комплексного градиента удваиваются), то усреднение действует как оптимизатор в отображенной области, поскольку оно напрямую обеспечивает как оптимальное направление (в представлении двойного угла), так и связанную с ним определенность. Таким образом, комплексное число представляет, насколько линейная структура (линейная симметрия) присутствует в изображении , а комплексное число получается напрямую путем усреднения градиента в его (комплексном) представлении двойного угла без явного вычисления собственных значений и собственных векторов.
Аналогично следующий комплексный момент второго порядка спектра мощности , который всегда оказывается действительным, поскольку является действительным,
можно получить, причем и являются собственными значениями, как и раньше. Обратите внимание, что на этот раз величина комплексного градиента возведена в квадрат (что всегда является действительным числом).
Однако разложение тензора структуры по его собственным векторам дает его компоненты тензора как
где — единичная матрица в 2D, поскольку два собственных вектора всегда ортогональны (и в сумме равны единице). Первый член в последнем выражении разложения, , представляет собой линейный компонент симметрии тензора структуры, содержащий всю информацию о направлении (как матрица ранга 1), тогда как второй член представляет собой сбалансированный компонент тела тензора, в котором отсутствует какая-либо информация о направлении (содержащий единичную матрицу ). Узнать, сколько информации о направлении содержится в , — это то же самое, что проверить, насколько велик по сравнению с .
Очевидно, является комплексным эквивалентом первого члена в разложении тензора, тогда как является эквивалентом второго члена. Таким образом, два скаляра, включающие три действительных числа,
где — (комплексный) градиентный фильтр, а — свертка, составляют комплексное представление тензора 2D-структуры. Как обсуждалось здесь и в других местах, определяет локальное изображение, которое обычно является гауссовым (с определенной дисперсией, определяющей внешний масштаб), а — параметр (внутреннего масштаба), определяющий эффективный диапазон частот, в котором должна оцениваться ориентация .
Элегантность комплексного представления проистекает из того, что два компонента структурного тензора могут быть получены как средние и независимо. В свою очередь, это означает, что и могут использоваться в представлении масштабного пространства для описания доказательств наличия уникальной ориентации и доказательств альтернативной гипотезы, наличия множественных сбалансированных ориентаций, без вычисления собственных векторов и собственных значений. Функционал, такой как возведение в квадрат комплексных чисел, до сих пор не был показан для структурных тензоров с размерностями выше двух. В Bigun 91 было выдвинуто с должным аргументом, что это происходит потому, что комплексные числа являются коммутативными алгебрами, тогда как кватернионы, возможный кандидат для построения такого функционала, составляют некоммутативную алгебру. [8]
Комплексное представление структурного тензора часто используется в анализе отпечатков пальцев для получения карт направлений, содержащих определенные данные, которые, в свою очередь, используются для их улучшения, нахождения местоположений глобальных (ядра и дельты) и локальных (мелкие детали) особенностей, а также для автоматической оценки качества отпечатков пальцев.
Структурный тензор может быть определен также для функции трех переменных p =( x , y , z ) совершенно аналогичным образом. А именно, в непрерывной версии мы имеем , где где — три частные производные , а интеграл пробегает .
В дискретной версии, , где и сумма варьируется по конечному набору трехмерных индексов, обычно для некоторого m .
Как и в двумерном случае, собственные значения и соответствующие собственные векторы суммируют распределение направлений градиента в окрестности p, определяемой окном . Эту информацию можно визуализировать как эллипсоид , полуоси которого равны собственным значениям и направлены вдоль соответствующих им собственных векторов. [9] [10]
В частности, если эллипсоид вытянут только вдоль одной оси, как сигара (то есть, если намного больше, чем и ), это означает, что градиент в окне преимущественно выровнен с направлением , так что изоповерхности имеют тенденцию быть плоскими и перпендикулярными этому вектору. Такая ситуация возникает, например, когда p лежит на тонкой пластинчатой особенности или на гладкой границе между двумя областями с контрастными значениями.
Если эллипсоид сплющен только в одном направлении, как блин (то есть, если намного меньше, чем и ), это означает, что направления градиента разбросаны, но перпендикулярны ; так что изоповерхности имеют тенденцию быть похожими на трубки, параллельные этому вектору. Такая ситуация возникает, например, когда p лежит на тонкой линейной особенности или на остром углу границы между двумя областями с контрастными значениями.
Наконец, если эллипсоид приблизительно сферический (то есть, если ), это означает, что направления градиента в окне распределены более или менее равномерно, без выраженного предпочтения; так что функция в основном изотропна в этой окрестности. Это происходит, например, когда функция имеет сферическую симметрию в окрестности p . В частности, если эллипсоид вырождается в точку (то есть, если три собственных значения равны нулю), это означает, что является постоянным (имеет нулевой градиент) в пределах окна.
Структурный тензор является важным инструментом в анализе масштабного пространства . Многомасштабный структурный тензор (или многомасштабная матрица второго момента ) функции в отличие от других однопараметрических характеристик масштабного пространства является дескриптором изображения, который определяется по двум масштабным параметрам. Один масштабный параметр, называемый локальным масштабом , необходим для определения величины предварительного сглаживания при вычислении градиента изображения . Другой масштабный параметр, называемый масштабом интегрирования , необходим для указания пространственной протяженности оконной функции , которая определяет веса для области в пространстве, по которой накапливаются компоненты внешнего произведения самого градиента .
Точнее, предположим, что это вещественный сигнал, определенный над . Для любого локального масштаба пусть многомасштабное представление этого сигнала задается как , где представляет собой ядро предварительного сглаживания. Кроме того, пусть обозначает градиент представления масштабного пространства . Тогда многомасштабный структурный тензор/матрица второго момента определяется как [7] [11] [12] Концептуально можно спросить, будет ли достаточно использовать любые самоподобные семейства сглаживающих функций и . Однако, если наивно применить, например, ящичный фильтр, то могут легко возникнуть нежелательные артефакты. Если нужно, чтобы многомасштабный структурный тензор хорошо себя вел как в возрастающих локальных масштабах, так и в возрастающих масштабах интегрирования , то можно показать, что и сглаживающая функция, и оконная функция должны быть гауссовыми. [7] Условия, определяющие эту уникальность, аналогичны аксиомам масштабного пространства , которые используются для вывода уникальности гауссовского ядра для регулярного гауссовского масштабного пространства интенсивностей изображений.
Существуют различные способы обработки двухпараметрических вариаций масштаба в этом семействе дескрипторов изображений. Если мы сохраняем фиксированным параметр локального масштаба и применяем все более расширенные версии функции окна, увеличивая только параметр масштаба интегрирования, то мы получаем истинное формальное представление масштабного пространства направленных данных, вычисленных в заданном локальном масштабе . [7] Если мы соединяем локальный масштаб и масштаб интегрирования относительной шкалой интегрирования , так что затем для любого фиксированного значения , мы получаем сокращенную самоподобную однопараметрическую вариацию, которая часто используется для упрощения вычислительных алгоритмов, например, при обнаружении углов , обнаружении точек интереса , анализе текстур и сопоставлении изображений . Изменяя относительную шкалу интегрирования в такой самоподобной вариации масштаба, мы получаем другой альтернативный способ параметризации многомасштабной природы направленных данных, полученных путем увеличения шкалы интегрирования.
Концептуально схожее построение может быть выполнено для дискретных сигналов, с заменой интеграла свертки суммой свертки и с заменой непрерывного гауссовского ядра на дискретное гауссово ядро : При квантовании параметров шкалы и в реальной реализации обычно используется конечная геометрическая прогрессия с i в диапазоне от 0 до некоторого максимального индекса шкалы m . Таким образом, уровни дискретной шкалы будут иметь определенное сходство с пирамидой изображения , хотя пространственная подвыборка не обязательно может использоваться для сохранения более точных данных для последующих этапов обработки.
Собственные значения тензора структуры играют важную роль во многих алгоритмах обработки изображений для таких задач, как обнаружение углов , обнаружение точек интереса и отслеживание признаков . [9] [13] [14] [15] [16] [17] [18] Тензор структуры также играет центральную роль в алгоритме оптического потока Лукаса-Канаде и в его расширениях для оценки аффинной адаптации формы ; [11] где величина является показателем надежности вычисленного результата. Тензор использовался для анализа масштабного пространства , [7] оценки локальной ориентации поверхности по монокулярным или бинокулярным сигналам, [12] нелинейного улучшения отпечатков пальцев, [19] обработки изображений на основе диффузии , [20] [21] [22] [23] и нескольких других задач обработки изображений. Тензор структуры также может применяться в геологии для фильтрации сейсмических данных. [24]
Трехмерный структурный тензор использовался для анализа трехмерных видеоданных (рассматриваемых как функция x , y и времени t ). [4] Если в этом контексте мы стремимся к дескрипторам изображений, которые инвариантны относительно преобразований Галилея , чтобы сделать возможным сравнение измерений изображений, которые были получены при вариациях априори неизвестных скоростей изображений , то, однако, с вычислительной точки зрения предпочтительнее параметризовать компоненты в тензоре структуры/матрице второго момента, используя понятие диагонализации Галилея [25] , где обозначает преобразование Галилея пространства-времени и двумерное вращение по пространственной области, по сравнению с вышеупомянутым использованием собственных значений тензора трехмерной структуры, что соответствует разложению собственных значений и (нефизическому) трехмерному вращению пространства-времени. Однако для получения истинной инвариантности Галилея необходимо также адаптировать форму пространственно-временной оконной функции, [25] [26], что соответствует переносу аффинной адаптации формы [11] из пространственных в пространственно-временные данные изображения. В сочетании с локальными пространственно-временными гистограммными дескрипторами [27] эти концепции вместе обеспечивают галилеевское инвариантное распознавание пространственно-временных событий. [28]