Преобразование масштабно-инвариантного объекта

Масштабно -инвариантное преобразование признаков ( SIFT ) — это алгоритм компьютерного зрения для обнаружения, описания и сопоставления локальных особенностей на изображениях, изобретенный Дэвидом Лоу в 1999 году. ^[1] Приложения включают распознавание объектов , роботизированное картографирование и навигацию, сшивание изображений , 3D моделирование , распознавание жестов , видеослежение , индивидуальная идентификация диких животных и перемещение спичек .

Ключевые точки объектов SIFT сначала извлекаются из набора эталонных изображений ^[1] и сохраняются в базе данных. Объект распознается на новом изображении путем индивидуального сравнения каждого объекта из нового изображения с этой базой данных и поиска совпадающих объектов-кандидатов на основе евклидова расстояния их векторов признаков. Из полного набора совпадений определяются подмножества ключевых точек, которые соответствуют объекту и его местоположению, масштабу и ориентации на новом изображении, чтобы отфильтровать хорошие совпадения. Определение согласованных кластеров выполняется быстро с помощью эффективной реализации хэш-таблицы обобщенного преобразования Хафа . Каждый кластер из 3 или более признаков, которые соответствуют объекту и его позе , затем подлежит дальнейшей детальной проверке модели, после чего выбросы отбрасываются. Наконец, рассчитывается вероятность того, что определенный набор признаков указывает на присутствие объекта, учитывая точность соответствия и количество вероятных ложных совпадений. Соответствия объектов, прошедшие все эти тесты, могут быть идентифицированы как правильные с высокой степенью уверенности. ^[2]

Хотя алгоритм SIFT ранее был защищен патентом, срок действия его патента истек в 2020 году. ^[3]

Обзор

Для любого объекта на изображении можно извлечь интересные точки на объекте, чтобы предоставить «описание особенности» объекта. Это описание, извлеченное из обучающего изображения, затем можно использовать для идентификации объекта при попытке найти его на тестовом изображении, содержащем множество других объектов. Для надежного распознавания важно, чтобы признаки, извлеченные из обучающего изображения, были обнаруживаемы даже при изменении масштаба изображения, шума и освещенности. Такие точки обычно располагаются на высококонтрастных участках изображения, например на краях объектов.

Еще одной важной характеристикой этих функций является то, что относительные положения между ними в исходной сцене не должны меняться от одного изображения к другому. Например, если бы в качестве элементов использовались только четыре угла двери, они бы работали независимо от положения двери; но если бы также использовались точки в рамке, распознавание не удавалось бы, если дверь открыта или закрыта. Аналогичным образом, функции, расположенные в шарнирных или гибких объектах, обычно не будут работать, если какое-либо изменение их внутренней геометрии произойдет между двумя изображениями в обрабатываемом наборе. Однако на практике SIFT обнаруживает и использует гораздо большее количество функций изображений, что снижает вклад ошибок, вызванных этими локальными вариациями средней ошибки всех ошибок сопоставления объектов.

SIFT ^[3] может надежно идентифицировать объекты даже среди беспорядка и при частичной окклюзии, поскольку дескриптор функции SIFT инвариантен к равномерному масштабированию , ориентации , изменениям освещенности и частично инвариантен к аффинному искажению . ^[1] В этом разделе обобщается исходный алгоритм SIFT и упоминается несколько конкурирующих методов, доступных для распознавания объектов в условиях помех и частичной окклюзии.

Дескриптор SIFT основан на измерениях изображения с точки зрения рецептивных полей ^[4]^[5]^[6]^[7] , в которых инвариантные в локальном масштабе опорные кадры ^[8]^[9] устанавливаются путем выбора локального масштаба . ^[10]^[11]^[9] Общее теоретическое объяснение этого вопроса дано в статье Scholarpedia о SIFT. ^[12]

Типы функций

Обнаружение и описание локальных особенностей изображения может помочь в распознавании объектов. Функции SIFT являются локальными и основаны на внешнем виде объекта в определенных точках интереса и инвариантны к масштабу и повороту изображения. Они также устойчивы к изменениям освещения, шума и незначительным изменениям точки зрения. В дополнение к этим свойствам они обладают высокой отличительностью, относительно легко извлекаются и позволяют правильно идентифицировать объект с низкой вероятностью несовпадения. Их относительно легко сопоставить с (большой) базой данных локальных объектов, но, тем не менее, высокая размерность может быть проблемой, и обычно используются вероятностные алгоритмы, такие как деревья kd с поиском наилучшего первого интервала . Описание объекта с помощью набора функций SIFT также устойчиво к частичному перекрытию; всего трех признаков SIFT объекта достаточно, чтобы вычислить его местоположение и позу. Распознавание может осуществляться в режиме, близком к реальному, по крайней мере, для небольших баз данных и на современном компьютерном оборудовании. ^{[ нужна цитата ]}

Основные этапы

Обнаружение масштабно-инвариантных функций

Метод Лоу для генерации признаков изображения преобразует изображение в большую коллекцию векторов признаков, каждый из которых инвариантен к перемещению, масштабированию и вращению изображения, частично инвариантен к изменениям освещения и устойчив к локальным геометрическим искажениям. Эти функции имеют схожие свойства с нейронами первичной зрительной коры , которые кодируют основные формы, цвет и движение для обнаружения объектов зрением приматов. ^[13] Ключевые местоположения определяются как максимумы и минимумы результата разности функции Гаусса, примененной в масштабном пространстве к серии сглаженных и повторно дискретизированных изображений. Точки-кандидаты с низкой контрастностью и точки реагирования на краях вдоль края отбрасываются. Доминирующие ориентации присваиваются локализованным ключевым точкам. Эти шаги гарантируют, что ключевые точки будут более стабильными для сопоставления и распознавания. Дескрипторы SIFT, устойчивые к локальным аффинным искажениям, затем получаются путем рассмотрения пикселей вокруг радиуса ключевого местоположения, размытия и повторной выборки плоскостей ориентации локального изображения.

Сопоставление и индексирование функций

Индексирование состоит из хранения ключей SIFT и определения совпадающих ключей из нового изображения. Лоу использовал модификацию алгоритма дерева kd , названную методом поиска по первому наилучшему элементу^[14] , который может идентифицировать ближайших соседей с высокой вероятностью, используя лишь ограниченный объем вычислений. Алгоритм BBF использует модифицированный порядок поиска для алгоритма дерева kd , так что интервалы в пространстве объектов ищутся в порядке их наибольшего расстояния от местоположения запроса. Этот порядок поиска требует использования очереди приоритетов на основе кучи для эффективного определения порядка поиска. Мы получаем кандидата для каждой ключевой точки, идентифицируя ее ближайшего соседа в базе данных ключевых точек из обучающих изображений. Ближайшие соседи определяются как ключевые точки с минимальным евклидовым расстоянием от заданного вектора дескриптора. Лоу ^[2] определил, следует ли оставить данного кандидата или «выбросить» его, проверив соотношение между расстоянием от этого данного кандидата и расстоянием от ближайшей ключевой точки, которая не принадлежит к тому же классу объектов, что и кандидат в (вектор признаков-кандидатов / вектор признаков ближайшего другого класса), идея состоит в том, что мы можем быть уверены только в кандидатах, в которых признаки/ключевые точки из отдельных классов объектов не «загромождают» его (не обязательно геометрически загромождают пространство признаков, но тем более беспорядок вдоль правой половины (>0) реальной линии), это очевидное следствие использования евклидова расстояния в качестве меры ближайшего соседа. Порогом отклонения является значение, превышающее 0,8. Этот метод исключил 90% ложных совпадений и отбросил менее 5% правильных совпадений. Для дальнейшего повышения эффективности алгоритм поиска лучшего интервала был отключен после проверки первых 200 кандидатов-ближайших соседей. Для базы данных, содержащей 100 000 ключевых точек, это обеспечивает ускорение точного поиска ближайшего соседа примерно на 2 порядка, но приводит к потере менее 5% количества правильных совпадений.

Идентификация кластера путем голосования за преобразование Хафа

Преобразование Хафа используется для кластеризации гипотез надежной модели для поиска ключей, которые согласуются с конкретной позицией модели . Преобразование Хафа идентифицирует кластеры признаков с последовательной интерпретацией, используя каждый признак для голосования за все положения объекта, соответствующие этому признаку. Когда обнаруживается, что кластеры признаков голосуют за одно и то же положение объекта, вероятность правильной интерпретации намного выше, чем для любого отдельного признака. В хеш-таблице создается запись, предсказывающая местоположение, ориентацию и масштаб модели на основе гипотезы соответствия. В хеш-таблице выполняется поиск всех кластеров, содержащих не менее 3 записей в контейнере, и контейнеры сортируются в порядке убывания размера.

Каждая из ключевых точек SIFT определяет двухмерное местоположение, масштаб и ориентацию, и каждая совпавшая ключевая точка в базе данных имеет запись своих параметров относительно обучающего изображения, в котором она была найдена. Преобразование подобия, подразумеваемое этими четырьмя параметрами, является лишь приближением к полному пространству позы с шестью степенями свободы для трехмерного объекта, а также не учитывает какие-либо нежесткие деформации. Поэтому Лоу ^[2] использовал широкие интервалы в 30 градусов для ориентации, коэффициент 2 для масштаба и 0,25-кратный максимальный размер прогнозируемого тренировочного изображения (с использованием прогнозируемого масштаба) для местоположения. Образцам ключа SIFT, созданным в большем масштабе, присваивается двойной вес, чем в меньшем масштабе. Это означает, что более крупный масштаб фактически способен фильтровать наиболее вероятных соседей для проверки в меньшем масштабе. Это также улучшает качество распознавания, придавая больший вес наименее шумной шкале. Чтобы избежать проблемы граничных эффектов при назначении интервалов, каждое совпадение ключевой точки голосует за два ближайших интервала в каждом измерении, что дает в общей сложности 16 записей для каждой гипотезы и еще больше расширяет диапазон поз.

Проверка модели методом линейных наименьших квадратов

Затем каждый идентифицированный кластер подвергается процедуре проверки, в которой выполняется линейное решение методом наименьших квадратов для параметров аффинного преобразования, связывающего модель с изображением. Аффинное преобразование точки модели [xy] ^T в точку изображения [uv] ^T можно записать, как показано ниже.

{\begin{bmatrix}u\\v\end{bmatrix}}={\begin{bmatrix}m_{1}&m_{2}\\m_{3}&m_{4}\end{bmatrix}}{\begin{bmatrix}x\\y\end{bmatrix}}+{\begin{bmatrix}t_{x}\\t_{y}\end{bmatrix}}

где сдвиг модели равен [t _x t _y ] ^T , а аффинное вращение, масштаб и растяжение представлены параметрами m ₁ , m ₂ , m ₃ и m ₄ . Чтобы определить параметры преобразования, приведенное выше уравнение можно переписать, чтобы собрать неизвестные в вектор-столбец.

{\begin{bmatrix}x&y&0&0&1&0\\0&0&x&y&0&1\\....\\....\end{bmatrix}}{\begin{bmatrix}m1\\m2\\m3\\m4\\t_{x}\\t_{y}\end{bmatrix}}={\begin{bmatrix}u\\v\\.\\.\end{bmatrix}}

Это уравнение показывает одно совпадение, но можно добавить любое количество дополнительных совпадений, причем каждое совпадение добавляет еще две строки в первую и последнюю матрицу. Для решения необходимо как минимум 3 совпадения. Мы можем записать эту линейную систему как

A{\hat {\mathbf {x} }}\approx \mathbf {b} ,

где A — известная матрица размером m на n (обычно с m > n ), x — неизвестный n -мерный вектор параметров , а b — известный m -мерный вектор измерения.

Следовательно, минимизирующий вектор является решением нормального уравнения ${\hat {\mathbf {x} }}$

A^{T}\!A{\hat {\mathbf {x} }}=A^{T}\mathbf {b} .

Решение системы линейных уравнений дается через матрицу , называемую псевдообратной к A , по формуле $(A^{T}A)^{-1}A^{T}$

{\hat {\mathbf {x} }}=(A^{T}\!A)^{-1}A^{T}\mathbf {b} .

который минимизирует сумму квадратов расстояний от местоположений проецируемой модели до соответствующих мест изображения.

Обнаружение выбросов

Выбросы теперь можно удалить, проверив соответствие каждого объекта изображения модели с учетом решения параметра. Учитывая линейное решение методом наименьших квадратов , каждое совпадение должно согласовываться в пределах половины диапазона ошибок, который использовался для параметров в интервалах преобразования Хафа . Поскольку выбросы отбрасываются, линейное решение методом наименьших квадратов повторно решается с оставшимися точками, и процесс повторяется. Если после отбрасывания выбросов остается менее 3 очков , то совпадение отклоняется. Кроме того, фаза сопоставления сверху вниз используется для добавления любых дополнительных совпадений, которые согласуются с прогнозируемым положением модели, которые могли быть пропущены из контейнера преобразования Хафа из-за аппроксимации преобразования подобия или других ошибок.

Окончательное решение о принятии или отклонении модельной гипотезы принимается на основе подробной вероятностной модели. ^[15] Этот метод сначала вычисляет ожидаемое количество ложных совпадений с позой модели, учитывая прогнозируемый размер модели, количество объектов в регионе и точность подгонки. Затем байесовский вероятностный анализ дает вероятность присутствия объекта на основе фактического количества найденных совпадающих признаков. Модель считается принятой, если окончательная вероятность правильной интерпретации превышает 0,98. Распознавание объектов на основе SIFT компании Lowe дает превосходные результаты, за исключением случаев широких изменений освещенности и нежестких преобразований.

Алгоритм

Обнаружение экстремумов в масштабном пространстве

Мы начинаем с обнаружения точек интереса, которые в системе SIFT называются ключевыми точками . Изображение свертывается с помощью фильтров Гаусса в разных масштабах, а затем снимается разница последовательных изображений с размытием по Гауссу . Ключевые точки затем принимаются как максимумы/минимумы разницы гауссиан (DoG), которые встречаются в нескольких масштабах. В частности, изображение DoG определяется выражением $D\left(x,y,\sigma \right)$

D\left(x,y,\sigma \right)=L\left(x,y,k_{i}\sigma \right)-L\left(x,y,k_{j}\sigma \right)

где – свертка исходного изображения с размытием по Гауссу в масштабе , т.е.

L\left(x,y,k\sigma \right)

I\left(x,y\right)

G\left(x,y,k\sigma \right)

k\sigma

L\left(x,y,k\sigma \right)=G\left(x,y,k\sigma \right)*I\left(x,y\right)

Следовательно, изображение DoG между масштабами и представляет собой просто разницу размытых по Гауссу изображений в масштабах и . Для обнаружения экстремумов масштабного пространства в алгоритме SIFT изображение сначала свертывается с помощью размытия по Гауссу в разных масштабах. Свёрнутые изображения группируются по октаве (октава соответствует удвоению значения ), а значение выбирается таким образом, чтобы мы получали фиксированное количество свёрнутых изображений на октаву. Затем изображения с разностью по Гауссу берутся из соседних изображений с размытием по Гауссу на октаву. $k_{i}\sigma$ $k_{j}\sigma$ $k_{i}\sigma$ $k_{j}\sigma$ $\sigma$ $k_{i}$

После получения изображений DoG ключевые точки идентифицируются как локальные минимумы/максимумы изображений DoG в разных масштабах. Это делается путем сравнения каждого пикселя изображений DoG с его восемью соседями в том же масштабе и девятью соответствующими соседними пикселями в каждом из соседних масштабов. Если значение пикселя является максимальным или минимальным среди всех сравниваемых пикселей, оно выбирается в качестве потенциальной ключевой точки.

Этот этап обнаружения ключевой точки является разновидностью одного из методов обнаружения капель, разработанных Линдебергом, путем обнаружения экстремумов в масштабном пространстве нормированного по масштабу лапласиана; ^[10]^[11] , то есть обнаружение точек, которые являются локальными экстремумами как по отношению к пространству, так и по масштабу, в дискретном случае путем сравнения с ближайшими 26 соседями в дискретизированном объеме масштабного пространства. Разницу оператора Гаусса можно рассматривать как приближение к лапласиану, при этом неявная нормализация в пирамиде также представляет собой дискретную аппроксимацию масштабно-нормированного лапласиана. ^[12] Другая реализация в реальном времени экстремумов оператора Лапласа в масштабном пространстве была представлена Линдебергом и Бретцнером на основе представления гибридной пирамиды, ^[16] которое использовалось для взаимодействия человека и компьютера посредством распознавания жестов в реальном времени в Бретцнере. и другие. (2002). ^[17]

Локализация ключевых точек

Обнаружение экстремумов в масштабном пространстве создает слишком много кандидатов в ключевые точки, некоторые из которых нестабильны. Следующим шагом алгоритма является выполнение детальной подгонки близлежащих данных для точного местоположения, масштаба и соотношения главных кривизн . Эта информация позволяет отбраковывать точки с низкой контрастностью (и, следовательно, чувствительные к шуму) или плохо локализованные по краю.

Интерполяция близлежащих данных для точного определения местоположения

Во-первых, для каждой ключевой точки-кандидата используется интерполяция близлежащих данных для точного определения ее положения. Первоначальный подход заключался в том, чтобы просто расположить каждую ключевую точку в том же месте и масштабе, что и потенциальная ключевая точка. ^[1] Новый подход вычисляет интерполированное положение экстремума, что существенно улучшает согласованность и стабильность. ^[2] Интерполяция выполняется с использованием квадратичного разложения Тейлора функции разности гауссова масштабного пространства с ключевой точкой-кандидатом в качестве начала координат. Это расширение Тейлора определяется следующим образом: $D\left(x,y,\sigma \right)$

D({\textbf {x}})=D+{\frac {\partial D}{\partial {\textbf {x}}}}^{T}{\textbf {x}}+{\frac {1}{2}}{\textbf {x}}^{T}{\frac {\partial ^{2}D}{\partial {\textbf {x}}^{2}}}{\textbf {x}}

где D и его производные оцениваются в ключевой точке-кандидате и представляют собой смещение от этой точки. Местоположение экстремума определяется путем взятия производной этой функции по и присвоения ей нуля. Если смещение больше, чем в любом измерении, это указывает на то, что экстремум находится ближе к другой потенциальной ключевой точке. В этом случае потенциальная ключевая точка изменяется, и вместо нее выполняется интерполяция вокруг этой точки. В противном случае смещение добавляется к ключевой точке-кандидату, чтобы получить интерполированную оценку местоположения экстремума. Аналогичное субпиксельное определение положений экстремумов масштабного пространства выполняется в реализации реального времени на основе гибридных пирамид, разработанных Линдебергом и его сотрудниками. ^[16] ${\textbf {x}}=\left(x,y,\sigma \right)^{T}$ ${\hat {\textbf {x}}}$ ${\textbf {x}}$ ${\hat {\textbf {x}}}$ $0.5$

Отбрасывание ключевых точек с низким контрастом

Чтобы отбросить ключевые точки с низким контрастом, значение расширения Тейлора второго порядка вычисляется со смещением . Если это значение меньше , ключевая точка-кандидат отбрасывается. В противном случае он сохраняется с окончательным местоположением в масштабном пространстве , где находится исходное местоположение ключевой точки. $D({\textbf {x}})$ ${\hat {\textbf {x}}}$ $0.03$ ${\textbf {y}}+{\hat {\textbf {x}}}$ ${\textbf {y}}$

Устранение краевых реакций

Функция DoG будет иметь сильные отклики по краям, даже если ключевая точка-кандидат не устойчива к небольшому количеству шума. Поэтому, чтобы повысить стабильность, нам необходимо исключить ключевые точки, которые имеют плохо определенное местоположение, но имеют высокие отклики на краях.

Для плохо выраженных пиков функции DoG главная кривизна поперек края будет намного больше, чем главная кривизна вдоль него. Нахождение этих главных кривизн сводится к решению собственных значений матрицы Гессе второго порядка , H :

{\textbf {H}}={\begin{bmatrix}D_{xx}&D_{xy}\\D_{xy}&D_{yy}\end{bmatrix}}

Собственные значения H пропорциональны главным кривизнам D. Оказывается, что отношение двух собственных значений, скажем, большего, и меньшего, с отношением , достаточно для целей SIFT. След H , т. е. , дает нам сумму двух собственных значений, а его определитель, т. е. , дает произведение. Можно показать, что отношение равно , которое зависит только от отношения собственных значений, а не от их индивидуальных значений. R является минимальным, когда собственные значения равны друг другу. Следовательно, чем выше абсолютная разница между двумя собственными значениями, что эквивалентно более высокой абсолютной разнице между двумя главными кривизнами D, тем выше значение R. Отсюда следует, что для некоторого порогового отношения собственных значений , если R для кандидата Ключевая точка больше , эта ключевая точка плохо локализована и, следовательно, отклонена. Новый подход использует . ^[2] $\alpha$ $\beta$ $r=\alpha /\beta$ $D_{xx}+D_{yy}$ $D_{xx}D_{yy}-D_{xy}^{2}$ ${\text{R}}=\operatorname {Tr} ({\textbf {H}})^{2}/\operatorname {Det} ({\textbf {H}})$ $(r+1)^{2}/r$ $r_{\text{th}}$ $(r_{\text{th}}+1)^{2}/r_{\text{th}}$ $r_{\text{th}}=10$

Этот этап обработки подавления откликов на краях представляет собой перенос соответствующего подхода в операторе Харриса для обнаружения углов. Разница в том, что мера определения порога вычисляется на основе матрицы Гессе вместо матрицы второго момента .

Назначение ориентации

На этом этапе каждой ключевой точке назначается одна или несколько ориентаций на основе локальных направлений градиента изображения. Это ключевой шаг в достижении инвариантности к вращению, поскольку дескриптор ключевой точки может быть представлен относительно этой ориентации и, следовательно, достичь инвариантности к вращению изображения.

Сначала берется сглаженное по Гауссу изображение в масштабе ключевой точки, так что все вычисления выполняются масштабно-инвариантным образом. Для образца изображения в масштабе величина градиента и ориентация предварительно вычисляются с использованием различий в пикселях: $L\left(x,y,\sigma \right)$ $\sigma$ $L\left(x,y\right)$ $\sigma$ $m\left(x,y\right)$ $\theta \left(x,y\right)$

m\left(x,y\right)={\sqrt {\left(L\left(x+1,y\right)-L\left(x-1,y\right)\right)^{2}+\left(L\left(x,y+1\right)-L\left(x,y-1\right)\right)^{2}}}

\theta \left(x,y\right)=\mathrm {atan2} \left(L\left(x,y+1\right)-L\left(x,y-1\right),L\left(x+1,y\right)-L\left(x-1,y\right)\right)

Расчеты величины и направления градиента выполняются для каждого пикселя в соседней области вокруг ключевой точки на размытом по Гауссу изображении L. Формируется гистограмма ориентации с 36 элементами, каждый из которых охватывает 10 градусов. Каждая выборка в соседнем окне, добавленная в бин гистограммы, взвешивается по величине ее градиента и по гауссово-взвешенному круглому окну с а, которое в 1,5 раза превышает масштаб ключевой точки. Пики на этой гистограмме соответствуют доминирующим ориентациям. После заполнения гистограммы ключевой точке присваиваются ориентации, соответствующие самому высокому пику и локальным пикам, находящимся в пределах 80% от самых высоких пиков. В случае назначения нескольких ориентаций для каждой дополнительной ориентации создается дополнительная характерная точка, имеющая то же местоположение и масштаб, что и исходная характерная точка. $\sigma$

Дескриптор ключевой точки

Предыдущие шаги находили местоположения ключевых точек в определенных масштабах и присваивали им ориентацию. Это обеспечивало инвариантность к расположению, масштабу и повороту изображения. Теперь мы хотим вычислить вектор дескриптора для каждой ключевой точки так, чтобы дескриптор был очень отличительным и частично инвариантным к остальным вариантам, таким как освещение, трехмерная точка зрения и т. д. Этот шаг выполняется на изображении, ближайшем по масштабу к масштабу ключевой точки.

Сначала создается набор гистограмм ориентации в окрестностях размером 4×4 пикселя по 8 ячеек в каждой. Эти гистограммы вычисляются на основе значений величины и ориентации выборок в области 16×16 вокруг ключевой точки, так что каждая гистограмма содержит выборки из подобласти 4×4 исходной области окрестности. Величины и ориентации градиента изображения выбираются вокруг местоположения ключевой точки с использованием масштаба ключевой точки для выбора уровня размытия по Гауссу для изображения. Чтобы добиться инвариантности ориентации, координаты дескриптора и ориентации градиента поворачиваются относительно ориентации ключевой точки. Величины дополнительно взвешиваются с помощью функции Гаусса, равной половине ширины окна дескриптора. Затем дескриптор становится вектором всех значений этих гистограмм. Поскольку существует 4 × 4 = 16 гистограмм, каждая из которых имеет 8 ячеек, вектор имеет 128 элементов. Затем этот вектор нормализуется на единичную длину, чтобы повысить инвариантность к аффинным изменениям освещенности. Чтобы уменьшить влияние нелинейного освещения, применяется порог 0,2 и вектор снова нормализуется. Процесс определения порога, также называемый ограничением, может улучшить результаты сопоставления, даже если эффекты нелинейного освещения отсутствуют. ^[18] Порог 0,2 был выбран эмпирически, и заменив фиксированный порог на систематически рассчитанный, можно улучшить результаты сопоставления. ^[18] $\sigma$

Хотя размерность дескриптора, т.е. 128, кажется высокой, дескрипторы с более низкой размерностью не так хорошо работают в ряде задач сопоставления ^[2] , а вычислительные затраты остаются низкими из-за приближенного метода BBF (см. ниже). используется для поиска ближайшего соседа. Более длинные дескрипторы продолжают работать лучше, но ненамного, и существует дополнительная опасность повышенной чувствительности к искажениям и окклюзии. Также показано, что точность сопоставления объектов превышает 50% при изменении точки обзора до 50 градусов. Следовательно, дескрипторы SIFT инвариантны к незначительным аффинным изменениям. Чтобы проверить отличительность дескрипторов SIFT, точность сопоставления также измеряется по различному количеству ключевых точек в тестовой базе данных, и показано, что точность сопоставления снижается лишь очень незначительно для очень больших размеров базы данных, что указывает на то, что функции SIFT очень различимы.

Сравнение функций SIFT с другими локальными функциями

Было проведено обширное исследование по оценке производительности различных локальных дескрипторов, включая SIFT, с использованием ряда детекторов. ^[19] Основные результаты суммированы ниже:

SIFT и SIFT-подобные функции GLOH демонстрируют высочайшую точность сопоставления ( скорость отзыва ) для аффинного преобразования в 50 градусов. После этого предела преобразования результаты начинают становиться ненадежными.
Отличительность дескрипторов измеряется путем суммирования собственных значений дескрипторов, полученных в результате анализа главных компонент дескрипторов, нормированных по их дисперсии. Это соответствует величине дисперсии, фиксируемой различными дескрипторами, и, следовательно, их отличительности. PCA-SIFT (анализ основных компонентов, применяемый к дескрипторам SIFT), функции GLOH и SIFT дают самые высокие значения.
Дескрипторы на основе SIFT превосходят другие современные локальные дескрипторы как на текстурированных, так и на структурированных сценах, причем разница в производительности больше на текстурированной сцене.
Для изменений масштаба в диапазоне 2–2,5 и поворотов изображения в диапазоне от 30 до 45 градусов дескрипторы SIFT и дескрипторы на основе SIFT снова превосходят другие современные локальные дескрипторы как с текстурированным, так и со структурированным содержимым сцены.
Введение размытия влияет на все локальные дескрипторы, особенно на основанные на краях, например, shape context , поскольку края исчезают в случае сильного размытия. Но GLOH, PCA-SIFT и SIFT по-прежнему работали лучше остальных. Это также справедливо для оценки в случае изменения освещенности.

Проведенные оценки убедительно свидетельствуют о том, что дескрипторы на основе SIFT, которые привязаны к регионам, являются наиболее надежными и отличительными и, следовательно, лучше всего подходят для сопоставления признаков. Однако самые последние дескрипторы функций, такие как SURF, в этом исследовании не оценивались.

Позже было показано, что SURF имеет производительность, аналогичную SIFT, но в то же время намного быстрее. ^[20] Другие исследования пришли к выводу, что когда скорость не имеет решающего значения, SIFT превосходит SURF. ^[21]^[22] В частности, без учета эффектов дискретизации дескриптор чистого изображения в SIFT значительно лучше, чем дескриптор чистого изображения в SURF, тогда как экстремумы в масштабном пространстве определителя гессиана, лежащего в основе детектора чистой точки интереса в SURF, значительно составляют лучшие точки интереса по сравнению с экстремумами лапласиана в масштабном пространстве, для которых детектор точек интереса в SIFT представляет собой численное приближение. ^[21]

Производительность сопоставления изображений с помощью дескрипторов SIFT может быть улучшена в смысле достижения более высоких оценок эффективности и более низких оценок 1- точности путем замены экстремумов в масштабном пространстве оператора разности гауссианов в исходном SIFT экстремумами в масштабном пространстве определитель гессиана или, в более общем смысле, рассматривая более общее семейство обобщенных точек интереса в масштабном пространстве. ^[21]

Недавно была предложена небольшая вариация дескриптора, использующая нерегулярную сетку гистограмм, что значительно улучшает его производительность. ^[23] Вместо использования сетки ячеек гистограммы 4×4 все ячейки простираются до центра объекта. Это повышает устойчивость дескриптора к масштабируемым изменениям.

Было показано, что дескриптор SIFT-Rank ^[24] улучшает производительность стандартного дескриптора SIFT для сопоставления аффинных признаков. Дескриптор SIFT-ранга генерируется из стандартного дескриптора SIFT путем установки каждого интервала гистограммы на его ранг в отсортированном массиве интервалов. Евклидово расстояние между дескрипторами SIFT-Rank инвариантно к произвольным монотонным изменениям значений интервалов гистограммы и связано с коэффициентом ранговой корреляции Спирмена .

Приложения

Распознавание объектов с использованием функций SIFT

Учитывая способность SIFT находить отличительные ключевые точки, которые инвариантны к местоположению, масштабу и вращению, а также устойчивы к аффинным преобразованиям (изменениям масштаба , вращения , сдвига и положения) и изменениям освещения, их можно использовать для распознавания объектов. Шаги приведены ниже.

Сначала признаки SIFT получаются из входного изображения с использованием алгоритма, описанного выше.
Эти функции сопоставляются с базой данных функций SIFT, полученной из обучающих изображений. Это сопоставление объектов осуществляется с помощью подхода ближайшего соседа, основанного на евклидовом расстоянии. Чтобы повысить надежность, совпадения отклоняются для тех ключевых точек, для которых отношение расстояния до ближайшего соседа к расстоянию до второго ближайшего соседа превышает 0,8. Это отбрасывает многие ложные совпадения, возникающие из-за помех на фоне. Наконец, чтобы избежать дорогостоящего поиска, необходимого для поиска ближайшего соседа на основе евклидова расстояния, используется приблизительный алгоритм, называемый алгоритмом первого интервала. ^[14] Это быстрый метод возврата ближайшего соседа с высокой вероятностью, который может дать ускорение в 1000 раз при поиске ближайшего соседа (интересующего) в 95% случаев.
Хотя описанный выше тест на соотношение расстояний отбрасывает многие ложные совпадения, возникающие из-за помех на фоне, у нас все же есть совпадения, принадлежащие разным объектам. Поэтому, чтобы повысить надежность идентификации объекта, мы хотим кластеризовать те функции, которые принадлежат одному и тому же объекту, и отклонить совпадения, которые не учитываются в процессе кластеризации. Это делается с помощью преобразования Хафа . Это позволит определить кластеры объектов, которые голосуют за одну и ту же позу объекта. Когда обнаруживается, что кластеры признаков голосуют за одно и то же положение объекта, вероятность правильной интерпретации намного выше, чем для любого отдельного признака. Каждая ключевая точка голосует за набор поз объекта, которые соответствуют местоположению, масштабу и ориентации ключевой точки. Ячейки , набравшие не менее 3 голосов, идентифицируются как совпадения объекта/позы-кандидата.
Для каждого кластера-кандидата получается решение методом наименьших квадратов для наилучших оцененных параметров аффинной проекции, связывающих обучающее изображение с входным изображением. Если проекция ключевой точки через эти параметры находится в пределах половины диапазона ошибок, который использовался для параметров в бинах преобразования Хафа, совпадение ключевой точки сохраняется. Если после отбрасывания выбросов для интервала остается менее 3 точек, сопоставление объекта отклоняется. Аппроксимация методом наименьших квадратов повторяется до тех пор, пока не перестанут отклоняться. Это лучше работает для распознавания плоских поверхностей, чем для распознавания трехмерных объектов, поскольку аффинная модель больше не является точной для трехмерных объектов.
В этом журнале авторы ^[25] предложили новый подход к использованию дескрипторов SIFT для целей обнаружения нескольких объектов. Предлагаемый подход к обнаружению нескольких объектов тестируется на аэрофотоснимках и спутниковых изображениях.

Функции SIFT по существу могут применяться к любой задаче, требующей определения совпадающих мест между изображениями. Была проделана работа над такими приложениями, как распознавание определенных категорий объектов в 2D-изображениях, 3D-реконструкция, отслеживание и сегментация движения, локализация роботов, сшивание панорам изображений и эпиполярная калибровка. Некоторые из них более подробно обсуждаются ниже.

Локализация и картографирование роботов

В этом приложении ^[26] тринокулярная стереосистема используется для определения трехмерных оценок местоположений ключевых точек. Ключевые точки используются только тогда, когда они появляются на всех трех изображениях с постоянными различиями, что приводит к очень небольшому количеству выбросов. По мере движения робот локализует себя, используя сопоставление объектов с существующей 3D-картой, а затем постепенно добавляет объекты на карту, обновляя их 3D-позиции с помощью фильтра Калмана . Это обеспечивает надежное и точное решение проблемы локализации робота в неизвестных средах. Последние 3D-решатели используют направление ключевых точек для решения тринокулярной геометрии по трем ключевым точкам ^[27] и абсолютное положение только по двум ключевым точкам, ^{[28] —} часто игнорируемое, но полезное измерение, доступное в SIFT. Эти измерения ориентации уменьшают количество необходимых соответствий, что еще больше увеличивает надежность в геометрической прогрессии.

Сшивка панорам

Сопоставление функций SIFT можно использовать при сшивании изображений для полностью автоматизированной реконструкции панорамы из непанорамных изображений. Функции SIFT, извлеченные из входных изображений, сопоставляются друг с другом, чтобы найти k ближайших соседей для каждого объекта. Эти соответствия затем используются для поиска m изображений-кандидатов, соответствующих каждому изображению. Затем с помощью RANSAC вычисляются гомографии между парами изображений , а для проверки используется вероятностная модель. Поскольку ограничений на входные изображения нет, поиск по графу применяется для поиска связанных компонентов совпадений изображений, так что каждый связанный компонент будет соответствовать панораме. Наконец, для каждого связного пакета компонентов выполняется настройка для определения параметров совместной камеры, и панорама визуализируется с использованием многополосного смешивания. Из-за основанного на SIFT подхода к распознаванию объектов при сшивании панорам результирующая система нечувствительна к порядку, ориентации, масштабу и освещению изображений. Входные изображения могут содержать несколько панорам и шумовых изображений (некоторые из которых могут даже не быть частью составного изображения), а последовательности панорам распознаются и визуализируются как выходные данные. ^[29]

3D-моделирование, распознавание и отслеживание сцен.

Это приложение использует функции SIFT для распознавания 3D-объектов и 3D-моделирования в контексте дополненной реальности , в которой синтетические объекты с точной позой накладываются на реальные изображения. Сопоставление SIFT выполняется для нескольких 2D-изображений сцены или объекта, снятых под разными углами. Это используется с пакетной регулировкой , инициализированной на основе необходимой матрицы или трифокального тензора, для построения разреженной трехмерной модели просматриваемой сцены и одновременного восстановления положения камеры и параметров калибровки . Затем определяются положение, ориентация и размер виртуального объекта относительно системы координат восстановленной модели. Для онлайн- перемещения совпадений функции SIFT снова извлекаются из текущего видеокадра и сопоставляются с функциями, уже вычисленными для модели мира, в результате чего получается набор соответствий 2D-3D. Эти соответствия затем используются для вычисления текущей позы камеры для виртуальной проекции и окончательного рендеринга. Метод регуляризации используется для уменьшения джиттера в виртуальной проекции. ^[30] Использование направлений SIFT также использовалось для повышения надежности этого процесса. ^[27]^[28] 3D-расширения SIFT также были оценены на предмет истинного распознавания и поиска 3D-объектов. ^[31]^[32]

Дескрипторы в стиле 3D SIFT для распознавания действий человека

Были изучены расширения дескриптора SIFT на 2+1-мерные пространственно-временные данные в контексте распознавания действий человека в видеопоследовательностях. ^[31]^[33]^[34]^[35] Вычисление локальных зависимых от положения гистограмм в алгоритме 2D SIFT расширено с двух до трех измерений для описания функций SIFT в пространственно-временной области. Для применения к распознаванию действий человека в видеопоследовательности выборка обучающих видеороликов выполняется либо в пространственно-временных точках интереса, либо в случайно определенных местах, времени и масштабах. Пространственно-временные области вокруг этих точек интереса затем описываются с помощью дескриптора 3D SIFT. Эти дескрипторы затем группируются, образуя пространственно-временную модель «Мешок слов» . Дескрипторы 3D SIFT, извлеченные из тестовых видеороликов, затем сопоставляются с этими словами для классификации действий человека.

Авторы сообщают о гораздо лучших результатах при использовании своего подхода с использованием дескрипторов 3D SIFT, чем при использовании других подходов, таких как простые дескрипторы 2D SIFT и величина градиента. ^[36]

Анализ человеческого мозга на трехмерных магнитно-резонансных изображениях

Метод морфометрии на основе признаков (FBM) ^[37] использует экстремумы в разнице гауссовского масштабного пространства для анализа и классификации 3D магнитно-резонансных изображений (МРТ) человеческого мозга. FBM вероятностно моделирует изображение как коллаж независимых характеристик в зависимости от геометрии изображения и групповых меток, например, здоровых субъектов и субъектов с болезнью Альцгеймера (БА). Особенности сначала извлекаются из отдельных изображений из 4D-разности гауссовского масштабного пространства, а затем моделируются с точки зрения их внешнего вида, геометрии и статистики группового совместного появления в наборе изображений. FBM был проверен при анализе БА с использованием набора из ~200 объемных МРТ головного мозга человека, автоматически определяющих установленные показатели АД в головном мозге и классифицирующих легкую БА на новых изображениях с частотой 80%. ^[37]

Конкурирующие методы

Конкурирующие методы распознавания масштабно-инвариантных объектов в условиях помех/частичной окклюзии включают следующее.

RIFT ^[38] представляет собой инвариантное к вращению обобщение SIFT. Дескриптор RIFT строится с использованием круговых нормализованных участков, разделенных на концентрические кольца одинаковой ширины, и внутри каждого кольца вычисляется гистограмма ориентации градиента. Чтобы сохранить инвариантность вращения, ориентация измеряется в каждой точке относительно направления, направленного наружу от центра.

RootSIFT ^[39] — это вариант SIFT, который изменяет нормализацию дескриптора. Поскольку дескрипторы SIFT представляют собой гистограммы (и, как таковые, распределения вероятностей ), использование евклидова расстояния для определения их сходства не является естественным выбором. Сравнение таких дескрипторов с использованием мер сходства, адаптированных к распределениям вероятностей, таких как коэффициент Бхаттачарья (также известный как ядро Хеллингера), оказывается более полезным. Для этой цели первоначально нормализованный дескриптор сначала нормализуется и вычисляется квадратный корень каждого элемента с последующей перенормировкой. После этих алгебраических манипуляций дескрипторы RootSIFT обычно можно сравнивать с использованием евклидова расстояния , что эквивалентно использованию ядра Хеллингера для исходных дескрипторов SIFT. Эта схема нормализации, названная «L1-sqrt», ранее была введена для нормализации блоков функций HOG , вариант дескриптора расположения прямоугольных блоков (R-HOG) которых концептуально аналогичен дескриптору SIFT. $\ell ^{2}$ $\ell ^{1}$ $\ell ^{2}$

G-RIF: ^[40] Обобщенный устойчивый инвариантный признак — это общий дескриптор контекста, который кодирует ориентацию краев, плотность краев и информацию об оттенках в унифицированной форме, сочетая перцептивную информацию с пространственным кодированием. Схема распознавания объектов использует голосование на основе соседнего контекста для оценки объектных моделей.

« SURF : ^[41] Ускоренные надежные функции» — это высокопроизводительный, инвариантный к масштабу и вращению детектор/дескриптор точки интереса, который, как утверждается, аппроксимирует или даже превосходит ранее предложенные схемы в отношении повторяемости, отличительности и надежности. SURF полагается на интегральные изображения для свертки изображений, чтобы сократить время вычислений, опирается на сильные стороны ведущих существующих детекторов и дескрипторов (с использованием меры на основе быстрой матрицы Гессе для детектора и дескриптора на основе распределения). Он описывает распределение вейвлет-ответов Хаара в окрестности точки интереса. Интегральные изображения используются для повышения скорости, и используется только 64 измерения, что сокращает время на вычисление и сопоставление признаков. Шаг индексации основан на знаке лапласиана , что увеличивает скорость сопоставления и надежность дескриптора.

PCA-SIFT ^[42] и GLOH ^[19] являются вариантами SIFT. Дескриптор PCA-SIFT представляет собой вектор градиентов изображения в направлениях x и y, вычисляемый в пределах поддерживаемой области. Область градиента отбирается в местоположениях 39×39, поэтому вектор имеет размерность 3042. Размерность уменьшается до 36 с помощью PCA . Градиентная гистограмма местоположения-ориентации ( GLOH ) — это расширение дескриптора SIFT, предназначенное для повышения его надежности и отличительности. Дескриптор SIFT вычисляется для логарифмически-полярной сетки местоположения с тремя интервалами в радиальном направлении (радиус установлен на 6, 11 и 15) и 8 в угловом направлении, что приводит к 17 интервалам определения местоположения. Центральный бункер не разделен по угловым направлениям. Ориентации градиента квантуются в 16 интервалах, в результате чего получается 272-элементная гистограмма. Размер этого дескриптора уменьшается с помощью PCA . Ковариационная матрица для PCA оценивается на участках изображений, собранных из различных изображений. Для описания используются 128 крупнейших собственных векторов .

Gauss-SIFT ^[21] представляет собой дескриптор чистого изображения, определяемый путем выполнения всех измерений изображения, лежащих в основе дескриптора чистого изображения в SIFT, с помощью ответов производной Гаусса, в отличие от производных аппроксимаций в пирамиде изображений, как это делается в обычном SIFT. Таким образом, эффекты дискретизации по пространству и масштабу могут быть сведены к минимуму, что позволяет получить потенциально более точные дескрипторы изображений. В Линдеберге (2015) ^[21] такие чистые дескрипторы изображений Gauss-SIFT были объединены с набором точек интереса в обобщенном масштабном пространстве, включающих лапласиан гауссиана , определитель гессиана , четыре новых беззнаковых или знаковых показателя силы гессианского признака , как а также точки интересов Харриса-Лапласа и Ши-и-Томази . В обширной экспериментальной оценке набора данных плакатов, включающего несколько изображений 12 плакатов с преобразованием масштабирования до 6 раз и изменением направления просмотра до угла наклона 45 градусов, было показано, что существенное увеличение производительности сопоставления изображений (более высокие оценки эффективности и более низкие оценки точности 1 ) могут быть получены путем замены лапласиана гауссовских процентных точек на определитель гессианских процентных точек. Поскольку процентные точки разности гауссианов представляют собой численную аппроксимацию лапласиана гауссовских процентных точек, это показывает, что существенное увеличение производительности сопоставления возможно путем замены процентных точек разности гауссианов в SIFT определителем процентных точек гессенского типа. . Кроме того, дополнительное увеличение производительности может быть получено путем рассмотрения меры силы беззнакового гессиана . Количественное сравнение дескриптора Gauss-SIFT и соответствующего дескриптора Gauss-SURF также показало, что Gauss-SIFT в целом работает значительно лучше, чем Gauss-SURF, для большого количества детекторов точек интереса в различных масштабных пространствах. Таким образом, это исследование показывает, что без учета эффектов дискретизации дескриптор чистого изображения в SIFT значительно лучше, чем дескриптор чистого изображения в SURF, тогда как базовый детектор точек интереса в SURF, который можно рассматривать как численную аппроксимацию экстремумов в масштабном пространстве определителя гессиан значительно лучше, чем базовый детектор точек интереса в SIFT. $D_{1}L=\operatorname {det} HL-k\,\operatorname {trace} ^{2}HL\,{\mbox{if}}\operatorname {det} HL-k\,\operatorname {trace} ^{2}HL>0\,{\mbox{or 0 otherwise}}$

Вагнер и др. разработала два алгоритма распознавания объектов, специально разработанных с учетом ограничений современных мобильных телефонов. ^[43] В отличие от классического подхода SIFT, Wagner et al. используйте угловой детектор FAST для обнаружения объектов. Алгоритм также различает фазу автономной подготовки, на которой объекты создаются на разных уровнях масштаба, и фазу онлайн, на которой функции создаются только на текущем фиксированном уровне масштаба изображения камеры телефона. Кроме того, объекты создаются из фиксированного размера фрагмента 15×15 пикселей и образуют дескриптор SIFT, имеющий всего 36 измерений. Этот подход был дополнительно расширен за счет интеграции масштабируемого словарного дерева в конвейер распознавания. ^[44] Это позволяет эффективно распознавать большее количество объектов на мобильных телефонах. Подход в основном ограничен объемом доступной оперативной памяти .

KAZE и A-KAZE (KAZE Features и Accelerated-Kaze Features) — это новый метод обнаружения и описания 2D-функций, который работает лучше по сравнению с SIFT и SURF. Он приобретает большую популярность благодаря открытому исходному коду. Первоначально KAZE создали Пабло Ф. Алькантарилья, Адриен Бартоли и Эндрю Дж. Дэвисон. ^[45]

Смотрите также

Внешние ссылки

Связанные исследования:

Инвариантные отношения между 3D и 2D проекциями наборов точек, Журнал исследований в области распознавания образов (JPRR). Архивировано 8 сентября 2008 г. в Wayback Machine , Vol. 3, № 1, 2008.
Лоу, Д.Г., «Отличительные особенности изображения по масштабно-инвариантным ключевым точкам», Международный журнал компьютерного зрения, 60, 2, стр. 91–110, 2004 г.
Миколайчик К. и Шмид К., «Оценка производительности локальных дескрипторов», IEEE Transactions on Pattern Analysis and Machine Intelligence, 10, 27, стр. 1615–1630, 2005. Архивировано 6 апреля 2019 г. на Wayback . Машина
Андреа Марисела Пласа Кордеро, Хорхе Луис Самбрано-Мартинес, «Эстудия и выбор технических средств SIFT, SURF и ASIFT de Reconocimiento de Imágenes para el Diseño de un Prototipo en Dispositivos Móviles», 15-й конкурс Trabajos Estudiantiles, EST 2012
«PCA-SIFT: более четкое представление дескрипторов локальных изображений». Архивировано из оригинала 26 января 2020 года.
Лазебник С. , Шмид К. и Понсе Дж., Полулокальные аффинные части для распознавания объектов, BMVC, 2004. Архивировано 11 октября 2017 г. на Wayback Machine.

Учебники:

Масштабно-инвариантное преобразование признаков (SIFT) в Scholarpedia
Простое пошаговое руководство по SIFT
«SIFT для обнаружения нескольких объектов». Архивировано из оригинала 3 апреля 2015 года.
«Анатомия метода SIFT» в онлайн-обработке изображений, подробное изучение каждого шага алгоритма с реализацией с открытым исходным кодом и веб-демо для проверки различных параметров.

Реализации:

Реализация SIFT Роба Хесса, доступ 21 ноября 2012 г.
ASIFT (Affine SIFT): сопоставление большой точки зрения с SIFT, с исходным кодом и онлайн-демонстрацией.
VLFeat, библиотека компьютерного зрения с открытым исходным кодом на языке C (с интерфейсом MEX для MATLAB), включая реализацию SIFT.
LIP-VIREO. Архивировано 11 мая 2017 г. на Wayback Machine . Набор инструментов для извлечения функций ключевых точек (двоичные файлы для Windows, Linux и SunOS), включая реализацию SIFT.
(Параллельный) SIFT на C#, алгоритм SIFT на C# с использованием Emgu CV, а также модифицированная параллельная версия алгоритма.
DoH и LoG + аффинный детектор Blob, адаптированный из набора инструментов SIFT
ezSIFT: простая в использовании автономная реализация SIFT на C/C++. Автономная реализация SIFT с открытым исходным кодом, не требующая других библиотек.
Реализация 3D SIFT: обнаружение и сопоставление объемных изображений.