Аксиомы масштабного пространства

В обработке изображений и компьютерном зрении фреймворк масштабного пространства может использоваться для представления изображения как семейства постепенно сглаженных изображений. Этот фреймворк является очень общим, и существует множество представлений масштабного пространства . Типичный подход к выбору конкретного типа представления масштабного пространства заключается в установлении набора аксиом масштабного пространства , описывающих основные свойства желаемого представления масштабного пространства и часто выбираемых таким образом, чтобы сделать представление полезным в практических приложениях. После установления аксиомы сужают возможные представления масштабного пространства до меньшего класса, обычно с несколькими свободными параметрами.

Набор стандартных аксиом масштабного пространства, обсуждаемых ниже, приводит к линейному гауссову масштабному пространству, которое является наиболее распространенным типом масштабного пространства, используемого в обработке изображений и компьютерном зрении.

Аксиомы масштабного пространства для линейного представления масштабного пространства

Представление сигнала в линейном масштабном пространстве , полученное путем сглаживания с помощью гауссовского ядра, удовлетворяет ряду свойств « аксиом масштабного пространства» , которые делают его особой формой многомасштабного представления: $L(x,y,t)=(T_{t}f)(x,y)=g(x,y,t)*f(x,y)$ $f(x,y)$ $g(x,y,t)$

линейность: $T_{t}(af+bh)=aT_{t}f+bT_{t}h$; где и являются сигналами, а и являются константами, $f$ $ч$ $а$ $б$
инвариантность сдвига: $T_{t}S_{(\Delta x,\Delta _{y})}f=S_{(\Delta x,\Delta _{y})}T_{t}f$; где обозначает оператор сдвига (трансляции) $S_{(\Delta x,\Delta _{y})}$ $(S_{(\Delta x,\Delta _{y})}f)(x,y)=f(x-\Delta x,y-\Delta y)$
структура полугруппы: $g(x,y,t_{1})*g(x,y,t_{2})=g(x,y,t_{1}+t_{2})$; с соответствующим свойством каскадного сглаживания; $L(x,y,t_{2})=g(x,y,t_{2}-t_{1})*L(x,y,t_{1})$
существование бесконечно малого генератора $А$: $\partial _{t}L(x,y,t)=(AL)(x,y,t)$
не создание локальных экстремумов (переходов через ноль) в одном измерении,
отсутствие усиления локальных экстремумов в любом количестве измерений: $\partial _{t}L(x,y,t)\leq 0$ в пространственных максимумах и в пространственных минимумах, $\partial _{t}L(x,y,t)\geq 0$
вращательная симметрия: $g(x,y,t)=h(x^{2}+y^{2},t)$ для некоторой функции , $ч$
масштабная инвариантность: ${\hat {g}}(\omega _{x},\omega _{y},t)={\hat {h}}({\frac {\omega _{x}}{\varphi (t)}},{\frac {\omega _{x}}{\varphi (t)}})$; для некоторых функций и где обозначает преобразование Фурье , $\varphi$ ${\шляпа {h}}$ ${\шляпа {г}}$ $г$
позитивность: $g(x,y,t)\geq 0$ ,
нормализация: $\int _{x=-\infty}^{\infty}\int _{y=-\infty}^{\infty}g(x,y,t)\,dx\,dy=1$ .

Фактически, можно показать, что гауссово ядро является уникальным выбором , учитывая несколько различных комбинаций подмножеств этих аксиом масштабного пространства: ^[1]^[2]^[3]^[4]^[5]^{[6] [7}^{] [}^8]^[9]^[10]^[11] большинство аксиом (линейность, инвариантность к сдвигу, полугруппа) соответствуют масштабированию, являющемуся полугруппой инвариантных к сдвигу линейных операторов, что удовлетворяется рядом семейств интегральных преобразований , в то время как «несоздание локальных экстремумов» ^[4] для одномерных сигналов или «неусиление локальных экстремумов» ^[4]^[7]^[10] для многомерных сигналов являются важнейшими аксиомами, которые связывают масштабные пространства со сглаживанием (формально, параболическими уравнениями в частных производных ) и, следовательно, выбирают гауссово.

Гауссово ядро также разделимо в декартовых координатах, т.е. . Разделимость, однако, не считается аксиомой масштабного пространства, поскольку это свойство, зависящее от координат и связанное с вопросами реализации. Кроме того, требование разделимости в сочетании с вращательной симметрией per se фиксирует сглаживающее ядро как гауссово. $g(x,y,t)=g(x,t)\,g(y,t)$

Существует обобщение теории гауссовского масштабного пространства на более общие аффинные и пространственно-временные масштабные пространства. ^[10]^[11] В дополнение к изменчивости по масштабу, для обработки которой была разработана исходная теория масштабного пространства, эта обобщенная теория масштабного пространства также включает в себя другие типы изменчивости, включая деформации изображения, вызванные изменениями просмотра, аппроксимированные локальными аффинными преобразованиями , и относительные движения между объектами в мире и наблюдателем, аппроксимированные локальными галилеевыми преобразованиями . В этой теории вращательная симметрия не навязывается как необходимая аксиома масштабного пространства и вместо этого заменяется требованиями аффинной и/или галилеевой ковариации. Обобщенная теория масштабного пространства приводит к предсказаниям о профилях рецептивного поля в хорошем качественном согласии с профилями рецептивного поля, измеренными с помощью клеточных записей в биологическом зрении. ^[12]^[13]^[14]

В литературе по компьютерному зрению , обработке изображений и обработке сигналов есть много других многомасштабных подходов, использующих вейвлеты и множество других ядер, которые не используют или не требуют тех же требований, что и описания масштабного пространства ; см. статью о связанных многомасштабных подходах . Также была проведена работа над концепциями дискретного масштабного пространства, которые переносят свойства масштабного пространства в дискретную область; см. статью о реализации масштабного пространства для примеров и ссылок.

Смотрите также

Масштабная реализация пространства

Ссылки

^ Koenderink, Jan J. (август 1984). «Структура изображений». Biological Cybernetics . 50 (5): 363–370. doi :10.1007/bf00336961. PMID 6477978. S2CID 206775432.
^ Бабо, Жан; Виткин, Эндрю П.; Боден, Мишель; Дуда, Ричард О. (1986). «Уникальность гауссовского ядра для фильтрации в масштабном пространстве». Труды IEEE по анализу шаблонов и машинному интеллекту . 8 (1): 26–33. doi :10.1109/TPAMI.1986.4767749. PMID 21869320. S2CID 18295906.
^ Юйл, Алан Л.; Поджио, Томазо А. (1986). «Теоремы масштабирования для переходов через нуль». Труды IEEE по анализу шаблонов и машинному интеллекту . 8 (1): 15–25. doi : 10.1109/TPAMI.1986.4767748. hdl : 1721.1/5655 . PMID 21869319. S2CID 14815630.
^ abc Lindeberg, T. (1990). «Масштабное пространство для дискретных сигналов». Труды IEEE по анализу образов и машинному интеллекту . 12 (3): 234–254. doi :10.1109/34.49051.
^ Линдеберг, Тони, Теория масштабного пространства в компьютерном зрении, Kluwer, 1994,
^ Пауэлс, Э. Дж.; Ван Гул, Л. Дж.; Фидделаерс, П.; Мунс, Т. (1995). «Расширенный класс масштабно-инвариантных и рекурсивных масштабно-пространственных фильтров». Труды IEEE по анализу шаблонов и машинному интеллекту . 17 (7): 691–701. doi :10.1109/34.391411.
^ ab Lindeberg, Tony (май 1996). «Об аксиоматических основах линейного масштабного пространства: объединение структуры полугруппы с причинностью против масштабной инвариантности». В Sporring, J.; et al. (ред.). Гауссовская теория масштабного пространства: Proc. PhD School on Scale-Space Theory. Копенгаген, Дания: Kluwer Academic Publishers. стр. 75–98. urn : nbn:se:kth:diva-40221 .
^ Флорак, Люк, Структура изображения, Kluwer Academic Publishers, 1997.
^ Вайкерт, Иоахим; Ишикава, Сейджи; Имия, Ацуши (1999). «Линейное масштабное пространство впервые было предложено в Японии». Журнал математического изображения и зрения . 10 (3): 237–252. doi :10.1023/A:1008344623873. S2CID 17835046.
^ abc Линдеберг, Тони (2011). «Обобщенная аксиоматика гауссова масштабного пространства, включающая линейное масштабное пространство, аффинное масштабное пространство и пространственно-временное масштабное пространство». Журнал математической визуализации и зрения . 40 : 36–81. doi :10.1007/s10851-010-0242-2. S2CID 950099.
^ ab Lindeberg, Tony (2013). Обобщенная аксиоматическая теория масштабного пространства. Advances in Imaging and Electron Physics. Vol. 178. pp. 1–96. doi :10.1016/B978-0-12-407701-0.00001-7. ISBN 9780124077010.
^ Линдеберг, Тони (2013). «Вычислительная теория визуальных рецептивных полей». Биологическая кибернетика . 107 (6): 589–635. doi :10.1007/s00422-013-0569-z. PMC 3840297. PMID 24197240 .
^ Линдеберг, Тони (2013). «Инвариантность зрительных операций на уровне рецептивных полей». PLOS ONE . 8 (7): e66990. arXiv : 1210.0754 . Bibcode : 2013PLoSO...866990L. doi : 10.1371/journal.pone.0066990 . PMC 3716821. PMID 23894283 .
^ Линдеберг, Тони (2021). «Нормативная теория визуальных рецептивных полей». Heliyon . 7 (1): e05897. Bibcode :2021Heliy...705897L. doi : 10.1016/j.heliyon.2021.e05897 . PMC 7820928 . PMID 33521348.