В обработке изображений и компьютерном зрении фреймворк масштабного пространства может использоваться для представления изображения как семейства постепенно сглаженных изображений. Этот фреймворк является очень общим, и существует множество представлений масштабного пространства . Типичный подход к выбору конкретного типа представления масштабного пространства заключается в установлении набора аксиом масштабного пространства , описывающих основные свойства желаемого представления масштабного пространства и часто выбираемых таким образом, чтобы сделать представление полезным в практических приложениях. После установления аксиомы сужают возможные представления масштабного пространства до меньшего класса, обычно с несколькими свободными параметрами.
Набор стандартных аксиом масштабного пространства, обсуждаемых ниже, приводит к линейному гауссову масштабному пространству, которое является наиболее распространенным типом масштабного пространства, используемого в обработке изображений и компьютерном зрении.
Аксиомы масштабного пространства для линейного представления масштабного пространства
Представление сигнала в линейном масштабном пространстве , полученное путем сглаживания с помощью гауссовского ядра, удовлетворяет ряду свойств « аксиом масштабного пространства» , которые делают его особой формой многомасштабного представления:
- линейность
- где и являются сигналами, а и являются константами,
- инвариантность сдвига
- где обозначает оператор сдвига (трансляции)
- структура полугруппы
- с соответствующим свойством каскадного сглаживания
- существование бесконечно малого генератора
- не создание локальных экстремумов (переходов через ноль) в одном измерении,
- отсутствие усиления локальных экстремумов в любом количестве измерений
- в пространственных максимумах и в пространственных минимумах,
- вращательная симметрия
- для некоторой функции ,
- масштабная инвариантность
- для некоторых функций и где обозначает преобразование Фурье ,
- позитивность
- ,
- нормализация
- .
Фактически, можно показать, что гауссово ядро является уникальным выбором , учитывая несколько различных комбинаций подмножеств этих аксиом масштабного пространства: [1] [2] [3] [4] [5] [6] [7 ] [ 8] [9] [10] [11]
большинство аксиом (линейность, инвариантность к сдвигу, полугруппа) соответствуют масштабированию, являющемуся полугруппой инвариантных к сдвигу линейных операторов, что удовлетворяется рядом семейств интегральных преобразований , в то время как «несоздание локальных экстремумов» [4] для одномерных сигналов или «неусиление локальных экстремумов» [4] [7] [10] для многомерных сигналов являются важнейшими аксиомами, которые связывают масштабные пространства со сглаживанием (формально, параболическими уравнениями в частных производных ) и, следовательно, выбирают гауссово.
Гауссово ядро также разделимо в декартовых координатах, т.е. . Разделимость, однако, не считается аксиомой масштабного пространства, поскольку это свойство, зависящее от координат и связанное с вопросами реализации. Кроме того, требование разделимости в сочетании с вращательной симметрией per se фиксирует сглаживающее ядро как гауссово.
Существует обобщение теории гауссовского масштабного пространства на более общие аффинные и пространственно-временные масштабные пространства. [10] [11] В дополнение к изменчивости по масштабу, для обработки которой была разработана исходная теория масштабного пространства, эта обобщенная теория масштабного пространства также включает в себя другие типы изменчивости, включая деформации изображения, вызванные изменениями просмотра, аппроксимированные локальными аффинными преобразованиями , и относительные движения между объектами в мире и наблюдателем, аппроксимированные локальными галилеевыми преобразованиями . В этой теории вращательная симметрия не навязывается как необходимая аксиома масштабного пространства и вместо этого заменяется требованиями аффинной и/или галилеевой ковариации. Обобщенная теория масштабного пространства приводит к предсказаниям о профилях рецептивного поля в хорошем качественном согласии с профилями рецептивного поля, измеренными с помощью клеточных записей в биологическом зрении. [12] [13] [14]
В литературе по компьютерному зрению , обработке изображений и обработке сигналов есть много других многомасштабных подходов, использующих вейвлеты и множество других ядер, которые не используют или не требуют тех же требований, что и описания масштабного пространства ; см. статью о связанных многомасштабных подходах . Также была проведена работа над концепциями дискретного масштабного пространства, которые переносят свойства масштабного пространства в дискретную область; см. статью о реализации масштабного пространства для примеров и ссылок.
Смотрите также
Ссылки
- ^ Koenderink, Jan J. (август 1984). «Структура изображений». Biological Cybernetics . 50 (5): 363–370. doi :10.1007/bf00336961. PMID 6477978. S2CID 206775432.
- ^ Бабо, Жан; Виткин, Эндрю П.; Боден, Мишель; Дуда, Ричард О. (1986). «Уникальность гауссовского ядра для фильтрации в масштабном пространстве». Труды IEEE по анализу шаблонов и машинному интеллекту . 8 (1): 26–33. doi :10.1109/TPAMI.1986.4767749. PMID 21869320. S2CID 18295906.
- ^ Юйл, Алан Л.; Поджио, Томазо А. (1986). «Теоремы масштабирования для переходов через нуль». Труды IEEE по анализу шаблонов и машинному интеллекту . 8 (1): 15–25. doi : 10.1109/TPAMI.1986.4767748. hdl : 1721.1/5655 . PMID 21869319. S2CID 14815630.
- ^ abc Lindeberg, T. (1990). «Масштабное пространство для дискретных сигналов». Труды IEEE по анализу образов и машинному интеллекту . 12 (3): 234–254. doi :10.1109/34.49051.
- ^ Линдеберг, Тони, Теория масштабного пространства в компьютерном зрении, Kluwer, 1994,
- ^ Пауэлс, Э. Дж.; Ван Гул, Л. Дж.; Фидделаерс, П.; Мунс, Т. (1995). «Расширенный класс масштабно-инвариантных и рекурсивных масштабно-пространственных фильтров». Труды IEEE по анализу шаблонов и машинному интеллекту . 17 (7): 691–701. doi :10.1109/34.391411.
- ^ ab Lindeberg, Tony (май 1996). «Об аксиоматических основах линейного масштабного пространства: объединение структуры полугруппы с причинностью против масштабной инвариантности». В Sporring, J.; et al. (ред.). Гауссовская теория масштабного пространства: Proc. PhD School on Scale-Space Theory. Копенгаген, Дания: Kluwer Academic Publishers. стр. 75–98. urn : nbn:se:kth:diva-40221 .
- ^ Флорак, Люк, Структура изображения, Kluwer Academic Publishers, 1997.
- ^ Вайкерт, Иоахим; Ишикава, Сейджи; Имия, Ацуши (1999). «Линейное масштабное пространство впервые было предложено в Японии». Журнал математического изображения и зрения . 10 (3): 237–252. doi :10.1023/A:1008344623873. S2CID 17835046.
- ^ abc Линдеберг, Тони (2011). «Обобщенная аксиоматика гауссова масштабного пространства, включающая линейное масштабное пространство, аффинное масштабное пространство и пространственно-временное масштабное пространство». Журнал математической визуализации и зрения . 40 : 36–81. doi :10.1007/s10851-010-0242-2. S2CID 950099.
- ^ ab Lindeberg, Tony (2013). Обобщенная аксиоматическая теория масштабного пространства. Advances in Imaging and Electron Physics. Vol. 178. pp. 1–96. doi :10.1016/B978-0-12-407701-0.00001-7. ISBN 9780124077010.
- ^ Линдеберг, Тони (2013). «Вычислительная теория визуальных рецептивных полей». Биологическая кибернетика . 107 (6): 589–635. doi :10.1007/s00422-013-0569-z. PMC 3840297. PMID 24197240 .
- ^ Линдеберг, Тони (2013). «Инвариантность зрительных операций на уровне рецептивных полей». PLOS ONE . 8 (7): e66990. arXiv : 1210.0754 . Bibcode : 2013PLoSO...866990L. doi : 10.1371/journal.pone.0066990 . PMC 3716821. PMID 23894283 .
- ^ Линдеберг, Тони (2021). «Нормативная теория визуальных рецептивных полей». Heliyon . 7 (1): e05897. Bibcode :2021Heliy...705897L. doi : 10.1016/j.heliyon.2021.e05897 . PMC 7820928 . PMID 33521348.