stringtranslate.com

Пирамида (обработка изображений)

Визуальное представление пирамиды изображений с 5 уровнями

Пирамида , или пирамидальное представление , — это тип многомасштабного представления сигнала , разработанный сообществами компьютерного зрения , обработки изображений и обработки сигналов , в котором сигнал или изображение подвергается многократному сглаживанию и подвыборке . Пирамидальное представление является предшественником масштабно-пространственного представления и многомасштабного анализа .

Пирамидальное поколение

Существует два основных типа пирамид: низкочастотные и полосовые.

Пирамида нижних частот создается путем сглаживания изображения соответствующим сглаживающим фильтром, а затем субдискретизации сглаженного изображения, обычно с коэффициентом 2 вдоль каждого направления координат. Затем полученное изображение подвергается той же процедуре, и цикл повторяется несколько раз. Каждый цикл этого процесса приводит к меньшему изображению с увеличенным сглаживанием, но с уменьшенной пространственной плотностью выборки (то есть уменьшенным разрешением изображения). Если проиллюстрировать графически, все многомасштабное представление будет выглядеть как пирамида с исходным изображением внизу и результирующим меньшим изображением каждого цикла, наложенным друг на друга.

Пирамида с полосой пропускания создается путем формирования разницы между изображениями на соседних уровнях в пирамиде и выполнения интерполяции изображений между соседними уровнями разрешения для обеспечения возможности вычисления попиксельных различий. [1]

Ядра генерации пирамиды

Для создания пирамид было предложено множество различных сглаживающих ядер . [2] [3] [4] [5] [6] [7] Среди выдвинутых предложений биномиальные ядра , возникающие из биномиальных коэффициентов , выделяются как особенно полезный и теоретически обоснованный класс. [3] [8] [9] [10] [11] [12] Таким образом, имея двумерное изображение, мы можем применить (нормализованный) биномиальный фильтр (1/4, 1/2, 1/4), как правило, дважды или более вдоль каждого пространственного измерения, а затем выполнить субдискретизацию изображения с коэффициентом два. Затем эта операция может повторяться столько раз, сколько необходимо, что приводит к компактному и эффективному многомасштабному представлению. Если это мотивировано конкретными требованиями, могут также генерироваться промежуточные уровни масштаба, где этап субдискретизации иногда опускается, что приводит к сверхдискретизированной или гибридной пирамиде . [11] С ростом вычислительной эффективности современных процессоров в некоторых ситуациях становится возможным использовать более широко поддерживаемые гауссовские фильтры в качестве сглаживающих ядер на этапах генерации пирамиды.

Пирамида Гаусса

В гауссовой пирамиде последующие изображения утяжеляются с использованием гауссового среднего ( гауссово размытие ) и уменьшаются в масштабе. Каждый пиксель, содержащий локальное среднее, соответствует соседнему пикселю на более низком уровне пирамиды. Этот метод используется, в частности, при синтезе текстур .

Пирамида Лапласа

Пирамида Лапласа очень похожа на пирамиду Гаусса, но сохраняет разностное изображение размытых версий между каждым уровнем. Только самый маленький уровень не является разностным изображением, чтобы обеспечить реконструкцию изображения с высоким разрешением с использованием разностных изображений на более высоких уровнях. Этот метод может использоваться при сжатии изображений . [13]

Управляемая пирамида

Управляемая пирамида, разработанная Симончелли и другими, представляет собой реализацию банка многомасштабных, многоориентационных полосовых фильтров, используемых для приложений, включая сжатие изображений , синтез текстур и распознавание объектов . Ее можно рассматривать как ориентационно-избирательную версию пирамиды Лапласа, в которой на каждом уровне пирамиды используется банк управляемых фильтров вместо одного фильтра Лапласа или Гаусса . [14] [15] [16]

Применение пирамид

Альтернативное представительство

На заре компьютерного зрения пирамиды использовались в качестве основного типа многомасштабного представления для вычисления многомасштабных характеристик изображения из реальных данных изображения. Более поздние методы включают масштабно-пространственное представление , которое было популярно среди некоторых исследователей из-за его теоретической основы, возможности отделить этап подвыборки от многомасштабного представления, более мощных инструментов для теоретического анализа, а также возможности вычислять представление в любом желаемом масштабе, тем самым избегая алгоритмических проблем соотнесения представлений изображений с разным разрешением. Тем не менее, пирамиды по-прежнему часто используются для выражения вычислительно эффективных приближений к масштабно-пространственному представлению . [11] [17] [18]

Манипуляция деталями

Уровни пирамиды Лапласа могут быть добавлены или удалены из исходного изображения для усиления или уменьшения детализации в разных масштабах. Однако известно, что манипуляция деталями этой формы во многих случаях приводит к появлению артефактов гало, что приводит к разработке альтернатив, таких как двусторонний фильтр .

Некоторые форматы файлов сжатия изображений используют алгоритм Adam7 или некоторые другие методы чересстрочной развертки . Их можно рассматривать как своего рода пирамиду изображений. Поскольку эти форматы файлов сначала сохраняют «крупномасштабные» особенности, а мелкие детали — позже в файле, конкретный зритель, отображающий небольшую «миниатюру» или на маленьком экране, может быстро загрузить ровно столько изображения, сколько нужно, чтобы отобразить его в доступных пикселях, — поэтому один файл может поддерживать множество разрешений зрителя, вместо того чтобы хранить или генерировать разные файлы для каждого разрешения.

Смотрите также

Ссылки

  1. ^ Э. Х. Андерсон и К. Х. Андерсон и Дж. Р. Берген и П. Дж. Берт и Дж. М. Огден. «Пирамидные методы в обработке изображений». 1984.
  2. ^ Burt, PJ (май 1981). «Быстрое фильтровое преобразование для обработки изображений». Computer Graphics and Image Processing . 16 : 20–51. doi :10.1016/0146-664X(81)90092-7.
  3. ^ ab Crowley, James L. (ноябрь 1981 г.). «Представление визуальной информации». Университет Карнеги-Меллона, Институт робототехники. технический отчет CMU-RI-TR-82-07. {{cite journal}}: Цитировать журнал требует |journal=( помощь )
  4. ^ Берт, Питер; Адельсон, Тед (1983). «Пирамида Лапласа как компактный код изображения» (PDF) . IEEE Transactions on Communications . 9 (4): 532–540. CiteSeerX 10.1.1.54.299 . doi :10.1109/TCOM.1983.1095851. S2CID  8018433. 
  5. ^ Crowley, JL; Parker, AC (март 1984). «Представление формы на основе пиков и гребней в разнице низкочастотного преобразования». IEEE Transactions on Pattern Analysis and Machine Intelligence . 6 (2): 156–170. CiteSeerX 10.1.1.161.3102 . doi :10.1109/TPAMI.1984.4767500. PMID  21869180. S2CID  14348919. 
  6. ^ Кроули, Дж. Л.; Сандерсон, А. С. (1987). «Представление с множественным разрешением и вероятностное сопоставление двумерной серой формы» (PDF) . Труды IEEE по анализу образов и машинному интеллекту . 9 (1): 113–121. CiteSeerX 10.1.1.1015.9294 . doi :10.1109/tpami.1987.4767876. PMID  21869381. S2CID  14999508. 
  7. ^ Meer, P.; Baugher, ES; Rosenfeld, A. (1987). «Анализ частотной области и синтез ядер генерации изображений». IEEE Transactions on Pattern Analysis and Machine Intelligence . 9 (4): 512–522. doi :10.1109/tpami.1987.4767939. PMID  21869409. S2CID  5978760.
  8. ^ Линдеберг, Тони, «Масштабное пространство для дискретных сигналов», PAMI(12), № 3, март 1990 г., стр. 234-254.
  9. ^ Хаддад, РА; Акансу, АН (март 1991 г.). «Класс быстрых гауссовых биномиальных фильтров для обработки речи и изображений» (PDF) . Труды IEEE по обработке сигналов . 39 (3): 723–727. Bibcode : 1991ITSP...39..723H. doi : 10.1109/78.80892.
  10. ^ Линдеберг, Тони. Теория масштабного пространства в компьютерном зрении, Kluwer Academic Publishers, 1994, ISBN 0-7923-9418-6 (см. в частности Главу 2 для обзора гауссовых и лапласовских пирамид изображений и Главу 3 для теории об обобщенных биномиальных ядрах и дискретных гауссовых ядрах) 
  11. ^ abc Линдеберг, Т. и Бретцнер, Л. Выбор масштаба в реальном времени в гибридных многомасштабных представлениях, Proc. Scale-Space'03, остров Скай, Шотландия, Springer Lecture Notes in Computer Science, том 2695, страницы 148-163, 2003.
  12. ^ См. статью о многомасштабных подходах для очень краткого теоретического изложения.
  13. ^ Берт, Питер Дж.; Адельсон, Эдвард Х. (1983). «Пирамида Лапласа как компактный код изображения» (PDF) . IEEE Transactions on Communications . 31 (4): 532–540. CiteSeerX 10.1.1.54.299 . doi :10.1109/TCOM.1983.1095851. S2CID  8018433. 
  14. ^ Симончелли, Ээро. «Управляемая пирамида». cns.nyu.edu.
  15. ^ Мандучи, Роберто; Перона, Пьетро; Шай, Дуг (1997). «Эффективные деформируемые банки фильтров» (PDF) . Калифорнийский технологический институт / Падуанский университет .
    Также в Manduchi, R.; Perona, P.; Shy, D. (1998). «Эффективные деформируемые банки фильтров». IEEE Transactions on Signal Processing . 46 (4): 1168–1173. Bibcode : 1998ITSP...46.1168M. CiteSeerX 10.1.1.5.3102 . doi : 10.1109/78.668570. 
  16. ^ Кляйн, Стэнли А.; Карни, Том; Баргхаут-Штайн, Лорен; Тайлер, Кристофер В. (1997). «Семь моделей маскировки». В Роговиц, Бернис Э.; Паппас, Трасивулос Н. (ред.). Человеческое зрение и электронная визуализация II . Т. 3016. С. 13–24. doi :10.1117/12.274510. S2CID  8366504.
  17. ^ Кроули, Дж., Рифф О. Быстрое вычисление масштабно-нормализованных гауссовых рецептивных полей, Proc. Scale-Space'03, остров Скай, Шотландия, Springer Lecture Notes in Computer Science , том 2695, 2003.
  18. ^ Лоу, Д. Г. (2004). «Отличительные особенности изображения из масштабно-инвариантных ключевых точек». Международный журнал компьютерного зрения . 60 (2): 91–110. CiteSeerX 10.1.1.73.2924 . doi :10.1023/B:VISI.0000029664.99615.94. S2CID  221242327. 

Внешние ссылки