Пирамида , или пирамидальное представление , — это тип многомасштабного представления сигнала , разработанный сообществами компьютерного зрения , обработки изображений и обработки сигналов , в котором сигнал или изображение подвергается многократному сглаживанию и подвыборке . Пирамидальное представление является предшественником масштабно-пространственного представления и многомасштабного анализа .
Существует два основных типа пирамид: низкочастотные и полосовые.
Пирамида нижних частот создается путем сглаживания изображения соответствующим сглаживающим фильтром, а затем субдискретизации сглаженного изображения, обычно с коэффициентом 2 вдоль каждого направления координат. Затем полученное изображение подвергается той же процедуре, и цикл повторяется несколько раз. Каждый цикл этого процесса приводит к меньшему изображению с увеличенным сглаживанием, но с уменьшенной пространственной плотностью выборки (то есть уменьшенным разрешением изображения). Если проиллюстрировать графически, все многомасштабное представление будет выглядеть как пирамида, с исходным изображением внизу и результирующим меньшим изображением каждого цикла, наложенным друг на друга.
Пирамида с полосой пропускания создается путем формирования разницы между изображениями на соседних уровнях в пирамиде и выполнения интерполяции изображений между соседними уровнями разрешения для обеспечения возможности вычисления попиксельных различий. [1]
Для создания пирамид было предложено множество различных сглаживающих ядер . [2] [3] [4] [5] [6] [7] Среди выдвинутых предложений биномиальные ядра , возникающие из биномиальных коэффициентов , выделяются как особенно полезный и теоретически обоснованный класс. [3] [8] [9] [10] [11] [12] Таким образом, имея двумерное изображение, мы можем применить (нормализованный) биномиальный фильтр (1/4, 1/2, 1/4), как правило, дважды или более вдоль каждого пространственного измерения, а затем выполнить субдискретизацию изображения с коэффициентом два. Затем эта операция может повторяться столько раз, сколько необходимо, что приводит к компактному и эффективному многомасштабному представлению. Если это мотивировано конкретными требованиями, могут также генерироваться промежуточные уровни масштаба, где этап субдискретизации иногда опускается, что приводит к сверхдискретизированной или гибридной пирамиде . [11] С ростом вычислительной эффективности современных процессоров в некоторых ситуациях становится возможным использовать более широко поддерживаемые гауссовские фильтры в качестве сглаживающих ядер на этапах генерации пирамиды.
В гауссовой пирамиде последующие изображения утяжеляются с использованием гауссового среднего ( гауссово размытие ) и уменьшаются в масштабе. Каждый пиксель, содержащий локальное среднее, соответствует соседнему пикселю на более низком уровне пирамиды. Этот метод используется, в частности, при синтезе текстур .
Пирамида Лапласа очень похожа на пирамиду Гаусса, но сохраняет разностное изображение размытых версий между каждым уровнем. Только самый маленький уровень не является разностным изображением, чтобы обеспечить реконструкцию изображения с высоким разрешением с использованием разностных изображений на более высоких уровнях. Этот метод может использоваться при сжатии изображений . [13]
Управляемая пирамида, разработанная Симончелли и другими, представляет собой реализацию банка многомасштабных, многоориентационных полосовых фильтров, используемых для приложений, включая сжатие изображений , синтез текстур и распознавание объектов . Ее можно рассматривать как ориентационно-избирательную версию пирамиды Лапласа, в которой на каждом уровне пирамиды используется банк управляемых фильтров вместо одного фильтра Лапласа или Гаусса . [14] [15] [16]
На заре компьютерного зрения пирамиды использовались в качестве основного типа многомасштабного представления для вычисления многомасштабных характеристик изображения из реальных данных изображения. Более поздние методы включают масштабно-пространственное представление , которое было популярно среди некоторых исследователей из-за его теоретической основы, возможности отделить этап подвыборки от многомасштабного представления, более мощных инструментов для теоретического анализа, а также возможности вычислять представление в любом желаемом масштабе, тем самым избегая алгоритмических проблем соотнесения представлений изображений с разным разрешением. Тем не менее, пирамиды по-прежнему часто используются для выражения вычислительно эффективных приближений к масштабно-пространственному представлению . [11] [17] [18]
Уровни пирамиды Лапласа могут быть добавлены или удалены из исходного изображения для усиления или уменьшения детализации в разных масштабах. Однако известно, что манипуляция деталями этой формы во многих случаях приводит к появлению артефактов гало, что приводит к разработке альтернатив, таких как двусторонний фильтр .
Некоторые форматы файлов сжатия изображений используют алгоритм Adam7 или некоторые другие методы чересстрочной развертки . Их можно рассматривать как своего рода пирамиду изображений. Поскольку эти форматы файлов сначала сохраняют «крупномасштабные» особенности, а мелкие детали — позже в файле, конкретный зритель, отображающий небольшую «миниатюру» или на маленьком экране, может быстро загрузить ровно столько изображения, сколько нужно, чтобы отобразить его в доступных пикселях, — поэтому один файл может поддерживать множество разрешений зрителя, вместо того чтобы хранить или генерировать разные файлы для каждого разрешения.
{{cite journal}}
: Цитировать журнал требует |journal=
( помощь )