Компьютерное стереозрение — это извлечение 3D-информации из цифровых изображений, например, полученных с помощью ПЗС-камеры . Сравнивая информацию о сцене с двух точек обзора, можно извлечь 3D-информацию, изучая относительное положение объектов на двух панелях. Это похоже на биологический процесс стереопсиса .
В традиционном стереозрении две камеры, смещенные горизонтально друг относительно друга, используются для получения двух различных видов на сцену, аналогично человеческому бинокулярному зрению . Сравнивая эти два изображения, можно получить информацию об относительной глубине в виде карты диспаратности , которая кодирует разницу в горизонтальных координатах соответствующих точек изображения. Значения в этой карте диспаратности обратно пропорциональны глубине сцены в соответствующем местоположении пикселя.
Чтобы человек мог сравнить два изображения, их необходимо наложить друг на друга в стереоскопическом устройстве, причем изображение с правой камеры должно быть показано правому глазу наблюдателя, а с левой — левому глазу.
В системе компьютерного зрения требуется несколько этапов предварительной обработки. [1]
Активное стереозрение — это форма стереозрения, которая активно использует свет, такой как лазер или структурированный свет, для упрощения проблемы стереосоответствия. Противоположный термин — пассивное стереозрение.
3D -стереодисплеи находят множество применений в сфере развлечений, передачи информации и автоматизированных системах. Стереозрение крайне важно в таких областях, как робототехника, для извлечения информации об относительном положении 3D-объектов вблизи автономных систем. Другие приложения для робототехники включают распознавание объектов , [5] где информация о глубине позволяет системе разделять перекрывающие компоненты изображения, такие как один стул перед другим, которые робот в противном случае не смог бы различить как отдельный объект по каким-либо другим критериям.
Научные приложения цифрового стереозрения включают извлечение информации из аэрофотосъемки , для расчета контурных карт или даже извлечения геометрии для трехмерного картографирования зданий, фотограмметрического спутникового картирования или расчета трехмерной гелиографической информации, например, полученной в рамках проекта NASA STEREO .
Пиксель записывает цвет в позиции. Позиция идентифицируется позицией в сетке пикселей (x, y) и глубиной до пикселя z.
Стереоскопическое зрение дает два изображения одной и той же сцены с разных позиций. На соседней диаграмме свет из точки A передается через точки входа камер-обскуры в точках B и D на экраны изображений в точках E и H.
На прилагаемой диаграмме расстояние между центрами двух объективов камеры равно BD = BC + CD . Треугольники подобны,
Итак, если предположить, что камеры расположены на одном уровне, а плоскости изображений лежат в одной плоскости, то смещение по оси Y между одним и тем же пикселем на двух изображениях составит:
Где k — расстояние между двумя камерами, умноженное на расстояние от объектива до изображения.
Компонент глубины в двух изображениях равен и , задаваемый формулой,
Эти формулы позволяют перекрывать вокселы , видимые на одном изображении на поверхности объекта, более близкими вокселями, видимыми на другом изображении, на поверхности объекта .
Если плоскости изображения не являются копланарными, требуется ректификация изображения для настройки изображений так, как если бы они были копланарными. Это может быть достигнуто с помощью линейного преобразования.
Изображения также могут нуждаться в ректификации, чтобы сделать каждое изображение эквивалентным изображению, полученному с помощью камеры-обскуры, проецируемой на плоскую плоскость.
Гладкость — это мера схожести цветов. Учитывая предположение, что отдельный объект имеет небольшое количество цветов, пиксели схожего цвета с большей вероятностью принадлежат одному объекту, чем нескольким объектам.
Описанный выше метод оценки гладкости основан на теории информации и предположении, что влияние цвета вокселя влияет на цвет соседних вокселей в соответствии с нормальным распределением на расстоянии между точками. Модель основана на приблизительных предположениях о мире.
Другим методом, основанным на априорных предположениях о гладкости, является автокорреляция.
Гладкость — это свойство мира, а не внутреннее свойство изображения. Изображение, состоящее из случайных точек, не будет иметь гладкости, и выводы о соседних точках будут бесполезны.
В принципе, гладкость, как и другие свойства мира, должна быть изучена. Похоже, что это то, что делает система человеческого зрения. [ необходима цитата ]
Нормальное распределение:
Вероятность связана с содержанием информации, описываемой длиной сообщения L ,
так,
Для целей сравнения стереоскопических изображений имеет значение только относительная длина сообщения. Исходя из этого, информационная мера I , называемая суммой квадратов разностей (SSD), равна:
где,
Из-за затрат времени на обработку квадратов чисел в SSD многие реализации используют сумму абсолютной разности (SAD) в качестве основы для вычисления меры информации. Другие методы используют нормализованную взаимную корреляцию (NCC).
Мера наименьших квадратов может быть использована для измерения информационного содержания стереоскопических изображений, [6] учитывая глубины в каждой точке . Сначала выводится информация, необходимая для выражения одного изображения через другое. Это называется .
Для справедливого измерения разницы между цветами следует использовать функцию цветовой разницы . Функция цветовой разницы записывается как cd в следующем виде. Мера информации, необходимая для записи соответствия цветов между двумя изображениями, равна:
Сделано предположение о гладкости изображения. Предположим, что два пикселя с большей вероятностью будут одного цвета, чем ближе воксели, которые они представляют. Эта мера предназначена для того, чтобы цвета, которые похожи, были сгруппированы на одной глубине. Например, если объект спереди закрывает область неба сзади, мера гладкости отдает предпочтение синим пикселям, которые все сгруппированы вместе на одной глубине.
Общая мера гладкости использует расстояние между вокселями в качестве оценки ожидаемого стандартного отклонения цветовой разницы,
Общее содержание информации тогда представляет собой сумму,
Компонент z каждого пикселя должен быть выбран так, чтобы дать минимальное значение для информационного содержания. Это даст наиболее вероятные глубины для каждого пикселя. Минимальная общая мера информации равна,
Функции глубины для левого и правого изображений представляют собой пару,
Задача минимизации является NP-полной . Это означает, что общее решение этой задачи займет много времени. Однако существуют методы для компьютеров, основанные на эвристике , которые аппроксимируют результат за разумное время. Также существуют методы, основанные на нейронных сетях . [7] Эффективная реализация стереоскопического зрения является областью активных исследований.
{{cite journal}}
: CS1 maint: numeric names: authors list (link)