Компьютерное стереозрение

Компьютерное стереозрение — это извлечение трехмерной информации из цифровых изображений, например, полученных с помощью камеры CCD . Сравнивая информацию о сцене с двух точек зрения, можно извлечь трехмерную информацию, исследуя относительное положение объектов на двух панелях. Это похоже на биологический процесс стереопсиса .

Контур

В традиционном стереозрении две камеры, смещенные горизонтально друг от друга, используются для получения двух разных изображений сцены, аналогично бинокулярному зрению человека . Сравнивая эти два изображения, информацию об относительной глубине можно получить в виде карты несоответствия , которая кодирует разницу в горизонтальных координатах соответствующих точек изображения. Значения в этой карте несоответствия обратно пропорциональны глубине сцены в соответствующем местоположении пикселя.

Чтобы человек мог сравнить два изображения, они должны быть наложены друг на друга в стереоскопическом устройстве, при этом изображение с правой камеры будет показано правому глазу наблюдателя, а изображение с левой — левому глазу.

В системе компьютерного зрения требуется несколько этапов предварительной обработки. ^[1]

Изображение должно быть сначала неискажено, чтобы были удалены бочкообразные и тангенциальные искажения . Это гарантирует, что наблюдаемое изображение соответствует проекции идеальной камеры-обскуры .
Изображение необходимо проецировать обратно на общую плоскость, чтобы можно было сравнить пары изображений, что называется исправлением изображения .
Информационная мера, которая сравнивает два изображения, минимизирована. Это дает наилучшую оценку положения объектов на двух изображениях и создает карту несоответствия.
При желании полученная карта несоответствий проецируется в трехмерное облако точек . Используя проекционные параметры камер, можно рассчитать облако точек, обеспечивающее измерения в известном масштабе.

Активное стереозрение

Активное стереозрение — это форма стереозрения, в которой активно используется свет, такой как лазер или структурированный свет, для упрощения задачи стереосопоставления. Противоположный термин - пассивное стереозрение.

Традиционное зрение со структурированным светом (SLV) использует структурированный свет или лазер и находит соответствия проектор-камера. ^[2]^[3]
Обычное активное стереозрение (ASV) использует структурированный свет или лазер, однако стереосогласование выполняется только для соответствий камера-камера, так же, как и пассивное стереозрение.
Стерео структурированного света (SLS) — это гибридный метод, в котором используются соответствия как камера-камера, так и проектор-камера. ^[4]

Приложения

3D -стереодисплеи находят множество применений в сфере развлечений, передачи информации и автоматизированных системах. Стереозрение очень важно в таких областях, как робототехника, для извлечения информации об относительном положении трехмерных объектов вблизи автономных систем. Другие приложения для робототехники включают распознавание объектов , ^[5] где информация о глубине позволяет системе отделять закрывающие компоненты изображения, например, один стул перед другим, которые в противном случае робот не сможет отличить как отдельный объект от любого другого. критерии.

Научные применения цифрового стереовидения включают извлечение информации из аэрофотосъемки для расчета контурных карт или даже извлечение геометрии для трехмерного картографирования зданий, фотограмметрического спутникового картографирования или расчета трехмерной гелиографической информации, например, полученной в рамках проекта НАСА STEREO .

Подробное определение

Пиксель записывает цвет в определенной позиции. Положение идентифицируется по положению в сетке пикселей (x, y) и глубине до пикселя z.

Стереоскопическое зрение дает два изображения одной и той же сцены с разных позиций. На соседней диаграмме свет из точки A передается через точки входа камер-обскуров в точках B и D на экраны изображений в точках E и H.

На прилагаемой диаграмме расстояние между центрами двух объективов камеры равно BD = BC + CD . Треугольники подобны,

АСВ и БФЕ
ACD и DGH

${\begin{aligned}{\text{Поэтому смещение }}d&=EF+GH\\&=BF({\frac {EF}{BF}}+{\frac {GH}{BF}}) \\&=BF({\frac {EF}{BF}}+{\frac {GH}{DG}})\\&=BF({\frac {BC+CD}{AC}})\\& =BF{\frac {BD}{AC}}\\&={\frac {k}{z}}{\text{, где}}\\\end{aligned}}$

к = BD BF
z = AC — расстояние от плоскости камеры до объекта.

Итак, если предположить, что камеры расположены ровно, а плоскости изображения лежат в одной плоскости, смещение по оси Y между одними и теми же пикселями на двух изображениях составит:

d={\frac {k}{z}}

Где k — расстояние между двумя камерами, умноженное на расстояние от объектива до изображения.

Компонент глубины на двух изображениях равен и , определяется выражением: $z_{1}$ $z_{2}$

z_{2}(x,y)=\min \left\{v:v=z_{1}(x,y-{\frac {k}{z_{1}(x,y)}} )\верно\}

z_{1}(x,y)=\min \left\{v:v=z_{2}(x,y+{\frac {k}{z_{2}(x,y)}}) \верно\}

Эти формулы позволяют закрывать вокселы , видимые на одном изображении на поверхности объекта, более близкими вокселами , видимыми на другом изображении, на поверхности объекта.

Исправление изображения

Если плоскости изображения не копланарны, требуется коррекция изображения , чтобы настроить изображения так, как если бы они были копланарными. Этого можно достичь с помощью линейного преобразования.

Изображения также могут нуждаться в исправлении, чтобы каждое изображение было эквивалентно изображению, полученному с помощью камеры-обскуры и проецируемому на плоскую плоскость.

Гладкость

Гладкость – это мера сходства цветов. Учитывая предположение, что отдельный объект имеет небольшое количество цветов, пиксели одинакового цвета с большей вероятностью принадлежат одному объекту, чем нескольким объектам.

Описанный выше метод оценки гладкости основан на теории информации и предположении, что влияние цвета воксела влияет на цвет соседних вокселов согласно нормальному распределению по расстоянию между точками. Модель основана на приблизительных предположениях о мире.

Другой метод, основанный на предшествующих предположениях о гладкости, — это автокорреляция.

Гладкость — это свойство мира, а не внутреннее свойство изображения. Изображение, состоящее из случайных точек, не будет иметь гладкости, и выводы о соседних точках будут бесполезны.

В принципе, гладкости, как и другим свойствам мира, следует учиться. Похоже, именно это и делает система человеческого зрения. ^{[ нужна цитата ]}

Информационная мера

Информационная мера наименьших квадратов

Нормальное распределение

P(x,\mu ,\sigma )={\frac {1}{\sigma {\sqrt {2\pi }}}}e^{-{\frac {(x-\mu )^{2}}{2\sigma ^{2}}}}

Вероятность связана с информационным содержанием, описываемым длиной сообщения L ,

P(x)=2^{-L(x)}

L(x)=-\log _{2}{P(x)}

так,

L(x,\mu ,\sigma )=\log _{2}(\sigma {\sqrt {2\pi }})+{\frac {(x-\mu )^{2}}{2\sigma ^{2}}}\log _{2}e

Для целей сравнения стереоскопических изображений имеет значение только относительная длина сообщения. Исходя из этого, информационная мера I , называемая суммой квадратов разностей (SSD), равна:

I(x,\mu ,\sigma )={\frac {(x-\mu )^{2}}{\sigma ^{2}}}

где,

L(x,\mu ,\sigma )=\log _{2}(\sigma {\sqrt {2\pi }})+I(x,\mu ,\sigma ){\frac {\log _{2}e}{2}}

Из-за затрат времени на обработку возведения чисел в SSD во многих реализациях в качестве основы для вычисления меры информации используется сумма абсолютной разности (SAD). Другие методы используют нормализованную кросскорреляцию (NCC).

Мера информации для стереоскопических изображений

Мера наименьших квадратов может использоваться для измерения информационного содержания стереоскопических изображений ^[6] с учетом глубины в каждой точке . Сначала извлекается информация, необходимая для выражения одного образа через другой. Это называется . $z(x,y)$ $I_{m}$

Для точного измерения разницы между цветами следует использовать функцию цветового различия . Функция цветового различия записывается cd следующим образом. Мера информации, необходимой для записи соответствия цветов между двумя изображениями, равна:

I_{m}(z_{1},z_{2})={\frac {1}{\sigma _{m}^{2}}}\sum _{x,y}\operatorname {cd} (\operatorname {color} _{1}(x,y+{\frac {k}{z_{1}(x,y)}}),\operatorname {color} _{2}(x,y))^{2}

Сделано предположение о плавности изображения. Предположим, что два пикселя с большей вероятностью будут иметь один и тот же цвет, чем ближе расположены воксели, которые они представляют. Эта мера предназначена для того, чтобы схожие цвета группировались на одной глубине. Например, если объект впереди закрывает область неба позади, мера сглаживания благоприятствует тому, чтобы все синие пиксели были сгруппированы вместе на одной и той же глубине.

Общая мера гладкости использует расстояние между вокселами в качестве оценки ожидаемого стандартного отклонения цветовой разницы.

I_{s}(z_{1},z_{2})={\frac {1}{2\sigma _{h}^{2}}}\sum _{i:\{1,2\}}\sum _{x_{1},y_{1}}\sum _{x_{2},y_{2}}{\frac {\operatorname {cd} (\operatorname {color} _{i}(x_{1},y_{1}),\operatorname {color} _{i}(x_{2},y_{2}))^{2}}{(x_{1}-x_{2})^{2}+(y_{1}-y_{2})^{2}+(z_{i}(x_{1},y_{1})-z_{i}(x_{2},y_{2}))^{2}}}

Тогда общее содержание информации представляет собой сумму

I_{t}(z_{1},z_{2})=I_{m}(z_{1},z_{2})+I_{s}(z_{1},z_{2})

Компонент z каждого пикселя должен выбираться так, чтобы обеспечить минимальное значение информационного содержания. Это даст наиболее вероятную глубину в каждом пикселе. Минимальная общая мера информации равна

I_{\operatorname {min} }=\min {\{i:i=I_{t}(z_{1},z_{2})\}}

Функции глубины для левого и правого изображений представляют собой пару:

(z_{1},z_{2})\in \{(z_{1},z_{2}):I_{t}(z_{1},z_{2})=I_{\operatorname {min} }\}

Способы реализации

Задача минимизации является NP-полной . Это означает, что для достижения общего решения этой проблемы потребуется много времени. Однако для компьютеров существуют методы, основанные на эвристике , которые аппроксимируют результат за разумное время. Также существуют методы, основанные на нейронных сетях . ^[7] Эффективная реализация стереоскопического зрения является областью активных исследований.

Смотрите также

3D-реконструкция из нескольких изображений
3D-сканер
Аутостереоскопия
Компьютерное зрение
Эпиполярная геометрия
Полуглобальное сопоставление
Структура из движения
Стерео камера
Стереофотограмметрия
Стереопсис
Стереоскопическая передача глубины
Стиксель
Трифокальный тензор - для трифокальной стереоскопии (использование трех изображений вместо двух)

Внешние ссылки

Учебник по некалиброванному стереозрению
Узнайте о стереозрении с MATLAB
Программное обеспечение Stereo Vision и Rover Navigation для исследования планет