Преобразование 2D в 3D

Преобразование 2D-видео в 3D (также называемое преобразованием 2D в стерео 3D и стерео преобразованием ) — это процесс преобразования 2D («плоского») фильма в 3D- форму, которая почти во всех случаях является стерео , то есть это процесс создания изображений для каждого глаза из одного 2D-изображения.

Обзор

Преобразование 2D в 3D добавляет бинокулярный сигнал глубины диспаратности к цифровым изображениям, воспринимаемым мозгом, таким образом, если сделано правильно, значительно улучшает эффект погружения при просмотре стереовидео по сравнению с 2D-видео. Однако, чтобы быть успешным, преобразование должно быть выполнено с достаточной точностью и правильностью: качество исходных 2D-изображений не должно ухудшаться, а введенный сигнал диспаратности не должен противоречить другим сигналам, используемым мозгом для восприятия глубины . Если сделано правильно и тщательно, преобразование создает стереовидео, аналогичное по качеству «родному» стереовидео, которое снимается в стерео и точно настраивается и выравнивается на этапе постобработки. ^[1]

Можно условно определить два подхода к стереоконвертации: качественная полуавтоматическая конвертация для кино и высококачественного 3DTV и низкокачественная автоматическая конвертация для дешевого 3DTV , VOD и подобных приложений.

Рендеринг компьютерных анимационных фильмов

Компьютерные анимированные 2D-фильмы, созданные с использованием 3D-моделей, могут быть повторно визуализированы в стереоскопическом 3D путем добавления второй виртуальной камеры, если исходные данные все еще доступны. Технически это не является преобразованием; поэтому такие повторно визуализированные фильмы имеют то же качество, что и фильмы, изначально созданные в стереоскопическом 3D. Примерами этой техники являются повторный выпуск « Истории игрушек» и «Истории игрушек 2» . Повторный просмотр исходных компьютерных данных для двух фильмов занял четыре месяца, а также дополнительные шесть месяцев для добавления 3D. ^[2] Однако не все фильмы CGI повторно визуализируются для повторного выпуска в 3D из-за затрат, требуемого времени, нехватки квалифицированных ресурсов или отсутствующих компьютерных данных.

Важность и применимость

С ростом количества фильмов, выпущенных в формате 3D, преобразование 2D в 3D стало более распространенным. Большинство не- CGI стерео 3D блокбастеров полностью или, по крайней мере, частично конвертируются из 2D-кадров. Даже Аватар , известный своими обширными стереосъемками, содержит несколько сцен, снятых в 2D и преобразованных в стерео на этапе пост-продакшна. ^[3] Причины для съемки в 2D вместо стерео могут быть финансовыми, техническими и иногда художественными: ^[1]^[4]

Рабочий процесс постобработки стерео гораздо сложнее и не так хорошо отлажен, как рабочий процесс 2D, требуя больше работы и рендеринга.
Профессиональные стереоскопические установки намного дороже и громоздче обычных монокулярных камер. Некоторые кадры, особенно сцены действия, можно снимать только с помощью относительно небольших 2D-камер.
Стереокамеры могут вносить различные несоответствия в стереоизображение (такие как вертикальный параллакс , наклон, цветовой сдвиг, отражения и блики в разных положениях), которые в любом случае должны быть исправлены на этапе постобработки, поскольку они портят 3D-эффект. Эта коррекция иногда может иметь сложность, сопоставимую со стереоконверсией.
Стереокамеры могут выдавать практические эффекты, используемые во время съемок. Например, некоторые сцены в трилогии фильмов «Властелин колец» были сняты с использованием принудительной перспективы , чтобы два актера казались разными по физическим размерам. Та же сцена, снятая в стереорежиме, показала бы, что актеры находились на разном расстоянии от камеры.
По своей природе стереокамеры имеют ограничения на то, насколько далеко камера может находиться от снимаемого объекта и при этом обеспечивать приемлемое стереоразделение. Например, самым простым способом снять сцену, расположенную на стене здания, может быть использование рига камеры с другой стороны улицы на соседнем здании с использованием зум-объектива. Однако, хотя зум-объектив обеспечит приемлемое качество изображения, стереоразделение будет практически нулевым на таком расстоянии.

Даже в случае стереосъемки преобразование часто может быть необходимым. Помимо сложных для съемки сцен, могут быть несоответствия в стереовидах, которые слишком велики для корректировки, и проще выполнить преобразование 2D в стерео, рассматривая один из стереовидов как исходный 2D-источник.

Общие проблемы

Независимо от конкретных алгоритмов, все процессы конвертации должны решать следующие задачи: ^[4]^[5]

Распределение «бюджета глубины» — определение диапазона допустимой диспаратности или глубины, какое значение глубины соответствует положению экрана (так называемое положение «точки конвергенции»), допустимые диапазоны расстояний для внеэкранных эффектов и фоновых объектов за экраном. Если объект в стереопаре находится в одном и том же месте для обоих глаз, то он появится на поверхности экрана и будет находиться в нулевом параллаксе. Говорят, что объекты перед экраном находятся в отрицательном параллаксе, а фоновые изображения за экраном находятся в положительном параллаксе. Существуют соответствующие отрицательные или положительные смещения в положениях объектов для изображений левого и правого глаза.
Управление комфортной диспаратностью в зависимости от типа сцены и движения — слишком большой параллакс или противоречивые сигналы глубины могут вызвать напряжение глаз и тошноту.
Заполнение открытых областей – левое или правое изображение показывает сцену с другого ракурса, а части объектов или целые объекты, закрытые передним планом на исходном 2D-изображении, должны стать видимыми в стереопаре. Иногда поверхности фона известны или могут быть оценены, поэтому их следует использовать для заполнения открытых областей. В противном случае неизвестные области должны быть заполнены художником или закрашены , поскольку точная реконструкция невозможна.

Высококачественные методы преобразования также должны решать многие типичные проблемы, включая:

Прозрачные объекты
Размышления
Размытые полупрозрачные границы объектов, например, волосы, мех, объекты переднего плана, находящиеся вне фокуса, тонкие объекты
Зернистость пленки (реальная или искусственная) и аналогичные шумовые эффекты
Сцены с быстрым хаотичным движением
Мелкие частицы – дождь, снег, взрывы и т. д.

Качественная полуавтоматическая конвертация

Конверсия на основе глубины

Большинство полуавтоматических методов стереоконверсии используют карты глубины и рендеринг на основе глубинного изображения. ^[4]^[5]

Идея заключается в том, что для каждого кадра или для серии однородных кадров создается отдельное вспомогательное изображение, известное как « карта глубины », для указания глубины объектов, присутствующих в сцене. Карта глубины — это отдельное изображение в оттенках серого, имеющее те же размеры, что и исходное 2D-изображение, с различными оттенками серого для указания глубины каждой части кадра. Хотя отображение глубины может создавать довольно мощную иллюзию 3D-объектов в видео, оно по своей сути не поддерживает полупрозрачные объекты или области, а также не представляет закрытые поверхности; чтобы подчеркнуть это ограничение, основанные на глубине 3D-представления часто явно называются 2.5D . ^[6]^[7] Эти и другие подобные проблемы следует решать с помощью отдельного метода. ^[6]^[8]^[9]

Основными этапами методов преобразования на основе глубины являются:

Распределение бюджета глубины — какова общая глубина сцены и где будет находиться плоскость экрана.
Сегментация изображения , создание подложек или масок, обычно с помощью ротоскопирования . Каждая важная поверхность должна быть изолирована. Уровень детализации зависит от требуемого качества преобразования и бюджета.
Создание карты глубины. Каждой изолированной поверхности должна быть назначена карта глубины. Отдельные карты глубины должны быть составлены в карту глубины сцены. Это итеративный процесс, требующий настройки объектов, форм, глубины и визуализации промежуточных результатов в стерео. Микрорельеф глубины, трехмерная форма добавляется к наиболее важным поверхностям для предотвращения эффекта «картона», когда стереоизображение выглядит как комбинация плоских изображений, просто установленных на разных глубинах.
Генерация стерео на основе 2D+Depth с любой дополнительной информацией, такой как чистые пластины, восстановленный фон, карты прозрачности и т. д. Когда процесс завершится, будут созданы левое и правое изображение. Обычно исходное 2D-изображение рассматривается как центральное изображение, так что генерируются два стереовида. Однако некоторые методы предлагают использовать исходное изображение как изображение для одного глаза и генерировать только изображение для другого глаза, чтобы минимизировать стоимость преобразования. ^[4] Во время генерации стерео пиксели исходного изображения смещаются влево или вправо в зависимости от карты глубины, максимального выбранного параллакса и положения поверхности экрана.
Реконструкция и покраска любых открытых участков, не заполненных стереогенератором.

Стереоизображение может быть представлено в любом формате для предварительного просмотра, включая анаглиф .

Трудоемкими этапами являются сегментация/ротоскопирование изображения, создание карты глубины и заполнение непокрытой области. Последнее особенно важно для максимально качественного преобразования.

Существуют различные методы автоматизации для создания карты глубины и реконструкции фона. Например, автоматическая оценка глубины может использоваться для создания начальных карт глубины для определенных кадров и снимков. ^[11]

Людей, занимающихся такой работой, можно назвать художниками глубины. ^[12]

Многослойность

Развитие карт глубины, многослойность обходит ограничения карт глубины, вводя несколько слоев серых масок глубины для реализации ограниченной полупрозрачности. Подобно простой технике, ^[13] многослойность включает применение карты глубины к более чем одному «слою» плоского изображения, что приводит к гораздо лучшему приближению глубины и выступа. Чем больше слоев обрабатывается отдельно на кадр, тем выше, как правило, качество 3D-иллюзии.

Другие подходы

3D-реконструкция и повторное проецирование могут использоваться для стереоконверсии. Это включает в себя создание 3D-модели сцены, извлечение исходных поверхностей изображения в качестве текстур для 3D-объектов и, наконец, рендеринг 3D-сцены с двух виртуальных камер для получения стереовидео. Подход достаточно хорошо работает в случае сцен со статическими жесткими объектами, такими как городские кадры со зданиями, интерьерные кадры, но имеет проблемы с нежесткими телами и мягкими размытыми краями. ^[3]

Другой метод — настроить обе виртуальные камеры, левую и правую, обе смещенные относительно исходной камеры, но разделяющие разницу смещения, затем закрашивать края окклюзии изолированных объектов и персонажей. По сути, это чистовая пластина нескольких элементов фона, среднего плана и переднего плана.

Бинокулярную диспаратность также можно вывести из простой геометрии. ^[14]

Автоматическое преобразование

Глубина от движения

Можно автоматически оценить глубину, используя различные типы движения. В случае движения камеры можно рассчитать карту глубины всей сцены. Также можно обнаружить движение объекта и назначить движущимся областям меньшие значения глубины, чем фон. Окклюзии предоставляют информацию об относительном положении движущихся поверхностей. ^[15]^[16]

Глубина от фокуса

Подходы этого типа также называются «глубина из расфокусировки» и «глубина из размытия». ^[15]^[17] В подходах «глубина из расфокусировки» (DFD) информация о глубине оценивается на основе степени размытия рассматриваемого объекта, тогда как подходы «глубина из фокуса» (DFF) имеют тенденцию сравнивать резкость объекта по ряду изображений, сделанных с разным фокусным расстоянием , чтобы узнать его расстояние до камеры. Для правильной работы DFD требуется всего два или три изображения с разным фокусом, тогда как DFF требует не менее 10–15 изображений, но он точнее предыдущего метода.

Если на обработанном изображении обнаружено небо, то можно также учесть, что более удаленные объекты, помимо того, что они туманны, должны быть более ненасыщенными и более голубоватыми из-за толстого слоя воздуха. ^[17]

Глубина с точки зрения

Идея метода основана на том факте, что параллельные линии, такие как железнодорожные пути и обочины дорог, кажутся сходящимися с расстоянием, в конечном итоге достигая точки схода на горизонте. Нахождение этой точки схода дает самую дальнюю точку всего изображения. ^[15]^[17]

Чем больше сходятся линии, тем дальше они кажутся. Таким образом, для карты глубины область между двумя соседними сходящимися линиями можно аппроксимировать градиентной плоскостью.

Артефакты преобразования

Эффект картона — явление, при котором трехмерные объекты, расположенные на разной глубине, кажутся зрителям плоскими, как будто они сделаны из картона, при этом относительная глубина между объектами сохраняется.
Несоответствие резкости краев - этот артефакт может появиться из-за размытой карты глубины на границах объектов. Граница становится точной в одном виде и размытой в другом. Артефакт несоответствия резкости краев обычно вызывается следующим:
- Использование техники «резинового листа», определяемой как деформация пикселей, окружающих области окклюзии, чтобы избежать явного заполнения окклюзии. В таких случаях края карты смещения размываются, а переход между областями переднего плана и фона сглаживается. Область, занятая размытием края/движения, либо «растягивается», либо «подгибается» в зависимости от направления смещения объекта. Естественно, такой подход приводит к несоответствиям в резкости краев между видами.
- Отсутствие надлежащей обработки полупрозрачных краев, что может привести к раздвоению или появлению ореолов на краях.
- Простые методы заполнения окклюзии, приводящие к растягиванию артефактов вблизи краев объекта.

Прилипание к фоновым объектам - эта ошибка «прилипания» объектов переднего плана к фону.

Показатели качества 3D

ПМК

PQM ^[18] имитирует HVS, поскольку полученные результаты очень близко совпадают со средним мнением (MOS), полученным в результате субъективных тестов. PQM количественно определяет искажение яркости и контрастности, используя приближение (дисперсии), взвешенное по среднему значению каждого пиксельного блока, для получения искажения в изображении. Это искажение вычитается из 1 для получения объективного показателя качества.

HV3D

Метрика качества HV3D ^[19] была разработана с учетом человеческого визуального восприятия 3D. Она учитывает качество отдельных правых и левых видов, качество циклопического вида (слияние правого и левого видов, то, что воспринимает зритель), а также качество информации о глубине.

VQMT3D

Проект VQMT3D ^[20] включает в себя несколько разработанных метрик для оценки качества преобразования 2D в 3D на основе эффекта картона, несоответствия резкости краев, прилипших к фону объектов и сравнения с 2D-версией.

Смотрите также

Автостереоскопия
Перекрестные помехи (электроника)
Цифровое 3D
Раскрашивание фильмов – многие проблемы, связанные с 3D-преобразованием, такие как идентификация/распознавание краев объектов, также возникают при раскрашивании.
Легенда3D
Списки 3D фильмов
Стереоскопическая видеоигра – многие видеоигры S-3D на самом деле не визуализируют два изображения, а используют также методы преобразования 2D + глубины визуализации.
Структура из движения
2D-плюс-глубина
3D-дисплей
3D-реконструкция из нескольких изображений

Ссылки

^ ab Барри Сандрю. «Преобразование 2D в 3D может быть лучше, чем исходное 3D»
↑ Murphy, Mekado (1 октября 2009 г.). «Базз и Вуди добавляют измерение». The New York Times . Получено 18 февраля 2010 г.
^ ab Seymour, Mike (2012-05-08). «Искусство преобразования стерео: 2D в 3D – 2012». fxguide . Получено 2024-07-11 .
^ abcd Скотт Сквайрс. Преобразования 2D в 3D
^ ab Джон Карафин. Современное преобразование 2D в 3D и стереовизуальные эффекты Архивировано 2012-04-26 в Университете Wayback Machine International 3D Society. Презентация с мероприятия 3DU-Japan 21 октября 2011 года в Токио.
^ ab Wu, Jiajun; et al. (2017). MarrNet: 3D-реконструкция формы с помощью 2,5D-набросков (PDF) . Конференция по нейронным системам обработки информации (NeurIPS). стр. 540–550.
^ Tateno, Keisuke; et al. (2016). Когда 2.5D недостаточно: одновременная реконструкция, сегментация и распознавание на плотном SLAM (PDF) . Международная конференция IEEE по робототехнике и автоматизации (ICRA). стр. 2295–2302.
^ Рок, Джейсон и др. (2015). Завершение формы 3D-объекта из изображения с одной глубиной (PDF) . Конференция IEEE по компьютерному зрению и распознаванию образов (CVPR). стр. 2484–2493.
^ Шин, Даюн и др. (2019). Реконструкция 3D-сцены с помощью многослойных глубинных и эпиполярных преобразователей (PDF) . Международная конференция IEEE по компьютерному зрению (ICCV). стр. 2172–2182.
^ "Soltani, AA, Huang, H., Wu, J., Kulkarni, TD, & Tenenbaum, JB Синтез 3D-фигур с помощью моделирования многоракурсных карт глубины и силуэтов с помощью глубоких генеративных сетей. В трудах конференции IEEE по компьютерному зрению и распознаванию образов (стр. 1511-1519)". GitHub . 2019-07-11.
^ YUVsoft. Процесс преобразования 2D в стерео 3D
↑ Майк Айзенберг (31 октября 2011 г.). «Интервью с 3D-художником Адамом Хлавачем». Screen Rant . Получено 28 декабря 2015 г.
^ Катлер, Джеймс. "Маскирование нескольких слоев в Adobe Photoshop". Архивировано из оригинала 18 января 2012 г.
^ Преобразование 2D-изображения в 3D-лентикулярную печать
^ abc Доктор Лай-Ман По. Методы автоматического преобразования видео 2D в 3D для 3DTV Кафедра электронной инженерии, Городской университет Гонконга . 13 апреля 2010 г.
^ Пример автоматического преобразования 2D в 2D-плюс-глубина для сцены движения камеры
^ abc Qingqing We. "Converting 2D to 3D: A Survey" (PDF) . Факультет электротехники, математики и компьютерных наук, Делфтский технический университет. Архивировано из оригинала (PDF) 2012-04-15.
^ Joveluro, P.; Malekmohamadi, H.; Fernando, WA C; Kondoz, AM (2010). "Метрика качества воспринимаемого видео для оценки качества 3D-видео". 2010 3DTV-конференция: The True Vision - Capture, Transmission and Display of 3D Video . IEEE. стр. 1–4. doi :10.1109/3dtv.2010.5506331. ISBN 978-1-4244-6377-0.
^ Баниталеби-Дехкорди, Амин; Пуразад, Махса Т.; Насиопулос, Панос (2013). «Показатель качества 3D-видео для сжатия 3D-видео». Ивмсп 2013 . IEEE. стр. 1–4. arXiv : 1803.04629 . doi : 10.1109/ivmspw.2013.6611930. ISBN 978-1-4673-5858-3.
^ VQMT3D

Источники

Манси Шарма; Сантану Чаудхури; Бреджеш Лалл (2014). Kinect-Variety Fusion: новый гибридный подход к генерации контента 3DTV без артефактов . На 22-й Международной конференции по распознаванию образов (ICPR), Стокгольм, 2014. doi :10.1109/ICPR.2014.395.