stringtranslate.com

Нейронное поле излучения

Нейронное поле излучения ( NeRF ) — это метод, основанный на глубоком обучении для реконструкции трехмерного представления сцены из двухмерных изображений. Модель NeRF позволяет использовать нисходящие приложения для синтеза новых видов, реконструкции геометрии сцены и получения отражательных свойств сцены. Дополнительные свойства сцены, такие как позы камеры, также могут быть совместно изучены. Впервые представленный в 2020 году [1], с тех пор он привлек значительное внимание своими потенциальными приложениями в компьютерной графике и создании контента. [2]

Алгоритм

Алгоритм NeRF представляет сцену как поле яркости, параметризованное глубокой нейронной сетью (DNN). Сеть предсказывает объемную плотность и зависящую от вида испускаемую яркость, учитывая пространственное положение ( x, y, z ) и направление обзора в углах Эйлера ( θ, Φ ) камеры. Путем выборки множества точек вдоль лучей камеры традиционные методы объемной визуализации могут создавать изображение. [1]

Сбор данных

NeRF необходимо переобучить для каждой уникальной сцены. Первым шагом является сбор изображений сцены с разных углов и их соответствующей позы камеры. Эти изображения являются стандартными 2D-изображениями и не требуют специализированной камеры или программного обеспечения. Любая камера способна генерировать наборы данных, при условии, что настройки и метод захвата соответствуют требованиям SfM ( структура из движения ).

Это требует отслеживания положения и ориентации камеры, часто через некоторую комбинацию SLAM , GPS или инерциальной оценки. Исследователи часто используют синтетические данные для оценки NeRF и связанных с ними методов. Для таких данных изображения ( полученные с помощью традиционных необученных методов ) и соответствующие позы камеры воспроизводимы и не содержат ошибок. [3]

Обучение

Для каждой предоставленной разреженной точки обзора (изображение и поза камеры) лучи камеры проходят через сцену, генерируя набор 3D-точек с заданным направлением излучения (в камеру). Для этих точек объемная плотность и испускаемое излучение прогнозируются с помощью многослойного персептрона (MLP). Затем изображение генерируется с помощью классического объемного рендеринга. Поскольку этот процесс полностью дифференцируем, ошибка между прогнозируемым изображением и исходным изображением может быть минимизирована с помощью градиентного спуска по нескольким точкам обзора, что побуждает MLP разрабатывать согласованную модель сцены. [1]

Вариации и улучшения

Ранние версии NeRF медленно оптимизировались и требовали, чтобы все входные виды были сделаны одной и той же камерой в одинаковых условиях освещения. Они работали лучше всего, когда ограничивались вращением вокруг отдельных объектов, таких как барабанная установка, растения или небольшие игрушки. [2] С момента выхода оригинальной статьи в 2020 году в алгоритм NeRF было внесено множество улучшений с вариациями для особых случаев использования.

Отображение признаков Фурье

В 2020 году, вскоре после выпуска NeRF, добавление картирования признаков Фурье улучшило скорость обучения и точность изображений. Глубокие нейронные сети испытывают трудности с изучением высокочастотных функций в низкоразмерных доменах; явление, известное как спектральное смещение. Чтобы преодолеть этот недостаток, точки сопоставляются с пространством признаков более высокой размерности, прежде чем поступать в MLP.

Где — входная точка, — векторы частот, — коэффициенты.

Это обеспечивает быструю сходимость к высокочастотным функциям, таким как пиксели в детальном изображении. [4]

Связующие нейронные поля излучения

Одним из ограничений NeRF является требование знания точных поз камеры для обучения модели. Зачастую методы оценки поз не совсем точны, а позу камеры вообще невозможно узнать. Эти недостатки приводят к артефактам и неоптимальной сходимости. Поэтому был разработан метод оптимизации позы камеры вместе с самой объемной функцией. Называемый Bundle-Adjusting Neural Radiance Field (BARF), этот метод использует динамический фильтр нижних частот для перехода от грубой к точной настройке, минимизируя ошибку путем нахождения геометрического преобразования для желаемого изображения. Это исправляет несовершенные позы камеры и значительно улучшает качество рендеринга NeRF. [5]

Многомасштабное представление

Обычные NeRF испытывают трудности с представлением деталей на всех расстояниях просмотра, создавая размытые изображения вблизи и чрезмерно искаженные изображения с дальних ракурсов. В 2021 году исследователи представили метод улучшения резкости деталей на разных масштабах просмотра, известный как mip-NeRF (происходит от mipmap ). Вместо того, чтобы выбирать один луч на пиксель, этот метод подгоняет гауссиану к коническому усеченному конусу, отбрасываемому камерой. Это улучшение эффективно сглаживает на всех масштабах просмотра. mip-NeRF также уменьшает общую ошибку изображения и быстрее сходится при размере ~ половины NeRF на основе лучей. [6]

Изученные инициализации

В 2021 году исследователи применили метаобучение для назначения начальных весов MLP. Это быстро ускоряет сходимость, эффективно давая сети фору в градиентном спуске. Метаобучение также позволило MLP изучить базовое представление определенных типов сцен. Например, имея набор данных известных туристических достопримечательностей, инициализированный NeRF может частично реконструировать сцену, имея одно изображение. [7]

NeRF в дикой природе

Обычные NeRF уязвимы к небольшим изменениям во входных изображениях (объекты, освещение), что часто приводит к появлению ореолов и артефактов. В результате NeRF с трудом представляют динамические сцены, такие как оживленные городские улицы с изменениями в освещении и динамическими объектами. В 2021 году исследователи из Google [2] разработали новый метод учета этих изменений, названный NeRF in the Wild (NeRF-W). Этот метод разделяет нейронную сеть (MLP) на три отдельные модели. Основная MLP сохраняется для кодирования статического объемного свечения. Однако она работает последовательно с отдельным MLP для встраивания внешнего вида (изменения в освещении, свойствах камеры) и MLP для встраивания переходных процессов (изменения в объектах сцены). Это позволяет обучать NeRF на различных коллекциях фотографий, например, снятых на мобильные телефоны в разное время суток. [8]

Переосвещение

В 2021 году исследователи добавили больше выходных данных в MLP, лежащий в основе NeRF. Теперь выходные данные включают: объемную плотность, нормаль поверхности, параметры материала, расстояние до первого пересечения поверхностей (в любом направлении) и видимость внешней среды в любом направлении. Включение этих новых параметров позволяет MLP изучать свойства материала, а не чистые значения яркости. Это облегчает более сложный конвейер рендеринга, вычисляя прямое и глобальное освещение , зеркальные блики и тени. В результате NeRF может рендерить сцену при любых условиях освещения без повторного обучения. [9]

Пленоктри

Хотя NeRF достигли высокого уровня точности, их дорогостоящее время вычислений сделало их бесполезными для многих приложений, требующих рендеринга в реальном времени, таких как VR / AR и интерактивный контент. Представленные в 2021 году, Plenoctrees (пленоптические октодеревья ) позволили рендерить в реальном времени предварительно обученные NeRF путем деления объемной функции сияния на октодерево. Вместо того, чтобы назначать направление сияния в камеру, направление обзора извлекается из сетевого ввода, и сферическое сияние прогнозируется для каждой области. Это делает рендеринг более чем в 3000 раз быстрее, чем обычные NeRF. [10]

Разреженная нейронная сетка излучения

Подобно Plenoctrees, этот метод позволяет выполнять рендеринг предварительно обученных NeRF в реальном времени. Чтобы избежать запроса большого MLP для каждой точки, этот метод запекает NeRF в разреженные нейронные сетки сияния (SNeRG). SNeRG — это разреженная сетка вокселей , содержащая непрозрачность и цвет, с изученными векторами признаков для кодирования информации, зависящей от вида. Затем используется легкий, более эффективный MLP для создания зависимых от вида остатков для изменения цвета и непрозрачности. Чтобы включить это сжимающее запекание, были внесены небольшие изменения в архитектуру NeRF, такие как запуск MLP один раз на пиксель, а не для каждой точки вдоль луча. Эти улучшения делают SNeRG чрезвычайно эффективным, превосходящим Plenoctrees. [11]

Мгновенные NeRF

В 2022 году исследователи из Nvidia обеспечили обучение NeRF в реальном времени с помощью техники, известной как Instant Neural Graphics Primitives. Инновационное кодирование входных данных сокращает вычисления, позволяя проводить обучение NeRF в реальном времени, что на порядки превышает предыдущие методы. Ускорение обусловлено использованием пространственных хеш-функций , которые имеют время доступа, и параллельных архитектур, которые быстро работают на современных графических процессорах . [12]

Связанные методы

Пленоксели

Plenoxel (пленоптический объемный элемент) использует разреженное представление вокселей вместо объемного подхода, как в NeRF. Plenoxel также полностью удаляет MLP, вместо этого напрямую выполняя градиентный спуск по коэффициентам вокселей. Plenoxel может соответствовать точности обычного NeRF за на порядки меньшее время обучения. Опубликованный в 2022 году, этот метод опроверг важность MLP, показав, что дифференцируемый конвейер рендеринга является критическим компонентом. [13]

Гауссово разбрызгивание

Гауссово разбрызгивание — это более новый метод, который может превзойти NeRF по времени рендеринга и точности. Вместо того, чтобы представлять сцену как объемную функцию, он использует разреженное облако трехмерных гауссиан . Сначала генерируется облако точек (через структуру из движения ) и преобразуется в гауссианы начальной ковариации, цвета и непрозрачности. Гауссианы напрямую оптимизируются через стохастический градиентный спуск для соответствия входному изображению. Это экономит вычисления, удаляя пустое пространство и устраняя необходимость запрашивать нейронную сеть для каждой точки. Вместо этого просто «разбрызгивает» все гауссианы на экране, и они перекрываются, создавая желаемое изображение. [14]

Фотограмметрия

Традиционная фотограмметрия не является нейронной, а вместо этого использует надежные геометрические уравнения для получения 3D-измерений. NeRF, в отличие от фотограмметрических методов, по своей сути не производят размерно точную 3D-геометрию. Хотя их результаты часто достаточны для извлечения точной геометрии (например, с помощью кубического марширования [1] ), процесс нечеткий , как и в большинстве нейронных методов. Это ограничивает NeRF случаями, когда оценивается выходное изображение, а не сырая геометрия сцены. Однако NeRF преуспевают в ситуациях с неблагоприятным освещением. Например, фотограмметрические методы полностью терпят неудачу при попытке реконструировать отражающие или прозрачные объекты в сцене, в то время как NeRF способен вывести геометрию. [15]

Приложения

NeRF имеют широкий спектр применения и начинают набирать популярность по мере их интеграции в удобные для пользователя приложения. [3]

Создание контента

NeRFs имеют огромный потенциал в создании контента, где фотореалистичные виды по запросу чрезвычайно ценны. [16] Технология демократизирует пространство, ранее доступное только командам художников VFX с дорогими активами. Поля нейронного излучения теперь позволяют любому человеку с камерой создавать захватывающие 3D-среды. [3] NeRF был объединен с генеративным ИИ , что позволяет пользователям без опыта моделирования вносить изменения в фотореалистичные 3D-сцены. [17] NeRFs имеют потенциальное применение в видеопроизводстве, компьютерной графике и дизайне продуктов.

Интерактивный контент

Фотореализм NeRF делает их привлекательными для приложений, где важно погружение, таких как виртуальная реальность или видеоигры. NeRF можно комбинировать с классическими методами рендеринга для вставки синтетических объектов и создания правдоподобных виртуальных впечатлений. [18]

Медицинская визуализация

NeRFs использовались для реконструкции 3D КТ-сканов из разреженных или даже единичных рентгеновских снимков. Модель продемонстрировала высокоточную визуализацию данных грудной клетки и колена. Если ее принять, этот метод может спасти пациентов от избыточных доз ионизирующего излучения, что позволит проводить более безопасную диагностику. [19]

Робототехника и автономность

Уникальная способность NeRF понимать прозрачные и отражающие объекты делает их полезными для роботов, взаимодействующих в таких средах. Использование NeRF позволило роботизированной руке точно манипулировать прозрачным бокалом для вина; задача, с которой традиционное компьютерное зрение столкнулось бы с трудностями. [20]

NeRF также могут генерировать фотореалистичные человеческие лица, что делает их ценными инструментами для взаимодействия человека с компьютером. Традиционно визуализированные лица могут быть странными , в то время как другие нейронные методы слишком медленные для работы в реальном времени. [21]

Ссылки

  1. ^ abcd Милденхолл, Бен; Шринивасан, Пратул П.; Танчик, Мэтью; Баррон, Джонатан Т.; Рамамурти, Рави; Нг, Рен (2020). «NeRF: представление сцен в виде полей нейронного излучения для синтеза представлений». В Ведальди, Андреа; Бишоф, Хорст; Брокс, Томас; Фрам, Ян-Майкл (ред.). Компьютерное зрение – ECCV 2020. Конспект лекций по информатике. Том 12346. Cham: Springer International Publishing. стр. 405–421. arXiv : 2003.08934 . doi :10.1007/978-3-030-58452-8_24. ISBN 978-3-030-58452-8. S2CID  213175590.
  2. ^ abc "Что такое Neural Radiance Field (NeRF)? | Определение от TechTarget". Enterprise AI . Получено 24.10.2023 .
  3. ^ abc Tancik, Matthew; Weber, Ethan; Ng, Evonne; Li, Ruilong; Yi, Brent; Kerr, Justin; Wang, Terrance; Kristoffersen, Alexander; Austin, Jake; Salahi, Kamyar; Ahuja, Abhik; McAllister, David; Kanazawa, Angjoo (2023-07-23). ​​"Nerfstudio: модульная структура для разработки поля нейронного излучения". Special Interest Group on Computer Graphics and Interactive Techniques Conference Труды конференции . стр. 1–12. arXiv : 2302.04264 . doi :10.1145/3588432.3591516. ISBN 9798400701597. S2CID  256662551.
  4. ^ Танчик, Мэтью; Шринивасан, Пратул П.; Милденхолл, Бен; Фридович-Кейл, Сара; Рагхаван, Нитин; Сингхал, Уткарш; Рамамурти, Рави; Бэррон, Джонатан Т.; Нг, Рен (18 июня 2020 г.). «Функции Фурье позволяют сетям изучать высокочастотные функции в низкоразмерных областях». arXiv : 2006.10739 [cs.CV].
  5. ^ Линь, Чэнь-Сюань; Ма, Вэй-Чиу; Торральба, Антонио; Люси, Саймон (2021). «BARF: пучковая регулировка полей нейронного излучения». arXiv : 2104.06405 [cs.CV].
  6. ^ Баррон, Джонатан Т.; Милденхолл, Бен; Танчик, Мэтью; Хедман, Питер; Мартин-Бруалла, Рикардо; Шринивасан, Пратул П. (07.04.2021). "Mip-NeRF: {A} Многомасштабное представление для сглаживающих полей нейронного излучения". arXiv : 2103.13415 [cs.CV].
  7. ^ Танчик, Мэтью; Милденхолл, Бен; Ванг, Терренс; Шмидт, Диви; Шринивасан, Пратул (2021). «Изученные инициализации для оптимизации координатно-ориентированных нейронных представлений». arXiv : 2012.02189 [cs.CV].
  8. ^ Мартин-Бруалла, Рикардо; Радван, Ноха; Саджади, Мехди SM; Баррон, Джонатан Т.; Досовицкий, Алексей; Дакворт, Дэниел (2020). «NeRF в дикой природе: поля нейронного излучения для неограниченных коллекций фотографий». arXiv : 2008.02268 [cs.CV].
  9. ^ Шринивасан, Пратул П.; Дэн, Боян; Чжан, Сюмин; Танчик, Мэтью; Милденхолл, Бен; Баррон, Джонатан Т. (2020). «NeRV: нейронное отражение и поля видимости для повторного освещения и синтеза вида». arXiv : 2012.03927 [cs.CV].
  10. ^ Ю, Алекс; Ли, Руйлонг; Танчик, Мэтью; Ли, Хао; Нг, Рен; Каназава, Анджу (2021). «PlenOctrees для рендеринга полей нейронного излучения в реальном времени». arXiv : 2103.14024 [cs.CV].
  11. ^ Хедман, Питер; Шринивасан, Пратул П.; Милденхолл, Бен; Баррон, Джонатан Т.; Дебевек, Пол (2021). «Выпечка полей нейронного излучения для синтеза изображений в реальном времени». arXiv : 2103.14645 [cs.CV].
  12. ^ Мюллер, Томас; Эванс, Алекс; Шид, Кристоф; Келлер, Александр (2022-07-04). «Мгновенные нейронные графические примитивы с многоразрешающим хэш-кодированием». ACM Transactions on Graphics . 41 (4): 1–15. arXiv : 2201.05989 . doi : 10.1145/3528223.3530127. ISSN  0730-0301. S2CID  246016186.
  13. ^ Фридович-Кейл, Сара; Ю, Алекс; Танчик, Мэтью; Чэнь, Циньхун; Рехт, Бенджамин; Каназава, Анджу (2021). «Пленоксели: поля излучения без нейронных сетей». arXiv : 2112.05131 [cs.CV].
  14. ^ Кербл, Бернхард; Копанас, Георгиос; Леймкюлер, Томас; Дреттакис, Джордж (2023-07-26). «3D Gaussian Splatting для визуализации поля излучения в реальном времени». ACM Transactions on Graphics . 42 (4): 1–14. arXiv : 2308.04079 . doi : 10.1145/3592433 . ISSN  0730-0301. S2CID  259267917.
  15. ^ «Почему ЭТО будущее изображений (и никто пока этого не знает)» – через www.youtube.com.
  16. ^ "Shutterstock рассказывает о NeRF на Неделе рекламы | Neural Radiance Fields". neuralradiancefields.io . 2023-10-20 . Получено 24-10-2023 .
  17. ^ Хак, Аяан; Танчик, Мэтью; Эфрос, Алексей; Холинский, Александр; Канадзава, Анджу (01 июня 2023 г.). «InstructPix2Pix: учимся следовать инструкциям по редактированию изображений». Конференция IEEE/CVF 2023 года по компьютерному зрению и распознаванию образов (CVPR) . IEEE. стр. 18392–18402. arXiv : 2211.09800 . дои : 10.1109/cvpr52729.2023.01764. ISBN 979-8-3503-0129-8. S2CID  253581213.
  18. ^ «Выход за рамки реальности: VR-NeRF | Поля нейронного излучения». neuralradiancefields.io . 2023-11-08 . Получено 2023-11-09 .
  19. ^ Corona-Figueroa, Abril; Frawley, Jonathan; Taylor, Sam Bond-; Bethapudi, Sarath; Shum, Hubert PH; Willcocks, Chris G. (11.07.2022). "MedNeRF: Медицинские нейронные поля излучения для реконструкции 3D-проекций КТ с помощью одного рентгеновского снимка". 44-я ежегодная международная конференция IEEE Engineering in Medicine & Biology Society (EMBC) 2022 г. (PDF) . Том 2022 г. IEEE. стр. 3843–3848. doi :10.1109/embc48229.2022.9871757. ISBN 978-1-7281-2782-8. PMID  36085823. S2CID  246473192.
  20. ^ Керр, Джастин; Фу, Летиан; Хуан, Хуан; Авигаль, Яхав; Танчик, Мэтью; Ихновски, Джеффри; Каназава, Анджу; Голдберг, Кен (15.08.2022). Evo-NeRF: Развитие NeRF для последовательного захвата роботом прозрачных объектов. Конференция CoRL 2022.
  21. ^ Aurora (2023-06-04). "Создание высокодетализированных человеческих лиц с использованием Neural Radiance Fields". ILLUMINATION . Получено 2023-11-09 .