stringtranslate.com

Синтез человеческого изображения

В этой системе анимации morph target четыре "выражения" были определены как деформации геометрии модели. Любая комбинация этих четырех выражений может быть использована для анимации формы рта. Аналогичные элементы управления могут быть применены для анимации всей человекоподобной модели.

Синтез человеческого изображения — это технология, которая может применяться для создания правдоподобных и даже фотореалистичных изображений [1] [2] человеческих подобий, движущихся или неподвижных. Она фактически существует с начала 2000-х годов. Во многих фильмах, использующих компьютерную графику, использовались синтетические изображения человекоподобных персонажей, наложенные в цифровом виде на реальный или другой смоделированный материал фильма. К концу 2010-х годов искусственный интеллект с глубоким обучением применялся для синтеза изображений и видео , которые выглядят как люди, без необходимости в помощи человека после завершения фазы обучения, тогда как старый школьный 7D-маршрут требовал огромного количества человеческой работы.

Хронология синтеза изображений человека

Ключевой прорыв в фотореализме: захват отражения

ESPER LightCage — пример сферической световой сцены с многокамерной установкой вокруг сферы, подходящей для захвата в 7D-модель отражения.

В 1999 году Пол Дебевец и др. из Южнокалифорнийского университета провели первый известный захват отражения над человеческим лицом с помощью своего чрезвычайно простого светового столика . Они представили свой метод и результаты в SIGGRAPH 2000. [5]

Функция распределения двунаправленного рассеяния (BSDF) для подобия человеческой кожи требует как BRDF , так и особого случая BTDF, когда свет проникает в кожу, передается и выходит из нее .

Научный прорыв потребовал найти компонент подповерхностного света (модели имитации слегка светятся изнутри), который можно найти, используя знание того, что свет, отраженный от слоя нефть-воздух, сохраняет свою поляризацию , а подповерхностный свет теряет свою поляризацию. Поэтому, оснастив только подвижным источником света, подвижной видеокамерой, 2 поляризаторами и компьютерной программой, выполняющей чрезвычайно простую математику, и последняя часть, необходимая для достижения фотореализма, была приобретена. [5]

Для получения правдоподобного результата необходимо захватить и смоделировать как свет, отраженный от кожи ( BRDF ), так и свет внутри кожи (частный случай BTDF ), которые вместе составляют BSDF .

Захватывающий

Синтез

Весь процесс создания цифровых двойников, то есть персонажей, настолько правдоподобных и реалистичных, что их можно выдать за изображения людей, является очень сложной задачей, поскольку требует фотореалистичного моделирования , анимации, перекрестного картирования и визуализации динамики мягкого тела человека.

Синтез с актером и подходящими алгоритмами применяется с использованием мощных компьютеров. Роль актера в синтезе заключается в том, чтобы заботиться об имитации человеческих выражений при синтезе неподвижных изображений, а также человеческих движений при синтезе движущихся изображений. Алгоритмы необходимы для имитации законов физики и физиологии и для сопоставления моделей и их внешнего вида, движений и взаимодействия соответственно.

Часто в части синтеза используются как моделирование и рендеринг на основе физики / физиологии (например, скелетная анимация ), так и моделирование и рендеринг на основе изображений. Гибридные модели, использующие оба подхода, показали наилучшие результаты в плане реализма и простоты использования. Анимация морфинга снижает рабочую нагрузку, предоставляя более высокий уровень контроля, где различные выражения лица определяются как деформации модели, что позволяет интуитивно настраивать выражения. Анимация морфинга может затем трансформировать модель между различными определенными выражениями лица или позами тела без особой необходимости вмешательства человека.

Использование карт смещения играет важную роль в получении реалистичного результата с мелкими деталями кожи, такими как поры и морщины размером до 100 мкм .

Подход машинного обучения

В конце 2010-х годов машинное обучение , а точнее генеративно-состязательные сети (GAN), использовались NVIDIA для создания случайных, но фотореалистичных портретов, похожих на человеческие. Система, названная StyleGAN , была обучена на базе данных из 70 000 изображений с веб-сайта-хранилища изображений Flickr . Исходный код был опубликован на GitHub в 2019 году. [32] Выходные данные сети-генератора из случайных входных данных были опубликованы на ряде веб-сайтов. [33] [34]

Аналогичным образом, с 2018 года технология deepfake позволила GAN менять лица между актерами; в сочетании со способностью подделывать голоса, GAN могут таким образом генерировать поддельные видеоролики, которые кажутся убедительными. [35]

Приложения

Основные области применения лежат в области стоковой фотографии , синтетических наборов данных , виртуальной кинематографии , компьютерных и видеоигр , а также скрытых атак по дезинформации . [36] [34] Некоторые ИИ для распознавания лиц используют изображения, созданные другими ИИ, в качестве синтетических данных для обучения. [37]

Более того, некоторые исследования показывают, что это может иметь терапевтический эффект , поскольку « психологи и консультанты также начали использовать аватары для предоставления терапии клиентам, которые имеют фобии , историю травм , зависимости, синдром Аспергера или социальную тревожность ». [38] Сильный отпечаток памяти и эффекты активации мозга, вызванные наблюдением за цифровым аватаром, похожим на вас, называются эффектом двойника . [38] Эффект двойника может исцелять, когда скрытая дезинформационная атака раскрывается как таковая для целей атаки.

Связанные вопросы

Синтез речи был близок к тому, чтобы быть полностью неотличимым от записи настоящего человеческого голоса с момента появления в 2016 году программного обеспечения для редактирования и генерации голоса Adobe Voco , прототипа, который должен стать частью Adobe Creative Suite , и DeepMind WaveNet , прототипа от Google. [39] Возможность красть и манипулировать голосами других людей вызывает очевидные этические проблемы. [40]

На конференции по системам обработки нейронной информации (NeurIPS) 2018 года исследователи из Google представили работу «Перенос обучения с проверки говорящего на многоговорящий синтез текста в речь», которая переносит обучение с проверки говорящего на достижение синтеза текста в речь, который может заставить звучать почти как кто угодно, используя образец речи продолжительностью всего 5 секунд (прослушать) [41] .

При поиске изображений для обучения ИИ возникает вопрос конфиденциальности, поскольку люди, используемые для обучения, не давали на это своего согласия. [42]

Технология цифровой имитации звука попала в руки преступников: в 2019 году исследователи Symantec узнали о трех случаях использования технологии в преступных целях. [43] [44]

Это в сочетании с тем фактом, что (по состоянию на 2016 год) были убедительно продемонстрированы методы, позволяющие подделывать выражения лиц в режиме , близком к реальному времени, в существующих 2D-видео, что усиливает напряжение в ситуации дезинформации. [15]

Смотрите также

Ссылки

  1. ^ Физическая модель мышц для управления формой рта на IEEE Explore (требуется членство)
  2. ^ Реалистичная 3D-анимация лиц в виртуальном пространстве телеконференций на IEEE Explore (требуется членство)
  3. Берлин, Изабель (14 сентября 2008 г.). «Образы синтеза: пальма долголетия для омбраджа де Гуро». Промежутки (на французском языке) . Проверено 3 октября 2024 г.
  4. ^ "Синтезированные изображения: пальма долголетия для омбраджа де Гуро" . 14 сентября 2008 г.
  5. ^ abc Debevec, Paul (2000). "Получение поля отражения человеческого лица". Труды 27-й ежегодной конференции по компьютерной графике и интерактивным технологиям - SIGGRAPH '00 . ACM. стр. 145–156. doi :10.1145/344779.344855. ISBN 978-1581132083. S2CID  2860203 . Получено 24 мая 2017 г. .
  6. ^ Пигин, Фредерик. «Siggraph 2005 Digital Face Cloning Course Notes» (PDF) . Получено 24 мая 2017 г.
  7. ^ "St. Andrews Face Transformer". Futility Closet . 30 января 2005 г. Получено 7 декабря 2020 г.
  8. ^ ab West, Marc (4 декабря 2007 г.). «Изменение облика науки». Plus Magazine . Получено 7 декабря 2020 г.
  9. ^ Годдард, Джон (27 января 2010 г.). «Многоликие лица расовых исследований». thestar.com . Получено 7 декабря 2020 г. .
  10. ^ В этом видео выступления TED в 00:04:59 вы можете увидеть два клипа, один с настоящей Эмили, снятой настоящей камерой, и один с цифровым двойником Эмили, снятым с помощью симуляции камеры — что есть что, трудно сказать . Брюс Лоумен был отсканирован с помощью USC light stage 6 в неподвижном положении, а также записан бегущим там же на беговой дорожке . Множество цифровых двойников Брюса можно увидеть бегущими плавно и естественно, глядя на заключительную последовательность видео выступления TED.
  11. ^ ReForm – Создание цифровых клонов Голливудом (youtube). Проект Creators. 24 мая 2017 г.
  12. ^ Дебевец, Пол. "Digital Ira SIGGRAPH 2013 Real-Time Live". Архивировано из оригинала 21 февраля 2015 года . Получено 24 мая 2017 года .
  13. ^ «Сканирование и печать 3D-портрета президента Барака Обамы». Университет Южной Калифорнии. 2013. Архивировано из оригинала 17 сентября 2015 года . Получено 24 мая 2017 года .
  14. ^ Giardina, Carolyn (25 марта 2015 г.). «„Форсаж 7“ и как Weta Питера Джексона создала цифрового Пола Уокера». The Hollywood Reporter . Получено 24 мая 2017 г.
  15. ^ ab Thies, Justus (2016). "Face2Face: захват лиц в реальном времени и реконструкция видео RGB". Proc. Computer Vision and Pattern Recognition (CVPR), IEEE . Получено 24 мая 2017 г.
  16. ^ "Синтезирование Обамы: изучение синхронизации губ с аудио". grail.cs.washington.edu . Получено 3 октября 2024 г. .
  17. ^ Suwajanakorn, Supasorn; Seitz, Steven; Kemelmacher-Shlizerman, Ira (2017), Synthesizing Obama: Learning Lip Sync from Audio, University of Washington , получено 2 марта 2018 г.
  18. ^ Рёттгерс, Янко (21 февраля 2018 г.). «Производители порно предлагают помочь Голливуду убрать поддельные видео». Variety . Получено 28 февраля 2018 г.
  19. ^ Такахаши, Дин (21 марта 2018 г.). «Epic Games демонстрирует удивительный цифровой человек в реальном времени с демонстрацией Siren». VentureBeat . Получено 10 сентября 2018 г.
  20. ^ Куо, Лили (9 ноября 2018 г.). «Первый в мире ведущий новостей на базе искусственного интеллекта представлен в Китае». TheGuardian.com . Получено 9 ноября 2018 г.
  21. Гамильтон, Изобель Эшер (9 ноября 2018 г.). «Китай создал то, что он называет первым ведущим новостей на базе искусственного интеллекта — посмотрите, как это работает здесь». Business Insider . Получено 9 ноября 2018 г.
  22. ^ Харвелл, Дрю (30 декабря 2018 г.). «Фейковые порно-видео используются как оружие для преследования и унижения женщин: «Каждый человек — потенциальная цель». The Washington Post . Получено 14 марта 2019 г. . В сентябре [2018 г.] Google добавил «непреднамеренные синтетические порнографические изображения» в свой список запрещенных материалов
  23. ^ "NVIDIA Open-Sources Hyper-Realistic Face Generator StyleGAN". Medium.com . 9 февраля 2019 г. Получено 3 октября 2019 г.
  24. ^ ab Paez, Danny (13 февраля 2019 г.). «This Person Does Not Exist Is the Best One-Off Website of 2019». Inverse . Получено 5 марта 2018 г.
  25. ^ "Новые законы штата вступают в силу 1 июля". 24 июня 2019 г.
  26. ^ ab "§ 18.2–386.2. Незаконное распространение или продажа изображений другого лица; штраф". Вирджиния . Получено 1 января 2020 г. .
  27. ^ «Относительно создания уголовного преступления за фабрикацию обманного видео с намерением повлиять на исход выборов». Техас . 14 июня 2019 г. Получено 2 января 2020 г. В этом разделе «глубокое фейковое видео» означает видео, созданное с намерением обмануть, которое, по-видимому, изображает реального человека, выполняющего действие, которое не происходило в реальности.
  28. ^ Джонсон, Р. Дж. (30 декабря 2019 г.). «Вот новые законы Калифорнии, вступающие в силу в 2020 году». KFI . iHeartMedia . Получено 1 января 2020 г. .
  29. ^ Михалчик, Кэрри (4 октября 2019 г.). «Законы Калифорнии направлены на борьбу с дипфейками в политике и порно». cnet.com . CNET . Получено 14 октября 2019 г. .
  30. ^ «Китай стремится искоренить фейковые новости и дипфейки с помощью новых правил онлайн-контента». Reuters.com . Reuters . 29 ноября 2019 г. . Получено 8 декабря 2019 г. .
  31. ^ Statt, Nick (29 ноября 2019 г.). «Китай делает уголовным преступлением публикацию deepfakes или фейковых новостей без раскрытия информации». The Verge . Получено 8 декабря 2019 г. .
  32. Синхронизировано (9 февраля 2019 г.). "NVIDIA Open-Sources Hyper-Realistic Face Generator StyleGAN". Синхронизировано . Получено 4 августа 2020 г.
  33. ^ Сайт публичной демонстрации StyleGAN
  34. ^ ab Porter, Jon (20 сентября 2019 г.). «100 000 бесплатных фотографий, созданных с помощью искусственного интеллекта, предупреждают компании, занимающиеся стоковыми фотографиями». The Verge . Получено 7 августа 2020 г. .
  35. ^ «Что такое Deepfake?». PCMAG.com . Март 2020 г. Получено 8 июня 2020 г.
  36. ^ Харвелл, Дрю. «Приложениям для знакомств нужны женщины. Рекламодателям нужно разнообразие. Компании ИИ предлагают решение: фальшивые люди». Washington Post . Получено 4 августа 2020 г.
  37. ^ «Нейронным сетям нужны данные для обучения. Даже если они поддельные». Журнал Quanta . 11 декабря 2023 г. Получено 18 июня 2023 г.
  38. ^ ab Murphy, Samantha (2023). "Scientific American: Your Avatar, Your Guide" (.pdf) . Scientific American / Uni of Stanford . Получено 11 декабря 2023 г. .
  39. ^ "WaveNet: Генеративная модель для необработанного звука". Deepmind.com . 8 сентября 2016 г. Архивировано из оригинала 27 мая 2017 г. Получено 24 мая 2017 г.
  40. ^ "Adobe Voco 'Photoshop-for-voice' вызывает беспокойство". BBC.com . BBC . 7 ноября 2016 . Получено 5 июля 2016 .
  41. ^ Цзя, Йе; Чжан, Ю; Вайс, Рон Дж. (12 июня 2018 г.), «Перенос обучения с проверки говорящего на многоговорящий синтез текста в речь», Достижения в области нейронных систем обработки информации , 31 : 4485–4495, arXiv : 1806.04558 , Bibcode : 2018arXiv180604558J
  42. ^ Рэйчел Метц (19 апреля 2019 г.). «Если ваше изображение есть в сети, оно может тренировать ИИ для распознавания лиц». CNN . Получено 4 августа 2020 г.
  43. ^ «Поддельные голоса „помогают киберпреступникам красть деньги“». bbc.com . BBC . 8 июля 2019 . Получено 16 апреля 2020 .
  44. ^ Дрю, Харвелл (16 апреля 2020 г.). «Первый искусственный интеллект: программное обеспечение, имитирующее голос, как сообщается, использовалось при крупной краже». Washington Post . Получено 8 сентября 2019 г.