Синтез человеческого изображения — это технология, которая может применяться для создания правдоподобных и даже фотореалистичных изображений [1] [2] человеческих подобий, движущихся или неподвижных. Она фактически существует с начала 2000-х годов. Во многих фильмах, использующих компьютерную графику, использовались синтетические изображения человекоподобных персонажей, наложенные в цифровом виде на реальный или другой смоделированный материал фильма. К концу 2010-х годов искусственный интеллект с глубоким обучением применялся для синтеза изображений и видео , которые выглядят как люди, без необходимости в помощи человека после завершения фазы обучения, тогда как старый школьный 7D-маршрут требовал огромного количества человеческой работы.
Короткометражный фильм 1972 года «A Computer Animated Hand» Эдвина Кэтмелла и Фреда Парка был первым случаем, когда компьютерная графика использовалась в кино для имитации движущегося человеческого облика. В фильме были представлены компьютерная имитация руки и лица (посмотреть фильм здесь).
В фильме 1976 года «Мир будущего» части «Анимированной компьютерной руки» были повторно использованы на большом экране.
Клип 1983 года на песню Musique Non-Stop немецкой группы Kraftwerk вышел в эфир в 1986 году. Клип был создан художницей Ребеккой Аллен и представляет собой нереалистично выглядящие, но легко узнаваемые компьютерные симуляции участников группы.
Фильм 1994 года «Ворон» стал первым фильмом, в котором использовалась цифровая композиция компьютерной имитации лица в сценах, снятых с использованием дублера . Необходимость стала музой, поскольку актер Брэндон Ли, игравший главного героя, трагически погиб на сцене.
В 2005 году был создан проект « Лицо будущего » [7] Университетом Сент-Эндрюс и Лабораторией восприятия, финансируемой EPSRC . [8] На сайте есть «Трансформер лиц», который позволяет пользователям преобразовывать свое лицо в лицо любой национальности и возраста , а также возможность преобразовать свое лицо в картину (в стиле Сандро Боттичелли или Амедео Модильяни ). [9] Этот процесс достигается путем объединения фотографии пользователя со средним лицом. [8]
В 2009 году Дебевек и др. представили новые цифровые изображения, созданные Image Metrics , на этот раз актрисы Эмили О'Брайен , отражение которой было зафиксировано с помощью световой сцены USC 5 [10]. Движение выглядит довольно убедительно по сравнению с неуклюжим бегом в фильме «Аниматрица: Последний полет Осириса» , который в 2003 году был последним словом техники, если аниматоры стремились к фотореализму.
В 2009 году для фильма «Терминатор: Да придет спаситель » был создан цифровой двойник молодого Арнольда Шварценеггера, хотя конечный результат был раскритикован как неубедительный. Геометрия лица была получена с формы Шварценеггера 1984 года.
На конференции SIGGGRAPH 2013 Activision и USC представили в реальном времени «Digital Ira» — цифровую копию лица Ари Шапиро, научного сотрудника ICT USC [11], использовавшую USC light stage X от Ghosh et al. как для поля отражения, так и для захвата движения. [12] Конечный результат, как предварительно вычисленный, так и рендеринг в реальном времени с помощью новейшего игрового графического процессора, показан здесь и выглядит довольно реалистично.
В 2014 году Институт креативных технологий Университета Южной Калифорнии совместно со Смитсоновским институтом создал портрет президента с использованием новейшей мобильной световой сцены Университета Южной Калифорнии, на которой были запечатлены геометрия, текстуры и отражательная способность президента Барака Обамы . [13]
В 2016 году для фильма «Изгой-один» был создан цифровой двойник Питера Кушинга , который внешне выглядел бы так же, как и актер во время съемок оригинального фильма «Звездные войны» 1977 года .
На конференции SIGGRAPH 2017 года исследователи из Вашингтонского университета представили цифровую модель верхней части туловища Барака Обамы, управляемую звуком . [16] Она управлялась только голосовой дорожкой в качестве исходных данных для анимации после завершения этапа обучения для получения синхронизации губ и более широкой информации о лице из учебного материала, состоящего из 2D-видео со звуком. [17]
В конце 2017 [18] и начале 2018 года всплыл скандал вокруг deepfakes , когда порновидео были смонтированы с использованием глубокого машинного обучения , так что лицо актрисы было заменено мнением программного обеспечения о том, как будет выглядеть лицо другого человека в той же позе и при том же освещении.
В 2018 году на Всемирной интернет-конференции в Учжэне информационное агентство Синьхуа представило двух цифровых двойников, созданных по образу и подобию настоящих ведущих новостей Цю Хао (китайский язык) [20] и Чжан Чжао (английский язык). Цифровые двойники были созданы совместно с Sogou . [21] Ни используемый синтез речи , ни жестикуляция цифровых двойников-ведущих не были достаточно хороши, чтобы обмануть зрителя и заставить его принять их за настоящих людей, снятых на телекамеру.
В сентябре 2018 года Google добавил «непреднамеренные синтетические порнографические изображения» в свой список запрещенных материалов, что позволяет любому человеку запросить у поисковой системы блокировку результатов, которые ложно изображают его «обнаженным или в откровенно сексуальной ситуации». [22]
В феврале 2019 года Nvidia открыла исходный код StyleGAN , новой генеративно-состязательной сети . [23] Сразу после этого Филлип Ванг создал веб-сайт ThisPersonDoesNotExist.com с помощью StyleGAN, чтобы продемонстрировать, что с помощью GAN можно автоматически создавать неограниченное количество часто фотореалистично выглядящих портретов лиц ни одного человека. [24] StyleGAN от Nvidia был представлен в еще не рецензируемой статье в конце 2018 года. [24]
На конференции CVPR в июне 2019 года MIT CSAIL представила систему под названием «Speech2Face: Learning the Face Behind a Voice» , которая синтезирует вероятные лица на основе только записи голоса. Она была обучена с помощью огромного количества видеозаписей говорящих людей .
С 1 июля 2019 года [25] Вирджиния криминализировала продажу и распространение несанкционированной синтетической порнографии, но не ее изготовление. [26] Так как § 18.2–386.2 под названием « Незаконное распространение или продажа изображений другого лица; наказание» стали частью Кодекса Вирджинии . Текст закона гласит: « Любое лицо, которое с намерением принудить , преследовать или запугать злонамеренно распространяет или продает любое видеографическое или неподвижное изображение, созданное любыми средствами, которое изображает другое лицо, которое полностью обнажено или находится в состоянии раздетости, обнажая гениталии , лобковую область, ягодицы или женскую грудь , когда такое лицо знает или имеет основания знать, что у него нет лицензии или разрешения на распространение или продажу такого видеографического или неподвижного изображения, виновно в совершении проступка 1 класса » . [26] Идентичные законопроекты были внесены делегатом Маркусом Саймоном в Палату делегатов Вирджинии 14 января 2019 года под номером 2678, а три дня спустя идентичный законопроект Сената 1736 был представлен в Сенат Вирджинии сенатором Адамом Эббином .
С 1 сентября 2019 года вступил в силу законопроект сената Техаса SB 751 о внесении поправок в избирательный кодекс, предоставляющий кандидатам на выборах 30-дневный период защиты от выборов, в течение которого создание и распространение цифровых двойников или синтетических подделок кандидатов является правонарушением. В тексте закона предмет закона определяется как « видео, созданное с целью обмана, которое, по-видимому, изображает реального человека, выполняющего действие, которое не происходило в реальности » [27].
В сентябре 2019 года финская общественная вещательная компания Yle в своем основном выпуске новостей показала результат экспериментальной журналистики — дипфейк действующего президента Саули Ниинистё . Целью этого выпуска было подчеркнуть прогрессирующие технологии дезинформации и проблемы, которые они создают.
1 января 2020 года вступил в силу китайский закон, требующий, чтобы синтетически поддельные кадры содержали четкое уведомление о поддельности. Несоблюдение этого требования может считаться преступлением, заявила Администрация киберпространства Китая на своем веб-сайте. Китай объявил об этом новом законе в ноябре 2019 года. [30] Похоже, что китайское правительство оставляет за собой право преследовать как пользователей, так и онлайн-видеоплатформы, не соблюдающие правила. [31] 12 ноября [deepfake]
Ключевой прорыв в фотореализме: захват отражения
В 1999 году Пол Дебевец и др. из Южнокалифорнийского университета провели первый известный захват отражения над человеческим лицом с помощью своего чрезвычайно простого светового столика . Они представили свой метод и результаты в SIGGRAPH 2000. [5]
Научный прорыв потребовал найти компонент подповерхностного света (модели имитации слегка светятся изнутри), который можно найти, используя знание того, что свет, отраженный от слоя нефть-воздух, сохраняет свою поляризацию , а подповерхностный свет теряет свою поляризацию. Поэтому, оснастив только подвижным источником света, подвижной видеокамерой, 2 поляризаторами и компьютерной программой, выполняющей чрезвычайно простую математику, и последняя часть, необходимая для достижения фотореализма, была приобретена. [5]
Для получения правдоподобного результата необходимо захватить и смоделировать как свет, отраженный от кожи ( BRDF ), так и свет внутри кожи (частный случай BTDF ), которые вместе составляют BSDF .
Для получения достоверных результатов необходимо также захватить поле отражения или выбрать приближение из библиотек, чтобы сформировать 7D-модель отражения цели.
Синтез
Весь процесс создания цифровых двойников, то есть персонажей, настолько правдоподобных и реалистичных, что их можно выдать за изображения людей, является очень сложной задачей, поскольку требует фотореалистичного моделирования , анимации, перекрестного картирования и визуализации динамики мягкого тела человека.
Синтез с актером и подходящими алгоритмами применяется с использованием мощных компьютеров. Роль актера в синтезе заключается в том, чтобы заботиться об имитации человеческих выражений при синтезе неподвижных изображений, а также человеческих движений при синтезе движущихся изображений. Алгоритмы необходимы для имитации законов физики и физиологии и для сопоставления моделей и их внешнего вида, движений и взаимодействия соответственно.
Часто в части синтеза используются как моделирование и рендеринг на основе физики / физиологии (например, скелетная анимация ), так и моделирование и рендеринг на основе изображений. Гибридные модели, использующие оба подхода, показали наилучшие результаты в плане реализма и простоты использования. Анимация морфинга снижает рабочую нагрузку, предоставляя более высокий уровень контроля, где различные выражения лица определяются как деформации модели, что позволяет интуитивно настраивать выражения. Анимация морфинга может затем трансформировать модель между различными определенными выражениями лица или позами тела без особой необходимости вмешательства человека.
Использование карт смещения играет важную роль в получении реалистичного результата с мелкими деталями кожи, такими как поры и морщины размером до 100 мкм .
Подход машинного обучения
В конце 2010-х годов машинное обучение , а точнее генеративно-состязательные сети (GAN), использовались NVIDIA для создания случайных, но фотореалистичных портретов, похожих на человеческие. Система, названная StyleGAN , была обучена на базе данных из 70 000 изображений с веб-сайта-хранилища изображений Flickr . Исходный код был опубликован на GitHub в 2019 году. [32] Выходные данные сети-генератора из случайных входных данных были опубликованы на ряде веб-сайтов. [33] [34]
Аналогичным образом, с 2018 года технология deepfake позволила GAN менять лица между актерами; в сочетании со способностью подделывать голоса, GAN могут таким образом генерировать поддельные видеоролики, которые кажутся убедительными. [35]
Более того, некоторые исследования показывают, что это может иметь терапевтический эффект , поскольку « психологи и консультанты также начали использовать аватары для предоставления терапии клиентам, которые имеют фобии , историю травм , зависимости, синдром Аспергера или социальную тревожность ». [38] Сильный отпечаток памяти и эффекты активации мозга, вызванные наблюдением за цифровым аватаром, похожим на вас, называются эффектом двойника . [38] Эффект двойника может исцелять, когда скрытая дезинформационная атака раскрывается как таковая для целей атаки.
Связанные вопросы
Синтез речи был близок к тому, чтобы быть полностью неотличимым от записи настоящего человеческого голоса с момента появления в 2016 году программного обеспечения для редактирования и генерации голоса Adobe Voco , прототипа, который должен стать частью Adobe Creative Suite , и DeepMind WaveNet , прототипа от Google. [39]
Возможность красть и манипулировать голосами других людей вызывает очевидные этические проблемы. [40]
На конференции по системам обработки нейронной информации (NeurIPS) 2018 года исследователи из Google представили работу «Перенос обучения с проверки говорящего на многоговорящий синтез текста в речь», которая переносит обучение с проверки говорящего на достижение синтеза текста в речь, который может заставить звучать почти как кто угодно, используя образец речи продолжительностью всего 5 секунд (прослушать) [41] .
При поиске изображений для обучения ИИ возникает вопрос конфиденциальности, поскольку люди, используемые для обучения, не давали на это своего согласия. [42]
Технология цифровой имитации звука попала в руки преступников: в 2019 году исследователи Symantec узнали о трех случаях использования технологии в преступных целях. [43] [44]
Это в сочетании с тем фактом, что (по состоянию на 2016 год) были убедительно продемонстрированы методы, позволяющие подделывать выражения лиц в режиме , близком к реальному времени, в существующих 2D-видео, что усиливает напряжение в ситуации дезинформации. [15]
^ Физическая модель мышц для управления формой рта на IEEE Explore (требуется членство)
^ Реалистичная 3D-анимация лиц в виртуальном пространстве телеконференций на IEEE Explore (требуется членство)
↑ Берлин, Изабель (14 сентября 2008 г.). «Образы синтеза: пальма долголетия для омбраджа де Гуро». Промежутки (на французском языке) . Проверено 3 октября 2024 г.
^ "Синтезированные изображения: пальма долголетия для омбраджа де Гуро" . 14 сентября 2008 г.
^ abc Debevec, Paul (2000). "Получение поля отражения человеческого лица". Труды 27-й ежегодной конференции по компьютерной графике и интерактивным технологиям - SIGGRAPH '00 . ACM. стр. 145–156. doi :10.1145/344779.344855. ISBN978-1581132083. S2CID 2860203 . Получено 24 мая 2017 г. .
^ Пигин, Фредерик. «Siggraph 2005 Digital Face Cloning Course Notes» (PDF) . Получено 24 мая 2017 г.
^ "St. Andrews Face Transformer". Futility Closet . 30 января 2005 г. Получено 7 декабря 2020 г.
^ ab West, Marc (4 декабря 2007 г.). «Изменение облика науки». Plus Magazine . Получено 7 декабря 2020 г.
^ Годдард, Джон (27 января 2010 г.). «Многоликие лица расовых исследований». thestar.com . Получено 7 декабря 2020 г. .
^ В этом видео выступления TED в 00:04:59 вы можете увидеть два клипа, один с настоящей Эмили, снятой настоящей камерой, и один с цифровым двойником Эмили, снятым с помощью симуляции камеры — что есть что, трудно сказать . Брюс Лоумен был отсканирован с помощью USC light stage 6 в неподвижном положении, а также записан бегущим там же на беговой дорожке . Множество цифровых двойников Брюса можно увидеть бегущими плавно и естественно, глядя на заключительную последовательность видео выступления TED.
^ ReForm – Создание цифровых клонов Голливудом (youtube). Проект Creators. 24 мая 2017 г.
^ Дебевец, Пол. "Digital Ira SIGGRAPH 2013 Real-Time Live". Архивировано из оригинала 21 февраля 2015 года . Получено 24 мая 2017 года .
^ «Сканирование и печать 3D-портрета президента Барака Обамы». Университет Южной Калифорнии. 2013. Архивировано из оригинала 17 сентября 2015 года . Получено 24 мая 2017 года .
^ Giardina, Carolyn (25 марта 2015 г.). «„Форсаж 7“ и как Weta Питера Джексона создала цифрового Пола Уокера». The Hollywood Reporter . Получено 24 мая 2017 г.
^ ab Thies, Justus (2016). "Face2Face: захват лиц в реальном времени и реконструкция видео RGB". Proc. Computer Vision and Pattern Recognition (CVPR), IEEE . Получено 24 мая 2017 г.
^ "Синтезирование Обамы: изучение синхронизации губ с аудио". grail.cs.washington.edu . Получено 3 октября 2024 г. .
^ Suwajanakorn, Supasorn; Seitz, Steven; Kemelmacher-Shlizerman, Ira (2017), Synthesizing Obama: Learning Lip Sync from Audio, University of Washington , получено 2 марта 2018 г.
^ Рёттгерс, Янко (21 февраля 2018 г.). «Производители порно предлагают помочь Голливуду убрать поддельные видео». Variety . Получено 28 февраля 2018 г.
^ Такахаши, Дин (21 марта 2018 г.). «Epic Games демонстрирует удивительный цифровой человек в реальном времени с демонстрацией Siren». VentureBeat . Получено 10 сентября 2018 г.
^ Куо, Лили (9 ноября 2018 г.). «Первый в мире ведущий новостей на базе искусственного интеллекта представлен в Китае». TheGuardian.com . Получено 9 ноября 2018 г.
↑ Гамильтон, Изобель Эшер (9 ноября 2018 г.). «Китай создал то, что он называет первым ведущим новостей на базе искусственного интеллекта — посмотрите, как это работает здесь». Business Insider . Получено 9 ноября 2018 г.
^ Харвелл, Дрю (30 декабря 2018 г.). «Фейковые порно-видео используются как оружие для преследования и унижения женщин: «Каждый человек — потенциальная цель». The Washington Post . Получено 14 марта 2019 г. . В сентябре [2018 г.] Google добавил «непреднамеренные синтетические порнографические изображения» в свой список запрещенных материалов
^ "NVIDIA Open-Sources Hyper-Realistic Face Generator StyleGAN". Medium.com . 9 февраля 2019 г. Получено 3 октября 2019 г.
^ ab Paez, Danny (13 февраля 2019 г.). «This Person Does Not Exist Is the Best One-Off Website of 2019». Inverse . Получено 5 марта 2018 г.
^ "Новые законы штата вступают в силу 1 июля". 24 июня 2019 г.
^ ab "§ 18.2–386.2. Незаконное распространение или продажа изображений другого лица; штраф". Вирджиния . Получено 1 января 2020 г. .
^ «Относительно создания уголовного преступления за фабрикацию обманного видео с намерением повлиять на исход выборов». Техас . 14 июня 2019 г. Получено 2 января 2020 г. В этом разделе «глубокое фейковое видео» означает видео, созданное с намерением обмануть, которое, по-видимому, изображает реального человека, выполняющего действие, которое не происходило в реальности.
^ Джонсон, Р. Дж. (30 декабря 2019 г.). «Вот новые законы Калифорнии, вступающие в силу в 2020 году». KFI . iHeartMedia . Получено 1 января 2020 г. .
^ Михалчик, Кэрри (4 октября 2019 г.). «Законы Калифорнии направлены на борьбу с дипфейками в политике и порно». cnet.com . CNET . Получено 14 октября 2019 г. .
^ «Китай стремится искоренить фейковые новости и дипфейки с помощью новых правил онлайн-контента». Reuters.com . Reuters . 29 ноября 2019 г. . Получено 8 декабря 2019 г. .
^ Statt, Nick (29 ноября 2019 г.). «Китай делает уголовным преступлением публикацию deepfakes или фейковых новостей без раскрытия информации». The Verge . Получено 8 декабря 2019 г. .
↑ Синхронизировано (9 февраля 2019 г.). "NVIDIA Open-Sources Hyper-Realistic Face Generator StyleGAN". Синхронизировано . Получено 4 августа 2020 г.
^ Сайт публичной демонстрации StyleGAN
^ ab Porter, Jon (20 сентября 2019 г.). «100 000 бесплатных фотографий, созданных с помощью искусственного интеллекта, предупреждают компании, занимающиеся стоковыми фотографиями». The Verge . Получено 7 августа 2020 г. .
^ «Что такое Deepfake?». PCMAG.com . Март 2020 г. Получено 8 июня 2020 г.
^ Харвелл, Дрю. «Приложениям для знакомств нужны женщины. Рекламодателям нужно разнообразие. Компании ИИ предлагают решение: фальшивые люди». Washington Post . Получено 4 августа 2020 г.
^ «Нейронным сетям нужны данные для обучения. Даже если они поддельные». Журнал Quanta . 11 декабря 2023 г. Получено 18 июня 2023 г.
^ ab Murphy, Samantha (2023). "Scientific American: Your Avatar, Your Guide" (.pdf) . Scientific American / Uni of Stanford . Получено 11 декабря 2023 г. .
^ "WaveNet: Генеративная модель для необработанного звука". Deepmind.com . 8 сентября 2016 г. Архивировано из оригинала 27 мая 2017 г. Получено 24 мая 2017 г.
^ "Adobe Voco 'Photoshop-for-voice' вызывает беспокойство". BBC.com . BBC . 7 ноября 2016 . Получено 5 июля 2016 .
^ Рэйчел Метц (19 апреля 2019 г.). «Если ваше изображение есть в сети, оно может тренировать ИИ для распознавания лиц». CNN . Получено 4 августа 2020 г.
^ «Поддельные голоса „помогают киберпреступникам красть деньги“». bbc.com . BBC . 8 июля 2019 . Получено 16 апреля 2020 .
^ Дрю, Харвелл (16 апреля 2020 г.). «Первый искусственный интеллект: программное обеспечение, имитирующее голос, как сообщается, использовалось при крупной краже». Washington Post . Получено 8 сентября 2019 г.