СтильGAN

Style Generative Adversarial Network , или сокращенно StyleGAN , представляет собой расширение архитектуры GAN, представленное исследователями Nvidia в декабре 2018 года ^[1] и опубликованное в феврале 2019 года. ^[2]^[3]

StyleGAN зависит от программного обеспечения CUDA от Nvidia, графических процессоров и TensorFlow от Google ^[4] или PyTorch от Meta AI , который заменяет TensorFlow в качестве официальной библиотеки реализации в более поздних версиях StyleGAN. ^[5] Вторая версия StyleGAN, названная StyleGAN2, была опубликована 5 февраля 2020 года. Она удаляет некоторые характерные артефакты и улучшает качество изображения. ^[6]^[7] Nvidia представила StyleGAN3, описанную как версия «без псевдонимов», 23 июня 2021 года и сделала исходный код доступным 12 октября 2021 года. ^[8]

История

Прямым предшественником серии StyleGAN является Progressive GAN, опубликованный в 2017 году. ^[9]

В декабре 2018 года исследователи Nvidia распространили препринт с сопутствующим программным обеспечением, представляющим StyleGAN, GAN для создания неограниченного количества (часто убедительных) портретов поддельных человеческих лиц . StyleGAN мог работать на коммерческих графических процессорах Nvidia.

В феврале 2019 года инженер Uber Филипп Ванг использовал программное обеспечение для создания веб-сайта This Person Does Not Exist , который отображал новое лицо при каждой перезагрузке веб-страницы. ^[10]^[11] Сам Ванг выразил удивление тем, что, учитывая, что люди эволюционировали, чтобы специально понимать человеческие лица, StyleGAN, тем не менее, может на конкурентной основе «отбирать все соответствующие черты (человеческих лиц) и перекомпоновывать их таким образом, чтобы это было связно». ^[12]

В сентябре 2019 года сайт под названием Generated Photos опубликовал 100 000 изображений в качестве коллекции стоковых фотографий . ^[13] Коллекция была создана с использованием частного набора данных, снятого в контролируемой среде с похожим освещением и углами. ^[14]

Аналогичным образом, два преподавателя в Школе информации Вашингтонского университета использовали StyleGAN для создания игры «Какое лицо настоящее?» , которая предлагала посетителям различать поддельное и настоящее лицо рядом. ^[11] Преподаватели заявили, что целью было «просвещать общественность» о существовании этой технологии, чтобы они могли относиться к ней с осторожностью, «точно так же, как в конечном итоге большинство людей узнали, что можно отфотошопить изображение». ^[15]

Вторая версия StyleGAN, названная StyleGAN2, была опубликована 5 февраля 2020 года. Она удаляет некоторые характерные артефакты и улучшает качество изображения. ^[6]^[7]

В 2021 году была выпущена третья версия, улучшающая согласованность между мелкими и грубыми деталями в генераторе. Названная «без псевдонимов», эта версия была реализована с помощью pytorch . ^[16]

Незаконное использование

В декабре 2019 года Facebook заблокировал сеть аккаунтов с поддельными личностями и упомянул, что некоторые из них использовали фотографии профиля, созданные с помощью методов машинного обучения. ^[17]

Архитектура

Прогрессивный GAN

Прогрессивный GAN ^[9] — это метод обучения GAN для генерации изображений большого масштаба стабильно, путем выращивания генератора GAN от малого к большому масштабу пирамидальным образом. Как и SinGAN, он разлагает генератор как , а дискриминатор как . $G=G_{1}\circ G_{2}\circ \cdots \circ G_{N}$ $D=D_{N}\circ D_{N-1}\circ \cdots \circ D_{1}$

Во время обучения сначала используются только в игре GAN для генерации изображений 4x4. Затем добавляются для достижения второго этапа игры GAN, для генерации изображений 8x8 и так далее, пока не достигнем игры GAN для генерации изображений 1024x1024. $G_{N},D_{N}$ $G_{N-1},D_{N-1}$

Чтобы избежать разрыва между этапами игры GAN, каждый новый слой «вливается» (рисунок 2 статьи ^[9] ). Например, вот как начинается второй этап игры GAN:

Непосредственно перед этим игра GAN состоит из пары, генерирующей и различающей изображения 4x4. $G_{N},D_{N}$
Сразу после этого игра GAN состоит из пары, генерирующей и различающей изображения 8x8. Здесь функции являются функциями повышения и понижения дискретизации изображения, а также коэффициентом смешивания (подобно альфа в композиции изображения), который плавно скользит от 0 до 1. $((1-\alpha )+\alpha \cdot G_{N-1})\circ u\circ G_{N},D_{N}\circ d\circ ((1-\alpha )+\alpha \cdot D_{N-1})$ $u,d$ $\alpha$

СтильGAN

StyleGAN разработан как комбинация прогрессивной GAN с нейронной передачей стиля . ^[18]

Ключевым архитектурным выбором StyleGAN-1 является прогрессивный механизм роста, аналогичный Progressive GAN. Каждое сгенерированное изображение начинается как постоянный ^{[примечание 1]} массив и многократно проходит через блоки стиля. Каждый блок стиля применяет «скрытый вектор стиля» через аффинное преобразование («адаптивная нормализация экземпляра»), аналогично тому, как нейронная передача стиля использует матрицу Грама . Затем он добавляет шум и нормализует (вычитает среднее значение, затем делит на дисперсию). $4\times 4\times 512$

Во время обучения обычно используется только один скрытый вектор стиля для каждого сгенерированного изображения, но иногда и два («смешанная регуляризация»), чтобы побудить каждый блок стиля независимо выполнять свою стилизацию, не ожидая помощи от других блоков стиля (поскольку они могут получить совершенно другой скрытый вектор стиля).

После обучения в каждый блок стилей можно подавать несколько скрытых векторов стилей. Те, которые подаются на нижние слои, управляют крупномасштабными стилями, а те, которые подаются на верхние слои, управляют стилями с мелкими деталями.

Также можно выполнить смешивание стилей между двумя изображениями . Сначала запустите градиентный спуск, чтобы найти такое, что . Это называется «проецированием изображения обратно в скрытое пространство стиля». Затем можно подать на нижние блоки стиля и на верхние блоки стиля, чтобы создать составное изображение, которое имеет крупномасштабный стиль и мелкодетализированный стиль . Несколько изображений также можно составить таким образом. $x,x'$ $z,z'$ $G(z)\approx x,G(z')\approx x'$ $z$ $z'$ $x$ $x'$

СтильGAN2

StyleGAN2 улучшает StyleGAN в двух отношениях.

Во-первых, он применяет скрытый вектор стиля для преобразования весов сверточного слоя, тем самым решая проблему «пятна». ^[19] Проблема «пятна», грубо говоря, заключается в том, что использование скрытого вектора стиля для нормализации сгенерированного изображения уничтожает полезную информацию. Следовательно, генератор научился создавать «отвлечение» большим пятном, которое поглощает большую часть эффекта нормализации (что-то похожее на использование вспышек для отвлечения ракеты с тепловым наведением ).

Во-вторых, он использует остаточные соединения, что помогает ему избежать явления, когда определенные черты застревают на интервалах пикселей. Например, шов между двумя зубами может застрять на пикселях, делящихся на 32, потому что генератор научился генерировать зубы на этапе N-5, и, следовательно, мог генерировать только примитивные зубы на этом этапе, прежде чем масштабироваться в 5 раз (таким образом, интервалы составляют 32).

Это было обновлено StyleGAN2-ADA («ADA» означает «адаптивный»), ^[20] , который использует обратимое увеличение данных . Он также настраивает объем применяемого увеличения данных, начиная с нуля и постепенно увеличивая его до тех пор, пока «эвристика переобучения» не достигнет целевого уровня, отсюда и название «адаптивный».

СтильGAN3

StyleGAN3 ^[21] улучшает StyleGAN2, решая проблему «прилипания текстуры», которую можно увидеть в официальных видеороликах. ^[22] Они проанализировали проблему с помощью теоремы Найквиста–Шеннона и пришли к выводу, что слои в генераторе научились использовать высокочастотный сигнал в пикселях, с которыми они работают.

Чтобы решить эту проблему, они предложили наложить строгие фильтры нижних частот между слоями каждого генератора, так что генератор вынужден работать с пикселями способом, верным непрерывным сигналам, которые они представляют, а не работать с ними как с просто дискретными сигналами. Они дополнительно наложили вращательную и трансляционную инвариантность, используя больше фильтров сигналов . Полученный StyleGAN-3 способен генерировать изображения, которые вращаются и транслируются плавно и без прилипания текстуры.

Смотрите также

Синтез человеческого изображения

Примечания

^ Он усваивается во время обучения, но впоследствии сохраняется постоянным, подобно вектору смещения.

Ссылки

^ "GAN 2.0: Гиперреалистичный генератор лиц от NVIDIA". SyncedReview.com . 14 декабря 2018 г. . Получено 3 октября 2019 г. .
^ "NVIDIA Open-Sources Hyper-Realistic Face Generator StyleGAN". Medium.com . 9 февраля 2019 г. Получено 3 октября 2019 г.
^ Beschizza, Rob (15 февраля 2019 г.). «Этого человека не существует». Boing-Boing . Получено 16 февраля 2019 г. .
^ Ларабель, Майкл (10 февраля 2019 г.). «NVIDIA открывает код StyleGAN — создайте собственные семейные портреты с помощью ИИ». Phoronix.com . Получено 3 октября 2019 г.
^ "Ищете версию PyTorch? - Stylegan2". github.com . 28 октября 2021 г. . Получено 5 августа 2022 г. .
^ ab "Синтез изображений высокого разрешения с помощью StyleGAN2 – Центр новостей разработчиков NVIDIA". news.developer.nvidia.com . 17 июня 2020 г. . Получено 11 августа 2020 г. .
^ ab NVlabs/stylegan2, NVIDIA Research Projects, 11 августа 2020 г. , получено 11 августа 2020 г.
^ Kakkar, Shobha (13 октября 2021 г.). "NVIDIA AI Releases StyleGAN3: Alias-Free Generative Adversarial Networks". MarkTechPost . Получено 14 октября 2021 г. .
^ abc Каррас, Теро; Айла, Тимо; Лайне, Самули; Лехтинен, Яакко (2018). «Прогрессивное наращивание GAN для улучшения качества, стабильности и вариативности». Международная конференция по представлениям обучения . arXiv : 1710.10196 .
^ msmash, n/a (14 февраля 2019 г.). «Веб-сайт «Этого человека не существует» использует ИИ для создания реалистичных, но ужасающих лиц». Slashdot . Получено 16 февраля 2019 г.
^ ab Fleishman, Glenn (30 апреля 2019 г.). «Как распознать реалистичных фальшивых людей, проникающих в ваши ленты новостей». Fast Company . Получено 7 июня 2020 г.
↑ Бишоп, Кэти (7 февраля 2020 г.). «ИИ в индустрии для взрослых: в порно вскоре могут появиться люди, которых не существует». The Guardian . Получено 8 июня 2020 г.
↑ Портер, Джон (20 сентября 2019 г.). «100 000 бесплатных фотографий, созданных с помощью искусственного интеллекта, стали предупреждением для компаний, занимающихся стоковыми фотографиями». The Verge . Получено 4 августа 2020 г.
^ Тимминс, Джейн Уэйкфилд и Бет (29 февраля 2020 г.). «Можно ли использовать deepfakes для обучения офисных работников?». BBC News . Получено 4 августа 2020 г.
↑ Винсент, Джеймс (3 марта 2019 г.). «Можете ли вы отличить настоящее лицо от подделки, созданной искусственным интеллектом?». The Verge . Получено 8 июня 2020 г.
^ NVlabs/stylegan3, Исследовательские проекты NVIDIA, 11 октября 2021 г.
^ "Последнее нападение на Facebook имеет изюминку — фотографии профиля, сгенерированные искусственным интеллектом". ABC News . Получено 4 августа 2020 г.
^ Каррас, Теро; Лайн, Самули; Айла, Тимо (2019). «Архитектура генератора на основе стиля для генеративно-состязательных сетей» (PDF) . Конференция IEEE/CVF 2019 года по компьютерному зрению и распознаванию образов (CVPR) . IEEE. стр. 4396–4405. arXiv : 1812.04948 . doi : 10.1109/CVPR.2019.00453. ISBN 978-1-7281-3293-8. S2CID 54482423.
^ Каррас, Теро; Лайне, Самули; Айттала, Миика; Хеллстен, Янне; Лехтинен, Яакко; Айла, Тимо (2020). «Анализ и улучшение качества изображения StyleGAN» (PDF) . Конференция IEEE/CVF 2020 по компьютерному зрению и распознаванию образов (CVPR) . IEEE. стр. 8107–8116. arXiv : 1912.04958 . дои : 10.1109/CVPR42600.2020.00813. ISBN 978-1-7281-7168-5. S2CID 209202273.
^ Теро, Каррас; Миика, Айттала; Янне, Хеллстен; Самули, Лайне; Яакко, Лехтинен; Тимо, Айла (2020). «Обучение генеративно-состязательных сетей с ограниченными данными». Достижения в области нейронных систем обработки информации . 33 .
^ Каррас, Теро; Айттала, Миика; Лайне, Самули; Харконен, Эрик; Хеллстен, Янне; Лехтинен, Яакко; Айла, Тимо (2021). Генеративно-состязательные сети без псевдонимов (PDF) . Достижения в области нейронных систем обработки информации .
^ Каррас, Теро; Айттала, Миика; Лайне, Самули; Харконен, Эрик; Хеллстен, Янне; Лехтинен, Яакко; Айла, Тимо. «Генераторно-состязательные сети без псевдонимов (StyleGAN3)». nvlabs.github.io . Проверено 16 июля 2022 г.

Внешние ссылки

Оригинальная статья Nvidia StyleGAN 2018 года «Архитектура генератора на основе стилей для генеративно-состязательных сетей» на arXiv.org
Код StyleGAN на GitHub.com
Этот человек не существует
Сгенерированные фотографии