Генеративная состязательная сеть

Генеративно-состязательная сеть ( GAN ) — это класс фреймворков машинного обучения и известная структура для подхода к генеративному искусственному интеллекту . ^[1]^[2] Первоначально эта концепция была разработана Яном Гудфеллоу и его коллегами в июне 2014 года. ^[3] В GAN две нейронные сети соревнуются друг с другом в форме игры с нулевой суммой , где выигрыш одного агента является проигрышем другого агента.

При наличии обучающего набора эта техника учится генерировать новые данные с той же статистикой, что и обучающий набор. Например, GAN, обученная на фотографиях, может генерировать новые фотографии, которые выглядят, по крайней мере, поверхностно аутентичными для наблюдателей-людей, имея много реалистичных характеристик. Хотя изначально GAN предлагались как форма генеративной модели для неконтролируемого обучения , GAN также оказались полезными для полуконтролируемого обучения , ^[4] полностью контролируемого обучения , ^[5] и обучения с подкреплением . ^[6]

Основная идея GAN основана на «косвенном» обучении через дискриминатор, другую нейронную сеть, которая может определить, насколько «реалистичным» кажется входной сигнал, который сам по себе также динамически обновляется. ^[7] Это означает, что генератор не обучен минимизировать расстояние до определенного изображения, а скорее обманывать дискриминатор. Это позволяет модели обучаться без учителя.

Сети GAN похожи на мимикрию в эволюционной биологии , где между обеими сетями происходит эволюционная гонка вооружений .

Определение

Математический

Оригинальная GAN определяется как следующая игра : ^[3]

Каждое вероятностное пространство определяет игру GAN. $(\Omega ,\mu _{\text{ref}})$
Есть 2 игрока: генератор и дискриминатор.
Набор стратегий генератора — это набор всех вероятностных мер на . ${\mathcal {P}}(\Omega )$ $\mu _{G}$ $\Omega$
Набор стратегий дискриминатора представляет собой набор ядер Маркова , где — набор вероятностных мер на . $\mu _{D}:\Omega \to {\mathcal {P}}[0,1]$ ${\mathcal {P}}[0,1]$ $[0,1]$
Игра GAN представляет собой игру с нулевой суммой , где целевая функция генератора направлена на минимизацию цели, а дискриминатор — на максимизацию цели. $L(\mu _{G},\mu _{D}):=\operatorname {E} _{x\sim \mu _{\text{ref}},y\sim \mu _{D}(x)}[\ln y]+\operatorname {E} _{x\sim \mu _{G},y\sim \mu _{D}(x)}[\ln(1-y)].$

Задача генератора — приблизиться , то есть максимально точно сопоставить свое выходное распределение с эталонным распределением. Задача дискриминатора — вывести значение, близкое к 1, когда входные данные выглядят как исходящие из эталонного распределения, и вывести значение, близкое к 0, когда входные данные выглядят так, как будто они получены из распределения генератора. $\mu _{G}\approx \mu _{\text{ref}}$

На практике

Генеративная сеть генерирует кандидатов, в то время как дискриминационная сеть оценивает их. ^[3] Соревнование работает в терминах распределений данных. Обычно генеративная сеть учится отображать из скрытого пространства интересующее распределение данных, в то время как дискриминационная сеть отличает кандидатов, созданных генератором, от истинного распределения данных. Цель обучения генеративной сети — увеличить частоту ошибок дискриминативной сети (т. е. «обмануть» дискриминаторную сеть, создав новых кандидатов, которые дискриминатор считает не синтезированными (являющимися частью истинного распределения данных)). ^[3]^[8]

Известный набор данных служит исходными данными для обучения дискриминатора. Обучение включает в себя представление ему образцов из набора данных для обучения до тех пор, пока он не достигнет приемлемой точности. Генератор обучается на основе того, удается ли ему обмануть дискриминатор. Обычно генератор засеивается рандомизированным входом, который выбирается из предопределенного скрытого пространства (например, многомерного нормального распределения ). После этого кандидаты, синтезированные генератором, оцениваются дискриминатором. Независимые процедуры обратного распространения применяются к обеим сетям, так что генератор выдает лучшие образцы, в то время как дискриминатор становится более искусным в маркировке синтетических образцов. ^[9] При использовании для генерации изображений генератор обычно представляет собой деконволюционную нейронную сеть , а дискриминатор — сверточную нейронную сеть .

Связь с другими методами статистического машинного обучения

GAN являются неявными генеративными моделями ^[10], что означает, что они явно не моделируют функцию правдоподобия и не предоставляют средства для нахождения скрытой переменной, соответствующей данному образцу, в отличие от альтернатив, таких как генеративная модель на основе потока .

По сравнению с полностью видимыми сетями доверия, такими как WaveNet и PixelRNN, а также с авторегрессионными моделями в целом, GAN могут генерировать одну полную выборку за один проход, а не за несколько проходов через сеть.

По сравнению с машинами Больцмана и линейными ICA , не существует ограничений на тип функции, используемой сетью.

Поскольку нейронные сети являются универсальными аппроксиматорами , GAN асимптотически последовательны . Вариационные автокодировщики могут быть универсальными аппроксиматорами, но по состоянию на 2017 год это не доказано. ^[11]

Математические свойства

Теоретико-мерные соображения

В этом разделе представлена часть математической теории, лежащей в основе этих методов.

В современной теории вероятностей, основанной на теории меры , вероятностное пространство также должно быть оснащено σ-алгеброй . В результате более строгое определение игры GAN внесло бы следующие изменения:

Каждое вероятностное пространство определяет игру GAN. $(\Omega ,{\mathcal {B}},\mu _{\text{ref}})$
Набор стратегий генератора — это набор всех мер вероятности на пространстве мер . ${\mathcal {P}}(\Omega ,{\mathcal {B}})$ $\mu _{G}$ $(\Omega ,{\mathcal {B}})$
Множество стратегий дискриминатора представляет собой множество ядер Маркова , где — борелевская σ-алгебра на . $\mu _{D}:(\Omega ,{\mathcal {B}})\to {\mathcal {P}}([0,1],{\mathcal {B}}([0,1]))$ ${\mathcal {B}}([0,1])$ $[0,1]$

Поскольку вопросы измеримости никогда не возникают на практике, они не будут нас далее интересовать.

Выбор набора стратегий

В наиболее общей версии игры GAN, описанной выше, набор стратегий для дискриминатора содержит все ядра Маркова , а набор стратегий для генератора содержит произвольные распределения вероятностей на . $\mu _{D}:\Omega \to {\mathcal {P}}[0,1]$ $\mu _{G}$ $\Omega$

Однако, как показано ниже, оптимальная стратегия дискриминатора против любого является детерминированной, поэтому нет потери общности при ограничении стратегий дискриминатора детерминированными функциями . В большинстве приложений является функцией глубокой нейронной сети . $\mu _{G}$ $D:\Omega \to [0,1]$ $D$

Что касается генератора, то, хотя теоретически он может быть любым вычислимым распределением вероятностей, на практике он обычно реализуется как pushforward : . То есть, начинаем со случайной величины , где — распределение вероятностей, которое легко вычислить (например, равномерное распределение или распределение Гаусса ), затем определяем функцию . Тогда распределение — это распределение . $\mu _{G}$ $\mu _{G}=\mu _{Z}\circ G^{-1}$ $z\sim \mu _{Z}$ $\mu _{Z}$ $G:\Omega _{Z}\to \Omega$ $\mu _{G}$ $G(z)$

Следовательно, стратегия генератора обычно определяется как просто , оставляя неявным. В этом формализме цель игры GAN — $G$ $z\sim \mu _{Z}$ $L(G,D):=\operatorname {E} _{x\sim \mu _{\text{ref}}}[\ln D(x)]+\operatorname {E} _{z\sim \mu _{Z}}[\ln(1-D(G(z)))].$

Генеративная репараметризация

Архитектура GAN состоит из двух основных компонентов. Один из них — это приведение оптимизации в игру, формы , которая отличается от обычного вида оптимизации, формы . Другой — это разложение в , что можно понимать как трюк с репараметризацией. $\min _{G}\max _{D}L(G,D)$ $\min _{\theta }L(\theta )$ $\mu _{G}$ $\mu _{Z}\circ G^{-1}$

Чтобы увидеть его значимость, необходимо сравнить GAN с предыдущими методами обучения генеративных моделей, которые были осложнены «неразрешимыми вероятностными вычислениями, возникающими при оценке максимального правдоподобия и связанных с ними стратегиях» ^{[3] .}

В то же время Кингма и Уэллинг ^[12] и Резенде и др. ^[13] развили ту же идею репараметризации в общий стохастический метод обратного распространения. Среди его первых приложений был вариационный автоэнкодер .

Порядок ходов и стратегическое равновесие

В оригинальной статье, а также в большинстве последующих статей, обычно предполагается, что генератор двигается первым , а дискриминатор — вторым , что дает следующую минимаксную игру: $\min _{\mu _{G}}\max _{\mu _{D}}L(\mu _{G},\mu _{D}):=\operatorname {E} _{x\sim \mu _{\text{ref}},y\sim \mu _{D}(x)}[\ln y]+\operatorname {E} _{x\sim \mu _{G},y\sim \mu _{D}(x)}[\ln(1-y)].$

Если наборы стратегий как генератора, так и дискриминатора охватывают конечное число стратегий, то по теореме о минимаксе порядок ходов не имеет значения. $\min _{\mu _{G}}\max _{\mu _{D}}L(\mu _{G},\mu _{D})=\max _{\mu _{D}}\min _{\mu _{G}}L(\mu _{G},\mu _{D})$

Однако, поскольку оба набора стратегий не являются конечно-охватными, теорема о минимаксе неприменима, и идея «равновесия» становится деликатной. А именно, существуют следующие различные концепции равновесия:

Равновесие, когда генератор движется первым, а дискриминатор движется вторым: ${\hat {\mu }}_{G}\in \arg \min _{\mu _{G}}\max _{\mu _{D}}L(\mu _{G},\mu _{D}),\quad {\hat {\mu }}_{D}\in \arg \max _{\mu _{D}}L({\hat {\mu }}_{G},\mu _{D}),\quad$
Равновесие, когда дискриминатор движется первым, а генератор движется вторым: ${\hat {\mu }}_{D}\in \arg \max _{\mu _{D}}\min _{\mu _{G}}L(\mu _{G},\mu _{D}),\quad {\hat {\mu }}_{G}\in \arg \min _{\mu _{G}}L(\mu _{G},{\hat {\mu }}_{D}),$
Равновесие Нэша , устойчивое при одновременном порядке ходов: $({\hat {\mu }}_{D},{\hat {\mu }}_{G})$ ${\hat {\mu }}_{D}\in \arg \max _{\mu _{D}}L({\hat {\mu }}_{G},\mu _{D}),\quad {\hat {\mu }}_{G}\in \arg \min _{\mu _{G}}L(\mu _{G},{\hat {\mu }}_{D})$

Для общих игр эти равновесия не обязательно должны согласовываться или даже существовать. Для оригинальной игры GAN все эти равновесия существуют и все равны. Однако для более общих игр GAN они не обязательно существуют или согласуются. ^[14]

Основные теоремы для игры GAN

В оригинальной статье GAN были доказаны следующие две теоремы: ^[3]

Теорема (оптимальный дискриминатор вычисляет расхождение Дженсена–Шеннона) — Для любой фиксированной стратегии генератора пусть оптимальный ответ будет , тогда $\mu _{G}$ $D^{*}=\arg \max _{D}L(\mu _{G},D)$

${\begin{aligned}D^{*}(x)&={\frac {d\mu _{\text{ref}}}{d(\mu _{\text{ref}}+\mu _{G})}}\\[6pt]L(\mu _{G},D^{*})&=2D_{JS}(\mu _{\text{ref}};\mu _{G})-2\ln 2\end{aligned}}$

где производная — производная Радона–Никодима , а — дивергенция Дженсена–Шеннона . $D_{JS}$

Доказательство

По неравенству Йенсена,

$\operatorname {E} _{x\sim \mu _{\text{ref}},y\sim \mu _{D}(x)}[\ln y]\leq \operatorname {E} _{x\sim \mu _{\text{ref}}}[\ln \operatorname {E} _{y\sim \mu _{D}(x)}[y]]$ и аналогично для другого термина. Поэтому оптимальный ответ может быть детерминированным, т.е. для некоторой функции , в этом случае $\mu _{D}(x)=\delta _{D(x)}$ $D:\Omega \to [0,1]$

$L(\mu _{G},\mu _{D}):=\operatorname {E} _{x\sim \mu _{\text{ref}}}[\ln D(x)]+\operatorname {E} _{x\sim \mu _{G}}[\ln(1-D(x))].$

Для определения подходящих функций плотности мы определяем базовую меру , которая позволяет нам брать производные Радона–Никодима $\mu :=\mu _{\text{ref}}+\mu _{G}$

$\rho _{\text{ref}}={\frac {d\mu _{\text{ref}}}{d\mu }}\quad \rho _{G}={\frac {d\mu _{G}}{d\mu }}$ с . $\rho _{\text{ref}}+\rho _{G}=1$

Тогда у нас есть

$L(\mu _{G},\mu _{D}):=\int \mu (dx)\left[\rho _{\text{ref}}(x)\ln(D(x))+\rho _{G}(x)\ln(1-D(x))\right].$

Подынтегральное выражение — это просто отрицательная кросс-энтропия между двумя случайными величинами Бернулли с параметрами и . Мы можем записать это как , где — бинарная функция энтропии , поэтому $\rho _{\text{ref}}(x)$ $D(x)$ $-H(\rho _{\text{ref}}(x))-D_{KL}(\rho _{\text{ref}}(x)\parallel D(x))$ $H$

$L(\mu _{G},\mu _{D})=-\int \mu (dx)(H(\rho _{\text{ref}}(x))+D_{KL}(\rho _{\text{ref}}(x)\parallel D(x))).$

Это означает, что оптимальной стратегией для дискриминатора является , при этом $D(x)=\rho _{\text{ref}}(x)$ $L(\mu _{G},\mu _{D}^{*})=-\int \mu (dx)H(\rho _{\text{ref}}(x))=D_{JS}(\mu _{\text{ref}}\parallel \mu _{G})-2\ln 2$

после рутинного расчета.

Интерпретация : Для любой фиксированной стратегии генератора оптимальный дискриминатор отслеживает отношение правдоподобия между эталонным распределением и распределением генератора: где — логистическая функция . В частности, если априорная вероятность того, что изображение поступит из эталонного распределения, равна , то — это просто апостериорная вероятность, которая поступит из эталонного распределения: $\mu _{G}$ ${\frac {D(x)}{1-D(x)}}={\frac {d\mu _{\text{ref}}}{d\mu _{G}}}(x)={\frac {\mu _{\text{ref}}(dx)}{\mu _{G}(dx)}};\quad D(x)=\sigma (\ln \mu _{\text{ref}}(dx)-\ln \mu _{G}(dx))$ $\sigma$ $x$ ${\frac {1}{2}}$ $D(x)$ $x$ $D(x)=\Pr(x{\text{ came from reference distribution}}\mid x).$

Теорема (единственная точка равновесия) — Для любой игры GAN существует пара , которая является как последовательным равновесием, так и равновесием Нэша: $({\hat {\mu }}_{D},{\hat {\mu }}_{G})$

${\begin{aligned}&L({\hat {\mu }}_{G},{\hat {\mu }}_{D})=\min _{\mu _{G}}\max _{\mu _{D}}L(\mu _{G},\mu _{D})=&\max _{\mu _{D}}\min _{\mu _{G}}L(\mu _{G},\mu _{D})=-2\ln 2\\[6pt]&{\hat {\mu }}_{D}\in \arg \max _{\mu _{D}}\min _{\mu _{G}}L(\mu _{G},\mu _{D}),&\quad {\hat {\mu }}_{G}\in \arg \min _{\mu _{G}}\max _{\mu _{D}}L(\mu _{G},\mu _{D})\\[6pt]&{\hat {\mu }}_{D}\in \arg \max _{\mu _{D}}L({\hat {\mu }}_{G},\mu _{D}),&\quad {\hat {\mu }}_{G}\in \arg \min _{\mu _{G}}L(\mu _{G},{\hat {\mu }}_{D})\\[6pt]&\forall x\in \Omega ,{\hat {\mu }}_{D}(x)=\delta _{\frac {1}{2}},&\quad {\hat {\mu }}_{G}=\mu _{\text{ref}}\end{aligned}}$

То есть генератор идеально имитирует эталон, а дискриминатор выдает детерминированные результаты на всех входах. ${\frac {1}{2}}$

Доказательство

Из предыдущего предложения следует,

$\arg \min _{\mu _{G}}\max _{\mu _{D}}L(\mu _{G},\mu _{D})=\mu _{\text{ref}};\quad \min _{\mu _{G}}\max _{\mu _{D}}L(\mu _{G},\mu _{D})=-2\ln 2.$

Для любой фиксированной стратегии дискриминатора , любой сосредоточенный на наборе $\mu _{D}$ $\mu _{G}$

$\{x\mid \operatorname {E} _{y\sim \mu _{D}(x)}[\ln(1-y)]=\inf _{x}\operatorname {E} _{y\sim \mu _{D}(x)}[\ln(1-y)]\}$ является оптимальной стратегией для генератора. Таким образом,

$\arg \max _{\mu _{D}}\min _{\mu _{G}}L(\mu _{G},\mu _{D})=\arg \max _{\mu _{D}}\operatorname {E} _{x\sim \mu _{\text{ref}},y\sim \mu _{D}(x)}[\ln y]+\inf _{x}\operatorname {E} _{y\sim \mu _{D}(x)}[\ln(1-y)].$

По неравенству Йенсена дискриминатор может улучшиться только приняв детерминированную стратегию всегда играть . Следовательно, $D(x)=\operatorname {E} _{y\sim \mu _{D}(x)}[y]$

$\arg \max _{\mu _{D}}\min _{\mu _{G}}L(\mu _{G},\mu _{D})=\arg \max _{D}\operatorname {E} _{x\sim \mu _{\text{ref}}}[\ln D(x)]+\inf _{x}\ln(1-D(x))$

По неравенству Йенсена,

${\begin{aligned}&\ln \operatorname {E} _{x\sim \mu _{\text{ref}}}[D(x)]+\inf _{x}\ln(1-D(x))\\[6pt]={}&\ln \operatorname {E} _{x\sim \mu _{\text{ref}}}[D(x)]+\ln(1-\sup _{x}D(x))\\[6pt]={}&\ln[\operatorname {E} _{x\sim \mu _{\text{ref}}}[D(x)](1-\sup _{x}D(x))]\leq \ln[\sup _{x}D(x))(1-\sup _{x}D(x))]\leq \ln {\frac {1}{4}},\end{aligned}}$

с равенством, если , то $D(x)={\frac {1}{2}}$

$\forall x\in \Omega ,{\hat {\mu }}_{D}(x)=\delta _{\frac {1}{2}};\quad \max _{\mu _{D}}\min _{\mu _{G}}L(\mu _{G},\mu _{D})=-2\ln 2.$

Наконец, чтобы проверить, что это равновесие Нэша, обратите внимание, что когда , мы имеем $\mu _{G}=\mu _{\text{ref}}$

$L(\mu _{G},\mu _{D}):=\operatorname {E} _{x\sim \mu _{\text{ref}},y\sim \mu _{D}(x)}[\ln(y(1-y))]$ который всегда максимизируется . $y={\frac {1}{2}}$

При , любая стратегия оптимальна для генератора. $\forall x\in \Omega ,\mu _{D}(x)=\delta _{\frac {1}{2}}$

Обучение и оценка GAN

Обучение

Нестабильная сходимость

В то время как игра GAN имеет уникальную глобальную точку равновесия, когда и генератор, и дискриминатор имеют доступ ко всем своим наборам стратегий, равновесие больше не гарантируется, когда у них ограниченный набор стратегий. ^[14]

На практике генератор имеет доступ только к мерам формы , где — функция, вычисляемая нейронной сетью с параметрами , и — легко выбираемое распределение, такое как равномерное или нормальное распределение. Аналогично, дискриминатор имеет доступ только к функциям формы , функции, вычисляемой нейронной сетью с параметрами . Эти ограниченные наборы стратегий занимают исчезающе малую долю всех их наборов стратегий. ^[15] $\mu _{Z}\circ G_{\theta }^{-1}$ $G_{\theta }$ $\theta$ $\mu _{Z}$ $D_{\zeta }$ $\zeta$

Кроме того, даже если равновесие все еще существует, его можно найти только путем поиска в многомерном пространстве всех возможных функций нейронной сети. Стандартная стратегия использования градиентного спуска для поиска равновесия часто не работает для GAN, и часто игра «схлопывается» в один из нескольких режимов отказа. Чтобы улучшить устойчивость сходимости, некоторые стратегии обучения начинаются с более легкой задачи, такой как генерация изображений с низким разрешением ^[16] или простых изображений (один объект с однородным фоном), ^[17] и постепенно увеличивают сложность задачи во время обучения. Это по сути означает применение схемы обучения по учебной программе. ^[18]

Режим коллапса

GAN часто страдают от коллапса мод , когда они не могут правильно обобщить, пропуская целые моды из входных данных. Например, GAN, обученная на наборе данных MNIST , содержащем много образцов каждой цифры, может генерировать только изображения цифры 0. Это было названо «сценарием Helvetica». ^[3]

Один из способов, которым это может произойти, — это если генератор учится слишком быстро по сравнению с дискриминатором. Если дискриминатор остается постоянным, то оптимальный генератор будет выводить только элементы . ^[19] Так, например, если во время обучения GAN для генерации набора данных MNIST в течение нескольких эпох дискриминатор каким-то образом предпочитает цифру 0 немного больше, чем другие цифры, генератор может воспользоваться возможностью сгенерировать только цифру 0, а затем не сможет избежать локального минимума после улучшения дискриминатора. $D$ $\arg \max _{x}D(x)$

Некоторые исследователи считают, что корневой проблемой является слабая дискриминационная сеть, которая не замечает закономерности упущения, в то время как другие возлагают вину на плохой выбор целевой функции . Было предложено много решений, но это все еще открытая проблема. ^[20]^[21]

Даже самая современная архитектура BigGAN (2019) не смогла избежать коллапса мод. Авторы прибегли к «разрешению коллапса происходить на более поздних этапах обучения, к тому времени, когда модель достаточно обучена, чтобы достичь хороших результатов». ^[22]

Правило обновления двух шкал времени

Правило обновления двух шкал времени (TTUR) предлагается для того, чтобы сделать сходимость GAN более стабильной, сделав скорость обучения генератора ниже, чем у дискриминатора. Авторы утверждали, что генератор должен двигаться медленнее, чем дискриминатор, чтобы он не «приводил дискриминатор в движение в новых областях, не захватывая собранную им информацию».

Они доказали, что общий класс игр, включающий игру GAN, при обучении в условиях TTUR «сходится при умеренных предположениях к стационарному локальному равновесию Нэша» ^{[23] .}

Они также предложили использовать стохастическую оптимизацию Адама ^[24], чтобы избежать коллапса мод, а также начальное расстояние Фреше для оценки производительности GAN.

Исчезающий градиент

И наоборот, если дискриминатор учится слишком быстро по сравнению с генератором, то дискриминатор может почти идеально различать . В таком случае генератор может застрять с очень высокой потерей независимо от того, в каком направлении он меняет свой , что означает, что градиент будет близок к нулю. В таком случае генератор не может учиться, случай проблемы исчезающего градиента . ^[15] $\mu _{G_{\theta }},\mu _{\text{ref}}$ $G_{\theta }$ $\theta$ $\nabla _{\theta }L(G_{\theta },D_{\zeta })$

Интуитивно говоря, дискриминатор слишком хорош, и поскольку генератор не может сделать ни одного маленького шага (только маленькие шаги рассматриваются в градиентном спуске), чтобы улучшить свой выигрыш, он даже не пытается.

Одним из важных методов решения этой проблемы является метод Вассерштейна GAN .

Оценка

GAN обычно оцениваются по шкале Inception (IS), которая измеряет, насколько разнообразны выходные данные генератора (как классифицируется классификатором изображений, обычно Inception-v3 ), или начальным расстоянием Фреше (FID), которое измеряет, насколько выходные данные генератора похожи на эталонный набор (как классифицируется обученным определителем изображений, таким как Inception-v3 без его конечного слоя). Во многих работах, предлагающих новые архитектуры GAN для генерации изображений, сообщается о том, как их архитектуры нарушают современное состояние FID или IS.

Другим методом оценки является метод LPIPS (Learn Perceptual Image Patch Similarity), который начинается с изученного признакизатора изображения и настраивается с помощью контролируемого обучения на наборе , где — изображение, — его возмущенная версия, — насколько они различаются, по сообщениям людей. Модель настраивается так, чтобы она могла приближаться к . Затем эта настроенная модель используется для определения . ^[25] $f_{\theta }:{\text{Image}}\to \mathbb {R} ^{n}$ $(x,x',\operatorname {perceptual~difference} (x,x'))$ $x$ $x'$ $\operatorname {perceptual~difference} (x,x')$ $\|f_{\theta }(x)-f_{\theta }(x')\|\approx \operatorname {perceptual~difference} (x,x')$ $\operatorname {LPIPS} (x,x'):=\|f_{\theta }(x)-f_{\theta }(x')\|$

Другие методы оценки рассмотрены в ^{[26] .}

Варианты

Существует настоящий зоопарк вариантов GAN. ^[27] Вот некоторые из наиболее известных:

Условный GAN

Условные GAN похожи на стандартные GAN, за исключением того, что они позволяют модели условно генерировать образцы на основе дополнительной информации. Например, если мы хотим сгенерировать морду кошки по картинке собаки, мы можем использовать условный GAN.

Генератор в игре GAN генерирует , распределение вероятностей на пространстве вероятностей . Это приводит к идее условной GAN, где вместо генерации одного распределения вероятностей на , генератор генерирует другое распределение вероятностей на , для каждой заданной метки класса . $\mu _{G}$ $\Omega$ $\Omega$ $\mu _{G}(c)$ $\Omega$ $c$

Например, для создания изображений, похожих на ImageNet , генератор должен иметь возможность создавать изображение кошки, если задана метка класса «кошка».

В оригинальной статье ^[3] авторы отметили, что GAN можно легко расширить до условной GAN, предоставив метки как генератору, так и дискриминатору.

Конкретно, условная игра GAN — это просто игра GAN с заданными метками классов: где — распределение вероятностей по классам, — распределение вероятностей реальных изображений класса , а — распределение вероятностей изображений, сгенерированных генератором при заданной метке класса . $L(\mu _{G},D):=\operatorname {E} _{c\sim \mu _{C},x\sim \mu _{\text{ref}}(c)}[\ln D(x,c)]+\operatorname {E} _{c\sim \mu _{C},x\sim \mu _{G}(c)}[\ln(1-D(x,c))]$ $\mu _{C}$ $\mu _{\text{ref}}(c)$ $c$ $\mu _{G}(c)$ $c$

В 2017 году условная GAN научилась генерировать 1000 классов изображений ImageNet . ^[28]

GAN с альтернативной архитектурой

Игра GAN представляет собой общую структуру и может быть запущена с любой разумной параметризацией генератора и дискриминатора . В оригинальной статье авторы продемонстрировали ее с использованием многослойных сетей персептрона и сверточных нейронных сетей . Было испробовано множество альтернативных архитектур. $G$ $D$

Глубокая сверточная GAN (DCGAN): ^[29] Как для генератора, так и для дискриминатора, использует только глубокие сети, полностью состоящие из слоев свертки-деконволюции, то есть полностью сверточные сети. ^[30]

GAN с самовниманием (SAGAN): ^[31] Начинается с DCGAN, затем к генератору и дискриминатору добавляются остаточно связанные стандартные модули самовнимания .

Вариационный автоэнкодер GAN (VAEGAN): ^[32] Использует вариационный автоэнкодер (VAE) для генератора.

Трансформаторный GAN (TransGAN): ^[33] Использует чистую трансформаторную архитектуру как для генератора, так и для дискриминатора, полностью лишенную слоев свертки-деконволюции.

Flow-GAN: ^[34] Использует генеративную модель на основе потока для генератора, что позволяет эффективно вычислять функцию правдоподобия.

GAN с альтернативными целями

Многие варианты GAN получаются просто путем изменения функций потерь для генератора и дискриминатора.

Оригинальный GAN:

Мы переформулируем исходную задачу GAN в форму, более удобную для сравнения: ${\begin{cases}\min _{D}L_{D}(D,\mu _{G})=-\operatorname {E} _{x\sim \mu _{G}}[\ln D(x)]-\operatorname {E} _{x\sim \mu _{\text{ref}}}[\ln(1-D(x))]\\\min _{G}L_{G}(D,\mu _{G})=-\operatorname {E} _{x\sim \mu _{G}}[\ln(1-D(x))]\end{cases}}$

Исходный GAN, ненасыщающие потери:

Эта цель для генератора была рекомендована в оригинальной статье для более быстрой сходимости. ^[3] Эффект использования этой цели анализируется в разделе 2.2.2 Арджовски и др. ^[35] $L_{G}=\operatorname {E} _{x\sim \mu _{G}}[\ln D(x)]$

Исходный GAN, максимальное правдоподобие:

$L_{G}=\operatorname {E} _{x\sim \mu _{G}}[({\exp }\circ \sigma ^{-1}\circ D)(x)]$ где — логистическая функция. Когда дискриминатор оптимален, градиент генератора такой же, как и в оценке максимального правдоподобия , хотя GAN не может сама выполнить оценку максимального правдоподобия . ^[36]^[37] $\sigma$

Потеря шарнира GAN :^[38]Наименьшие квадраты GAN: ^[39] где— параметры, которые следует выбрать. Авторы рекомендовали. $L_{D}=-\operatorname {E} _{x\sim p_{\text{ref}}}\left[\min \left(0,-1+D(x)\right)\right]-\operatorname {E} _{x\sim \mu _{G}}\left[\min \left(0,-1-D\left(x\right)\right)\right]$ $L_{G}=-\operatorname {E} _{x\sim \mu _{G}}[D(x)]$ $L_{D}=\operatorname {E} _{x\sim \mu _{\text{ref}}}[(D(x)-b)^{2}]+\operatorname {E} _{x\sim \mu _{G}}[(D(x)-a)^{2}]$ $L_{G}=\operatorname {E} _{x\sim \mu _{G}}[(D(x)-c)^{2}]$ $a,b,c$ $a=-1,b=1,c=0$

Вассерштейн ГАН (WGAN)

Вассерштейн GAN изменяет игру GAN в двух моментах:

Набор стратегий дискриминатора представляет собой набор измеримых функций типа с ограниченной нормой Липшица : , где — фиксированная положительная константа. $D:\Omega \to \mathbb {R}$ $\|D\|_{L}\leq K$ $K$
Целью является $L_{WGAN}(\mu _{G},D):=\operatorname {E} _{x\sim \mu _{G}}[D(x)]-\mathbb {E} _{x\sim \mu _{\text{ref}}}[D(x)]$

Одной из его целей является решение проблемы коллапса мод (см. выше). ^[15] Авторы утверждают: «Ни в одном эксперименте мы не увидели доказательств коллапса мод для алгоритма WGAN».

GAN с более чем двумя игроками

Состязательный автоэнкодер

Состязательный автоэнкодер (AAE) ^[40] — это скорее автоэнкодер, чем GAN. Идея состоит в том, чтобы начать с простого автоэнкодера , но обучить дискриминатор различать скрытые векторы из эталонного распределения (часто нормального распределения).

ИнфоГАН

В условной GAN генератор получает как вектор шума , так и метку и выдает изображение . Дискриминатор получает пары изображение-метка и вычисляет . $z$ $c$ $G(z,c)$ $(x,c)$ $D(x,c)$

Если обучающий набор данных не помечен, условный GAN не работает напрямую.

Идея InfoGAN заключается в том, чтобы постановить, что каждый скрытый вектор в скрытом пространстве может быть разложен как : несжимаемая шумовая часть и информативная меточная часть , и побудить генератор соблюдать это постановление, побуждая его максимизировать взаимную информацию между и , не предъявляя при этом никаких требований к взаимной информации между . $(z,c)$ $z$ $c$ $I(c,G(z,c))$ $c$ $G(z,c)$ $z$ $G(z,c)$

К сожалению, в общем случае неразрешима. Ключевая идея InfoGAN — вариационная взаимная максимизация информации: ^[41] косвенно максимизировать ее путем максимизации нижней границы , где пробегает все ядра Маркова типа . $I(c,G(z,c))$ ${\hat {I}}(G,Q)=\mathbb {E} _{z\sim \mu _{Z},c\sim \mu _{C}}[\ln Q(c\mid G(z,c))];\quad I(c,G(z,c))\geq \sup _{Q}{\hat {I}}(G,Q)$ $Q$ $Q:\Omega _{Y}\to {\mathcal {P}}(\Omega _{C})$

Игра InfoGAN определяется следующим образом: ^[42]

Три вероятностных пространства определяют игру InfoGAN:
$(\Omega _{X},\mu _{\text{ref}})$ , пространство опорных изображений.
$(\Omega _{Z},\mu _{Z})$ , фиксированный генератор случайного шума.
$(\Omega _{C},\mu _{C})$ , фиксированный генератор случайной информации.
Есть 3 игрока в 2 командах: генератор, Q и дискриминатор. Генератор и Q в одной команде, а дискриминатор в другой команде.
Целевая функция — это исходная цель игры GAN, а $L(G,Q,D)=L_{GAN}(G,D)-\lambda {\hat {I}}(G,Q)$ $L_{GAN}(G,D)=\operatorname {E} _{x\sim \mu _{\text{ref}},}[\ln D(x)]+\operatorname {E} _{z\sim \mu _{Z}}[\ln(1-D(G(z,c)))]$ ${\hat {I}}(G,Q)=\mathbb {E} _{z\sim \mu _{Z},c\sim \mu _{C}}[\ln Q(c\mid G(z,c))]$
Команда Generator-Q стремится минимизировать цель, а команда Discriminator стремится ее максимизировать: $\min _{G,Q}\max _{D}L(G,Q,D)$

Двунаправленная GAN (BiGAN)

Стандартный генератор GAN является функцией типа , то есть это отображение из скрытого пространства в пространство изображения . Это можно понимать как процесс «декодирования», в котором каждый скрытый вектор является кодом для изображения , а генератор выполняет декодирование. Это естественным образом приводит к идее обучения другой сети, которая выполняет «кодирование», создавая автокодировщик из пары кодировщик-генератор. $G:\Omega _{Z}\to \Omega _{X}$ $\Omega _{Z}$ $\Omega _{X}$ $z\in \Omega _{Z}$ $x\in \Omega _{X}$

Уже в оригинальной статье ^[3] авторы отметили, что «Приблизительный вывод может быть выполнен путем обучения вспомогательной сети для прогнозирования заданных данных ». Двунаправленная архитектура GAN выполняет именно это. ^[43] $z$ $x$

BiGAN определяется следующим образом:

Игру BiGAN определяют два вероятностных пространства:
$(\Omega _{X},\mu _{X})$ , пространство опорных изображений.
$(\Omega _{Z},\mu _{Z})$ , скрытое пространство.
В игре участвуют 3 игрока в 2 командах: генератор, кодер и дискриминатор. Генератор и кодер в одной команде, а дискриминатор в другой.
Стратегии генератора — это функции , а стратегии кодировщика — это функции . Стратегии дискриминатора — это функции . $G:\Omega _{Z}\to \Omega _{X}$ $E:\Omega _{X}\to \Omega _{Z}$ $D:\Omega _{X}\to [0,1]$
Целевая функция: $L(G,E,D)=\mathbb {E} _{x\sim \mu _{X}}[\ln D(x,E(x))]+\mathbb {E} _{z\sim \mu _{Z}}[\ln(1-D(G(z),z))]$
Команда генератора-кодировщика стремится минимизировать цель, а команда дискриминатора стремится ее максимизировать: $\min _{G,E}\max _{D}L(G,E,D)$

В статье они дали более абстрактное определение цели следующим образом: где — распределение вероятностей для , полученное путем продвижения вперед через , а — распределение вероятностей для , полученное путем продвижения вперед через . $L(G,E,D)=\mathbb {E} _{(x,z)\sim \mu _{E,X}}[\ln D(x,z)]+\mathbb {E} _{(x,z)\sim \mu _{G,Z}}[\ln(1-D(x,z))]$ $\mu _{E,X}(dx,dz)=\mu _{X}(dx)\cdot \delta _{E(x)}(dz)$ $\Omega _{X}\times \Omega _{Z}$ $\mu _{X}$ $x\mapsto (x,E(x))$ $\mu _{G,Z}(dx,dz)=\delta _{G(z)}(dx)\cdot \mu _{Z}(dz)$ $\Omega _{X}\times \Omega _{Z}$ $\mu _{Z}$ $z\mapsto (G(x),z)$

Приложения двунаправленных моделей включают полуконтролируемое обучение , ^[44] интерпретируемое машинное обучение , ^[45] и нейронный машинный перевод . ^[46]

ЦиклГАН

CycleGAN — это архитектура для выполнения переводов между двумя доменами, например, между фотографиями лошадей и фотографиями зебр или фотографиями ночных городов и фотографиями дневных городов.

Игра CycleGAN определяется следующим образом: ^[47]

Существуют два вероятностных пространства , соответствующие двум областям, необходимым для переводов вперед и назад. $(\Omega _{X},\mu _{X}),(\Omega _{Y},\mu _{Y})$
В игре принимают участие 4 игрока, поделённые на 2 команды: генераторы и дискриминаторы . $G_{X}:\Omega _{X}\to \Omega _{Y},G_{Y}:\Omega _{Y}\to \Omega _{X}$ $D_{X}:\Omega _{X}\to [0,1],D_{Y}:\Omega _{Y}\to [0,1]$
Целевая функция: $L(G_{X},G_{Y},D_{X},D_{Y})=L_{GAN}(G_{X},D_{X})+L_{GAN}(G_{Y},D_{Y})+\lambda L_{cycle}(G_{X},G_{Y})$
где — положительный регулируемый параметр, — цель игры GAN, а — потеря согласованности цикла . Генераторы стремятся минимизировать цель, а дискриминаторы стремятся ее максимизировать: $\lambda$ $L_{GAN}$ $L_{cycle}$ $L_{cycle}(G_{X},G_{Y})=E_{x\sim \mu _{X}}\|G_{X}(G_{Y}(x))-x\|+E_{y\sim \mu _{Y}}\|G_{Y}(G_{X}(y))-y\|$ $\min _{G_{X},G_{Y}}\max _{D_{X},D_{Y}}L(G_{X},G_{Y},D_{X},D_{Y})$

В отличие от предыдущих работ, таких как pix2pix, ^[48] , для которых требуются парные обучающие данные, cycleGAN не требует парных данных. Например, чтобы обучить модель pix2pix превращать фотографию летнего пейзажа в фотографию зимнего пейзажа и обратно, набор данных должен содержать пары одного и того же места летом и зимой, снятые под одним и тем же углом; cycleGAN понадобится только набор фотографий летнего пейзажа и несвязанный набор фотографий зимнего пейзажа.

GAN с особенно большими или малыми масштабами

BigGAN

BigGAN по сути является самовоспринимающей GAN, обученной в больших масштабах (до 80 миллионов параметров) для генерации больших изображений ImageNet (разрешением до 512 x 512), с многочисленными инженерными трюками для обеспечения ее сходимости. ^[22]^[49]

Обратимое увеличение данных

При недостаточном количестве обучающих данных эталонное распределение не может быть хорошо аппроксимировано эмпирическим распределением , заданным обучающим набором данных. В таких случаях можно применить аугментацию данных , чтобы обучить GAN на меньших наборах данных. Однако наивная аугментация данных приносит свои проблемы. $\mu _{\text{ref}}$

Рассмотрим исходную игру GAN, слегка переформулированную следующим образом: Теперь мы используем аугментацию данных путем случайной выборки семантически-сохраняющих преобразований и применения их к набору данных, чтобы получить переформулированную игру GAN: Это эквивалентно игре GAN с другим распределением , выбранной по , с . Например, если — распределение изображений в ImageNet, и образцы тождественного преобразования с вероятностью 0,5 и горизонтального отражения с вероятностью 0,5, то — распределение изображений в ImageNet и горизонтально отраженном ImageNet, объединенных. ${\begin{cases}\min _{D}L_{D}(D,\mu _{G})=-\operatorname {E} _{x\sim \mu _{\text{ref}}}[\ln D(x)]-\operatorname {E} _{x\sim \mu _{G}}[\ln(1-D(x))]\\\min _{G}L_{G}(D,\mu _{G})=-\operatorname {E} _{x\sim \mu _{G}}[\ln(1-D(x))]\end{cases}}$ $T:\Omega \to \Omega$ ${\begin{cases}\min _{D}L_{D}(D,\mu _{G})=-\operatorname {E} _{x\sim \mu _{\text{ref}},T\sim \mu _{\text{trans}}}[\ln D(T(x))]-\operatorname {E} _{x\sim \mu _{G}}[\ln(1-D(x))]\\\min _{G}L_{G}(D,\mu _{G})=-\operatorname {E} _{x\sim \mu _{G}}[\ln(1-D(x))]\end{cases}}$ $\mu _{\text{ref}}'$ $T(x)$ $x\sim \mu _{\text{ref}},T\sim \mu _{\text{trans}}$ $\mu _{\text{ref}}$ $\mu _{\text{trans}}$ $\mu _{\text{ref}}'$

Результатом такого обучения будет генератор, который имитирует . Например, он будет генерировать изображения, которые выглядят так, как будто они случайно обрезаны, если аугментация данных использует случайное кадрирование. $\mu _{\text{ref}}'$

Решение заключается в применении дополнения данных как к сгенерированным, так и к реальным изображениям: авторы продемонстрировали высококачественную генерацию, используя всего лишь наборы данных размером всего в 100 изображений. ^[50] ${\begin{cases}\min _{D}L_{D}(D,\mu _{G})=-\operatorname {E} _{x\sim \mu _{\text{ref}},T\sim \mu _{\text{trans}}}[\ln D(T(x))]-\operatorname {E} _{x\sim \mu _{G},T\sim \mu _{\text{trans}}}[\ln(1-D(T(x)))]\\\min _{G}L_{G}(D,\mu _{G})=-\operatorname {E} _{x\sim \mu _{G},T\sim \mu _{\text{trans}}}[\ln(1-D(T(x)))]\end{cases}}$

В статье StyleGAN-2-ADA указывается еще один момент относительно аугментации данных: она должна быть обратимой . ^[51] Продолжим с примером генерации изображений ImageNet. Если аугментация данных заключается в «случайном повороте изображения на 0, 90, 180, 270 градусов с равной вероятностью», то генератор не может узнать, какая ориентация является истинной: Рассмотрим два генератора , такие, что для любого скрытого сгенерированное изображение представляет собой поворот на 90 градусов . Они будут иметь точно такую же ожидаемую потерю, и поэтому ни один из них не является предпочтительным по сравнению с другим. $G,G'$ $z$ $G(z)$ $G'(z)$

Решение состоит в том, чтобы использовать только обратимое дополнение данных: вместо «случайно повернуть изображение на 0, 90, 180, 270 градусов с равной вероятностью» использовать «случайно повернуть изображение на 90, 180, 270 градусов с вероятностью 0,1 и сохранить изображение как есть с вероятностью 0,7». Таким образом, генератор по-прежнему вознаграждается за сохранение ориентации изображений так же, как и не дополненные изображения ImageNet.

Абстрактно, эффект случайной выборки преобразований из распределения заключается в определении ядра Маркова . Затем игра GAN с дополненными данными заставляет генератор найти некоторое , такое что где — свертка ядра Маркова . Метод дополнения данных определяется как обратимый , если его ядро Маркова удовлетворяет Сразу по определению мы видим, что составление нескольких обратимых методов дополнения данных приводит к еще одному обратимому методу. Также по определению, если метод дополнения данных обратим, то его использование в игре GAN не меняет оптимальную стратегию для генератора, которая по-прежнему равна . $T:\Omega \to \Omega$ $\mu _{\text{trans}}$ $K_{\text{trans}}:\Omega \to {\mathcal {P}}(\Omega )$ ${\hat {\mu }}_{G}\in {\mathcal {P}}(\Omega )$ $K_{\text{trans}}*\mu _{\text{ref}}=K_{\text{trans}}*{\hat {\mu }}_{G}$ $*$ $K_{\text{trans}}$ $K_{\text{trans}}*\mu =K_{\text{trans}}*\mu '\implies \mu =\mu '\quad \forall \mu ,\mu '\in {\mathcal {P}}(\Omega )$ ${\hat {\mu }}_{G}$ $\mu _{\text{ref}}$

Существует два типичных примера обратимых ядер Маркова:

Дискретный случай : Обратимые стохастические матрицы , когда является конечным. $\Omega$

Например, если — набор из четырех изображений стрелки, указывающей в 4 направлениях, а дополнение данных — «случайным образом повернуть изображение на 90, 180, 270 градусов с вероятностью и сохранить изображение таким, какое оно есть с вероятностью », то ядро Маркова можно представить в виде стохастической матрицы: и является обратимым ядром тогда и только тогда, когда является обратимой матрицей, то есть . $\Omega =\{\uparrow ,\downarrow ,\leftarrow ,\rightarrow \}$ $p$ $(1-3p)$ $K_{\text{trans}}$ $[K_{\text{trans}}]={\begin{bmatrix}(1-3p)&p&p&p\\p&(1-3p)&p&p\\p&p&(1-3p)&p\\p&p&p&(1-3p)\end{bmatrix}}$ $K_{\text{trans}}$ $[K_{\text{trans}}]$ $p\neq 1/4$

Непрерывный случай : гауссовское ядро, когда для некоторых . $\Omega =\mathbb {R} ^{n}$ $n\geq 1$

Например, если — это пространство изображений 256x256, а метод дополнения данных — «сгенерировать гауссовский шум , затем добавить к изображению», то — это просто свертка по функции плотности . Это обратимо, поскольку свертка по гауссову шуму — это просто свертка по тепловому ядру , поэтому при любом свернутое распределение может быть получено путем нагревания точно в соответствии с , затем ожидания в течение времени . При этом мы можем восстановиться, запустив уравнение теплопроводности в обратном направлении во времени для . $\Omega =\mathbb {R} ^{256^{2}}$ $z\sim {\mathcal {N}}(0,I_{256^{2}})$ $\epsilon z$ $K_{\text{trans}}$ ${\mathcal {N}}(0,\epsilon ^{2}I_{256^{2}})$ $\mu \in {\mathcal {P}}(\mathbb {R} ^{n})$ $K_{\text{trans}}*\mu$ $\mathbb {R} ^{n}$ $\mu$ $\epsilon ^{2}/4$ $\mu$ $\epsilon ^{2}/4$

Дополнительные примеры обратимых дополнений данных можно найти в статье. ^[51]

СинГАН

SinGAN доводит аугментацию данных до предела, используя только одно изображение в качестве обучающих данных и выполняя аугментацию данных на нем. Архитектура GAN адаптирована к этому методу обучения с помощью многомасштабного конвейера.

Генератор разлагается на пирамиду генераторов , причем самый низкий генерирует изображение с самым низким разрешением, затем сгенерированное изображение масштабируется до и подается на следующий уровень для генерации изображения с более высоким разрешением и т. д. Дискриминатор также разлагается на пирамиду. ^[52] $G$ $G=G_{1}\circ G_{2}\circ \cdots \circ G_{N}$ $G_{N}(z_{N})$ $r(G_{N}(z_{N}))$ $G_{N-1}(z_{N-1}+r(G_{N}(z_{N})))$

Серия StyleGAN

Семейство StyleGAN — это серия архитектур, опубликованных исследовательским подразделением Nvidia .

Прогрессивный GAN

Прогрессивный GAN ^[16] — это метод обучения GAN для генерации изображений большого масштаба стабильно, путем выращивания генератора GAN от малого к большому масштабу пирамидальным образом. Как и SinGAN, он разлагает генератор как , а дискриминатор как . $G=G_{1}\circ G_{2}\circ \cdots \circ G_{N}$ $D=D_{1}\circ D_{2}\circ \cdots \circ D_{N}$

Во время обучения сначала используются только в игре GAN для генерации изображений 4x4. Затем добавляются для достижения второго этапа игры GAN, для генерации изображений 8x8 и так далее, пока не достигнем игры GAN для генерации изображений 1024x1024. $G_{N},D_{N}$ $G_{N-1},D_{N-1}$

Чтобы избежать шока между этапами игры GAN, каждый новый слой «вливается» (рисунок 2 статьи ^[16] ). Например, вот как начинается второй этап игры GAN:

Непосредственно перед этим игра GAN состоит из пары, генерирующей и различающей изображения 4x4. $G_{N},D_{N}$
Сразу после этого игра GAN состоит из пары, генерирующей и различающей изображения 8x8. Здесь функции являются функциями повышения и понижения дискретизации изображения, а также коэффициентом смешивания (подобно альфа в композиции изображения), который плавно скользит от 0 до 1. $((1-\alpha )+\alpha \cdot G_{N-1})\circ u\circ G_{N},D_{N}\circ d\circ ((1-\alpha )+\alpha \cdot D_{N-1})$ $u,d$ $\alpha$

СтильGAN-1

StyleGAN-1 разработан как комбинация прогрессивной GAN с нейронной передачей стиля . ^[53]

Ключевым архитектурным выбором StyleGAN-1 является механизм прогрессивного роста, аналогичный Progressive GAN. Каждое сгенерированное изображение начинается как постоянный массив и многократно проходит через блоки стиля. Каждый блок стиля применяет «скрытый вектор стиля» через аффинное преобразование («адаптивная нормализация экземпляра»), аналогично тому, как нейронная передача стиля использует матрицу Грамма . Затем он добавляет шум и нормализует (вычитает среднее значение, затем делит на дисперсию). $4\times 4\times 512$

Во время обучения обычно используется только один скрытый вектор стиля для каждого сгенерированного изображения, но иногда и два («смешанная регуляризация»), чтобы побудить каждый блок стиля независимо выполнять свою стилизацию, не ожидая помощи от других блоков стиля (поскольку они могут получить совершенно другой скрытый вектор стиля).

После обучения в каждый блок стилей можно подавать несколько скрытых векторов стилей. Те, которые подаются на нижние слои, управляют крупномасштабными стилями, а те, которые подаются на верхние слои, управляют стилями с мелкими деталями.

Также можно выполнить смешивание стилей между двумя изображениями . Сначала запустите градиентный спуск, чтобы найти такое, что . Это называется «проецированием изображения обратно в скрытое пространство стиля». Затем можно подать на нижние блоки стиля и на верхние блоки стиля, чтобы создать составное изображение, которое имеет крупномасштабный стиль и мелкодетализированный стиль . Несколько изображений также можно составить таким образом. $x,x'$ $z,z'$ $G(z)\approx x,G(z')\approx x'$ $z$ $z'$ $x$ $x'$

СтильGAN-2

StyleGAN-2 улучшает StyleGAN-1, используя скрытый вектор стиля для преобразования весов сверточного слоя, тем самым решая проблему «пятна». ^[54]

Это было обновлено StyleGAN-2-ADA («ADA» означает «адаптивный»), ^[51], который использует обратимое увеличение данных, как описано выше. Он также настраивает объем применяемого увеличения данных, начиная с нуля и постепенно увеличивая его до тех пор, пока «эвристика переобучения» не достигнет целевого уровня, отсюда и название «адаптивный».

СтильGAN-3

StyleGAN-3 ^[55] улучшает StyleGAN-2, решая проблему «прилипания текстуры», которую можно увидеть в официальных видеороликах. ^[56] Они проанализировали проблему с помощью теоремы Найквиста–Шеннона и пришли к выводу, что слои в генераторе научились использовать высокочастотный сигнал в пикселях, с которыми они работают.

Чтобы решить эту проблему, они предложили наложить строгие фильтры нижних частот между слоями каждого генератора, так что генератор вынужден работать с пикселями способом, верным непрерывным сигналам, которые они представляют, а не работать с ними как с просто дискретными сигналами. Они дополнительно наложили вращательную и трансляционную инвариантность, используя больше фильтров сигналов . Полученный StyleGAN-3 способен решать проблему прилипания текстуры, а также генерировать изображения, которые вращаются и транслируются плавно.

Другие применения

Помимо генеративного и дискриминативного моделирования данных, GAN использовались и для других целей.

GAN использовались для трансферного обучения, чтобы обеспечить выравнивание скрытого пространства признаков, например, в глубоком обучении с подкреплением . ^[57] Это работает путем подачи вложений исходной и целевой задач дискриминатору, который пытается угадать контекст. Результирующая потеря затем (обратно) распространяется через кодер.

Приложения

Наука

Итеративно реконструировать астрономические изображения ^[58]
Моделировать гравитационное линзирование для исследования темной материи. ^[59]^[60]^[61]
Смоделировать распределение темной материи в определенном направлении в пространстве и предсказать гравитационное линзирование, которое произойдет. ^[62]^[63]
Модель формирования струй высокой энергии ^[64] и ливней с помощью калориметров экспериментов по физике высоких энергий . ^[65]^[66]^[67]^[68]
Приблизительные узкие места в вычислительно затратном моделировании экспериментов по физике частиц. Приложения в контексте текущих и предлагаемых экспериментов ЦЕРНа продемонстрировали потенциал этих методов для ускорения моделирования и/или улучшения точности моделирования. ^[69]^[70]
Реконструировать поля скорости и скаляра в турбулентных потоках. ^[71]^[72]^[73]

Молекулы, созданные GAN, были экспериментально проверены на мышах. ^[74]^[75]

Медицинский

Одной из основных проблем в медицинской визуализации является сохранение конфиденциальности пациентов. По этим причинам исследователи часто сталкиваются с трудностями при получении медицинских изображений для своих исследовательских целей. GAN использовался для создания синтетических медицинских изображений , таких как изображения МРТ и ПЭТ , чтобы решить эту проблему. ^[76]

GAN можно использовать для обнаружения глаукомных изображений, помогая ранней диагностике, что необходимо для предотвращения частичной или полной потери зрения. ^[77]

GAN использовались для создания судебно-медицинских реконструкций лиц умерших исторических личностей. ^[78]

Вредоносный

Высказывались опасения относительно потенциального использования синтеза человеческих изображений на основе GAN в зловещих целях, например, для создания поддельных, возможно компрометирующих, фотографий и видео. ^[79] GAN можно использовать для создания уникальных, реалистичных фотографий профилей людей, которых не существует, с целью автоматизации создания поддельных профилей в социальных сетях. ^[80]

В 2019 году штат Калифорния рассмотрел ^[81] и принял 3 октября 2019 года законопроект AB-602, запрещающий использование технологий синтеза человеческих изображений для создания фейковой порнографии без согласия изображенных людей, и законопроект AB-730, запрещающий распространение сфальсифицированных видеороликов политического кандидата в течение 60 дней после выборов. Оба законопроекта были разработаны членом Ассамблеи Марком Берманом и подписаны губернатором Гэвином Ньюсомом . Законы вступили в силу в 2020 году. ^[82]

Программа DARPA Media Forensics изучает способы противодействия поддельным медиа, включая поддельные медиа, созданные с использованием GAN. ^[83]

Мода, искусство и реклама

GAN можно использовать для создания произведений искусства; The Verge писал в марте 2019 года, что «изображения, созданные GAN, стали определяющим обликом современного искусства ИИ». ^[84] GAN также можно использовать для

фотографии в красках ^[85]
генерировать модели одежды, ^[86] тени, ^[87] фотореалистичные визуализации дизайна интерьера , промышленного дизайна , обуви и т. д. ^[88] Сообщалось, что такие сети использовались Facebook . ^[89]

Некоторые работали с использованием GAN для художественного творчества, как «творческой состязательной сети». ^[90]^[91] GAN, обученная на наборе из 15 000 портретов из WikiArt с 14 по 19 век, создала в 2018 году картину «Эдмон де Белами » , которая была продана за 432 500 долларов США. ^[92]

Сообщество моддеров видеоигр использовало GAN для масштабирования 2D-текстур низкого разрешения в старых видеоиграх, воссоздавая их в разрешении 4k или выше с помощью обучения изображений, а затем уменьшая их разрешение до собственного разрешения игры (напоминая сглаживание с суперсэмплингом ) . ^[93]

В 2020 году Artbreeder использовался для создания главного антагониста в сиквеле психологического веб-хоррора Ben Drowned . Позже автор похвалил приложения GAN за их способность помогать генерировать активы для независимых художников, у которых не хватает бюджета и рабочей силы. ^[94]^[95]

В мае 2020 года исследователи Nvidia научили систему искусственного интеллекта (названную «GameGAN») воссоздавать игру Pac-Man, просто наблюдая за тем, как в нее играют. ^[96]^[97]

В августе 2019 года был создан большой набор данных, состоящий из 12 197 MIDI-песен, каждая из которых имела парный текст и выравнивание мелодии, для нейронной генерации мелодий из текстов песен с использованием условной GAN-LSTM (см. источники на GitHub AI Melody Generation from Lyrics). ^[98]

Разнообразный

GAN использовались для

показать, как внешность человека может меняться с возрастом. ^[99]
реконструировать 3D-модели объектов из изображений , ^[100]
создавать новые объекты в виде трехмерных облаков точек, ^[101]
модельные модели движения в видео. ^[102]
дорисовывать недостающие элементы на картах, переносить стили карт в картографию ^[103] или дополнять изображения уличного вида. ^[104]
использовать обратную связь для создания изображений и замены систем поиска изображений. ^[105]
визуализируйте влияние изменения климата на конкретные дома. ^[106]
реконструировать изображение лица человека, прослушав его голос. ^[107]
создает видео говорящего человека, имея только одну фотографию этого человека. ^[108]
генерация повторяющейся последовательности. ^[109]

История

В 1991 году Юрген Шмидхубер опубликовал «искусственное любопытство», нейронные сети в игре с нулевой суммой . ^[110] Первая сеть является генеративной моделью , которая моделирует распределение вероятностей по выходным шаблонам. Вторая сеть обучается с помощью градиентного спуска, чтобы предсказывать реакции окружающей среды на эти шаблоны. GAN можно рассматривать как случай, когда реакция окружающей среды равна 1 или 0 в зависимости от того, находится ли выход первой сети в заданном наборе. ^[111]

У других людей были похожие идеи, но они не развивали их подобным образом. Идея, связанная с состязательными сетями, была опубликована в блоге Олли Ниемитало в 2010 году. ^[112] Эта идея никогда не была реализована и не включала стохастичность в генераторе и, таким образом, не была генеративной моделью. Теперь она известна как условная GAN или cGAN. ^[113] Идея, похожая на GAN, была использована для моделирования поведения животных Ли, Гаучи и Гроссом в 2013 году. ^[114]

Другим источником вдохновения для GAN была шум-контрастная оценка ^[115] , которая использует ту же функцию потерь, что и GAN, и которую Гудфеллоу изучал во время написания своей докторской диссертации в 2010–2014 годах.

Состязательное машинное обучение имеет и другие применения помимо генеративного моделирования и может применяться к моделям, отличным от нейронных сетей. В теории управления состязательное обучение на основе нейронных сетей использовалось в 2006 году для обучения надежных контроллеров в игровом теоретико-игровом смысле, чередуя итерации между политикой минимизации, контроллером, и политикой максимизации, возмущением. ^[116]^[117]

В 2017 году GAN использовался для улучшения изображения, фокусируясь на реалистичных текстурах, а не на пиксельной точности, что давало более высокое качество изображения при большом увеличении. ^[118] В 2017 году были созданы первые лица. ^[119] Они были выставлены в феврале 2018 года в Гран-Пале. ^[120]^[121] Лица, созданные StyleGAN ^[122] в 2019 году, сравнивали с Deepfakes . ^[123]^[124]^[125]

Смотрите также

Искусственный интеллект в искусстве – Машинное применение знаний об эстетических проявлениях человека
Deepfake – Реалистичные искусственно созданные медиа
Глубокое обучение – Раздел машинного обучения
Модель диффузии – алгоритм глубокого обучения
Генеративный искусственный интеллект – система ИИ, способная генерировать контент в ответ на подсказки
Синтетические носители – искусственное производство, манипулирование и изменение данных и носителей с помощью автоматизированных средств.

Ссылки

^ «Генеративный ИИ и будущее». 15 ноября 2022 г.
^ "CSDL | Компьютерное общество IEEE".
^ abcdefghij Гудфеллоу, Ян; Пуже-Абади, Жан; Мирза, Мехди; Сюй, Бин; Уорд-Фарли, Дэвид; Озаир, Шерджил; Курвиль, Аарон; Бенжио, Йошуа (2014). Генеративные состязательные сети (PDF) . Труды Международной конференции по нейронным системам обработки информации (NIPS 2014). стр. 2672–2680.
^ Салиманс, Тим; Гудфеллоу, Ян; Заремба, Войцех; Чунг, Вики; Рэдфорд, Алек; Чэнь, Си (2016). «Улучшенные методы обучения GAN». arXiv : 1606.03498 [cs.LG].
^ Изола, Филлип; Чжу, Цзюнь-Янь; Чжоу, Тинхуэй; Эфрос, Алексей (2017). «Перевод изображения в изображение с помощью условно-состязательных сетей». Компьютерное зрение и распознавание образов .
^ Хо, Джонатан; Эрмон, Стефано (2016). «Генеративное состязательное имитационное обучение». Достижения в области нейронных систем обработки информации . 29 : 4565–4573. arXiv : 1606.03476 .
^ "Vanilla GAN (GAN в компьютерном зрении: Введение в генеративное обучение)". theaisummer.com . AI Summer. 10 апреля 2020 г. Архивировано из оригинала 3 июня 2020 г. Получено 20 сентября 2020 г.
^ Люк, Полин; Купри, Камиль; Чинтала, Сумит; Вербек, Якоб (25 ноября 2016 г.). «Семантическая сегментация с использованием состязательных сетей». Семинар NIPS по состязательному обучению, декабрь, Барселона, Испания . 2016 г. arXiv : 1611.08408 .
^ Андрей Карпати ; Питер Аббель ; Грег Брокман; Питер Чен; Вики Чунг; Рокки Дуань; Ян Гудфеллоу; Дюрк Кингма; Джонатан Хо; Рейн Хаутхуфт; Тим Салиманс; Джон Шульман; Илья Суцкевер; Войцех Заремба, Generative Models, OpenAI , получено 7 апреля 2016 г.
^ Мохамед, Шакир; Лакшминараянан, Баладжи (2016). «Обучение в неявных генеративных моделях». arXiv : 1610.03483 [stat.ML].
^ ab Гудфеллоу, Ян (3 апреля 2017 г.). "Учебник NIPS 2016: Генеративно-состязательные сети". arXiv : 1701.00160 [cs.LG].
^ Кингма, Дидерик П.; Веллинг, Макс (1 мая 2014 г.). «Автоматическое кодирование вариационного Байеса». arXiv : 1312.6114 [stat.ML].
^ Резенде, Данило Хименес; Мохамед, Шакир; Вирстра, Даан (2014). «Стохастическое обратное распространение и приближенный вывод в глубоких генеративных моделях». Журнал исследований машинного обучения . 32 (2): 1278–1286. arXiv : 1401.4082 .
^ ab Farnia, Farzan; Ozdaglar, Asuman (21 ноября 2020 г.). «Всегда ли GAN имеют равновесие Нэша?». Труды 37-й Международной конференции по машинному обучению . Том 119. PMLR. С. 3029–3039.
^ abc Вэн, Лилиан (18 апреля 2019 г.). «От GAN к WGAN». arXiv : 1904.08994 [cs.LG].
^ abc Каррас, Теро; Айла, Тимо; Лайне, Самули; Лехтинен, Яакко (1 октября 2017 г.). «Прогрессивное выращивание GAN для улучшения качества, стабильности и вариативности». arXiv : 1710.10196 [cs.NE].
^ Совяны, Петру; Ардей, Клаудиу; Ионеску, Раду Тудор; Леордеану, Мариус (22 октября 2019 г.). «Учебная программа по сложности изображений для генеративно-состязательных сетей (CuGAN)». arXiv : 1910.08967 [cs.LG].
^ Хакоэн, Гай; Вайншолл, Дафна (24 мая 2019 г.). «О силе обучения по учебной программе в обучении глубоких сетей». Международная конференция по машинному обучению . PMLR: 2535–2544. arXiv : 1904.03626 .
^ "r/MachineLearning - Комментарий пользователя u/ian_goodfellow к "[R] [1701.07875] Wasserstein GAN". reddit . 30 января 2017 г. Получено 15 июля 2022 г.
^ Лин, Зинан и др. (декабрь 2018 г.). PacGAN: сила двух образцов в генеративно-состязательных сетях. 32-я Международная конференция по системам обработки нейронной информации. стр. 1505–1514. arXiv : 1712.04086 .
^ Мешедер, Ларс; Гейгер, Андреас; Новозин, Себастьян (31 июля 2018 г.). «Какие методы обучения для GAN на самом деле сходятся?». arXiv : 1801.04406 [cs.LG].
^ ab Брок, Эндрю; Донахью, Джефф; Симонян, Карен (1 сентября 2018 г.). Обучение крупномасштабной сети GAN для синтеза естественных изображений высокой точности. Международная конференция по представлениям обучения 2019 г. arXiv : 1809.11096 .
^ Хойзель, Мартин; Рамзауэр, Хуберт; Унтертинер, Томас; Несслер, Бернхард; Хохрайтер, Сепп (2017). «GAN, обученные правилом обновления двух шкал времени, сходятся к локальному равновесию Нэша». Достижения в области нейронных систем обработки информации . 30. Curran Associates, Inc. arXiv : 1706.08500 .
^ Кингма, Дидерик П.; Ба, Джимми (29 января 2017 г.). «Адам: Метод стохастической оптимизации». arXiv : 1412.6980 [cs.LG].
^ Чжан, Ричард; Изола, Филипп; Эфрос, Алексей А.; Шехтман, Эли; Ванг, Оливер (2018). «Необоснованная эффективность глубоких признаков как перцептивной метрики». С. 586–595. arXiv : 1801.03924 [cs.CV].
^ Борджи, Али (1 февраля 2019 г.). «Плюсы и минусы мер оценки GAN». Computer Vision and Image Understanding . 179 : 41–65. arXiv : 1802.03446 . doi : 10.1016/j.cviu.2018.10.009. ISSN 1077-3142. S2CID 3627712.
↑ Хиндупур, Авинаш (15 июля 2022 г.), Зоопарк GAN , получено 15 июля 2022 г.
^ Одена, Август; Олах, Кристофер; Шленс, Джонатан (17 июля 2017 г.). «Условный синтез изображений с использованием вспомогательного классификатора GAN». Международная конференция по машинному обучению . PMLR: 2642–2651. arXiv : 1610.09585 .
^ Рэдфорд, Алек; Метц, Люк; Чинтала, Сомиф (2016). «Неконтролируемое обучение представлению с помощью глубоких сверточных генеративно-состязательных сетей». ICLR . S2CID 11758569.
^ Лонг, Джонатан; Шелхамер, Эван; Даррелл, Тревор (2015). «Полностью сверточные сети для семантической сегментации». CVF : 3431–3440.
^ Чжан, Хань; Гудфеллоу, Ян; Метаксас, Димитрис; Одена, Августус (24 мая 2019 г.). «Самовнимание, генеративные состязательные сети». Международная конференция по машинному обучению . PMLR: 7354–7363.
^ Ларсен, Андерс Боесен Линдбо; Сёндербю, Сорен Кааэ; Ларошель, Хьюго; Винтер, Оле (11 июня 2016 г.). «Автокодирование за пределами пикселей с использованием изученной метрики сходства». Международная конференция по машинному обучению . ПМЛР: 1558–1566. arXiv : 1512.09300 .
^ Цзян, Ифань; Чан, Шиюй; Ван, Чжанъян (8 декабря 2021 г.). «TransGAN: два чистых трансформатора могут создать один мощный GAN, и он может масштабироваться». arXiv : 2102.07074 [cs.CV].
^ Гровер, Адитья; Дхар, Маник; Эрмон, Стефано (1 мая 2017 г.). «Flow-GAN: объединение максимального правдоподобия и состязательного обучения в генеративных моделях». arXiv : 1705.08868 [cs.LG].
^ Арджовски, Мартин; Ботту, Леон (1 января 2017 г.). «К принципиальным методам обучения генеративно-состязательных сетей». arXiv : 1701.04862 [stat.ML].
^ Гудфеллоу, Ян Дж. (1 декабря 2014 г.). «О критериях различимости для оценки генеративных моделей». arXiv : 1412.6515 [stat.ML].
^ Гудфеллоу, Ян (31 августа 2016 г.). «Генеративно-состязательные сети (GAN), презентация в лаборатории искусственного интеллекта в Беркли» (PDF) . Архивировано (PDF) из оригинала 8 мая 2022 г.
^ Лим, Джэ Хён; Йе, Чон Чхоль (8 мая 2017 г.). «Геометрический ГАН». arXiv : 1705.02894 [stat.ML].
^ Мао, Сюйдун; Ли, Цин; Се, Хаорань; Лау, Рэймонд ЮК; Ван, Чжэнь; Пол Смолли, Стивен (2017). «Генеративно-состязательные сети наименьших квадратов». Международная конференция IEEE по компьютерному зрению (ICCV) 2017 г. стр. 2794–2802. arXiv : 1611.04076 . doi :10.1109/ICCV.2017.304. ISBN 978-1-5386-1032-9.
^ Махзани, Алиреза; Шленс, Джонатан; Джейтли, Навдип; Гудфеллоу, Ян ; Фрей, Брендан (2016). «Состязательные автокодировщики». arXiv : 1511.05644 [cs.LG].
^ Барбер, Дэвид; Агаков, Феликс (9 декабря 2003 г.). «Алгоритм IM: вариационный подход к максимизации информации». Труды 16-й Международной конференции по нейронным системам обработки информации . NIPS'03. Кембридж, Массачусетс, США: MIT Press: 201–208.
^ Чэнь, Си; Дуань, Янь; Хаутхуфт, Рейн; Шульман, Джон; Суцкевер, Илья; Аббель, Питер (2016). "InfoGAN: Интерпретируемое представление обучения с помощью генеративно-состязательных сетей, максимизирующих информацию". Достижения в области нейронных систем обработки информации . 29. Curran Associates, Inc. arXiv : 1606.03657 .
^ Донахью, Джефф; Креэнбюль, Филипп; Даррелл, Тревор (2016). «Состязательное обучение функциям». arXiv : 1605.09782 [cs.LG].
^ Дюмулен, Винсент; Бельгази, Ишмаэль; Пул, Бен; Мастропьетро, Оливье; Арджовски, Алекс; Курвиль, Аарон (2016). «Вывод, полученный с помощью противоречий». arXiv : 1606.00704 [stat.ML].
^ Си Чэнь; Янь Дуань; Рейн Хаутхофт; Джон Шульман; Илья Суцкевер ; Питер Абель (2016). «InfoGAN: Интерпретируемое представление обучения с помощью генеративно-состязательных сетей, максимизирующих информацию». arXiv : 1606.03657 [cs.LG].
^ Чжируй Чжан; Шуцзе Лю; Му Ли; Мин Чжоу; Энхун Чэнь (октябрь 2018 г.). «Двунаправленные генеративные состязательные сети для нейронного машинного перевода» (PDF) . стр. 190–199.
^ Чжу, Джун-Ян; Пак, Тэсон; Изола, Филлип; Эфрос, Алексей А. (2017). «Непарный перевод изображения в изображение с использованием циклически согласованных состязательных сетей». стр. 2223–2232. arXiv : 1703.10593 [cs.CV].
^ Изола, Филлип; Чжу, Цзюнь-Янь; Чжоу, Тинхуэй; Эфрос, Алексей А. (2017). «Перевод изображения в изображение с помощью условно-состязательных сетей». С. 1125–1134. arXiv : 1611.07004 [cs.CV].
^ Браунли, Джейсон (22 августа 2019 г.). «Нежное введение в BigGAN — большую генеративно-состязательную сеть». Machine Learning Mastery . Получено 15 июля 2022 г.
^ Шэнъюй, Чжао; Чжицзянь, Лю; Цзи, Линь; Цзюнь-Янь, Чжу; Сун, Хань (2020). «Дифференцируемое дополнение для эффективного обучения GAN». Достижения в области нейронных систем обработки информации . 33. arXiv : 2006.10738 .
^ abc Теро, Каррас; Миика, Айттала; Янне, Хеллстен; Самули, Лайне; Яакко, Лехтинен; Тимо, Айла (2020). «Обучение генеративно-состязательных сетей с ограниченными данными». Достижения в области нейронных систем обработки информации . 33 .
^ Шахам, Тамар Ротт; Декель, Тали; Михаэли, Томер (октябрь 2019 г.). «SinGAN: изучение генеративной модели на основе одного естественного изображения». Международная конференция IEEE/CVF по компьютерному зрению (ICCV) 2019 г. IEEE. стр. 4569–4579. arXiv : 1905.01164 . doi :10.1109/iccv.2019.00467. ISBN 978-1-7281-4803-8. S2CID 145052179.
^ Каррас, Теро; Лайн, Самули; Айла, Тимо (июнь 2019 г.). «Архитектура генератора на основе стиля для генеративно-состязательных сетей». Конференция IEEE/CVF 2019 г. по компьютерному зрению и распознаванию образов (CVPR) . IEEE. стр. 4396–4405. arXiv : 1812.04948 . doi : 10.1109/cvpr.2019.00453. ISBN 978-1-7281-3293-8. S2CID 54482423.
^ Каррас, Теро; Лайне, Самули; Айттала, Миика; Хеллстен, Янне; Лехтинен, Яакко; Айла, Тимо (июнь 2020 г.). «Анализ и улучшение качества изображения StyleGAN». Конференция IEEE/CVF 2020 года по компьютерному зрению и распознаванию образов (CVPR) . IEEE. стр. 8107–8116. arXiv : 1912.04958 . doi : 10.1109/cvpr42600.2020.00813. ISBN 978-1-7281-7168-5. S2CID 209202273.
↑ Тимо, Каррас, Теро Айттала, Миика Лайне, Самули Харконен, Эрик Хеллстен, Янне Лехтинен, Яакко Айла (23 июня 2021 г.). Генеративно-состязательные сети без псевдонимов. ОСЛК 1269560084.{{cite book}}: CS1 maint: multiple names: authors list (link)
^ Каррас, Теро; Айттала, Миика; Лайне, Самули; Харконен, Эрик; Хеллстен, Янне; Лехтинен, Яакко; Айла, Тимо. «Генераторно-состязательные сети без псевдонимов (StyleGAN3)». nvlabs.github.io . Проверено 16 июля 2022 г.
^ Ли, Бонни; Франсуа-Лаве, Винсент; Доан, Танг; Пино, Жоэль (14 февраля 2021 г.). «Обучение с состязательным подкреплением в предметной области». arXiv : 2102.07097 [cs.LG].
^ Шавински, Кевин; Чжан, Се; Чжан, Хантиан; Фаулер, Лукас; Сантханам, Гокула Кришнан (1 февраля 2017 г.). «Генеративно-состязательные сети восстанавливают особенности астрофизических изображений галактик за пределами предела деконволюции». Monthly Notices of the Royal Astronomical Society: Letters . 467 (1): L110–L114. arXiv : 1702.00403 . Bibcode : 2017MNRAS.467L.110S. doi : 10.1093/mnrasl/slx008 . S2CID 7213940.
^ Кинкейд, Кэти. «Исследователи обучают нейронную сеть для изучения темной материи». Журнал R&D.
^ Кинкейд, Кэти (16 мая 2019 г.). «CosmoGAN: Обучение нейронной сети для изучения темной материи». Phys.org .
^ "Обучение нейронной сети для изучения темной материи". Science Daily . 16 мая 2019 г.
^ в 06:13, Katyanna Quach 20 мая 2019 г. «Космобоффины используют нейронные сети для построения карт темной материи простым способом». www.theregister.co.uk . Получено 20 мая 2019 г.{{cite web}}: CS1 maint: numeric names: authors list (link)
^ Мустафа, Мустафа; Бард, Дебора; Бхимджи, Вахид; Лукич, Зариджа; Аль-Рфу, Рами; Краточвил, Ян М. (6 мая 2019 г.). «CosmoGAN: создание высокоточных карт сходимости слабого линзирования с использованием генеративно-состязательных сетей». Computational Astrophysics and Cosmology . 6 (1): 1. arXiv : 1706.02390 . Bibcode : 2019ComAC...6....1M. doi : 10.1186/s40668-019-0029-9 . ISSN 2197-7909. S2CID 126034204.
^ Паганини, Микела; де Оливейра, Люк; Нахман, Бенджамин (2017). «Изучение физики элементарных частиц на примерах: генеративные состязательные сети с учетом местоположения для физического синтеза». Вычислительная техника и программное обеспечение для большой науки . 1 : 4. arXiv : 1701.05927 . Bibcode : 2017arXiv170105927D. doi : 10.1007/s41781-017-0004-6. S2CID 88514467.
^ Паганини, Микела; де Оливейра, Люк; Нахман, Бенджамин (2018). «Ускорение науки с помощью генеративных состязательных сетей: применение к трехмерным ливням частиц в многослойных калориметрах». Physical Review Letters . 120 (4): 042003. arXiv : 1705.02355 . Bibcode : 2018PhRvL.120d2003P. doi : 10.1103/PhysRevLett.120.042003. PMID 29437460. S2CID 3330974.
^ Паганини, Микела; де Оливейра, Люк; Нахман, Бенджамин (2018). «CaloGAN: Моделирование 3D ливней частиц высокой энергии в многослойных электромагнитных калориметрах с помощью генеративно-состязательных сетей». Phys. Rev. D. 97 ( 1): 014021. arXiv : 1712.10321 . Bibcode : 2018PhRvD..97a4021P. doi : 10.1103/PhysRevD.97.014021. S2CID 41265836.
^ Эрдманн, Мартин; Гломбица, Йонас; Кваст, Торбен (2019). «Точное моделирование электромагнитных калориметрических ливней с использованием генеративно-состязательной сети Вассерштейна». Вычисления и программное обеспечение для большой науки . 3 (1): 4. arXiv : 1807.01954 . Bibcode : 2019CSBS....3....4E. doi : 10.1007/s41781-018-0019-7. S2CID 54216502.
^ Musella, Pasquale; Pandolfi, Francesco (2018). «Быстрое и точное моделирование детекторов частиц с использованием генеративно-состязательных сетей». Вычисления и программное обеспечение для большой науки . 2 : 8. arXiv : 1805.00850 . Bibcode : 2018arXiv180500850M. doi : 10.1007/s41781-018-0015-y. S2CID 119474793.
^ «Глубокие генеративные модели для моделирования быстрых ливней в ATLAS». 2018.
^ SHiP, Collaboration (2019). "Быстрое моделирование мюонов, полученных в эксперименте SHiP с использованием генеративно-состязательных сетей". Journal of Instrumentation . 14 (11): 11028. arXiv : 1909.04451 . Bibcode :2019JInst..14P1028A. doi :10.1088/1748-0221/14/11/P11028. S2CID 202542604.
^ Ниста, Людовико; Питч, Хайнц; Шуман, Кристоф Д.К.; Боде, Матис; Гренга, Темистокле; МакАрт, Джонатан Ф.; Атили, Антонио (4 июня 2024 г.). «Влияние состязательного обучения на реконструкцию турбулентности сверхвысокого разрешения». Physical Review Fluids . 9 (6): 064601. arXiv : 2308.16015 . Bibcode : 2024PhRvF...9f4601N. doi : 10.1103/PhysRevFluids.9.064601.
^ Ниста, Л.; Шуман, CDK; Гренга, Т.; Аттили, А.; Питч, Х. (1 января 2023 г.). «Исследование возможностей обобщения генеративной состязательной сети для моделирования больших вихрей турбулентных предварительно смешанных реагирующих потоков». Труды Института горения . 39 (4): 5279–5288. Bibcode : 2023PComI..39.5279N. doi : 10.1016/j.proci.2022.07.244. ISSN 1540-7489.
^ Фуками, Кай; Фукагата, Кодзи; Тайра, Кунихико (1 августа 2020 г.). «Оценка методов контролируемого машинного обучения для потоков жидкости». Теоретическая и вычислительная гидродинамика . 34 (4): 497–519. arXiv : 2001.09618 . Bibcode :2020ThCFD..34..497F. doi :10.1007/s00162-020-00518-y. ISSN 1432-2250.
^ Жаворонков, Алекс (2019). «Глубокое обучение позволяет быстро идентифицировать мощные ингибиторы киназы DDR1». Nature Biotechnology . 37 (9): 1038–1040. doi :10.1038/s41587-019-0224-x. PMID 31477924. S2CID 201716327.
^ Барбер, Грегори. «Молекула, разработанная ИИ, проявляет «наркотические» качества». Wired .
^ Моради, М.; Демирель, Х. (2024). «Классификация болезни Альцгеймера с использованием 3D условного прогрессивного отбора данных на основе GAN и LDA». Обработка сигналов, изображений и видео . 18 (2): 1847–1861. doi :10.1007/s11760-023-02878-4.
^ Биснето, Томаз Рибейру Виана; де Карвальо Фильо, Антонио Осеас; Магальяйнс, Дебора Мария Виейра (февраль 2020 г.). «Генератно-состязательная сеть и текстурные особенности, применяемые для автоматического обнаружения глаукомы». Прикладные мягкие вычисления . 90 : 106165. doi : 10.1016/j.asoc.2020.106165. S2CID 214571484.
↑ Реконструкция римских императоров: интервью с Дэниелом Вошартом, 16 ноября 2020 г. , получено 3 июня 2022 г.
^ msmash (14 февраля 2019 г.). «Сайт «Этого человека не существует» использует ИИ для создания реалистичных, но ужасающих лиц». Slashdot . Получено 16 февраля 2019 г.
↑ Дойл, Майкл (16 мая 2019 г.). «Джон Бисли живет на Сэдлхорс Драйв в Эвансвилле. Или нет?». Courier and Press.
^ Targett, Ed (16 мая 2019 г.). «Калифорния приближается к тому, чтобы сделать порнографию с глубокими подделками незаконной». Computer Business Review.
^ Михалчик, Кэрри (4 октября 2019 г.). «Законы Калифорнии направлены на борьбу с дипфейками в политике и порно». cnet.com . CNET . Получено 13 октября 2019 г. .
^ Найт, Уилл (7 августа 2018 г.). «Министерство обороны создало первые инструменты для обнаружения дипфейков». MIT Technology Review .
^ Винсент, Джеймс (5 марта 2019 г.). «Бесконечный поток произведений искусства ИИ отправляется на аукцион». The Verge . Получено 13 июня 2020 г. .
^ Ю, Цзяхуэй и др. «Генеративная инрисовка изображений с учетом контекста». Труды конференции IEEE по компьютерному зрению и распознаванию образов. 2018.
^ Вонг, Сиси (27 мая 2019 г.). «Расцвет супермоделей ИИ». CDO Trends .
^ Таиф, К.; Угайл, Х.; Мехмуд, И. (2020). «Генерация тени с использованием генеративно-состязательных сетей». Computational Science – ICCS 2020. Lecture Notes in Computer Science. Vol. 12141. pp. 481–495. doi :10.1007/978-3-030-50426-7_36. ISBN 978-3-030-50425-0. ЧМЦ 7302543 .
^ Вэй, Джерри (3 июля 2019 г.). «Создание дизайна обуви с помощью машинного обучения». Medium . Получено 6 ноября 2019 г. .
^ Гринемайер, Ларри (20 июня 2016 г.). «Когда у компьютеров появится здравый смысл? Спросите Facebook». Scientific American . Получено 31 июля 2016 г.
^ Элгаммал, Ахмед; Лю, Бинчен; Элхосейни, Мохамед; Маццоне, Мариан (2017). «CAN: Творческие состязательные сети, создающие «искусство» путем изучения стилей и отклонения от норм стиля». arXiv : 1706.07068 [cs.AI].
^ Mazzone, Marian; Ahmed Elgammal (21 февраля 2019 г.). «Искусство, творчество и потенциал искусственного интеллекта». Arts . 8 : 26. doi : 10.3390/arts8010026 .
^ Кон, Гейб (25 октября 2018 г.). «Искусство искусственного интеллекта на аукционе Christie's продано за 432 500 долларов». The New York Times .
^ Тан, Сяоу; Цяо, Ю; Лой, Чен Чендж; Донг, Чао; Лю, Ихао; Гу, Джинджин; У, Шисян; Ю, Кэ; Ван, Синьтао (1 сентября 2018 г.). «ESRGAN: улучшенные генеративно-состязательные сети сверхразрешения». arXiv : 1809.00219 [cs.CV].
^ Аллен, Эрик Ван (8 июля 2020 г.). «An Infamous Zelda Creepypasta Saga Is Using Artificial Intelligence to Craft Its Finale» (Печально известная сага о крипипасте Zelda использует искусственный интеллект для создания своего финала). USgamer . Архивировано из оригинала 7 ноября 2022 г. Получено 7 ноября 2022 г.
^ arcadeattack (28 сентября 2020 г.). "Подкаст Arcade Attack – сентябрь (4 из 4) 2020 г. - Алекс Холл (Бен Дровнед) - Интервью". Arcade Attack . Получено 7 ноября 2022 г. .
^ «ИИ от Nvidia воссоздает Pac-Man с нуля, просто наблюдая за игрой». The Verge . 22 мая 2020 г.
^ Сын Ук Ким; Чжоу, Юхао; Филион, Джона; Торральба, Антонио; Фидлер, Санджа (2020). «Изучение динамической среды с помощью GameGAN». arXiv : 2005.12126 [cs.CV].
^ Ю, Йи; Каналес, Саймон (2021). «Условный LSTM-GAN для генерации мелодий из текстов песен». Труды ACM по мультимедийным вычислениям, коммуникациям и приложениям . 17 : 1–20. arXiv : 1908.05551 . doi :10.1145/3424116. ISSN 1551-6857. S2CID 199668828.
^ Антипов, Григорий; Баккуш, Моэз; Дюгелей, Жан-Люк (2017). «Старение лица с помощью условных генеративно-состязательных сетей». arXiv : 1702.01983 [cs.CV].
^ "3D генеративная состязательная сеть". 3dgan.csail.mit.edu .
^ Ахлиоптас, Панос; Диаманти, Ольга; Митлиагкас, Иоаннис; Гибас, Леонидас (2018). «Изучение представлений и генеративных моделей для трехмерных облаков точек». arXiv : 1707.02392 [cs.CV].
^ Вондрик, Карл; Пирсиаваш, Хамед; Торральба, Антонио (2016). «Создание видео с динамикой сцены». carlvondrick.com . arXiv : 1609.02612 . Bibcode :2016arXiv160902612V.
^ Кан, Юхао; Гао, Сон; Рот, Роб (2019). «Передача стилей многомасштабных карт с использованием генеративно-состязательных сетей». Международный журнал картографии . 5 (2–3): 115–141. arXiv : 1905.02200 . Bibcode : 2019IJCar...5..115K. doi : 10.1080/23729333.2019.1615729. S2CID 146808465.
^ Wijnands, Jasper; Nice, Kerry; Thompson, Jason; Zhao, Haifeng; Stevenson, Mark (2019). «Расширение уличного пейзажа с использованием генеративно-состязательных сетей: идеи, связанные со здоровьем и благополучием». Sustainable Cities and Society . 49 : 101602. arXiv : 1905.06464 . Bibcode : 2019SusCS..4901602W. doi : 10.1016/j.scs.2019.101602. S2CID 155100183.
^ Укконен, Антти; Йона, Пюрю; Руотсало, Туукка (2020). «Генерация изображений вместо их извлечения». Труды 43-й Международной конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска . С. 1329–1338. doi : 10.1145/3397271.3401129. hdl : 10138/328471 . ISBN 9781450380164. S2CID 220730163.
^ «ИИ может показать нам разрушительные последствия изменения климата». MIT Technology Review . 16 мая 2019 г.
^ Кристиан, Джон (28 мая 2019 г.). «УДИВИТЕЛЬНЫЙ ИИ УГАДЫВАЕТ, КАК ВЫ ВЫГЛЯДИТЕ, ПО ВАШЕМУ ГОЛОСУ». Футуризм.
^ Кулп, Патрик (23 мая 2019 г.). «Лаборатория искусственного интеллекта Samsung может создавать поддельные видеоматериалы из одного снимка головы». AdWeek .
^ Мохаммад Навид Фекри; Ананда Мохон Гош; Катарина Гролингер (2020). «Генерация энергетических данных для машинного обучения с помощью рекуррентных генеративно-состязательных сетей». Energies . 13 (1): 130. doi : 10.3390/en13010130 .
^ Шмидхубер, Юрген (1991). «Возможность реализации любопытства и скуки в нейронных контроллерах построения моделей». Proc. SAB'1991 . MIT Press/Bradford Books. стр. 222–227.
^ Шмидхубер, Юрген (2020). «Генеративно-состязательные сети являются особыми случаями искусственного любопытства (1990), а также тесно связаны с минимизацией предсказуемости (1991)». Нейронные сети . 127 : 58–66. arXiv : 1906.04493 . doi : 10.1016/j.neunet.2020.04.008. PMID 32334341. S2CID 216056336.
^ Niemitalo, Olli (24 февраля 2010 г.). «Метод обучения искусственных нейронных сетей для генерации отсутствующих данных в переменном контексте». Архив Интернета (Wayback Machine) . Архивировано из оригинала 12 марта 2012 г. Получено 22 февраля 2019 г.
^ «GAN были изобретены в 2010 году?». reddit r/MachineLearning . 2019 . Получено 28 мая 2019 .
^ Ли, Вэй; Гаучи, Мелвин; Гросс, Родерих (6 июля 2013 г.). "Труды пятнадцатой ежегодной конференции по генетическим и эволюционным вычислениям - GECCO '13". Труды 15-й ежегодной конференции по генетическим и эволюционным вычислениям (GECCO 2013) . Амстердам, Нидерланды: ACM. стр. 223–230. doi :10.1145/2463372.2465801. ISBN 9781450319638.
^ Гутманн, Михаэль; Хювяринен, Аапо. "Оценка контрастности шума" (PDF) . Международная конференция по ИИ и статистике .
^ Абу-Халаф, Мурад; Льюис, Фрэнк Л.; Хуан, Цзе (1 июля 2008 г.). «Нейродинамическое программирование и игры с нулевой суммой для систем с ограничениями». Труды IEEE по нейронным сетям . 19 (7): 1243–1252. doi :10.1109/TNN.2008.2000204. S2CID 15680448.
^ Абу-Халаф, Мурад; Льюис, Фрэнк Л.; Хуан, Цзе (1 декабря 2006 г.). «Итерации политики на основе уравнения Гамильтона–Якоби–Айзекса для управления с обратной связью по состоянию H _∞ с насыщением входного сигнала». Труды IEEE по автоматическому управлению . doi :10.1109/TAC.2006.884959. S2CID 1338976.
^ Саджади, Мехди SM; Шёлькопф, Бернхард; Хирш, Михаэль (23 декабря 2016 г.). «EnhanceNet: Суперразрешение отдельного изображения с помощью автоматизированного синтеза текстур». arXiv : 1612.07919 [cs.CV].
^ «Этого человека не существует: ничего не будет существовать с ИИ». 20 марта 2019 г.
^ «Искусственный интеллект входит в историю искусств». 28 декабря 2018 г.
↑ Том Феврие (17 февраля 2019 г.). «Скандал об искусственной разведке».
^ "StyleGAN: Официальная реализация TensorFlow". 2 марта 2019 г. – через GitHub.
^ Паез, Дэнни (13 февраля 2019 г.). «This Person Does Not Exist Is the Best One-Off Website of 2019» . Получено 16 февраля 2019 г. .
^ Beschizza, Rob (15 февраля 2019 г.). «Этого человека не существует». Boing-Boing . Получено 16 февраля 2019 г. .
^ Хорев, Рани (26 декабря 2018 г.). «GAN на основе стилей – Генерация и настройка реалистичных искусственных лиц». Lyrn.AI. Архивировано из оригинала 5 ноября 2020 г. Получено 16 февраля 2019 г.

Внешние ссылки

Найт, Уилл. «5 больших прогнозов для искусственного интеллекта в 2017 году». MIT Technology Review . Получено 5 января 2017 г.
Каррас, Теро; Лайн, Самули; Айла, Тимо (2018). «Архитектура генератора на основе стиля для генеративно-состязательных сетей». arXiv : 1812.04948 [cs.NE].
Этого человека не существует – фотореалистичные изображения людей, которых не существует, созданные StyleGAN
Этого кота не существует. Архивировано 5 марта 2019 г. на Wayback Machine – фотореалистичные изображения котов, которых не существует, созданные StyleGAN.
Ван, Чжэнвэй; Ше, Ци; Уорд, Томас Э. (2019). «Генеративные состязательные сети в компьютерном зрении: обзор и таксономия». arXiv : 1906.01529 [cs.LG].