stringtranslate.com

Генеративно-состязательная сеть

Иллюстрация того, как работает GAN.

Генеративно -состязательная сеть ( GAN ) — это класс фреймворков машинного обучения и ведущая основа для подхода к генеративному ИИ . [1] [2] Эта концепция была первоначально разработана Яном Гудфеллоу и его коллегами в июне 2014 года. [3] В GAN две нейронные сети соревнуются друг с другом в форме игры с нулевой суммой , где выигрыш одного агента равен потеря другого агента.

Учитывая обучающий набор, этот метод учится генерировать новые данные с той же статистикой, что и обучающий набор. Например, GAN, обученный на фотографиях, может создавать новые фотографии, которые выглядят, по крайней мере, на первый взгляд, аутентичными для людей-наблюдателей и имеют множество реалистичных характеристик. Хотя изначально GAN были предложены как форма генеративной модели для обучения без учителя , они также оказались полезными для обучения с полуконтролем , [4] обучения с полным учителем , [5] и обучения с подкреплением . [6]

Основная идея GAN основана на «косвенном» обучении через дискриминатор, еще одну нейронную сеть, которая может определить, насколько «реалистичным» кажется входной сигнал, который сам по себе также динамически обновляется. [7] Это означает, что генератор не обучен минимизировать расстояние до конкретного изображения, а скорее обманывает дискриминатор. Это позволяет модели обучаться без присмотра.

GAN похожи на мимикрию в эволюционной биологии с эволюционной гонкой вооружений между обеими сетями.

Определение

Математический

Исходная GAN определяется как следующая игра : [3]

Каждое вероятностное пространство определяет игру GAN.

Есть 2 игрока: генератор и дискриминатор.

Набор стратегий генератора — это набор всех вероятностных мер на .

Набор стратегий дискриминатора представляет собой набор ядер Маркова , где – набор вероятностных мер на .

Игра GAN — это игра с нулевой суммой и целевой функцией.

Генератор стремится минимизировать цель, а дискриминатор стремится максимизировать цель.

Задача генератора — приблизиться , то есть максимально приблизить собственное выходное распределение к эталонному распределению. Задача дискриминатора состоит в том, чтобы вывести значение, близкое к 1, когда входные данные кажутся полученными из эталонного распределения, и вывести значение, близкое к 0, когда входные данные выглядят так, как будто они получены из генераторного распределения.

На практике

Генеративная сеть генерирует кандидатов, а дискриминативная сеть их оценивает. [3] Конкурс проводится с точки зрения распределения данных. Обычно генеративная сеть учится отображать скрытое пространство на интересующее распределение данных, в то время как дискриминативная сеть отличает кандидатов, созданных генератором, от истинного распределения данных. Целью обучения генеративной сети является увеличение частоты ошибок дискриминационной сети (т. е. «обмануть» дискриминационную сеть, создавая новых кандидатов, которые, по мнению дискриминатора, не синтезируются (являются частью истинного распределения данных)). [3] [8]

Известный набор данных служит исходными данными для обучения дискриминатора. Обучение включает в себя предоставление ему выборок из набора обучающих данных до тех пор, пока он не достигнет приемлемой точности. Генератор обучается на основе того, удалось ли ему обмануть дискриминатор. Как правило, генератор заполняется рандомизированными входными данными, которые выбираются из заранее определенного скрытого пространства (например, многомерного нормального распределения ). После этого кандидаты, синтезированные генератором, оцениваются дискриминатором. К обеим сетям применяются независимые процедуры обратного распространения ошибки , так что генератор производит более качественные выборки, а дискриминатор становится более опытным в маркировке синтетических выборок. [9] При использовании для генерации изображений генератор обычно представляет собой деконволюционную нейронную сеть, а дискриминатор — сверточную нейронную сеть .

Связь с другими статистическими методами машинного обучения

GAN представляют собой неявные генеративные модели [10] , что означает, что они не моделируют явно функцию правдоподобия и не предоставляют средств для поиска скрытой переменной, соответствующей данной выборке, в отличие от альтернатив, таких как генеративная модель на основе потока .

Основные типы глубоких генеративных моделей, выполняющих оценку максимального правдоподобия [11]

По сравнению с полностью видимыми сетями убеждений, такими как WaveNet и PixelRNN, и авторегрессионными моделями в целом, GAN могут генерировать одну полную выборку за один проход, а не за несколько проходов через сеть.

По сравнению с машинами Больцмана и нелинейным ICA здесь нет ограничений на тип функций, используемых сетью.

Поскольку нейронные сети являются универсальными аппроксиматорами , GAN асимптотически непротиворечивы . Вариационные автоэнкодеры могут быть универсальными аппроксиматорами, но по состоянию на 2017 год это не доказано. [11]

Математические свойства

Теоретико-мерные соображения

В этом разделе представлены некоторые математические теории, лежащие в основе этих методов.

В современной теории вероятностей , основанной на теории меры , вероятностное пространство также должно быть оснащено σ-алгеброй . В результате более строгое определение игры GAN внесло бы следующие изменения:

Каждое вероятностное пространство определяет игру GAN.

Набор стратегий генератора — это набор всех вероятностных мер в пространстве мер .

Множество стратегий дискриминатора представляет собой набор марковских ядер , где – борелевская σ-алгебра на .

Поскольку вопросы измеримости на практике никогда не возникают, они нас больше не будут касаться.

Выбор набора стратегий

В наиболее общей версии игры GAN, описанной выше, набор стратегий для дискриминатора содержит все ядра Маркова , а набор стратегий для генератора содержит произвольные распределения вероятностей на .

Однако, как показано ниже, оптимальная стратегия дискриминатора против любого является детерминированной, поэтому нет потери общности при ограничении стратегий дискриминатора детерминированными функциями . В большинстве приложений это функция глубокой нейронной сети .

Что касается генератора, то хотя теоретически он может быть любым вычислимым распределением вероятностей, на практике он обычно реализуется как упреждающее : . То есть начните со случайной величины , где — распределение вероятностей, которое легко вычислить (например , равномерное распределение или распределение Гаусса ), затем определите функцию . Тогда распределение является распределением .

Следовательно, стратегия генератора обычно определяется как just , оставляя неявной. В этом формализме цель игры GAN такова:

Генеративная репараметризация

Архитектура GAN состоит из двух основных компонентов. Один из них — это оптимизация в игре form , которая отличается от обычного вида оптимизации form . Другой вариант — разложение на , которое можно понимать как трюк с перепараметризацией.

Чтобы понять его значение, необходимо сравнить GAN с предыдущими методами обучения генеративных моделей, которые страдали от «неразрешимых вероятностных вычислений, возникающих при оценке максимального правдоподобия и связанных с ними стратегиях». [3]

В то же время Кингма и Веллинг [12] и Резенде и др. [13] развили ту же идею репараметризации в общий стохастический метод обратного распространения ошибки. Среди первых его применений был вариационный автоэнкодер .

Порядок перемещения и стратегическое равновесие

В исходной статье, как и в большинстве последующих статей, обычно предполагается, что генератор движется первым , а дискриминатор движется вторым , что дает следующую минимаксную игру:

Если множества стратегий генератора и дискриминатора охватываются конечным числом стратегий, то по теореме о минимаксе

Однако, поскольку оба множества стратегий не являются конечно ограниченными, теорема о минимаксе неприменима, и идея «равновесия» становится деликатной. А именно, существуют следующие различные концепции равновесия:

Для общих игр эти равновесия не обязательно должны совпадать или даже существовать. В оригинальной игре GAN все эти равновесия существуют и все равны. Однако для более общих игр GAN они не обязательно существуют или согласуются друг с другом. [14]

Основные теоремы игры GAN

В оригинальной статье GAN были доказаны следующие две теоремы: [3]

Теорема  (оптимальный дискриминатор вычисляет расхождение Дженсена – Шеннона)  —  Для любой стратегии фиксированного генератора пусть оптимальный ответ будет , тогда

где производная — производная Радона–Никодима , а — расходимость Дженсена–Шеннона .

Доказательство

По неравенству Йенсена

и аналогично для другого термина. Следовательно, оптимальный ответ может быть детерминированным, т.е. для некоторой функции , и в этом случае

Для определения подходящих функций плотности определим базовую меру , которая позволит нам взять производные Радона–Никодима

с .

Тогда у нас есть

Подынтегральная функция — это просто отрицательная перекрестная энтропия между двумя случайными величинами Бернулли с параметрами и . Мы можем записать это как , где – функция двоичной энтропии , поэтому

Это означает, что оптимальная стратегия дискриминатора , при этом

после рутинного расчета.

Интерпретация : Для любой стратегии фиксированного генератора оптимальный дискриминатор отслеживает отношение правдоподобия между эталонным распределением и распределением генератора:

функция

Теорема  (единственная точка равновесия)  .  Для любой игры GAN существует пара , которая является одновременно последовательным равновесием и равновесием Нэша:

То есть генератор идеально имитирует опорное значение, а дискриминатор детерминированно выдает результаты на всех входах.

Доказательство

Из предыдущего предложения,

Для любой стратегии фиксированного дискриминатора , любой сосредоточенной на множестве

— оптимальная стратегия для генератора. Таким образом,

Согласно неравенству Йенсена, дискриминатор может улучшиться только за счет принятия детерминированной стратегии постоянной игры . Поэтому,

По неравенству Йенсена

с равенством если , так

Наконец, чтобы проверить, что это равновесие Нэша, заметим, что когда мы имеем

который всегда максимизируется .

При оптимальна для генератора любая стратегия.

Обучение и оценка GAN

Обучение

Нестабильная конвергенция

Хотя игра GAN имеет уникальную глобальную точку равновесия, когда и генератор, и дискриминатор имеют доступ ко всем своим наборам стратегий, равновесие больше не гарантируется, когда у них есть ограниченный набор стратегий. [14]

На практике генератор имеет доступ только к показателям формы , где — функция, вычисляемая нейронной сетью с параметрами , и — легко выборочное распределение, такое как равномерное или нормальное распределение. Аналогично, дискриминатор имеет доступ только к функциям формы — функции, вычисляемой нейронной сетью с параметрами . Эти ограниченные наборы стратегий занимают исчезающе малую долю от общего набора стратегий. [15]

Более того, даже если равновесие все еще существует, его можно найти только путем поиска в многомерном пространстве всех возможных функций нейронной сети. Стандартная стратегия использования градиентного спуска для поиска равновесия часто не работает для GAN, и зачастую игра «схлопывается» в один из нескольких режимов сбоя. Чтобы улучшить стабильность сходимости, некоторые стратегии обучения начинаются с более простой задачи, такой как генерация изображений с низким разрешением [16] или простых изображений (один объект с однородным фоном) [17] и постепенно увеличивают сложность задачи во время обучения. По сути, это означает применение схемы обучения по учебной программе. [18]

Свернуть режим

GAN часто страдают от коллапса режимов , когда они не могут должным образом обобщить, пропуская целые режимы из входных данных. Например, GAN, обученный на наборе данных MNIST , содержащем множество образцов каждой цифры, может генерировать только изображения цифры 0. В первой статье это было названо «сценарием Helvetica ».

Одна из причин, по которой это может произойти, — если генератор учится слишком быстро по сравнению с дискриминатором. Если дискриминатор остается постоянным, то оптимальный генератор будет выводить только элементы . [19] Так, например, если во время обучения GAN для генерации набора данных MNIST в течение нескольких эпох дискриминатор почему-то предпочитает цифру 0 немного больше, чем другие цифры, генератор может воспользоваться возможностью сгенерировать только цифру 0, а затем не сможет избежать локального минимума после улучшения дискриминатора.

Некоторые исследователи считают, что корень проблемы заключается в слабой дискриминационной сети, которая не замечает закономерностей упущений, в то время как другие возлагают вину на неправильный выбор целевой функции . Было предложено множество решений, но это все еще открытая проблема. [20] [21]

Даже самая современная архитектура BigGAN (2019) не смогла избежать коллапса режимов. Авторы прибегли к «допущению коллапса на более поздних этапах обучения, когда модель уже достаточно обучена для достижения хороших результатов». [22]

Правило обновления двух временных масштабов

Правило обновления двух временных масштабов (TTUR) предлагается для того, чтобы сделать сходимость GAN более стабильной, делая скорость обучения генератора ниже, чем скорость обучения дискриминатора. Авторы утверждали, что генератор должен двигаться медленнее, чем дискриминатор, чтобы он «не постоянно направлял дискриминатор в новые области, не захватывая собранную им информацию».

Они доказали, что общий класс игр, включающий игру GAN, при обучении под TTUR «сходится при мягких предположениях к стационарному локальному равновесию Нэша». [23]

Они также предложили использовать стохастическую оптимизацию Адама [24] , чтобы избежать коллапса режима, а также начальное расстояние Фреше для оценки производительности GAN.

Исчезающий градиент

И наоборот, если дискриминатор обучается слишком быстро по сравнению с генератором, то дискриминатор сможет почти идеально различать . В таком случае генератор может застрять с очень высокими потерями независимо от того, в каком направлении он меняет свое значение , а это означает, что градиент будет близок к нулю. В таком случае генератор не может обучаться, что является случаем проблемы исчезающего градиента . [15]

Интуитивно говоря, дискриминатор слишком хорош, и поскольку генератор не может сделать ни одного маленького шага (при градиентном спуске учитываются только маленькие шаги) для улучшения своего выигрыша, он даже не пытается.

Одним из важных методов решения этой проблемы является GAN Вассерштейна .

Оценка

GAN обычно оцениваются по начальному показателю (IS), который измеряет, насколько различаются выходные данные генератора (по классификации классификатора изображений, обычно Inception-v3 ), или по начальному расстоянию Фреше (FID), которое измеряет, насколько выходные данные генератора похожи на эталонный набор (классифицированный специалистом по изучению изображений, например Inception-v3, без его последнего слоя). Многие статьи, предлагающие новые архитектуры GAN для генерации изображений, сообщают, как их архитектуры ломают современное состояние FID или IS.

Другой метод оценки — это подобие изученных перцептивных изображений изображений (LPIPS), который начинается с определителя изученных изображений и настраивает его посредством контролируемого обучения на наборе , где находится изображение, является ли его искаженная версия и насколько они различаются, как сообщают люди. Модель точно настроена так, что может приближаться к . Эта точно настроенная модель затем используется для определения . [25]

Другие методы оценки рассмотрены в [26] .

Варианты

Существует настоящий зоопарк вариантов GAN. [27] Наиболее известные из них:

Условный ГАН

Условные GAN аналогичны стандартным GAN, за исключением того, что они позволяют модели условно генерировать выборки на основе дополнительной информации. Например, если мы хотим сгенерировать морду кошки по изображению собаки, мы можем использовать условный GAN.

Генератор в игре GAN генерирует распределение вероятностей в вероятностном пространстве . Это приводит к идее условного GAN, где вместо генерации одного распределения вероятностей на , генератор генерирует другое распределение вероятностей на , для каждой заданной метки класса .

Например, для создания изображений, которые выглядят как ImageNet , генератор должен иметь возможность генерировать изображение кошки, если ему присвоена метка класса «cat».

В оригинальной статье [3] авторы отметили, что GAN можно тривиально расширить до условного GAN, предоставив метки как генератору, так и дискриминатору.

Конкретно, условная игра GAN — это просто игра GAN с предоставленными метками классов:

В 2017 году условная GAN научилась генерировать 1000 классов изображений ImageNet . [28]

GAN с альтернативной архитектурой

Игра GAN представляет собой общую структуру и может быть запущена с любой разумной параметризацией генератора и дискриминатора . В оригинальной статье авторы продемонстрировали это с помощью многослойных перцептронных сетей и сверточных нейронных сетей . Было опробовано множество альтернативных архитектур.

Глубокая сверточная GAN (DCGAN): [29] Как для генератора, так и для дискриминатора используются только глубокие сети, состоящие полностью из слоев свертки-деконволюции, то есть полностью сверточные сети. [30]

GAN самообслуживания (SAGAN): [31] Начинается с DCGAN, затем к генератору и дискриминатору добавляются стандартные модули самообслуживания с остаточным подключением.

Вариационный автоэнкодер GAN (VAEGAN): [32] В качестве генератора используется вариационный автоэнкодер (VAE).

Трансформатор GAN (TransGAN): [33] Использует чистую архитектуру трансформатора как для генератора, так и для дискриминатора, полностью лишенную слоев свертки-деконволюции.

Flow-GAN: [34] Использует генеративную модель на основе потока для генератора, что позволяет эффективно вычислять функцию правдоподобия.

ГАНы с альтернативными целями

Многие варианты GAN получаются просто путем изменения функций потерь для генератора и дискриминатора.

Оригинальный ГАН:

Переделаем исходную цель GAN в более удобную для сравнения форму:

Исходный GAN, ненасыщающие потери:

Эта цель для генератора была рекомендована в исходной статье для более быстрой сходимости. [3]

[35]

Исходный ГАН, максимальная вероятность:

оценке максимального правдоподобиясамостоятельно[36] [37]

Потеря шарнира ГАН : [38]

ГАН наименьших квадратов: [39]

Вассерштейн ГАН (WGAN)

GAN Вассерштейна модифицирует игру GAN в двух моментах:

Одна из его целей — решить проблему коллапса мод (см. выше). [15] Авторы заявляют: «Ни в одном эксперименте мы не увидели свидетельств коллапса режима алгоритма WGAN».

GAN с более чем двумя игроками

Состязательный автоэнкодер

Состязательный автокодировщик (AAE) [40] является более автокодировщиком, чем GAN. Идея состоит в том, чтобы начать с простого автоэнкодера , но обучить дискриминатор отличать скрытые векторы от эталонного распределения (часто нормального распределения).

ИнфоГАН

В условном GAN генератор получает и вектор шума , и метку , и выдаёт изображение . Дискриминатор получает пары изображение-метка и вычисляет .

Когда набор обучающих данных не помечен, условный GAN не работает напрямую.

Идея InfoGAN состоит в том, чтобы объявить, что каждый скрытый вектор в скрытом пространстве может быть разложен на : часть несжимаемого шума и часть информативной метки , и побудить генератор соблюдать это указание, поощряя его максимизировать взаимную информацию. между и , не предъявляя при этом требований к взаимной информации между .

К сожалению, в целом это трудноразрешимо. Ключевая идея InfoGAN — это вариационная взаимная максимизация информации: [41] косвенно максимизируйте ее, максимизируя нижнюю границу.

ядра Маркова

Игра InfoGAN определяется следующим образом: [42]

Три вероятностных пространства определяют игру InfoGAN:

В двух командах участвуют 3 игрока: генератор, Q и дискриминатор. Генератор и Q находятся в одной команде, а дискриминатор — в другой.

Целевая функция

где находится исходная цель игры GAN и

Команда Generator-Q стремится минимизировать цель, а дискриминатор — максимизировать ее:

Двунаправленная ГАН (BiGAN)

Стандартный генератор GAN — это функция типа , то есть это отображение из скрытого пространства в пространство изображений . Это можно понимать как процесс «декодирования», при котором каждый скрытый вектор является кодом изображения , а генератор выполняет декодирование. Это естественным образом приводит к идее обучения другой сети, выполняющей «кодирование», создания автоэнкодера из пары кодер-генератор.

Уже в оригинальной статье [3] авторы отмечали, что «обученный приближенный вывод может быть выполнен путем обучения вспомогательной сети прогнозированию заданных данных ». Двунаправленная архитектура GAN выполняет именно это. [43]

BiGAN определяется следующим образом:

Два вероятностных пространства определяют игру BiGAN:

В двух командах участвуют 3 игрока: генератор, кодировщик и дискриминатор. Генератор и кодер находятся в одной команде, а дискриминатор — в другой.

Стратегии генератора — это функции , а стратегии кодировщика — это функции . Стратегии дискриминатора — это функции .

Целевая функция

Команда генератор-кодировщик стремится минимизировать цель, а дискриминатор — максимизировать ее:

В статье они дали более абстрактное определение цели:

продвижения вперед

Приложения двунаправленных моделей включают полуконтролируемое обучение , [44] интерпретируемое машинное обучение , [45] и нейронный машинный перевод . [46]

ЦиклГАН

CycleGAN — это архитектура для выполнения преобразований между двумя доменами, например, между фотографиями лошадей и фотографиями зебр или фотографиями ночных городов и фотографиями дневных городов.

Игра CycleGAN определяется следующим образом: [47]

Существует два вероятностных пространства , соответствующих двум областям, необходимым для прямых и обратных переводов.

В двух командах по 4 игрока: генераторы и дискриминаторы .

Целевая функция

где – положительный регулируемый параметр, – цель игры GAN, – потеря согласованности цикла :

Генераторы стремятся минимизировать цель, а дискриминаторы — максимизировать ее:

В отличие от предыдущей работы, такой как pix2pix, [48] , которая требует парных обучающих данных, для CyclGAN не требуются парные данные. Например, чтобы обучить модель pix2pix превращать фотографию летнего пейзажа в фотографию зимнего пейзажа и обратно, набор данных должен содержать пары одних и тех же мест летом и зимой, снятых под одним и тем же углом; CycleGAN потребуется только набор фотографий летних пейзажей и несвязанный набор фотографий зимних пейзажей.

ГАН особенно больших или малых масштабов

БигГАН

BigGAN, по сути, представляет собой GAN с самообслуживанием, обученную в большом масштабе (до 80 миллионов параметров) для создания больших изображений ImageNet (разрешение до 512 x 512) с многочисленными инженерными уловками для их сходимости. [22] [49]

Обратимое увеличение данных

Когда данных для обучения недостаточно, эталонное распределение не может быть хорошо аппроксимировано эмпирическим распределением , заданным набором обучающих данных. В таких случаях можно применить увеличение данных , чтобы обеспечить обучение GAN на меньших наборах данных. Однако наивное увеличение данных приносит свои проблемы.

Рассмотрим оригинальную игру GAN, слегка переформулированную следующим образом:

Результатом такого обучения будет генератор, имитирующий . Например, он будет генерировать изображения, которые выглядят так, как будто они случайно обрезаны, если при дополнении данных используется случайное кадрирование.

Решение состоит в том, чтобы применить увеличение данных как к сгенерированным, так и к реальным изображениям:

[50]

В документе StyleGAN-2-ADA указывается еще на один момент увеличения данных: оно должно быть обратимым . [51] Продолжим пример создания изображений ImageNet. Если увеличение данных заключается в «произвольном повороте изображения на 0, 90, 180, 270 градусов с равной вероятностью » , то генератор не сможет узнать, какая ориентация является истинной: рассмотрим два генератора , такие, что для любого скрытого сгенерированное изображение представляет собой поворот на 90 градусов . У них будут совершенно одинаковые ожидаемые потери, и поэтому ни один из них не является предпочтительным перед другим.

Решение состоит в том, чтобы использовать только обратимое увеличение данных: вместо «произвольно повернуть изображение на 0, 90, 180, 270 градусов с равной вероятностью» использовать «случайно повернуть изображение на 90, 180, 270 градусов с вероятностью 0,1 и оставить картина такая, какая она есть с вероятностью 0,7". Таким образом, генератор по-прежнему получает вознаграждение за то, что изображения ориентированы так же, как и нерасширенные изображения ImageNet.

Абстрактно, эффект случайных преобразований выборки из распределения заключается в определении ядра Маркова . Затем игра GAN, дополненная данными, заставляет генератор найти некоторые , такие, что

свертка ядра Марковаесли

Есть два прототипных примера обратимых ядер Маркова:

Дискретный случай : обратимые стохастические матрицы , когда конечно.

Например, если это набор из четырех изображений стрелки, указывающей в 4 направлениях, и увеличение данных: «случайно повернуть изображение на 90, 180, 270 градусов с вероятностью и сохранить изображение таким, какое оно есть с вероятностью », тогда ядро ​​Маркова можно представить в виде стохастической матрицы:

Непрерывный случай : Гауссово ядро, когда для некоторых .

Например, если это пространство изображений размером 256x256, а метод увеличения данных — «сгенерировать гауссовский шум , а затем добавить к изображению», то это просто свертка с помощью функции плотности . Это обратимо, потому что свертка по гауссу — это всего лишь свертка по тепловому ядру , поэтому при любом свёрнутом распределении можно получить нагрев точно по , а затем подождать некоторое время . При этом мы можем восстановиться , выполнив уравнение теплопроводности назад во времени для .

Дополнительные примеры обратимого увеличения данных можно найти в статье. [51]

СинГАН

SinGAN доводит увеличение данных до предела, используя только одно изображение в качестве обучающих данных и выполняя на нем увеличение данных. Архитектура GAN адаптирована к этому методу обучения с помощью многомасштабного конвейера.

Генератор разбивается на пирамиду генераторов , причем самый низкий генерирует изображение с наименьшим разрешением, затем сгенерированное изображение масштабируется до и подается на следующий уровень для генерации изображения с более высоким разрешением и так далее. Дискриминатор также разбивается на пирамиду. [52]

Серия StyleGAN

Семейство StyleGAN — это серия архитектур, опубликованная исследовательским подразделением Nvidia .

Прогрессивный ГАН

Прогрессивная GAN [16] — это метод обучения GAN для стабильной генерации крупномасштабных изображений путем увеличения генератора GAN от малого до большого размера по пирамидальной схеме. Как и SinGAN, он разлагает генератор как , а дискриминатор как .

Во время обучения сначала в игре GAN используются только изображения размером 4х4. Затем добавляются для достижения второго этапа игры GAN, для генерации изображений 8x8 и так далее, пока мы не достигнем игры GAN для генерации изображений 1024x1024.

Чтобы избежать шока между этапами игры GAN, каждый новый слой «вмешивается» (рис. 2 статьи [16] ). Например, вот как начинается игра GAN второго этапа:

СтильГАН-1

Основная архитектура StyleGAN-1 и StyleGAN-2

StyleGAN-1 спроектирован как комбинация Progressive GAN с нейронной передачей стилей . [53]

Ключевым архитектурным выбором StyleGAN-1 является механизм прогрессивного роста, аналогичный Progressive GAN. Каждое сгенерированное изображение начинается как постоянный массив и неоднократно проходит через блоки стилей. Каждый блок стиля применяет «скрытый вектор стиля» посредством аффинного преобразования («адаптивная нормализация экземпляра»), аналогично тому, как нейронная передача стиля использует матрицу Грамиана . Затем он добавляет шум и нормализует (вычитает среднее значение, затем делит на дисперсию).

Во время обучения обычно для каждого сгенерированного изображения используется только один скрытый вектор стиля, но иногда и два («регуляризация смешивания»), чтобы стимулировать каждый блок стиля независимо выполнять свою стилизацию, не ожидая помощи от других блоков стиля (поскольку они могут получить скрытый вектор совершенно другого стиля).

После обучения в каждый блок стиля можно ввести несколько скрытых векторов стиля. Те, которые подаются на нижние уровни, управляют крупномасштабными стилями, а те, которые подаются на более высокие уровни, управляют стилями с мелкими деталями.

Также можно выполнить смешивание стилей между двумя изображениями . Сначала запустите градиентный спуск, чтобы найти такое, что . Это называется «проецированием изображения обратно в скрытое пространство стиля». Затем его можно передать в блоки нижнего стиля и в блоки более высокого стиля для создания составного изображения с крупномасштабным стилем и стилем с мелкими деталями . Таким же образом можно составить несколько изображений.

СтильГАН-2

StyleGAN-2 является усовершенствованием StyleGAN-1, используя вместо этого скрытый вектор стиля для преобразования весов слоя свертки, тем самым решая проблему «капли». [54]

Это было обновлено StyleGAN-2-ADA («ADA» означает «адаптивный») [51] , который использует обратимое увеличение данных, как описано выше. Он также настраивает объем применяемого увеличения данных, начиная с нуля и постепенно увеличивая его до тех пор, пока «эвристика переобучения» не достигнет целевого уровня, отсюда и название «адаптивный».

СтильГАН-3

StyleGAN-3 [55] совершенствует StyleGAN-2, решая проблему «прилипания текстур», которую можно увидеть в официальных видеороликах. [56] Они проанализировали проблему с помощью теоремы выборки Найквиста-Шеннона и заявили, что слои генератора научились использовать высокочастотный сигнал в пикселях, с которыми они работают.

Чтобы решить эту проблему, они предложили установить строгие фильтры нижних частот между слоями каждого генератора, чтобы генератор был вынужден работать с пикселями точно так же, как непрерывные сигналы, которые они представляют, а не работать с ними как с просто дискретными сигналами. Они дополнительно обеспечили вращательную и трансляционную инвариантность, используя больше фильтров сигналов . Получившийся StyleGAN-3 способен решить проблему прилипания текстур, а также генерировать изображения, которые плавно вращаются и перемещаются.

Приложения

Приложения GAN быстро развиваются. [57]

Мода, искусство и реклама

GAN можно использовать для создания произведений искусства; В марте 2019 года издание The Verge написало: «Изображения, созданные с помощью GAN, стали определяющим обликом современного искусства искусственного интеллекта». [58] GAN также можно использовать для раскрашивания фотографий [59] или создания фотографий воображаемых манекенщиц без необходимости нанимать модель, фотографа или визажиста или платить за студию и транспорт. [60] GAN также использовались для генерации виртуальных теней. [61]

Интерактивные медиа

В 2020 году Artbreeder использовался для создания главного антагониста в продолжении психологического веб-хоррора « Бен утонул» . Позже автор похвалил приложения GAN за их способность создавать ресурсы для независимых артистов, испытывающих недостаток бюджета и рабочей силы. [62] [63]

Наука

GAN могут улучшить астрономические изображения [64] и имитировать гравитационное линзирование для исследования темной материи. [65] [66] [67] Они использовались в 2019 году для успешного моделирования распределения темной материи в определенном направлении в космосе и для предсказания гравитационного линзирования, которое произойдет. [68] [69]

GAN были предложены как быстрый и точный способ моделирования формирования струй высоких энергий [70] и моделирования ливней с помощью калориметров в экспериментах по физике высоких энергий . [71] [72] [73] [74] GAN также были обучены точно аппроксимировать узкие места в дорогостоящем с точки зрения вычислений моделировании экспериментов по физике элементарных частиц. Применение в контексте нынешних и предлагаемых экспериментов ЦЕРН продемонстрировало потенциал этих методов для ускорения моделирования и/или повышения точности моделирования. [75] [76]

Видеоигры

В 2018 году GAN достигли сообщества моддеров видеоигр как метод масштабирования 2D-текстур низкого разрешения в старых видеоиграх путем воссоздания их в разрешении 4K или выше посредством обучения изображений, а затем уменьшения их дискретизации, чтобы они соответствовали исходному коду игры. разрешение (с результатами, напоминающими метод сглаживания суперсэмплинга ) . [77] При правильном обучении GAN обеспечивают более четкое и четкое 2D-изображение текстуры, качество которого выше, чем у оригинала, при этом полностью сохраняя исходный уровень детализации, цветов и т. д. Известные примеры широкого использования GAN включают Final Fantasy VIII , Final Fantasy. IX , Resident Evil REmake HD Remaster и Max Payne . [ нужна цитата ]

Видео, созданное искусственным интеллектом

Искусство искусственного интеллекта для видео использует ИИ для создания видео из текста в виде модели преобразования текста в видео [78]

Синтез звука

Генеративное аудио относится к созданию аудиофайлов из баз данных аудиоклипов . [ нужна цитация ] Эта технология отличается от голосов искусственного интеллекта, таких как Siri от Apple или Alexa от Amazon , которые используют коллекцию фрагментов, которые сшиваются вместе по требованию.

Аудио кривые
Генеративное аудио работает с использованием нейронных сетей для изучения статистических свойств источника звука, а затем воспроизводит эти свойства. [79]

Опасения по поводу вредоносных приложений

Изображение, созданное StyleGAN , которое обманчиво похоже на фотографию реального человека. Это изображение было создано StyleGAN на основе анализа портретов.
Еще один пример портрета, созданного GAN.

Высказывались опасения по поводу потенциального использования синтеза изображений человека на основе GAN в зловещих целях, например, для создания поддельных, возможно, компрометирующих фотографий и видео. [80] GAN можно использовать для создания уникальных, реалистичных фотографий профилей несуществующих людей, чтобы автоматизировать создание фейковых профилей в социальных сетях. [81]

В 2019 году штат Калифорния рассмотрел [82] и принял 3 октября 2019 года законопроект AB-602, запрещающий использование технологий синтеза изображений человека для изготовления фейковой порнографии без согласия изображенных людей, и законопроект AB-730. , который запрещает распространение сфальсифицированных видеороликов политического кандидата в течение 60 дней после выборов. Оба законопроекта были написаны членом Ассамблеи Марком Берманом и подписаны губернатором Гэвином Ньюсомом . Законы вступили в силу в 2020 году. [83]

Программа DARPA Media Forensics изучает способы противодействия фейковым СМИ, в том числе фейковым СМИ, созданным с использованием GAN. [84]

Трансферное обучение

Современные исследования в области трансферного обучения используют GAN для обеспечения выравнивания пространства скрытых функций, например, при глубоком обучении с подкреплением. [85] Это работает путем передачи вложений исходной и целевой задачи дискриминатору, который пытается угадать контекст. Результирующие потери затем (обратно) распространяются через кодер.

Разные приложения

GAN можно использовать для обнаружения глаукомных изображений, что помогает в ранней диагностике, что важно для предотвращения частичной или полной потери зрения. [86]

GAN, создающие фотореалистичные изображения, можно использовать для визуализации дизайна интерьера , промышленного дизайна , обуви, [87] сумок и предметов одежды или предметов для сцен компьютерных игр . [ нужна цитация ] Сообщается, что такие сети используются Facebook . [88]

GAN использовались для создания судебно-медицинских реконструкций лиц умерших исторических деятелей. [89]

GAN могут реконструировать 3D-модели объектов по изображениям , [90] генерировать новые объекты в виде 3D-облаков точек [91] и моделировать модели движения в видео. [92]

GAN можно использовать для определения возраста фотографий лица, чтобы показать, как внешний вид человека может измениться с возрастом. [93]

GAN также можно использовать для добавления недостающих объектов на карты, переноса стилей карт в картографию [94] или дополнения изображений улиц. [95]

Соответствующая обратная связь по GAN может использоваться для создания изображений и замены систем поиска изображений. [96]

Разновидность GAN используется при обучении сети для генерации оптимальных управляющих входных данных для нелинейных динамических систем . Дискриминационная сеть известна как критик, проверяющий оптимальность решения, а генеративная сеть известна как адаптивная сеть, которая генерирует оптимальное управление. Критик и адаптивная сеть обучают друг друга аппроксимации нелинейного оптимального управления. [97]

GAN использовались для визуализации влияния изменения климата на конкретные дома. [98]

Модель GAN под названием Speech2Face может реконструировать изображение лица человека после прослушивания его голоса. [99]

В 2016 году GAN были использованы для создания новых молекул для различных белков-мишеней, участвующих в развитии рака, воспаления и фиброза. В 2019 году молекулы, созданные с помощью GAN, были экспериментально проверены на мышах. [100] [101]

Хотя большинство приложений GAN предназначены для обработки изображений, работа также ведется с данными временных рядов. Например, повторяющиеся GAN (R-GAN) использовались для генерации данных об энергии для машинного обучения. [102]

История

В 1991 году Юрген Шмидхубер опубликовал генеративные и состязательные нейронные сети , которые соревнуются друг с другом в форме игры с нулевой суммой , где выигрыш одной сети является проигрышем другой сети. [103] [104] [105] Первая сеть представляет собой генеративную модель со стохастичностью , которая моделирует распределение вероятностей по шаблонам выходных данных. Вторая сеть учится с помощью градиентного спуска предсказывать реакцию окружающей среды на эти закономерности. Это называлось «искусственным любопытством». Для современных GAN (2014), [3] реакция окружающей среды равна 1 или 0 в зависимости от того, находится ли выход первой сети в данном наборе. [105]

У других людей были схожие идеи, но они не развивались аналогичным образом. Идея использования состязательных сетей была опубликована в блоге Олли Ниемитало в 2010 году. [106] Эта идея никогда не была реализована и не включала стохастичность в генераторе и, следовательно, не была генеративной моделью. Теперь он известен как условный GAN или cGAN. [107] Идея, аналогичная GAN, была использована для моделирования поведения животных Ли, Гаучи и Гроссом в 2013 году. [108]

Еще одним источником вдохновения для GAN стала оценка контрастности шума [109] , которая использует ту же функцию потерь, что и GAN, и которую Гудфеллоу изучал во время своей докторской диссертации в 2010–2014 годах.

Состязательное машинное обучение имеет и другие применения, помимо генеративного моделирования, и может применяться к моделям, отличным от нейронных сетей. В теории управления состязательное обучение на основе нейронных сетей использовалось в 2006 году для обучения надежных контроллеров в теоретико-игровом смысле путем чередования итераций между политикой минимизации (контроллер) и политикой максимизации (возмущение). [110] [111]

В 2017 году GAN использовался для улучшения изображения с упором на реалистичные текстуры, а не на точность пикселей, обеспечивая более высокое качество изображения при большом увеличении. [112] В 2017 году появились первые лица. [113] Они были выставлены в феврале 2018 года в Гран-Пале. [114] [115] Лица, созданные StyleGAN [116] в 2019 году, сравнивались с Deepfakes . [117] [118] [119]

Начиная с 2017 года технология GAN начала завоевывать свое присутствие на арене изобразительного искусства с появлением недавно разработанной реализации, которая, как утверждается, преодолела порог возможности создания уникальных и привлекательных абстрактных картин и, таким образом, получила название «CAN». ", для "творческой состязательной сети". [120] Система GAN использовалась для создания картины «Эдмон де Белами» 2018 года , которая была продана за 432 500 долларов США. [121] В статье, опубликованной в начале 2019 года членами первоначальной команды CAN, обсуждался дальнейший прогресс в этой системе, а также рассматривались общие перспективы искусства с поддержкой ИИ. [122]

В мае 2019 года исследователи из Samsung продемонстрировали систему на основе GAN, которая создает видео говорящего человека, имея только одну фотографию этого человека. [123]

В августе 2019 года был создан большой набор данных, состоящий из 12 197 MIDI-песен, каждая из которых имеет парные тексты и выравнивание мелодий, для нейронной генерации мелодий из текстов с использованием условного GAN-LSTM (см. источники на GitHub AI Melody Generation from Lyrics). [124]

В мае 2020 года исследователи Nvidia научили систему искусственного интеллекта (названную «GameGAN») воссоздавать игру Pac-Man , просто наблюдая за ее игрой. [125] [126]

Рекомендации

  1. ^ «Генераторный ИИ и будущее». 15 ноября 2022 г.
  2. ^ "CSDL | Компьютерное общество IEEE" .
  3. ^ abcdefghij Гудфеллоу, Ян; Пуже-Абади, Жан; Мирза, Мехди; Сюй, Бин; Вард-Фарли, Дэвид; Озаир, Шерджил; Курвиль, Аарон; Бенджио, Йошуа (2014). Генеративно-состязательные сети (PDF) . Материалы Международной конференции по нейронным системам обработки информации (NIPS 2014). стр. 2672–2680.
  4. ^ Салиманс, Тим; Гудфеллоу, Ян; Заремба, Войцех; Чунг, Вики; Рэдфорд, Алек; Чен, Си (2016). «Улучшенные методы обучения GAN». arXiv : 1606.03498 [cs.LG].
  5. ^ Изола, Филипп; Чжу, Цзюнь-Янь; Чжоу, Тинхуэй; Эфрос, Алексей (2017). «Перевод изображения в изображение с помощью условных состязательных сетей». Компьютерное зрение и распознавание образов .
  6. ^ Хо, Джонатон; Эрмон, Стефано (2016). «Генераторно-состязательное имитационное обучение». Достижения в области нейронных систем обработки информации . 29 : 4565–4573. arXiv : 1606.03476 .
  7. ^ «Ванильный GAN (GAN в компьютерном зрении: Введение в генеративное обучение)» . theaisummer.com . ИИ Лето. 10 апреля 2020 года. Архивировано из оригинала 3 июня 2020 года . Проверено 20 сентября 2020 г.
  8. ^ Люк, Полина; Купри, Камилла; Чинтала, Сумит; Вербек, Якоб (25 ноября 2016 г.). «Семантическая сегментация с использованием состязательных сетей». Семинар NIPS по состязательным тренировкам, декабрь, Барселона, Испания . 2016 . arXiv : 1611.08408 .
  9. ^ Андрей Карпаты ; Питер Аббель ; Грег Брокман; Питер Чен; Вики Чунг; Рокки Дуан; Ян Гудфеллоу; Дурк Кингма; Джонатан Хо; Рейн Хаутхофт; Тим Салиманс; Джон Шульман; Илья Суцкевер; Войцех Заремба, Генеративные модели, OpenAI , получено 7 апреля 2016 г.
  10. ^ Мохамед, Шакир; Лакшминараянан, Баладжи (2016). «Обучение в неявных генеративных моделях». arXiv : 1610.03483 [stat.ML].
  11. ^ аб Гудфеллоу, Ян (3 апреля 2017 г.). «Учебное пособие NIPS 2016: Генеративно-состязательные сети». arXiv : 1701.00160 [cs.LG].
  12. ^ Кингма, Дидерик П.; Веллинг, Макс (1 мая 2014 г.). «Автокодирование вариационного Байеса». arXiv : 1312.6114 [stat.ML].
  13. ^ Резенде, Данило Хименес; Мохамед, Шакир; Виерстра, Даан (18 июня 2014 г.). «Стохастическое обратное распространение ошибки и приближенный вывод в глубоких генеративных моделях». Международная конференция по машинному обучению . ПМЛР: 1278–1286. arXiv : 1401.4082 .
  14. ^ аб Фарния, Фарзан; Оздаглар, Асуман (21 ноября 2020 г.). «Всегда ли GAN имеют равновесие Нэша?». Международная конференция по машинному обучению . ПМЛР: 3029–3039.
  15. ↑ abc Венг, Лилиан (18 апреля 2019 г.). «От ГАН до ВГАН». arXiv : 1904.08994 [cs.LG].
  16. ^ abc Каррас, Теро; Айла, Тимо; Лайне, Самули; Лехтинен, Яакко (1 октября 2017 г.). «Прогрессивное развитие GAN для повышения качества, стабильности и разнообразия». arXiv : 1710.10196 [cs.NE].
  17. ^ Совяны, Петру; Ардей, Клаудиу; Ионеску, Раду Тудор; Леордеану, Мариус (22 октября 2019 г.). «Учебная программа по сложности изображений для генеративно-состязательных сетей (CuGAN)». arXiv : 1910.08967 [cs.LG].
  18. ^ Хакоэн, Гай; Вайншалл, Дафна (24 мая 2019 г.). «О силе обучения по учебной программе при обучении глубоких сетей». Международная конференция по машинному обучению . ПМЛР: 2535–2544. arXiv : 1904.03626 .
  19. ^ «r/MachineLearning — Комментарий пользователя u/ian_goodfellow к «[R] [1701.07875] Wasserstein GAN». Reddit . 30 января 2017 г. Проверено 15 июля 2022 г.
  20. ^ Лин, Зинан; и другие. (декабрь 2018 г.). PacGAN: сила двух выборок в генеративно-состязательных сетях. 32-я Международная конференция по нейронным системам обработки информации. стр. 1505–1514. arXiv : 1712.04086 .
  21. ^ Мешедер, Ларс; Гейгер, Андреас; Новозин, Себастьян (31 июля 2018 г.). «Какие методы обучения GAN действительно сходятся?». arXiv : 1801.04406 [cs.LG].
  22. ^ Аб Брок, Эндрю; Донахью, Джефф; Симонян, Карен (1 сентября 2018 г.). Крупномасштабное обучение GAN для синтеза высококачественных естественных изображений. Международная конференция по обучению представлений 2019. arXiv : 1809.11096 .
  23. ^ Хойзель, Мартин; Рамзауэр, Хуберт; Унтертинер, Томас; Несслер, Бернхард; Хохрейтер, Зепп (2017). «GAN, обученные по правилу обновления в двух временных масштабах, сходятся к локальному равновесию Нэша». Достижения в области нейронных систем обработки информации . Карран Ассошиэйтс, Инк. 30 . arXiv : 1706.08500 .
  24. ^ Кингма, Дидерик П.; Ба, Джимми (29 января 2017 г.). «Адам: метод стохастической оптимизации». arXiv : 1412.6980 [cs.LG].
  25. ^ Чжан, Ричард; Изола, Филипп; Эфрос, Алексей А.; Шехтман, Эли; Ван, Оливер (2018). «Необоснованная эффективность глубоких функций как показателя восприятия». стр. 586–595. arXiv : 1801.03924 [cs.CV].
  26. Борджи, Али (1 февраля 2019 г.). «Плюсы и минусы мер оценки GAN». Компьютерное зрение и понимание изображений . 179 : 41–65. arXiv : 1802.03446 . doi :10.1016/j.cviu.2018.10.009. ISSN  1077-3142. S2CID  3627712.
  27. Хиндупур, Авинаш (15 июля 2022 г.), Зоопарк GAN , получено 15 июля 2022 г.
  28. ^ Одена, Август; Ола, Кристофер; Шленс, Джонатон (17 июля 2017 г.). «Синтез условного изображения с помощью вспомогательных классификаторов GAN». Международная конференция по машинному обучению . ПМЛР: 2642–2651. arXiv : 1610.09585 .
  29. ^ Рэдфорд, Алек; Мец, Люк; Чинтала, Сумит (2016). «Обучение представлению без учителя с помощью глубоких сверточных генеративно-состязательных сетей». ИКЛР . S2CID  11758569.
  30. ^ Лонг, Джонатан; Шелхамер, Эван; Даррелл, Тревор (2015). «Полностью сверточные сети для семантической сегментации». КВФ : 3431–3440.
  31. ^ Чжан, Хан; Гудфеллоу, Ян; Метаксас, Димитрис; Одена, Август (24 мая 2019 г.). «Генераторно-состязательные сети самовнимания». Международная конференция по машинному обучению . ПМЛР: 7354–7363.
  32. ^ Ларсен, Андерс Боесен Линдбо; Сёндербю, Сорен Кааэ; Ларошель, Хьюго; Винтер, Оле (11 июня 2016 г.). «Автокодирование за пределами пикселей с использованием изученной метрики сходства». Международная конференция по машинному обучению . ПМЛР: 1558–1566. arXiv : 1512.09300 .
  33. ^ Цзян, Ифань; Чанг, Шию; Ван, Чжанъян (8 декабря 2021 г.). «TransGAN: два чистых трансформатора могут создать один мощный GAN, и его можно масштабировать». arXiv : 2102.07074 [cs.CV].
  34. ^ Гровер, Адитья; Дхар, Маник; Эрмон, Стефано (1 мая 2017 г.). «Flow-GAN: сочетание максимального правдоподобия и состязательного обучения в генеративных моделях». arXiv : 1705.08868 [cs.LG].
  35. ^ Арджовский, Мартин; Ботту, Леон (1 января 2017 г.). «К принципиальным методам обучения генеративно-состязательных сетей». arXiv : 1701.04862 [stat.ML].
  36. Гудфеллоу, Ян Дж. (1 декабря 2014 г.). «О критериях различимости оценки генеративных моделей». arXiv : 1412.6515 [stat.ML].
  37. Гудфеллоу, Ян (31 августа 2016 г.). «Генераторно-состязательные сети (GAN), презентация в Лаборатории искусственного интеллекта Беркли» (PDF) . Архивировано (PDF) из оригинала 8 мая 2022 г.
  38. ^ Лим, Джэ Хён; Йе, Чон Чхоль (8 мая 2017 г.). «Геометрический ГАН». arXiv : 1705.02894 [stat.ML].
  39. ^ Мао, Сюйдун; Ли, Цин; Се, Хаоран; Лау, Раймонд Ю.К.; Ван, Чжэнь; Пол Смолли, Стивен (2017). «Генераторно-состязательные сети метода наименьших квадратов»: 2794–2802. {{cite journal}}: Требуется цитировать журнал |journal=( помощь )
  40. ^ Махзани, Алиреза; Шленс, Джонатон; Джейтли, Навдип; Гудфеллоу, Ян ; Фрей, Брендан (2016). «Состязательные автоэнкодеры». arXiv : 1511.05644 [cs.LG].
  41. ^ Барбер, Дэвид; Агаков, Феликс (9 декабря 2003 г.). «Алгоритм IM: вариационный подход к максимизации информации». Материалы 16-й Международной конференции по нейронным системам обработки информации . НИПС'03. Кембридж, Массачусетс, США: MIT Press: 201–208.
  42. ^ Чен, Си; Дуань, Ян; Хаутхофт, Рейн; Шульман, Джон; Суцкевер, Илья; Аббель, Питер (2016). «InfoGAN: обучение интерпретируемому представлению с помощью генеративно-состязательных сетей, максимизирующих информацию». Достижения в области нейронных систем обработки информации . Карран Ассошиэйтс, Инк. 29 . arXiv : 1606.03657 .
  43. ^ Донахью, Джефф; Креэнбюль, Филипп; Даррелл, Тревор (2016). «Состязательное обучение функциям». arXiv : 1605.09782 [cs.LG].
  44. ^ Дюмулен, Винсент; Белгази, Измаил; Пул, Бен; Мастропьетро, ​​Оливье; Арджовский, Алекс; Курвиль, Аарон (2016). «Состязательно полученный вывод». arXiv : 1606.00704 [stat.ML].
  45. ^ Си Чен; Ян Дуань; Рейн Хаутхофт; Джон Шульман; Илья Суцкевер ; Питер Абиль (2016). «InfoGAN: обучение интерпретируемому представлению с помощью генеративно-состязательных сетей, максимизирующих информацию». arXiv : 1606.03657 [cs.LG].
  46. ^ Жируй Чжан; Шуцзе Лю; Му Ли; Мин Чжоу; Энхун Чен (октябрь 2018 г.). «Двунаправленные генеративно-состязательные сети для нейронного машинного перевода» (PDF) . стр. 190–199.
  47. ^ Чжу, Цзюнь-Янь; Пак, Тэсон; Изола, Филипп; Эфрос, Алексей А. (2017). «Непарный перевод изображений в изображения с использованием циклически-согласованных состязательных сетей». стр. 2223–2232. arXiv : 1703.10593 [cs.CV].
  48. ^ Изола, Филипп; Чжу, Цзюнь-Янь; Чжоу, Тинхуэй; Эфрос, Алексей А. (2017). «Перевод изображений в изображения с использованием условно-состязательных сетей». стр. 1125–1134. arXiv : 1611.07004 [cs.CV].
  49. Браунли, Джейсон (22 августа 2019 г.). «Нежное введение в BigGAN, большую генеративно-состязательную сеть». Мастерство машинного обучения . Проверено 15 июля 2022 г.
  50. ^ Шэнъюй, Чжао; Чжицзянь, Лю; Цзи, Линь; Цзюнь-Янь, Чжу; Сон, Хан (2020). «Дифференцируемое увеличение для эффективного обучения GAN». Достижения в области нейронных систем обработки информации . 33 . arXiv : 2006.10738 .
  51. ^ abc Теро, Каррас; Миика, Айттала; Янне, Хеллстен; Самули, Лайне; Яакко, Лехтинен; Тимо, Айла (2020). «Обучение генеративно-состязательных сетей с ограниченными данными». Достижения в области нейронных систем обработки информации . 33 .
  52. ^ Шахам, Тамар Ротт; Декель, Тали; Михаэли, Томер (октябрь 2019 г.). «SinGAN: изучение генеративной модели на основе одного естественного изображения». Международная конференция IEEE/CVF по компьютерному зрению (ICCV) 2019 . IEEE. стр. 4569–4579. arXiv : 1905.01164 . дои : 10.1109/iccv.2019.00467. ISBN 978-1-7281-4803-8. S2CID  145052179.
  53. ^ Каррас, Теро; Лайне, Самули; Айла, Тимо (июнь 2019 г.). «Архитектура генератора на основе стилей для генеративно-состязательных сетей». Конференция IEEE/CVF 2019 по компьютерному зрению и распознаванию образов (CVPR) . IEEE. стр. 4396–4405. arXiv : 1812.04948 . дои : 10.1109/cvpr.2019.00453. ISBN 978-1-7281-3293-8. S2CID  54482423.
  54. ^ Каррас, Теро; Лайне, Самули; Айттала, Миика; Хеллстен, Янне; Лехтинен, Яакко; Айла, Тимо (июнь 2020 г.). «Анализ и улучшение качества изображения StyleGAN». Конференция IEEE/CVF 2020 года по компьютерному зрению и распознаванию образов (CVPR) . IEEE. стр. 8107–8116. arXiv : 1912.04958 . doi : 10.1109/cvpr42600.2020.00813. ISBN 978-1-7281-7168-5. S2CID  209202273.
  55. Тимо, Каррас, Теро Айттала, Миика Лайне, Самули Харконен, Эрик Хеллстен, Янне Лехтинен, Яакко Айла (23 июня 2021 г.). Генеративно-состязательные сети без псевдонимов. ОСЛК  1269560084.{{cite book}}: CS1 maint: multiple names: authors list (link)
  56. ^ Каррас, Теро; Айттала, Миика; Лайне, Самули; Харконен, Эрик; Хеллстен, Янне; Лехтинен, Яакко; Айла, Тимо. «Генераторно-состязательные сети без псевдонимов (StyleGAN3)». nvlabs.github.io . Проверено 16 июля 2022 г.
  57. Цезарь, Хольгер (1 марта 2019 г.), Список статей о генеративно-состязательных (нейронных) сетях: nightrome/really-awesome-gan , получено 2 марта 2019 г.
  58. Винсент, Джеймс (5 марта 2019 г.). «Бесконечный поток произведений искусства искусственного интеллекта выставлен на аукцион». Грань . Проверено 13 июня 2020 г.
  59. ^ Ю, Цзяхуэй и др. «Генеративное рисование изображений с контекстуальным вниманием». Материалы конференции IEEE по компьютерному зрению и распознаванию образов. 2018.
  60. ^ Вонг, Сиси. «Восстание супермоделей искусственного интеллекта». Тенденции CDO .
  61. ^ Таиф, К.; Угайл, Х.; Мехмуд, И. (2020). «Генерация отбрасываемых теней с использованием генеративно-состязательных сетей». Вычислительная наука – ICCS 2020 . Конспекты лекций по информатике. Том. 12141. стр. 481–495. дои : 10.1007/978-3-030-50426-7_36. ISBN 978-3-030-50425-0. ПМК  7302543 .
  62. Аллен, Эрик Ван (8 июля 2020 г.). «Печально известная сага о крипипасте Zelda использует искусственный интеллект для создания финала» . СШАгеймер . Проверено 7 ноября 2022 г.
  63. ^ аркадная атака (28 сентября 2020 г.). «Подкаст Arcade Attack – сентябрь (4 из 4) 2020 г. – Алекс Холл (Бен утонул) – Интервью». Аркадная атака . Проверено 7 ноября 2022 г.
  64. ^ Шавински, Кевин; Чжан, Се; Чжан, Ханьтянь; Фаулер, Лукас; Сантанам, Гокула Кришнан (1 февраля 2017 г.). «Генеративно-состязательные сети восстанавливают особенности астрофизических изображений галактик за пределами предела деконволюции». Ежемесячные уведомления Королевского астрономического общества: письма . 467 (1): Л110–Л114. arXiv : 1702.00403 . Бибкод : 2017MNRAS.467L.110S. doi : 10.1093/mnrasl/slx008. S2CID  7213940.
  65. ^ Кинкейд, Кэти. «Исследователи обучают нейронную сеть изучению темной материи». Журнал НИОКР.
  66. Кинкейд, Кэти (16 мая 2019 г.). «CosmoGAN: Обучение нейронной сети изучению темной материи». Физика.орг .
  67. ^ «Обучение нейронной сети изучению темной материи» . Наука Дейли . 16 мая 2019 г.
  68. в 06:13, Катянна Куах, 20 мая 2019 г. «Космобоффины используют нейронные сети для простого построения карт темной материи». www.theregister.co.uk . Проверено 20 мая 2019 г.{{cite web}}: CS1 maint: numeric names: authors list (link)
  69. ^ Мустафа, Мустафа; Бард, Дебора; Бхимджи, Вахид; Лукич, Зария; Аль-Рфу, Рами; Краточвил, Ян М. (6 мая 2019 г.). «CosmoGAN: создание высокоточных карт конвергенции слабого линзирования с использованием генеративно-состязательных сетей». Вычислительная астрофизика и космология . 6 (1): 1. arXiv : 1706.02390 . Бибкод : 2019ComAC...6....1M. дои : 10.1186/s40668-019-0029-9 . ISSN  2197-7909. S2CID  126034204.
  70. ^ Паганини, Микела; де Оливейра, Люк; Нахман, Бенджамин (2017). «Изучение физики элементарных частиц на примере: генеративно-состязательные сети с учетом местоположения для физического синтеза». Вычисления и программное обеспечение для большой науки . 1 : 4. arXiv : 1701.05927 . Бибкод : 2017arXiv170105927D. дои : 10.1007/s41781-017-0004-6. S2CID  88514467.
  71. ^ Паганини, Микела; де Оливейра, Люк; Нахман, Бенджамин (2018). «Ускорение науки с помощью генеративно-состязательных сетей: приложение к трехмерным потокам частиц в многослойных калориметрах». Письма о физических отзывах . 120 (4): 042003. arXiv : 1705.02355 . Бибкод : 2018PhRvL.120d2003P. doi :10.1103/PhysRevLett.120.042003. PMID  29437460. S2CID  3330974.
  72. ^ Паганини, Микела; де Оливейра, Люк; Нахман, Бенджамин (2018). «CaloGAN: трехмерное моделирование ливней частиц высокой энергии в многослойных электромагнитных калориметрах с генеративно-состязательными сетями». Физ. Преподобный Д. 97 (1): 014021. arXiv : 1712.10321 . Бибкод : 2018PhRvD..97a4021P. doi : 10.1103/PhysRevD.97.014021. S2CID  41265836.
  73. ^ Эрдманн, Мартин; Гломбица, Йонас; Кваст, Торбен (2019). «Точное моделирование ливней электромагнитного калориметра с использованием генеративно-состязательной сети Вассерштейна». Вычисления и программное обеспечение для большой науки . 3 : 4. arXiv : 1807.01954 . дои : 10.1007/s41781-018-0019-7. S2CID  54216502.
  74. ^ Муселла, Паскуале; Пандольфи, Франческо (2018). «Быстрое и точное моделирование детекторов частиц с использованием генеративно-состязательных сетей». Вычисления и программное обеспечение для большой науки . 2 : 8. arXiv : 1805.00850 . Бибкод : 2018arXiv180500850M. doi : 10.1007/s41781-018-0015-y. S2CID  119474793.
  75. ^ «Глубокие генеративные модели для моделирования быстрого ливня в ATLAS». 2018.
  76. ^ ШИП, Сотрудничество (2019). «Быстрое моделирование мюонов, полученных в эксперименте SHiP, с использованием генеративно-состязательных сетей». Журнал приборостроения . 14 (11): P11028. arXiv : 1909.04451 . Бибкод : 2019JInst..14P1028A. дои : 10.1088/1748-0221/14/11/P11028. S2CID  202542604.
  77. ^ Тан, Сяоу; Цяо, Ю; Лой, Чен Чендж; Донг, Чао; Лю, Ихао; Гу, Джинджин; У, Шисян; Ю, Кэ; Ван, Синьтао (1 сентября 2018 г.). «ESRGAN: улучшенные генеративно-состязательные сети сверхразрешения». arXiv : 1809.00219 . Бибкод : 2018arXiv180900219W.
  78. Нараин, Рохит (29 декабря 2021 г.). «Умная генерация видео из текста с использованием глубоких нейронных сетей» . Проверено 13 октября 2022 г.
  79. ^ «Фейковые новости: вы еще ничего не видели» . Экономист . июль 2017 года . Проверено 1 июля 2017 г.
  80. ^ msmash (14 февраля 2019 г.). «Сайт «Этот человек не существует» использует искусственный интеллект для создания реалистичных, но устрашающих лиц» . Слэшдот . Проверено 16 февраля 2019 г.
  81. Дойл, Майкл (16 мая 2019 г.). «Джон Бизли живет на Сэддлхорс Драйв в Эвансвилле. Или так?». Курьер и пресса.
  82. Таргетт, Эд (16 мая 2019 г.). «Калифорния приближается к тому, чтобы объявить дипфейковую порнографию незаконной». Обзор компьютерного бизнеса.
  83. Михальчик, Кэрри (4 октября 2019 г.). «Законы Калифорнии направлены на борьбу с дипфейками в политике и порнографии». cnet.com . CNET . Проверено 13 октября 2019 г.
  84. Найт, Уилл (7 августа 2018 г.). «Министерство обороны выпустило первые инструменты для ловли дипфейков». Обзор технологий Массачусетского технологического института .
  85. ^ Ли, Бонни; Франсуа-Лаве, Винсент; Доан, Танг; Пино, Жоэль (14 февраля 2021 г.). «Обучение с состязательным подкреплением в предметной области». arXiv : 2102.07097 [cs.LG].
  86. ^ Биснето, Томаз Рибейру Виана; де Карвальо Фильо, Антонио Осеас; Магальяйнс, Дебора Мария Виейра (февраль 2020 г.). «Генератно-состязательная сеть и текстурные особенности, применяемые для автоматического обнаружения глаукомы». Прикладные мягкие вычисления . 90 : 106165. doi : 10.1016/j.asoc.2020.106165. S2CID  214571484.
  87. Вэй, Джерри (3 июля 2019 г.). «Создание дизайна обуви с помощью машинного обучения». Середина . Проверено 6 ноября 2019 г.
  88. Гринемайер, Ларри (20 июня 2016 г.). «Когда у компьютеров появится здравый смысл? Спросите Facebook». Научный американец . Проверено 31 июля 2016 г.
  89. Реконструкция римских императоров: интервью с Дэниелом Фошартом , получено 3 июня 2022 г.
  90. ^ «3D-генеративно-состязательная сеть». 3dgan.csail.mit.edu .
  91. ^ Ахлиоптас, Панос; Диаманти, Ольга; Митлягкас, Иоаннис; Гибас, Леонидас (2018). «Изучение представлений и генеративных моделей для трехмерных облаков точек». arXiv : 1707.02392 [cs.CV].
  92. ^ Вондрик, Карл; Пирсиаваш, Хамед; Торральба, Антонио (2016). «Создание видео с динамикой сцены». carlvondrick.com . arXiv : 1609.02612 . Бибкод : 2016arXiv160902612V.
  93. ^ Антипов, Григорий; Баккуш, Моэз; Дюгелей, Жан-Люк (2017). «Старение лица с помощью условных генеративно-состязательных сетей». arXiv : 1702.01983 [cs.CV].
  94. ^ Кан, Юхао; Гао, Сун; Рот, Роб (2019). «Передача стилей многомасштабных карт с использованием генеративно-состязательных сетей». Международный журнал картографии . 5 (2–3): 115–141. arXiv : 1905.02200 . Бибкод : 2019arXiv190502200K. дои : 10.1080/23729333.2019.1615729. S2CID  146808465.
  95. ^ Вейнандс, Джаспер; Приятно, Керри; Томпсон, Джейсон; Чжао, Хайфэн; Стивенсон, Марк (2019). «Улучшение уличного ландшафта с использованием генеративно-состязательных сетей: идеи, связанные со здоровьем и благополучием». Устойчивые города и общество . 49 : 101602. arXiv : 1905.06464 . Бибкод : 2019arXiv190506464W. doi : 10.1016/j.scs.2019.101602. S2CID  155100183.
  96. ^ Укконен, Антти; Джуна, Пири; Руотсало, Туукка (2020). «Создание изображений вместо их получения». Материалы 43-й Международной конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска . стр. 1329–1338. дои : 10.1145/3397271.3401129. hdl : 10138/328471 . ISBN 9781450380164. S2CID  220730163.
  97. ^ Падхи, Радхакант; Унникришнан, Нишант (2006). «Единая архитектура адаптивного критика сети (SNAC) для синтеза оптимального управления для класса нелинейных систем». Нейронные сети . 19 (10): 1648–1660. doi :10.1016/j.neunet.2006.08.010. ПМИД  17045458.
  98. ^ «ИИ может показать нам разрушительные последствия изменения климата» . Обзор технологий Массачусетского технологического института . 16 мая 2019 г.
  99. Кристиан, Джон (28 мая 2019 г.). «ПОТРЯСАЮЩИЙ ИИ УГАДАЕТ, КАК ВЫ ВЫГЛЯДИТЕ, ПО ВАШЕМУ ГОЛОСУ». Футуризм.
  100. ^ Жаворонков, Алекс (2019). «Глубокое обучение позволяет быстро идентифицировать мощные ингибиторы киназы DDR1». Природная биотехнология . 37 (9): 1038–1040. дои : 10.1038/s41587-019-0224-x. PMID  31477924. S2CID  201716327.
  101. ^ Барбер, Грегори. «Молекула, созданная искусственным интеллектом, обладает свойствами, подобными лекарству». Проводной .
  102. ^ Мохаммад Навид Фекри; Ананда Мохон Гош; Катарина Гролингер (2020). «Генерация энергетических данных для машинного обучения с помощью рекуррентных генеративно-состязательных сетей». Энергии . 13 (1): 130. дои : 10.3390/en13010130 .
  103. ^ Шмидхубер, Юрген (1991). «Возможность реализовать любопытство и скуку в нейронных контроллерах для построения моделей». Учеб. САБ'1991 . MIT Press/Брэдфорд Букс. стр. 222–227.
  104. ^ Шмидхубер, Юрген (2010). «Формальная теория творчества, веселья и внутренней мотивации (1990–2010)». Транзакции IEEE по автономному умственному развитию . 2 (3): 230–247. дои : 10.1109/TAMD.2010.2056368. S2CID  234198.
  105. ^ аб Шмидхубер, Юрген (2020). «Генераторно-состязательные сети представляют собой особые случаи искусственного любопытства (1990), а также тесно связаны с минимизацией предсказуемости (1991)». Нейронные сети . 127 : 58–66. arXiv : 1906.04493 . doi :10.1016/j.neunet.2020.04.008. PMID  32334341. S2CID  216056336.
  106. Ниемитало, Олли (24 февраля 2010 г.). «Метод обучения искусственных нейронных сетей генерированию недостающих данных в переменном контексте». Интернет-архив (Wayback Machine) . Архивировано из оригинала 12 марта 2012 года . Проверено 22 февраля 2019 г.
  107. ^ «ГАНы были изобретены в 2010 году?». Reddit r/MachineLearning . 2019 . Проверено 28 мая 2019 г.
  108. ^ Ли, Вэй; Гаучи, Мелвин; Гросс, Родерих (6 июля 2013 г.). «Труды пятнадцатой ежегодной конференции по генетическим и эволюционным вычислениям - GECCO '13». Материалы 15-й ежегодной конференции по генетическим и эволюционным вычислениям (GECCO 2013) . Амстердам, Нидерланды: ACM. стр. 223–230. дои : 10.1145/2463372.2465801. ISBN 9781450319638.
  109. ^ Гутманн, Майкл; Хюваринен, Аапо. «Оценка контрастности шума» (PDF) . Международная конференция по искусственному интеллекту и статистике .
  110. ^ Абу-Халаф, Мурад; Льюис, Фрэнк Л.; Хуан, Цзе (1 июля 2008 г.). «Нейродинамическое программирование и игры с нулевой суммой для систем управления с ограничениями». Транзакции IEEE в нейронных сетях . 19 (7): 1243–1252. дои :10.1109/ТНН.2008.2000204. S2CID  15680448.
  111. ^ Абу-Халаф, Мурад; Льюис, Фрэнк Л.; Хуан, Цзе (1 декабря 2006 г.). «Итерации политики по уравнению Гамильтона – Якоби – Айзекса для управления с обратной связью по состоянию H с входным насыщением». Транзакции IEEE при автоматическом управлении . дои : 10.1109/TAC.2006.884959. S2CID  1338976.
  112. ^ Саджади, Мехди С.М.; Шёлкопф, Бернхард; Хирш, Майкл (23 декабря 2016 г.). «EnhanceNet: сверхвысокое разрешение одного изображения посредством автоматического синтеза текстур». arXiv : 1612.07919 [cs.CV].
  113. ^ «Этого человека не существует: с ИИ в конечном итоге ничего не будет» . 20 марта 2019 г.
  114. ^ «ИСКУССТВЕННЫЙ интеллект входит в историю искусства». 28 декабря 2018 г.
  115. Том Феврие (17 февраля 2019 г.). «Скандал об искусственной разведке».
  116. ^ «StyleGAN: Официальная реализация TensorFlow» . 2 марта 2019 г. – через GitHub.
  117. Паес, Дэнни (13 февраля 2019 г.). «Этот человек не существует — лучший одноразовый веб-сайт 2019 года» . Проверено 16 февраля 2019 г.
  118. Бешицца, Роб (15 февраля 2019 г.). «Этого человека не существует». Боинг-Боинг . Проверено 16 февраля 2019 г.
  119. Хорев, Рани (26 декабря 2018 г.). «GAN на основе стилей – создание и настройка реалистичных искусственных лиц». Лирн.AI. _ Архивировано из оригинала 5 ноября 2020 года . Проверено 16 февраля 2019 г.
  120. ^ Эльгаммаль, Ахмед; Лю, Бинчен; Эльхосейни, Мохамед; Маццоне, Мариан (2017). «МОЖЕТ: творческие состязательные сети, генерирующие «искусство» путем изучения стилей и отклонения от стилевых норм». arXiv : 1706.07068 [cs.AI].
  121. Кон, Гейб (25 октября 2018 г.). «Искусство искусственного интеллекта на Christie's продается за 432 500 долларов». Нью-Йорк Таймс .
  122. ^ Маццоне, Мэриан; Ахмед Эльгаммаль (21 февраля 2019 г.). «Искусство, творчество и потенциал искусственного интеллекта». Искусство . 8:26 . doi : 10.3390/arts8010026 .
  123. Кулп, Патрик (23 мая 2019 г.). «Лаборатория искусственного интеллекта Samsung может создавать фальшивые видеозаписи из одного кадра в голову» . Рекламная неделя .
  124. ^ Ю, Йи; Каналес, Саймон (2021). «Условный LSTM-GAN для генерации мелодий из текстов». Транзакции ACM по мультимедийным вычислениям, коммуникациям и приложениям . 17 :1–20. arXiv : 1908.05551 . дои : 10.1145/3424116. ISSN  1551-6857. S2CID  199668828.
  125. ^ «ИИ Nvidia воссоздает Pac-Man с нуля, просто наблюдая за тем, как в него играют» . Грань . 22 мая 2020 г.
  126. ^ Сын Ук Ким; Чжоу, Юхао; Филион, Иона; Торральба, Антонио; Фидлер, Саня (2020). «Учимся моделировать динамические среды с помощью GameGAN». arXiv : 2005.12126 [cs.CV].

Внешние ссылки