stringtranslate.com

Диффузионная модель

В машинном обучении модели диффузии , также известные как вероятностные модели диффузии или генеративные модели на основе оценок , представляют собой класс генеративных моделей со скрытыми переменными . Диффузионная модель состоит из трех основных компонентов: прямого процесса, обратного процесса и процедуры отбора проб. [1] Цель моделей диффузии — изучить процесс диффузии , который генерирует распределение вероятностей для данного набора данных, из которого мы затем можем отбирать новые элементы. Они изучают скрытую структуру набора данных, моделируя, как точки данных распространяются через скрытое пространство . [2]

В случае компьютерного зрения модели диффузии могут применяться для решения различных задач, включая шумоподавление изображений , закрашивание , суперразрешение и генерацию изображений . Обычно это включает в себя обучение нейронной сети последовательному шумоподавлению изображений, размытых гауссовским шумом . [2] [3] Модель обучена обратить вспять процесс добавления шума к изображению. После обучения сходимости его можно использовать для генерации изображения, начиная с изображения, состоящего из случайного шума, для итеративного шумоподавления сети. Анонсированная 13 апреля 2022 года модель преобразования текста в изображение OpenAI DALL -E 2 представляет собой пример, в котором используются модели диффузии как для предшествующей модели (которая создает встраивание изображения с учетом текстовой подписи), так и для декодера, генерирующего окончательное изображение. . [4] Модели диффузии недавно нашли применение в обработке естественного языка (NLP), [5], особенно в таких областях, как генерация текста [6] [7] и суммирование. [8]

Модели диффузии обычно формулируются как цепи Маркова и обучаются с использованием вариационного вывода . [9] Примерами общих структур моделирования диффузии, используемых в компьютерном зрении, являются вероятностные модели диффузии с шумоподавлением, сети оценок, обусловленные шумом, и стохастические дифференциальные уравнения. [10]

Модель шумоподавления и диффузии

Неравновесная термодинамика

Модели диффузии были представлены в 2015 году как метод изучения модели, которая может выполнять выборку из очень сложного распределения вероятностей. Они использовали методы неравновесной термодинамики , особенно диффузию . [11]

Рассмотрим, например, как можно смоделировать распространение всех естественных фотографий. Каждое изображение является точкой в ​​пространстве всех изображений, а распределение естественных фотографий представляет собой «облако» в пространстве, которое, многократно добавляя к изображениям шум, распространяется на остальную часть пространства изображения, пока не облако становится практически неотличимым от распределения Гаусса . Модель, которая может приблизительно устранить диффузию, может затем использоваться для выборки из исходного распределения. Это изучается в «неравновесной» термодинамике, поскольку начальное распределение не находится в равновесии, в отличие от конечного распределения.

Равновесное распределение — это распределение Гаусса с pdf . Это не что иное, как распределение частиц Максвелла-Больцмана в потенциальной яме при температуре 1. Первоначальное распределение, будучи сильно неравновесным, будет диффундировать в сторону равновесного распределения, делая смещенные случайные шаги, которые представляют собой сумму чистой случайности (например, Броуновский ходок ) и градиентный спуск вниз по потенциальной яме. Случайность необходима: если бы частицы испытывали только градиентный спуск, то все они упадут в начало координат, разрушая распределение.

Вероятностная модель диффузии с шумоподавлением (DDPM)

В документе 2020 года была предложена вероятностная модель шумоподавления диффузии (DDPM), которая улучшает предыдущий метод за счет вариационного вывода . [9]

Прямая диффузия

Чтобы представить модель, нам потребуются некоторые обозначения.

Процесс прямой диффузии начинается в некоторой начальной точке , где находится распределение вероятностей, которое необходимо изучить, затем неоднократно добавляет к нему шум, откуда берутся выборки IID . Это сделано так, чтобы для любого начального распределения мы сходились к .

Тогда весь процесс диффузии удовлетворяет условиям или где – константа нормализации, которую часто опускают. В частности, отметим, что это гауссов процесс , что дает нам значительную свободу в перепараметризации. Например, с помощью стандартных манипуляций с гауссовским процессом. В частности, обратите внимание, что при больших значениях переменная сходится к . То есть, после достаточно длительного процесса распространения, мы получаем что -то очень близкое к , при этом все следы оригинала исчезли.

Например, поскольку мы можем осуществлять выборку напрямую «за один шаг», вместо того, чтобы проходить все промежуточные этапы .

Вывод путем перепараметризации

Мы знаем, что это гауссиан, и это другой гауссиан. Мы также знаем, что они независимы. Таким образом, мы можем выполнить перепараметризацию: где находятся гауссианы IID.

Имеется 5 переменных и два линейных уравнения. Двумя источниками случайности являются , которые можно перепараметризовать путем вращения, поскольку гауссово распределение IID вращательно-симметрично.

Подставив уравнения, мы можем решить первую перепараметризацию: где – гауссиан с нулевым средним значением и единицей дисперсии.

Чтобы найти второй, дополним матрицу вращения:

Поскольку все матрицы вращения имеют вид , мы знаем, что матрица должна быть такой , и поскольку обратная матрица вращения является ее транспонированием,

Подключая обратно и упрощая, мы имеем

Обратная диффузия

Ключевая идея DDPM заключается в использовании нейронной сети, параметризованной . Сеть принимает два аргумента и выводит вектор и матрицу , так что каждый шаг в процессе прямой диффузии может быть приблизительно отменен с помощью . Это дает нам процесс обратной диффузии, определяемый формулой. Теперь цель состоит в том, чтобы изучить такие параметры, которые были бы как можно ближе к ним. Для этого мы используем оценку максимального правдоподобия с вариационным выводом.

Вариационный вывод

Неравенство ELBO утверждает , что и принимая еще одно математическое ожидание, мы получаем. Мы видим, что максимизация величины справа даст нам нижнюю границу вероятности наблюдаемых данных. Это позволяет нам выполнить вариационный вывод.

Определите функцию потерь , и теперь цель состоит в том, чтобы минимизировать потери с помощью стохастического градиентного спуска. Выражение можно упростить до [12] , где оно не зависит от параметра и, следовательно, его можно игнорировать. Поскольку также не зависит от параметра, то слагаемым тоже можно пренебречь. Это остается только свести к минимуму.

Сеть прогнозирования шума

Поскольку это предполагает, что мы должны использовать ; однако сеть не имеет доступа к , поэтому вместо этого ей приходится его оценивать. Теперь, поскольку , мы можем написать , где – некоторый неизвестный гауссов шум. Теперь мы видим, что оценка эквивалентна оценке .

Поэтому пусть сеть выводит вектор шума , и пусть она предсказывает . Осталось спроектировать . В документе DDPM предлагалось не изучать его (поскольку это приводило к «нестабильному обучению и ухудшению качества выборки»), а фиксировать его на некотором значении , при котором любой из них давал одинаковую производительность.

При этом потери упрощаются до такой степени , что их можно минимизировать с помощью стохастического градиентного спуска. В документе эмпирически отмечается, что даже более простая функция потерь приводит к лучшим моделям.

Генеративная модель на основе оценок

Генеративная модель на основе оценок — это еще одна формулировка диффузионного моделирования. Их также называют сетью условной оценки шума (NCSN) или сопоставлением оценок с динамикой Ланжевена (SMLD). [13] [14]

Сопоставление очков

Идея оценочных функций

Рассмотрим задачу генерации изображений. Пусть представляет изображение и пусть это распределение вероятностей по всем возможным изображениям. Если мы имеем само себя, то мы можем наверняка сказать, насколько вероятен тот или иной образ. Однако в целом это неразрешимо.

Чаще всего нас не интересует знание абсолютной вероятности определенного изображения. Вместо этого нас обычно интересует только то, насколько вероятно определенное изображение по сравнению с его непосредственными соседями — например, насколько более вероятно изображение кошки по сравнению с некоторыми его небольшими вариантами? Что более вероятно, если изображение содержит два уса или три, или с добавлением некоторого гауссовского шума?

Следовательно, нас на самом деле совершенно не интересует само по себе, а, скорее, . Это имеет два основных эффекта:

Пусть функция оценки будет ; тогда подумаем, что мы можем с этим сделать .

Как оказалось, это позволяет нам использовать термодинамику. В частности, если у нас есть функция потенциальной энергии и множество частиц в потенциальной яме, то распределение в состоянии термодинамического равновесия является распределением Больцмана . При температуре распределение Больцмана в точности равно .

Следовательно, для моделирования мы можем начать с частицы, отобранной в любом удобном распределении (например, стандартном распределении Гаусса), затем смоделировать движение частицы вперед в соответствии с уравнением Ланжевена , а распределение Больцмана по уравнению Фоккера-Планка: уникальное термодинамическое равновесие . Таким образом, независимо от того, какое распределение имеет, распределение сходится по распределению к as .

Изучение функции оценки

Учитывая плотность , мы хотим изучить аппроксимацию оценочной функции . Это сопоставление очков . [15] Обычно сопоставление оценок формализуется как минимизация функции дивергенции Фишера . Разложив интеграл и выполнив интегрирование по частям, мы получили функцию потерь, также известную как правило оценки Хюваринена , которую можно минимизировать с помощью стохастического градиентного спуска.

Отжиг функции оценки

Предположим, нам нужно смоделировать распространение изображений и мы хотим получить изображение с белым шумом. Теперь большинство изображений с белым шумом не похожи на реальные изображения, поэтому для больших участков . Это представляет проблему для изучения функции оценки, поскольку, если вокруг определенной точки нет выборок, мы не сможем изучить функцию оценки в этой точке. Если мы не знаем оценочную функцию в этот момент, мы не можем наложить на частицу уравнение эволюции во времени: чтобы решить эту проблему, мы выполняем отжиг . Если оно слишком отличается от распределения белого шума, постепенно добавляйте шум, пока он не станет неотличим от одного. То есть мы выполняем прямое распространение, затем изучаем функцию оценки, а затем используем функцию оценки для выполнения обратной диффузии.

Непрерывные диффузионные процессы

Процесс прямой диффузии

Рассмотрим снова процесс прямой диффузии, но на этот раз в непрерывном времени: переходя к пределу, мы получаем непрерывный процесс диффузии в форме стохастического дифференциального уравнения : где – винеровский процесс (многомерное броуновское движение).

Теперь уравнение представляет собой частный случай перезатухающего уравнения Ланжевена, где – тензор диффузии, – температура, – поле потенциальной энергии. Если мы подставим в , мы восстановим приведенное выше уравнение. Это объясняет, почему в диффузионных моделях иногда используется фраза «динамика Ланжевена».

Теперь приведенное выше уравнение относится к стохастическому движению одной частицы. Предположим, у нас есть облако частиц, распределенных в соответствии с временем , тогда через долгое время облако частиц установится в стабильное распределение . Пусть это плотность облака частиц в момент времени , тогда у нас есть цель — как-то обратить процесс вспять, чтобы мы могли начать с конца и диффундировать обратно к началу.

Согласно уравнению Фоккера-Планка , плотность облака меняется в зависимости от того, где — размерность пространства и — оператор Лапласа .

Процесс обратной диффузии

Если мы определили время , то можем точно обратить вспять эволюцию облака. Предположим, мы начнем с другого облака частиц с плотностью и позволим частицам в облаке развиваться в соответствии с этим, подставив в уравнение Фоккера-Планка, мы найдем это . Таким образом, это облако точек является исходным облаком, развивающимся в обратном направлении. [16]

Сеть условной оценки шума (NCSN)

На непрерывном пределе и т. д. В частности, мы видим, что можем напрямую производить выборку из любой точки процесса непрерывной диффузии, не проходя промежуточные этапы, сначала отбирая , а затем получая . То есть мы можем быстро выполнить выборку для любого файла .

Теперь определите определенное распределение вероятностей по , тогда функция потерь при сопоставлении оценок определяется как ожидаемое расхождение Фишера: После обучения , поэтому мы можем выполнить процесс обратной диффузии путем первой выборки , а затем интегрирования SDE от до : Это может быть выполняется любым методом интеграции SDE, например методом Эйлера-Маруямы .

Название «сеть условной оценки шума» объясняется следующим образом:

Их эквивалентность

DDPM и генеративные модели на основе оценок эквивалентны. [17] Это означает, что сеть, обученная с использованием DDPM, может использоваться как NCSN, и наоборот.

Мы знаем, что , поэтому по формуле Твиди мы имеем Как описано ранее, функция потерь DDPM имеет вид где . В результате замены переменных член внутри становится регрессией по методу наименьших квадратов, поэтому, если сеть действительно достигает глобального минимума потерь, то мы имеем .

Теперь непрерывный предел обратного уравнения дает нам точно такое же уравнение, как и диффузия на основе очков:

Основные варианты

Неявная модель шумоподавления и диффузии (DDIM)

Исходный метод DDPM для генерации изображений медленный, поскольку процесс прямой диффузии обычно требует, чтобы распределение выглядело близким к гауссову. Однако это означает, что процесс обратной диффузии также занимает 1000 шагов. В отличие от процесса прямой диффузии, который может пропускать шаги, поскольку он является гауссовским для всех , процесс обратной диффузии не позволяет пропускать шаги. Например, для выборки требуется, чтобы модель сначала выполнила выборку . Попытка прямой выборки потребовала бы от нас маргинализации , что, как правило, неразрешимо.

DDIM [18] — это метод, позволяющий взять любую модель, обученную на потерях DDPM, и использовать ее для выборки с пропуском некоторых шагов, жертвуя регулируемым уровнем качества. Если мы преобразуем случай марковской цепи в DDPM в немарковский случай, DDIM соответствует случаю, когда обратный процесс имеет дисперсию, равную 0. Другими словами, обратный процесс (а также прямой процесс) является детерминированным. При меньшем количестве шагов выборки DDIM превосходит DDPM.

Модель скрытой диффузии (LDM)

Поскольку модель диффузии является общим методом моделирования распределений вероятностей, если кто-то хочет смоделировать распределение по изображениям, можно сначала закодировать изображения в пространство более низкой размерности с помощью кодера, а затем использовать модель диффузии для моделирования распределения по закодированным изображениям. изображений. Затем, чтобы сгенерировать изображение, можно выполнить выборку из модели диффузии, а затем использовать декодер для декодирования ее в изображение. [19]

Пара кодер-декодер чаще всего представляет собой вариационный автоэнкодер (VAE).

Руководство по классификатору

Предположим, мы хотим сделать выборку не из всего распределения изображений, а в зависимости от описания изображения. Мы хотим использовать не общее изображение, а изображение, соответствующее описанию «черный кот с красными глазами». Как правило, мы хотим выполнить выборку из распределения , где диапазоны варьируются по изображениям и по классам изображений (описание «черный кот с красными глазами» — это просто очень подробный класс, а класс «кот» — это просто очень расплывчатое описание). ).

С точки зрения модели шумного канала мы можем понять этот процесс следующим образом: чтобы сгенерировать изображение, зависящее от описания , мы представляем, что запрашивающий действительно имел в виду изображение , но изображение проходит через шумный канал и выходит искаженным. , как . В таком случае генерация изображения — это не что иное, как вывод, который имел в виду запрашивающий.

Другими словами, генерация условного изображения — это просто «перевод с текстового языка на графический язык». Затем, как и в модели с шумным каналом, мы используем теорему Байеса, чтобы, другими словами, если у нас есть хорошая модель пространства всех изображений и хороший преобразователь изображения в класс, мы получаем переводчик «бесплатно». В уравнении обратной диффузии оценку можно заменить на функцию оценки, обученную, как описано ранее, и найденную с помощью дифференцируемого классификатора изображений.

С температурой

Модель диффузии, управляемая классификатором, выборка из , которая сосредоточена вокруг максимальной апостериорной оценки . Если мы хотим заставить модель двигаться к оценке максимального правдоподобия , мы можем использовать где интерпретируется как обратная температура . В контексте диффузионных моделей ее обычно называют шкалой наведения . Высокий уровень заставит модель выбирать из распределения, сосредоточенного вокруг . Это часто улучшает качество создаваемых изображений. [20]

Это можно сделать просто с помощью SGLD с помощью

Руководство без классификаторов (CFG)

Если у нас нет классификатора , мы все равно можем извлечь его из самой модели изображения: [21] Такая модель обычно обучается, представляя ей оба и , что позволяет ей моделировать оба и .

Пробоотборники

Учитывая диффузионную модель, можно рассматривать ее либо как непрерывный процесс и производить выборку из него путем интегрирования СДУ, либо можно рассматривать ее как дискретный процесс и производить выборку из него, повторяя дискретные шаги. Выбор «шумового графика» также может повлиять на качество семплов. С точки зрения DDPM можно использовать сам DDPM (с шумом) или DDIM (с регулируемым уровнем шума). Случай добавления шума иногда называют предковой выборкой. [22] Можно интерполировать между шумом и отсутствием шума. Количество шума обозначается («значение эта») в документе DDIM, где обозначается отсутствие шума (как в детерминированном DDIM) и обозначается полный шум (как в DDPM).

С точки зрения СДУ можно использовать любой из методов численного интегрирования , например, метод Эйлера-Маруямы , метод Хойна , линейные многошаговые методы и т. д. Как и в дискретном случае, во время интегрирования можно добавлять регулируемое количество шума. .

Обзор и сравнение сэмплеров в контексте генерации изображений см. [23].

Модель диффузии на основе потока

Говоря абстрактно, идея диффузионной модели состоит в том, чтобы взять неизвестное распределение вероятностей (распределение естественно выглядящих изображений), а затем постепенно преобразовать его в известное распределение вероятностей (стандартное распределение Гаусса), построив абсолютно непрерывный путь вероятностей, соединяющий их. Вероятностный путь фактически неявно определяется функцией оценки .

В моделях диффузии с шумоподавлением прямой процесс добавляет шум, а обратный процесс удаляет шум. И прямой, и обратный процессы являются СДУ , хотя прямой процесс интегрируется в замкнутой форме, поэтому его можно выполнить без вычислительных затрат. Обратный процесс не интегрируется в замкнутой форме, поэтому его необходимо интегрировать шаг за шагом с помощью стандартных решателей SDE, что может быть очень дорогим. Вероятностный путь в модели диффузии определяется с помощью процесса Ито , и детерминированный процесс можно восстановить, используя формулировку потока ОДУ вероятности. [2]

В моделях диффузии, основанных на потоке, прямой процесс представляет собой как детерминированный поток вдоль векторного поля, зависящего от времени, так и обратный процесс представляет собой то же векторное поле, но идущее назад. Оба процесса являются решениями ОДУ . Если векторное поле ведет себя хорошо, ОДУ также будет вести себя хорошо.

Учитывая два распределения и , модель на основе потока представляет собой зависящее от времени поле скорости в , так что если мы начнем с выборки точки и позволим ей двигаться в соответствии с полем скорости: в конечном итоге мы получим точку . Решение приведенного выше ОДУ определяет вероятностный путь с помощью оператора меры прямого продвижения . В частности, у одного есть .

Вероятностный путь и поле скорости также удовлетворяют уравнению непрерывности в смысле распределения вероятностей: Чтобы построить вероятностный путь, мы начинаем с построения условного вероятностного пути и соответствующего условного поля скорости на некотором условном распределении . Естественным выбором является гауссовский путь условной вероятности: поле условной скорости, которое соответствует геодезическому пути между условным гауссовским путем, равно. Путь вероятности и поле скорости затем вычисляются путем маргинализации

Оптимальный транспортный поток

Идея оптимального транспортного потока [24] заключается в построении вероятностного пути, минимизирующего метрику Вассерштейна . Распределение, на котором мы основываемся, представляет собой оптимальный план транспортировки между и : и , где - оптимальный план транспортировки, который можно аппроксимировать оптимальной мини-пакетной транспортировкой.

Ректифицированный поток

Идея выпрямленного потока [25] [26] состоит в том, чтобы изучить модель потока, в которой скорость почти постоянна вдоль каждого пути потока. Это выгодно, потому что мы можем интегрировать вдоль такого векторного поля всего за несколько шагов. Например, если ОДУ следует совершенно прямым путям, оно упрощается до , позволяя получать точные решения за один шаг. На практике мы не можем достичь такого совершенства, но когда поле потока близко к нему, мы можем сделать несколько больших шагов вместо множества маленьких шагов.

Общая идея состоит в том, чтобы начать с двух распределений и , затем построить из него поле потока , а затем повторно применить операцию «перекомпоновки» для получения последовательных полей потока , каждое из которых более прямолинейное, чем предыдущее. Когда поле потока становится достаточно прямым для приложения, мы останавливаемся.

Как правило, для любого дифференцируемого во времени процесса можно оценить , решив:

В выпрямленном потоке, вводя сильные априорные данные о том, что промежуточные траектории являются прямыми, можно достичь как теоретической значимости для оптимальной транспортировки, так и вычислительной эффективности, поскольку ОДУ с прямыми путями можно моделировать точно без дискретизации по времени.

Транспорт ректифицированным потоком [25]

В частности, выпрямленный поток стремится сопоставить ОДУ с маргинальными распределениями линейной интерполяции между точками из распределений и . Учитывая наблюдения и , каноническая линейная интерполяция дает тривиальный случай , который невозможно причинно смоделировать без . Чтобы решить эту проблему, «проецируется» в пространство причинно моделируемых ОДУ путем минимизации потерь метода наименьших квадратов по отношению к направлению :

Пара данных может быть любой связью и , обычно независимой (т. е. ), полученной путем случайного объединения наблюдений из и . Этот процесс гарантирует, что траектории точно отражают карту плотности траекторий, но меняют маршрут на пересечениях, чтобы обеспечить причинно-следственную связь. Этот процесс исправления также известен как согласование потоков, [27] стохастическая интерполяция, [28] и альфа-смешение. [ нужна цитата ]

Процесс оплавления [25]

Отличительной особенностью выпрямленного потока является его способность к « перекомпоновке », которая выпрямляет траекторию путей ОДУ. Обозначим выпрямленный поток, индуцированный из как . Рекурсивное применение этого оператора генерирует серию выпрямляемых потоков . Этот процесс «оплавления» не только снижает транспортные расходы, но и выпрямляет пути выпрямляемых потоков, делая пути более прямыми с увеличением .

Выпрямленный поток включает нелинейное расширение, в котором линейная интерполяция заменяется любой дифференцируемой во времени кривой, которая соединяет и , заданную . Эта структура охватывает DDIM и ODE потока вероятностей как особые случаи с особым выбором и . Однако в случае, когда путь не является прямым, процесс перекомпоновки уже не обеспечивает снижение затрат на выпуклую транспортировку, а также больше не выпрямляет пути . [25]

Выбор архитектуры

Архитектура стабильной диффузии
Процесс шумоподавления, используемый Stable Diffusion

Диффузионная модель

Для генерации изображений с помощью DDPM нам нужна нейронная сеть, которая берет время и зашумленное изображение и прогнозирует по нему шум . Поскольку прогнозирование шума — это то же самое, что прогнозирование изображения с шумоподавлением, а затем его вычитание из , архитектуры с шумоподавлением, как правило, работают хорошо. Например, U-Net , которая оказалась хорошей для шумоподавления изображений, часто используется для шумоподавления диффузионных моделей, генерирующих изображения. [29]

Для DDPM базовая архитектура не обязательно должна быть U-Net. Ему просто нужно как-то предсказать шум. Например, диффузионный преобразователь (DiT) использует преобразователь для прогнозирования средней и диагональной ковариации шума с учетом текстовой обработки и частично очищенного от шума изображения. Это то же самое, что и стандартная модель диффузии шумоподавления на основе U-Net, с трансформатором, заменяющим U-Net. [30]

DDPM можно использовать для моделирования общего распределения данных, а не только естественно выглядящих изображений. Например, Human Motion Diffusion [31] моделирует траекторию движения человека с помощью DDPM. Каждая траектория движения человека представляет собой последовательность поз, представленных либо поворотами суставов, либо позициями. Он использует сеть трансформаторов для создания менее шумной траектории из шумной.

Кондиционирование

Базовая модель диффузии может генерировать только безоговорочно из всего распределения. Например, модель диффузии, изученная в ImageNet, будет генерировать изображения, которые выглядят как случайное изображение из ImageNet. Чтобы генерировать изображения только из одной категории, нужно будет наложить условие. Какое бы условие вы ни хотели наложить, нужно сначала преобразовать условие в вектор чисел с плавающей запятой, а затем передать его в базовую нейронную сеть модели диффузии. Однако у человека есть свобода выбора, как преобразовать обусловленность в вектор.

Стабильная диффузия, например, налагает обусловленность в форме механизма перекрестного внимания , где запрос является промежуточным представлением изображения в U-Net, а ключ и значение являются векторами обусловленности. Кондиционирование можно выборочно применять только к частям изображения, а новые виды условий можно точно настроить на основе базовой модели, как это используется в ControlNet. [32]

В качестве особенно простого примера рассмотрим зарисовку изображения . Условия: , эталонное изображение и , маска врисовки . Условие налагается на каждом этапе процесса обратной диффузии путем сначала выборки зашумленной версии , а затем замены на , где означает поэлементное умножение . [33]

Кондиционирование не ограничивается простым созданием изображений из определенной категории или в соответствии с определенным заголовком (как в случае преобразования текста в изображение). Например, [31] продемонстрировали генерацию движений человека на основе аудиоклипа ходьбы человека (позволяющего синхронизировать движение со звуковой дорожкой), или видео бега человека, или текстового описания движения человека и т. д.

Апскейлинг

Поскольку создание изображения занимает много времени, можно попытаться создать небольшое изображение с помощью базовой модели диффузии, а затем масштабировать его с помощью других моделей. Масштабирование может быть выполнено с помощью GAN , [34] Transformer , [35] или методов обработки сигналов, таких как передискретизация Ланцоша .

Сами модели диффузии могут использоваться для масштабирования. Каскадная модель диффузии объединяет несколько моделей диффузии одну за другой в стиле Progressive GAN . Самый низкий уровень — это стандартная модель диффузии, которая генерирует изображение размером 32x32, затем изображение будет масштабироваться с помощью модели диффузии, специально обученной для масштабирования, и процесс повторяется. [29]

Более подробно, диффузионный апскейлер обучается следующим образом: [29]

Примеры

В этом разделе собраны некоторые известные диффузионные модели и кратко описана их архитектура.

ОпенАИ

Серия DALL-E от OpenAI представляет собой модели изображений с условным распространением текста.

Первая версия DALL-E (2021 г.) на самом деле не является диффузной моделью. Вместо этого он использует архитектуру Transformer, которая генерирует последовательность токенов, которая затем преобразуется в изображение декодером дискретного VAE. Вместе с DALL-E был выпущен классификатор CLIP, который использовался DALL-E для ранжирования сгенерированных изображений в зависимости от того, насколько близко изображение соответствует тексту.

GLIDE (2022-03) [36] — это диффузионная модель стоимостью 3,5 миллиарда долларов, небольшая версия которой была опубликована публично. [4] Вскоре после этого был выпущен DALL-E 2 (2022–04). [37] DALL-E 2 — это 3,5-миллиардная каскадная диффузионная модель, которая генерирует изображения из текста путем «инвертирования кодера изображений CLIP», метода, который они назвали «unCLIP».

Сора (2024-02) представляет собой модель диффузионного трансформатора (DiT).

Стабильность ИИ

Stable Diffusion (2022-08), выпущенный Stability AI, состоит из модели скрытой диффузии с шумоподавлением (860 миллионов параметров), VAE и текстового кодировщика. Сеть шумоподавления представляет собой U-Net с блоками перекрестного внимания, позволяющими генерировать условные изображения. [38] [19]

В версии Stable Diffusion 3 (2024-02) [39] модель скрытой диффузии заменена с UNet на модель Transformer, и поэтому это DiT. Он использует выпрямленный поток.

Google

Imagen (2022-05) [40] [41] использует языковую модель T5 для кодирования входного текста во вложения. Это модель каскадной диффузии, состоящая из трех этапов. На первом этапе белый шум удаляется до изображения размером 64×64 при условии встраивания текста. На втором этапе изображение масштабируется до 64×64→256×256 при условии встраивания текста. Третий шаг аналогичен: масштабирование до 256×256→1024×1024. Все три сети шумоподавления являются U-сетями.

Imagen 2 (2023-12) также основан на диффузии. Он может генерировать изображения на основе подсказки, сочетающей изображения и текст. Никакой дополнительной информации нет. [42]

Veo (2024-05) генерирует видео путем скрытой диффузии. Распространение обусловлено вектором, который кодирует как текстовую, так и графическую подсказку. [43]

Смотрите также

дальнейшее чтение

Рекомендации

  1. ^ Чанг, Цзыи; Кулиерис, Джордж Алекс; Шум, Хьюберт П.Х. (2023). «Об основах проектирования диффузионных моделей: обзор». arXiv : 2306.04542 [cs.LG].
  2. ^ abc Сун, Ян; Золь-Дикштейн, Яша; Кингма, Дидерик П.; Кумар, Абхишек; Эрмон, Стефано; Пул, Бен (10 февраля 2021 г.). «Генераторное моделирование на основе оценок с помощью стохастических дифференциальных уравнений». arXiv : 2011.13456 [cs.LG].
  3. ^ Гу, Шуян; Чен, Донг; Бао, Цзяньминь; Вэнь, Фанг; Чжан, Бо; Чен, Дундун; Юань, Лу; Го, Байнин (2021). «Модель векторной квантовой диффузии для синтеза текста в изображение». arXiv : 2111.14822 [cs.CV].
  4. ^ ab GLIDE, OpenAI, 22 сентября 2023 г. , получено 24 сентября 2023 г.
  5. ^ Ли, Ифань; Чжоу, Кун; Чжао, Уэйн Синь; Вэнь, Цзи-Ронг (август 2023 г.). «Модели диффузии для неавторегрессионной генерации текста: обзор». Материалы тридцать второй международной совместной конференции по искусственному интеллекту . Калифорния: Международные совместные конференции по организации искусственного интеллекта. стр. 6692–6701. arXiv : 2303.06574 . дои : 10.24963/ijcai.2023/750. ISBN 978-1-956792-03-4.
  6. ^ Хан, Сяочуан; Кумар, Сачин; Цветков, Юлия (2023). «SSD-LM: полуавторегрессионная симплексная модель диффузного языка для генерации текста и модульного управления». Материалы 61-го ежегодного собрания Ассоциации компьютерной лингвистики (Том 1: Длинные статьи) . Страудсбург, Пенсильвания, США: Ассоциация компьютерной лингвистики: 11575–11596. arXiv : 2210.17432 . doi : 10.18653/v1/2023.acl-long.647.
  7. ^ Сюй, Вэйцзе; Ху, Вэньсян; Ву, Фанью; Сенгамеду, Шринивасан (2023 г.). «DeTiME: Тематическое моделирование с расширенной диффузией с использованием LLM на основе кодировщика-декодера». Выводы Ассоциации компьютерной лингвистики: EMNLP 2023 . Страудсбург, Пенсильвания, США: Ассоциация компьютерной лингвистики: 9040–9057. arXiv : 2310.15296 . doi : 10.18653/v1/2023.findings-emnlp.606.
  8. ^ Чжан, Хаопэн; Лю, Сяо; Чжан, Цзявэй (2023). «DiffuSum: экстракционное суммирование с улучшенным поколением с диффузией». Выводы Ассоциации компьютерной лингвистики: ACL 2023 . Страудсбург, Пенсильвания, США: Ассоциация компьютерной лингвистики: 13089–13100. arXiv : 2305.01735 . doi : 10.18653/v1/2023.findings-acl.828.
  9. ^ Аб Хо, Джонатан; Джайн, Аджай; Аббель, Питер (2020). «Вероятностные модели диффузии с шумоподавлением». Достижения в области нейронных систем обработки информации . 33 . Curran Associates, Inc.: 6840–6851.
  10. ^ Кроитору, Флоринель-Алин; Хондру, Влад; Ионеску, Раду Тудор; Шах, Мубарак (2023). «Модели диффузии в зрении: обзор». Транзакции IEEE по анализу шаблонов и машинному интеллекту . 45 (9): 10850–10869. arXiv : 2209.04747 . дои : 10.1109/TPAMI.2023.3261988. PMID  37030794. S2CID  252199918.
  11. ^ Золь-Дикштейн, Яша; Вайс, Эрик; Махешваранатан, Ниру; Гангули, Сурья (01 июня 2015 г.). «Глубокое обучение без учителя с использованием неравновесной термодинамики» (PDF) . Материалы 32-й Международной конференции по машинному обучению . 37 . ПМЛР: 2256–2265.
  12. ^ Венг, Лилиан (11 июля 2021 г.). «Что такое диффузионные модели?». lilianweng.github.io . Проверено 24 сентября 2023 г.
  13. ^ «Генеративное моделирование путем оценки градиентов распределения данных | Ян Сун» . yang-song.net . Проверено 24 сентября 2023 г.
  14. ^ Сун, Ян; Золь-Дикштейн, Яша; Кингма, Дидерик П.; Кумар, Абхишек; Эрмон, Стефано; Пул, Бен (10 февраля 2021 г.). «Генераторное моделирование на основе оценок с помощью стохастических дифференциальных уравнений». arXiv : 2011.13456 [cs.LG].
  15. ^ «Сопоставление срезов оценок: масштабируемый подход к плотности и оценке оценок | Ян Сун» . yang-song.net . Проверено 24 сентября 2023 г.
  16. ^ Андерсон, Брайан Д.О. (май 1982 г.). «Модели уравнений диффузии в обратном времени». Случайные процессы и их приложения . 12 (3): 313–326. дои : 10.1016/0304-4149(82)90051-5. ISSN  0304-4149.
  17. ^ Луо, Кальвин (2022). «Понимание моделей диффузии: единая точка зрения». arXiv : 2208.11970v1 [cs.LG].
  18. ^ Сун, Цзямин; Мэн, Ченлинь; Эрмон, Стефано (3 октября 2023 г.). «Неявные модели диффузии с шумоподавлением». arXiv : 2010.02502 [cs.LG].
  19. ^ Аб Ромбах, Робин; Блаттманн, Андреас; Лоренц, Доминик; Эссер, Патрик; Оммер, Бьорн (13 апреля 2022 г.). «Синтез изображений высокого разрешения с использованием моделей скрытой диффузии». arXiv : 2112.10752 [cs.CV].
  20. ^ Дхаривал, Прафулла; Никол, Алекс (01 июня 2021 г.). «Модели диффузии превосходят GAN по синтезу изображений». arXiv : 2105.05233 [cs.LG].
  21. ^ Хо, Джонатан; Салиманс, Тим (25 июля 2022 г.). «Руководство по диффузии без классификаторов». arXiv : 2207.12598 [cs.LG].
  22. ^ Ян, Линг; Чжан, Чжилун; Сун, Ян; Хонг, Шенда; Сюй, Жуньшэн; Чжао, Юэ; Чжан, Вэньтао; Цуй, Бин; Ян, Мин-Сюань (2022). «Модели диффузии: комплексный обзор методов и приложений». arXiv : 2206.00364 [cs.CV].
  23. ^ Каррас, Теро; Айттала, Миика; Айла, Тимо; Лайне, Самули (2022). «Выяснение пространства проектирования генеративных моделей, основанных на диффузии». arXiv : 2206.00364v2 [cs.CV].
  24. ^ Тонг, Александр; Фатрас, Килиан; Малкин, Николай; Юге, Гийом; Чжан, Янлей; Ректор-Брукс, Джаррид; Вольф, Гай; Бенджио, Йошуа (8 ноября 2023 г.). «Улучшение и обобщение генеративных моделей на основе потоков с оптимальной мини-пакетной транспортировкой». Труды по исследованиям машинного обучения . ISSN  2835-8856.
  25. ^ abcd Лю, Синчао; Гун, Чэнъюэ; Лю, Цян (07 сентября 2022 г.). «Прямой и быстрый поток: учимся генерировать и передавать данные с помощью выпрямленного потока». arXiv : 2209.03003 [cs.LG].
  26. ^ Лю, Цян (29 сентября 2022 г.). «Выпрямленный поток: подход к оптимальной транспортировке, сохраняющий маржинальность». arXiv : 2209.14577 [stat.ML].
  27. ^ Липман, Ярон; Чен, Рики TQ; Бен-Хаму, Хели; Никель, Максимилиан; Ле, Мэтт (08 февраля 2023 г.), Согласование потоков для генеративного моделирования , arXiv : 2210.02747
  28. ^ Альберго, Майкл С.; Ванден-Эйнден, Эрик (09 марта 2023 г.), Построение нормализующих потоков с помощью стохастических интерполянтов , arXiv : 2209.15571
  29. ^ abc Хо, Джонатан; Сахария, Читван; Чан, Уильям; Флит, Дэвид Дж.; Норузи, Мохаммед; Салиманс, Тим (01 января 2022 г.). «Модели каскадной диффузии для создания изображений высокой точности». Журнал исследований машинного обучения . 23 (1): 47:2249–47:2281. arXiv : 2106.15282 . ISSN  1532-4435.
  30. ^ Пиблс, Уильям; Се, Сайнин (март 2023 г.). «Масштабируемые модели диффузии с трансформаторами». arXiv : 2212.09748v2 [cs.CV].
  31. ^ аб Тевет, Гай; Рааб, Сигал; Гордон, Брайан; Шафир, Йонатан; Коэн-Ор, Дэниел; Бермано, Амит Х. (2022). «Модель диффузии движения человека». arXiv : 2209.14916 [cs.CV].
  32. ^ Чжан, Львмин; Рао, Аньи; Агравала, Маниш (2023). «Добавление условного управления к моделям диффузии текста в изображение». arXiv : 2302.05543 [cs.CV].
  33. ^ Лугмайр, Андреас; Данельян, Мартин; Ромеро, Андрес; Ю, Фишер; Тимофте, Раду; Ван Гул, Люк (2022). «RePaint: Inpainting с использованием вероятностных моделей диффузии с шумоподавлением». arXiv : 2201.09865v4 [cs.CV].
  34. ^ Ван, Синьтао; Се, Лянбинь; Донг, Чао; Шан, Ин (2021). «Real-ESRGAN: обучение слепому сверхразрешению в реальном мире с использованием чистых синтетических данных» (PDF) . Материалы семинаров Международной конференции IEEE/CVF по компьютерному зрению (ICCV), 2021 г. Международная конференция по компьютерному зрению. стр. 1905–1914. arXiv : 2107.10833 .
  35. ^ Лян, Цзинъюнь; Цао, Цзечжан; Сунь, Гуолей; Чжан, Кай; Ван Гул, Люк; Тимофте, Раду (2021). «SwinIR: восстановление изображения с использованием Swin Transformer» (PDF) . Материалы семинаров Международной конференции IEEE/CVF по компьютерному зрению (ICCV) . Международная конференция по компьютерному зрению, 2021. стр. 1833–1844. arXiv : 2108.10257v1 .
  36. ^ Никол, Алекс; Дхаривал, Прафулла; Рамеш, Адитья; Шьям, Пранав; Мишкин, Памела; МакГрю, Боб; Суцкевер, Илья; Чен, Марк (08 марта 2022 г.). «GLIDE: к созданию и редактированию фотореалистичных изображений с помощью моделей диффузии, управляемых текстом». arXiv : 2112.10741 [cs.CV].
  37. ^ Рамеш, Адитья; Дхаривал, Прафулла; Никол, Алекс; Чу, Кейси; Чен, Марк (12 апреля 2022 г.). «Иерархическая генерация текстовых условных изображений с помощью CLIP Latents». arXiv : 2204.06125 [cs.CV].
  38. ^ Аламмар, Джей. «Иллюстрированная стабильная диффузия». jalammar.github.io . Проверено 31 октября 2022 г.
  39. ^ Эссер, Патрик; Кулал, Сумит; Блаттманн, Андреас; Энтезари, Рахим; Мюллер, Йонас; Сайни, Гарри; Леви, Ям; Лоренц, Доминик; Зауэр, Аксель (05 марта 2024 г.), Масштабирование выпрямленных трансформаторов потока для синтеза изображений высокого разрешения , arXiv : 2403.03206
  40. ^ «Imagen: модели распространения текста в изображение» . imagen.research.google . Проверено 4 апреля 2024 г.
  41. ^ Сахария, Читван; Чан, Уильям; Саксена, Саураб; Ли, Лала; Ванг, Джей; Дентон, Эмили Л.; Гасемипур, Камьяр; Гонтихо Лопес, Рафаэль; Карагол Аян, Бурджу; Салиманс, Тим; Эй, Джонатан; Флит, Дэвид Дж.; Норузи, Мохаммед (6 декабря 2022 г.). «Фотореалистичные модели распространения текста в изображение с глубоким пониманием языка». Достижения в области нейронных систем обработки информации . 35 : 36479–36494. arXiv : 2205.11487 .
  42. ^ «Imagen 2 — наша самая передовая технология преобразования текста в изображение» . Гугл ДипМайнд . Проверено 4 апреля 2024 г.
  43. ^ "Вео". Гугл ДипМайнд . 14 мая 2024 г. Проверено 17 мая 2024 г.