Модель диффузии

В машинном обучении диффузионные модели , также известные как диффузионные вероятностные модели или генеративные модели на основе оценок , представляют собой класс генеративных моделей со скрытыми переменными . Диффузионная модель состоит из трех основных компонентов: прямого процесса, обратного процесса и процедуры выборки. ^[1] Целью диффузионных моделей является изучение процесса диффузии для заданного набора данных, так что процесс может генерировать новые элементы, которые распределяются аналогично исходному набору данных. Диффузионная модель моделирует данные, сгенерированные диффузионным процессом, в результате чего новый элемент данных выполняет случайное блуждание с дрейфом через пространство всех возможных данных. ^[2] Обученная диффузионная модель может быть выбрана многими способами с различной эффективностью и качеством.

Существуют различные эквивалентные формализмы, включая цепи Маркова , шумоподавляющие диффузионные вероятностные модели, сети оценок с обусловленным шумом и стохастические дифференциальные уравнения. ^[3] Обычно они обучаются с использованием вариационного вывода . ^[4] Модель, отвечающая за шумоподавление, обычно называется ее «основой». Основой может быть любой вид, но обычно это U-сети или трансформаторы .

По состоянию на 2024 год ^[update]диффузионные модели в основном используются для задач компьютерного зрения , включая шумоподавление изображений , инрисовку , сверхвысокое разрешение , генерацию изображений и генерацию видео. Обычно они включают обучение нейронной сети последовательному шумоподавлению изображений, размытых гауссовым шумом . ^[2]^[5] Модель обучается обращать процесс добавления шума к изображению. После обучения до конвергенции ее можно использовать для генерации изображений, начиная с изображения, состоящего из случайного шума, и итеративно применяя сеть для шумоподавления изображения.

Генераторы изображений на основе диффузии получили широкое коммерческое распространение, такие как Stable Diffusion и DALL-E . Эти модели обычно объединяют модели диффузии с другими моделями, такими как текстовые кодировщики и модули перекрестного внимания, чтобы обеспечить генерацию, обусловленную текстом. ^[6]

Помимо компьютерного зрения, модели диффузии также нашли применение в обработке естественного языка ^[7], например, при генерации текста ^[8]^[9] и реферировании , ^[10] генерации звука ^[11] и обучении с подкреплением. ^[12]^[13]

Модель шумоподавления диффузии

Неравновесная термодинамика

Модели диффузии были введены в 2015 году как метод обучения модели, которая может делать выборку из очень сложного распределения вероятностей. Они использовали методы из неравновесной термодинамики , особенно диффузии . ^[14]

Рассмотрим, например, как можно смоделировать распределение всех естественно возникающих фотографий. Каждое изображение является точкой в пространстве всех изображений, а распределение естественно возникающих фотографий является «облаком» в пространстве, которое, многократно добавляя шум к изображениям, рассеивается в остальной части пространства изображения, пока облако не станет практически неотличимым от гауссовского распределения . Затем модель, которая может приблизительно отменить диффузию, может быть использована для выборки из исходного распределения. Это изучается в «неравновесной» термодинамике, поскольку начальное распределение не находится в равновесии, в отличие от конечного распределения. $N(0,I)$

Равновесное распределение — это распределение Гаусса с pdf . Это просто распределение Максвелла–Больцмана частиц в потенциальной яме при температуре 1. Начальное распределение, будучи сильно неравновесным, будет диффундировать к равновесному распределению, совершая смещенные случайные шаги, которые являются суммой чистой случайности (как броуновская прогулка ) и градиентного спуска вниз по потенциальной яме. Случайность необходима: если бы частицы подвергались только градиентному спуску, то все они упали бы в начало координат, разрушая распределение. $N(0,I)$ $\rho (x)\propto e^{-{\frac {1}{2}}\|x\|^{2}}$ $V(x)={\frac {1}{2}}\|x\|^{2}$

Вероятностная модель шумоподавления диффузии (DDPM)

В статье 2020 года была предложена вероятностная модель шумоподавляющей диффузии (DDPM), которая улучшает предыдущий метод с помощью вариационного вывода . ^[4]^[15]

Прямая диффузия

Для представления модели нам понадобятся некоторые обозначения.

$\beta _{1},...,\beta _{T}\in (0,1)$ являются фиксированными константами.
$\alpha _{t}:=1-\beta _{t}$
${\bar {\alpha }}_{t}:=\alpha _{1}\cdots \alpha _{t}$
$\sigma _{t}:={\sqrt {1-{\bar {\alpha }}_{t}}}$
${\tilde {\sigma }}_{t}:={\frac {\sigma _{t-1}}{\sigma _{t}}}{\sqrt {\beta _{t}}}$
${\tilde {\mu }}_{t}(x_{t},x_{0}):={\frac {{\sqrt {\alpha _{t}}}(1-{\bar {\alpha }}_{t-1})x_{t}+{\sqrt {{\bar {\alpha }}_{t-1}}}(1-\alpha _{t})x_{0}}{\sigma _{t}^{2}}}$
$N(\mu ,\Sigma )$ — нормальное распределение со средним значением и дисперсией , а — плотность вероятности при . $\mu$ $\Sigma$ $N(x|\mu ,\Sigma )$ $x$
Вертикальная черта обозначает кондиционирование .

Процесс прямой диффузии начинается в некоторой начальной точке , где есть распределение вероятностей, которое нужно изучить, затем многократно добавляет к нему шум с помощью где есть выборки IID из . Это разработано так, что для любого начального распределения , мы имеем сходимость к . $x_{0}\sim q$ $q$ $x_{t}={\sqrt {1-\beta _{t}}}x_{t-1}+{\sqrt {\beta _{t}}}z_{t}$ $z_{1},...,z_{T}$ $N(0,I)$ $x_{0}$ $\lim _{t}x_{t}|x_{0}$ $N(0,I)$

Весь процесс диффузии тогда удовлетворяет или , где является константой нормализации и часто опускается. В частности, мы отмечаем, что является гауссовым процессом , что дает нам значительную свободу в перепараметризации . Например, с помощью стандартной манипуляции с гауссовым процессом, В частности, обратите внимание, что для больших , переменная сходится к . То есть, после достаточно длительного процесса диффузии мы в итоге получаем нечто очень близкое к , при этом все следы оригинала исчезают. $q(x_{0:T})=q(x_{0})q(x_{1}|x_{0})\cdots q(x_{T}|x_{T-1})=q(x_{0})N(x_{1}|{\sqrt {\alpha _{1}}}x_{0},\beta _{1}I)\cdots N(x_{T}|{\sqrt {\alpha _{T}}}x_{T-1},\beta _{T}I)$ $\ln q(x_{0:T})=\ln q(x_{0})-\sum _{t=1}^{T}{\frac {1}{2\beta _{t}}}\|x_{t}-{\sqrt {1-\beta _{t}}}x_{t-1}\|^{2}+C$ $C$ $x_{1:T}|x_{0}$ $x_{t}|x_{0}\sim N\left({\sqrt {{\bar {\alpha }}_{t}}}x_{0},\sigma _{t}^{2}I\right)$ $x_{t-1}|x_{t},x_{0}\sim N({\tilde {\mu }}_{t}(x_{t},x_{0}),{\tilde {\sigma }}_{t}^{2}I)$ $t$ $x_{t}|x_{0}\sim N\left({\sqrt {{\bar {\alpha }}_{t}}}x_{0},\sigma _{t}^{2}I\right)$ $N(0,I)$ $x_{T}$ $N(0,I)$ $x_{0}\sim q$

Например, поскольку мы можем производить выборку непосредственно «за один шаг», а не проходить все промежуточные этапы . $x_{t}|x_{0}\sim N\left({\sqrt {{\bar {\alpha }}_{t}}}x_{0},\sigma _{t}^{2}I\right)$ $x_{t}|x_{0}$ $x_{1},x_{2},...,x_{t-1}$

Вывод путем репараметризации

Мы знаем, что является гауссианом, а является другим гауссианом. Мы также знаем, что они независимы. Таким образом, мы можем выполнить перепараметризацию: где IID гауссианы. ${\textstyle x_{t-1}|x_{0}}$ ${\textstyle x_{t}|x_{t-1}}$ $x_{t-1}={\sqrt {{\bar {\alpha }}_{t-1}}}x_{0}+{\sqrt {1-{\bar {\alpha }}_{t-1}}}z$ $x_{t}={\sqrt {\alpha _{t}}}x_{t-1}+{\sqrt {1-\alpha _{t}}}z'$ ${\textstyle z,z'}$

Имеется 5 переменных и два линейных уравнения. Два источника случайности — это , которые можно перепараметризовать вращением, поскольку распределение Гаусса IID является вращательно-симметричным. ${\textstyle x_{0},x_{t-1},x_{t},z,z'}$ ${\textstyle z,z'}$

Подставляя уравнения, мы можем решить первую перепараметризацию: где — гауссиана со средним значением нулевым и дисперсией единицей. $x_{t}={\sqrt {{\bar {\alpha }}_{t}}}x_{0}+\underbrace {{\sqrt {\alpha _{t}-{\bar {\alpha }}_{t}}}z+{\sqrt {1-\alpha _{t}}}z'} _{=\sigma _{t}z''}$ ${\textstyle z''}$

Чтобы найти второе, дополним матрицу вращения: ${\begin{bmatrix}z''\\z'''\end{bmatrix}}={\begin{bmatrix}{\frac {\sqrt {\alpha _{t}-{\bar {\alpha }}_{t}}}{\sigma _{t}}}&{\frac {\sqrt {\beta _{t}}}{\sigma _{t}}}\\?&?\end{bmatrix}}{\begin{bmatrix}z\\z'\end{bmatrix}}$

Поскольку все матрицы вращения имеют вид , мы знаем, что матрица должна быть и поскольку обратная матрица вращения является ее транспонированной, ${\textstyle {\begin{bmatrix}\cos \theta &\sin \theta \\-\sin \theta &\cos \theta \end{bmatrix}}}$ ${\begin{bmatrix}z''\\z'''\end{bmatrix}}={\begin{bmatrix}{\frac {\sqrt {\alpha _{t}-{\bar {\alpha }}_{t}}}{\sigma _{t}}}&{\frac {\sqrt {\beta _{t}}}{\sigma _{t}}}\\-{\frac {\sqrt {\beta _{t}}}{\sigma _{t}}}&{\frac {\sqrt {\alpha _{t}-{\bar {\alpha }}_{t}}}{\sigma _{t}}}\end{bmatrix}}{\begin{bmatrix}z\\z'\end{bmatrix}}$
${\begin{bmatrix}z\\z'\end{bmatrix}}={\begin{bmatrix}{\frac {\sqrt {\alpha _{t}-{\bar {\alpha }}_{t}}}{\sigma _{t}}}&-{\frac {\sqrt {\beta _{t}}}{\sigma _{t}}}\\{\frac {\sqrt {\beta _{t}}}{\sigma _{t}}}&{\frac {\sqrt {\alpha _{t}-{\bar {\alpha }}_{t}}}{\sigma _{t}}}\end{bmatrix}}{\begin{bmatrix}z''\\z'''\end{bmatrix}}$

Возвращаясь назад и упрощая, мы имеем $x_{t}={\sqrt {{\bar {\alpha }}_{t}}}x_{0}+\sigma _{t}z''$ $x_{t-1}={\tilde {\mu }}_{t}(x_{t},x_{0})-{\tilde {\sigma }}_{t}z'''$

Обратная диффузия

Основная идея DDPM заключается в использовании нейронной сети, параметризованной с помощью . Сеть принимает два аргумента и выводит вектор и матрицу , так что каждый шаг в процессе прямой диффузии может быть приблизительно отменен с помощью . Это затем дает нам процесс обратной диффузии, определяемый с помощью Цель сейчас состоит в том, чтобы узнать параметры, которые являются как можно ближе к . Для этого мы используем оценку максимального правдоподобия с вариационным выводом. $\theta$ $x_{t},t$ $\mu _{\theta }(x_{t},t)$ $\Sigma _{\theta }(x_{t},t)$ $x_{t-1}\sim N(\mu _{\theta }(x_{t},t),\Sigma _{\theta }(x_{t},t))$ $p_{\theta }$ $p_{\theta }(x_{T})=N(x_{T}|0,I)$ $p_{\theta }(x_{t-1}|x_{t})=N(x_{t-1}|\mu _{\theta }(x_{t},t),\Sigma _{\theta }(x_{t},t))$ $p_{\theta }(x_{0})$ $q(x_{0})$

Вариационный вывод

Неравенство ELBO утверждает, что , и принимая еще одно ожидание, мы получаем Мы видим, что максимизация величины справа даст нам нижнюю границу вероятности наблюдаемых данных. Это позволяет нам выполнять вариационный вывод. $\ln p_{\theta }(x_{0})\geq E_{x_{1:T}\sim q(\cdot |x_{0})}[\ln p_{\theta }(x_{0:T})-\ln q(x_{1:T}|x_{0})]$ $E_{x_{0}\sim q}[\ln p_{\theta }(x_{0})]\geq E_{x_{0:T}\sim q}[\ln p_{\theta }(x_{0:T})-\ln q(x_{1:T}|x_{0})]$

Определим функцию потерь , и теперь цель состоит в минимизации потерь с помощью стохастического градиентного спуска. Выражение может быть упрощено до ^[16] , где не зависит от параметра, и, таким образом, может быть проигнорировано. Поскольку также не зависит от параметра, член также может быть проигнорирован. Это оставляет только то, что должно быть минимизировано. $L(\theta ):=-E_{x_{0:T}\sim q}[\ln p_{\theta }(x_{0:T})-\ln q(x_{1:T}|x_{0})]$ $L(\theta )=\sum _{t=1}^{T}E_{x_{t-1},x_{t}\sim q}[-\ln p_{\theta }(x_{t-1}|x_{t})]+E_{x_{0}\sim q}[D_{KL}(q(x_{T}|x_{0})\|p_{\theta }(x_{T}))]+C$ $C$ $p_{\theta }(x_{T})=N(x_{T}|0,I)$ $E_{x_{0}\sim q}[D_{KL}(q(x_{T}|x_{0})\|p_{\theta }(x_{T}))]$ $L(\theta )=\sum _{t=1}^{T}L_{t}$ $L_{t}=E_{x_{t-1},x_{t}\sim q}[-\ln p_{\theta }(x_{t-1}|x_{t})]$

Сеть прогнозирования шума

Так как , это предполагает, что мы должны использовать ; однако сеть не имеет доступа к , и поэтому она должна оценить его вместо этого. Теперь, так как , мы можем записать , где — некоторый неизвестный гауссовский шум. Теперь мы видим, что оценка эквивалентна оценке . $x_{t-1}|x_{t},x_{0}\sim N({\tilde {\mu }}_{t}(x_{t},x_{0}),{\tilde {\sigma }}_{t}^{2}I)$ $\mu _{\theta }(x_{t},t)={\tilde {\mu }}_{t}(x_{t},x_{0})$ $x_{0}$ $x_{t}|x_{0}\sim N\left({\sqrt {{\bar {\alpha }}_{t}}}x_{0},\sigma _{t}^{2}I\right)$ $x_{t}={\sqrt {{\bar {\alpha }}_{t}}}x_{0}+\sigma _{t}z$ $z$ $x_{0}$ $z$

Поэтому пусть сеть выводит шумовой вектор , и пусть он предсказывает Осталось спроектировать . В статье DDPM предлагалось не обучать его (поскольку это приводило к «нестабильному обучению и более низкому качеству выборки»), а фиксировать его на некотором значении , где оба давали схожую производительность. $\epsilon _{\theta }(x_{t},t)$ $\mu _{\theta }(x_{t},t)={\tilde {\mu }}_{t}\left(x_{t},{\frac {x_{t}-\sigma _{t}\epsilon _{\theta }(x_{t},t)}{\sqrt {{\bar {\alpha }}_{t}}}}\right)={\frac {x_{t}-\epsilon _{\theta }(x_{t},t)\beta _{t}/\sigma _{t}}{\sqrt {\alpha _{t}}}}$ $\Sigma _{\theta }(x_{t},t)$ $\Sigma _{\theta }(x_{t},t)=\zeta _{t}^{2}I$ $\zeta _{t}^{2}=\beta _{t}{\text{ or }}{\tilde {\sigma }}_{t}^{2}$

При этом потеря упрощается до значения , которое может быть минимизировано стохастическим градиентным спуском. В статье эмпирически отмечено, что даже более простая функция потерь приводит к лучшим моделям. $L_{t}={\frac {\beta _{t}^{2}}{2\alpha _{t}\sigma _{t}^{2}\zeta _{t}^{2}}}E_{x_{0}\sim q;z\sim N(0,I)}\left[\left\|\epsilon _{\theta }(x_{t},t)-z\right\|^{2}\right]+C$ $L_{simple,t}=E_{x_{0}\sim q;z\sim N(0,I)}\left[\left\|\epsilon _{\theta }(x_{t},t)-z\right\|^{2}\right]$

Процесс обратной диффузии

После обучения сети прогнозирования шума ее можно использовать для генерации точек данных в исходном распределении в цикле следующим образом:

Вычислить оценку шума $\epsilon \leftarrow \epsilon _{\theta }(x_{t},t)$
Вычислить исходную оценку данных ${\tilde {x}}_{0}\leftarrow (x_{t}-\sigma _{t}\epsilon )/{\sqrt {{\bar {\alpha }}_{t}}}$
Выборка предыдущих данных $x_{t-1}\sim N({\tilde {\mu }}_{t}(x_{t},{\tilde {x}}_{0}),{\tilde {\sigma }}_{t}^{2}I)$
Изменить время $t\leftarrow t-1$

Генеративная модель на основе оценок

Генеративная модель на основе оценок — это еще одна формулировка диффузионного моделирования. Их также называют сетью условной оценки шума (NCSN) или сопоставлением оценок с динамикой Ланжевена (SMLD). ^[17]^[18]^[19]^[20]

Соответствие оценок

Идея функций оценки

Рассмотрим задачу генерации изображения. Пусть представляет собой изображение, а будет распределением вероятностей по всем возможным изображениям. Если у нас есть само себя, то мы можем точно сказать, насколько вероятным является определенное изображение. Однако в общем случае это неразрешимо. $x$ $q(x)$ $q(x)$

Чаще всего мы не заинтересованы в том, чтобы знать абсолютную вероятность определенного изображения. Вместо этого мы обычно заинтересованы только в том, чтобы узнать, насколько вероятно определенное изображение по сравнению с его непосредственными соседями — например, насколько более вероятно изображение кошки по сравнению с некоторыми его небольшими вариантами? Является ли оно более вероятным, если изображение содержит два уса, или три, или с добавлением некоторого гауссовского шума?

Следовательно, мы на самом деле совершенно не заинтересованы в себе, а скорее, . Это имеет два основных эффекта: $q(x)$ $\nabla _{x}\ln q(x)$

Во-первых, нам больше не нужно нормализовать , а можно использовать любой , где — любая неизвестная константа, которая нас не интересует. $q(x)$ ${\tilde {q}}(x)=Cq(x)$ $C=\int {\tilde {q}}(x)dx>0$
Во-вторых, мы сравниваем соседей , $q(x)$ $q(x+dx)$ ${\frac {q(x)}{q(x+dx)}}=e^{-\langle \nabla _{x}\ln q,dx\rangle }$

Пусть функция оценки будет ; затем рассмотрим, что мы можем сделать с . $s(x):=\nabla _{x}\ln q(x)$ $s(x)$

Как оказалось, позволяет нам делать выборку из использования термодинамики. В частности, если у нас есть функция потенциальной энергии и много частиц в потенциальной яме, то распределение при термодинамическом равновесии — это распределение Больцмана . При температуре распределение Больцмана в точности равно . $s(x)$ $q(x)$ $U(x)=-\ln q(x)$ $q_{U}(x)\propto e^{-U(x)/k_{B}T}=q(x)^{1/k_{B}T}$ $k_{B}T=1$ $q(x)$

Поэтому для моделирования мы можем начать с частицы, выбранной при любом удобном распределении (например, стандартном гауссовом распределении), затем смоделировать движение частицы вперед в соответствии с уравнением Ланжевена , а распределение Больцмана, согласно уравнению Фоккера-Планка, является уникальным термодинамическим равновесием . Поэтому независимо от того, какое распределение имеет, распределение сходится в распределении к как . $q(x)$ $dx_{t}=-\nabla _{x_{t}}U(x_{t})dt+dW_{t}$ $x_{0}$ $x_{t}$ $q$ $t\to \infty$

Изучение функции подсчета очков

Учитывая плотность , мы хотим узнать приближение функции оценки . Это сопоставление оценок . ^[21] Обычно сопоставление оценок формализуется как минимизация функции расхождения Фишера . Расширяя интеграл и выполняя интегрирование по частям, мы получаем функцию потерь, также известную как правило оценки Хювяринена , которая может быть минимизирована с помощью стохастического градиентного спуска. $q$ $f_{\theta }\approx \nabla \ln q$ $E_{q}[\|f_{\theta }(x)-\nabla \ln q(x)\|^{2}]$ $E_{q}[\|f_{\theta }(x)-\nabla \ln q(x)\|^{2}]=E_{q}[\|f_{\theta }\|^{2}+2\nabla ^{2}\cdot f_{\theta }]+C$

Отжиг функции счета

Предположим, нам нужно смоделировать распределение изображений, и мы хотим , изображение с белым шумом. Теперь большинство изображений с белым шумом не выглядят как реальные изображения, поэтому для больших полос . Это представляет проблему для обучения функции оценки, потому что если нет образцов вокруг определенной точки, то мы не можем узнать функцию оценки в этой точке. Если мы не знаем функцию оценки в этой точке, то мы не можем наложить уравнение эволюции во времени на частицу: Чтобы справиться с этой проблемой, мы выполняем отжиг . Если слишком отличается от распределения белого шума, то постепенно добавляем шум, пока он не станет неотличим от него. То есть мы выполняем прямую диффузию, затем изучаем функцию оценки, затем используем функцию оценки для выполнения обратной диффузии. $x_{0}\sim N(0,I)$ $q(x_{0})\approx 0$ $x_{0}\sim N(0,I)$ $\nabla _{x_{t}}\ln q(x_{t})$ $dx_{t}=\nabla _{x_{t}}\ln q(x_{t})dt+dW_{t}$ $q$

Непрерывные процессы диффузии

Процесс прямой диффузии

Рассмотрим снова процесс прямой диффузии, но на этот раз в непрерывном времени: Принимая предел, мы получаем непрерывный процесс диффузии в форме стохастического дифференциального уравнения : где — винеровский процесс (многомерное броуновское движение). $x_{t}={\sqrt {1-\beta _{t}}}x_{t-1}+{\sqrt {\beta _{t}}}z_{t}$ $\beta _{t}\to \beta (t)dt,{\sqrt {dt}}z_{t}\to dW_{t}$ $dx_{t}=-{\frac {1}{2}}\beta (t)x_{t}dt+{\sqrt {\beta (t)}}dW_{t}$ $W_{t}$

Теперь уравнение является в точности частным случаем сверхдемпфированного уравнения Ланжевена , где — тензор диффузии, — температура, — поле потенциальной энергии. Если мы подставим в , то восстановим приведенное выше уравнение. Это объясняет, почему фраза «динамика Ланжевена» иногда используется в моделях диффузии. $dx_{t}=-{\frac {D}{k_{B}T}}(\nabla _{x}U)dt+{\sqrt {2D}}dW_{t}$ $D$ $T$ $U$ $D={\frac {1}{2}}\beta (t)I,k_{B}T=1,U={\frac {1}{2}}\|x\|^{2}$

Теперь приведенное выше уравнение относится к стохастическому движению одной частицы. Предположим, что у нас есть облако частиц, распределенных в соответствии с в момент времени , тогда через долгое время облако частиц придет в стабильное распределение . Пусть будет плотностью облака частиц в момент времени , тогда мы имеем и цель состоит в том, чтобы каким-то образом обратить процесс вспять, так что мы можем начать с конца и вернуться к началу. $q$ $t=0$ $N(0,I)$ $\rho _{t}$ $t$ $\rho _{0}=q;\quad \rho _{T}\approx N(0,I)$

Согласно уравнению Фоккера-Планка , плотность облака изменяется в соответствии с зависимостью, где — размерность пространства, а — оператор Лапласа . $\partial _{t}\ln \rho _{t}={\frac {1}{2}}\beta (t)\left(n+(x+\nabla \ln \rho _{t})\cdot \nabla \ln \rho _{t}+\Delta \ln \rho _{t}\right)$ $n$ $\Delta$

Процесс обратной диффузии

Если мы решили для времени , то мы можем точно обратить эволюцию облака. Предположим, мы начинаем с другого облака частиц с плотностью , и позволяем частицам в облаке эволюционировать согласно , то, подставляя в уравнение Фоккера-Планка, мы находим, что . Таким образом, это облако точек является исходным облаком, эволюционирующим в обратном направлении. ^[22] $\rho _{t}$ $t\in [0,T]$ $\nu _{0}=\rho _{T}$ $dy_{t}={\frac {1}{2}}\beta (T-t)y_{t}dt+\beta (T-t)\underbrace {\nabla _{y_{t}}\ln \rho _{T-t}\left(y_{t}\right)} _{\text{score function }}dt+{\sqrt {\beta (T-t)}}dW_{t}$ $\partial _{t}\rho _{T-t}=\partial _{t}\nu _{t}$

Сеть условной оценки шума (NCSN)

В непрерывном пределе, и так В частности, мы видим, что мы можем напрямую сделать выборку из любой точки в непрерывном диффузионном процессе, не проходя через промежуточные этапы, сначала сделав выборку , а затем получив . То есть мы можем быстро сделать выборку для любого . ${\bar {\alpha }}_{t}=(1-\beta _{1})\cdots (1-\beta _{t})=e^{\sum _{i}\ln(1-\beta _{i})}\to e^{-\int _{0}^{t}\beta (t)dt}$ $x_{t}|x_{0}\sim N\left(e^{-{\frac {1}{2}}\int _{0}^{t}\beta (t)dt}x_{0},\left(1-e^{-\int _{0}^{t}\beta (t)dt}\right)I\right)$ $x_{0}\sim q,z\sim N(0,I)$ $x_{t}=e^{-{\frac {1}{2}}\int _{0}^{t}\beta (t)dt}x_{0}+\left(1-e^{-\int _{0}^{t}\beta (t)dt}\right)z$ $x_{t}\sim \rho _{t}$ $t\geq 0$

Теперь определим определенное распределение вероятностей по , тогда функция потерь сопоставления оценок будет определена как ожидаемое расхождение Фишера: После обучения , поэтому мы можем выполнить процесс обратной диффузии, сначала выполнив выборку , а затем проинтегрировав SDE от до : Это можно сделать любым методом интегрирования SDE, например методом Эйлера–Маруямы . $\gamma$ $[0,\infty )$ $L(\theta )=E_{t\sim \gamma ,x_{t}\sim \rho _{t}}[\|f_{\theta }(x_{t},t)\|^{2}+2\nabla \cdot f_{\theta }(x_{t},t)]$ $f_{\theta }(x_{t},t)\approx \nabla \ln \rho _{t}$ $x_{T}\sim N(0,I)$ $t=T$ $t=0$ $x_{t-dt}=x_{t}+{\frac {1}{2}}\beta (t)x_{t}dt+\beta (t)f_{\theta }(x_{t},t)dt+{\sqrt {\beta (t)}}dW_{t}$

Название «сеть условной оценки шума» объясняется следующим образом:

«сеть», потому что реализована как нейронная сеть. $f_{\theta }$
«оценка», поскольку выход сети интерпретируется как приближение функции оценки . $\nabla \ln \rho _{t}$
«шум условный», поскольку эквивалентен размытию из-за добавленного гауссовского шума, который увеличивается со временем, и поэтому функция оценки зависит от количества добавленного шума. $\rho _{t}$ $\rho _{0}$

Их эквивалентность

Генеративные модели DDPM и основанные на оценках эквивалентны. ^[18]^[2]^[23] Это означает, что сеть, обученная с использованием DDPM, может использоваться как NCSN, и наоборот.

Мы знаем, что , поэтому по формуле Твиди , мы имеем Как было описано ранее, функция потерь DDPM равна , где . С помощью замены переменных, и член внутри становится регрессией наименьших квадратов, поэтому если сеть действительно достигает глобального минимума потерь, то мы имеем $x_{t}|x_{0}\sim N\left({\sqrt {{\bar {\alpha }}_{t}}}x_{0},\sigma _{t}^{2}I\right)$ $\nabla _{x_{t}}\ln q(x_{t})={\frac {1}{\sigma _{t}^{2}}}(-x_{t}+{\sqrt {{\bar {\alpha }}_{t}}}E_{q}[x_{0}|x_{t}])$ $\sum _{t}L_{simple,t}$ $L_{simple,t}=E_{x_{0}\sim q;z\sim N(0,I)}\left[\left\|\epsilon _{\theta }(x_{t},t)-z\right\|^{2}\right]$ $x_{t}={\sqrt {{\bar {\alpha }}_{t}}}x_{0}+\sigma _{t}z$ $L_{simple,t}=E_{x_{0},x_{t}\sim q}\left[\left\|\epsilon _{\theta }(x_{t},t)-{\frac {x_{t}-{\sqrt {{\bar {\alpha }}_{t}}}x_{0}}{\sigma _{t}}}\right\|^{2}\right]=E_{x_{t}\sim q,x_{0}\sim q(\cdot |x_{t})}\left[\left\|\epsilon _{\theta }(x_{t},t)-{\frac {x_{t}-{\sqrt {{\bar {\alpha }}_{t}}}x_{0}}{\sigma _{t}}}\right\|^{2}\right]$ $\epsilon _{\theta }(x_{t},t)={\frac {x_{t}-{\sqrt {{\bar {\alpha }}_{t}}}E_{q}[x_{0}|x_{t}]}{\sigma _{t}}}=-\sigma _{t}\nabla _{x_{t}}\ln q(x_{t})$

Таким образом, сеть на основе оценок может использоваться для подавления шума диффузии.

Наоборот, непрерывный предел обратного уравнения дает нам точно такое же уравнение, как и диффузия на основе оценок: Таким образом, шумоподавляющую сеть можно использовать так же, как и для диффузии на основе оценок. $x_{t-1}=x_{t-dt},\beta _{t}=\beta (t)dt,z_{t}{\sqrt {dt}}=dW_{t}$ $x_{t-1}={\frac {x_{t}}{\sqrt {\alpha _{t}}}}-{\frac {\beta _{t}}{\sigma _{t}{\sqrt {\alpha _{t}}}}}\epsilon _{\theta }(x_{t},t)+{\sqrt {\beta _{t}}}z_{t};\quad z_{t}\sim N(0,I)$ $x_{t-dt}=x_{t}(1+\beta (t)dt/2)+\beta (t)\nabla _{x_{t}}\ln q(x_{t})dt+{\sqrt {\beta (t)}}dW_{t}$

Основные варианты

График шума

В DDPM последовательность чисел называется (дискретным временем) графиком шума . В общем случае рассмотрим строго возрастающую монотонную функцию типа , например, сигмоидальную функцию . В этом случае график шума представляет собой последовательность действительных чисел . Затем он определяет последовательность шумов , которая затем выводит другие величины . $0=\sigma _{0}<\sigma _{1}<\cdots <\sigma _{T}<1$ $\sigma$ $\mathbb {R} \to (0,1)$ $\lambda _{1}<\lambda _{2}<\cdots <\lambda _{T}$ $\sigma _{t}:=\sigma (\lambda _{t})$ $\beta _{t}=1-{\frac {1-\sigma _{t}^{2}}{1-\sigma _{t-1}^{2}}}$

Чтобы использовать произвольные графики шума, вместо обучения модели прогнозирования шума , обучают . $\epsilon _{\theta }(x_{t},t)$ $\epsilon _{\theta }(x_{t},\sigma _{t})$

Аналогично, для сети условной оценки шума вместо обучения выполняется обучение . $f_{\theta }(x_{t},t)$ $f_{\theta }(x_{t},\sigma _{t})$

Неявная модель шумоподавления и диффузии (DDIM)

Первоначальный метод DDPM для генерации изображений медленный, поскольку процесс прямой диффузии обычно занимает , чтобы распределение выглядело близким к гауссовскому. Однако это означает, что процесс обратной диффузии также занимает 1000 шагов. В отличие от процесса прямой диффузии, который может пропускать шаги, поскольку является гауссовым для всех , процесс обратной диффузии не позволяет пропускать шаги. Например, для выборки требуется, чтобы модель сначала сделала выборку . Попытка прямой выборки потребовала бы от нас маргинализации из , что, как правило, неразрешимо. $T\sim 1000$ $x_{T}$ $x_{t}|x_{0}$ $t\geq 1$ $x_{t-2}|x_{t-1}\sim N(\mu _{\theta }(x_{t-1},t-1),\Sigma _{\theta }(x_{t-1},t-1))$ $x_{t-1}$ $x_{t-2}|x_{t}$ $x_{t-1}$

DDIM ^[24] — это метод, позволяющий взять любую модель, обученную на потерях DDPM, и использовать ее для выборки с некоторыми пропущенными шагами, жертвуя регулируемым количеством качества. Если мы сгенерируем случай марковской цепи в DDPM в немарковский случай, DDIM соответствует случаю, когда обратный процесс имеет дисперсию, равную 0. Другими словами, обратный процесс (а также прямой процесс) является детерминированным. При использовании меньшего количества шагов выборки DDIM превосходит DDPM.

В деталях метод выборки DDIM выглядит следующим образом. Начните с процесса прямой диффузии . Затем, во время процесса обратного шумоподавления, учитывая , исходные данные оцениваются как тогда процесс обратной диффузии может перейти на любой шаг , а следующий очищенный от шумов образец равен , где — произвольное действительное число в диапазоне , а — вновь выбранный гауссовский шум. ^[16] Если все , то обратный процесс становится детерминированным, и этот особый случай DDIM также называется «DDIM». В оригинальной статье отмечалось, что когда процесс детерминирован, образцы, сгенерированные всего за 20 шагов, уже очень похожи на те, которые сгенерированы за 1000 шагов на высоком уровне. $x_{t}={\sqrt {{\bar {\alpha }}_{t}}}x_{0}+\sigma _{t}\epsilon$ $x_{t},\epsilon _{\theta }(x_{t},t)$ $x_{0}'={\frac {x_{t}-\sigma _{t}\epsilon _{\theta }(x_{t},t)}{\sqrt {{\bar {\alpha }}_{t}}}}$ $0\leq s<t$ $x_{s}={\sqrt {{\bar {\alpha }}_{s}}}x_{0}'+{\sqrt {\sigma _{s}^{2}-(\sigma '_{s})^{2}}}\epsilon _{\theta }(x_{t},t)+\sigma _{s}'\epsilon$ $\sigma _{s}'$ $[0,\sigma _{s}]$ $\epsilon \sim N(0,I)$ $\sigma _{s}'=0$

В оригинальной статье рекомендовалось определить единое «значение эта» , такое, что . Когда , это исходный DDPM. Когда , это полностью детерминированный DDIM. Для промежуточных значений процесс интерполирует между ними. $\eta \in [0,1]$ $\sigma _{s}'=\eta {\tilde {\sigma }}_{s}$ $\eta =1$ $\eta =0$

По аналогии алгоритм DDIM применим и к моделям диффузии на основе баллов.

Модель скрытой диффузии (LDM)

Поскольку модель диффузии является общим методом моделирования распределений вероятностей, если кто-то хочет смоделировать распределение по изображениям, он может сначала закодировать изображения в пространство меньшей размерности с помощью кодировщика, а затем использовать модель диффузии для моделирования распределения по закодированным изображениям. Затем, чтобы сгенерировать изображение, он может сделать выборку из модели диффузии, а затем использовать декодер для ее декодирования в изображение. ^[25]

Пара кодер-декодер чаще всего представляет собой вариационный автокодировщик (VAE).

Архитектурные улучшения

^[26] предложили различные архитектурные улучшения. Например, они предложили интерполяцию логарифмического пространства во время обратной выборки. Вместо выборки из они рекомендовали выборку из для изученного параметра . $x_{t-1}\sim N({\tilde {\mu }}_{t}(x_{t},{\tilde {x}}_{0}),{\tilde {\sigma }}_{t}^{2}I)$ $N({\tilde {\mu }}_{t}(x_{t},{\tilde {x}}_{0}),(\sigma _{t}^{v}{\tilde {\sigma }}_{t}^{1-v})^{2}I)$ $v$

В формализме v-предсказания формула зашумления перепараметризуется углом таким образом, что и «скоростью», определяемой как . Сеть обучается предсказывать скорость , а шумоподавление осуществляется с помощью . ^[27] Было обнаружено, что эта параметризация улучшает производительность, поскольку модель может быть обучена достигать полного шума (т. е. ), а затем обратить ее вспять, тогда как стандартная параметризация никогда не достигает полного шума, поскольку всегда верна. ^[28] $x_{t}={\sqrt {{\bar {\alpha }}_{t}}}x_{0}+{\sqrt {1-{\bar {\alpha }}_{t}}}\epsilon _{t}$ $\phi _{t}$ $\cos \phi _{t}={\sqrt {{\bar {\alpha }}_{t}}}$ $\cos \phi _{t}\epsilon _{t}-\sin \phi _{t}x_{0}$ ${\hat {v}}_{\theta }$ $x_{\phi _{t}-\delta }=\cos(\delta )\;x_{\phi _{t}}-\sin(\delta ){\hat {v}}_{\theta }\;(x_{\phi _{t}})$ $\phi _{t}=90^{\circ }$ ${\sqrt {{\bar {\alpha }}_{t}}}>0$

Руководство по классификатору

Руководство по классификатору было предложено в 2021 году для улучшения генерации условного класса с помощью классификатора. В оригинальной публикации использовались текстовые кодировщики CLIP для улучшения генерации условного текста изображения. ^[29]

Предположим, мы хотим сделать выборку не из всего распределения изображений, а в зависимости от описания изображения. Мы не хотим делать выборку общего изображения, а изображения, которое соответствует описанию "черный кот с красными глазами". Как правило, мы хотим сделать выборку из распределения , где диапазоны по изображениям, а диапазоны по классам изображений (описание "черный кот с красными глазами" - это просто очень подробный класс, а класс "кот" - это просто очень расплывчатое описание). $p(x|y)$ $x$ $y$

Принимая во внимание модель канала с шумом , мы можем понять этот процесс следующим образом: чтобы сгенерировать изображение, обусловленное описанием , мы представляем, что запрашивающий действительно имел в виду изображение , но изображение передается через канал с шумом и выходит искаженным, как . Генерация изображения тогда является не чем иным, как выводом того, что имел в виду запрашивающий. $x$ $y$ $x$ $y$ $x$

Другими словами, условная генерация изображений — это просто «перевод с текстового языка на изобразительный». Затем, как и в модели с шумным каналом, мы используем теорему Байеса, чтобы получить, другими словами, если у нас есть хорошая модель пространства всех изображений и хороший транслятор изображения в класс, мы получаем транслятор класса в изображение «бесплатно». В уравнении для обратной диффузии оценка может быть заменена на , где — функция оценки, обученная, как описано ранее, и находится с помощью дифференцируемого классификатора изображений. $p(x|y)\propto p(y|x)p(x)$ $\nabla \ln p(x)$ $\nabla _{x}\ln p(x|y)=\underbrace {\nabla _{x}\ln p(x)} _{\text{score}}+\underbrace {\nabla _{x}\ln p(y|x)} _{\text{classifier guidance}}$ $\nabla _{x}\ln p(x)$ $\nabla _{x}\ln p(y|x)$

В процессе диффузии нам необходимо задать условие по времени, давая Хотя обычно модель классификатора не зависит от времени, в этом случае . $\nabla _{x_{t}}\ln p(x_{t}|y,t)=\nabla _{x_{t}}\ln p(y|x_{t},t)+\nabla _{x_{t}}\ln p(x_{t}|t)$ $p(y|x_{t},t)=p(y|x_{t})$

Руководство классификатора определено для градиента функции оценки, таким образом, для диффузионной сети на основе оценок, но, как было отмечено ранее, диффузионные модели на основе оценок эквивалентны шумоподавляющим моделям с помощью , и аналогично, . Таким образом, руководство классификатора работает также для шумоподавляющей диффузии, используя модифицированное предсказание шума: ^[29] $\epsilon _{\theta }(x_{t},t)=-\sigma _{t}\nabla _{x_{t}}\ln p(x_{t}|t)$ $\epsilon _{\theta }(x_{t},y,t)=-\sigma _{t}\nabla _{x_{t}}\ln p(x_{t}|y,t)$ $\epsilon _{\theta }(x_{t},y,t)=\epsilon _{\theta }(x_{t},t)-\underbrace {\sigma _{t}\nabla _{x_{t}}\ln p(y|x_{t},t)} _{\text{classifier guidance}}$

С температурой

Модель диффузии, управляемая классификатором, делает выборку из , которая концентрируется вокруг максимальной апостериорной оценки . Если мы хотим заставить модель двигаться к оценке максимального правдоподобия , мы можем использовать , где интерпретируется как обратная температура . В контексте моделей диффузии ее обычно называют шкалой руководства . Высокий уровень заставит модель делать выборку из распределения, сосредоточенного вокруг . Иногда это улучшает качество сгенерированных изображений. ^[29] $p(x|y)$ $\arg \max _{x}p(x|y)$ $\arg \max _{x}p(y|x)$ $p_{\gamma }(x|y)\propto p(y|x)^{\gamma }p(x)$ $\gamma >0$ $\gamma$ $\arg \max _{x}p(y|x)$

Это дает модификацию предыдущего уравнения: для моделей шумоподавления оно соответствует ^[30] $\nabla _{x}\ln p_{\beta }(x|y)=\nabla _{x}\ln p(x)+\gamma \nabla _{x}\ln p(y|x)$ $\epsilon _{\theta }(x_{t},y,t)=\epsilon _{\theta }(x_{t},t)-\gamma \sigma _{t}\nabla _{x_{t}}\ln p(y|x_{t},t)$

Руководство без классификаторов (CFG)

Если у нас нет классификатора , мы все равно можем извлечь его из самой модели изображения: ^[30] Такая модель обычно обучается путем предъявления ей как и , что позволяет ей моделировать как и . $p(y|x)$ $\nabla _{x}\ln p_{\gamma }(x|y)=(1-\gamma )\nabla _{x}\ln p(x)+\gamma \nabla _{x}\ln p(x|y)$ $(x,y)$ $(x,{\rm {None}})$ $\nabla _{x}\ln p(x|y)$ $\nabla _{x}\ln p(x)$

Обратите внимание, что для CFG модель диффузии не может быть просто генеративной моделью всего распределения данных . Она должна быть условной генеративной моделью . Например, в стабильной диффузии диффузионная магистраль принимает в качестве входных данных как шумовую модель , так и время и вектор обусловливания (например, вектор, кодирующий текстовую подсказку), и производит шумовое предсказание . $\nabla _{x}\ln p(x)$ $\nabla _{x}\ln p(x|y)$ $x_{t}$ $t$ $y$ $\epsilon _{\theta }(x_{t},y,t)$

Для шумоподавляющих моделей это соответствует Как выборка DDIM, алгоритм может быть записан как ^[31] Похожая техника применяется к выборке языковой модели. Кроме того, если безусловная генерация заменена на , то это приводит к отрицательному подсказке, которая отталкивает генерацию от условия. ^[32]^[33] $\epsilon _{\theta }(x_{t},y,t,\gamma )=\epsilon _{\theta }(x_{t},t)+\gamma (\epsilon _{\theta }(x_{t},y,t)-\epsilon _{\theta }(x_{t},t))$ ${\begin{aligned}\epsilon _{\text{uncond}}&\leftarrow \epsilon _{\theta }(x_{t},t)\\\epsilon _{\text{cond}}&\leftarrow \epsilon _{\theta }(x_{t},t,c)\\\epsilon _{\text{CFG}}&\leftarrow \epsilon _{\text{uncond}}+\gamma (\epsilon _{\text{cond}}-\epsilon _{\text{uncond}})\\x_{0}&\leftarrow (x_{t}-\sigma _{t}\epsilon _{\text{CFG}})/{\sqrt {1-\sigma _{t}^{2}}}\\x_{s}&\leftarrow {\sqrt {1-\sigma _{s}^{2}}}x_{0}+{\sqrt {\sigma _{s}^{2}-(\sigma _{s}')^{2}}}\epsilon _{\text{uncond}}+\sigma _{s}'\epsilon \\\end{aligned}}$ $\epsilon _{\text{uncond}}\leftarrow \epsilon _{\theta }(x_{t},t)$ $\epsilon _{\text{neg cond}}\leftarrow \epsilon _{\theta }(x_{t},t,c')$ $c'$

Сэмплеры

При наличии модели диффузии ее можно рассматривать как непрерывный процесс и делать выборки из нее путем интегрирования SDE, или можно рассматривать как дискретный процесс и делать выборки из нее путем итерации дискретных шагов. Выбор «графика шума » также может влиять на качество выборок. График шума — это функция, которая отправляет натуральное число на уровень шума: График шума чаще всего задается с помощью карты . Эти два определения эквивалентны, поскольку . $\beta _{t}$ $t\mapsto \beta _{t},\quad t\in \{1,2,\dots \},\beta \in (0,1)$ $t\mapsto \sigma _{t}$ $\beta _{t}=1-{\frac {1-\sigma _{t}^{2}}{1-\sigma _{t-1}^{2}}}$

В перспективе DDPM можно использовать сам DDPM (с шумом) или DDIM (с регулируемым количеством шума). Случай, когда добавляется шум, иногда называют предковой выборкой. ^[34] Можно интерполировать между шумом и его отсутствием. Количество шума обозначается («значение eta») в статье DDIM, обозначая отсутствие шума (как в детерминированном DDIM) и обозначая полный шум (как в DDPM). $\eta$ $\eta =0$ $\eta =1$

С точки зрения SDE можно использовать любой из методов численного интегрирования , например, метод Эйлера–Маруямы , метод Хойна , линейные многошаговые методы и т. д. Так же, как и в дискретном случае, можно добавлять регулируемое количество шума во время интегрирования.

Обзор и сравнение сэмплеров в контексте генерации изображений приведены в ^{[35] .}

Другие примеры

Известные варианты включают ^[36] модель генерации потока Пуассона, ^[37] модель согласованности, ^[38] критически затухающую диффузию Ланжевена, ^[39] GenPhys, ^[40] холодную диффузию, ^[41] дискретную диффузию, ^[42]^[43] и т. д.

Модель диффузии на основе потока

Абстрактно говоря, идея модели диффузии заключается в том, чтобы взять неизвестное распределение вероятностей (распределение естественно выглядящих изображений), а затем постепенно преобразовать его в известное распределение вероятностей (стандартное гауссово распределение), построив абсолютно непрерывный путь вероятности, соединяющий их. Путь вероятности фактически неявно определяется функцией оценки . $\nabla \ln p_{t}$

В шумоподавляющих моделях диффузии прямой процесс добавляет шум, а обратный процесс удаляет шум. Как прямой, так и обратный процессы являются SDE , хотя прямой процесс интегрируется в замкнутой форме, поэтому его можно выполнить без вычислительных затрат. Обратный процесс не интегрируется в замкнутой форме, поэтому его необходимо интегрировать шаг за шагом стандартными решателями SDE, что может быть очень затратно. Вероятностный путь в модели диффузии определяется с помощью процесса Ито , и можно получить детерминированный процесс, используя формулировку потока вероятностного ОДУ. ^[2]

В моделях диффузии на основе потока прямой процесс является детерминированным потоком вдоль векторного поля, зависящего от времени, а обратный процесс также является детерминированным потоком вдоль того же векторного поля, но идущим в обратном направлении. Оба процесса являются решениями ОДУ . Если векторное поле ведет себя хорошо, ОДУ также будет вести себя хорошо.

При наличии двух распределений и модель на основе потока представляет собой зависящее от времени поле скорости в , так что если мы начнем с выборки точки и позволим ей двигаться в соответствии с полем скорости: мы получим точку . Решение приведенного выше ОДУ определяет вероятностный путь с помощью оператора меры прямого проталкивания . В частности, . $\pi _{0}$ $\pi _{1}$ $v_{t}(x)$ $[0,1]\times \mathbb {R} ^{d}$ $x\sim \pi _{0}$ ${\frac {d}{dt}}\phi _{t}(x)=v_{t}(\phi _{t}(x))\quad t\in [0,1],\quad {\text{starting from }}\phi _{0}(x)=x$ $x_{1}\sim \pi _{1}$ $\phi _{t}$ $p_{t}=[\phi _{t}]_{\#}\pi _{0}$ $[\phi _{1}]_{\#}\pi _{0}=\pi _{1}$

Вероятностный путь и поле скорости также удовлетворяют уравнению непрерывности , в смысле распределения вероятностей: Чтобы построить вероятностный путь, мы начинаем с построения условного вероятностного пути и соответствующего условного поля скорости на некотором условном распределении . Естественным выбором является гауссовский условный вероятностный путь: Условное поле скорости, которое соответствует геодезическому пути между условным гауссовым путем, равно Затем вероятностный путь и поле скорости вычисляются путем маргинализации $\partial _{t}p_{t}+\nabla \cdot (v_{t}p_{t})=0$ $p_{t}(x\vert z)$ $v_{t}(x\vert z)$ $q(z)$ $p_{t}(x\vert z)={\mathcal {N}}\left(m_{t}(z),\zeta _{t}^{2}I\right)$ $v_{t}(x\vert z)={\frac {\zeta _{t}'}{\zeta _{t}}}(x-m_{t}(z))+m_{t}'(z)$

$p_{t}(x)=\int p_{t}(x\vert z)q(z)dz\qquad {\text{ and }}\qquad v_{t}(x)=\mathbb {E} _{q(z)}\left[{\frac {v_{t}(x\vert z)p_{t}(x\vert z)}{p_{t}(x)}}\right]$

Оптимальный транспортный поток

Идея оптимального транспортного потока ^[44] заключается в построении вероятностного пути, минимизирующего метрику Вассерштейна . Распределение, на котором мы строим условие, является оптимальным транспортным планом между и : и , где — оптимальный транспортный план, который может быть аппроксимирован мини-партией оптимальной транспортировки. $\pi _{0}$ $\pi _{1}$ $z=(x_{0},x_{1})$ $q(z)=\Gamma (\pi _{0},\pi _{1})$ $\Gamma$

Выпрямленный поток

Идея выпрямленного потока ^[45]^[46] заключается в том, чтобы изучить модель потока, в которой скорость почти постоянна вдоль каждого пути потока. Это выгодно, потому что мы можем интегрировать вдоль такого векторного поля за очень мало шагов. Например, если ОДУ следует идеально прямым путям, оно упрощается до , что позволяет получать точные решения за один шаг. На практике мы не можем достичь такого совершенства, но когда поле потока близко к такому, мы можем сделать несколько больших шагов вместо множества маленьких. ${\dot {\phi _{t}}}(x)=v_{t}(\phi _{t}(x))$ $\phi _{t}(x)=x_{0}+t\cdot v_{0}(x_{0})$

Общая идея заключается в том, чтобы начать с двух распределений и , затем построить поле потока из него, затем многократно применить операцию "перетекания" для получения последовательных полей потока , каждое из которых прямее предыдущего. Когда поле потока становится достаточно прямым для применения, мы останавливаемся. $\pi _{0}$ $\pi _{1}$ $\phi ^{0}=\{\phi _{t}:t\in [0,1]\}$ $\phi ^{1},\phi ^{2},\dots$

В общем случае для любого дифференцируемого по времени процесса можно оценить , решив: $\phi _{t}$ $v_{t}$ $\min _{\theta }\int _{0}^{1}\mathbb {E} _{x\sim p_{t}}\left[\lVert {v_{t}(x,\theta )-v_{t}(x)}\rVert ^{2}\right]\,\mathrm {d} t.$

В выпрямленном потоке введение сильных априорных данных о том, что промежуточные траектории являются прямыми, позволяет достичь как теоретической значимости для оптимальной транспортировки, так и вычислительной эффективности, поскольку ОДУ с прямыми траекториями можно точно моделировать без дискретизации по времени.

В частности, выпрямленный поток стремится сопоставить ОДУ с маргинальными распределениями линейной интерполяции между точками из распределений и . При наличии наблюдений и каноническая линейная интерполяция дает тривиальный случай , который не может быть причинно смоделирован без . Чтобы решить эту проблему, «проецируется» в пространство причинно смоделированных ОДУ, минимизируя потери наименьших квадратов относительно направления : $\pi _{0}$ $\pi _{1}$ $x_{0}\sim \pi _{0}$ $x_{1}\sim \pi _{1}$ $x_{t}=tx_{1}+(1-t)x_{0},t\in [0,1]$ ${\dot {x}}_{t}=x_{1}-x_{0}$ $x_{1}$ $x_{t}$ $x_{1}-x_{0}$ $\min _{\theta }\int _{0}^{1}\mathbb {E} _{\pi _{0},\pi _{1},p_{t}}\left[\lVert {(x_{1}-x_{0})-v_{t}(x_{t})}\rVert ^{2}\right]\,\mathrm {d} t.$

Пара данных может быть любой связью и , обычно независимой (т.е. ), полученной путем случайного объединения наблюдений из и . Этот процесс гарантирует, что траектории точно отражают карту плотности траекторий, но перенаправляют на пересечениях, чтобы гарантировать причинность. Этот процесс исправления также известен как Flow Matching, ^[47] Stochastic Interpolation, ^[48] и Alpha-Blending. ^[^{необходима цитата}^] $(x_{0},x_{1})$ $\pi _{0}$ $\pi _{1}$ $(x_{0},x_{1})\sim \pi _{0}\times \pi _{1}$ $\pi _{0}$ $\pi _{1}$ $x_{t}$

Отличительной особенностью выпрямленного потока является его способность к " перетеканию ", которая выпрямляет траекторию путей ODE. Обозначим выпрямленный поток, полученный из , как . Рекурсивное применение этого оператора генерирует ряд выпрямленных потоков . Этот процесс "перетекания" не только снижает транспортные расходы, но и выпрямляет пути выпрямленных потоков, делая их более прямыми с увеличением . $\phi ^{0}=\{\phi _{t}:t\in [0,1]\}$ $(x_{0},x_{1})$ $\phi ^{0}={\mathsf {Rectflow}}((x_{0},x_{1}))$ ${\mathsf {Rectflow}}(\cdot )$ $\phi ^{k+1}={\mathsf {Rectflow}}((\phi _{0}^{k}(x_{0}),\phi _{1}^{k}(x_{1})))$ $\phi ^{k}$ $k$

Выпрямленный поток включает нелинейное расширение, где линейная интерполяция заменяется любой дифференцируемой по времени кривой, которая соединяет и , заданной . Эта структура охватывает DDIM и вероятностные потоковые ОДУ как особые случаи, с конкретным выбором и . Однако в случае, когда путь не является прямым, процесс перетекания больше не обеспечивает снижение выпуклых транспортных расходов, а также больше не выпрямляет пути . ^[45] $x_{t}$ $x_{0}$ $x_{1}$ $x_{t}=\alpha _{t}x_{1}+\beta _{t}x_{0}$ $\alpha _{t}$ $\beta _{t}$ $x_{t}$ $\phi _{t}$

См. ^[49] для получения руководства по сопоставлению потоков с анимацией.

Выбор архитектуры

Модель диффузии

Для генерации изображений с помощью DDPM нам нужна нейронная сеть, которая берет время и шумное изображение и предсказывает шум из него. Поскольку предсказание шума то же самое, что и предсказание шумоподавленного изображения, то вычитание его из , архитектуры шумоподавления, как правило, работают хорошо. Например, U-Net , которая, как было обнаружено, хороша для шумоподавления изображений, часто используется для шумоподавления диффузионных моделей, которые генерируют изображения. ^[50] $t$ $x_{t}$ $\epsilon _{\theta }(x_{t},t)$ $x_{t}$

Для DDPM базовая архитектура («скелет») не обязательно должна быть U-Net. Она просто должна каким-то образом предсказывать шум. Например, диффузионный трансформатор (DiT) использует Transformer для прогнозирования средней и диагональной ковариации шума, учитывая текстовую обусловленность и частично очищенное от шума изображение. Это то же самое, что и стандартная модель диффузии с шумоподавлением на основе U-Net, с Transformer, заменяющим U-Net. ^[51] Также может применяться смесь экспертов и Transformer. ^[52]

DDPM можно использовать для моделирования общих распределений данных, а не только естественно выглядящих изображений. Например, Human Motion Diffusion ^[53] моделирует траекторию движения человека с помощью DDPM. Каждая траектория движения человека представляет собой последовательность поз, представленных либо вращениями суставов, либо положениями. Он использует сеть Transformer для генерации менее шумной траектории из шумной.

Кондиционирование

Базовая модель диффузии может генерировать только безусловно из всего распределения. Например, модель диффузии, обученная на ImageNet, будет генерировать изображения, которые выглядят как случайное изображение из ImageNet. Чтобы генерировать изображения только из одной категории, нужно наложить условие, а затем сделать выборку из условного распределения. Какое бы условие вы ни хотели наложить, нужно сначала преобразовать условие в вектор чисел с плавающей точкой, а затем передать его в базовую нейронную сеть модели диффузии. Однако у вас есть свобода выбора, как преобразовать условие в вектор.

Например, Stable Diffusion накладывает обусловленность в форме механизма перекрестного внимания , где запрос является промежуточным представлением изображения в U-Net, а ключ и значение являются векторами обусловленности. Обусловленность может быть выборочно применена только к частям изображения, и новые виды обусловленности могут быть точно настроены на базовой модели, как это используется в ControlNet. ^[54]

В качестве особенно простого примера рассмотрим закрашивание изображения . Условиями являются , опорное изображение, и , маска закрашивания . Обусловливание накладывается на каждом шаге процесса обратной диффузии, сначала путем выборки , шумовой версии , а затем замены на , где означает поэлементное умножение . ^[55] Другое применение механизма перекрестного внимания — это редактирование изображений по принципу «подсказка-подсказка». ^[56] ${\tilde {x}}$ $m$ ${\tilde {x}}_{t}\sim N\left({\sqrt {{\bar {\alpha }}_{t}}}{\tilde {x}},\sigma _{t}^{2}I\right)$ ${\tilde {x}}$ $x_{t}$ $(1-m)\odot x_{t}+m\odot {\tilde {x}}_{t}$ $\odot$

Кондиционирование не ограничивается только созданием изображений из определенной категории или в соответствии с определенным заголовком (как в случае с текстом в изображение). Например, ^[53] продемонстрировано создание человеческого движения, обусловленного аудиоклипом человеческой ходьбы (позволяющим синхронизировать движение со звуковой дорожкой), или видео человеческого бега, или текстовым описанием человеческого движения и т. д. О том, как математически формулируются модели условной диффузии, см. методологическое резюме в ^{[57] .}

Масштабирование

Поскольку генерация изображения занимает много времени, можно попробовать сгенерировать небольшое изображение с помощью базовой модели диффузии, а затем масштабировать его с помощью других моделей. Масштабирование можно выполнить с помощью GAN , ^[58] Transformer , ^[59] или методов обработки сигналов, таких как повторная выборка Ланцоша .

Модели диффузии сами по себе могут использоваться для выполнения масштабирования. Каскадная модель диффузии складывает несколько моделей диффузии одну за другой, в стиле Progressive GAN . Самый низкий уровень — это стандартная модель диффузии, которая генерирует изображение 32x32, затем изображение масштабируется с помощью модели диффузии, специально обученной для масштабирования, и процесс повторяется. ^[50]

Более подробно, диффузионный апскейлер обучается следующим образом: ^[50]

Образец , где — изображение с высоким разрешением, — то же изображение, но уменьшенное до низкого разрешения, — условие, которым может быть заголовок изображения, класс изображения и т. д. $(x_{0},z_{0},c)$ $x_{0}$ $z_{0}$ $c$
Пример двух белых шумов , два временных шага . Вычислите зашумленные версии изображений с высоким и низким разрешением: . $\epsilon _{x},\epsilon _{z}$ $t_{x},t_{z}$ ${\begin{cases}x_{t_{x}}&={\sqrt {{\bar {\alpha }}_{t_{x}}}}x_{0}+\sigma _{t_{x}}\epsilon _{x}\\z_{t_{z}}&={\sqrt {{\bar {\alpha }}_{t_{z}}}}z_{0}+\sigma _{t_{z}}\epsilon _{z}\end{cases}}$
Обучить сеть шумоподавления для прогнозирования заданного . То есть применить градиентный спуск к на потере L2 . $\epsilon _{x}$ $x_{t_{x}},z_{t_{z}},t_{x},t_{z},c$ $\theta$ $\|\epsilon _{\theta }(x_{t_{x}},z_{t_{z}},t_{x},t_{z},c)-\epsilon _{x}\|_{2}^{2}$

Примеры

В этом разделе собраны некоторые известные модели диффузии и кратко описана их архитектура.

OpenAI

Серия DALL-E от OpenAI представляет собой текстово-условные диффузионные модели изображений.

Первая версия DALL-E (2021) на самом деле не является моделью диффузии. Вместо этого она использует архитектуру Transformer, которая авторегрессивно генерирует последовательность токенов, которая затем преобразуется в изображение декодером дискретного VAE. С DALL-E был выпущен классификатор CLIP, который использовался DALL-E для ранжирования сгенерированных изображений в соответствии с тем, насколько близко изображение соответствует тексту.

GLIDE (2022-03) ^[60] — это модель диффузии на 3,5 миллиарда, и ее уменьшенная версия была выпущена публично. ^[6] Вскоре после этого был выпущен DALL-E 2 (2022-04). ^[61] DALL-E 2 — это каскадная модель диффузии на 3,5 миллиарда, которая генерирует изображения из текста путем «инвертирования кодировщика изображений CLIP», метод, который они назвали «unCLIP».

Метод unCLIP содержит 4 модели: кодировщик изображений CLIP, кодировщик текста CLIP, декодер изображений и «предыдущую» модель (которая может быть моделью диффузии или авторегрессионной моделью). Во время обучения предыдущая модель обучается преобразовывать кодировки изображений CLIP в кодировки текста CLIP. Декодер изображений обучается преобразовывать кодировки изображений CLIP обратно в изображения. Во время вывода текст преобразуется кодировщиком текста CLIP в вектор, затем он преобразуется предыдущей моделью в кодировку изображения, затем он преобразуется декодером изображений в изображение.

Sora (2024-02) — это модель диффузионного трансформатора (DiT).

Стабильность ИИ

Stable Diffusion (2022-08), выпущенный Stability AI, состоит из модели скрытой диффузии шумоподавления (860 миллионов параметров), VAE и текстового кодировщика. Сеть шумоподавления представляет собой U-Net с блоками перекрестного внимания, позволяющими генерировать условные изображения. ^[62]^[25]

Stable Diffusion 3 (2024-03) ^[63] изменил модель скрытой диффузии с UNet на модель Transformer, и поэтому это DiT. Он использует выпрямленный поток.

Stable Video 4D (2024-07) ^[64] — это модель скрытой диффузии для видео 3D-объектов.

Google

Imagen (2022) ^[65]^[66] использует языковую модель T5-XXL для кодирования входного текста в вектор внедрения. Это каскадная модель диффузии с тремя подмоделями. Первый шаг шумоподавляет белый шум до изображения 64×64, в зависимости от вектора внедрения текста. Эта модель имеет 2B параметров. Второй шаг масштабирует изображение до 64×64→256×256, в зависимости от внедрения. Эта модель имеет 650M параметров. Третий шаг аналогичен, масштабирование до 256×256→1024×1024. Эта модель имеет 400M параметров. Все три сети шумоподавления являются U-Nets.

Muse (2023-01) ^[67] — это не диффузионная модель, а преобразователь, работающий только с кодером, который обучен предсказывать замаскированные токены изображений по незамаскированным токенам изображений.

Imagen 2 (2023-12) также основан на диффузии. Он может генерировать изображения на основе подсказки, которая смешивает изображения и текст. Дополнительная информация отсутствует. ^[68]

Veo (2024) генерирует видео посредством скрытой диффузии. Диффузия обусловлена вектором, который кодирует как текстовую подсказку, так и подсказку изображения. ^[69]

Мета

Make-A-Video (2022) — это модель распространения текста в видео. ^[70]^[71]

CM3leon (2023) — это не диффузионная модель, а авторегрессионный каузально замаскированный Трансформер, в основном с той же архитектурой, что и LLaMa -2. ^[72]^[73]

Архитектурная схема переливания

Transfusion (2024) — это Transformer, который сочетает в себе авторегрессивную генерацию текста и шумоподавляющую диффузию. В частности, он генерирует текст авторегрессивно (с каузальной маскировкой) и генерирует изображения, шумоподавляя несколько раз по токенам изображений (с общим вниманием). ^[74]

Movie Gen (2024) — это серия диффузионных трансформаторов, работающих на скрытом пространстве и путем согласования потоков. ^[75]

Смотрите также

Дальнейшее чтение

Обзорные статьи
- Yang, Ling (2024-09-06), YangLing0818/Diffusion-Models-Papers-Survey-Taxonomy , получено 2024-09-06
- Ян, Линг; Чжан, Чжилун; Сун, Ян; Хонг, Шенда; Сюй, Жуньшэн; Чжао, Юэ; Чжан, Вэньтао; Цуй, Бин; Ян, Мин-Сюань (9 ноября 2023 г.). «Модели диффузии: комплексный обзор методов и приложений». АКМ Компьютер. Сурв . 56 (4): 105:1–105:39. arXiv : 2209.00796 . дои : 10.1145/3626235. ISSN 0360-0300.
- Кроитору, Флоринель-Алин; Хондру, Влад; Ионеску, Раду Тудор; Шах, Мубарак (01 сентября 2023 г.). «Модели диффузии в зрении: обзор». Транзакции IEEE по анализу шаблонов и машинному интеллекту . 45 (9): 10850–10869. arXiv : 2209.04747 . дои : 10.1109/TPAMI.2023.3261988. ISSN 0162-8828. ПМИД 37030794.
Математические подробности в статье опущены.
- "Сила диффузионных моделей". AstraBlog . 2022-09-25 . Получено 2023-09-25 .
- Луо, Кэлвин (2022-08-25). «Понимание моделей диффузии: единая перспектива». arXiv.org . Получено 2024-10-01 .
- Вэн, Лилиан (2021-07-11). "Что такое модели диффузии?". lilianweng.github.io . Получено 2023-09-25 .
Учебники
- Наккиран, Притум; Брэдли, Арвен; Чжоу, Хэтти; Адвани, Мадху (2024). «Пошаговое распространение: элементарное руководство». arXiv : 2406.08929 .
- Руководство: чит-код для диффузионных моделей. Обзор руководства классификатора и руководства без классификатора, легкие математические подробности.

Ссылки

^ Чанг, Цзыи; Кулиерис, Джордж Алекс; Шум, Хьюберт PH (2023). «О основах проектирования диффузионных моделей: обзор». arXiv : 2306.04542 [cs.LG].
^ abcd Сонг, Янг; Соль-Дикштейн, Яша; Кингма, Дидерик П.; Кумар, Абишек; Эрмон, Стефано; Пул, Бен (10.02.2021). «Генеративное моделирование на основе оценок с помощью стохастических дифференциальных уравнений». arXiv : 2011.13456 [cs.LG].
^ Кроитору, Флоринель-Алин; Хондру, Влад; Ионеску, Раду Тудор; Шах, Мубарак (2023). «Модели диффузии в зрении: обзор». Транзакции IEEE по анализу шаблонов и машинному интеллекту . 45 (9): 10850–10869. arXiv : 2209.04747 . дои : 10.1109/TPAMI.2023.3261988. PMID 37030794. S2CID 252199918.
^ ab Ho, Jonathan; Jain, Ajay; Abbeel, Pieter (2020). «Устранение шума в вероятностных моделях диффузии». Достижения в области нейронных систем обработки информации . 33. Curran Associates, Inc.: 6840–6851.
^ Гу, Шуян; Чен, Донг; Бао, Цзяньминь; Вэнь, Фанг; Чжан, Бо; Чен, Дундун; Юань, Лу; Го, Байнин (2021). «Модель векторной квантовой диффузии для синтеза текста в изображение». arXiv : 2111.14822 [cs.CV].
^ ab GLIDE, OpenAI, 2023-09-22 , получено 2023-09-24
^ Ли, Ифань; Чжоу, Кунь; Чжао, Уэйн Синь; Вэнь, Цзи-Жун (август 2023 г.). «Модели диффузии для неавторегрессивной генерации текста: обзор». Труды тридцать второй Международной совместной конференции по искусственному интеллекту . Калифорния: Международная организация совместных конференций по искусственному интеллекту. стр. 6692–6701. arXiv : 2303.06574 . doi :10.24963/ijcai.2023/750. ISBN 978-1-956792-03-4.
^ Хан, Сяочуан; Кумар, Сачин; Цветков, Юлия (2023). «SSD-LM: полуавторегрессивная симплексная диффузионная языковая модель для генерации текста и модульного управления». Труды 61-го ежегодного собрания Ассоциации компьютерной лингвистики (том 1: длинные статьи) . Страудсбург, Пенсильвания, США: Ассоциация компьютерной лингвистики: 11575–11596. arXiv : 2210.17432 . doi : 10.18653/v1/2023.acl-long.647.
^ Сюй, Вэйцзе; Ху, Вэньсян; У, Фанью; Сенгамеду, Шринивасан (2023). «DeTiME: диффузионно-усиленное тематическое моделирование с использованием LLM на основе кодера-декодера». Результаты Ассоциации компьютерной лингвистики: EMNLP 2023. Страудсбург, Пенсильвания, США: Ассоциация компьютерной лингвистики: 9040–9057. arXiv : 2310.15296 . doi : 10.18653/v1/2023.findings-emnlp.606.
^ Чжан, Хаопэн; Лю, Сяо; Чжан, Цзявэй (2023). «DiffuSum: улучшенное извлечение сумм с диффузией». Результаты Ассоциации компьютерной лингвистики: ACL 2023. Страудсбург, Пенсильвания, США: Ассоциация компьютерной лингвистики: 13089–13100. arXiv : 2305.01735 . doi : 10.18653/v1/2023.findings-acl.828.
^ Ян, Дунчао; Ю, Цзяньвэй; Ван, Хелин; Ван, Вэнь; Вэнь, Чао; Цзоу, Юэсянь; Ю, Дун (2023). «Diffsound: Discrete Diffusion Model for Text-to-Sound Generation». Труды IEEE/ACM по обработке звука, речи и языка . 31 : 1720–1733. arXiv : 2207.09983 . doi : 10.1109/taslp.2023.3268730. ISSN 2329-9290.
^ Джаннер, Майкл; Ду, Илун; Тененбаум, Джошуа Б.; Левин, Сергей (2022-12-20). «Планирование с диффузией для синтеза гибкого поведения». arXiv : 2205.09991 [cs.LG].
^ Чи, Ченг; Сюй, Чжэньцзя; Фэн, Сиюань; Кузино, Эрик; Ду, Илунь; Берчфилд, Бенджамин; Тедрейк, Расс; Сон, Шуран (14 марта 2024 г.). «Политика распространения: обучение зрительно-моторной политике посредством распространения действий». arXiv : 2303.04137 [cs.RO].
^ Соль-Дикштейн, Яша; Вайс, Эрик; Махешваранатан, Ниру; Гангули, Сурья (2015-06-01). «Глубокое неконтролируемое обучение с использованием неравновесной термодинамики» (PDF) . Труды 32-й Международной конференции по машинному обучению . 37. PMLR: 2256–2265. arXiv : 1503.03585 .
↑ Хо, Джонатан (20 июня 2020 г.), hojonathanho/diffusion , получено 7 сентября 2024 г.
^ ab Weng, Lilian (2021-07-11). "Что такое модели диффузии?". lilianweng.github.io . Получено 2023-09-24 .
^ "Генеративное моделирование путем оценки градиентов распределения данных | Ян Сун". yang-song.net . Получено 24.09.2023 .
^ ab Song, Yang; Ermon, Stefano (2019). «Генеративное моделирование путем оценки градиентов распределения данных». Достижения в области нейронных систем обработки информации . 32. Curran Associates, Inc. arXiv : 1907.05600 .
^ Сун, Ян; Золь-Дикштейн, Яша; Кингма, Дидерик П.; Кумар, Абхишек; Эрмон, Стефано; Пул, Бен (10 февраля 2021 г.). «Генераторное моделирование на основе оценок с помощью стохастических дифференциальных уравнений». arXiv : 2011.13456 [cs.LG].
^ ermongroup/ncsn, ermongroup, 2019 , получено 2024-09-07
^ "Срезовое сопоставление оценок: масштабируемый подход к оценке плотности и оценок | Ян Сун". yang-song.net . Получено 24.09.2023 .
^ Андерсон, Брайан DO (май 1982). "Модели уравнения диффузии с обратным временем". Стохастические процессы и их приложения . 12 (3): 313–326. doi :10.1016/0304-4149(82)90051-5. ISSN 0304-4149.
^ Луо, Кэлвин (2022). «Понимание моделей диффузии: единая перспектива». arXiv : 2208.11970v1 [cs.LG].
^ Сонг, Цзямин; Мэн, Чэньлинь; Эрмон, Стефано (3 октября 2023 г.). «Неявные модели шумоподавления диффузии». arXiv : 2010.02502 [cs.LG].
^ Аб Ромбах, Робин; Блаттманн, Андреас; Лоренц, Доминик; Эссер, Патрик; Оммер, Бьёрн (13 апреля 2022 г.). «Синтез изображений высокого разрешения с использованием моделей скрытой диффузии». arXiv : 2112.10752 [cs.CV].
^ Никол, Александр Куинн; Дхаривал, Прафулла (2021-07-01). «Улучшенные модели диффузионной шумоподавления». Труды 38-й Международной конференции по машинному обучению . PMLR: 8162–8171.
^ Салиманс, Тим; Хо, Джонатан (2021-10-06). Прогрессивная дистилляция для быстрой выборки диффузионных моделей. Десятая международная конференция по обучению представлениям (ICLR 2022).
^ Линь, Шаньчуань; Лю, Бинчен; Ли, Цзяши; Ян, Сяо (2024). Общие графики диффузионного шума и шаги выборки имеют недостатки. Зимняя конференция IEEE/CVF по приложениям компьютерного зрения (WACV). стр. 5404–5411.
^ abc Дхаривал, Прафулла; Никол, Алекс (01 июня 2021 г.). «Модели диффузии превосходят GAN по синтезу изображений». arXiv : 2105.05233 [cs.LG].
^ ab Ho, Jonathan; Salimans, Tim (2022-07-25). «Руководство по диффузии без классификаторов». arXiv : 2207.12598 [cs.LG].
^ Чунг, Хёнджин; Ким, Чонсоль; Пак, Геон Ён; Нам, Хёрин; Йе, Чон Чхоль (12.06.2024). «CFG++: Руководство без классификаторов с ограничениями на множество для моделей диффузии». arXiv : 2406.08070 [cs.CV].
^ Санчес, Гийом; Фань, Хонглу; Спангхер, Александр; Леви, Элад; Амманаманчи, Паван Сасанка; Бидерман, Стелла (30.06.2023). «Оставайтесь в теме с помощью руководства без классификаторов». arXiv : 2306.17806 [cs.CL].
^ Армандпур, Мохаммадреза; Садегян, Али; Чжэн, Хуанцзе; Садегян, Амир; Чжоу, Минъюань (2023-04-26). «Переосмысление алгоритма отрицательной подсказки: преобразование двумерной диффузии в трехмерную, решение проблемы Януса и не только». arXiv : 2304.04968 [cs.CV].
^ Ян, Линг; Чжан, Чжилун; Сун, Ян; Хонг, Шенда; Сюй, Жуньшэн; Чжао, Юэ; Чжан, Вэньтао; Цуй, Бин; Ян, Мин-Сюань (2022). «Модели диффузии: комплексный обзор методов и приложений». arXiv : 2206.00364 [cs.CV].
^ Каррас, Теро; Айттала, Миика; Айла, Тимо; Лайне, Самули (2022). «Выяснение пространства проектирования генеративных моделей, основанных на диффузии». arXiv : 2206.00364v2 [cs.CV].
^ Цао, Ханьцюнь; Тан, Ченг; Гао, Чжанъян; Сюй, Илунь; Чен, Гуанъюн; Хенг, Фенг-Энн; Ли, Стэн З. (июль 2024 г.). «Обзор моделей генеративной диффузии». Транзакции IEEE по знаниям и инженерии данных . 36 (7): 2814–2830. дои : 10.1109/TKDE.2024.3361474. ISSN 1041-4347.
^ Сюй, Илун; Лю, Цзымин; Тянь, Юнлун; Тонг, Шанъюань; Тегмарк, Макс; Яаккола, Томми (2023-07-03). «PFGM++: Раскрытие потенциала генеративных моделей, вдохновленных физикой». Труды 40-й Международной конференции по машинному обучению . PMLR: 38566–38591. arXiv : 2302.04265 .
^ Сонг, Ян; Дхаривал, Прафулла; Чен, Марк; Суцкевер, Илья (2023-07-03). «Модели согласованности». Труды 40-й Международной конференции по машинному обучению . PMLR: 32211–32252.
^ Докхорн, Тим; Вахдат, Араш; Крейс, Карстен (2021-10-06). «Генеративное моделирование на основе оценок с критически затухающей диффузией Ланжевена». arXiv : 2112.07068 [stat.ML].
^ Лю, Цзымин; Ло, Ди; Сюй, Илун; Яаккола, Томми; Тегмарк, Макс (2023-04-05). «GenPhys: от физических процессов к генеративным моделям». arXiv : 2304.02637 [cs.LG].
^ Бансал, Арпит; Боргния, Эйтан; Чу, Хонг-Мин; Ли, Цзе; Каземи, Хамид; Хуан, Фуронг; Голдблюм, Мика; Гейпинг, Йонас; Голдштейн, Том (2023-12-15). «Холодная диффузия: инвертирование произвольных преобразований изображений без шума». Достижения в области нейронных систем обработки информации . 36 : 41259–41282. arXiv : 2208.09392 .
^ Гулраджани, Ишаан; Хашимото, Тацунори Б. (2023-12-15). «Модели языка диффузии на основе правдоподобия». Достижения в области нейронных систем обработки информации . 36 : 16693–16715.
^ Лу, Аарон; Мэн, Ченлинь; Эрмон, Стефано (2024-06-06). «Дискретное диффузионное моделирование путем оценки соотношений распределения данных». arXiv : 2310.16834 [stat.ML].
^ Тонг, Александр; Фатрас, Килиан; Малкин, Николай; Хьюге, Гийом; Чжан, Янлей; Ректор-Брукс, Джаррид; Вольф, Гай; Бенжио, Йошуа (2023-11-08). «Улучшение и обобщение потоковых генеративных моделей с мини-пакетной оптимальной транспортировкой». Труды по исследованию машинного обучения . arXiv : 2302.00482 . ISSN 2835-8856.
^ abcd Лю, Синчао; Гун, Чэнъюэ; Лю, Цян (2022-09-07). «Прямой и быстрый поток: учимся генерировать и передавать данные с помощью ректифицированного потока». arXiv : 2209.03003 [cs.LG].
^ Лю, Цян (29.09.2022). «Выпрямленный поток: подход к оптимальному транспорту с сохранением маргинальных величин». arXiv : 2209.14577 [stat.ML].
^ Липман, Ярон; Чен, Рики TQ; Бен-Хаму, Хели; Никель, Максимилиан; Ле, Мэтт (2023-02-08). «Соответствие потоков для генеративного моделирования». arXiv : 2210.02747 [cs.LG].
^ Альберго, Майкл С.; Ванден-Эйнден, Эрик (2023-03-09). «Построение нормализующих потоков с помощью стохастических интерполянтов». arXiv : 2209.15571 [cs.LG].
^ "Введение в Flow Matching · Блог Cambridge MLG". mlg.eng.cam.ac.uk . Получено 20 августа 2024 г.
^ abc Хо, Джонатан; Сахария, Читван; Чан, Уильям; Флит, Дэвид Дж.; Норузи, Мохаммад; Салиманс, Тим (2022-01-01). «Каскадные модели диффузии для генерации изображений высокой точности». Журнал исследований машинного обучения . 23 (1): 47:2249–47:2281. arXiv : 2106.15282 . ISSN 1532-4435.
^ Пиблз, Уильям; Кси, Сэйнинг (март 2023 г.). «Масштабируемые модели диффузии с трансформаторами». arXiv : 2212.09748v2 [cs.CV].
^ Фэй, Чжэнцун; Фань, Минъюань; Ю, Чанцянь; Ли, Дебанг; Хуан, Цзюньши (16 июля 2024 г.). «Масштабирование диффузионных трансформаторов до 16 миллиардов параметров». arXiv : 2407.11633 [cs.CV].
^ аб Тевет, Гай; Рааб, Сигал; Гордон, Брайан; Шафир, Йонатан; Коэн-Ор, Дэниел; Бермано, Амит Х. (2022). «Модель диффузии движения человека». arXiv : 2209.14916 [cs.CV].
^ Чжан, Лвмин; Рао, Аньи; Агравала, Маниш (2023). «Добавление условного управления к моделям диффузии текста в изображение». arXiv : 2302.05543 [cs.CV].
^ Лугмайр, Андреас; Данеллян, Мартин; Ромеро, Андрес; Ю, Фишер; Тимофте, Раду; Ван Гул, Люк (2022). «RePaint: Inpainting Using Denoising Diffusion Probabilistic Models». arXiv : 2201.09865v4 [cs.CV].
^ Герц, Амир; Мокади, Рон; Тененбаум, Джей; Аберман, Кфир; Притч, Яэль; Коэн-Ор, Дэниел (2022-08-02). «Редактирование изображений по принципу «подсказка-подсказка» с перекрестным контролем внимания». arXiv : 2208.01626 [cs.CV].
^ Чжао, Чжэн; Ло, Цивэй; Сьёлунд, Йенс; Шен, Томас Б. (2024). «Условная выборка в моделях генеративной диффузии». arXiv : 2409.09650 [stat.ML].
^ Ван, Синьтао; Се, Лянбинь; Дун, Чао; Шань, Ин (2021). «Real-ESRGAN: Training Real-World Blind Super-Resolution With Pure Synthetic Data» (PDF) . Труды семинаров Международной конференции IEEE/CVF по компьютерному зрению (ICCV), 2021 г. Международная конференция по компьютерному зрению. стр. 1905–1914. arXiv : 2107.10833 .
^ Лян, Цзинъюнь; Цао, Цзецжан; Сан, Гуолэй; Чжан, Кай; Ван Гул, Люк; Тимофте, Раду (2021). «SwinIR: Восстановление изображений с использованием Swin Transformer» (PDF) . Труды семинаров Международной конференции IEEE/CVF по компьютерному зрению (ICCV) . Международная конференция по компьютерному зрению, 2021. стр. 1833–1844. arXiv : 2108.10257v1 .
^ Никол, Алекс; Дхаривал, Прафулла; Рамеш, Адитья; Шьям, Пранав; Мишкин, Памела; МакГрю, Боб; Сутскевер, Илья; Чен, Марк (2022-03-08). «GLIDE: на пути к созданию и редактированию фотореалистичных изображений с помощью моделей диффузии, управляемых текстом». arXiv : 2112.10741 [cs.CV].
^ Рамеш, Адитья; Дхаривал, Прафулла; Никол, Алекс; Чу, Кейси; Чен, Марк (2022-04-12). «Генерация иерархических текстовых условных изображений с использованием латентных значений CLIP». arXiv : 2204.06125 [cs.CV].
^ Аламмар, Джей. «Иллюстрированная стабильная диффузия». jalammar.github.io . Получено 31 октября 2022 г.
^ Эссер, Патрик; Кулал, Сумит; Блаттманн, Андреас; Энтезари, Рахим; Мюллер, Йонас; Сайни, Гарри; Леви, Ям; Лоренц, Доминик; Зауэр, Аксель (2024-03-05). «Масштабирование выпрямленных потоковых трансформаторов для синтеза изображений с высоким разрешением». arXiv : 2403.03206 [cs.CV].
^ Сье, Имин; Яо, Чун-Хань; Волети, Викрам; Цзян, Хуайцзу; Джампани, Варун (2024-07-24). «SV4D: Динамическая генерация 3D-контента с многокадровой и многовидовой согласованностью». arXiv : 2407.17470 [cs.CV].
^ "Imagen: Модели диффузии текста в изображение". imagen.research.google . Получено 2024-04-04 .
^ Сахария, Читван; Чан, Уильям; Саксена, Саурабх; Ли, Лала; Ванг, Джей; Дентон, Эмили Л.; Гасемипур, Камьяр; Гонтихо Лопес, Рафаэль; Карагол Аян, Бурку; Салиманс, Тим; Хо, Джонатан; Флит, Дэвид Дж.; Норузи, Мохаммад (2022-12-06). «Фотореалистичные модели диффузии текста в изображение с глубоким пониманием языка». Достижения в области нейронных систем обработки информации . 35 : 36479–36494. arXiv : 2205.11487 .
^ Чан, Хуэйвэнь; Чжан, Хань; Барбер, Джарред; Масчинот, А. Дж.; Лезама, Хосе; Цзян, Лу; Ян, Мин-Сюань; Мерфи, Кевин; Фримен, Уильям Т. (2023-01-02). "Muse: генерация текста в изображение с помощью маскированных генеративных преобразователей". arXiv : 2301.00704 [cs.CV].
^ "Imagen 2 — наша самая передовая технология преобразования текста в изображение". Google DeepMind . Получено 2024-04-04 .
^ "Veo". Google DeepMind . 2024-05-14 . Получено 2024-05-17 .
^ «Представляем Make-A-Video: систему искусственного интеллекта, которая генерирует видео из текста». ai.meta.com . Получено 20 сентября 2024 г.
^ Сингер, Уриэль; Поляк, Адам; Хейс, Томас; Инь, Си; Ань, Цзе; Чжан, Сунъян; Ху, Циюань; Ян, Гарри; Ашуаль, Орон (29.09.2022). «Make-A-Video: генерация текста в видео без данных текста и видео». arXiv : 2209.14792 [cs.CV].
^ "Представляем CM3leon, более эффективную, современную генеративную модель для текста и изображений". ai.meta.com . Получено 20 сентября 2024 г.
^ Команда Chameleon (16.05.2024). «Chameleon: Модели смешанного модального раннего синтеза». arXiv : 2405.09818 [cs.CL].
^ Чжоу, Чуньтинг; Ю, Лили; Бабу, Арун; Тирумала, Кушал; Ясунага, Митихиро; Шамис, Леонид; Кан, Джейкоб; Ма, Сюэчжэ; Зеттлмойер, Люк (20 августа 2024 г.). «Переливание: предскажите следующий токен и распространите изображения с помощью одной мультимодальной модели». arXiv : 2408.11039 [cs.AI].
↑ Movie Gen: подборка моделей Media Foundation , команда Movie Gen @ Meta, 4 октября 2024 г.