Диффузионная модель

В машинном обучении модели диффузии , также известные как вероятностные модели диффузии или генеративные модели на основе оценок , представляют собой класс генеративных моделей со скрытыми переменными . Диффузионная модель состоит из трех основных компонентов: прямого процесса, обратного процесса и процедуры отбора проб. ^[1] Цель моделей диффузии — изучить процесс диффузии , который генерирует распределение вероятностей для данного набора данных, из которого мы затем можем отбирать новые элементы. Они изучают скрытую структуру набора данных, моделируя, как точки данных распространяются через скрытое пространство . ^[2]

В случае компьютерного зрения модели диффузии могут применяться для решения различных задач, включая шумоподавление изображений , закрашивание , суперразрешение и генерацию изображений . Обычно это включает в себя обучение нейронной сети последовательному шумоподавлению изображений, размытых гауссовским шумом . ^[2]^[3] Модель обучена обратить вспять процесс добавления шума к изображению. После обучения сходимости его можно использовать для генерации изображения, начиная с изображения, состоящего из случайного шума, для итеративного шумоподавления сети. Анонсированная 13 апреля 2022 года модель преобразования текста в изображение OpenAI DALL -E 2 представляет собой пример, в котором используются модели диффузии как для предшествующей модели (которая создает встраивание изображения с учетом текстовой подписи), так и для декодера, генерирующего окончательное изображение. . ^[4] Модели диффузии недавно нашли применение в обработке естественного языка (NLP), ^[5], особенно в таких областях, как генерация текста ^[6]^[7] и суммирование. ^[8]

Модели диффузии обычно формулируются как цепи Маркова и обучаются с использованием вариационного вывода . ^[9] Примерами общих структур моделирования диффузии, используемых в компьютерном зрении, являются вероятностные модели диффузии с шумоподавлением, сети оценок, обусловленные шумом, и стохастические дифференциальные уравнения. ^[10]

Модель шумоподавления и диффузии

Неравновесная термодинамика

Модели диффузии были представлены в 2015 году как метод изучения модели, которая может выполнять выборку из очень сложного распределения вероятностей. Они использовали методы неравновесной термодинамики , особенно диффузию . ^[11]

Рассмотрим, например, как можно смоделировать распространение всех естественных фотографий. Каждое изображение является точкой в пространстве всех изображений, а распределение естественных фотографий представляет собой «облако» в пространстве, которое, многократно добавляя к изображениям шум, распространяется на остальную часть пространства изображения, пока не облако становится практически неотличимым от распределения Гаусса . Модель, которая может приблизительно устранить диффузию, может затем использоваться для выборки из исходного распределения. Это изучается в «неравновесной» термодинамике, поскольку начальное распределение не находится в равновесии, в отличие от конечного распределения. $N(0,I)$

Равновесное распределение — это распределение Гаусса с pdf . Это не что иное, как распределение частиц Максвелла-Больцмана в потенциальной яме при температуре 1. Первоначальное распределение, будучи сильно неравновесным, будет диффундировать в сторону равновесного распределения, делая смещенные случайные шаги, которые представляют собой сумму чистой случайности (например, Броуновский ходок ) и градиентный спуск вниз по потенциальной яме. Случайность необходима: если бы частицы испытывали только градиентный спуск, то все они упадут в начало координат, разрушая распределение. $N(0,I)$ $\rho (x)\propto e^{-{\frac {1}{2}}\|x\|^{2}}$ $V(x)={\frac {1}{2}}\|x\|^{2}$

Вероятностная модель диффузии с шумоподавлением (DDPM)

В документе 2020 года была предложена вероятностная модель шумоподавления диффузии (DDPM), которая улучшает предыдущий метод за счет вариационного вывода . ^[9]

Прямая диффузия

Чтобы представить модель, нам потребуются некоторые обозначения.

$\beta _{1},...,\beta _{T}\in (0,1)$ являются фиксированными константами.
$\alpha _{t}:=1-\beta _{t}$
${\bar {\alpha }}_{t}:=\alpha _{1}\cdots \alpha _{t}$
${\tilde {\beta }}_{t}:={\frac {1-{\bar {\alpha }}_{t-1}}{1-{\bar {\alpha }}_{t}}}\beta _{t}$
${\tilde {\mu }}_{t}(x_{t},x_{0}):={\frac {{\sqrt {\alpha _{t}}}(1-{\bar {\alpha }}_{t-1})x_{t}+{\sqrt {{\bar {\alpha }}_{t-1}}}(1-\alpha _{t})x_{0}}{1-{\bar {\alpha }}_{t}}}$
$N(\mu ,\Sigma )$ — нормальное распределение со средним значением и дисперсией , а — плотность вероятности при . $\mu$ $\Sigma$ $N(x|\mu ,\Sigma )$ $x$
Вертикальная черта обозначает кондиционирование .

Процесс прямой диффузии начинается в некоторой начальной точке , где находится распределение вероятностей, которое необходимо изучить, затем неоднократно добавляет к нему шум, откуда берутся выборки IID . Это сделано так, чтобы для любого начального распределения мы сходились к . $x_{0}\sim q$ $q$ $x_{t}={\sqrt {1-\beta _{t}}}x_{t-1}+{\sqrt {\beta _{t}}}z_{t}$ $z_{1},...,z_{T}$ $N(0,I)$ $x_{0}$ $\lim _{t}x_{t}|x_{0}$ $N(0,I)$

Тогда весь процесс диффузии удовлетворяет условиям или где – константа нормализации, которую часто опускают. В частности, отметим, что это гауссов процесс , что дает нам значительную свободу в перепараметризации. Например, с помощью стандартных манипуляций с гауссовским процессом. В частности, обратите внимание, что при больших значениях переменная сходится к . То есть, после достаточно длительного процесса распространения, мы получаем что -то очень близкое к , при этом все следы оригинала исчезли. $q(x_{0:T})=q(x_{0})q(x_{1}|x_{0})\cdots q(x_{T}|x_{T-1})=q(x_{0})N(x_{1}|{\sqrt {\alpha _{1}}}x_{0},\beta _{1}I)\cdots N(x_{T}|{\sqrt {\alpha _{T}}}x_{T-1},\beta _{T}I)$ $\ln q(x_{0:T})=\ln q(x_{0})-\sum _{t=1}^{T}{\frac {1}{2\beta _{t}}}\|x_{t}-{\sqrt {1-\beta _{t}}}x_{t-1}\|^{2}+C$ $C$ $x_{1:T}|x_{0}$ $x_{t}|x_{0}\sim N\left({\sqrt {{\bar {\alpha }}_{t}}}x_{0},(1-{\bar {\alpha }}_{t})I\right)$ $x_{t-1}|x_{t},x_{0}\sim N({\tilde {\mu }}_{t}(x_{t},x_{0}),{\tilde {\beta }}_{t}I)$ $t$ $x_{t}|x_{0}\sim N\left({\sqrt {{\bar {\alpha }}_{t}}}x_{0},(1-{\bar {\alpha }}_{t})I\right)$ $N(0,I)$ $x_{T}$ $N(0,I)$ $x_{0}\sim q$

Например, поскольку мы можем осуществлять выборку напрямую «за один шаг», вместо того, чтобы проходить все промежуточные этапы . $x_{t}|x_{0}\sim N\left({\sqrt {{\bar {\alpha }}_{t}}}x_{0},(1-{\bar {\alpha }}_{t})I\right)$ $x_{t}|x_{0}$ $x_{1},x_{2},...,x_{t-1}$

Вывод путем перепараметризации

Мы знаем, что это гауссиан, и это другой гауссиан. Мы также знаем, что они независимы. Таким образом, мы можем выполнить перепараметризацию: где находятся гауссианы IID. ${\textstyle x_{t-1}|x_{0}}$ ${\textstyle x_{t}|x_{t-1}}$ $x_{t-1}={\sqrt {{\bar {\alpha }}_{t-1}}}x_{0}+{\sqrt {1-{\bar {\alpha }}_{t-1}}}z$ $x_{t}={\sqrt {\alpha _{t}}}x_{t-1}+{\sqrt {1-\alpha _{t}}}z'$ ${\textstyle z,z'}$

Имеется 5 переменных и два линейных уравнения. Двумя источниками случайности являются , которые можно перепараметризовать путем вращения, поскольку гауссово распределение IID вращательно-симметрично. ${\textstyle x_{0},x_{t-1},x_{t},z,z'}$ ${\textstyle z,z'}$

Подставив уравнения, мы можем решить первую перепараметризацию: где – гауссиан с нулевым средним значением и единицей дисперсии. $x_{t}={\sqrt {{\bar {\alpha }}_{t}}}x_{0}+\underbrace {{\sqrt {\alpha _{t}-{\bar {\alpha }}_{t}}}z+{\sqrt {1-\alpha _{t}}}z'} _{={\sqrt {1-{\bar {\alpha }}_{t}}}z''}$ ${\textstyle z''}$

Чтобы найти второй, дополним матрицу вращения: ${\begin{bmatrix}z''\\z'''\end{bmatrix}}={\begin{bmatrix}{\frac {\sqrt {\alpha _{t}-{\bar {\alpha }}_{t}}}{\sqrt {1-{\bar {\alpha }}_{t}}}}&{\frac {\sqrt {\beta _{t}}}{\sqrt {1-{\bar {\alpha }}_{t}}}}\\?&?\end{bmatrix}}{\begin{bmatrix}z\\z'\end{bmatrix}}$

Поскольку все матрицы вращения имеют вид , мы знаем, что матрица должна быть такой , и поскольку обратная матрица вращения является ее транспонированием, ${\textstyle {\begin{bmatrix}\cos \theta &\sin \theta \\-\sin \theta &\cos \theta \end{bmatrix}}}$ ${\begin{bmatrix}z''\\z'''\end{bmatrix}}={\begin{bmatrix}{\frac {\sqrt {\alpha _{t}-{\bar {\alpha }}_{t}}}{\sqrt {1-{\bar {\alpha }}_{t}}}}&{\frac {\sqrt {\beta _{t}}}{\sqrt {1-{\bar {\alpha }}_{t}}}}\\-{\frac {\sqrt {\beta _{t}}}{\sqrt {1-{\bar {\alpha }}_{t}}}}&{\frac {\sqrt {\alpha _{t}-{\bar {\alpha }}_{t}}}{\sqrt {1-{\bar {\alpha }}_{t}}}}\end{bmatrix}}{\begin{bmatrix}z\\z'\end{bmatrix}}$
${\begin{bmatrix}z\\z'\end{bmatrix}}={\begin{bmatrix}{\frac {\sqrt {\alpha _{t}-{\bar {\alpha }}_{t}}}{\sqrt {1-{\bar {\alpha }}_{t}}}}&-{\frac {\sqrt {\beta _{t}}}{\sqrt {1-{\bar {\alpha }}_{t}}}}\\{\frac {\sqrt {\beta _{t}}}{\sqrt {1-{\bar {\alpha }}_{t}}}}&{\frac {\sqrt {\alpha _{t}-{\bar {\alpha }}_{t}}}{\sqrt {1-{\bar {\alpha }}_{t}}}}\end{bmatrix}}{\begin{bmatrix}z''\\z'''\end{bmatrix}}$

Подключая обратно и упрощая, мы имеем $x_{t}={\sqrt {{\bar {\alpha }}_{t}}}x_{0}+{\sqrt {1-{\bar {\alpha }}_{t}}}z''$ $x_{t-1}={\tilde {\mu }}_{t}(x_{t},x_{0})-{\sqrt {{\tilde {\beta }}_{t}}}z'''$

Обратная диффузия

Ключевая идея DDPM заключается в использовании нейронной сети, параметризованной . Сеть принимает два аргумента и выводит вектор и матрицу , так что каждый шаг в процессе прямой диффузии может быть приблизительно отменен с помощью . Это дает нам процесс обратной диффузии, определяемый формулой. Теперь цель состоит в том, чтобы изучить такие параметры, которые были бы как можно ближе к ним. Для этого мы используем оценку максимального правдоподобия с вариационным выводом. $\theta$ $x_{t},t$ $\mu _{\theta }(x_{t},t)$ $\Sigma _{\theta }(x_{t},t)$ $x_{t-1}\sim N(\mu _{\theta }(x_{t},t),\Sigma _{\theta }(x_{t},t))$ $p_{\theta }$ $p_{\theta }(x_{T})=N(x_{T}|0,I)$ $p_{\theta }(x_{t-1}|x_{t})=N(x_{t-1}|\mu _{\theta }(x_{t},t),\Sigma _{\theta }(x_{t},t))$ $p_{\theta }(x_{0})$ $q(x_{0})$

Вариационный вывод

Неравенство ELBO утверждает , что и принимая еще одно математическое ожидание, мы получаем. Мы видим, что максимизация величины справа даст нам нижнюю границу вероятности наблюдаемых данных. Это позволяет нам выполнить вариационный вывод. $\ln p_{\theta }(x_{0})\geq E_{x_{1:T}\sim q(\cdot |x_{0})}[\ln p_{\theta }(x_{0:T})-\ln q(x_{1:T}|x_{0})]$ $E_{x_{0}\sim q}[\ln p_{\theta }(x_{0})]\geq E_{x_{0:T}\sim q}[\ln p_{\theta }(x_{0:T})-\ln q(x_{1:T}|x_{0})]$

Определите функцию потерь , и теперь цель состоит в том, чтобы минимизировать потери с помощью стохастического градиентного спуска. Выражение можно упростить до ^[12] , где оно не зависит от параметра и, следовательно, его можно игнорировать. Поскольку также не зависит от параметра, то слагаемым тоже можно пренебречь. Это остается только свести к минимуму. $L(\theta ):=-E_{x_{0:T}\sim q}[\ln p_{\theta }(x_{0:T})-\ln q(x_{1:T}|x_{0})]$ $L(\theta )=\sum _{t=1}^{T}E_{x_{t-1},x_{t}\sim q}[-\ln p_{\theta }(x_{t-1}|x_{t})]+E_{x_{0}\sim q}[D_{KL}(q(x_{T}|x_{0})\|p_{\theta }(x_{T}))]+C$ $C$ $p_{\theta }(x_{T})=N(x_{T}|0,I)$ $E_{x_{0}\sim q}[D_{KL}(q(x_{T}|x_{0})\|p_{\theta }(x_{T}))]$ $L(\theta )=\sum _{t=1}^{T}L_{t}$ $L_{t}=E_{x_{t-1},x_{t}\sim q}[-\ln p_{\theta }(x_{t-1}|x_{t})]$

Сеть прогнозирования шума

Поскольку это предполагает, что мы должны использовать ; однако сеть не имеет доступа к , поэтому вместо этого ей приходится его оценивать. Теперь, поскольку , мы можем написать , где – некоторый неизвестный гауссов шум. Теперь мы видим, что оценка эквивалентна оценке . $x_{t-1}|x_{t},x_{0}\sim N({\tilde {\mu }}_{t}(x_{t},x_{0}),{\tilde {\beta }}_{t}I)$ $\mu _{\theta }(x_{t},t)={\tilde {\mu }}_{t}(x_{t},x_{0})$ $x_{0}$ $x_{t}|x_{0}\sim N\left({\sqrt {{\bar {\alpha }}_{t}}}x_{0},(1-{\bar {\alpha }}_{t})I\right)$ $x_{t}={\sqrt {{\bar {\alpha }}_{t}}}x_{0}+{\sqrt {1-{\bar {\alpha }}_{t}}}z$ $z$ $x_{0}$ $z$

Поэтому пусть сеть выводит вектор шума , и пусть она предсказывает . Осталось спроектировать . В документе DDPM предлагалось не изучать его (поскольку это приводило к «нестабильному обучению и ухудшению качества выборки»), а фиксировать его на некотором значении , при котором любой из них давал одинаковую производительность. $\epsilon _{\theta }(x_{t},t)$ $\mu _{\theta }(x_{t},t)={\tilde {\mu }}_{t}\left(x_{t},{\frac {x_{t}-{\sqrt {1-{\bar {\alpha }}_{t}}}\epsilon _{\theta }(x_{t},t)}{\sqrt {{\bar {\alpha }}_{t}}}}\right)={\frac {x_{t}-\epsilon _{\theta }(x_{t},t)\beta _{t}/{\sqrt {1-{\bar {\alpha }}_{t}}}}{\sqrt {\alpha _{t}}}}$ $\Sigma _{\theta }(x_{t},t)$ $\Sigma _{\theta }(x_{t},t)=\sigma _{t}^{2}I$ $\sigma _{t}^{2}=\beta _{t}{\text{ or }}{\tilde {\beta }}_{t}$

При этом потери упрощаются до такой степени , что их можно минимизировать с помощью стохастического градиентного спуска. В документе эмпирически отмечается, что даже более простая функция потерь приводит к лучшим моделям. $L_{t}={\frac {\beta _{t}^{2}}{2\alpha _{t}(1-{\bar {\alpha }}_{t})\sigma _{t}^{2}}}E_{x_{0}\sim q;z\sim N(0,I)}\left[\left\|\epsilon _{\theta }(x_{t},t)-z\right\|^{2}\right]+C$ $L_{simple,t}=E_{x_{0}\sim q;z\sim N(0,I)}\left[\left\|\epsilon _{\theta }(x_{t},t)-z\right\|^{2}\right]$

Генеративная модель на основе оценок

Генеративная модель на основе оценок — это еще одна формулировка диффузионного моделирования. Их также называют сетью условной оценки шума (NCSN) или сопоставлением оценок с динамикой Ланжевена (SMLD). ^[13]^[14]

Сопоставление очков

Идея оценочных функций

Рассмотрим задачу генерации изображений. Пусть представляет изображение и пусть это распределение вероятностей по всем возможным изображениям. Если мы имеем само себя, то мы можем наверняка сказать, насколько вероятен тот или иной образ. Однако в целом это неразрешимо. $x$ $q(x)$ $q(x)$

Чаще всего нас не интересует знание абсолютной вероятности определенного изображения. Вместо этого нас обычно интересует только то, насколько вероятно определенное изображение по сравнению с его непосредственными соседями — например, насколько более вероятно изображение кошки по сравнению с некоторыми его небольшими вариантами? Что более вероятно, если изображение содержит два уса или три, или с добавлением некоторого гауссовского шума?

Следовательно, нас на самом деле совершенно не интересует само по себе, а, скорее, . Это имеет два основных эффекта: $q(x)$ $\nabla _{x}\ln q(x)$

Во-первых, нам больше не нужно нормализовать , мы можем использовать любую , где — любая неизвестная константа, которая нас не интересует. $q(x)$ ${\tilde {q}}(x)=Cq(x)$ $C=\int {\tilde {q}}(x)dx>0$
Во-вторых, мы сравниваем соседей по $q(x)$ $q(x+dx)$ ${\frac {q(x)}{q(x+dx)}}=e^{-\langle \nabla _{x}\ln q,dx\rangle }$

Пусть функция оценки будет ; тогда подумаем, что мы можем с этим сделать . $s(x):=\nabla _{x}\ln q(x)$ $s(x)$

Как оказалось, это позволяет нам использовать термодинамику. В частности, если у нас есть функция потенциальной энергии и множество частиц в потенциальной яме, то распределение в состоянии термодинамического равновесия является распределением Больцмана . При температуре распределение Больцмана в точности равно . $s(x)$ $q(x)$ $U(x)=-\ln q(x)$ $q_{U}(x)\propto e^{-U(x)/k_{B}T}=q(x)^{1/k_{B}T}$ $k_{B}T=1$ $q(x)$

Следовательно, для моделирования мы можем начать с частицы, отобранной в любом удобном распределении (например, стандартном распределении Гаусса), затем смоделировать движение частицы вперед в соответствии с уравнением Ланжевена , а распределение Больцмана по уравнению Фоккера-Планка: уникальное термодинамическое равновесие . Таким образом, независимо от того, какое распределение имеет, распределение сходится по распределению к as . $q(x)$ $dx_{t}=-\nabla _{x_{t}}U(x_{t})dt+dW_{t}$ $x_{0}$ $x_{t}$ $q$ $t\to \infty$

Изучение функции оценки

Учитывая плотность , мы хотим изучить аппроксимацию оценочной функции . Это сопоставление очков . ^[15] Обычно сопоставление оценок формализуется как минимизация функции дивергенции Фишера . Разложив интеграл и выполнив интегрирование по частям, мы получили функцию потерь, также известную как правило оценки Хюваринена , которую можно минимизировать с помощью стохастического градиентного спуска. $q$ $f_{\theta }\approx \nabla \ln q$ $E_{q}[\|f_{\theta }(x)-\nabla \ln q(x)\|^{2}]$ $E_{q}[\|f_{\theta }(x)-\nabla \ln q(x)\|^{2}]=E_{q}[\|f_{\theta }\|^{2}+2\nabla ^{2}\cdot f_{\theta }]+C$

Отжиг функции оценки

Предположим, нам нужно смоделировать распространение изображений и мы хотим получить изображение с белым шумом. Теперь большинство изображений с белым шумом не похожи на реальные изображения, поэтому для больших участков . Это представляет проблему для изучения функции оценки, поскольку, если вокруг определенной точки нет выборок, мы не сможем изучить функцию оценки в этой точке. Если мы не знаем оценочную функцию в этот момент, мы не можем наложить на частицу уравнение эволюции во времени: чтобы решить эту проблему, мы выполняем отжиг . Если оно слишком отличается от распределения белого шума, постепенно добавляйте шум, пока он не станет неотличим от одного. То есть мы выполняем прямое распространение, затем изучаем функцию оценки, а затем используем функцию оценки для выполнения обратной диффузии. $x_{0}\sim N(0,I)$ $q(x_{0})\approx 0$ $x_{0}\sim N(0,I)$ $\nabla _{x_{t}}\ln q(x_{t})$ $dx_{t}=\nabla _{x_{t}}\ln q(x_{t})dt+dW_{t}$ $q$

Непрерывные диффузионные процессы

Процесс прямой диффузии

Рассмотрим снова процесс прямой диффузии, но на этот раз в непрерывном времени: переходя к пределу, мы получаем непрерывный процесс диффузии в форме стохастического дифференциального уравнения : где – винеровский процесс (многомерное броуновское движение). $x_{t}={\sqrt {1-\beta _{t}}}x_{t-1}+{\sqrt {\beta _{t}}}z_{t}$ $\beta _{t}\to \beta (t)dt,{\sqrt {dt}}z_{t}\to dW_{t}$ $dx_{t}=-{\frac {1}{2}}\beta (t)x_{t}dt+{\sqrt {\beta (t)}}dW_{t}$ $W_{t}$

Теперь уравнение представляет собой частный случай перезатухающего уравнения Ланжевена, где – тензор диффузии, – температура, – поле потенциальной энергии. Если мы подставим в , мы восстановим приведенное выше уравнение. Это объясняет, почему в диффузионных моделях иногда используется фраза «динамика Ланжевена». $dx_{t}=-{\frac {D}{k_{B}T}}(\nabla _{x}U)dt+{\sqrt {2D}}dW_{t}$ $D$ $T$ $U$ $D={\frac {1}{2}}\beta (t)I,k_{B}T=1,U={\frac {1}{2}}\|x\|^{2}$

Теперь приведенное выше уравнение относится к стохастическому движению одной частицы. Предположим, у нас есть облако частиц, распределенных в соответствии с временем , тогда через долгое время облако частиц установится в стабильное распределение . Пусть это плотность облака частиц в момент времени , тогда у нас есть цель — как-то обратить процесс вспять, чтобы мы могли начать с конца и диффундировать обратно к началу. $q$ $t=0$ $N(0,I)$ $\rho _{t}$ $t$ $\rho _{0}=q;\quad \rho _{T}\approx N(0,I)$

Согласно уравнению Фоккера-Планка , плотность облака меняется в зависимости от того, где — размерность пространства и — оператор Лапласа . $\partial _{t}\ln \rho _{t}={\frac {1}{2}}\beta (t)\left(n+(x+\nabla \ln \rho _{t})\cdot \nabla \ln \rho _{t}+\Delta \ln \rho _{t}\right)$ $n$ $\Delta$

Процесс обратной диффузии

Если мы определили время , то можем точно обратить вспять эволюцию облака. Предположим, мы начнем с другого облака частиц с плотностью и позволим частицам в облаке развиваться в соответствии с этим, подставив в уравнение Фоккера-Планка, мы найдем это . Таким образом, это облако точек является исходным облаком, развивающимся в обратном направлении. ^[16] $\rho _{t}$ $t\in [0,T]$ $\nu _{0}=\rho _{T}$ $dy_{t}={\frac {1}{2}}\beta (T-t)y_{t}dt+\beta (T-t)\underbrace {\nabla _{y_{t}}\ln \rho _{T-t}\left(y_{t}\right)} _{\text{score function }}dt+{\sqrt {\beta (T-t)}}dW_{t}$ $\partial _{t}\rho _{T-t}=\partial _{t}\nu _{t}$

Сеть условной оценки шума (NCSN)

На непрерывном пределе и т. д. В частности, мы видим, что можем напрямую производить выборку из любой точки процесса непрерывной диффузии, не проходя промежуточные этапы, сначала отбирая , а затем получая . То есть мы можем быстро выполнить выборку для любого файла . ${\bar {\alpha }}_{t}=(1-\beta _{1})\cdots (1-\beta _{t})=e^{\sum _{i}\ln(1-\beta _{i})}\to e^{-\int _{0}^{t}\beta (t)dt}$ $x_{t}|x_{0}\sim N\left(e^{-{\frac {1}{2}}\int _{0}^{t}\beta (t)dt}x_{0},\left(1-e^{-\int _{0}^{t}\beta (t)dt}\right)I\right)$ $x_{0}\sim q,z\sim N(0,I)$ $x_{t}=e^{-{\frac {1}{2}}\int _{0}^{t}\beta (t)dt}x_{0}+\left(1-e^{-\int _{0}^{t}\beta (t)dt}\right)z$ $x_{t}\sim \rho _{t}$ $t\geq 0$

Теперь определите определенное распределение вероятностей по , тогда функция потерь при сопоставлении оценок определяется как ожидаемое расхождение Фишера: После обучения , поэтому мы можем выполнить процесс обратной диффузии путем первой выборки , а затем интегрирования SDE от до : Это может быть выполняется любым методом интеграции SDE, например методом Эйлера-Маруямы . $\gamma$ $[0,\infty )$ $L(\theta )=E_{t\sim \gamma ,x_{t}\sim \rho _{t}}[\|f_{\theta }(x_{t},t)\|^{2}+2\nabla \cdot f_{\theta }(x_{t},t)]$ $f_{\theta }(x_{t},t)\approx \nabla \ln \rho _{t}$ $x_{T}\sim N(0,I)$ $t=T$ $t=0$ $x_{t-dt}=x_{t}+{\frac {1}{2}}\beta (t)x_{t}dt+\beta (t)f_{\theta }(x_{t},t)dt+{\sqrt {\beta (t)}}dW_{t}$

Название «сеть условной оценки шума» объясняется следующим образом:

«сеть», т.к. реализована как нейронная сеть. $f_{\theta }$
«оценка», поскольку выходные данные сети интерпретируются как аппроксимация функции оценки . $\nabla \ln \rho _{t}$
«условный шум», поскольку равен размытию добавленным гауссовым шумом, который увеличивается со временем, и поэтому функция оценки зависит от количества добавленного шума. $\rho _{t}$ $\rho _{0}$

Их эквивалентность

DDPM и генеративные модели на основе оценок эквивалентны. ^[17] Это означает, что сеть, обученная с использованием DDPM, может использоваться как NCSN, и наоборот.

Мы знаем, что , поэтому по формуле Твиди мы имеем Как описано ранее, функция потерь DDPM имеет вид где . В результате замены переменных член внутри становится регрессией по методу наименьших квадратов, поэтому, если сеть действительно достигает глобального минимума потерь, то мы имеем . $x_{t}|x_{0}\sim N\left({\sqrt {{\bar {\alpha }}_{t}}}x_{0},(1-{\bar {\alpha }}_{t})I\right)$ $\nabla _{x_{t}}\ln q(x_{t})={\frac {1}{1-{\bar {\alpha }}_{t}}}(-x_{t}+{\sqrt {{\bar {\alpha }}_{t}}}E_{q}[x_{0}|x_{t}])$ $\sum _{t}L_{simple,t}$ $L_{simple,t}=E_{x_{0}\sim q;z\sim N(0,I)}\left[\left\|\epsilon _{\theta }(x_{t},t)-z\right\|^{2}\right]$ $x_{t}={\sqrt {{\bar {\alpha }}_{t}}}x_{0}+{\sqrt {1-{\bar {\alpha }}_{t}}}z$ $L_{simple,t}=E_{x_{0},x_{t}\sim q}\left[\left\|\epsilon _{\theta }(x_{t},t)-{\frac {x_{t}-{\sqrt {{\bar {\alpha }}_{t}}}x_{0}}{\sqrt {1-{\bar {\alpha }}_{t}}}}\right\|^{2}\right]=E_{x_{t}\sim q,x_{0}\sim q(\cdot |x_{t})}\left[\left\|\epsilon _{\theta }(x_{t},t)-{\frac {x_{t}-{\sqrt {{\bar {\alpha }}_{t}}}x_{0}}{\sqrt {1-{\bar {\alpha }}_{t}}}}\right\|^{2}\right]$ $\epsilon _{\theta }(x_{t},t)={\frac {x_{t}-{\sqrt {{\bar {\alpha }}_{t}}}E_{q}[x_{0}|x_{t}]}{\sqrt {1-{\bar {\alpha }}_{t}}}}=-{\sqrt {1-{\bar {\alpha }}_{t}}}\nabla _{x_{t}}\ln q(x_{t})$

Теперь непрерывный предел обратного уравнения дает нам точно такое же уравнение, как и диффузия на основе очков: $x_{t-1}=x_{t-dt},\beta _{t}=\beta (t)dt,z_{t}{\sqrt {dt}}=dW_{t}$ $x_{t-1}={\frac {x_{t}}{\sqrt {\alpha _{t}}}}-{\frac {\beta _{t}}{\sqrt {\alpha _{t}(1-{\bar {\alpha }}_{t})}}}\epsilon _{\theta }(x_{t},t)+{\sqrt {\beta _{t}}}z_{t};\quad z_{t}\sim N(0,I)$ $x_{t-dt}=x_{t}(1+\beta (t)dt/2)+\beta (t)\nabla _{x_{t}}\ln q(x_{t})dt+{\sqrt {\beta (t)}}dW_{t}$

Основные варианты

Неявная модель шумоподавления и диффузии (DDIM)

Исходный метод DDPM для генерации изображений медленный, поскольку процесс прямой диффузии обычно требует, чтобы распределение выглядело близким к гауссову. Однако это означает, что процесс обратной диффузии также занимает 1000 шагов. В отличие от процесса прямой диффузии, который может пропускать шаги, поскольку он является гауссовским для всех , процесс обратной диффузии не позволяет пропускать шаги. Например, для выборки требуется, чтобы модель сначала выполнила выборку . Попытка прямой выборки потребовала бы от нас маргинализации , что, как правило, неразрешимо. $T\sim 1000$ $x_{T}$ $x_{t}|x_{0}$ $t\geq 1$ $x_{t-2}|x_{t-1}\sim N(\mu _{\theta }(x_{t-1},t-1),\Sigma _{\theta }(x_{t-1},t-1))$ $x_{t-1}$ $x_{t-2}|x_{t}$ $x_{t-1}$

DDIM ^[18] — это метод, позволяющий взять любую модель, обученную на потерях DDPM, и использовать ее для выборки с пропуском некоторых шагов, жертвуя регулируемым уровнем качества. Если мы преобразуем случай марковской цепи в DDPM в немарковский случай, DDIM соответствует случаю, когда обратный процесс имеет дисперсию, равную 0. Другими словами, обратный процесс (а также прямой процесс) является детерминированным. При меньшем количестве шагов выборки DDIM превосходит DDPM.

Модель скрытой диффузии (LDM)

Поскольку модель диффузии является общим методом моделирования распределений вероятностей, если кто-то хочет смоделировать распределение по изображениям, можно сначала закодировать изображения в пространство более низкой размерности с помощью кодера, а затем использовать модель диффузии для моделирования распределения по закодированным изображениям. изображений. Затем, чтобы сгенерировать изображение, можно выполнить выборку из модели диффузии, а затем использовать декодер для декодирования ее в изображение. ^[19]

Пара кодер-декодер чаще всего представляет собой вариационный автоэнкодер (VAE).

Руководство по классификатору

Предположим, мы хотим сделать выборку не из всего распределения изображений, а в зависимости от описания изображения. Мы хотим использовать не общее изображение, а изображение, соответствующее описанию «черный кот с красными глазами». Как правило, мы хотим выполнить выборку из распределения , где диапазоны варьируются по изображениям и по классам изображений (описание «черный кот с красными глазами» — это просто очень подробный класс, а класс «кот» — это просто очень расплывчатое описание). ). $p(x|y)$ $x$ $y$

С точки зрения модели шумного канала мы можем понять этот процесс следующим образом: чтобы сгенерировать изображение, зависящее от описания , мы представляем, что запрашивающий действительно имел в виду изображение , но изображение проходит через шумный канал и выходит искаженным. , как . В таком случае генерация изображения — это не что иное, как вывод, который имел в виду запрашивающий. $x$ $y$ $x$ $y$ $x$

Другими словами, генерация условного изображения — это просто «перевод с текстового языка на графический язык». Затем, как и в модели с шумным каналом, мы используем теорему Байеса, чтобы, другими словами, если у нас есть хорошая модель пространства всех изображений и хороший преобразователь изображения в класс, мы получаем переводчик «бесплатно». В уравнении обратной диффузии оценку можно заменить на функцию оценки, обученную, как описано ранее, и найденную с помощью дифференцируемого классификатора изображений. $p(x|y)\propto p(y|x)p(x)$ $\nabla \ln p(x)$ $\nabla _{x}\ln p(x|y)=\nabla _{x}\ln p(y|x)+\nabla _{x}\ln p(x)$ $\nabla _{x}\ln p(x)$ $\nabla _{x}\ln p(y|x)$

С температурой

Модель диффузии, управляемая классификатором, выборка из , которая сосредоточена вокруг максимальной апостериорной оценки . Если мы хотим заставить модель двигаться к оценке максимального правдоподобия , мы можем использовать где интерпретируется как обратная температура . В контексте диффузионных моделей ее обычно называют шкалой наведения . Высокий уровень заставит модель выбирать из распределения, сосредоточенного вокруг . Это часто улучшает качество создаваемых изображений. ^[20] $p(x|y)$ $\arg \max _{x}p(x|y)$ $\arg \max _{x}p(y|x)$ $p_{\beta }(x|y)\propto p(y|x)^{\beta }p(x)$ $\beta >0$ $\beta$ $\arg \max _{x}p(y|x)$

Это можно сделать просто с помощью SGLD с помощью $\nabla _{x}\ln p_{\beta }(x|y)=\beta \nabla _{x}\ln p(y|x)+\nabla _{x}\ln p(x)$

Руководство без классификаторов (CFG)

Если у нас нет классификатора , мы все равно можем извлечь его из самой модели изображения: ^[21] Такая модель обычно обучается, представляя ей оба и , что позволяет ей моделировать оба и . $p(y|x)$ $\nabla _{x}\ln p_{\beta }(x|y)=(1-\beta )\nabla _{x}\ln p(x)+\beta \nabla _{x}\ln p(x|y)$ $(x,y)$ $(x,{\rm {None}})$ $\nabla _{x}\ln p(x|y)$ $\nabla _{x}\ln p(x)$

Пробоотборники

Учитывая диффузионную модель, можно рассматривать ее либо как непрерывный процесс и производить выборку из него путем интегрирования СДУ, либо можно рассматривать ее как дискретный процесс и производить выборку из него, повторяя дискретные шаги. Выбор «шумового графика» также может повлиять на качество семплов. С точки зрения DDPM можно использовать сам DDPM (с шумом) или DDIM (с регулируемым уровнем шума). Случай добавления шума иногда называют предковой выборкой. ^[22] Можно интерполировать между шумом и отсутствием шума. Количество шума обозначается («значение эта») в документе DDIM, где обозначается отсутствие шума (как в детерминированном DDIM) и обозначается полный шум (как в DDPM). $\beta _{t}$ $\eta$ $\eta =0$ $\eta =1$

С точки зрения СДУ можно использовать любой из методов численного интегрирования , например, метод Эйлера-Маруямы , метод Хойна , линейные многошаговые методы и т. д. Как и в дискретном случае, во время интегрирования можно добавлять регулируемое количество шума. .

Обзор и сравнение сэмплеров в контексте генерации изображений см. ^[23].

Модель диффузии на основе потока

Говоря абстрактно, идея диффузионной модели состоит в том, чтобы взять неизвестное распределение вероятностей (распределение естественно выглядящих изображений), а затем постепенно преобразовать его в известное распределение вероятностей (стандартное распределение Гаусса), построив абсолютно непрерывный путь вероятностей, соединяющий их. Вероятностный путь фактически неявно определяется функцией оценки . $\nabla \ln p_{t}$

В моделях диффузии с шумоподавлением прямой процесс добавляет шум, а обратный процесс удаляет шум. И прямой, и обратный процессы являются СДУ , хотя прямой процесс интегрируется в замкнутой форме, поэтому его можно выполнить без вычислительных затрат. Обратный процесс не интегрируется в замкнутой форме, поэтому его необходимо интегрировать шаг за шагом с помощью стандартных решателей SDE, что может быть очень дорогим. Вероятностный путь в модели диффузии определяется с помощью процесса Ито , и детерминированный процесс можно восстановить, используя формулировку потока ОДУ вероятности. ^[2]

В моделях диффузии, основанных на потоке, прямой процесс представляет собой как детерминированный поток вдоль векторного поля, зависящего от времени, так и обратный процесс представляет собой то же векторное поле, но идущее назад. Оба процесса являются решениями ОДУ . Если векторное поле ведет себя хорошо, ОДУ также будет вести себя хорошо.

Учитывая два распределения и , модель на основе потока представляет собой зависящее от времени поле скорости в , так что если мы начнем с выборки точки и позволим ей двигаться в соответствии с полем скорости: в конечном итоге мы получим точку . Решение приведенного выше ОДУ определяет вероятностный путь с помощью оператора меры прямого продвижения . В частности, у одного есть . $\pi _{0}$ $\pi _{1}$ $v_{t}(x)$ $[0,1]\times \mathbb {R} ^{d}$ $x\sim \pi _{0}$ ${\frac {d}{dt}}\phi _{t}(x)=v_{t}(\phi _{t}(x))\quad t\in [0,1],\quad {\text{starting from }}\phi _{0}(x)=x$ $x_{1}\sim \pi _{1}$ $\phi _{t}$ $p_{t}=[\phi _{t}]_{\#}\pi _{0}$ $[\phi _{1}]_{\#}\pi _{0}=\pi _{1}$

Вероятностный путь и поле скорости также удовлетворяют уравнению непрерывности в смысле распределения вероятностей: Чтобы построить вероятностный путь, мы начинаем с построения условного вероятностного пути и соответствующего условного поля скорости на некотором условном распределении . Естественным выбором является гауссовский путь условной вероятности: поле условной скорости, которое соответствует геодезическому пути между условным гауссовским путем, равно. Путь вероятности и поле скорости затем вычисляются путем маргинализации $\partial _{t}p_{t}+\mathrm {div} (v_{t}\cdot p_{t})=0$ $p_{t}(x\vert z)$ $v_{t}(x\vert z)$ $q(z)$ $p_{t}(x\vert z)={\mathcal {N}}\left(m_{t}(z),\sigma _{t}^{2}I\right)$ $v_{t}(x\vert z)={\frac {\sigma _{t}'}{\sigma _{t}}}(x-m_{t}(z))+m_{t}'(z)$

$p_{t}(x)=\int p_{t}(x\vert z)q(z)dz\qquad {\text{ and }}\qquad v_{t}(x)=\mathbb {E} _{q(z)}\left[{\frac {v_{t}(x\vert z)p_{t}(x\vert z)}{p_{t}(x)}}\right]$

Оптимальный транспортный поток

Идея оптимального транспортного потока ^[24] заключается в построении вероятностного пути, минимизирующего метрику Вассерштейна . Распределение, на котором мы основываемся, представляет собой оптимальный план транспортировки между и : и , где - оптимальный план транспортировки, который можно аппроксимировать оптимальной мини-пакетной транспортировкой. $\pi _{0}$ $\pi _{1}$ $z=(x_{0},x_{1})$ $q(z)=\Gamma (\pi _{0},\pi _{1})$ $\Gamma$

Ректифицированный поток

Идея выпрямленного потока ^[25]^[26] состоит в том, чтобы изучить модель потока, в которой скорость почти постоянна вдоль каждого пути потока. Это выгодно, потому что мы можем интегрировать вдоль такого векторного поля всего за несколько шагов. Например, если ОДУ следует совершенно прямым путям, оно упрощается до , позволяя получать точные решения за один шаг. На практике мы не можем достичь такого совершенства, но когда поле потока близко к нему, мы можем сделать несколько больших шагов вместо множества маленьких шагов. ${\dot {\phi _{t}}}(x)=v_{t}(\phi _{t}(x))$ $\phi _{t}(x)=x_{0}+t\cdot v_{0}(x_{0})$

Общая идея состоит в том, чтобы начать с двух распределений и , затем построить из него поле потока , а затем повторно применить операцию «перекомпоновки» для получения последовательных полей потока , каждое из которых более прямолинейное, чем предыдущее. Когда поле потока становится достаточно прямым для приложения, мы останавливаемся. $\pi _{0}$ $\pi _{1}$ $\phi ^{0}=\{\phi _{t}:t\in [0,1]\}$ $\phi ^{1},\phi ^{2},\dots$

Как правило, для любого дифференцируемого во времени процесса можно оценить , решив: $\phi _{t}$ $v_{t}$ $\min _{\theta }\int _{0}^{1}\mathbb {E} _{x\sim p_{t}(x}\left[\lVert {v_{t}(x,\theta )-v_{t}(x)}\rVert ^{2}\right]\,\mathrm {d} t.$

В выпрямленном потоке, вводя сильные априорные данные о том, что промежуточные траектории являются прямыми, можно достичь как теоретической значимости для оптимальной транспортировки, так и вычислительной эффективности, поскольку ОДУ с прямыми путями можно моделировать точно без дискретизации по времени.

В частности, выпрямленный поток стремится сопоставить ОДУ с маргинальными распределениями линейной интерполяции между точками из распределений и . Учитывая наблюдения и , каноническая линейная интерполяция дает тривиальный случай , который невозможно причинно смоделировать без . Чтобы решить эту проблему, «проецируется» в пространство причинно моделируемых ОДУ путем минимизации потерь метода наименьших квадратов по отношению к направлению : $\pi _{0}$ $\pi _{1}$ $x_{0}\sim \pi _{0}$ $x_{1}\sim \pi _{1}$ $x_{t}=tx_{1}+(1-t)x_{0},t\in [0,1]$ ${\dot {x}}_{t}=x_{1}-x_{0}$ $x_{1}$ $x_{t}$ $x_{1}-x_{0}$ $\min _{\theta }\int _{0}^{1}\mathbb {E} _{\pi _{0},\pi _{1},p_{t}}\left[\lVert {(x_{1}-x_{0})-v_{t}(x_{t})}\rVert ^{2}\right]\,\mathrm {d} t.$

Пара данных может быть любой связью и , обычно независимой (т. е. ), полученной путем случайного объединения наблюдений из и . Этот процесс гарантирует, что траектории точно отражают карту плотности траекторий, но меняют маршрут на пересечениях, чтобы обеспечить причинно-следственную связь. Этот процесс исправления также известен как согласование потоков, ^[27] стохастическая интерполяция, ^[28] и альфа-смешение. ^[^{нужна цитата}^] $(x_{0},x_{1})$ $\pi _{0}$ $\pi _{1}$ $(x_{0},x_{1})\sim \pi _{0}\times \pi _{1}$ $\pi _{0}$ $\pi _{1}$ $x_{t}$

Отличительной особенностью выпрямленного потока является его способность к « перекомпоновке », которая выпрямляет траекторию путей ОДУ. Обозначим выпрямленный поток, индуцированный из как . Рекурсивное применение этого оператора генерирует серию выпрямляемых потоков . Этот процесс «оплавления» не только снижает транспортные расходы, но и выпрямляет пути выпрямляемых потоков, делая пути более прямыми с увеличением . $\phi ^{0}=\{\phi _{t}:t\in [0,1]\}$ $(x_{0},x_{1})$ $\phi ^{0}={\mathsf {Rectflow}}((x_{0},x_{1}))$ ${\mathsf {Rectflow}}(\cdot )$ $\phi ^{k+1}={\mathsf {Rectflow}}((\phi _{0}^{k}(x_{0}),\phi _{1}^{k}(x_{1})))$ $\phi ^{k}$ $k$

Выпрямленный поток включает нелинейное расширение, в котором линейная интерполяция заменяется любой дифференцируемой во времени кривой, которая соединяет и , заданную . Эта структура охватывает DDIM и ODE потока вероятностей как особые случаи с особым выбором и . Однако в случае, когда путь не является прямым, процесс перекомпоновки уже не обеспечивает снижение затрат на выпуклую транспортировку, а также больше не выпрямляет пути . ^[25] $x_{t}$ $x_{0}$ $x_{1}$ $x_{t}=\alpha _{t}x_{1}+\beta _{t}x_{0}$ $\alpha _{t}$ $\beta _{t}$ $x_{t}$ $\phi _{t}$

Выбор архитектуры

Диффузионная модель

Для генерации изображений с помощью DDPM нам нужна нейронная сеть, которая берет время и зашумленное изображение и прогнозирует по нему шум . Поскольку прогнозирование шума — это то же самое, что прогнозирование изображения с шумоподавлением, а затем его вычитание из , архитектуры с шумоподавлением, как правило, работают хорошо. Например, U-Net , которая оказалась хорошей для шумоподавления изображений, часто используется для шумоподавления диффузионных моделей, генерирующих изображения. ^[29] $t$ $x_{t}$ $\epsilon _{\theta }(x_{t},t)$ $x_{t}$

Для DDPM базовая архитектура не обязательно должна быть U-Net. Ему просто нужно как-то предсказать шум. Например, диффузионный преобразователь (DiT) использует преобразователь для прогнозирования средней и диагональной ковариации шума с учетом текстовой обработки и частично очищенного от шума изображения. Это то же самое, что и стандартная модель диффузии шумоподавления на основе U-Net, с трансформатором, заменяющим U-Net. ^[30]

DDPM можно использовать для моделирования общего распределения данных, а не только естественно выглядящих изображений. Например, Human Motion Diffusion ^[31] моделирует траекторию движения человека с помощью DDPM. Каждая траектория движения человека представляет собой последовательность поз, представленных либо поворотами суставов, либо позициями. Он использует сеть трансформаторов для создания менее шумной траектории из шумной.

Кондиционирование

Базовая модель диффузии может генерировать только безоговорочно из всего распределения. Например, модель диффузии, изученная в ImageNet, будет генерировать изображения, которые выглядят как случайное изображение из ImageNet. Чтобы генерировать изображения только из одной категории, нужно будет наложить условие. Какое бы условие вы ни хотели наложить, нужно сначала преобразовать условие в вектор чисел с плавающей запятой, а затем передать его в базовую нейронную сеть модели диффузии. Однако у человека есть свобода выбора, как преобразовать обусловленность в вектор.

Стабильная диффузия, например, налагает обусловленность в форме механизма перекрестного внимания , где запрос является промежуточным представлением изображения в U-Net, а ключ и значение являются векторами обусловленности. Кондиционирование можно выборочно применять только к частям изображения, а новые виды условий можно точно настроить на основе базовой модели, как это используется в ControlNet. ^[32]

В качестве особенно простого примера рассмотрим зарисовку изображения . Условия: , эталонное изображение и , маска врисовки . Условие налагается на каждом этапе процесса обратной диффузии путем сначала выборки зашумленной версии , а затем замены на , где означает поэлементное умножение . ^[33] ${\tilde {x}}$ $m$ ${\tilde {x}}_{t}\sim N\left({\sqrt {{\bar {\alpha }}_{t}}}{\tilde {x}},(1-{\bar {\alpha }}_{t})I\right)$ ${\tilde {x}}$ $x_{t}$ $(1-m)\odot x_{t}+m\odot {\tilde {x}}_{t}$ $\odot$

Кондиционирование не ограничивается простым созданием изображений из определенной категории или в соответствии с определенным заголовком (как в случае преобразования текста в изображение). Например, ^[31] продемонстрировали генерацию движений человека на основе аудиоклипа ходьбы человека (позволяющего синхронизировать движение со звуковой дорожкой), или видео бега человека, или текстового описания движения человека и т. д.

Апскейлинг

Поскольку создание изображения занимает много времени, можно попытаться создать небольшое изображение с помощью базовой модели диффузии, а затем масштабировать его с помощью других моделей. Масштабирование может быть выполнено с помощью GAN , ^[34] Transformer , ^[35] или методов обработки сигналов, таких как передискретизация Ланцоша .

Сами модели диффузии могут использоваться для масштабирования. Каскадная модель диффузии объединяет несколько моделей диффузии одну за другой в стиле Progressive GAN . Самый низкий уровень — это стандартная модель диффузии, которая генерирует изображение размером 32x32, затем изображение будет масштабироваться с помощью модели диффузии, специально обученной для масштабирования, и процесс повторяется. ^[29]

Более подробно, диффузионный апскейлер обучается следующим образом: ^[29]

Sample , где — изображение с высоким разрешением, — это то же самое изображение, но уменьшенное до низкого разрешения, а также условие, которым может быть заголовок изображения, класс изображения и т. д. $(x_{0},z_{0},c)$ $x_{0}$ $z_{0}$ $c$
Примерьте два белых шума , два временных шага . Вычислите зашумленные версии изображений с высоким и низким разрешением: . $\epsilon _{x},\epsilon _{z}$ $t_{x},t_{z}$ ${\begin{cases}x_{t_{x}}&={\sqrt {{\bar {\alpha }}_{t_{x}}}}x_{0}+{\sqrt {1-{\bar {\alpha }}_{t_{x}}}}\epsilon _{x}\\z_{t_{z}}&={\sqrt {{\bar {\alpha }}_{t_{z}}}}z_{0}+{\sqrt {1-{\bar {\alpha }}_{t_{z}}}}\epsilon _{z}\end{cases}}$
Обучите сеть шумоподавления прогнозировать заданные . То есть применить градиентный спуск к потерям L2 . $\epsilon _{x}$ $x_{t_{x}},z_{t_{z}},t_{x},t_{z},c$ $\theta$ $\|\epsilon _{\theta }(x_{t_{x}},z_{t_{z}},t_{x},t_{z},c)-\epsilon _{x}\|_{2}^{2}$

Примеры

В этом разделе собраны некоторые известные диффузионные модели и кратко описана их архитектура.

ОпенАИ

Серия DALL-E от OpenAI представляет собой модели изображений с условным распространением текста.

Первая версия DALL-E (2021 г.) на самом деле не является диффузной моделью. Вместо этого он использует архитектуру Transformer, которая генерирует последовательность токенов, которая затем преобразуется в изображение декодером дискретного VAE. Вместе с DALL-E был выпущен классификатор CLIP, который использовался DALL-E для ранжирования сгенерированных изображений в зависимости от того, насколько близко изображение соответствует тексту.

GLIDE (2022-03) ^[36] — это диффузионная модель стоимостью 3,5 миллиарда долларов, небольшая версия которой была опубликована публично. ^[4] Вскоре после этого был выпущен DALL-E 2 (2022–04). ^[37] DALL-E 2 — это 3,5-миллиардная каскадная диффузионная модель, которая генерирует изображения из текста путем «инвертирования кодера изображений CLIP», метода, который они назвали «unCLIP».

Сора (2024-02) представляет собой модель диффузионного трансформатора (DiT).

Стабильность ИИ

Stable Diffusion (2022-08), выпущенный Stability AI, состоит из модели скрытой диффузии с шумоподавлением (860 миллионов параметров), VAE и текстового кодировщика. Сеть шумоподавления представляет собой U-Net с блоками перекрестного внимания, позволяющими генерировать условные изображения. ^[38]^[19]

В версии Stable Diffusion 3 (2024-02) ^[39] модель скрытой диффузии заменена с UNet на модель Transformer, и поэтому это DiT. Он использует выпрямленный поток.

Google

Imagen (2022-05) ^[40]^[41] использует языковую модель T5 для кодирования входного текста во вложения. Это модель каскадной диффузии, состоящая из трех этапов. На первом этапе белый шум удаляется до изображения размером 64×64 при условии встраивания текста. На втором этапе изображение масштабируется до 64×64→256×256 при условии встраивания текста. Третий шаг аналогичен: масштабирование до 256×256→1024×1024. Все три сети шумоподавления являются U-сетями.

Imagen 2 (2023-12) также основан на диффузии. Он может генерировать изображения на основе подсказки, сочетающей изображения и текст. Никакой дополнительной информации нет. ^[42]

Veo (2024-05) генерирует видео путем скрытой диффузии. Распространение обусловлено вектором, который кодирует как текстовую, так и графическую подсказку. ^[43]

Смотрите также

дальнейшее чтение

Руководство: чит-код для диффузионных моделей. Обзор руководства по классификатору и руководства без классификатора, свет на математические детали.
Математические детали в статье опущены.
- «Сила диффузионных моделей». АстраБлог . 2022-09-25 . Проверено 25 сентября 2023 г.
- Вен, Лилиан (11 июля 2021 г.). «Что такое диффузионные модели?». lilianweng.github.io . Проверено 25 сентября 2023 г.

Диффузионная модель

Модель шумоподавления и диффузии

Неравновесная термодинамика

Вероятностная модель диффузии с шумоподавлением (DDPM)

Прямая диффузия

Обратная диффузия

Вариационный вывод

Сеть прогнозирования шума

Генеративная модель на основе оценок

Сопоставление очков

Идея оценочных функций

Изучение функции оценки

Отжиг функции оценки

Непрерывные диффузионные процессы

Процесс прямой диффузии

Процесс обратной диффузии

Сеть условной оценки шума (NCSN)

Их эквивалентность

Основные варианты

Неявная модель шумоподавления и диффузии (DDIM)

Модель скрытой диффузии (LDM)

Руководство по классификатору

С температурой

Руководство без классификаторов (CFG)

Пробоотборники

Модель диффузии на основе потока

Оптимальный транспортный поток

Ректифицированный поток

Выбор архитектуры

Диффузионная модель

Кондиционирование

Апскейлинг

Примеры

ОпенАИ

Стабильность ИИ

Google

Смотрите также

дальнейшее чтение

Рекомендации