stringtranslate.com

Стабильная диффузия

Stable Diffusion — это модель глубокого обучения преобразования текста в изображение, выпущенная в 2022 году и основанная на методах диффузии . Это считается частью продолжающегося бума искусственного интеллекта .

В основном он используется для создания подробных изображений на основе текстовых описаний, хотя его также можно применять и для других задач, таких как закрашивание , закрашивание и создание переводов между изображениями под управлением текстовой подсказки . [3] В его разработке участвовали исследователи из группы CompVis в Мюнхенском университете Людвига-Максимилиана и Runway при вычислительном пожертвовании Stability AI и обучающих данных от некоммерческих организаций. [4] [5] [6] [7]

Стабильная диффузия — это модель скрытой диффузии , своего рода глубокая генеративная искусственная нейронная сеть . Его код и вес модели были открыты [8] , и он может работать на большинстве потребительских устройств, оснащенных скромным графическим процессором с объемом видеопамяти не менее 4 ГБ . Это ознаменовало отход от предыдущих проприетарных моделей преобразования текста в изображение, таких как DALL-E и Midjourney , которые были доступны только через облачные сервисы . [9] [10]

Разработка

Разработку Stable Diffusion финансировала и формировала стартап-компания Stability AI . [10] [11] [12] [13] Техническая лицензия на модель была выпущена группой CompVis в Мюнхенском университете Людвига-Максимилиана. [10] Разработку возглавляли Патрик Эссер из Runway и Робин Ромбах из CompVis, которые были среди исследователей, которые ранее изобрели архитектуру модели скрытой диффузии, используемую Stable Diffusion. [7] Stability AI также указала, что EleutherAI и LAION (немецкая некоммерческая организация, которая собрала набор данных для обучения Stable Diffusion) являются сторонниками проекта. [7]

В октябре 2022 года Stability AI привлекла 101 миллион долларов США в рамках раунда, проведенного Lightspeed Venture Partners и Coatue Management . [14]

Технологии

Схема архитектуры скрытой диффузии, используемой Stable Diffusion
Процесс шумоподавления, используемый Stable Diffusion. Модель генерирует изображения путем итеративного шумоподавления случайного шума до тех пор, пока не будет достигнуто настроенное количество шагов, под руководством кодировщика текста CLIP, предварительно обученного на концепциях, а также механизма внимания, в результате чего желаемое изображение представляет собой представление обученной концепции.

Архитектура

Стабильная диффузия использует разновидность модели диффузии (DM), называемую моделью скрытой диффузии (LDM), разработанную группой CompVis в LMU Мюнхен . [15] [8] Представленные в 2015 году диффузионные модели обучаются с целью удаления последовательных применений гауссовского шума на обучающих изображениях, что можно рассматривать как последовательность автокодировщиков шумоподавления . Stable Diffusion состоит из трех частей: вариационного автокодировщика (VAE), U-Net и дополнительного кодировщика текста. [16] Кодер VAE сжимает изображение из пространства пикселей в скрытое пространство меньшего размера , улавливая более фундаментальное семантическое значение изображения. [15] Гауссов шум итеративно применяется к сжатому скрытому представлению во время прямой диффузии. [16] Блок U-Net, состоящий из магистральной сети ResNet , удаляет шум на выходе прямой диффузии назад, чтобы получить скрытое представление. Наконец, декодер VAE генерирует окончательное изображение, преобразуя представление обратно в пространство пикселей. [16]

Шаг шумоподавления может быть гибко обусловлен строкой текста, изображением или другой модальностью. Закодированные данные кондиционирования подвергаются шумоподавлению U-Nets с помощью механизма перекрестного внимания . [16] Для обработки текста используется фиксированный предварительно обученный текстовый кодер CLIP ViT-L/14, который преобразует текстовые подсказки в пространство для встраивания. [8] Исследователи указывают на повышенную вычислительную эффективность для обучения и генерации как на преимущество LDM. [7] [15]

Имея 860  миллионов параметров в U-Net и 123  миллиона в текстовом кодировщике, Stable Diffusion считается относительно лёгким по стандартам 2022 года и, в отличие от других моделей диффузии, может работать на потребительских графических процессорах [17] и даже на центральных процессорах — только при использовании версия OpenVINO Stable Diffusion. [18]

SD XL

Версия XL использует ту же архитектуру, [19] за исключением большего: более крупная магистральная сеть UNet, больший контекст перекрестного внимания, два кодировщика текста вместо одного и обучена на нескольких соотношениях сторон (а не только на квадратном соотношении сторон, как в предыдущих версиях).

SD XL Refiner, выпущенный в то же время, имеет ту же архитектуру, что и SD XL, но он был обучен добавлению мелких деталей к уже существующим изображениям с помощью условного текста img2img.

СД 3.0

Версия 3.0 [20] полностью меняет основу. Не UNet, а Rectified Flow Transformer , который реализует метод выпрямленного потока [21] [22] с помощью Transformer.

По сути, идея диффузного моделирования заключается в том, чтобы научиться преобразовывать одно распределение в другое. При создании изображений одно распределение — это распределение изображений с чистым белым шумом, а другое — распределение естественно выглядящих изображений. Метод выпрямленного потока обучает нейронную сеть прогнозировать один вектор из точки одного распределения так, чтобы, двигаясь по этому вектору, можно было оказаться в точке другого распределения.

Архитектура Transformer, используемая для SD 3.0, имеет три «дорожки»: для кодирования исходного текста, кодирования преобразованного текста и кодирования изображения (в скрытом пространстве). Преобразованное кодирование текста и кодирование изображения смешиваются во время каждого блока преобразования.

Архитектура называется «мультимодальный диффузионный преобразователь (MMDiT), где «мультимодальный» означает, что она смешивает кодировки текста и изображения внутри своих операций, что отличается от предыдущих версий DiT, где кодировка текста влияет на кодировку изображения, но не наоборот. .

Данные обучения

Обучение Stable Diffusion проводилось на парах изображений и подписей, взятых из LAION-5B, общедоступного набора данных, полученного на основе данных Common Crawl , извлеченных из Интернета, где 5 миллиардов пар изображение-текст были классифицированы на основе языка и отфильтрованы в отдельные наборы данных по разрешению. прогнозируемая вероятность наличия водяного знака и прогнозируемая «эстетическая» оценка (например, субъективное визуальное качество). [23] Набор данных был создан LAION , немецкой некоммерческой организацией, которая получает финансирование от Stability AI. [23] [24] Модель стабильной диффузии была обучена на трех подмножествах LAION-5B: laion2B-en, laion-high-solve и laion-esthetics v2 5+. [23] Сторонний анализ данных обучения модели показал, что из меньшего подмножества в 12 миллионов изображений, взятых из исходного более широкого используемого набора данных, примерно 47% размера выборки изображений поступили из 100 различных доменов, при этом Pinterest взял до 8,5% подмножества, за которыми следуют такие сайты, как WordPress , Blogspot , Flickr , DeviantArt и Wikimedia Commons . [ нужна цитация ] Расследование Bayerischer Rundfunk показало, что наборы данных LAION, размещенные на Hugging Face, содержат большое количество частных и конфиденциальных данных. [25]

Процедуры обучения

Первоначально модель обучалась на подмножествах laion2B-en и laion-high-разрешения, причем последние несколько раундов обучения проводились на LAION-Aesthetics v2 5+, подмножестве из 600 миллионов изображений с субтитрами, которые, по прогнозам LAION-Aesthetics Predictor V2, люди в среднем дали бы оценку не менее 5 из 10, когда их попросили оценить, насколько они им понравились. [26] [23] [27] Подмножество LAION-Aesthetics v2 5+ также исключало изображения с низким разрешением и изображения, которые LAION-5B-WatermarkDetection идентифицировал как несущие водяной знак с вероятностью более 80%. [23] Заключительные раунды обучения дополнительно снизили необходимость обработки текста на 10 %, чтобы улучшить управление диффузией без классификаторов. [28]

Модель была обучена с использованием 256 графических процессоров Nvidia A100 в Amazon Web Services в общей сложности 150 000 графо-часов и обошлась в 600 000 долларов США. [29] [30] [31]

Ограничения

Стабильная диффузия имеет проблемы с деградацией и неточностями в определенных сценариях. Первоначальные выпуски модели были обучены на наборе данных, состоящем из изображений с разрешением 512×512, а это означает, что качество создаваемых изображений заметно ухудшается, когда пользовательские спецификации отклоняются от «ожидаемого» разрешения 512×512; [32] в обновлении модели Stable Diffusion версии 2.0 позже появилась возможность генерировать изображения с разрешением 768×768. [33] Другая проблема заключается в создании человеческих конечностей из-за низкого качества данных о конечностях в базе данных LAION. [34] Модель недостаточно обучена, чтобы понимать человеческие конечности и лица из-за отсутствия репрезентативных особенностей в базе данных, и побуждение модели генерировать изображения такого типа может сбить ее с толку. [35] Версия 1.0 Stable Diffusion XL (SDXL), выпущенная в июле 2023 года, представила собственное разрешение 1024x1024 и улучшенную генерацию конечностей и текста. [36] [37]

Доступность для отдельных разработчиков также может быть проблемой. Чтобы настроить модель для новых вариантов использования, которые не включены в набор данных, таких как генерация персонажей аниме («диффузия вайфу»), [38] требуются новые данные и дальнейшее обучение. Точные адаптации Stable Diffusion, созданные посредством дополнительной переподготовки, использовались для множества различных случаев использования, от медицинских изображений [39] до алгоритмически генерируемой музыки . [40] Однако этот процесс тонкой настройки чувствителен к качеству новых данных; Изображения с низким разрешением или разрешения, отличные от исходных данных, могут не только не справиться с новой задачей, но и ухудшить общую производительность модели. Даже если модель дополнительно обучена на изображениях высокого качества, людям сложно запускать модели в бытовой электронике. Например, процесс обучения вайфу-диффузии требует минимум 30 ГБ видеопамяти , [ 41 ] что превышает обычный ресурс, предусмотренный в таких потребительских графических процессорах, как серия Nvidia GeForce 30 , у которой всего около 12 ГБ. [42]

Создатели Stable Diffusion признают возможность алгоритмической предвзятости , поскольку модель в первую очередь обучалась на изображениях с английскими описаниями. [30] В результате сгенерированные изображения усиливают социальные предубеждения и отражают западную точку зрения, поскольку создатели отмечают, что в модели отсутствуют данные из других сообществ и культур. Модель дает более точные результаты для подсказок, написанных на английском языке, по сравнению с подсказками, написанными на других языках, при этом западная или белая культура часто является представлением по умолчанию. [30]

Тонкая настройка для конечного пользователя

Чтобы устранить ограничения первоначального обучения модели, конечные пользователи могут выбрать дополнительное обучение для точной настройки результатов генерации в соответствии с более конкретными сценариями использования. Этот процесс также называется персонализацией . Существует три метода, с помощью которых доступная пользователю точная настройка может быть применена к контрольной точке модели стабильной диффузии:

Возможности

Модель Stable Diffusion поддерживает возможность генерировать новые изображения с нуля с помощью текстового приглашения, описывающего элементы, которые следует включить или исключить из вывода. [8] Существующие изображения могут быть перерисованы моделью, чтобы включить новые элементы, описываемые текстовой подсказкой (процесс, известный как «направляемый синтез изображений» [47] ) посредством механизма диффузионного шумоподавления. [8] Кроме того, модель также позволяет использовать подсказки для частичного изменения существующих изображений посредством закрашивания и перерисовки при использовании с соответствующим пользовательским интерфейсом, поддерживающим такие функции, для которых существует множество различных реализаций с открытым исходным кодом. [48]

Stable Diffusion рекомендуется запускать с 10 ГБ или более видеопамяти, однако пользователи с меньшим количеством видеопамяти могут выбрать загрузку весов с точностью float16 вместо значения по умолчанию float32, чтобы обеспечить компромисс между производительностью модели и меньшим использованием видеопамяти. [32]

Генерация текста в изображение

Демонстрация влияния негативных подсказок на генерацию изображений
  • Вверху : нет негативных подсказок
  • Центр : «зеленые деревья».
  • Внизу : «круглые камни, круглые камни».

Сценарий выборки текста в изображение в Stable Diffusion, известный как «txt2img», использует текстовую подсказку в дополнение к различным параметрам, охватывающим типы выборки, размеры выходного изображения и начальные значения. Сценарий выводит файл изображения на основе интерпретации подсказки моделью. [8] Сгенерированные изображения помечаются невидимым цифровым водяным знаком , чтобы пользователи могли идентифицировать изображение как созданное с помощью Stable Diffusion, [8] хотя этот водяной знак теряет свою эффективность, если изображение изменяется в размере или поворачивается. [49]

Каждое поколение txt2img будет включать определенное начальное значение , которое влияет на выходное изображение. Пользователи могут выбрать рандомизацию начального числа, чтобы изучить различные сгенерированные выходные данные, или использовать одно и то же начальное число для получения того же выходного изображения, что и ранее сгенерированное изображение. [32] Пользователи также могут регулировать количество шагов вывода для пробоотборника; более высокое значение занимает больше времени, однако меньшее значение может привести к визуальным дефектам. [32] Другая настраиваемая опция — значение шкалы навигации без классификатора — позволяет пользователю регулировать, насколько точно выходное изображение соответствует подсказке. [28] В более экспериментальных случаях использования можно выбрать более низкое значение шкалы, в то время как в сценариях использования, нацеленных на более конкретные результаты, может использоваться более высокое значение. [32]

Дополнительные функции text2img предоставляются внешними реализациями Stable Diffusion, которые позволяют пользователям изменять вес, придаваемый определенным частям текстового приглашения. Маркеры выделения позволяют пользователям добавлять или уменьшать выделение ключевых слов, заключая их в квадратные скобки. [50] Альтернативным методом корректировки веса частей подсказки являются «негативные подсказки». Отрицательные подсказки — это функция, включенная в некоторые внешние реализации, включая собственный облачный сервис DreamStudio от Stability AI, и позволяющая пользователю указывать подсказки, которых модели следует избегать во время создания изображения. Указанные подсказки могут представлять собой нежелательные особенности изображения, которые в противном случае присутствовали бы в выходных изображениях из-за положительных подсказок, предоставленных пользователем, или из-за того, как модель изначально обучалась, причем частым примером являются искалеченные человеческие руки. [48] ​​[51]

Модификация изображения

Демонстрация модификации img2img
  • Слева : исходное изображение, созданное с помощью Stable Diffusion 1.5.
  • Справа : измененное изображение, созданное с помощью Stable Diffusion XL 1.0.

Stable Diffusion также включает в себя еще один сценарий выборки, «img2img», который использует текстовую подсказку, путь к существующему изображению и значение силы от 0,0 до 1,0. Скрипт выводит новое изображение на основе исходного изображения, которое также содержит элементы, представленные в текстовой подсказке. Значение силы обозначает количество шума, добавленного к выходному изображению. Более высокое значение интенсивности приводит к большему разнообразию изображения, но может создать изображение, которое семантически не соответствует предоставленному запросу. [8]

Способность img2img добавлять шум к исходному изображению делает его потенциально полезным для анонимизации и увеличения данных , при которых визуальные особенности данных изображения изменяются и анонимизируются. [52] Тот же процесс может быть также полезен для масштабирования изображения, при котором разрешение изображения увеличивается, при этом к изображению потенциально добавляется больше деталей. [52] Кроме того, Stable Diffusion экспериментировал как инструмент для сжатия изображений. По сравнению с JPEG и WebP , последние методы, используемые для сжатия изображений в Stable Diffusion, имеют ограничения по сохранению мелкого текста и лиц. [53]

Дополнительные варианты использования для модификации изображений с помощью img2img предлагаются многочисленными внешними реализациями модели Stable Diffusion. Inpainting включает в себя выборочное изменение части существующего изображения, очерченной предоставленной пользователем маской слоя , которая заполняет замаскированное пространство вновь созданным содержимым на основе предоставленной подсказки. [48] ​​Специальная модель, специально настроенная для сценариев использования рисования, была создана Stability AI одновременно с выпуском Stable Diffusion 2.0. [33] И наоборот, перерисовка расширяет изображение за пределы его исходных размеров, заполняя ранее пустое пространство содержимым, созданным на основе предоставленной подсказки. [48]

Модель с контролем глубины под названием «Deep2img» была представлена ​​вместе с выпуском Stable Diffusion 2.0 24 ноября 2022 года; эта модель определяет глубину предоставленного входного изображения и генерирует новое выходное изображение на основе как текстовой подсказки, так и информации о глубине, что позволяет поддерживать согласованность и глубину исходного входного изображения в сгенерированном выходе. [33]

Контрольная сеть

ControlNet [54] — это архитектура нейронной сети, предназначенная для управления моделями диффузии путем включения дополнительных условий. Он дублирует веса блоков нейронной сети в «заблокированную» копию и «обучаемую» копию. «Обучаемая» копия изучает желаемое условие, а «заблокированная» копия сохраняет исходную модель. Этот подход гарантирует, что обучение с небольшими наборами данных пар изображений не поставит под угрозу целостность готовых к производству диффузионных моделей. «Нулевая свертка» — это свертка 1×1, в которой вес и смещение инициализируются равными нулю. Перед обучением все нулевые свертки дают нулевой результат, предотвращая любые искажения, вызванные ControlNet. Ни один слой не обучается с нуля; процесс все еще находится в стадии тонкой настройки, сохраняя исходную модель в безопасности. Этот метод позволяет проводить обучение на небольших или даже персональных устройствах.

Релизы

Ключевые документы

Стоимость обучения

Использование и споры

Stable Diffusion не претендует на какие-либо права на сгенерированные изображения и бесплатно предоставляет пользователям права использования любых сгенерированных изображений из модели при условии, что содержание изображения не является незаконным или вредным для отдельных лиц. [69]

Изображения, на которых проходил обучение Stable Diffusion, были отфильтрованы без участия человека, что привело к появлению в обучающих данных некоторых вредоносных изображений и большого количества частной и конфиденциальной информации. [25]

Поскольку визуальные стили и композиции не защищены авторским правом, часто считается, что пользователи Stable Diffusion, генерирующие изображения произведений искусства, не должны рассматриваться как нарушающие авторские права на визуально похожие произведения. [70] Однако лица, изображенные на сгенерированных изображениях, могут быть защищены правами личности , если используется их изображение, [70] а интеллектуальная собственность , такая как узнаваемые логотипы брендов, по-прежнему остается защищенной авторским правом. Тем не менее, художники выразили обеспокоенность тем, что широкое использование программного обеспечения для синтеза изображений, такого как Stable Diffusion, может в конечном итоге привести к тому, что люди-художники, а также фотографы, модели, кинематографисты и актеры постепенно потеряют коммерческую жизнеспособность по сравнению с конкурентами, основанными на искусственном интеллекте. [13]

Stable Diffusion заметно более либерален в отношении типов контента, который могут создавать пользователи, например изображений насилия или откровенно сексуального характера, по сравнению с другими коммерческими продуктами, основанными на генеративном искусственном интеллекте. [71] Отвечая на опасения, что модель может быть использована в злоупотребительных целях, генеральный директор Stability AI Эмад Мостак утверждает, что «[это] ответственность людей за то, являются ли они этичными, моральными и законными в том, как они используют эту модель. технологии», [10] и что передача возможностей стабильной диффузии в руки общественности приведет к тому, что технология принесет чистую выгоду, несмотря на потенциальные негативные последствия. [10] Кроме того, Мостак утверждает, что цель открытой доступности Stable Diffusion состоит в том, чтобы положить конец корпоративному контролю и доминированию над такими технологиями, которые ранее разрабатывали только закрытые системы искусственного интеллекта для синтеза изображений. [10] [71] Это отражается в том факте, что любые ограничения Stability AI, налагаемые на контент, который могут создавать пользователи, можно легко обойти благодаря доступности исходного кода. [72]

Споры вокруг фотореалистичных сексуализированных изображений несовершеннолетних персонажей возникли из-за того, что такие изображения, созданные Stable Diffusion, размещались на таких веб-сайтах, как Pixiv . [73]

Судебные разбирательства

В январе 2023 года три художницы, Сара Андерсен , Келли МакКернан и Карла Ортис, подали иск о нарушении авторских прав против Stability AI, Midjourney и DeviantArt , утверждая, что эти компании нарушили права миллионов художников, обучая инструменты ИИ на пяти миллиардов изображений, извлеченных из сети без согласия авторов оригинала. [74] В том же месяце Getty Images подала в суд на компанию Stability AI за использование ее изображений в обучающих данных. [12]

В июле 2023 года окружной судья США Уильям Оррик был склонен отклонить большую часть иска, поданного Андерсеном, МакКернаном и Ортисом, но разрешил им подать новую жалобу. [75]

Лицензия

В отличие от таких моделей, как DALL-E , Stable Diffusion предоставляет доступ к исходному коду [76] [8] вместе с моделью (предварительно обученными весами). К модели (M) применяется лицензия Creative ML OpenRAIL-M, разновидность лицензии Responsible AI (RAIL). [77] Лицензия запрещает определенные случаи использования, включая преступления, клевету , преследование , доксинг , «эксплуатацию… несовершеннолетних», предоставление медицинских консультаций, автоматическое создание юридических обязательств, представление юридических доказательств и «дискриминацию или причинение вреда отдельным лицам или группам на основе о... социальном поведении или... личных или личностных характеристиках... [или] охраняемых законом характеристиках или категориях ". [78] [79] Пользователь владеет правами на созданные им выходные изображения и может свободно использовать их в коммерческих целях. [80]

Смотрите также

Рекомендации

  1. ^ «Анонс SDXL 1.0» . стабильность.ай . Архивировано из оригинала 26 июля 2023 года.
  2. ^ Райан О'Коннор (23 августа 2022 г.). «Как локально запустить Stable Diffusion для создания изображений». Архивировано из оригинала 13 октября 2023 года . Проверено 4 мая 2023 г.
  3. ^ «Diffuse The Rest - пространство для обнимающего лица отhuggingface» . Huggingface.co . Архивировано из оригинала 5 сентября 2022 года . Проверено 5 сентября 2022 г.
  4. ^ «Утечка колоды вызывает у инвесторов вопросы по поводу презентации Stability AI серии A» . просеянный.eu . Архивировано из оригинала 29 июня 2023 года . Проверено 20 июня 2023 г.
  5. ^ «Революционная генерация изображений с помощью ИИ: превращение текста в изображения» . www.lmu.de.Архивировано из оригинала 17 сентября 2022 года . Проверено 21 июня 2023 г.
  6. Мостак, Эмад (2 ноября 2022 г.). «Стабильная диффузия была разработана исследовательской группой машинного зрения и обучения (CompVis) @LMU_Muenchen». Твиттер . Архивировано из оригинала 20 июля 2023 года . Проверено 22 июня 2023 г.
  7. ^ abcd «Объявление о запуске стабильной диффузии». Стабильность.Ай . Архивировано из оригинала 5 сентября 2022 года . Проверено 6 сентября 2022 г.
  8. ^ abcdefghi «Стабильный репозиторий Diffusion на GitHub». CompVis — Исследовательская группа по машинному зрению и обучению, LMU Мюнхен. 17 сентября 2022 года. Архивировано из оригинала 18 января 2023 года . Проверено 17 сентября 2022 г.
  9. ^ «Новое потрясающее приложение: создание произведений искусственного интеллекта совершенно сокрушит ваш компьютер» . ПКМир . Архивировано из оригинала 31 августа 2022 года . Проверено 31 августа 2022 г.
  10. ↑ abcdef Винсент, Джеймс (15 сентября 2022 г.). «Любой может использовать этот генератор искусственный интеллект — в этом есть риск». Грань . Архивировано из оригинала 21 января 2023 года . Проверено 30 сентября 2022 г.
  11. ^ «Основатель искусственного интеллекта, принявший заслугу в успехе Stable Diffusion, имеет историю преувеличений» . www.forbes.com . Архивировано из оригинала 21 июня 2023 года . Проверено 20 июня 2023 г.
  12. ↑ Аб Корн, Дженнифер (17 января 2023 г.). «Getty Images подает в суд на создателей популярного инструмента искусственного интеллекта за кражу фотографий» . CNN . Архивировано из оригинала 1 марта 2023 года . Проверено 22 января 2023 г.
  13. ↑ Аб Хейккиля, Мелисса (16 сентября 2022 г.). «Этот художник доминирует в искусстве, созданном искусственным интеллектом. И он этим не доволен». Обзор технологий Массачусетского технологического института . Архивировано из оригинала 14 января 2023 года . Проверено 26 сентября 2022 г.
  14. Виггерс, Кайл (17 октября 2022 г.). «Stability AI, стартап, стоящий за Stable Diffusion, привлекает 101 миллион долларов». Техкранч . Архивировано из оригинала 17 октября 2022 года . Проверено 17 октября 2022 г.
  15. ^ abc Ромбах; Блаттманн; Лоренц; Эссер; Оммер (июнь 2022 г.). Синтез изображений высокого разрешения с использованием моделей скрытой диффузии (PDF) . Международная конференция по компьютерному зрению и распознаванию образов (CVPR). Новый Орлеан, Луизиана. стр. 10684–10695. arXiv : 2112.10752 . Архивировано (PDF) из оригинала 20 января 2023 г. Проверено 17 сентября 2022 г.
  16. ^ abcd Аламмар, Джей. «Иллюстрированная стабильная диффузия». jalammar.github.io . Архивировано из оригинала 1 ноября 2022 года . Проверено 31 октября 2022 г.
  17. ^ «Стабильные диффузионные трубопроводы». Huggingface.co . Архивировано из оригинала 25 июня 2023 года . Проверено 22 июня 2023 г.
  18. ^ «Генерация текста в изображение с помощью Stable Diffusion и OpenVINO™». openvino.ai . Интел . Проверено 10 февраля 2024 г.
  19. ^ abc Поделл, Дастин; английский, Сион; Лейси, Кайл; Блаттманн, Андреас; Докхорн, Тим; Мюллер, Йонас; Пенна, Джо; Ромбах, Робин (4 июля 2023 г.), SDXL: Улучшение моделей скрытой диффузии для синтеза изображений высокого разрешения , doi : 10.48550/arXiv.2307.01952 , получено 6 марта 2024 г.
  20. ^ abc Эссер, Патрик; Кулал, Сумит; Блаттманн, Андреас; Энтезари, Рахим; Мюллер, Йонас; Сайни, Гарри; Леви, Ям; Лоренц, Доминик; Зауэр, Аксель (5 марта 2024 г.), Масштабирование выпрямленных трансформаторов потока для синтеза изображений высокого разрешения, doi : 10.48550/arXiv.2403.03206 , получено 6 марта 2024 г.
  21. ^ Аб Лю, Синчао; Гун, Чэнъюэ; Лю, Цян (7 сентября 2022 г.), «Прямой и быстрый поток: учимся генерировать и передавать данные с помощью выпрямленного потока», doi : 10.48550/arXiv.2209.03003 , получено 6 марта 2024 г.
  22. ^ ab «Выпрямленный поток — Ректифицированный поток». www.cs.utexas.edu . Проверено 6 марта 2024 г.
  23. ↑ abcde Baio, Энди (30 августа 2022 г.). «Исследование 12 миллионов из 2,3 миллиарда изображений, используемых для обучения генератора изображений Stable Diffusion». Waxy.org . Архивировано из оригинала 20 января 2023 года . Проверено 2 ноября 2022 г.
  24. ^ «Этот художник доминирует в искусстве, созданном искусственным интеллектом. И он этим не доволен» . Обзор технологий Массачусетского технологического института . Архивировано из оригинала 14 января 2023 года . Проверено 2 ноября 2022 г.
  25. ^ Аб Бруннер, Катарина; Харлан, Элиза (7 июля 2023 г.). «Мы все — сырье для искусственного интеллекта». Баварский Рундфунк (Бразилия). Архивировано из оригинала 12 сентября 2023 года . Проверено 12 сентября 2023 г.
  26. ^ Шуман, Кристоф (2 ноября 2022 г.), CLIP + MLP Aesthetic Score Predictor, заархивировано из оригинала 8 июня 2023 г. , получено 2 ноября 2022 г.
  27. ^ "LAION-Эстетика | LAION" . laion.ai . Архивировано из оригинала 26 августа 2022 года . Проверено 2 сентября 2022 г.
  28. ^ abc Хо, Джонатан; Салиманс, Тим (25 июля 2022 г.). «Руководство по диффузии без классификаторов». arXiv : 2207.12598 [cs.LG].
  29. Мостак, Эмад (28 августа 2022 г.). «Стоимость строительства». Твиттер . Архивировано из оригинала 6 сентября 2022 года . Проверено 6 сентября 2022 г.
  30. ^ abc «CompVis/stable-diffusion-v1-4 · Обнимающее лицо» . Huggingface.co . Архивировано из оригинала 11 января 2023 года . Проверено 2 ноября 2022 г.
  31. Виггерс, Кайл (12 августа 2022 г.). «Стартап хочет демократизировать технологию, лежащую в основе DALL-E 2, и к черту последствия». ТехКранч . Архивировано из оригинала 19 января 2023 года . Проверено 2 ноября 2022 г.
  32. ^ abcde «Стабильная диффузия с помощью 🧨 диффузоров». Huggingface.co . Архивировано из оригинала 17 января 2023 года . Проверено 31 октября 2022 г.
  33. ^ abc «Стабильный выпуск Diffusion 2.0». стабильность.ай . Архивировано из оригинала 10 декабря 2022 года.
  34. ^ "ЛАИОН". laion.ai . Архивировано из оригинала 16 октября 2023 года . Проверено 31 октября 2022 г.
  35. ^ «Создание изображений с помощью стабильной диффузии». Блог Paperspace . 24 августа 2022 года. Архивировано из оригинала 31 октября 2022 года . Проверено 31 октября 2022 г.
  36. ^ «Анонс SDXL 1.0» . Стабильность ИИ . Архивировано из оригинала 26 июля 2023 года . Проверено 21 августа 2023 г.
  37. Эдвардс, Бендж (27 июля 2023 г.). «Stability AI выпускает Stable Diffusion XL, модель синтеза изображений нового поколения». Арс Техника . Архивировано из оригинала 21 августа 2023 года . Проверено 21 августа 2023 г.
  38. ^ "хакурей/вайфу-диффузия · Обнимающее лицо" . Huggingface.co . Архивировано из оригинала 8 октября 2023 года . Проверено 31 октября 2022 г.
  39. ^ Шамбон, Пьер; Блютген, Кристиан; Ланглотц, Кертис П.; Чаудхари, Акшай (9 октября 2022 г.). «Адаптация предварительно обученных базовых моделей визуального языка к областям медицинской визуализации». arXiv : 2210.04133 [cs.CV].
  40. ^ Сет Форсгрен; Айк Мартирос. «Riffusion - Стабильная диффузия для генерации музыки в реальном времени». Риффузия . Архивировано из оригинала 16 декабря 2022 года.
  41. Меркурио, Энтони (31 октября 2022 г.), Waifu Diffusion, заархивировано из оригинала 31 октября 2022 г. , получено 31 октября 2022 г.
  42. ^ Смит, Райан. «NVIDIA тихо выпускает GeForce RTX 3080 12 ГБ: больше видеопамяти, больше мощности, больше денег». www.anandtech.com . Архивировано из оригинала 27 августа 2023 года . Проверено 31 октября 2022 г.
  43. Дэйв Джеймс (28 октября 2022 г.). «Я 8 часов подряд бил RTX 4090, тренируя Stable Diffusion, чтобы рисовать, как мой дядя Герман». ПК-геймер . Архивировано из оригинала 9 ноября 2022 года.
  44. ^ Гал, Ринон; Алалуф, Юваль; Ацмон, Юваль; Паташник, Ор; Бермано, Амит Х.; Чечик, Гал; Коэн-Ор, Дэниел (2 августа 2022 г.). «Изображение стоит одного слова: персонализация преобразования текста в изображение с помощью текстовой инверсии». arXiv : 2208.01618 [cs.CV].
  45. ^ «Усовершенствования NovelAI в области стабильной диффузии» . Роман ИИ . 11 октября 2022 г. Архивировано из оригинала 27 октября 2022 г.
  46. Юки Ямасита (1 сентября 2022 г.). «愛犬の合成画像を生成できるAI 文章で指示するだけでコスプレ 米Googleが開発». ITmedia Inc. (на японском языке). Архивировано из оригинала 31 августа 2022 года.
  47. ^ Мэн, Ченлинь; Он, Ютонг; Сун, Ян; Сун, Цзямин; У, Цзяцзюнь; Чжу, Цзюнь-Янь; Эрмон, Стефано (2 августа 2021 г.). «SDEdit: управляемый синтез и редактирование изображений с помощью стохастических дифференциальных уравнений». arXiv : 2108.01073 [cs.CV].
  48. ^ abcd «Веб-интерфейс Stable Diffusion». Гитхаб . 10 ноября 2022 года. Архивировано из оригинала 20 января 2023 года . Проверено 27 сентября 2022 г.
  49. ^ invisible-watermark, Shield Mountain, 2 ноября 2022 г., заархивировано из оригинала 18 октября 2022 г. , получено 2 ноября 2022 г.
  50. ^ «инструменты стабильной диффузии / акцент на мастере · Йоханнес Гесслер / инструменты стабильной диффузии» . Гитхаб . Архивировано из оригинала 2 октября 2022 года . Проверено 2 ноября 2022 г.
  51. ^ «Stable Diffusion v2.1 и обновления DreamStudio от 7 декабря по 22 декабря» . стабильность.ай . Архивировано из оригинала 10 декабря 2022 года.
  52. ^ аб Лузи, Лоренцо; Сиакухи, Али; Майер, Пол М.; Каско-Родригес, Хосуэ; Баранюк, Ричард (21 октября 2022 г.). «Бумеранг: локальная выборка на многообразиях изображений с использованием диффузионных моделей». arXiv : 2210.12100 [cs.CV].
  53. Бюльманн, Матиас (28 сентября 2022 г.). «Стабильное сжатие изображения на основе диффузии». Середина . Архивировано из оригинала 2 ноября 2022 года . Проверено 2 ноября 2022 г.
  54. Чжан, Львмин (10 февраля 2023 г.). «Добавление условного управления к моделям диффузии текста в изображение». arXiv : 2302.05543 [cs.CV].
  55. ^ «CompVis/stable-diffusion-v1-4 · Обнимающее лицо» . Huggingface.co . Архивировано из оригинала 11 января 2023 года . Проверено 17 августа 2023 г.
  56. ^ "CompVis (CompVis)" . Huggingface.co . 23 августа 2023 г. . Проверено 6 марта 2024 г.
  57. ^ "runwayml/stable-diffusion-v1-5 · Обнимающее лицо" . Huggingface.co . Архивировано из оригинала 21 сентября 2023 года . Проверено 17 августа 2023 г.
  58. ^ ab "stabilityai/stable-diffusion-2 · Обнимающее лицо" . Huggingface.co . Архивировано из оригинала 21 сентября 2023 года . Проверено 17 августа 2023 г.
  59. ^ "stabilityai/stable-diffusion-2-base · Обнимающее лицо" . Huggingface.co . Проверено 1 января 2024 г.
  60. ^ "stabilityai/stable-diffusion-2-1 · Обнимающее лицо" . Huggingface.co . Архивировано из оригинала 21 сентября 2023 года . Проверено 17 августа 2023 г.
  61. ^ "stabilityai/stable-diffusion-xl-base-1.0 · Обнимающее лицо" . Huggingface.co . Архивировано из оригинала 8 октября 2023 года . Проверено 17 августа 2023 г.
  62. ^ «Анонс SDXL 1.0» . Стабильность ИИ . Проверено 1 января 2024 г.
  63. ^ "stabilityai/sdxl-turbo · Обнимающее лицо" . Huggingface.co . Проверено 1 января 2024 г.
  64. ^ «Состязательная диффузионная дистилляция». Стабильность ИИ . Проверено 1 января 2024 г.
  65. ^ «Стабильная диффузия 3». Стабильность ИИ . Проверено 5 марта 2024 г.
  66. ^ Рэдфорд, Алек; Ким, Чон Ук; Халси, Крис; Рамеш, Адитья; Гох, Габриэль; Агарвал, Сандхини; Састри, Гириш; Аскелл, Аманда; Мишкин, Памела (26 февраля 2021 г.), «Изучение переносимых визуальных моделей под контролем естественного языка», номер документа : 10.48550/arXiv.2103.00020 , получено 6 марта 2024 г.
  67. ^ Мэн, Ченлинь; Он, Ютонг; Сун, Ян; Сун, Цзямин; У, Цзяцзюнь; Чжу, Цзюнь-Янь; Эрмон, Стефано (4 января 2022 г.), SDEdit: управляемый синтез и редактирование изображений с помощью стохастических дифференциальных уравнений, doi : 10.48550/arXiv.2108.01073 , получено 6 марта 2024 г.
  68. ^ Ромбах, Робин; Блаттманн, Андреас; Лоренц, Доминик; Эссер, Патрик; Оммер, Бьорн (2022). «Синтез изображений высокого разрешения с использованием моделей скрытой диффузии»: 10684–10695. {{cite journal}}: Требуется цитировать журнал |journal=( помощь )
  69. ^ "LICENSE.md ·стабильность/stable-diffusion-xl-base-1.0 в основном" . Huggingface.co . 26 июля 2023 г. Проверено 1 января 2024 г.
  70. ^ ab «高性能画像生成AI「Stable Diffusion」無料リリース。「kawaii」までも理解し創造する画像生成AI». Automaton Media (на японском языке). 24 августа 2022 года. Архивировано из оригинала 8 декабря 2022 года . Проверено 4 октября 2022 г.
  71. ↑ Аб Рё Симидзу (26 августа 2022 г.). «Midjourneyを超えた? 無料の作画AI「 #StableDiffusion 」が「AIを民主化した」と断言できる理由». Business Insider Japan (на японском языке). Архивировано из оригинала 10 декабря 2022 года . Проверено 4 октября 2022 г.
  72. ^ Кай, Кенрик. «Стартап AI Image Generator Stable Diffusion ведет переговоры о привлечении инвестиций при оценке до 1 миллиарда долларов» . Форбс . Архивировано из оригинала 30 сентября 2023 года . Проверено 31 октября 2022 г.
  73. ^ «Разоблачена незаконная торговля изображениями сексуального насилия над детьми, созданными искусственным интеллектом» . Новости BBC . 27 июня 2023 года. Архивировано из оригинала 21 сентября 2023 года . Проверено 26 сентября 2023 г.
  74. Винсент, Джеймс (16 января 2023 г.). «Инструменты искусственного интеллекта Stable Diffusion и Midjourney подверглись иску о нарушении авторских прав» . Грань . Архивировано из оригинала 9 марта 2023 года . Проверено 16 января 2023 г.
  75. Бриттен, Блейк (19 июля 2023 г.). «Американский судья находит недостатки в иске художников против компаний, занимающихся искусственным интеллектом». Рейтер . Архивировано из оригинала 6 сентября 2023 года . Проверено 6 августа 2023 г.
  76. ^ "Публичный релиз Stable Diffusion" . Стабильность.Ай . Архивировано из оригинала 30 августа 2022 года . Проверено 31 августа 2022 г.
  77. ^ «От RAIL к Open RAIL: Топологии лицензий RAIL». Лицензии на ответственный ИИ (RAIL) . 18 августа 2022 года. Архивировано из оригинала 27 июля 2023 года . Проверено 20 февраля 2023 г.
  78. ^ «Готовы вы или нет, грядут массовые видео-дипфейки» . Вашингтон Пост . 30 августа 2022 года. Архивировано из оригинала 31 августа 2022 года . Проверено 31 августа 2022 г.
  79. ^ «Лицензия - пространство для обнимающего лица от CompVis» . Huggingface.co . Архивировано из оригинала 4 сентября 2022 года . Проверено 5 сентября 2022 г.
  80. Кацуо Исида (26 августа 2022 г.). «言葉で指示した画像を凄いAIが描き出す「Стабильная диффузия」 ~画像は商用利用も可能». Impress Corporation (на японском языке). Архивировано из оригинала 14 ноября 2022 года . Проверено 4 октября 2022 г.

Внешние ссылки