stringtranslate.com

Модель «текст-изображение»

Изображение, созданное по запросу «астронавт верхом на лошади, Хиросигэ », сгенерированное Stable Diffusion 3.5 — крупномасштабной моделью преобразования текста в изображение, впервые выпущенной в 2022 году.

Модель преобразования текста в изображение — это модель машинного обучения , которая принимает входное описание на естественном языке и создает изображение, соответствующее этому описанию.

Модели преобразования текста в изображение начали разрабатываться в середине 2010-х годов во время начала бума ИИ в результате достижений в области глубоких нейронных сетей . В 2022 году результаты современных моделей преобразования текста в изображение, таких как DALL-E 2 от OpenAI , Imagen от Google Brain , Stable Diffusion от Stability AI и Midjourney , стали считаться приближающимися по качеству к реальным фотографиям и нарисованным человеком произведениям искусства .

Модели преобразования текста в изображение обычно являются моделями скрытой диффузии , которые объединяют языковую модель , которая преобразует входной текст в скрытое представление , и генеративную модель изображения , которая создает изображение, обусловленное этим представлением. Наиболее эффективные модели обычно обучались на огромных объемах данных изображений и текста, полученных из сети . [1]

История

До появления глубокого обучения , [ когда? ] попытки создания моделей преобразования текста в изображение ограничивались коллажами путем упорядочивания существующих компонентных изображений, например, из базы данных клипартов . [2] [3]

Обратная задача, создание подписей к изображениям , была более податливой, и ряд моделей глубокого обучения для создания подписей к изображениям появился раньше, чем первые модели преобразования текста в изображение. [4]

Первая современная модель преобразования текста в изображение, alignDRAW, была представлена ​​в 2015 году исследователями из Университета Торонто . alignDRAW расширила ранее представленную архитектуру DRAW (которая использовала рекуррентный вариационный автоэнкодер с механизмом внимания ), чтобы быть обусловленной текстовыми последовательностями. [4] Изображения, сгенерированные alignDRAW, имели небольшое разрешение (32×32 пикселя, достигаемое путем изменения размера ) и считались «низкоразнообразными». Модель смогла обобщить объекты, не представленные в обучающих данных (например, красный школьный автобус), и соответствующим образом обрабатывала новые подсказки, такие как «знак остановки летит в синем небе», демонстрируя вывод, что это было не просто «запоминание» данных из обучающего набора . [4] [5]

Восемь изображений, созданных из текстовой подсказки «Стоп-знак летит в синем небе». AlignDRAW (2015). Увеличено для отображения деталей. [6]

В 2016 году Рид, Аката, Ян и др. стали первыми, кто использовал генеративно-состязательные сети для задачи преобразования текста в изображение. [5] [7] С моделями, обученными на узких, предметно-ориентированных наборах данных, они смогли сгенерировать «визуально правдоподобные» изображения птиц и цветов из текстовых подписей, таких как «полностью черная птица с отчетливым толстым, закругленным клювом» . Модель, обученная на более разнообразном наборе данных COCO (Common Objects in Context), создала изображения, которые были «издалека... обнадеживающими», но которым не хватало согласованности в своих деталях. [5] Более поздние системы включают VQGAN-CLIP, [8] XMC-GAN и GauGAN2. [9]

DALL·E 2 (вверху, апрель 2022 г.) и DALL·E 3 (внизу, сентябрь 2023 г.) сгенерировали изображения для подсказки «Стоп-знак летит в синем небе»

Одной из первых моделей преобразования текста в изображение, которая привлекла широкое общественное внимание, была DALL-E от OpenAI , система -трансформер, анонсированная в январе 2021 года. [10] Преемник, способный генерировать более сложные и реалистичные изображения, DALL-E 2, был представлен в апреле 2022 года, [11] за ним последовала Stable Diffusion , которая была публично выпущена в августе 2022 года. [12] В августе 2022 года персонализация текста в изображение позволяет обучить модель новой концепции, используя небольшой набор изображений нового объекта, который не был включен в обучающий набор базовой модели преобразования текста в изображение. Это достигается путем текстовой инверсии , а именно поиска нового текстового термина, соответствующего этим изображениям.

Следуя другим моделям преобразования текста в изображение, платформы преобразования текста в видео на основе языковой модели , такие как Runway, Make-A-Video, [13] Imagen Video, [14] Midjourney, [15] и Phenaki [16], могут генерировать видео из текстовых и/или текстово-изображенных подсказок. [17]

Архитектура и обучение

Высокоуровневая архитектура, демонстрирующая современные модели машинного обучения ИИ, а также известные модели и приложения в виде интерактивной карты изображений SVG.

Модели преобразования текста в изображение были созданы с использованием различных архитектур. Шаг кодирования текста может быть выполнен с помощью рекуррентной нейронной сети, такой как сеть с долгой краткосрочной памятью (LSTM), хотя модели трансформаторов с тех пор стали более популярным вариантом. Для шага генерации изображения обычно использовались условные генеративно-состязательные сети (GAN), а диффузионные модели также стали популярным вариантом в последние годы. Вместо того чтобы напрямую обучать модель для вывода изображения с высоким разрешением, обусловленного встраиванием текста, популярной методикой является обучение модели для генерации изображений с низким разрешением и использование одной или нескольких вспомогательных моделей глубокого обучения для ее масштабирования, заполняя более мелкие детали.

Модели преобразования текста в изображение обучаются на больших наборах данных пар (текст, изображение), часто взятых из сети. С помощью своей модели Imagen 2022 года Google Brain сообщила о положительных результатах использования большой языковой модели, обученной отдельно на корпусе, состоящем только из текста (с последующим замораживанием ее весов), что является отходом от ранее принятого стандартного подхода. [18]

Наборы данных

Примеры изображений и подписей из трех общедоступных наборов данных, которые обычно используются для обучения моделей преобразования текста в изображение

Обучение модели преобразования текста в изображение требует набора данных изображений в паре с текстовыми подписями. Одним из наборов данных, обычно используемых для этой цели, является набор данных COCO. Выпущенный Microsoft в 2014 году, COCO состоит из около 123 000 изображений, изображающих разнообразные объекты с пятью подписями на изображение, созданными людьми-аннотаторами. Oxford-120 Flowers и CUB-200 Birds — это меньшие наборы данных, содержащие около 10 000 изображений каждый, ограниченные цветами и птицами соответственно. Считается, что обучение высококачественной модели преобразования текста в изображение с этими наборами данных менее сложно из-за их узкого диапазона тем. [7]

Оценка качества

Оценка и сравнение качества моделей «текст-изображение» — это проблема, включающая оценку нескольких желаемых свойств. Желательным условием, характерным для моделей «текст-изображение», является то, что сгенерированные изображения семантически совпадают с текстовыми подписями, используемыми для их генерации. Для оценки этих качеств было разработано несколько схем, некоторые из которых автоматизированы, а другие основаны на человеческом суждении. [7]

Распространенной алгоритмической метрикой для оценки качества и разнообразия изображений является Inception Score (IS), которая основана на распределении меток, предсказанных предварительно обученной моделью классификации изображений Inceptionv3 при применении к выборке изображений, сгенерированных моделью «текст-изображение». Оценка увеличивается, когда модель классификации изображений предсказывает одну метку с высокой вероятностью, схема, предназначенная для поддержки «отличных» сгенерированных изображений. Другой популярной метрикой является связанное с ней начальное расстояние Фреше , которое сравнивает распределение сгенерированных изображений и реальных обучающих изображений в соответствии с признаками, извлеченными одним из последних слоев предварительно обученной модели классификации изображений. [7]

Воздействие и применение

ИИ имеет потенциал для социальной трансформации , которая может включать в себя расширение некоммерческих нишевых жанров (таких как производные киберпанка , такие как соларпанк ) любителями, новые развлечения, быстрое прототипирование, [19] повышение доступности создания произведений искусства, [19] и художественного результата за усилие и/или расходы и/или время [19] — например, посредством создания черновиков, черновых улучшений и компонентов изображения ( inpainting ). Сгенерированные изображения иногда используются в качестве эскизов, [20] малозатратных экспериментов, [21] вдохновения или иллюстраций идей на стадии доказательства концепции . Дополнительные функции или улучшения могут также относиться к ручному редактированию после генерации (т. е. полировке), например, последующей настройке с помощью редактора изображений. [21]

Список известных моделей преобразования текста в изображение

Пояснительные записки

  1. ^ Эту лицензию могут использовать частные лица и организации с доходом до 1 миллиона долларов, для организаций с годовым доходом более 1 миллиона долларов требуется лицензия Stability AI Enterprise. Все результаты сохраняются пользователями независимо от дохода
  2. ^ Для модели Schnell модель dev использует некоммерческую лицензию, в то время как модель pro является проприетарной (доступна только как API ).

Смотрите также

Ссылки

  1. ^ Винсент, Джеймс (24 мая 2022 г.). «Все эти изображения были созданы новейшим ИИ-преобразователем текста в изображение от Google». The Verge . Vox Media . Получено 28 мая 2022 г. .
  2. ^ Агнес, Хорхе; Эррера, Джонатан; Тао, Хайчэн; Чжу, Синцюань (октябрь 2019 г.), Обзор и таксономия состязательных нейронных сетей для синтеза текста в изображение , arXiv : 1910.09399
  3. ^ Чжу, Сяоцзинь; Голдберг, Эндрю Б.; Элдави, Мохамед; Дайер, Чарльз Р.; Строк, Брэдли (2007). «Система синтеза текста в изображение для улучшения коммуникации» (PDF) . AAAI . 7 : 1590–1595.
  4. ^ abc Мансимов, Эльман; Паризотто, Эмилио; Лей Ба, Джимми; Салахутдинов, Руслан (ноябрь 2015 г.). «Генерация изображений из подписей с вниманием». ICLR . arXiv : 1511.02793 .
  5. ^ abc Рид, Скотт; Аката, Зейнеп; Логесваран, Лаянуген; Шиле, Бернт; Ли, Хонглак (июнь 2016 г.). "Генеративно-состязательный синтез текста в изображение" (PDF) . Международная конференция по машинному обучению . arXiv : 1605.05396 .
  6. ^ Мансимов, Элман; Паризотто, Эмилио; Ба, Джимми Лей; Салахутдинов, Руслан (29 февраля 2016 г.). «Генерация изображений из подписей с вниманием». Международная конференция по обучению представлениям . arXiv : 1511.02793 .
  7. ^ abcd Фролов, Станислав; Хинц, Тобиас; Рауэ, Федерико; Хис, Йорн; Денгель, Андреас (декабрь 2021 г.). «Состязательный синтез текста в изображение: обзор». Нейронные сети . 144 : 187–209. arXiv : 2101.09983 . doi : 10.1016/j.neunet.2021.07.019 . PMID  34500257. S2CID  231698782.
  8. ^ Родригес, Хесус (27 сентября 2022 г.). "🌅 Edge#229: VQGAN + CLIP". thesequence.substack.com . Получено 10 октября 2022 г. .
  9. ^ Родригес, Хесус (4 октября 2022 г.). "🎆🌆 Edge#231: Синтез текста в изображение с помощью GAN". thesequence.substack.com . Получено 10 октября 2022 г.
  10. ^ Колдьюи, Девин (5 января 2021 г.). «DALL-E от OpenAI создает правдоподобные изображения буквально всего, о чем вы его попросите». TechCrunch .
  11. ^ Колдьюи, Девин (6 апреля 2022 г.). «Новая модель DALL-E от OpenAI рисует что угодно — но больше, лучше и быстрее, чем раньше». TechCrunch .
  12. ^ "Stable Diffusion Public Release". Stability.Ai . Получено 2022-10-27 .
  13. ^ Кумар, Ашиш (2022-10-03). «Meta AI представляет «Make-A-Video»: систему искусственного интеллекта, которая генерирует видео из текста». MarkTechPost . Получено 2022-10-03 .
  14. ^ Эдвардс, Бендж (2022-10-05). «Новейший генератор искусственного интеллекта от Google создает HD-видео из текстовых подсказок». Ars Technica . Получено 2022-10-25 .
  15. ^ Родригес, Хесус (25 октября 2022 г.). "🎨 Edge#237: Что такое Midjourney?". thesequence.substack.com . Получено 26.10.2022 .
  16. ^ "Phenaki". phenaki.video . Получено 2022-10-03 .
  17. ^ Эдвардс, Бендж (9 сентября 2022 г.). «Runway дразнит редактированием текста в видео на базе ИИ с использованием письменных подсказок». Ars Technica . Получено 12 сентября 2022 г. .
  18. ^ Сахария, Читван; Чан, Уильям; Саксена, Саураб; Ли, Лала; Ванг, Джей; Дентон, Эмили; Камьяр Сейед Гасемипур, Сейед; Карагол Аян, Бурджу; Сара Махдави, С.; Гонтихо Лопес, Рафа; Салиманс, Тим; Эй, Джонатан; Дж. Флит, Дэвид; Норузи, Мохаммед (23 мая 2022 г.). «Фотореалистичные модели распространения текста в изображение с глубоким пониманием языка». arXiv : 2205.11487 [cs.CV].
  19. ^ abc Элган, Майк (1 ноября 2022 г.). «Как «синтетические носители» навсегда изменят бизнес». Computerworld . Получено 9 ноября 2022 г. .
  20. ^ Руз, Кевин (21 октября 2022 г.). «Искусство, созданное с помощью ИИ, уже преобразует творческую работу». The New York Times . Получено 16 ноября 2022 г.
  21. ^ ab Leswing, Kif. «Почему Кремниевая долина так взволнована неловкими рисунками, сделанными искусственным интеллектом». CNBC . Получено 16 ноября 2022 г.
  22. ^ "Imagen 2 на Vertex AI теперь доступен для всех". Блог Google Cloud . Получено 2024-01-02 .