stringtranslate.com

Модель преобразования текста в изображение

Изображение, созданное на основе подсказки «Астронавт верхом на лошади, автор Хиросигэ », созданное с помощью Stable Diffusion , крупномасштабной модели преобразования текста в изображение, выпущенной в 2022 году.

Модель преобразования текста в изображение — это модель машинного обучения , которая принимает входное описание на естественном языке и создает изображение, соответствующее этому описанию.

Такие модели начали разрабатываться в середине 2010-х годов, в начале весны искусственного интеллекта , в результате достижений в области глубоких нейронных сетей . В 2022 году результаты современных моделей преобразования текста в изображение, таких как DALL-E 3 от OpenAI, Imagen от Google Brain , Stable Diffusion от StabilityAI и Midjourney , начали приближаться к качеству реальных фотографий и произведений искусства, нарисованных человеком. [ нужна цитата ]

Модели преобразования текста в изображение обычно сочетают в себе языковую модель , которая преобразует входной текст в скрытое представление, и генеративную модель изображения, которая создает изображение, обусловленное этим представлением. Наиболее эффективные модели, как правило, обучались на огромных объемах изображений и текстовых данных, взятых из Интернета. [1]

История

До появления глубокого обучения попытки создания моделей преобразования текста в изображение ограничивались коллажами путем компоновки существующих изображений компонентов, например, из базы данных клипартов . [2] [3]

Обратная задача — создание титров к изображениям — была более простой, и ряд моделей глубокого обучения для подписей к изображениям появился раньше, чем первые модели преобразования текста в изображение. [4]

Первая современная модель преобразования текста в изображение, alignDRAW, была представлена ​​в 2015 году исследователями из Университета Торонто . alignDRAW расширил ранее представленную архитектуру DRAW (которая использовала рекуррентный вариационный автокодировщик с механизмом внимания ) для обработки текстовых последовательностей. [4] Изображения, созданные с помощью alignDRAW, были размытыми и нефотореалистичными, но модель могла обобщать объекты, не представленные в обучающих данных (например, красный школьный автобус), и правильно обрабатывать новые подсказки, такие как «летит знак остановки». в голубом небе», показывая, что это не просто «запоминание» данных из обучающего набора. [4] [5]

Восемь изображений, созданных из текстовой подсказки «Знак остановки летит в голубом небе». автор AlignDRAW (2015). Увеличено, чтобы показать детали. [6]

В 2016 году Рид, Аката, Ян и др. стал первым, кто использовал генеративно-состязательные сети для преобразования текста в изображение. [5] [7] С помощью моделей, обученных на узких наборах данных, специфичных для предметной области, они смогли генерировать «визуально правдоподобные» изображения птиц и цветов из текстовых подписей, таких как «полностью черная птица с отчетливым толстым, закругленным клювом». Модель, обученная на более разнообразном наборе данных COCO , давала изображения, которые были «на расстоянии... обнадеживающими», но которым не хватало связности в деталях. [5] Более поздние системы включают VQGAN+CLIP, [8] XMC-GAN и GauGAN2. [9]

DALL·E 2 (вверху, апрель 2022 г.) и DALL·E 3 (внизу, сентябрь 2023 г.) в интерпретации фразы «Знак остановки летит в голубом небе».

Одной из первых моделей преобразования текста в изображение, привлекших широкое внимание общественности, была DALL-E от OpenAI , система -трансформер , анонсированная в январе 2021 года. [10] Преемник, способный генерировать более сложные и реалистичные изображения, DALL-E 2, был представлен в апреле 2022 года, [11] за ним последовал Stable Diffusion , публично выпущенный в августе 2022 года. [12]

Следуя другим моделям преобразования текста в изображение, платформы преобразования текста в видео на основе языковых моделей , такие как Runway, Make-A-Video, [13] Imagen Video, [14] Midjourney, [15] и Phenaki [16], могут генерировать видео из текстовых и/или текстовых/изображенных подсказок. [17]

В августе 2022 года было дополнительно показано, как можно «персонализировать» большие модели основы с преобразованием текста в изображение. Персонализация преобразования текста в изображение позволяет обучить модель новому понятию, используя небольшой набор изображений нового объекта, который не был включен в обучающий набор базовой модели преобразования текста в изображение. Это достигается путем текстовой инверсии, а именно нахождения нового текстового термина, соответствующего этим изображениям.

Архитектура и обучение

Архитектура высокого уровня, показывающая состояние моделей машинного обучения ИИ, более крупные или наиболее известные модели и приложения в сфере искусства ИИ, а также соответствующие отношения и зависимости в виде кликабельной карты изображений SVG.

Модели преобразования текста в изображение были построены с использованием различных архитектур. Этап кодирования текста может выполняться с помощью рекуррентной нейронной сети, такой как сеть долговременной краткосрочной памяти (LSTM), хотя модели преобразователей с тех пор стали более популярным вариантом. На этапе генерации изображений обычно используются условные генеративно-состязательные сети , при этом диффузионные модели также становятся популярным вариантом в последние годы. Вместо того, чтобы напрямую обучать модель выведению изображения с высоким разрешением, обусловленного встраиванием текста, популярный метод состоит в том, чтобы обучить модель генерировать изображения с низким разрешением и использовать одну или несколько вспомогательных моделей глубокого обучения для ее масштабирования, заполняя более мелкие детали. подробности.

Модели преобразования текста в изображение обучаются на больших наборах данных пар (текст, изображение), часто взятых из Интернета. В своей модели Imagen 2022 года компания Google Brain сообщила о положительных результатах использования большой языковой модели, обученной отдельно на текстовом корпусе (с последующим замораживанием ее весов), что является отходом от ранее стандартного подхода. [18]

Наборы данных

Примеры изображений и подписей из трех общедоступных наборов данных, которые обычно используются для обучения моделей преобразования текста в изображение.

Для обучения модели преобразования текста в изображение требуется набор данных изображений в сочетании с текстовыми подписями. Одним из наборов данных, обычно используемых для этой цели, является COCO (общие объекты в контексте). Выпущенный Microsoft в 2014 году, COCO состоит из около 123 000 изображений, изображающих разнообразные объекты, с пятью подписями к каждому изображению, созданными аннотаторами-людьми. Oxford-120 Flowers и CUB-200 Birds — это небольшие наборы данных, содержащие около 10 000 изображений каждый, ограниченные цветами и птицами соответственно. Считается менее сложным обучить высококачественную модель преобразования текста в изображение с помощью этих наборов данных из-за их узкого диапазона тематики. [7]

Оценка

Оценка и сравнение качества моделей преобразования текста в изображение — сложная задача, требующая оценки множества желательных свойств. Как и в случае с любой генеративной моделью изображения, желательно, чтобы сгенерированные изображения были реалистичными (в том смысле, что они выглядели так, как если бы они могли быть получены из обучающего набора) и разнообразными по своему стилю. Желанием, специфичным для моделей преобразования текста в изображение, является то, чтобы создаваемые изображения семантически согласовывались с текстовыми подписями, используемыми для их создания. Для оценки этих качеств был разработан ряд схем, некоторые из которых автоматизированы, а другие основаны на человеческом суждении. [7]

Распространенной алгоритмической метрикой для оценки качества и разнообразия изображений является показатель Inception (IS), который основан на распределении меток, предсказанном предварительно обученной моделью классификации изображений Inceptionv3 при применении к выборке изображений, созданных с помощью модели преобразования текста в изображение. Оценка увеличивается, когда модель классификации изображений с высокой вероятностью предсказывает одну метку - схема, предназначенная для предпочтения «отдельных» сгенерированных изображений. Другой популярной метрикой является родственное начальное расстояние Фреше , которое сравнивает распределение сгенерированных изображений и реальных обучающих изображений в соответствии с признаками, извлеченными одним из последних слоев модели классификации предварительно обученных изображений. [7]

Влияние и применение

Выставка «Мыслящие машины: искусство и дизайн в эпоху компьютеров, 1959–1989» в МоМА представила обзор приложений искусственного интеллекта в искусстве, архитектуре и дизайне. Выставки, демонстрирующие использование искусственного интеллекта для создания произведений искусства, включают благотворительный фонд Google в 2016 году и аукцион в Gray Area Foundation в Сан-Франциско, где художники экспериментировали с алгоритмом DeepDream, а также выставку 2017 года «Нечеловеческое: искусство в эпоху искусственного интеллекта», которая проходил в Лос-Анджелесе и Франкфурте. Весной 2018 года Ассоциация вычислительной техники посвятила выпуск журнала теме компьютеров и искусства. В июне 2018 года в Центре искусства и технологий Билла состоялась премьера произведения искусства «Дуэт человека и машины», позволяющего зрителям взаимодействовать с искусственным интеллектом. Австрийский Ars Electronica и Музей прикладного искусства в Вене открыли выставки, посвященные искусственному интеллекту, в 2019 году. Фестиваль Ars Electronica 2019 года «Из коробки» исследовал роль искусства в устойчивой общественной трансформации.

Примеры такого расширения могут включать, например, расширение некоммерческих нишевых жанров (обычными примерами являются производные от киберпанка , такие как солярпанк ) любителями, новые развлечения, новые творческие детские игры, очень быстрое прототипирование, [19] повышение доступности произведений искусства [19] и художественных результат за усилие и/или затраты и/или время [19] – например, посредством создания черновиков, вдохновения, доработок черновиков и компонентов изображения ( Inpainting ).

Сгенерированные изображения иногда используются в качестве эскизов [20] или недорогих экспериментов [21] или иллюстрации идей на этапе проверки концепции — дополнительные функциональные возможности или улучшения могут также относиться к ручному редактированию после создания (шлифовке или художественному использованию) искусство на основе подсказок (например, последующая настройка с помощью редактора изображений). [21]

В двух исках, поданных в январе 2023 года [22] — один от фотогиганта Getty Images, — утверждается, что популярные сервисы создания изображений копировали и обрабатывали миллионы изображений, защищенных авторским правом, без лицензии. Stable Diffusion и Midjourney являются объектами этих исков.

Список моделей преобразования текста в изображение

Смотрите также

Рекомендации

  1. Винсент, Джеймс (24 мая 2022 г.). «Все эти изображения были созданы с помощью новейшего искусственного интеллекта Google для преобразования текста в изображение». Грань . Вокс Медиа . Проверено 28 мая 2022 г.
  2. ^ Аньезе, Хорхе; Эррера, Джонатан; Тао, Хайчэн; Чжу, Синцюань (октябрь 2019 г.), Обзор и таксономия состязательных нейронных сетей для синтеза текста в изображение , arXiv : 1910.09399
  3. ^ Чжу, Сяоцзинь; Голдберг, Эндрю Б.; Эльдави, Мохамед; Дайер, Чарльз Р.; Строк, Брэдли (2007). «Система синтеза текста в изображение для улучшения коммуникации» (PDF) . АААИ . 7 : 1590–1595.
  4. ^ abc Мансимов, Эльман; Паризотто, Эмилио; Лей Ба, Джимми; Салахутдинов, Руслан (ноябрь 2015 г.). «Создание изображений из подписей с вниманием». ИКЛР . arXiv : 1511.02793 .
  5. ^ abc Рид, Скотт; Аката, Зейнеп; Логесваран, Лаянуген; Шиле, Бернт; Ли, Хонглак (июнь 2016 г.). «Генераторно-состязательный синтез текста в изображение» (PDF) . Международная конференция по машинному обучению .
  6. ^ Мансимов, Эльман; Паризотто, Эмилио; Ба, Джимми Лей; Салахутдинов Руслан (29 февраля 2016 г.). «Создание изображений из подписей с вниманием». Международная конференция по обучению представлений . arXiv : 1511.02793 .
  7. ^ abcd Фролов, Станислав; Хинц, Тобиас; Рауэ, Федерико; Хис, Йорн; Денгель, Андреас (декабрь 2021 г.). «Состязательный синтез текста в изображение: обзор». Нейронные сети . 144 : 187–209. arXiv : 2101.09983 . doi : 10.1016/j.neunet.2021.07.019 . PMID  34500257. S2CID  231698782.
  8. ^ Родригес, Хесус. «🌅 Edge#229: VQGAN + CLIP». Этиquence.substack.com . Проверено 10 октября 2022 г.
  9. ^ Родригес, Хесус. «🎆🌆 Edge # 231: Синтез текста в изображение с помощью GAN». Этиquence.substack.com . Проверено 10 октября 2022 г.
  10. Колдьюи, Девин (5 января 2021 г.). «DALL-E OpenAI создает правдоподобные изображения буквально всего, о чем вы его просите». ТехКранч .
  11. Колдьюи, Девин (6 апреля 2022 г.). «Новая модель DALL-E от OpenAI рисует что угодно, но больше, лучше и быстрее, чем раньше». ТехКранч .
  12. ^ "Публичный релиз Stable Diffusion" . Стабильность.Ай . Проверено 27 октября 2022 г.
  13. ^ Кумар, Ашиш (3 октября 2022 г.). «Meta AI представляет «Make-A-Video»: систему искусственного интеллекта, которая генерирует видео из текста». МаркТехПост . Проверено 3 октября 2022 г.
  14. ^ Эдвардс, Бендж (05.10.2022). «Новейший генератор искусственного интеллекта Google создает HD-видео из текстовых подсказок». Арс Техника . Проверено 25 октября 2022 г.
  15. ^ Родригес, Хесус. «🎨 Edge # 237: Что такое Midjourney?». Этиquence.substack.com . Проверено 26 октября 2022 г.
  16. ^ "Фенаки". phenaki.видео . Проверено 3 октября 2022 г.
  17. Эдвардс, Бендж (9 сентября 2022 г.). «Подиум демонстрирует возможность редактирования текста в видео с помощью искусственного интеллекта с использованием письменных подсказок». Арс Техника . Проверено 12 сентября 2022 г.
  18. ^ Сахария, Читван; Чан, Уильям; Саксена, Саураб; Ли, Лала; Ванг, Джей; Дентон, Эмили; Камьяр Сейед Гасемипур, Сейед; Карагол Аян, Бурджу; Сара Махдави, С.; Гонтихо Лопес, Рафа; Салиманс, Тим; Эй, Джонатан; Дж. Флит, Дэвид; Норузи, Мохаммед (23 мая 2022 г.). «Фотореалистичные модели распространения текста в изображение с глубоким пониманием языка». arXiv : 2205.11487 [cs.CV].
  19. ^ abc Элган, Майк (1 ноября 2022 г.). «Как «синтетические медиа» навсегда изменят бизнес». Компьютерный мир . Проверено 9 ноября 2022 г.
  20. Руз, Кевин (21 октября 2022 г.). «Искусство, созданное искусственным интеллектом, уже трансформирует творческую работу». Нью-Йорк Таймс . Проверено 16 ноября 2022 г.
  21. ^ аб Лесвинг, Киф. «Почему Кремниевая долина так взволнована неуклюжими рисунками, сделанными искусственным интеллектом». CNBC . Проверено 16 ноября 2022 г.
  22. Бриттен, Блейк (17 января 2023 г.). «Судебные иски обвиняют создателей ИИ-контента в неправомерном использовании работ, защищенных авторским правом». Рейтер . Проверено 19 января 2024 г.
  23. ^ «Imagen 2 на Vertex AI теперь общедоступен» . Блог Google Cloud . Проверено 02 января 2024 г.