Модель преобразования текста в изображение — это модель машинного обучения , которая принимает входное описание на естественном языке и создает изображение, соответствующее этому описанию.
Такие модели начали разрабатываться в середине 2010-х годов, в начале весны искусственного интеллекта , в результате достижений в области глубоких нейронных сетей . В 2022 году результаты современных моделей преобразования текста в изображение, таких как DALL-E 3 от OpenAI, Imagen от Google Brain , Stable Diffusion от StabilityAI и Midjourney , начали приближаться к качеству реальных фотографий и произведений искусства, нарисованных человеком. [ нужна цитата ]
Модели преобразования текста в изображение обычно сочетают в себе языковую модель , которая преобразует входной текст в скрытое представление, и генеративную модель изображения, которая создает изображение, обусловленное этим представлением. Наиболее эффективные модели, как правило, обучались на огромных объемах изображений и текстовых данных, взятых из Интернета. [1]
До появления глубокого обучения попытки создания моделей преобразования текста в изображение ограничивались коллажами путем компоновки существующих изображений компонентов, например, из базы данных клипартов . [2] [3]
Обратная задача — создание титров к изображениям — была более простой, и ряд моделей глубокого обучения для подписей к изображениям появился раньше, чем первые модели преобразования текста в изображение. [4]
Первая современная модель преобразования текста в изображение, alignDRAW, была представлена в 2015 году исследователями из Университета Торонто . alignDRAW расширил ранее представленную архитектуру DRAW (которая использовала рекуррентный вариационный автокодировщик с механизмом внимания ) для обработки текстовых последовательностей. [4] Изображения, созданные с помощью alignDRAW, были размытыми и нефотореалистичными, но модель могла обобщать объекты, не представленные в обучающих данных (например, красный школьный автобус), и правильно обрабатывать новые подсказки, такие как «летит знак остановки». в голубом небе», показывая, что это не просто «запоминание» данных из обучающего набора. [4] [5]
В 2016 году Рид, Аката, Ян и др. стал первым, кто использовал генеративно-состязательные сети для преобразования текста в изображение. [5] [7] С помощью моделей, обученных на узких наборах данных, специфичных для предметной области, они смогли генерировать «визуально правдоподобные» изображения птиц и цветов из текстовых подписей, таких как «полностью черная птица с отчетливым толстым, закругленным клювом». Модель, обученная на более разнообразном наборе данных COCO , давала изображения, которые были «на расстоянии... обнадеживающими», но которым не хватало связности в деталях. [5] Более поздние системы включают VQGAN+CLIP, [8] XMC-GAN и GauGAN2. [9]
Одной из первых моделей преобразования текста в изображение, привлекших широкое внимание общественности, была DALL-E от OpenAI , система -трансформер , анонсированная в январе 2021 года. [10] Преемник, способный генерировать более сложные и реалистичные изображения, DALL-E 2, был представлен в апреле 2022 года, [11] за ним последовал Stable Diffusion , публично выпущенный в августе 2022 года. [12]
Следуя другим моделям преобразования текста в изображение, платформы преобразования текста в видео на основе языковых моделей , такие как Runway, Make-A-Video, [13] Imagen Video, [14] Midjourney, [15] и Phenaki [16], могут генерировать видео из текстовых и/или текстовых/изображенных подсказок. [17]
В августе 2022 года было дополнительно показано, как можно «персонализировать» большие модели основы с преобразованием текста в изображение. Персонализация преобразования текста в изображение позволяет обучить модель новому понятию, используя небольшой набор изображений нового объекта, который не был включен в обучающий набор базовой модели преобразования текста в изображение. Это достигается путем текстовой инверсии, а именно нахождения нового текстового термина, соответствующего этим изображениям.
Модели преобразования текста в изображение были построены с использованием различных архитектур. Этап кодирования текста может выполняться с помощью рекуррентной нейронной сети, такой как сеть долговременной краткосрочной памяти (LSTM), хотя модели преобразователей с тех пор стали более популярным вариантом. На этапе генерации изображений обычно используются условные генеративно-состязательные сети , при этом диффузионные модели также становятся популярным вариантом в последние годы. Вместо того, чтобы напрямую обучать модель выведению изображения с высоким разрешением, обусловленного встраиванием текста, популярный метод состоит в том, чтобы обучить модель генерировать изображения с низким разрешением и использовать одну или несколько вспомогательных моделей глубокого обучения для ее масштабирования, заполняя более мелкие детали. подробности.
Модели преобразования текста в изображение обучаются на больших наборах данных пар (текст, изображение), часто взятых из Интернета. В своей модели Imagen 2022 года компания Google Brain сообщила о положительных результатах использования большой языковой модели, обученной отдельно на текстовом корпусе (с последующим замораживанием ее весов), что является отходом от ранее стандартного подхода. [18]
Для обучения модели преобразования текста в изображение требуется набор данных изображений в сочетании с текстовыми подписями. Одним из наборов данных, обычно используемых для этой цели, является COCO (общие объекты в контексте). Выпущенный Microsoft в 2014 году, COCO состоит из около 123 000 изображений, изображающих разнообразные объекты, с пятью подписями к каждому изображению, созданными аннотаторами-людьми. Oxford-120 Flowers и CUB-200 Birds — это небольшие наборы данных, содержащие около 10 000 изображений каждый, ограниченные цветами и птицами соответственно. Считается менее сложным обучить высококачественную модель преобразования текста в изображение с помощью этих наборов данных из-за их узкого диапазона тематики. [7]
Оценка и сравнение качества моделей преобразования текста в изображение — сложная задача, требующая оценки множества желательных свойств. Как и в случае с любой генеративной моделью изображения, желательно, чтобы сгенерированные изображения были реалистичными (в том смысле, что они выглядели так, как если бы они могли быть получены из обучающего набора) и разнообразными по своему стилю. Желанием, специфичным для моделей преобразования текста в изображение, является то, чтобы создаваемые изображения семантически согласовывались с текстовыми подписями, используемыми для их создания. Для оценки этих качеств был разработан ряд схем, некоторые из которых автоматизированы, а другие основаны на человеческом суждении. [7]
Распространенной алгоритмической метрикой для оценки качества и разнообразия изображений является показатель Inception (IS), который основан на распределении меток, предсказанном предварительно обученной моделью классификации изображений Inceptionv3 при применении к выборке изображений, созданных с помощью модели преобразования текста в изображение. Оценка увеличивается, когда модель классификации изображений с высокой вероятностью предсказывает одну метку - схема, предназначенная для предпочтения «отдельных» сгенерированных изображений. Другой популярной метрикой является родственное начальное расстояние Фреше , которое сравнивает распределение сгенерированных изображений и реальных обучающих изображений в соответствии с признаками, извлеченными одним из последних слоев модели классификации предварительно обученных изображений. [7]
Выставка «Мыслящие машины: искусство и дизайн в эпоху компьютеров, 1959–1989» в МоМА представила обзор приложений искусственного интеллекта в искусстве, архитектуре и дизайне. Выставки, демонстрирующие использование искусственного интеллекта для создания произведений искусства, включают благотворительный фонд Google в 2016 году и аукцион в Gray Area Foundation в Сан-Франциско, где художники экспериментировали с алгоритмом DeepDream, а также выставку 2017 года «Нечеловеческое: искусство в эпоху искусственного интеллекта», которая проходил в Лос-Анджелесе и Франкфурте. Весной 2018 года Ассоциация вычислительной техники посвятила выпуск журнала теме компьютеров и искусства. В июне 2018 года в Центре искусства и технологий Билла состоялась премьера произведения искусства «Дуэт человека и машины», позволяющего зрителям взаимодействовать с искусственным интеллектом. Австрийский Ars Electronica и Музей прикладного искусства в Вене открыли выставки, посвященные искусственному интеллекту, в 2019 году. Фестиваль Ars Electronica 2019 года «Из коробки» исследовал роль искусства в устойчивой общественной трансформации.
Примеры такого расширения могут включать, например, расширение некоммерческих нишевых жанров (обычными примерами являются производные от киберпанка , такие как солярпанк ) любителями, новые развлечения, новые творческие детские игры, очень быстрое прототипирование, [19] повышение доступности произведений искусства [19] и художественных результат за усилие и/или затраты и/или время [19] – например, посредством создания черновиков, вдохновения, доработок черновиков и компонентов изображения ( Inpainting ).
Сгенерированные изображения иногда используются в качестве эскизов [20] или недорогих экспериментов [21] или иллюстрации идей на этапе проверки концепции — дополнительные функциональные возможности или улучшения могут также относиться к ручному редактированию после создания (шлифовке или художественному использованию) искусство на основе подсказок (например, последующая настройка с помощью редактора изображений). [21]В двух исках, поданных в январе 2023 года [22] — один от фотогиганта Getty Images, — утверждается, что популярные сервисы создания изображений копировали и обрабатывали миллионы изображений, защищенных авторским правом, без лицензии. Stable Diffusion и Midjourney являются объектами этих исков.