Модель преобразования текста в изображение — это модель машинного обучения , которая принимает входное описание на естественном языке и создает изображение, соответствующее этому описанию.
Модели преобразования текста в изображение начали разрабатываться в середине 2010-х годов во время начала бума ИИ в результате достижений в области глубоких нейронных сетей . В 2022 году результаты современных моделей преобразования текста в изображение, таких как DALL-E 2 от OpenAI , Imagen от Google Brain , Stable Diffusion от Stability AI и Midjourney , стали считаться приближающимися по качеству к реальным фотографиям и нарисованным человеком произведениям искусства .
Модели преобразования текста в изображение обычно являются моделями скрытой диффузии , которые объединяют языковую модель , которая преобразует входной текст в скрытое представление , и генеративную модель изображения , которая создает изображение, обусловленное этим представлением. Наиболее эффективные модели обычно обучались на огромных объемах данных изображений и текста, полученных из сети . [1]
До появления глубокого обучения , [ когда? ] попытки создания моделей преобразования текста в изображение ограничивались коллажами путем упорядочивания существующих компонентных изображений, например, из базы данных клипартов . [2] [3]
Обратная задача, создание подписей к изображениям , была более податливой, и ряд моделей глубокого обучения для создания подписей к изображениям появился раньше, чем первые модели преобразования текста в изображение. [4]
Первая современная модель преобразования текста в изображение, alignDRAW, была представлена в 2015 году исследователями из Университета Торонто . alignDRAW расширила ранее представленную архитектуру DRAW (которая использовала рекуррентный вариационный автоэнкодер с механизмом внимания ), чтобы быть обусловленной текстовыми последовательностями. [4] Изображения, сгенерированные alignDRAW, имели небольшое разрешение (32×32 пикселя, достигаемое путем изменения размера ) и считались «низкоразнообразными». Модель смогла обобщить объекты, не представленные в обучающих данных (например, красный школьный автобус), и соответствующим образом обрабатывала новые подсказки, такие как «знак остановки летит в синем небе», демонстрируя вывод, что это было не просто «запоминание» данных из обучающего набора . [4] [5]
В 2016 году Рид, Аката, Ян и др. стали первыми, кто использовал генеративно-состязательные сети для задачи преобразования текста в изображение. [5] [7] С моделями, обученными на узких, предметно-ориентированных наборах данных, они смогли сгенерировать «визуально правдоподобные» изображения птиц и цветов из текстовых подписей, таких как «полностью черная птица с отчетливым толстым, закругленным клювом» . Модель, обученная на более разнообразном наборе данных COCO (Common Objects in Context), создала изображения, которые были «издалека... обнадеживающими», но которым не хватало согласованности в своих деталях. [5] Более поздние системы включают VQGAN-CLIP, [8] XMC-GAN и GauGAN2. [9]
Одной из первых моделей преобразования текста в изображение, которая привлекла широкое общественное внимание, была DALL-E от OpenAI , система -трансформер, анонсированная в январе 2021 года. [10] Преемник, способный генерировать более сложные и реалистичные изображения, DALL-E 2, был представлен в апреле 2022 года, [11] за ним последовала Stable Diffusion , которая была публично выпущена в августе 2022 года. [12] В августе 2022 года персонализация текста в изображение позволяет обучить модель новой концепции, используя небольшой набор изображений нового объекта, который не был включен в обучающий набор базовой модели преобразования текста в изображение. Это достигается путем текстовой инверсии , а именно поиска нового текстового термина, соответствующего этим изображениям.
Следуя другим моделям преобразования текста в изображение, платформы преобразования текста в видео на основе языковой модели , такие как Runway, Make-A-Video, [13] Imagen Video, [14] Midjourney, [15] и Phenaki [16], могут генерировать видео из текстовых и/или текстово-изображенных подсказок. [17]
Модели преобразования текста в изображение были созданы с использованием различных архитектур. Шаг кодирования текста может быть выполнен с помощью рекуррентной нейронной сети, такой как сеть с долгой краткосрочной памятью (LSTM), хотя модели трансформаторов с тех пор стали более популярным вариантом. Для шага генерации изображения обычно использовались условные генеративно-состязательные сети (GAN), а диффузионные модели также стали популярным вариантом в последние годы. Вместо того чтобы напрямую обучать модель для вывода изображения с высоким разрешением, обусловленного встраиванием текста, популярной методикой является обучение модели для генерации изображений с низким разрешением и использование одной или нескольких вспомогательных моделей глубокого обучения для ее масштабирования, заполняя более мелкие детали.
Модели преобразования текста в изображение обучаются на больших наборах данных пар (текст, изображение), часто взятых из сети. С помощью своей модели Imagen 2022 года Google Brain сообщила о положительных результатах использования большой языковой модели, обученной отдельно на корпусе, состоящем только из текста (с последующим замораживанием ее весов), что является отходом от ранее принятого стандартного подхода. [18]
Обучение модели преобразования текста в изображение требует набора данных изображений в паре с текстовыми подписями. Одним из наборов данных, обычно используемых для этой цели, является набор данных COCO. Выпущенный Microsoft в 2014 году, COCO состоит из около 123 000 изображений, изображающих разнообразные объекты с пятью подписями на изображение, созданными людьми-аннотаторами. Oxford-120 Flowers и CUB-200 Birds — это меньшие наборы данных, содержащие около 10 000 изображений каждый, ограниченные цветами и птицами соответственно. Считается, что обучение высококачественной модели преобразования текста в изображение с этими наборами данных менее сложно из-за их узкого диапазона тем. [7]
Оценка и сравнение качества моделей «текст-изображение» — это проблема, включающая оценку нескольких желаемых свойств. Желательным условием, характерным для моделей «текст-изображение», является то, что сгенерированные изображения семантически совпадают с текстовыми подписями, используемыми для их генерации. Для оценки этих качеств было разработано несколько схем, некоторые из которых автоматизированы, а другие основаны на человеческом суждении. [7]
Распространенной алгоритмической метрикой для оценки качества и разнообразия изображений является Inception Score (IS), которая основана на распределении меток, предсказанных предварительно обученной моделью классификации изображений Inceptionv3 при применении к выборке изображений, сгенерированных моделью «текст-изображение». Оценка увеличивается, когда модель классификации изображений предсказывает одну метку с высокой вероятностью, схема, предназначенная для поддержки «отличных» сгенерированных изображений. Другой популярной метрикой является связанное с ней начальное расстояние Фреше , которое сравнивает распределение сгенерированных изображений и реальных обучающих изображений в соответствии с признаками, извлеченными одним из последних слоев предварительно обученной модели классификации изображений. [7]