DALL·E , DALL·E 2 и DALL·E 3 (произносится как ДОЛЛ-И) — это модели преобразования текста в изображение, разработанные OpenAI с использованием методологий глубокого обучения для генерации цифровых изображений из описаний на естественном языке, известных как « подсказки ».
Первая версия DALL-E была анонсирована в январе 2021 года. В следующем году был выпущен ее преемник DALL-E 2. DALL·E 3 был выпущен изначально в ChatGPT для клиентов ChatGPT Plus и ChatGPT Enterprise в октябре 2023 года [1] с доступностью через API OpenAI [2] и платформу «Labs», предоставленную в начале ноября. [3] Microsoft реализовала модель в инструменте Bing Image Creator и планирует внедрить ее в свое приложение Designer. [4]
DALL·E был представлен компанией OpenAI в сообщении в блоге 5 января 2021 года и использует версию GPT-3 [5], модифицированную для генерации изображений.
6 апреля 2022 года OpenAI анонсировала DALL·E 2, преемника, разработанного для создания более реалистичных изображений с более высоким разрешением, которые «могут объединять концепции, атрибуты и стили». [6] 20 июля 2022 года DALL·E 2 вступил в бета-фазу, и приглашения были отправлены 1 миллиону лиц, внесенных в список ожидания; [7] пользователи могли бесплатно генерировать определенное количество изображений каждый месяц и могли покупать больше. [8] Ранее доступ был ограничен предварительно выбранными пользователями для предварительного просмотра исследования из-за проблем этики и безопасности. [9] [10] 28 сентября 2022 года DALL·E 2 был открыт для всех, и требование о наличии списка ожидания было снято. [11] В сентябре 2023 года OpenAI анонсировала свою последнюю модель изображения, DALL·E 3, способную понимать «значительно больше нюансов и деталей», чем предыдущие итерации. [12] В начале ноября 2022 года OpenAI выпустила DALL·E 2 как API , что позволяет разработчикам интегрировать модель в свои собственные приложения. Microsoft представила свою реализацию DALL·E 2 в своем приложении Designer и инструменте Image Creator, включенном в Bing и Microsoft Edge . [13] API работает по принципу оплаты за изображение, при этом цены варьируются в зависимости от разрешения изображения. Компаниям, работающим с корпоративной командой OpenAI, доступны скидки за объем. [14]
Название программы представляет собой комбинацию имён персонажа анимационного робота Pixar ВАЛЛ-И и каталонского художника-сюрреалиста Сальвадора Дали . [15] [5]
В феврале 2024 года OpenAI начала добавлять водяные знаки к изображениям, созданным с помощью DALL-E, содержащим метаданные в стандарте C2PA (Коалиция за происхождение и подлинность контента), продвигаемом Инициативой по подлинности контента . [16]
Первая генеративная предобученная модель трансформатора (GPT) была первоначально разработана OpenAI в 2018 году [17] с использованием архитектуры Transformer . Первая итерация, GPT-1, [18] была масштабирована для создания GPT-2 в 2019 году; [19] в 2020 году она была снова масштабирована для создания GPT-3 с 175 миллиардами параметров. [20] [5] [21]
DALL·E состоит из трех компонентов: дискретного VAE , авторегрессионного декодера Transformer (12 миллиардов параметров), аналогичного GPT-3, и пары CLIP, состоящей из кодировщика изображений и текстового кодировщика. [22]
Дискретный VAE может преобразовать изображение в последовательность токенов и наоборот, преобразовать последовательность токенов обратно в изображение. Это необходимо, поскольку Transformer не обрабатывает данные изображения напрямую. [22]
Входные данные для модели Transformer — это последовательность токенизированных подписей к изображениям, за которыми следуют токенизированные фрагменты изображений. Подпись к изображению на английском языке, токенизирована кодировкой пар байтов (размер словаря 16384) и может быть длиной до 256 токенов. Каждое изображение — это изображение RGB размером 256×256, разделенное на 32×32 фрагмента по 4×4 каждый. Затем каждый фрагмент преобразуется дискретным вариационным автокодировщиком в токен (размер словаря 8192). [22]
DALL·E была разработана и представлена публике совместно с CLIP (Contrastive Language-Image Pre-training) . [23] CLIP — это отдельная модель, основанная на контрастном обучении , которая была обучена на 400 миллионах пар изображений с текстовыми подписями, взятыми из Интернета. Ее роль заключается в «понимании и ранжировании» выходных данных DALL·E путем прогнозирования того, какая подпись из списка из 32 768 подписей, случайно выбранных из набора данных (из которых одна была правильным ответом), наиболее подходит для изображения. [24]
Обученная пара CLIP используется для фильтрации большего начального списка изображений, сгенерированного DALL·E, чтобы выбрать изображение, наиболее близкое к текстовой подсказке. [22]
DALL·E 2 использует 3,5 миллиарда параметров, что меньше, чем у его предшественника. [22] Вместо авторегрессионного Transformer, DALL·E 2 использует модель диффузии , обусловленную вложениями изображений CLIP, которые во время вывода генерируются из вложений текста CLIP предыдущей моделью. [22] Это та же архитектура, что и у Stable Diffusion , выпущенной несколькими месяцами позже.
DALL·E может генерировать изображения в различных стилях, включая фотореалистичные изображения, картины и эмодзи . [5] Он может «манипулировать и переставлять» объекты на своих изображениях, [5] и может правильно размещать элементы дизайна в новых композициях без явных инструкций. Том Данн, пишущий для BoingBoing, заметил, что «например, когда его просят нарисовать редьку дайкон, сморкающуюся, потягивающую латте или едущую на одноколесном велосипеде, DALL·E часто рисует платок, руки и ноги в правдоподобных местах». [25] DALL·E продемонстрировал способность «заполнять пробелы», чтобы вывести соответствующие детали без конкретных подсказок, таких как добавление рождественских образов к подсказкам, обычно связанным с празднованием, [26] и соответствующим образом размещенные тени к изображениям, которые не упоминают их. [27] Кроме того, DALL·E демонстрирует широкое понимание визуальных и дизайнерских тенденций. [ необходима цитата ]
DALL·E может создавать изображения для широкого спектра произвольных описаний с различных точек зрения [28] с редкими сбоями. [15] Марк Ридл, доцент Школы интерактивных вычислений Технологического института Джорджии , обнаружил, что DALL-E может смешивать концепции (описываемые как ключевой элемент человеческого творчества ). [29] [30]
Его способности к визуальному мышлению достаточны для решения матриц Равена (визуальные тесты, часто применяемые к людям для измерения интеллекта). [31] [32]
DALL·E 3 следует сложным подсказкам с большей точностью и детализацией, чем его предшественники, и способен генерировать более связный и точный текст. [33] [12] DALL·E 3 интегрирован в ChatGPT Plus. [12]
При наличии существующего изображения DALL·E 2 может создавать «вариации» изображения в виде отдельных выходных данных на основе оригинала, а также редактировать изображение, чтобы изменить или расширить его. «Вписывание» и «выписывание» DALL·E 2 используют контекст изображения для заполнения отсутствующих областей с помощью средства, соответствующего оригиналу, следуя заданной подсказке.
Например, это можно использовать для вставки нового объекта в изображение или расширения изображения за пределы его исходных границ. [34] Согласно OpenAI, «Outpainting учитывает существующие визуальные элементы изображения — включая тени, отражения и текстуры — для сохранения контекста исходного изображения». [35]
Понимание языка DALL·E 2 имеет ограничения. Иногда он не может отличить «Желтую книгу и красную вазу» от «Красной книги и желтой вазы» или «Панда, делающая латте-арт» от «Латте-арт панды». [36] Он генерирует изображения «астронавта, едущего на лошади», когда ему предлагают «лошадь, едущая на астронавте». [37] Он также не может генерировать правильные изображения в различных обстоятельствах. Запрос более трех объектов, отрицание, числа и связанные предложения могут привести к ошибкам, а характеристики объекта могут появиться на неправильном объекте. [28] Дополнительные ограничения включают обработку текста — который, даже с разборчивыми буквами, почти неизменно приводит к сновидной тарабарщине — и его ограниченную способность обращаться к научной информации, такой как астрономия или медицинские изображения. [38]
Зависимость DALL·E 2 от общедоступных наборов данных влияет на его результаты и в некоторых случаях приводит к алгоритмической предвзятости , например, к генерации большего количества мужчин, чем женщин для запросов, в которых не упоминается пол. [38] Обучающие данные DALL·E 2 были отфильтрованы для удаления жестоких и сексуальных изображений, но было обнаружено, что это увеличивает предвзятость в некоторых случаях, например, уменьшая частоту генерации женщин. [39] OpenAI выдвигает гипотезу, что это может быть связано с тем, что женщины с большей вероятностью подвергались сексуализации в обучающих данных, что привело к влиянию фильтра на результаты. [39] В сентябре 2022 года OpenAI подтвердила The Verge , что DALL·E незаметно вставляет фразы в подсказки пользователей, чтобы устранить предвзятость в результатах; например, «чернокожий мужчина» и «азиатская женщина» вставляются в подсказки, в которых не указан пол или раса. [40]
Проблема DALL·E 2 и подобных моделей генерации изображений заключается в том, что они могут использоваться для распространения дипфейков и других форм дезинформации. [41] [42] В попытке смягчить это программное обеспечение отклоняет подсказки, включающие публичных лиц, и загрузки, содержащие человеческие лица. [43] Подсказки, содержащие потенциально нежелательный контент, блокируются, а загруженные изображения анализируются для обнаружения оскорбительных материалов. [44] Недостатком фильтрации на основе подсказок является то, что ее легко обойти, используя альтернативные фразы, которые приводят к аналогичному выводу. Например, слово «кровь» фильтруется, а «кетчуп» и «красная жидкость» — нет. [45] [44]
Еще одна проблема, связанная с DALL·E 2 и аналогичными моделями, заключается в том, что они могут вызвать технологическую безработицу среди художников, фотографов и графических дизайнеров из-за своей точности и популярности. [46] [47] DALL·E 3 разработан, чтобы не дать пользователям создавать произведения искусства в стиле ныне живущих художников. [12]
В 2023 году Microsoft предложила Министерству обороны США использовать модели DALL·E для обучения системы управления полем боя . [48] В январе 2024 года OpenAI сняла полный запрет на использование в военных целях и в военных целях из своих политик использования. [49]
Большая часть освещения DALL·E фокусируется на небольшом подмножестве «сюрреалистических» [23] или «причудливых» [29] результатов. Результат DALL-E для «иллюстрации молодого дайкона в пачке, выгуливающего собаку» упоминался в статьях из Input , [50] NBC , [51] Nature , [52] и других публикаций. [5] [53] [54] Его результат для «кресла в форме авокадо» также широко освещался. [23] [30]
ExtremeTech заявила: «Вы можете попросить DALL·E предоставить фотографию телефона или пылесоса за определенный период времени, и он поймет, как изменились эти объекты». [26] Engadget также отметила его необычную способность «понимать, как телефоны и другие объекты меняются со временем». [27]
Согласно MIT Technology Review , одной из целей OpenAI было «дать языковым моделям лучшее понимание повседневных концепций, которые люди используют для осмысления вещей» [23] .
Инвесторы Уолл-стрит положительно восприняли DALL·E 2, и некоторые фирмы посчитали, что это может стать поворотным моментом для будущей многотриллионной индустрии. К середине 2019 года OpenAI уже получила более 1 миллиарда долларов финансирования от Microsoft и Khosla Ventures, [55] [56] [57] а в январе 2023 года, после запуска DALL·E 2 и ChatGPT, получила дополнительно 10 миллиардов долларов финансирования от Microsoft. [58]
Аниме- сообщество Японии негативно отреагировало на DALL·E 2 и подобные модели. [59] [60] [61] Художники обычно выдвигают два аргумента против программного обеспечения. Первый заключается в том, что искусство ИИ не является искусством, поскольку оно не создано человеком с намерением. «Сопоставление изображений, созданных ИИ, с их собственными работами унижает и подрывает время и мастерство, которые вложены в их искусство. Инструменты генерации изображений на основе ИИ подвергаются резкой критике со стороны художников, поскольку они обучаются на искусстве, созданном человеком, взятом из сети». [7] Вторая проблема заключается в проблемах с законом об авторском праве и данными, на которых обучаются модели преобразования текста в изображение. OpenAI не опубликовала информацию о том, какие наборы данных использовались для обучения DALL·E 2, что вызвало у некоторых опасения, что работы художников использовались для обучения без разрешения. Законы об авторском праве, касающиеся этих тем, на данный момент не являются окончательными. [8]
После интеграции DALL·E 3 в Bing Chat и ChatGPT, Microsoft и OpenAI подверглись критике за чрезмерную фильтрацию контента, при этом критики заявили, что DALL·E был «лоботомирован». [62] В качестве доказательства приводилась пометка изображений, созданных подсказками, такими как «человек ломает серверную стойку кувалдой». Сообщалось, что в течение первых дней запуска фильтрация была усилена до такой степени, что изображения, созданные некоторыми из собственных предложенных подсказок Bing, блокировались. [62] [63] TechRadar утверждал, что слишком большой наклон в сторону осторожности может ограничить ценность DALL·E как творческого инструмента. [63]
Поскольку OpenAI не выпустила исходный код ни для одной из трех моделей, было предпринято несколько попыток создать модели с открытым исходным кодом, предлагающие аналогичные возможности. [64] [65] Выпущенная в 2022 году на платформе Spaces Hugging Face , Craiyon (ранее DALL·E Mini, пока OpenAI не запросила смену названия в июне 2022 года) представляет собой модель ИИ, основанную на оригинальной DALL·E, которая была обучена на неотфильтрованных данных из Интернета. Она привлекла значительное внимание СМИ в середине 2022 года после своего выпуска из-за своей способности создавать юмористические образы. [66] [67] [68]