ДАЛЛ-И

DALL·E , DALL·E 2 и DALL·E 3 — это модели преобразования текста в изображение, разработанные OpenAI с использованием методологий глубокого обучения для создания цифровых изображений из описаний на естественном языке , называемых « подсказками ».

DALL·E 3 был выпущен в составе ChatGPT для клиентов ChatGPT Plus и ChatGPT Enterprise в октябре 2023 года ^[1] и стал доступен через API OpenAI ^[2] и платформу «Labs», предоставленную в начале ноября. ^[3] Microsoft реализовала эту модель в инструменте Bing Image Creator и планирует внедрить ее в свое приложение Designer. ^[4]

История и предыстория

DALL·E был раскрыт OpenAI в сообщении в блоге 5 января 2021 года и использует версию GPT-3 ^[5] , модифицированную для генерации изображений.

6 апреля 2022 года OpenAI анонсировала DALL·E 2, преемника, предназначенного для создания более реалистичных изображений с более высоким разрешением, которые «могут сочетать концепции, атрибуты и стили». ^[6] 20 июля 2022 года DALL·E 2 вступил в фазу бета-тестирования: приглашения были разосланы 1 миллиону человек, включенных в список ожидания; ^[7] пользователи могут бесплатно создавать определенное количество изображений каждый месяц и приобретать больше. ^[8] Ранее доступ для предварительного просмотра исследования был ограничен предварительно выбранными пользователями из соображений этики и безопасности. ^[9]^[10] 28 сентября 2022 года DALL·E 2 был открыт для всех, и требование о списке ожидания было снято. ^[11] В сентябре 2023 года OpenAI анонсировала свою последнюю модель изображения DALL·E 3, способную понимать «значительно больше нюансов и деталей», чем предыдущие версии. ^[12] В начале ноября 2022 года OpenAI выпустила DALL·E 2 в качестве API , позволяющего разработчикам интегрировать модель в свои собственные приложения. Microsoft представила реализацию DALL·E 2 в своем приложении Designer и инструменте Image Creator, включенном в Bing и Microsoft Edge . ^[13] API работает на основе цены за изображение, причем цены варьируются в зависимости от разрешения изображения. Скидки за оптовые продажи доступны компаниям, работающим с корпоративной командой OpenAI. ^[14]

Название программного обеспечения представляет собой смесь имен анимированного робота Pixar, персонажа ВАЛЛ-И , и испанского художника-сюрреалиста Сальвадора Дали . ^[15]^[5]

Технологии

Первая модель генеративного предварительно обученного трансформатора (GPT) была первоначально разработана OpenAI в 2018 году ^[16] с использованием архитектуры Transformer . Первая итерация, GPT-1, ^[17] была расширена до производства GPT-2 в 2019 году; ^[18] в 2020 году его снова масштабировали для производства GPT-3 со 175 миллиардами параметров. ^[19]^[5]^[20]

Модель DALL·E представляет собой мультимодальную реализацию GPT-3 ^[21] с 12 миллиардами параметров ^[5] , которая «заменяет текст пикселями», обученную на парах текст-изображение из Интернета. ^[22] В деталях, входными данными для модели Transformer является последовательность токенизированных заголовков изображений, за которыми следуют токенизированные фрагменты изображений. Подпись к изображению написана на английском языке, маркирована парой байтов (размер словаря 16384) и может иметь длину до 256 токенов. Каждое изображение представляет собой изображение RGB размером 256×256, разделенное на участки 32×32 по 4×4 каждый. Затем каждый патч преобразуется дискретным вариационным автокодировщиком в токен (размер словаря 8192).

DALL·E был разработан и анонсирован публике совместно с CLIP (предварительная тренировка по контрастному языку и изображению). ^[22] CLIP — это отдельная модель, основанная на нулевом обучении , которая была обучена на 400 миллионах пар изображений с текстовыми подписями, взятых из Интернета. ^[5]^[22]^[23] Его роль состоит в том, чтобы «понять и ранжировать» выходные данные DALL·E, предсказывая, какой заголовок из списка из 32 768 подписей, случайно выбранных из набора данных (из которых один был правильным ответом), наиболее подходит для изображение. Эта модель используется для фильтрации большего исходного списка изображений, созданных DALL·E, для выбора наиболее подходящих результатов. ^[15]^[22]

DALL·E 2 использует 3,5 миллиарда параметров — меньше, чем его предшественник. ^[24] DALL·E 2 использует диффузионную модель, основанную на встраиваниях изображений CLIP, которые во время вывода генерируются из вложений текста CLIP с помощью предшествующей модели. ^[24]

Предварительная тренировка контрастного языка и изображения (CLIP)

Предварительное обучение контрастному языку-образу ^[25] — это метод обучения пары моделей. Одна модель принимает фрагмент текста и выводит один вектор. Другой принимает изображение и выводит один вектор.

Чтобы обучить такую пару моделей, нужно начать с подготовки большого набора данных пар изображений и подписей, а затем выбрать пакеты размером . Пусть выходные данные моделей текста и изображения будут соответственно . Убыток, понесенный по этой партии, составит: $N$ $v_{1},...,v_{N},w_{1},...,w_{N}$

-\sum _{i}\ln {\frac {e^{v_{i}\cdot w_{i}}}{\sum _{j}e^{v_{i}\cdot w_{j}}}}-\sum _{j}\ln {\frac {e^{v_{j}\cdot w_{j}}}{\sum _{i}e^{v_{i}\cdot w_{j}}}}

[v_{i}\cdot w_{j}]_{i,j}

Выпущенные модели были обучены на наборе данных «WebImageText», содержащем 400 миллионов пар подписей к изображениям. Общее количество слов аналогично WebText, который содержит около 40 ГБ текста.

Возможности

DALL·E может создавать изображения в различных стилях, включая фотореалистичные изображения, картины и смайлы . ^[5] Он может «манипулировать и переставлять» объекты на своих изображениях, ^[5] и может правильно размещать элементы дизайна в новых композициях без явных инструкций. Том Данн, пишущий для BoingBoing , заметил: «Например, когда его просят нарисовать редис дайкон, сморкающийся, потягивающий латте или катающийся на одноколесном велосипеде, DALL·E часто рисует носовой платок, руки и ноги в подходящих местах». ^[26] DALL·E продемонстрировал способность «заполнять пробелы», чтобы получить соответствующие детали без конкретных подсказок, например, добавляя рождественские образы к подсказкам, обычно связанным с празднованием, ^[27] и соответствующим образом размещал тени к изображениям, в которых не упоминалось их. ^[28] Кроме того, DALL·E демонстрирует широкое понимание визуальных и дизайнерских тенденций. ^{[ нужна цитата ]}

DALL·E может создавать изображения для широкого спектра произвольных описаний с разных точек зрения ^[29] лишь с редкими сбоями. ^[15] Марк Ридл, доцент Технологической школы интерактивных вычислений Джорджии , обнаружил, что DALL-E может смешивать концепции (описываемые как ключевой элемент человеческого творчества ). ^[30]^[31]

Его способности к визуальному мышлению достаточны для решения матриц Ворона (визуальные тесты, которые часто назначают людям для измерения интеллекта). ^[32]^[33]

DALL·E 3 следует сложным подсказкам с большей точностью и детальностью, чем его предшественники, и способен генерировать более связный и точный текст. ^[34]^[12] DALL·E 3 интегрирован в ChatGPT Plus. ^[12]

Модификация изображения

Две «вариации» « Девушки с жемчужной сережкой» , созданные с помощью DALL·E 2.

Учитывая существующее изображение, DALL·E 2 может создавать «вариации» изображения как отдельные выходные данные на основе оригинала, а также редактировать изображение, чтобы изменить или расширить его. «Закрашивание» и «закрашивание» в DALL·E 2 используют контекст изображения для заполнения недостающих областей с использованием носителя, соответствующего оригиналу, согласно заданной подсказке.

Например, это можно использовать для вставки нового объекта в изображение или расширения изображения за пределы исходных границ. ^[35] Согласно OpenAI, «Outpainting учитывает существующие визуальные элементы изображения, включая тени, отражения и текстуры, для сохранения контекста исходного изображения». ^[36]

Технические ограничения

Понимание языка DALL·E 2 имеет ограничения. Иногда невозможно отличить «Жёлтую книгу и красную вазу» от «Красной книги и жёлтой вазы» или «Панду, делающую латте-арт» от «Латте-арт панды». ^[37] Он генерирует изображения «космонавта верхом на лошади», когда ему предоставляется подсказка «лошадь верхом на космонавте». ^[38] Он также не может генерировать правильные изображения в различных обстоятельствах. Запрос более трех объектов, отрицаний, чисел и связных предложений может привести к ошибкам, а признаки объекта могут появиться не на том объекте. ^[29] Дополнительные ограничения включают обработку текста, которая, даже при наличии разборчивых букв, почти всегда приводит к бреду, похожему на сон, и ограниченную способность обрабатывать научную информацию, такую как астрономия или медицинские изображения. ^[39]

Этические проблемы

Зависимость DALL·E 2 от общедоступных наборов данных влияет на результаты и в некоторых случаях приводит к алгоритмической предвзятости , например, к генерированию большего числа мужчин, чем женщин, для запросов, в которых не упоминается пол. ^[40] Данные обучения DALL·E 2 были отфильтрованы для удаления изображений насилия и сексуального характера, но было обнаружено, что в некоторых случаях это увеличивает предвзятость, например, снижает частоту появления женщин. ^[41] OpenAI предполагает, что это может быть связано с тем, что женщины с большей вероятностью подвергались сексуализации в обучающих данных, что приводило к влиянию фильтра на результаты. ^[41] В сентябре 2022 года OpenAI подтвердила The Verge , что DALL·E незаметно вставляет фразы в запросы пользователя, чтобы устранить предвзятость результатов; например, «черный мужчина» и «азиатская женщина» вставляются в подсказки, в которых не указан пол или раса. ^[42]

Проблема DALL·E 2 и подобных моделей генерации изображений заключается в том, что они могут использоваться для распространения дипфейков и других форм дезинформации. ^[43]^[44] В попытке смягчить это программное обеспечение отклоняет запросы с участием общественных деятелей и загрузки, содержащие человеческие лица. ^[45] Запросы, содержащие потенциально нежелательный контент, блокируются, а загруженные изображения анализируются на предмет обнаружения оскорбительных материалов. ^[46] Недостатком фильтрации на основе подсказок является то, что ее легко обойти, используя альтернативные фразы, которые приводят к аналогичному результату. Например, слово «кровь» фильтруется, а «кетчуп» и «красная жидкость» — нет. ^[47]^[46]

Еще одна проблема, связанная с DALL·E 2 и подобными моделями, заключается в том, что из-за своей точности и популярности они могут вызвать технологическую безработицу среди художников, фотографов и графических дизайнеров. ^[48]^[49] DALL·E 3 предназначен для того, чтобы запретить пользователям создавать произведения искусства в стиле ныне живущих художников. ^[12]

Прием

Большая часть освещения DALL·E сосредоточена на небольшом подмножестве «сюрреалистических» ^[22] или «причудливых» ^[30] результатов. Результат DALL-E для «иллюстрации молодого редиса дайкона в пачке, выгуливающего собаку» был упомянут в статьях из Input , ^[50] NBC , ^[51] Nature , ^[52] и других публикаций. ^[5]^[53]^[54] Также широко освещалась его продукция «кресло в форме авокадо». ^[22]^[31]

ExtremeTech заявила, что «вы можете попросить у DALL·E изображение телефона или пылесоса за определенный период времени, и он поймет, как эти объекты изменились». ^[27] Engadget также отметил свою необычную способность «понимать, как телефоны и другие объекты меняются с течением времени». ^[28]

Согласно MIT Technology Review , одной из целей OpenAI было «дать языковым моделям лучшее понимание повседневных концепций, которые люди используют для понимания вещей». ^[22]

Инвесторы с Уолл-стрит положительно восприняли проект DALL·E 2, а некоторые фирмы считают, что он может стать поворотным моментом для будущей многотриллионной отрасли. К середине 2019 года OpenAI уже получила более 1 миллиарда долларов финансирования от Microsoft и Khosla Ventures, ^[55]^[56]^[57] , а в январе 2023 года, после запуска DALL·E 2 и ChatGPT, получила дополнительно 10 миллиардов долларов. при финансировании от Microsoft. ^[58]

Японское аниме- сообщество негативно отреагировало на DALL·E 2 и подобные модели. ^[59]^[60]^[61] Художники обычно выдвигают два аргумента против программного обеспечения. Во-первых, искусство ИИ не является искусством, поскольку оно не создается человеком с намерением. «Сопоставление изображений, созданных с помощью ИИ, с их собственными работами унижает достоинство и подрывает время и навыки, которые затрачиваются на их искусство. сеть». ^[7] Во-вторых, проблемы с законом об авторском праве и моделями преобразования текста в изображение. OpenAI не опубликовала информацию о том, какие наборы данных использовались для обучения DALL·E 2, что вызвало обеспокоенность некоторых, что работы художников использовались для обучения без разрешения. Законы об авторском праве, касающиеся этих тем, на данный момент не дают окончательных результатов. ^[8]

После интеграции DALL·E 3 в Bing Chat и ChatGPT Microsoft и OpenAI столкнулись с критикой за чрезмерную фильтрацию контента, причем критики заявили, что DALL·E подвергся «лоботомии». ^[62] В качестве доказательства была приведена пометка изображений, созданных по таким запросам, как «человек ломает серверную стойку кувалдой». Сообщается, что в первые дни после запуска фильтрация была усилена до такой степени, что изображения, созданные с помощью некоторых предложенных Bing подсказок, блокировались. ^[62]^[63] TechRadar утверждает, что слишком большая осторожность может ограничить ценность DALL·E как творческого инструмента. ^[63]

Реализации с открытым исходным кодом

Поскольку OpenAI не опубликовала исходный код ни для одной из трех моделей, было предпринято несколько попыток создать реализации DALL·E с открытым исходным кодом. ^[64]^[65] Выпущенный в 2022 году на платформе Hugging Face 's Spaces, Craiyon (ранее DALL·E Mini, пока OpenAI не запросила изменение названия в июне 2022 года) представляет собой модель искусственного интеллекта, основанную на оригинальном DALL·E, который был обучен на нефильтрованных данных из Интернета. Он привлек значительное внимание средств массовой информации в середине 2022 года после своего выпуска из-за своей способности создавать юмористические образы. ^[66]^[67]^[68]

Смотрите также

Внешние ссылки

Викискладе есть медиафайлы по теме DALL-E .

Системная карта DALL-E 3
Статья DALL-E 3 от OpenAI
Сайт ДАЛЛ-И 2
Сайт Крайона