Синтетические медиа (также известные как медиа, созданные ИИ , [1] [2] медиа, созданные генеративным ИИ , [3] персонализированные медиа , персонализированный контент , [4] и в разговорной речи как дипфейки [5] ) — это всеобъемлющий термин для искусственного производства, манипулирования и изменения данных и медиа с помощью автоматизированных средств, особенно с использованием алгоритмов искусственного интеллекта , например, с целью введения людей в заблуждение или изменения первоначального смысла. [6] [7] [8] Синтетические медиа как область быстро развивались с момента создания генеративных состязательных сетей , в первую очередь за счет появления дипфейков, а также синтеза музыки, генерации текста, синтеза человеческих изображений, синтеза речи и многого другого. [8] Хотя эксперты используют термин «синтетические медиа», отдельные методы, такие как deepfakes и синтез текста, иногда не упоминаются таковыми в СМИ, а вместо этого используют их соответствующую терминологию (и часто используют «deepfakes» как эвфемизм, например, «deepfakes for text» [ требуется ссылка ] для генерации естественного языка ; «deepfakes for voices» для нейронного клонирования голоса и т. д.) [9] [10] Значительное внимание к области синтетических медиа возросло, начиная с 2017 года, когда Motherboard сообщил о появлении измененных ИИ порнографических видеороликов , в которые вставлялись лица известных актрис. [11] [12] Потенциальные опасности синтетических медиа включают распространение дезинформации, дальнейшую потерю доверия к таким институтам, как СМИ и правительство, [11] массовую автоматизацию творческих и журналистских работ и отступление в фантастические миры, созданные ИИ. [13] Синтетические медиа являются прикладной формой искусственного воображения . [11]
Синтетические медиа как процесс автоматизированного искусства восходят к автоматам древнегреческой цивилизации , где такие изобретатели, как Дедал и Герон Александрийский, проектировали машины, способные писать текст, генерировать звуки и играть музыку. [14] [15] Традиция развлечений, основанных на автоматах, процветала на протяжении всей истории, и кажущаяся магической способность механических существ имитировать человеческое творчество часто привлекала толпы по всей Европе, [16] Китаю, [17] Индии, [18] и т. д. Другие автоматизированные новинки, такие как « Musikalisches Würfelspiel » (музыкальная игра в кости) Иоганна Филиппа Кирнбергера 1757 года , также развлекали публику. [19]
Однако, несмотря на технические возможности этих машин, ни одна из них не была способна генерировать оригинальный контент и полностью зависела от своих механических конструкций.
Область исследований ИИ зародилась на семинаре в Дартмутском колледже в 1956 году [20], положив начало росту цифровых вычислений, используемых в качестве средства искусства , а также росту генеративного искусства . Первоначальные эксперименты в искусстве, созданном с помощью ИИ, включали Illiac Suite , композицию 1957 года для струнного квартета , которая, по общему мнению, является первой партитурой, составленной электронным компьютером . [21] Лежарен Хиллер в сотрудничестве с Леонардом Иссаксоном запрограммировал компьютер ILLIAC I в Иллинойсском университете в Урбане-Шампейне (где оба композитора были профессорами) для создания композиционного материала для своего струнного квартета № 4 .
В 1960 году русский исследователь Р.Х.Зарипов опубликовал первую в мире работу по алгоритмическому сочинению музыки с использованием ЭВМ « Урал-1 ». [22]
В 1965 году изобретатель Рэй Курцвейл впервые представил фортепианную пьесу, созданную компьютером, который был способен распознавать закономерности в различных композициях. Затем компьютер смог анализировать и использовать эти закономерности для создания новых мелодий. Компьютер дебютировал в программе Стива Аллена « У меня есть секрет» и ставил ведущих в тупик, пока кинозвезда Гарри Морган не разгадал секрет Рэя. [23]
До 1989 года искусственные нейронные сети использовались для моделирования определенных аспектов творчества. Питер Тодд (1989) впервые обучил нейронную сеть воспроизводить музыкальные мелодии из обучающего набора музыкальных произведений. Затем он использовал алгоритм изменения для изменения входных параметров сети. Сеть могла случайным образом генерировать новую музыку в крайне неконтролируемой манере. [24] [25]
В 2014 году Ян Гудфеллоу и его коллеги разработали новый класс систем машинного обучения : генеративные состязательные сети (GAN). [26] Две нейронные сети соревнуются друг с другом в игре (в смысле теории игр , часто, но не всегда, в форме игры с нулевой суммой ). При наличии обучающего набора эта техника учится генерировать новые данные с той же статистикой, что и обучающий набор. Например, GAN, обученная на фотографиях, может генерировать новые фотографии, которые выглядят по крайней мере внешне аутентичными для наблюдателей-людей, имея много реалистичных характеристик. Хотя изначально GAN предлагались как форма генеративной модели для неконтролируемого обучения , GAN также оказались полезными для полуконтролируемого обучения , [27] полностью контролируемого обучения , [28] и обучения с подкреплением . [29] На семинаре 2016 года Янн Лекун описал GAN как «самую крутую идею в машинном обучении за последние двадцать лет». [30]
В 2017 году Google представила трансформеров [31], новый тип архитектуры нейронных сетей, специализированный для моделирования языка, который позволил добиться быстрого прогресса в обработке естественного языка . Трансформеры оказались способны к высокому уровню обобщения, что позволило таким сетям, как GPT-3 и Jukebox от OpenAI, синтезировать текст и музыку соответственно на уровне, приближающемся к человеческим способностям. [32] [33] Были некоторые попытки использовать GPT-3 и GPT-2 для написания сценариев, в результате чего появились как драматические (итальянский короткометражный фильм Frammenti di Anime Meccaniche [34] , написанный GPT-2 ), так и комедийные повествования (короткометражный фильм Solicitors от YouTube Creator Calamity A I, написанный GPT-3). [35]
Deepfakes ( гибрид слов « глубокое обучение » и «подделка» [36] ) являются наиболее известной формой синтетических медиа. [37] [38] Deepfakes — это медиа-продукция, которая использует существующее изображение или видео и заменяет субъекта чьим-либо подобием с помощью искусственных нейронных сетей . [39] Они часто объединяют и накладывают существующие медиа на исходные медиа с помощью методов машинного обучения, известных как автокодировщики и генеративно-состязательные сети (GAN). [40] Deepfakes привлекли широкое внимание своим использованием в порнографических видеороликах со знаменитостями , порно мести , фейковых новостях , мистификациях и финансовом мошенничестве . [41] [42] [43] [44] Это вызвало реакцию как со стороны промышленности, так и со стороны правительства с целью обнаружения и ограничения их использования. [45] [46]
Термин deepfakes появился примерно в конце 2017 года у пользователя Reddit под ником «deepfakes». [39] Он, как и другие участники сообщества Reddit r/deepfakes, делились созданными ими deepfakes; во многих видео лица знаменитостей были заменены на тела актрис в порнографических видеороликах, [39] в то время как непорнографический контент включал множество видеороликов с лицом актера Николаса Кейджа , замененным в различных фильмах. [47] В декабре 2017 года Саманта Коул опубликовала статью о r/deepfakes в Vice , которая привлекла первое внимание публики к распространению deepfakes в онлайн-сообществах. [48] Шесть недель спустя Коул написал в последующей статье о значительном увеличении количества поддельной порнографии с использованием ИИ. [39] В феврале 2018 года r/deepfakes был забанен Reddit за распространение недобровольной порнографии. [49] Другие сайты также запретили использование deepfake для непреднамеренной порнографии, включая социальную медиа-платформу Twitter и порнографический сайт Pornhub . [50] Однако некоторые сайты еще не запретили контент Deepfake, включая 4chan и 8chan . [51]
Непорнографический дипфейк-контент продолжает набирать популярность благодаря видеороликам от таких создателей YouTube , как Ctrl Shift Face и Shamook. [52] [53] В марте 2020 года для iOS было запущено мобильное приложение Impressions. Приложение предоставляет пользователям платформу для дипфейка лиц знаменитостей в видеороликах за считанные минуты. [54]
Синтез изображений — это искусственное производство визуальных медиа, особенно с помощью алгоритмических средств. В развивающемся мире синтетических медиа работа по созданию цифровых изображений — когда-то область высококвалифицированных программистов и голливудских художников по спецэффектам — может быть автоматизирована экспертными системами, способными производить реализм в огромных масштабах. [55] Одной из подобластей этого является синтез человеческого изображения , который представляет собой использование нейронных сетей для создания правдоподобных и даже фотореалистичных интерпретаций [56] [57] человеческих подобий, движущихся или неподвижных. Он фактически существует с начала 2000-х годов. Во многих фильмах, использующих компьютерные изображения, использовались синтетические изображения человекоподобных персонажей, цифровым способом наложенные на реальный или другой смоделированный киноматериал. К концу 2010 -х годов искусственный интеллект с глубоким обучением применялся для синтеза изображений и видео, которые выглядят как люди, без необходимости в помощи человека, после завершения фазы обучения, тогда как старый школьный 7D-маршрут требовал огромного количества человеческой работы. Сайт This Person Does Not Exist демонстрирует полностью автоматизированный синтез человеческого изображения путем бесконечной генерации изображений, которые выглядят как портреты человеческих лиц. [58]
Помимо дипфейков и синтеза изображений, аудио — это еще одна область, где ИИ используется для создания синтетических медиа. [59] Синтезированное аудио будет способно генерировать любой мыслимый звук, который может быть получен путем манипуляции звуковой волной, что, предположительно, может быть использовано для генерации стандартного звука звуковых эффектов или имитации звука воображаемых в настоящее время вещей. [60]
Искусство искусственного интеллекта — это визуальное произведение искусства , созданное с помощью программы искусственного интеллекта (ИИ). [61]
Художники начали создавать искусство искусственного интеллекта в середине-конце 20-го века, когда была основана эта дисциплина. На протяжении всей своей истории искусство искусственного интеллекта поднимало множество философских проблем, связанных с человеческим разумом , искусственными существами и тем, что можно считать искусством в сотрудничестве человека и ИИ. С 20-го века художники использовали ИИ для создания произведений искусства, некоторые из которых выставлялись в музеях и получали награды. [62]
Во время бума ИИ в начале 2020-х годов модели преобразования текста в изображение, такие как Midjourney , DALL-E и Stable Diffusion , стали широко доступны для публики, позволяя нехудожникам быстро создавать изображения с небольшими усилиями. [63] Комментарии об искусстве ИИ в 2020-х годах часто фокусировались на вопросах, связанных с авторским правом , обманом , клеветой и их влиянием на более традиционных художников, включая технологическую безработицу .Художнику доступно множество инструментов при работе с моделями диффузии. Они могут определять как положительные, так и отрицательные подсказки, но им также предоставляется выбор в использовании (или отказе от использования) VAE, LorA, гиперсетей, ipadapter и встраиваний/текстовых инверсий. Иногда для настройки доступны переменные, включая CFG, seed, steps, sampler, scheduler, denoise, upscaler и encoder. Дополнительное влияние может быть оказано во время предварительного вывода с помощью манипуляции шумом, в то время как традиционные методы постобработки часто используются после вывода. Художники также могут обучать свои собственные модели.
Кроме того, были разработаны процедурная «основанная на правилах» генерация изображений с использованием математических шаблонов, алгоритмы, имитирующие мазки кистью и другие эффекты живописи, а также алгоритмы глубокого обучения, такие как генеративные состязательные сети (GAN) и трансформаторы. Несколько компаний выпустили приложения и веб-сайты, которые позволяют полностью отказаться от всех упомянутых вариантов, сосредоточившись исключительно на позитивной подсказке. Существуют также программы, которые преобразуют фотографии в изображения, похожие на искусство, в стиле известных наборов картин. [64] [65]
Существует множество вариантов, от простых мобильных приложений, ориентированных на потребителя, до блокнотов Jupyter и веб-интерфейсов, для эффективной работы которых требуются мощные графические процессоры. [66] Дополнительные функции включают «текстовую инверсию», которая относится к использованию предоставленных пользователем концепций (например, объекта или стиля), изученных из нескольких изображений. Затем из связанных слов (текста, который был назначен изученной, часто абстрактной, концепции) [67] [68] и расширений модели или тонкой настройки (например, DreamBooth) может быть сгенерировано новое искусство.Возможность создания музыки с помощью автономных, непрограммируемых средств давно уже востребована, еще со времен античности, и с развитием искусственного интеллекта возникли две особые области:
Синтез речи был идентифицирован как популярная ветвь синтетических медиа [72] и определяется как искусственное воспроизведение человеческой речи . Компьютерная система, используемая для этой цели, называется речевым компьютером или синтезатором речи и может быть реализована в программных или аппаратных продуктах. Система преобразования текста в речь ( TTS ) преобразует текст на обычном языке в речь; другие системы преобразуют символические языковые представления, такие как фонетические транскрипции, в речь. [73]
Синтезированная речь может быть создана путем объединения фрагментов записанной речи, которые хранятся в базе данных . Системы различаются по размеру хранимых речевых единиц; система, которая хранит фоны или дифоны, обеспечивает наибольший диапазон вывода, но может быть недостаточно четкой. Для определенных областей использования хранение целых слов или предложений позволяет получить высококачественный вывод. В качестве альтернативы синтезатор может включать модель речевого тракта и другие характеристики человеческого голоса для создания полностью «синтетического» голосового вывода. [74]
Виртуальные помощники, такие как Siri и Alexa, способны преобразовывать текст в аудио и синтезировать речь. [75]
В 2016 году Google DeepMind представила WaveNet, глубокую генеративную модель необработанных звуковых волн, которая может научиться понимать, какие формы волн лучше всего напоминают человеческую речь, а также музыкальные инструменты. [76] Некоторые проекты предлагают генерацию синтетической речи в реальном времени с использованием глубокого обучения, например, 15.ai , веб-приложение для преобразования текста в речь, разработанное научным сотрудником Массачусетского технологического института. [77] [78] [79] [80]
Генерация естественного языка ( NLG , иногда синоним синтеза текста ) — это программный процесс, который преобразует структурированные данные в естественный язык. Его можно использовать для создания длинного контента для организаций, чтобы автоматизировать пользовательские отчеты, а также для создания пользовательского контента для веб-приложений или мобильных приложений. Его также можно использовать для создания коротких текстовых аннотаций в интерактивных разговорах ( чат-бот ), которые могут даже быть зачитаны системой преобразования текста в речь . Интерес к генерации естественного языка возрос в 2019 году после того, как OpenAI представила GPT2, систему ИИ, которая генерирует текст, соответствующий ее вводу по теме и тону. [81] GPT2 — это трансформатор, модель глубокого машинного обучения, представленная в 2017 году, используемая в основном в области обработки естественного языка (NLP). [82]
Медиа, созданные с помощью ИИ, могут использоваться для разработки гибридной графической системы, которая может использоваться в видеоиграх, фильмах и виртуальной реальности [83] , а также в текстовых играх, таких как AI Dungeon 2, которая использует либо GPT-2, либо GPT-3, чтобы обеспечить почти бесконечные возможности, которые в противном случае невозможно создать с помощью традиционных методов разработки игр. [84] [85] [86] Компания-разработчик компьютерного оборудования Nvidia также работала над разработанными демонстрациями видеоигр, созданными с помощью ИИ, такими как модель, которая может генерировать интерактивную игру на основе неинтерактивных видеороликов. [87]
Помимо организационной атаки, политические организации и лидеры больше страдают от подобных глубоких фейковых видео. В 2022 году был выпущен глубокий фейк, в котором президент Украины призывал сдаться в борьбе с Россией. На видео видно, как президент Украины говорит своим солдатам сложить оружие и сдаться. [88]
Глубокие фейки использовались для искажения известных политиков в видеороликах. В отдельных видеороликах лицо президента Аргентины Маурисио Макри было заменено лицом Адольфа Гитлера , а лицо Ангелы Меркель было заменено лицом Дональда Трампа . [89] [90]
В июне 2019 года было выпущено загружаемое приложение для Windows и Linux под названием DeepNude, которое использовало нейронные сети, в частности генеративные состязательные сети , для удаления одежды с изображений женщин. Приложение имело как платную, так и бесплатную версию, платная версия стоила 50 долларов. [91] [92] 27 июня создатели удалили приложение и вернули деньги потребителям. [93]
Конгресс США провел заседание сената, на котором обсуждалось широко распространенное влияние синтетических медиа, включая дипфейки, и было заявлено, что они «могут быть использованы для подрыва национальной безопасности, подрыва общественного доверия к нашей демократии и других гнусных целей». [94]
В 2019 году технология клонирования голоса была использована для успешного выдачи себя за голос генерального директора и требования мошеннического перевода 220 000 евро. [95] Этот случай вызвал обеспокоенность по поводу отсутствия методов шифрования на телефонах, а также безоговорочного доверия, которое часто оказывается голосу и средствам массовой информации в целом. [96]
Начиная с ноября 2019 года, несколько социальных сетей начали запрещать синтетические медиа, используемые в целях манипуляции в преддверии президентских выборов в США 2020 года . [97]
В 2024 году Илон Маск поделился пародией, не уточнив, что это сатира, но высказался против ИИ в политике. [98] Распространенное видео, где Камала Харрис появилась и сказала то, чего она никогда не говорила в реальной жизни. Несколько строк из транскрипции видео: «Я, Камала Харрис, ваш кандидат от Демократической партии на пост президента, потому что Джо Байден наконец-то продемонстрировал свою старость на дебатах». Затем голос говорит: Камла — «наемный сотрудник по принципу разнообразия», и он говорит, что теперь она имеет представление о том, что «главное в управлении страной». [99]
Это лишь некоторые примеры из тысяч таких глубоких фейков, используемых для атаки на знаменитостей, политические партии или организации, бизнес или транснациональные корпорации. Потенциал нанесения вреда их имиджу непреодолим. Это подорвет доверие к государственным и частным учреждениям, и будет сложнее поддерживать доверие. [100] Citron (2019) перечисляет государственных должностных лиц, которые пострадают больше всего: «выборные должностные лица, назначенные должностные лица, судьи, присяжные, законодатели, сотрудники и агентства». Даже частные учреждения также находятся на грани столкновения с этим кризисом, если они окажут влияние на общество в больших масштабах. [101] Citron (2019) далее утверждает, что «религиозные учреждения являются очевидной целью, как и политически ангажированные организации, начиная от Planned Parenthood и заканчивая NRA. [102] » Автор ожидает, что глубокие фейки углубят и расширят социальную иерархию или классовые различия, которые изначально их породили. [103] Основная проблема, связанная с дипфейками, заключается в том, что это не только вопрос доказательства чего-то неверного, но и проблема доказательства чего-то оригинального. [104] Недавнее исследование показывает, что двое из трех специалистов по кибербезопасности заметили, что дипфейки использовались как часть дезинформации против бизнеса в 2022 году, что, по-видимому, на 13% больше, чем в предыдущем году. [105]
Методы синтетических медиа включают в себя создание, обработку и изменение данных для имитации творческих процессов в гораздо более быстром и точном масштабе. [106] В результате потенциальные области применения столь же широки, как и само человеческое творчество, начиная от революции в индустрии развлечений до ускорения исследований и производства в академических кругах. Первоначальное применение заключалось в синхронизации движений губ для повышения вовлеченности обычного дубляжа [107] , который быстро растет с ростом OTT . [108] Новостные организации исследовали способы использования видеосинтеза и других технологий синтетических медиа, чтобы стать более эффективными и интересными. [109] [110] Потенциальные будущие опасности включают использование комбинации различных подполей для создания фейковых новостей , [111] рои ботов на естественном языке, генерирующие тенденции и мемы , создание ложных доказательств и потенциальную зависимость от персонализированного контента и отступление в созданные ИИ фантастические миры в виртуальной реальности. [13]
Продвинутые боты , генерирующие текст, потенциально могут быть использованы для манипулирования платформами социальных сетей с помощью таких тактик, как астротурфинг . [112] [113]
Генераторы естественного языка, основанные на глубоком обучении с подкреплением, потенциально могут быть использованы для создания продвинутых чат-ботов, которые могли бы имитировать естественную человеческую речь. [114]
Одним из вариантов использования генерации естественного языка является создание или помощь в написании романов и рассказов [115], в то время как другие потенциальные разработки связаны с стилистическими редакторами, подражающими профессиональным писателям. [116]
Инструменты синтеза изображений могут быть способны оптимизировать или даже полностью автоматизировать создание определенных аспектов визуальных иллюстраций, таких как анимированные мультфильмы , комиксы и политические карикатуры . [117] Поскольку процесс автоматизации устраняет необходимость в командах дизайнеров, художников и других лиц, участвующих в создании развлечений, затраты могут упасть практически до нуля и позволить создавать «мультимедийные франшизы для спальни», где отдельные люди могут создавать результаты, неотличимые от самых высокобюджетных произведений, за немногим больше стоимости работы своего компьютера. [118] Инструменты создания персонажей и сцен больше не будут основываться на готовых активах, тематических ограничениях или личных навыках, а вместо этого будут основываться на настройке определенных параметров и предоставлении достаточного количества входных данных. [119]
Комбинация синтеза речи и дипфейков использовалась для автоматического переозвучивания речи актера на несколько языков без необходимости повторных съемок или языковых курсов. [118] Ее также могут использовать компании для адаптации сотрудников, электронного обучения, пояснительных и обучающих видеороликов. [120]
Также существуют опасения по поводу увеличения числа кибератак из-за того, что фишинг , кэтфишинг и взлом социальных сетей стали более автоматизированными благодаря новым технологическим методам. [96]
Боты, генерирующие естественный язык, в сочетании с сетями синтеза изображений теоретически могут использоваться для засорения результатов поиска, заполняя поисковые системы триллионами в противном случае бесполезных, но кажущихся законными блогов, веб-сайтов и маркетингового спама. [121]
Были предположения о том, что deepfakes используются для создания цифровых актеров для будущих фильмов. Цифровые сконструированные/измененные люди уже использовались в фильмах раньше, и deepfakes могут внести новые разработки в ближайшем будущем. [122] Любительская технология deepfake уже использовалась для вставки лиц в существующие фильмы, например, вставка молодого лица Харрисона Форда на лицо Хана Соло в фильме «Хан Соло: Звездные войны: Истории» [123] , а методы, похожие на те, которые используются в deepfakes, использовались для игры принцессы Леи в фильме «Изгой-один» [ 124]
GAN можно использовать для создания фотографий воображаемых моделей, без необходимости нанимать модель, фотографа, визажиста или платить за студию и транспорт. [125] GAN можно использовать для создания рекламных кампаний в сфере моды, включающих более разнообразные группы моделей, что может повысить намерение купить среди людей, похожих на моделей [126] или членов их семей. [127] GAN также можно использовать для создания портретов, пейзажей и обложек альбомов. Способность GAN генерировать фотореалистичные человеческие тела представляет собой проблему для таких отраслей, как модельный бизнес , которые могут подвергаться повышенному риску автоматизации. [128] [129]
В 2019 году Dadabots представили поток дэт-метала, сгенерированный искусственным интеллектом, который продолжается без перерывов. [130]
Музыкальные исполнители и их соответствующие бренды также могут быть потенциально созданы с нуля, включая музыку, видео, интервью и рекламные материалы, созданные ИИ. И наоборот, существующая музыка может быть полностью изменена по желанию, например, смена текстов, певцов, инструментовки и композиции. [131] В 2018 году, используя процесс WaveNet для переноса тембра музыки, исследователи смогли переместить целые жанры из одного в другой. [132] Благодаря использованию искусственного интеллекта старые группы и исполнители могут быть «возрождены» для выпуска нового материала без паузы, что может даже включать «живые» концерты и рекламные изображения.
Манипулирование фотографиями с помощью нейронных сетей может способствовать поведению тоталитарных и абсолютистских режимов. [133] Достаточно параноидальное тоталитарное правительство или сообщество может заняться полным уничтожением истории, используя всевозможные синтетические технологии, фабрикуя историю и личности, а также любые доказательства их существования в любое время. Даже в других рациональных и демократических обществах определенные социальные и политические группы могут использовать синтетику для создания культурных, политических и научных коконов, которые значительно снижают или даже полностью уничтожают способность общественности соглашаться с основными объективными фактами. И наоборот, существование синтетических медиа будет использоваться для дискредитации фактических источников новостей и научных фактов как «потенциально сфабрикованных». [55]
Механические диковинки были в моде в Китае в XVIII и XIX веках, когда императоры династии Цин увлеклись автоматическими часами и карманными часами, и «торговцы Синг-Сонг», как называли европейских часовщиков, были более чем рады поощрять этот интерес.