Аудио дипфейк (также известный как клонирование голоса или дипфейк-аудио ) — это продукт искусственного интеллекта [1], используемый для создания убедительных речевых предложений, которые звучат так, как будто конкретные люди говорят то, чего они не говорили. [2] [3] [4] Эта технология изначально была разработана для различных приложений, чтобы улучшить жизнь человека. Например, ее можно использовать для создания аудиокниг, [5] а также для помощи людям, потерявшим голос (из-за заболеваний горла или других медицинских проблем), вернуть его. [6] [7] С коммерческой точки зрения она открыла дверь для нескольких возможностей. Эта технология также может создавать более персонализированных цифровых помощников и естественно звучащие текст-в-речь, а также услуги по переводу речи .
Аудиоподделки, называемые аудиоманипуляциями с начала 2020-х годов, становятся широко доступными с помощью простых мобильных устройств или персональных компьютеров . [8] Эти инструменты также использовались для распространения дезинформации с помощью аудио. [3] Это привело к возникновению опасений по поводу кибербезопасности среди мировой общественности относительно побочных эффектов использования аудиоподделок, включая их возможную роль в распространении дезинформации и дезинформации на аудиоплатформах социальных сетей. [9] Люди могут использовать их в качестве логического метода голосовой подмены доступа , [10] где они могут использоваться для манипулирования общественным мнением в целях пропаганды, клеветы или терроризма . Огромные объемы голосовых записей ежедневно передаются через Интернет, и обнаружение подделки является сложной задачей. [11] Злоумышленники, использующие аудиоподделки, нацелились на отдельных лиц и организации, включая политиков и правительства. [12]
В 2019 году мошенники, использующие искусственный интеллект, выдавали себя за генерального директора немецкой энергетической компании и поручили генеральному директору ее дочерней компании в Великобритании перевести 220 000 евро . [13] В начале 2020 года тот же прием использовался для выдачи себя за директора компании в рамках сложной схемы, которая убедила менеджера филиала перевести 35 миллионов долларов. [14]
Согласно глобальному опросу McAfee 2023 года , один человек из десяти сообщил, что стал жертвой мошенничества с использованием ИИ для клонирования голоса; 77% из этих жертв сообщили, что потеряли деньги из-за мошенничества. [15] [16] Аудиоподделки также могут представлять опасность для систем идентификации голоса , которые в настоящее время используются финансовыми учреждениями. [17] [18] В марте 2023 года Федеральная торговая комиссия США выпустила предупреждение для потребителей об использовании ИИ для подделки голоса члена семьи, находящегося в беде и просящего денег. [19]
В октябре 2023 года во время начала конференции британской Лейбористской партии в Ливерпуле была выпущена аудиоподделка лидера лейбористов Кира Стармера , которая ложно изображала его оскорбляющим своих сотрудников и критикующим Ливерпуль. [20] В том же месяце была выпущена аудиоподделка словацкого политика Михала Шимечки , которая ложно утверждала, что запечатлела его обсуждение способов фальсификации предстоящих выборов. [21]
Во время кампании по выборам президента от Демократической партии в Нью-Гемпшире в 2024 году более 20 000 избирателей получили автоматические звонки от президента Джо Байдена, выдававшего себя за ИИ , с призывом не голосовать. [22] [23] Генеральный прокурор Нью-Гемпшира заявил, что это нарушает законы штата о выборах и предполагает причастность Life Corporation и Lingo Telecom. [24] В феврале 2024 года Федеральная комиссия по связи США запретила использование ИИ для подделки голосов в автоматических звонках. [25] [26] В том же месяце политический консультант Стив Крамер признался, что заказал звонки за 500 долларов. Он сказал, что хотел привлечь внимание к необходимости правил, регулирующих использование ИИ в политических кампаниях. [27] В мае Федеральная комиссия по связи заявила, что Крамер нарушил федеральный закон, подделав номер местного политического деятеля, и предложила штраф в размере 6 миллионов долларов. Четыре округа Нью-Гэмпшира предъявили Крамеру обвинения в совершении тяжких преступлений, связанных с подавлением избирателей и выдачей себя за кандидата, что является правонарушением. [28]
Аудиоподделки можно разделить на три категории:
Дипфейки на основе воспроизведения — это вредоносные работы, целью которых является воспроизведение записи голоса собеседника. [29]
Существует два типа: обнаружение в дальнем поле и обнаружение методом вырезания и вставки . При обнаружении в дальнем поле запись микрофона жертвы воспроизводится в качестве тестового сегмента на телефоне с функцией громкой связи. [30] С другой стороны, метод вырезания и вставки подразумевает подделку запрошенного предложения из текстозависимой системы. [11] Текстозависимая верификация говорящего может использоваться для защиты от атак на основе воспроизведения. [29] [31] Текущая методика, которая обнаруживает атаки на воспроизведение из конца в конец, заключается в использовании глубоких сверточных нейронных сетей . [32]
Категория, основанная на синтезе речи, относится к искусственному воспроизведению человеческой речи с использованием программного обеспечения или аппаратных системных программ. Синтез речи включает в себя Text-To-Speech, который направлен на преобразование текста в приемлемую и естественную речь в реальном времени, [33] заставляя речь звучать в соответствии с вводимым текстом, используя правила лингвистического описания текста.
Классическая система такого типа состоит из трех модулей: модель анализа текста, акустическая модель и вокодер . Генерация обычно должна следовать двум основным этапам. Необходимо собрать чистый и хорошо структурированный сырой звук с транскрибированным текстом исходного речевого аудиопредложения. Во-вторых, модель Text-To-Speech должна быть обучена с использованием этих данных для построения синтетической модели генерации звука.
В частности, транскрибированный текст с голосом целевого говорящего является входными данными для модели генерации. Модуль анализа текста обрабатывает входной текст и преобразует его в лингвистические признаки. Затем акустический модуль извлекает параметры целевого говорящего из аудиоданных на основе лингвистических признаков, сгенерированных модулем анализа текста. [8] Наконец, вокодер учится создавать голосовые формы волн на основе параметров акустических признаков. Генерируется окончательный аудиофайл, включающий синтетический имитационный звук в формате формы волны, создавая речевой звук в голосе многих говорящих, даже тех, кто не проходит обучение.
Первый прорыв в этом отношении был представлен WaveNet , [34] нейронной сетью для генерации сырых звуковых волн, способных эмулировать характеристики многих различных ораторов. Эта сеть была захвачена с годами другими системами [35] [36] [37] [38] [39] [40] , которые синтезируют высокореалистичные искусственные голоса в пределах досягаемости каждого. [41]
Text-To-Speech сильно зависит от качества голосового корпуса, используемого для реализации системы, а создание целого голосового корпуса обходится дорого. [ необходима цитата ] Другим недостатком является то, что системы синтеза речи не распознают точки или специальные символы. Кроме того, проблемы неоднозначности сохраняются, поскольку два слова, написанные одинаково, могут иметь разное значение. [ необходима цитата ]
Аудиоподделка, основанная на имитации, — это способ преобразования оригинальной речи одного говорящего — оригинала — таким образом, чтобы она звучала как речь другого говорящего — целевого. [42] Алгоритм, основанный на имитации, принимает речевой сигнал в качестве входных данных и изменяет его, изменяя его стиль, интонацию или просодию, пытаясь имитировать целевой голос, не изменяя лингвистическую информацию. [43] Этот метод также известен как преобразование голоса.
Этот метод часто путают с предыдущим методом Synthetic-based, поскольку нет четкого разделения между двумя подходами относительно процесса генерации. Действительно, оба метода изменяют акустические спектральные и стилевые характеристики речевого аудиосигнала, но метод Imitation-based обычно сохраняет входной и выходной текст неизменными. Это достигается путем изменения того, как это предложение произносится, чтобы соответствовать характеристикам целевого говорящего. [44]
Голоса можно имитировать несколькими способами, например, используя людей с похожими голосами, которые могут имитировать оригинального оратора. В последние годы наиболее популярный подход предполагает использование определенных нейронных сетей, называемых генеративно-состязательными сетями (GAN), из-за их гибкости, а также высококачественных результатов. [29] [42]
Затем исходный аудиосигнал преобразуется в речь в целевом аудио с использованием метода генерации имитации, который генерирует новую речь, отображаемую в поддельной речи.
Задача обнаружения аудиоподделок определяет, является ли данная аудиозапись речи реальной или поддельной.
В последнее время эта тема стала актуальной в сообществе криминалистов , пытающихся угнаться за быстрым развитием технологий подделки документов.
В целом методы обнаружения deepfake можно разделить на две категории в зависимости от аспекта, который они используют для выполнения задачи обнаружения. Первый фокусируется на низкоуровневых аспектах, ища артефакты, введенные генераторами на уровне образца. Второй, напротив, фокусируется на высокоуровневых признаках, представляющих более сложные аспекты, такие как семантическое содержание аудиозаписи речи.
Многие модели машинного обучения и глубокого обучения были разработаны с использованием различных стратегий для обнаружения поддельного аудио. В большинстве случаев эти алгоритмы следуют трехэтапной процедуре:
На протяжении многих лет многие исследователи показали, что подходы машинного обучения точнее методов глубокого обучения, независимо от используемых признаков. [8] Однако масштабируемость методов машинного обучения не подтверждается из-за чрезмерного обучения и ручного извлечения признаков, особенно для многих аудиофайлов. Вместо этого, когда используются алгоритмы глубокого обучения, требуются определенные преобразования аудиофайлов, чтобы гарантировать, что алгоритмы могут с ними справиться.
Существует несколько реализаций различных методов обнаружения с открытым исходным кодом, [46] [47] [48] и обычно многие исследовательские группы публикуют их на публичном хостинге, таком как GitHub .
Аудио дипфейк — это совсем новая область исследований. По этой причине существует множество возможностей для развития и улучшения, а также возможных угроз, которые принятие этой технологии может принести в нашу повседневную жизнь. Наиболее важные из них перечислены ниже.
Что касается генерации, то наиболее значимым аспектом является достоверность жертвы, т. е. качество восприятия аудиоподделки.
Несколько метрик определяют уровень точности генерации аудио дипфейков, и наиболее широко используемым является MOS (Mean Opinion Score) , который является арифметическим средним пользовательских оценок. Обычно тест, который должен быть оценен, включает перцептивную оценку предложений, сделанных различными алгоритмами генерации речи. Этот индекс показал, что аудио, сгенерированное алгоритмами, обученными на одном дикторе, имеет более высокий MOS. [44] [34] [49] [50] [39]
Частота дискретизации также играет важную роль в обнаружении и создании аудиоподделок. В настоящее время доступные наборы данных имеют частоту дискретизации около 16 кГц, что значительно снижает качество речи. Увеличение частоты дискретизации может привести к созданию более высокого качества. [37]
Если сосредоточиться на части обнаружения, то одним из основных недостатков последних моделей является принятый язык.
Большинство исследований сосредоточены на обнаружении аудиоподделок на английском языке, не уделяя особого внимания наиболее распространенным языкам, таким как китайский и испанский [51] , а также хинди и арабскому языку.
Также важно учитывать больше факторов, связанных с различными акцентами, которые представляют собой способ произношения, строго связанный с конкретным человеком, местоположением или нацией. В других областях аудио, таких как распознавание говорящего , акцент, как было обнаружено, значительно влияет на производительность, [52] поэтому ожидается, что эта особенность может повлиять на производительность моделей даже в этой задаче обнаружения.
Кроме того, чрезмерная предварительная обработка аудиоданных привела к очень высоким и часто неустойчивым вычислительным затратам. По этой причине многие исследователи предложили следовать подходу Self-Supervised Learning [53] , имея дело с немаркированными данными для эффективной работы в задачах обнаружения и улучшения масштабируемости модели, и, в то же время, снижения вычислительных затрат.
Обучение и тестирование моделей с реальными аудиоданными все еще остается недостаточно развитой областью. Действительно, использование аудио с реальными фоновыми шумами может повысить надежность моделей обнаружения поддельного аудио.
Кроме того, большая часть усилий сосредоточена на обнаружении синтетических аудиоподделок, и лишь немногие исследования анализируют имитации из-за внутренней сложности процесса их генерации. [11]
За прошедшие годы появилось больше методов, направленных на защиту от вредоносных действий, которые может совершить аудиоподделка, например, кража личных данных и манипуляция речами губернаторов страны.
Чтобы предотвратить дипфейки, некоторые предлагают использовать блокчейн и другие технологии распределенного реестра (DLT) для определения происхождения данных и отслеживания информации. [8] [54] [55] [56]
Извлечение и сравнение аффективных сигналов, соответствующих воспринимаемым эмоциям из цифрового контента, также было предложено для борьбы с дипфейками. [57] [58] [59]
Другой критический аспект касается смягчения этой проблемы. Было высказано предположение, что было бы лучше оставить некоторые фирменные инструменты обнаружения только для тех, кому они нужны, например, для проверки фактов журналистами. [29] Таким образом, те, кто создает модели генерации, возможно, в неблаговидных целях, не будут точно знать, какие функции облегчают обнаружение deepfake, [29] отпугивая возможных злоумышленников.
Вместо этого, чтобы улучшить обнаружение, исследователи пытаются обобщить процесс, [60] ищут методы предварительной обработки, которые улучшают производительность, и тестируют различные функции потерь, используемые для обучения. [10] [61]
Многочисленные исследовательские группы по всему миру работают над распознаванием медиа-манипуляций; то есть аудио-дипфейков, а также дипфейков изображений и видео. Эти проекты обычно поддерживаются государственным или частным финансированием и находятся в тесном контакте с университетами и исследовательскими институтами.
Для этой цели Агентство перспективных исследовательских проектов Министерства обороны США (DARPA) запускает программу семантической криминалистики (SemaFor). [62] [63] Используя некоторые исследования программы медиакриминалистики (MediFor) [64] [65] , также разработанной DARPA, эти алгоритмы семантического обнаружения должны будут определить, был ли медиа-объект сгенерирован или изменен, чтобы автоматизировать анализ происхождения медиа и раскрыть намерение, стоящее за фальсификацией различного контента. [66] [62]
Другая исследовательская программа — это программа «Сохранение доверия к СМИ в эпоху искусственного интеллекта» (PREMIER) [67] , финансируемая Министерством образования, университетов и исследований Италии (MIUR) и реализуемая пятью итальянскими университетами. PREMIER будет использовать новые гибридные подходы для получения криминалистических детекторов, которые будут более интерпретируемыми и безопасными. [68]
DEEP-VOICE [69] — общедоступный набор данных, предназначенный для исследовательских целей по разработке систем для обнаружения того, когда речь была сгенерирована с помощью нейронных сетей с помощью процесса, называемого Retrieval-based Voice Conversion (RVC). Предварительные исследования показали многочисленные статистически значимые различия между признаками, обнаруженными в человеческой речи, и признаками, которые были сгенерированы алгоритмами искусственного интеллекта.
За последние несколько лет было организовано множество конкурсов, призванных еще больше продвинуть эту область исследований аудиодипфейков.
Самый известный в мире вызов — ASVspoof, [45] вызов Automatic Speaker Verification Spoofing and Countermeasures Challenge. Этот вызов — это двухгодичная инициатива сообщества, направленная на продвижение рассмотрения спуфинга и разработку контрмер. [70]
Еще одной недавней задачей является ADD [71] — обнаружение аудиоподделок — которое рассматривает поддельные ситуации в более реальных жизненных сценариях. [72]
Также дважды в год проводится конкурс Voice Conversion Challenge [73] , созданный с целью сравнения различных систем и подходов к преобразованию голоса с использованием одних и тех же голосовых данных.
{{cite book}}
: CS1 maint: дата и год ( ссылка )