WaveNet — это глубокая нейронная сеть для генерации необработанного звука. Он был создан исследователями лондонской компании DeepMind , специализирующейся на искусственном интеллекте . Метод, описанный в статье в сентябре 2016 года [1] , способен генерировать относительно реалистично звучащие человеческие голоса путем прямого моделирования сигналов с использованием метода нейронной сети , обученного на записях реальной речи. Сообщается, что тесты с американским английским и китайским языком показали, что система превосходит лучшие существующие системы преобразования текста в речь (TTS) Google, хотя по состоянию на 2016 год ее синтез речи все еще был менее убедительным, чем реальная человеческая речь. [2] Способность WaveNet генерировать необработанные сигналы означает, что он может моделировать любой тип звука, включая музыку. [3]
Генерация речи из текста становится все более распространенной задачей благодаря популярности такого программного обеспечения, как Siri от Apple, Cortana от Microsoft , Amazon Alexa и Google Assistant . [4]
Большинство таких систем используют вариант метода, который включает в себя соединение звуковых фрагментов для формирования узнаваемых звуков и слов. [5] Самый распространенный из них называется конкатенативным TTS. [6] Он состоит из большой библиотеки фрагментов речи, записанных от одного говорящего, которые затем объединяются для получения полных слов и звуков. Результат звучит неестественно, со странной частотой и тоном. [7] Использование записанной библиотеки также затрудняет модификацию или изменение голоса. [8]
Другой метод, известный как параметрический TTS, [9] использует математические модели для воссоздания звуков, которые затем собираются в слова и предложения. Информация, необходимая для генерации звуков, хранится в параметрах модели. Характеристики выходной речи контролируются через входные данные модели, тогда как речь обычно создается с помощью синтезатора голоса, известного как вокодер . Это также может привести к неестественному звучанию звука.
WaveNet — это тип нейронной сети прямого распространения, известный как глубокая сверточная нейронная сеть (CNN). В WaveNet CNN принимает необработанный сигнал в качестве входных данных и синтезирует выходные данные по одной выборке за раз. Это делается путем выборки из мягкомаксного (т.е. категориального ) распределения значения сигнала, которое кодируется с использованием преобразования компандирования по закону μ и квантуется до 256 возможных значений. [11]
Согласно исходному исследовательскому документу DeepMind WaveNet: Генеративная модель для Raw Audio , опубликованному в сентябре 2016 года, [12] в сеть передавались реальные сигналы речи на английском и китайском языках. Когда они проходят через сеть, он изучает набор правил, описывающих, как форма аудиосигнала меняется с течением времени. Обученную сеть затем можно использовать для создания новых сигналов, похожих на речь, со скоростью 16 000 выборок в секунду. Эти сигналы включают в себя реалистичное дыхание и причмокивание губами, но не соответствуют никакому языку. [13]
WaveNet способен точно моделировать различные голоса, при этом акцент и тон входного сигнала коррелируют с выходным. Например, если его обучать немецкому языку, он будет произносить немецкую речь. [14] Эта возможность также означает, что если в WaveNet подаются другие входы, например музыка, то ее выход будет музыкальным. На момент своего выпуска DeepMind показал, что WaveNet может создавать сигналы, по звучанию напоминающие классическую музыку . [15]
Согласно статье Disentangled Sequential Autoencoder , опубликованной в июне 2018 года, [16] DeepMind успешно использовал WaveNet для «обмена аудио и голосовым контентом»: сеть может заменять голос в аудиозаписи на другой, уже существующий голос, сохраняя при этом текст и другие особенности оригинальной записи. «Мы также экспериментируем с данными аудиопоследовательностей. Наше распутанное представление позволяет нам преобразовывать личности говорящих друг в друга, в зависимости от содержания речи». (стр. 5) «Что касается звука, это позволяет нам преобразовать динамик-мужчину в динамик-женщину и наоборот [...] ». (стр. 1) Согласно документу, необходимо передать в WaveNet двузначное минимальное количество часов (около 50 часов) уже существующих речевых записей как исходного, так и целевого голоса, чтобы программа могла изучить их индивидуальные функции, прежде чем он сможет выполнить преобразование одного голоса в другой с удовлетворительным качеством. Авторы подчеркивают, что « преимущество модели состоит в том, что она отделяет динамические характеристики от статических [...] ». (стр. 8), т.е. WaveNet способен различать произносимый текст и способы его подачи (модуляцию, скорость, высоту тона, настроение и т. д.) для сохранения при преобразовании из одного голоса в другой с одной стороны, и основные особенности исходного и целевого голосов, которые необходимо поменять местами.
В последующем документе от января 2019 года «Обучение речевому представлению без учителя с использованием автокодировщиков WaveNet» [17] подробно описан метод успешного улучшения правильного автоматического распознавания и различения динамических и статических функций для «обмена контентом», в частности, включая замену голосов на существующих аудиозаписях, в чтобы сделать его более надежным. В другом последующем документе, Sample Efficient Adaptive Text-to-Speech , [18] от сентября 2018 г. (последняя редакция — январь 2019 г.), говорится, что DeepMind успешно сократил минимальное количество реальных записей, необходимых для выборки существующего голоса через WaveNet. до «всего нескольких минут аудиоданных» при сохранении высококачественных результатов.
Его способность клонировать голоса вызвала этическую обеспокоенность по поводу способности WaveNet имитировать голоса живых и мертвых людей. Согласно статье BBC от 2016 года , компании, работающие над аналогичными технологиями клонирования голоса (такими как Adobe Voco ), намерены вставлять водяные знаки, неслышимые для человека, чтобы предотвратить подделку, сохраняя при этом, что клонирование голоса удовлетворяет, например, потребности индустрии развлечений. быть гораздо менее сложными и использовать другие методы, чем требуется для обмана методов судебно-медицинской экспертизы и электронных идентификационных устройств, чтобы естественные голоса и голоса, клонированные для целей индустрии развлечений, по-прежнему можно было легко отличить с помощью технологического анализа. [19]
На момент выпуска DeepMind заявила, что WaveNet требует слишком большой вычислительной мощности для использования в реальных приложениях. [20] По состоянию на октябрь 2017 года Google объявила об улучшении производительности в 1000 раз и улучшении качества передачи голоса. Затем WaveNet использовался для генерации голосов Google Assistant для американского английского и японского языков на всех платформах Google. [21] В ноябре 2017 года исследователи DeepMind опубликовали исследовательскую работу, в которой подробно описывается предлагаемый метод «генерации высококачественных образцов речи более чем в 20 раз быстрее, чем в реальном времени», под названием «Дистиллация плотности вероятности». [22] На ежегодной конференции разработчиков ввода-вывода в мае 2018 года было объявлено, что новые голоса Google Assistant стали доступны и стали возможными благодаря WaveNet; WaveNet значительно сократила количество аудиозаписей, необходимых для создания модели голоса, путем моделирования необработанного звука образцов голосового актера. [23]