stringtranslate.com

ВейвНет

WaveNet — это глубокая нейронная сеть для генерации необработанного звука. Он был создан исследователями лондонской компании DeepMind , специализирующейся на искусственном интеллекте . Метод, описанный в статье в сентябре 2016 года [1] , способен генерировать относительно реалистично звучащие человеческие голоса путем прямого моделирования сигналов с использованием метода нейронной сети , обученного на записях реальной речи. Сообщается, что тесты с американским английским и китайским языком показали, что система превосходит лучшие существующие системы преобразования текста в речь (TTS) Google, хотя по состоянию на 2016 год ее синтез речи все еще был менее убедительным, чем реальная человеческая речь. [2] Способность WaveNet генерировать необработанные сигналы означает, что он может моделировать любой тип звука, включая музыку. [3]

История

Генерация речи из текста становится все более распространенной задачей благодаря популярности такого программного обеспечения, как Siri от Apple, Cortana от Microsoft , Amazon Alexa и Google Assistant . [4]

Большинство таких систем используют вариант метода, который включает в себя соединение звуковых фрагментов для формирования узнаваемых звуков и слов. [5] Самый распространенный из них называется конкатенативным TTS. [6] Он состоит из большой библиотеки фрагментов речи, записанных от одного говорящего, которые затем объединяются для получения полных слов и звуков. Результат звучит неестественно, со странной частотой и тоном. [7] Использование записанной библиотеки также затрудняет модификацию или изменение голоса. [8]

Другой метод, известный как параметрический TTS, [9] использует математические модели для воссоздания звуков, которые затем собираются в слова и предложения. Информация, необходимая для генерации звуков, хранится в параметрах модели. Характеристики выходной речи контролируются через входные данные модели, тогда как речь обычно создается с помощью синтезатора голоса, известного как вокодер . Это также может привести к неестественному звучанию звука.

Проектирование и текущие исследования

Фон

Стек расширенных случайных сверточных слоев [10]

WaveNet — это тип нейронной сети прямого распространения, известный как глубокая сверточная нейронная сеть (CNN). В WaveNet CNN принимает необработанный сигнал в качестве входных данных и синтезирует выходные данные по одной выборке за раз. Это делается путем выборки из мягкомаксного (т.е. категориального ) распределения значения сигнала, которое кодируется с использованием преобразования компандирования по закону μ и квантуется до 256 возможных значений. [11]

Первоначальная концепция и результаты

Согласно исходному исследовательскому документу DeepMind WaveNet: Генеративная модель для Raw Audio , опубликованному в сентябре 2016 года, [12] в сеть передавались реальные сигналы речи на английском и китайском языках. Когда они проходят через сеть, он изучает набор правил, описывающих, как форма аудиосигнала меняется с течением времени. Обученную сеть затем можно использовать для создания новых сигналов, похожих на речь, со скоростью 16 000 выборок в секунду. Эти сигналы включают в себя реалистичное дыхание и причмокивание губами, но не соответствуют никакому языку. [13]

WaveNet способен точно моделировать различные голоса, при этом акцент и тон входного сигнала коррелируют с выходным. Например, если его обучать немецкому языку, он будет произносить немецкую речь. [14] Эта возможность также означает, что если в WaveNet подаются другие входы, например музыка, то ее выход будет музыкальным. На момент своего выпуска DeepMind показал, что WaveNet может создавать сигналы, по звучанию напоминающие классическую музыку . [15]

Обмен контентом (голосом)

Согласно статье Disentangled Sequential Autoencoder , опубликованной в июне 2018 года, [16] DeepMind успешно использовал WaveNet для «обмена аудио и голосовым контентом»: сеть может заменять голос в аудиозаписи на другой, уже существующий голос, сохраняя при этом текст и другие особенности оригинальной записи. «Мы также экспериментируем с данными аудиопоследовательностей. Наше распутанное представление позволяет нам преобразовывать личности говорящих друг в друга, в зависимости от содержания речи». (стр. 5) «Что касается звука, это позволяет нам преобразовать динамик-мужчину в динамик-женщину и наоборот [...] ». (стр. 1) Согласно документу, необходимо передать в WaveNet двузначное минимальное количество часов (около 50 часов) уже существующих речевых записей как исходного, так и целевого голоса, чтобы программа могла изучить их индивидуальные функции, прежде чем он сможет выполнить преобразование одного голоса в другой с удовлетворительным качеством. Авторы подчеркивают, что « преимущество модели состоит в том, что она отделяет динамические характеристики от статических [...] ». (стр. 8), т.е. WaveNet способен различать произносимый текст и способы его подачи (модуляцию, скорость, высоту тона, настроение и т. д.) для сохранения при преобразовании из одного голоса в другой с одной стороны, и основные особенности исходного и целевого голосов, которые необходимо поменять местами.

В последующем документе от января 2019 года «Обучение речевому представлению без учителя с использованием автокодировщиков WaveNet» [17] подробно описан метод успешного улучшения правильного автоматического распознавания и различения динамических и статических функций для «обмена контентом», в частности, включая замену голосов на существующих аудиозаписях, в чтобы сделать его более надежным. В другом последующем документе, Sample Efficient Adaptive Text-to-Speech , [18] от сентября 2018 г. (последняя редакция — январь 2019 г.), говорится, что DeepMind успешно сократил минимальное количество реальных записей, необходимых для выборки существующего голоса через WaveNet. до «всего нескольких минут аудиоданных» при сохранении высококачественных результатов.

Его способность клонировать голоса вызвала этическую обеспокоенность по поводу способности WaveNet имитировать голоса живых и мертвых людей. Согласно статье BBC от 2016 года , компании, работающие над аналогичными технологиями клонирования голоса (такими как Adobe Voco ), намерены вставлять водяные знаки, неслышимые для человека, чтобы предотвратить подделку, сохраняя при этом, что клонирование голоса удовлетворяет, например, потребности индустрии развлечений. быть гораздо менее сложными и использовать другие методы, чем требуется для обмана методов судебно-медицинской экспертизы и электронных идентификационных устройств, чтобы естественные голоса и голоса, клонированные для целей индустрии развлечений, по-прежнему можно было легко отличить с помощью технологического анализа. [19]

Приложения

На момент выпуска DeepMind заявила, что WaveNet требует слишком большой вычислительной мощности для использования в реальных приложениях. [20] По состоянию на октябрь 2017 года Google объявила об улучшении производительности в 1000 раз и улучшении качества передачи голоса. Затем WaveNet использовался для генерации голосов Google Assistant для американского английского и японского языков на всех платформах Google. [21] В ноябре 2017 года исследователи DeepMind опубликовали исследовательскую работу, в которой подробно описывается предлагаемый метод «генерации высококачественных образцов речи более чем в 20 раз быстрее, чем в реальном времени», под названием «Дистиллация плотности вероятности». [22] На ежегодной конференции разработчиков ввода-вывода в мае 2018 года было объявлено, что новые голоса Google Assistant стали доступны и стали возможными благодаря WaveNet; WaveNet значительно сократила количество аудиозаписей, необходимых для создания модели голоса, путем моделирования необработанного звука образцов голосового актера. [23]

Смотрите также

Рекомендации

  1. ^ ван ден Оорд, Аарон; Дилеман, Сандер; Дзен, Хейга; Симонян, Карен; Виньялс, Ориол; Грейвс, Алекс; Кальхбреннер, Нал; Старший, Эндрю; Кавукчуоглу, Корай (12 сентября 2016 г.). «WaveNet: генеративная модель для необработанного аудио». arXiv : 1609.03499 [cs.SD].
  2. ^ Кан, Джереми (9 сентября 2016 г.). «DeepMind от Google добился прорыва в области генерации речи». Bloomberg.com . Проверено 6 июля 2017 г.
  3. ^ Мейер, Дэвид (9 сентября 2016 г.). «Google DeepMind заявляет о огромном прогрессе в области синтезированной речи». Удача . Проверено 6 июля 2017 г.
  4. ^ Кан, Джереми (9 сентября 2016 г.). «DeepMind от Google добился прорыва в области генерации речи». Bloomberg.com . Проверено 6 июля 2017 г.
  5. ^ Кондлифф, Джейми (9 сентября 2016 г.). «Когда этот компьютер говорит, возможно, вам действительно захочется послушать». Обзор технологий Массачусетского технологического института . Проверено 6 июля 2017 г.
  6. ^ Хант, AJ; Блэк, AW (май 1996 г.). «Выбор единиц измерения в системе конкатенативного синтеза речи с использованием большой речевой базы данных». Материалы конференции Международной конференции IEEE по акустике, речи и обработке сигналов 1996 г. (PDF) . Том. 1. С. 373–376. CiteSeerX 10.1.1.218.1335 . дои : 10.1109/ICASSP.1996.541110. ISBN  978-0-7803-3192-1. S2CID  14621185.
  7. ^ Колдьюи, Девин (9 сентября 2016 г.). «Google WaveNet использует нейронные сети для создания устрашающе убедительной речи и музыки». ТехКранч . Проверено 6 июля 2017 г.
  8. ^ ван ден Оорд, Аарон; Дилеман, Сандер; Дзен, Хейга (08 сентября 2016 г.). «WaveNet: генеративная модель для необработанного аудио». ДипМайнд . Проверено 6 июля 2017 г.
  9. ^ Дзен, Хейга; Токуда, Кейичи; Блэк, Алан В. (2009). «Статистический параметрический синтез речи». Речевое общение . 51 (11): 1039–1064. CiteSeerX 10.1.1.154.9874 . doi :10.1016/j.specom.2009.04.004. S2CID  3232238. 
  10. ^ ван ден Оорд, Аарон (12 ноября 2017 г.). «Высококачественный синтез речи с помощью WaveNet». ДипМайнд . Проверено 5 июня 2022 г.
  11. ^ Оорд, Аарон ван ден; Дилеман, Сандер; Дзен, Хейга; Симонян, Карен; Виньялс, Ориол; Грейвс, Алекс; Кальхбреннер, Нал; Старший, Эндрю; Кавукчуоглу, Корай (12 сентября 2016 г.). «WaveNet: генеративная модель для необработанного аудио». arXiv : 1609.03499 [cs.SD].
  12. ^ Аарон ван ден Оорд; Дилеман, Сандер; Дзен, Хейга; Симонян, Карен; Виньялс, Ориол; Грейвс, Алекс; Кальхбреннер, Нал; Старший, Эндрю; Кавукчуоглу, Корай (2016). «WaveNet: генеративная модель для необработанного аудио». arXiv : 1609.03499 [cs.SD].
  13. ^ Гершгорн, Дэйв (9 сентября 2016 г.). «Вы уверены, что разговариваете с человеком? Роботы начинают звучать пугающе реалистично». Кварц . Проверено 6 июля 2017 г.
  14. ^ Колдьюи, Девин (9 сентября 2016 г.). «Google WaveNet использует нейронные сети для создания устрашающе убедительной речи и музыки». ТехКранч . Проверено 6 июля 2017 г.
  15. ^ ван ден Оорд, Аарон; Дилеман, Сандер; Дзен, Хейга (08 сентября 2016 г.). «WaveNet: генеративная модель для необработанного аудио». ДипМайнд . Проверено 6 июля 2017 г.
  16. ^ Ли, Инчжэнь; Мандт, Стефан (2018). «Распутанный последовательный автоэнкодер». arXiv : 1803.02991 [cs.LG].
  17. ^ Хоровски, Ян; Вайс, Рон Дж.; Бенджио, Сами; Ван Ден Оорд, Аарон (2019). «Обучение речевому представлению без учителя с использованием автоэнкодеров WaveNet». Транзакции IEEE/ACM по обработке звука, речи и языка . 27 (12): 2041–2053. arXiv : 1901.08810 . дои : 10.1109/TASLP.2019.2938863.
  18. ^ Чен, Ютянь; Ассаэль, Яннис; Шиллингфорд, Брендан; Бадден, Дэвид; Рид, Скотт; Дзен, Хейга; Ван, Цюань; Кобо, Луис К.; Траск, Эндрю; Лори, Бен; Гульчере, Чаглар; Аарон ван ден Оорд; Виньялс, Ориол; Нандо де Фрейтас (2018). «Пример эффективного адаптивного преобразования текста в речь». arXiv : 1809.10460 [cs.LG].
  19. Adobe Voco «Photoshop для голоса» вызывает беспокойство, 7 ноября 2016 г., BBC.
  20. ^ «Adobe Voco« Photoshop для голоса »вызывает беспокойство» . Новости BBC . 07.11.2016 . Проверено 6 июля 2017 г.
  21. ^ WaveNet запускается в Google Assistant.
  22. ^ Аарон ван ден Оорд; Ли, Яже; Бабушкин Игорь; Симонян, Карен; Виньялс, Ориол; Кавукчуоглу, Корай; Джордж ван ден Дриссе; Локхарт, Эдвард; Кобо, Луис К.; Стимберг, Флориан; Касагранде, Норман; Греве, Доминик; Нури, Себ; Дилеман, Сандер; Элсен, Эрих; Кальхбреннер, Нал; Дзен, Хейга; Грейвс, Алекс; Король, Хелен; Уолтерс, Том; Белов, Дэн; Хассабис, Демис (2017). «Параллельная WaveNet: быстрый синтез речи высокой точности». arXiv : 1711.10433 [cs.LG].
  23. Мартин, Тейлор (9 мая 2018 г.). «Попробуйте совершенно новые голоса Google Assistant прямо сейчас». CNET . Проверено 10 мая 2018 г.

Внешние ссылки