Вокодер

Вокодер ( / ˈ v oʊ k oʊ d ər / , сочетание голоса и кодера ) — это категория кодирования речи , которая анализирует и синтезирует сигнал человеческого голоса для сжатия аудиоданных , мультиплексирования , шифрования голоса или преобразования голоса.

Вокодер был изобретен в 1938 году Гомером Дадли из Bell Labs как средство синтеза человеческой речи. ^[1] Эта работа была развита в канальный вокодер , который использовался в качестве голосового кодека в телекоммуникациях для кодирования речи для сохранения полосы пропускания при передаче.

Зашифровав управляющие сигналы, можно защитить передачу голоса от перехвата . Его основное использование таким образом - для безопасной радиосвязи. Преимущество этого метода шифрования в том, что не передается ни один исходный сигнал, а только огибающие полосовых фильтров. Приемный блок необходимо настроить в той же конфигурации фильтра, чтобы повторно синтезировать версию исходного спектра сигнала.

Вокодер также широко использовался в качестве электронного музыкального инструмента . Декодерная часть вокодера, называемая водером , может использоваться независимо для синтеза речи.

Теория

Человеческий голос состоит из звуков , генерируемых открытием и закрытием голосовых связок , что создает периодический сигнал со многими гармониками . Этот основной звук затем фильтруется носом и горлом (сложная система резонансных трубок) для контролируемого создания различий в гармоническом содержании ( формантах ), создавая широкое разнообразие звуков, используемых в речи. Существует еще один набор звуков, известный как глухие и взрывные звуки, которые по-разному создаются или изменяются ртом.

Вокодер исследует речь, измеряя, как ее спектральные характеристики изменяются с течением времени. В результате получается серия сигналов, представляющих эти частоты в любой конкретный момент времени, когда говорит пользователь. Проще говоря, сигнал разделяется на несколько частотных диапазонов (чем больше это число, тем точнее анализ), и уровень сигнала, присутствующий в каждом частотном диапазоне, дает мгновенное представление о спектральном энергетическом составе. Чтобы воссоздать речь, вокодер просто меняет процесс, обрабатывая источник широкополосного шума, пропуская его через этап, который фильтрует частотный контент на основе первоначально записанной серии чисел.

В частности, в кодере входной сигнал пропускается через многополосный фильтр , затем выходной сигнал каждой полосы измеряется с помощью повторителя огибающей , а сигналы от повторителей огибающей передаются в декодер. Декодер подает их в качестве сигналов управления на соответствующие усилители каналов выходного фильтра.

Информация о мгновенной частоте исходного речевого сигнала (в отличие от его спектральной характеристики) отбрасывается; не было важно сохранить это для первоначального использования вокодера в качестве средства шифрования. Именно этот дегуманизирующий аспект процесса вокодирования сделал его полезным при создании специальных голосовых эффектов в популярной музыке и аудиоразвлечениях.

Вместо поэтапного воссоздания формы сигнала процесс вокодера отправляет по каналу связи только параметры голосовой модели. Поскольку параметры изменяются медленно по сравнению с исходной формой речевого сигнала, полоса пропускания, необходимая для передачи речи, может быть уменьшена. Это позволяет большему количеству речевых каналов использовать данный канал связи , например радиоканал или подводный кабель .

Аналоговые вокодеры обычно анализируют входящий сигнал, разделяя его на несколько настроенных полос или диапазонов частот. Чтобы восстановить сигнал, сигнал несущей пропускается через серию этих настроенных полосовых фильтров . В примере типичного голоса робота несущей является шум или пилообразный сигнал . Обычно имеется от 8 до 20 полос.

Амплитуда модулятора для каждой отдельной полосы анализа генерирует напряжение, которое используется для управления усилителями для каждой из соответствующих полос несущей. В результате частотные компоненты модулирующего сигнала отображаются на сигнал несущей как дискретные изменения амплитуды в каждом из частотных диапазонов.

Часто присутствует глухая полоса или канал шипящих звуков . Это касается частот, которые находятся за пределами диапазонов анализа типичной речи, но все еще важны для речи. Примерами могут служить слова, начинающиеся с букв s , f , ch или любого другого шипящего звука. Использование этого диапазона обеспечивает узнаваемую речь, хотя и несколько механистическую. Вокодеры часто включают в себя вторую систему для генерации невокализованных звуков, использующую генератор шума вместо основной частоты . Это смешивается с выходным сигналом несущей для повышения четкости.

В алгоритме канального вокодера среди двух компонентов аналитического сигнала рассмотрение только амплитудного компонента и простое игнорирование фазового компонента приводит к нечеткости голоса; о методах исправления этого см. фазовый вокодер .

История

Разработка вокодера была начата в 1928 году инженером Bell Labs Гомером Дадли , ^[5] которому были выданы патенты на него 21 марта 1939 года, ^[6] и 16 ноября 1937 года. ^[7]

Чтобы продемонстрировать возможности синтеза речи в секции декодера, водер (демонстратор голосового управления) ^[8] был представлен публике в здании AT&T на Всемирной выставке в Нью-Йорке 1939–1940 годов. ^[9] Водер состоял из электронного генератора – источника звука высокого тона – и генератора шума для шипения , 10-полосных резонаторных фильтров с усилителями с переменным усилением в качестве речевого тракта и ручных регуляторов, включающих набор нагнетателей. чувствительные клавиши для управления фильтром и ножная педаль для регулировки высоты тона. ^[10] Фильтры, управляемые клавишами, преобразуют тон и шипение в гласные , согласные и флексии . Это была сложная в эксплуатации машина, но опытный оператор мог произносить узнаваемую речь. ^[9]^{[СМИ 1]}

Вокодер Дадли использовался в системе SIGSALY , которая была построена инженерами Bell Labs в 1943 году. SIGSALY использовалась для зашифрованной голосовой связи во время Второй мировой войны . Голосовой кодер КО-6 был выпущен в 1949 году ограниченным тиражом; это было близкое приближение к SIGSALY со скоростью 1200 бит/с. В 1953 году голосовой кодер KY-9 THESEUS ^[11] со скоростью 1650 бит/с использовал полупроводниковую логику, чтобы уменьшить вес до 565 фунтов (256 кг) по сравнению с 55 короткими тоннами (50 000 кг) SIGSALY, а в 1961 году - голос HY-2. кодер, 16-канальная система со скоростью 2400 бит/с, весил 100 фунтов (45 кг) и был последней реализацией канального вокодера в защищенной речевой системе. ^[12]

В более поздних работах в этой области использовалось цифровое кодирование речи . Наиболее широко используемым методом кодирования речи является кодирование с линейным предсказанием (LPC). ^[13] Другой метод кодирования речи, адаптивная дифференциальная импульсно-кодовая модуляция (ADPCM), был разработан П. Каммиски, Никилом С. Джаянтом и Джеймсом Л. Фланаганом в Bell Labs в 1973 году. ^[14]

Приложения

Терминальное оборудование для систем на базе цифровой мобильной радиосвязи (DMR).
Цифровое скремблирование и шифрование голоса
Кохлеарные имплантаты : вокодирование шума и тонов используется для имитации эффектов кохлеарных имплантатов. ^{[ нужна цитата ]}
Музыкальные и другие художественные эффекты ^[15]

Современные реализации

Даже при необходимости записи нескольких частот и дополнительных невокализованных звуков сжатие систем вокодера впечатляет. Стандартные системы записи речи захватывают частоты примерно от 500 до 3400 Гц, где находится большая часть частот, используемых в речи, обычно с использованием частоты дискретизации 8 кГц (немного выше частоты Найквиста ) . Разрешение выборки обычно составляет 8 или более бит на разрешение выборки при скорости передачи данных в диапазоне 64 кбит/с, но хороший вокодер может обеспечить достаточно хорошую имитацию голоса со скоростью всего 5 кбит/с данных.

Кодеры голоса качества междугородной связи , такие как ITU G.729 , используются во многих телефонных сетях. В частности, G.729 имеет конечную скорость передачи данных 8 кбит/с и превосходное качество передачи речи. G.723 обеспечивает немного худшее качество при скоростях передачи данных 5,3 и 6,4 кбит/с. Многие системы голосового вокодера используют более низкие скорости передачи данных, но качество речи ниже 5 кбит/с начинает быстро падать. ^{[ нужна цитата ]}

В системах шифрования АНБ используются несколько систем вокодера :

LPC-10, FIPS Pub 137, 2400 бит/с, используется кодирование с линейным предсказанием.
Линейное предсказание с кодовым возбуждением (CELP), 2400 и 4800 бит/с, федеральный стандарт 1016, используется в STU-III.
Дельта-модуляция с плавным наклоном (CVSD), 16 кбит / с, используется в широкополосных шифраторах, таких как KY-57.
Линейное предсказание со смешанным возбуждением (MELP), MIL STD 3005, 2400 бит/с, используется в узкополосном цифровом терминале будущего FNBDT , защищенном телефоне АНБ 21 века.
Адаптивная дифференциальная импульсно-кодовая модуляция (ADPCM), бывший ITU-T G.721, 32 кбит/с, используемый в защищенном телефоне STE ^[a]

Современные вокодеры, которые сегодня используются в оборудовании связи и устройствах хранения речи, основаны на следующих алгоритмах:

Линейное предсказание с алгебраическим кодовым возбуждением (ACELP 4,7–24 кбит/с) ^[16]
Линейное предсказание со смешанным возбуждением (MELPe 2400, 1200 и 600 бит/с) ^[17]
Многодиапазонное возбуждение (AMBE 2000 бит/с – 9600 бит/с) ^[18]
Синусоидально-импульсное представление (SPR 600–4800 бит/с) ^[19]
Надежная расширенная интерполяция сигналов низкой сложности (RALCWI 2050, 2400 и 2750 бит/с) ^[20]
Трехволновое линейное предсказание с возбуждением (TWELP 300–9600 бит/с) ^[21]
Шумоустойчивый вокодер (NRV 300 и 800 бит/с) ^[22]

Вокодеры также в настоящее время используются в психофизике , лингвистике , вычислительной нейробиологии и исследованиях кохлеарных имплантатов .

На основе линейного прогнозирования

С конца 1970-х годов большинство немузыкальных вокодеров были реализованы с использованием линейного предсказания , при котором огибающая спектра (форманта) целевого сигнала оценивается с помощью всеполюсного БИХ- фильтра . При кодировании с линейным предсказанием всеполюсный фильтр заменяет банк полосовых фильтров своего предшественника и используется в кодере для отбеливания сигнала (т. е. выравнивания спектра), а затем снова в декодере для повторного применения спектральной формы цели. речевой сигнал.

Одним из преимуществ этого типа фильтрации является то, что местоположение спектральных пиков линейного предсказателя полностью определяется целевым сигналом и может быть настолько точным, насколько позволяет фильтруемый период времени. В этом отличие от вокодеров, реализованных с использованием банков фильтров фиксированной ширины, где расположение спектральных пиков ограничено доступными фиксированными полосами частот. ЛП-фильтрация также имеет недостатки, заключающиеся в том, что сигналы с большим количеством составляющих частот могут превышать количество частот, которые могут быть представлены фильтром линейного предсказания. Это ограничение является основной причиной того, что LP-кодирование почти всегда используется в тандеме с другими методами в кодировщиках голоса с высокой степенью сжатия.

Интерполяционный сигнал

Вокодер с интерполяцией формы сигнала (WI) был разработан в AT&T Bell Laboratories примерно в 1995 году У. Б. Клейном, а впоследствии AT&T разработала версию с низкой сложностью для конкурса DoD по безопасному вокодеру. Заметные усовершенствования кодера WI были сделаны в Калифорнийском университете в Санта-Барбаре . AT&T владеет основными патентами, связанными с WI, а другие институты владеют дополнительными патентами. ^[23]^[24]^[25]

Художественные эффекты

Использование в музыке

Настройка вокодера канала как музыкального приложения; голландские подписи: «Полосовые фильтры» и «Измерители уровня».

В музыкальных приложениях в качестве несущей вместо выделения основной частоты используется источник музыкальных звуков. Например, можно использовать звук синтезатора в качестве входного сигнала для банка фильтров — метод, ставший популярным в 1970-х годах.

История

Вернер Мейер-Эпплер , немецкий учёный, проявлявший особый интерес к электронному синтезу голоса, в 1948 году опубликовал диссертацию об электронной музыке и синтезе речи с точки зрения синтеза звука . ^[26] Позже он сыграл важную роль в основании Студии электронной музыки WDR в Кёльне в 1951 году. [ ^27]

Одной из первых попыток использовать вокодер при создании музыки был синтезатор Siemens в Студии электронной музыки Siemens, разработанный между 1956 и 1959 годами. ^[28]^[29]^{[медиа 2]}

В 1968 году Роберт Муг разработал один из первых твердотельных музыкальных вокодеров для студии электронной музыки Университета Буффало . ^[30]

В 1968 году Брюс Хаак построил прототип вокодера, названный «Фарад» в честь Майкла Фарадея . ^[31] Впервые он был представлен на альбоме "The Electronic Record For Children", выпущенном в 1969 году, а затем на его рок-альбоме The Electric Lucifer , выпущенном в 1970 году. ^[32]^{[медиа 3]}

В 1970 году Венди Карлос и Роберт Муг построили еще один музыкальный вокодер, десятиполосное устройство, вдохновленное конструкциями вокодера Гомера Дадли . Первоначально он назывался кодером-декодером спектра, а позже стал называться просто вокодером. Несущий сигнал поступал с модульного синтезатора Moog , а модулятор — с микрофонного входа. Выход десятиполосного вокодера был довольно разборчивым, но основывался на специально артикулированной речи.

В 1972 году первый альбом электронной музыки Исао Томиты Electric Samurai: Switched on Rock был ранней попыткой применить технику синтеза речи через вокодер ^[^{нужна цитация}^]^[^{необходимы пояснения}^] к электронному року . В альбоме представлены электронные версии современных рок- и поп- песен, в которых вместо человеческих голосов используются синтезированные голоса. В 1974 году он использовал синтезированные голоса в своем популярном альбоме классической музыки Snowflakes are Dancing , который имел всемирный успех и помог популяризировать электронную музыку.

В 1973 году британская группа Emerson, Lake and Palmer использовала вокодер в своем альбоме Brain Salad Surgery для песни « Karn Evil 9: 3rd Impression ».

В песне 1975 года « The Raven » из альбома Tales of Mystery and Imagination группы The Alan Parsons Project Алан Парсонс исполняет вокал через вокодер EMI. Согласно примечаниям к альбому, "The Raven" была первой рок-песней, в которой использовался цифровой вокодер.

Pink Floyd использовали вокодер на трёх своих альбомах: сначала на альбоме Animals 1977 года для песен « Sheep » и « Pigs (Three Different Ones) », затем в 1987 году на A Momentary Lapse of Reason на « A New Machine Part 1 » и «Новая машина, часть 2» и, наконец, в « The Division Bell» 1994 года , в « Keep Talking ».

The Electric Light Orchestra были одними из первых, кто использовал вокодер в коммерческом контексте, со своим альбомом 1977 года Out of the Blue . Группа широко использует его в альбоме, в том числе в хитах « Sweet Talkin' Woman » и « Mr. Blue Sky ». ^[33] В следующих альбомах группа время от времени использовала его, особенно в своих хитах « The Diary of Horace Wimp » и « Confusion » из альбома Discovery 1979 года , треках «Prologue», «Yours Truly, 2095» и «Epilogue» из их альбома Time 1981 года , ^[34] и « Calling America » из их альбома 1986 года Balance of Power .

В конце 1970-х французский дуэт Space Art использовал вокодер во время записи своего второго альбома Trip in the Center Head . ^[35]

Фил Коллинз использовал вокодер для создания вокального эффекта для своего международного хита 1981 года « In the Air Tonight ». ^[36]

Вокодеры время от времени появлялись на поп-записях, чаще всего просто как специальный эффект , а не как характерный аспект произведения. Однако многие экспериментальные электронные исполнители музыкального жанра нью-эйдж часто используют вокодер более комплексно в конкретных произведениях, например, Жан-Мишель Жарр (на Zoolook , 1984) и Майк Олдфилд (на QE2 , 1980 и Five Miles Out , 1982).

Модуль вокодера и его использование Майком Олдфилдом можно ясно увидеть на его DVD Live At Montreux 1981 года (трек " Sheba ").

Есть также некоторые артисты, которые сделали вокодеры неотъемлемой частью своей музыки в целом или на длительном этапе. Примеры включают немецкую синти-поп- группу Kraftwerk , японскую группу новой волны Polysics , Стиви Уандера (« Send One Your Love », « A Seed's a Star ») и джазового/фьюжн-клавишника Херби Хэнкока в конце 1970-х годов. В 1982 году Нил Янг использовал вокодер Sennheiser VSM201 на шести из девяти треков Trans . ^[37] Припев и бридж из песни Майкла Джексона « PYT (Pretty Young Thing) ». включает вокодер («Довольно молодая штучка/Ты заставляешь меня петь»), любезно предоставленный сессионным музыкантом Майклом Боддикером .

Coldplay использовали вокодер в некоторых своих песнях. Например, в « Major Minus » и « Hurts Like Heaven », оба из альбома Mylo Xyloto (2011), вокал Криса Мартина в основном обработан вокодером. В песне « Полночь » из «Истории призраков» (2014) Мартин также поет через вокодер. ^[38] Скрытый трек "X Marks the Spot" из альбома A Head Full of Dreams также был записан через вокодер.

Noisecore-группа Atari Teenage Riot использовала вокодеры в различных своих песнях и живых выступлениях, таких как Live at the Brixton Academy (2002), наряду с другими цифровыми аудиотехнологиями, как старыми, так и новыми.

В песне Red Hot Chili Peppers " By the Way " используется эффект вокодера на вокале Энтони Кидиса .

Среди наиболее последовательных пользователей вокодера при имитации человеческого голоса — Daft Punk , которые использовали этот инструмент от своего первого альбома Homework (1997) до своей последней работы Random Access Memories (2013) и рассматривают возможность сближения технологического и человеческого голоса». индивидуальность их музыкального проекта». ^[39] Например, текст песни « Around the World » (1997) полностью обработан вокодером, « Get Lucky » (2013) представляет собой смесь естественных и обработанных человеческих голосов, а « Instant Crush » (2013) включает в себя Джулиана. Касабланкас поет в вокодер.

Йе (Канье Уэст) использовал вокодер в финале своей песни « Runaway » (2010). ^[40]

Продюсер Зедд , американская кантри-певица Марен Моррис и американский музыкальный дуэт Grey записали песню под названием « The Middle », в которой использовался вокодер, и она вошла в десятку лучших чартов 2018 года ^.

Голосовые эффекты в других искусствах

Голоса роботов стали постоянным элементом популярной музыки 20 века. Помимо вокодеров, несколько других методов создания вариаций этого эффекта включают: Sonovox , Talk box , Auto-Tune , вокодеры с линейным предсказанием ^{[media 4] ,}синтез речи , кольцевую модуляцию ^{[media 5]}^{[media 6]} и гребенчатый фильтр .

Пример вокодера

Демонстрация эффекта «роботизированного голоса» в кино и на телевидении.

Проблемы с воспроизведением этого файла? См. справку для СМИ .

Вокодеры используются в телевизионном производстве , кинопроизводстве и играх, обычно для роботов или говорящих компьютеров. Голоса роботов Сайлонов в Battlestar Galactica были созданы с помощью вокодера EMS 2000. Версия темы «Доктора Кто»¹⁹⁸⁰года , аранжированная и записанная Питером Хауэллом , содержит часть основной мелодии, созданную Roland SVC- 350 вокодер. Похожий вокодер Roland VP-330 использовался для создания голоса Саундвейва , персонажа из сериала «Трансформеры» .

Смотрите также

Примечания

^ ADPCM - это не настоящий вокодер, а скорее кодек формы сигнала. ITU объединил G.721 вместе с некоторыми другими кодеками ADPCM в G.726.

Внешние ссылки

Викискладе есть медиафайлы по теме вокодеров .

«Как работают вокодеры». ПАИЯ. Архивировано из оригинала 7 сентября 2011 г.
Описание, фотографии и схема вокодера на 120years.net.
Статья О'Рейли о вокодерах
Объект интереса: Вокодер Мини-документальный фильм The New Yorker Magazine

Вокодер

Теория

История

Приложения

Современные реализации

На основе линейного прогнозирования

Интерполяционный сигнал

Художественные эффекты

Использование в музыке

История

Голосовые эффекты в других искусствах

Смотрите также

Примечания

Рекомендации

Внешние ссылки