Вокодер ( / ˈ v oʊ k oʊ d ər / , сочетание голоса и кодера ) — это категория кодирования речи , которая анализирует и синтезирует сигнал человеческого голоса для сжатия аудиоданных , мультиплексирования , шифрования голоса или преобразования голоса.
Вокодер был изобретен в 1938 году Гомером Дадли из Bell Labs как средство синтеза человеческой речи. [1] Эта работа была развита в канальный вокодер , который использовался в качестве голосового кодека в телекоммуникациях для кодирования речи для сохранения полосы пропускания при передаче.
Зашифровав управляющие сигналы, можно защитить передачу голоса от перехвата . Его основное использование таким образом - для безопасной радиосвязи. Преимущество этого метода шифрования в том, что не передается ни один исходный сигнал, а только огибающие полосовых фильтров. Приемный блок необходимо настроить в той же конфигурации фильтра, чтобы повторно синтезировать версию исходного спектра сигнала.
Вокодер также широко использовался в качестве электронного музыкального инструмента . Декодерная часть вокодера, называемая водером , может использоваться независимо для синтеза речи.
Человеческий голос состоит из звуков , генерируемых открытием и закрытием голосовых связок , что создает периодический сигнал со многими гармониками . Этот основной звук затем фильтруется носом и горлом (сложная система резонансных трубок) для контролируемого создания различий в гармоническом содержании ( формантах ), создавая широкое разнообразие звуков, используемых в речи. Существует еще один набор звуков, известный как глухие и взрывные звуки, которые по-разному создаются или изменяются ртом.
Вокодер исследует речь, измеряя, как ее спектральные характеристики изменяются с течением времени. В результате получается серия сигналов, представляющих эти частоты в любой конкретный момент времени, когда говорит пользователь. Проще говоря, сигнал разделяется на несколько частотных диапазонов (чем больше это число, тем точнее анализ), и уровень сигнала, присутствующий в каждом частотном диапазоне, дает мгновенное представление о спектральном энергетическом составе. Чтобы воссоздать речь, вокодер просто меняет процесс, обрабатывая источник широкополосного шума, пропуская его через этап, который фильтрует частотный контент на основе первоначально записанной серии чисел.
В частности, в кодере входной сигнал пропускается через многополосный фильтр , затем выходной сигнал каждой полосы измеряется с помощью повторителя огибающей , а сигналы от повторителей огибающей передаются в декодер. Декодер подает их в качестве сигналов управления на соответствующие усилители каналов выходного фильтра.
Информация о мгновенной частоте исходного речевого сигнала (в отличие от его спектральной характеристики) отбрасывается; не было важно сохранить это для первоначального использования вокодера в качестве средства шифрования. Именно этот дегуманизирующий аспект процесса вокодирования сделал его полезным при создании специальных голосовых эффектов в популярной музыке и аудиоразвлечениях.
Вместо поэтапного воссоздания формы сигнала процесс вокодера отправляет по каналу связи только параметры голосовой модели. Поскольку параметры изменяются медленно по сравнению с исходной формой речевого сигнала, полоса пропускания, необходимая для передачи речи, может быть уменьшена. Это позволяет большему количеству речевых каналов использовать данный канал связи , например радиоканал или подводный кабель .
Аналоговые вокодеры обычно анализируют входящий сигнал, разделяя его на несколько настроенных полос или диапазонов частот. Чтобы восстановить сигнал, сигнал несущей пропускается через серию этих настроенных полосовых фильтров . В примере типичного голоса робота несущей является шум или пилообразный сигнал . Обычно имеется от 8 до 20 полос.
Амплитуда модулятора для каждой отдельной полосы анализа генерирует напряжение, которое используется для управления усилителями для каждой из соответствующих полос несущей. В результате частотные компоненты модулирующего сигнала отображаются на сигнал несущей как дискретные изменения амплитуды в каждом из частотных диапазонов.
Часто присутствует глухая полоса или канал шипящих звуков . Это касается частот, которые находятся за пределами диапазонов анализа типичной речи, но все еще важны для речи. Примерами могут служить слова, начинающиеся с букв s , f , ch или любого другого шипящего звука. Использование этого диапазона обеспечивает узнаваемую речь, хотя и несколько механистическую. Вокодеры часто включают в себя вторую систему для генерации невокализованных звуков, использующую генератор шума вместо основной частоты . Это смешивается с выходным сигналом несущей для повышения четкости.
В алгоритме канального вокодера среди двух компонентов аналитического сигнала рассмотрение только амплитудного компонента и простое игнорирование фазового компонента приводит к нечеткости голоса; о методах исправления этого см. фазовый вокодер .
Разработка вокодера была начата в 1928 году инженером Bell Labs Гомером Дадли , [5] которому были выданы патенты на него 21 марта 1939 года, [6] и 16 ноября 1937 года. [7]
Чтобы продемонстрировать возможности синтеза речи в секции декодера, водер (демонстратор голосового управления) [8] был представлен публике в здании AT&T на Всемирной выставке в Нью-Йорке 1939–1940 годов. [9] Водер состоял из электронного генератора – источника звука высокого тона – и генератора шума для шипения , 10-полосных резонаторных фильтров с усилителями с переменным усилением в качестве речевого тракта и ручных регуляторов, включающих набор нагнетателей. чувствительные клавиши для управления фильтром и ножная педаль для регулировки высоты тона. [10] Фильтры, управляемые клавишами, преобразуют тон и шипение в гласные , согласные и флексии . Это была сложная в эксплуатации машина, но опытный оператор мог произносить узнаваемую речь. [9] [СМИ 1]
Вокодер Дадли использовался в системе SIGSALY , которая была построена инженерами Bell Labs в 1943 году. SIGSALY использовалась для зашифрованной голосовой связи во время Второй мировой войны . Голосовой кодер КО-6 был выпущен в 1949 году ограниченным тиражом; это было близкое приближение к SIGSALY со скоростью 1200 бит/с. В 1953 году голосовой кодер KY-9 THESEUS [11] со скоростью 1650 бит/с использовал полупроводниковую логику, чтобы уменьшить вес до 565 фунтов (256 кг) по сравнению с 55 короткими тоннами (50 000 кг) SIGSALY, а в 1961 году - голос HY-2. кодер, 16-канальная система со скоростью 2400 бит/с, весил 100 фунтов (45 кг) и был последней реализацией канального вокодера в защищенной речевой системе. [12]
В более поздних работах в этой области использовалось цифровое кодирование речи . Наиболее широко используемым методом кодирования речи является кодирование с линейным предсказанием (LPC). [13] Другой метод кодирования речи, адаптивная дифференциальная импульсно-кодовая модуляция (ADPCM), был разработан П. Каммиски, Никилом С. Джаянтом и Джеймсом Л. Фланаганом в Bell Labs в 1973 году. [14]
Даже при необходимости записи нескольких частот и дополнительных невокализованных звуков сжатие систем вокодера впечатляет. Стандартные системы записи речи захватывают частоты примерно от 500 до 3400 Гц, где находится большая часть частот, используемых в речи, обычно с использованием частоты дискретизации 8 кГц (немного выше частоты Найквиста ) . Разрешение выборки обычно составляет 8 или более бит на разрешение выборки при скорости передачи данных в диапазоне 64 кбит/с, но хороший вокодер может обеспечить достаточно хорошую имитацию голоса со скоростью всего 5 кбит/с данных.
Кодеры голоса качества междугородной связи , такие как ITU G.729 , используются во многих телефонных сетях. В частности, G.729 имеет конечную скорость передачи данных 8 кбит/с и превосходное качество передачи речи. G.723 обеспечивает немного худшее качество при скоростях передачи данных 5,3 и 6,4 кбит/с. Многие системы голосового вокодера используют более низкие скорости передачи данных, но качество речи ниже 5 кбит/с начинает быстро падать. [ нужна цитата ]
В системах шифрования АНБ используются несколько систем вокодера :
Современные вокодеры, которые сегодня используются в оборудовании связи и устройствах хранения речи, основаны на следующих алгоритмах:
Вокодеры также в настоящее время используются в психофизике , лингвистике , вычислительной нейробиологии и исследованиях кохлеарных имплантатов .
С конца 1970-х годов большинство немузыкальных вокодеров были реализованы с использованием линейного предсказания , при котором огибающая спектра (форманта) целевого сигнала оценивается с помощью всеполюсного БИХ- фильтра . При кодировании с линейным предсказанием всеполюсный фильтр заменяет банк полосовых фильтров своего предшественника и используется в кодере для отбеливания сигнала (т. е. выравнивания спектра), а затем снова в декодере для повторного применения спектральной формы цели. речевой сигнал.
Одним из преимуществ этого типа фильтрации является то, что местоположение спектральных пиков линейного предсказателя полностью определяется целевым сигналом и может быть настолько точным, насколько позволяет фильтруемый период времени. В этом отличие от вокодеров, реализованных с использованием банков фильтров фиксированной ширины, где расположение спектральных пиков ограничено доступными фиксированными полосами частот. ЛП-фильтрация также имеет недостатки, заключающиеся в том, что сигналы с большим количеством составляющих частот могут превышать количество частот, которые могут быть представлены фильтром линейного предсказания. Это ограничение является основной причиной того, что LP-кодирование почти всегда используется в тандеме с другими методами в кодировщиках голоса с высокой степенью сжатия.
Вокодер с интерполяцией формы сигнала (WI) был разработан в AT&T Bell Laboratories примерно в 1995 году У. Б. Клейном, а впоследствии AT&T разработала версию с низкой сложностью для конкурса DoD по безопасному вокодеру. Заметные усовершенствования кодера WI были сделаны в Калифорнийском университете в Санта-Барбаре . AT&T владеет основными патентами, связанными с WI, а другие институты владеют дополнительными патентами. [23] [24] [25]
В музыкальных приложениях в качестве несущей вместо выделения основной частоты используется источник музыкальных звуков. Например, можно использовать звук синтезатора в качестве входного сигнала для банка фильтров — метод, ставший популярным в 1970-х годах.
Вернер Мейер-Эпплер , немецкий учёный, проявлявший особый интерес к электронному синтезу голоса, в 1948 году опубликовал диссертацию об электронной музыке и синтезе речи с точки зрения синтеза звука . [26] Позже он сыграл важную роль в основании Студии электронной музыки WDR в Кёльне в 1951 году. [ 27]
Одной из первых попыток использовать вокодер при создании музыки был синтезатор Siemens в Студии электронной музыки Siemens, разработанный между 1956 и 1959 годами. [28] [29] [медиа 2]
В 1968 году Роберт Муг разработал один из первых твердотельных музыкальных вокодеров для студии электронной музыки Университета Буффало . [30]
В 1968 году Брюс Хаак построил прототип вокодера, названный «Фарад» в честь Майкла Фарадея . [31] Впервые он был представлен на альбоме "The Electronic Record For Children", выпущенном в 1969 году, а затем на его рок-альбоме The Electric Lucifer , выпущенном в 1970 году. [32] [медиа 3]
В 1970 году Венди Карлос и Роберт Муг построили еще один музыкальный вокодер, десятиполосное устройство, вдохновленное конструкциями вокодера Гомера Дадли . Первоначально он назывался кодером-декодером спектра, а позже стал называться просто вокодером. Несущий сигнал поступал с модульного синтезатора Moog , а модулятор — с микрофонного входа. Выход десятиполосного вокодера был довольно разборчивым, но основывался на специально артикулированной речи.
В 1972 году первый альбом электронной музыки Исао Томиты Electric Samurai: Switched on Rock был ранней попыткой применить технику синтеза речи через вокодер [ нужна цитация ] [ необходимы пояснения ] к электронному року . В альбоме представлены электронные версии современных рок- и поп- песен, в которых вместо человеческих голосов используются синтезированные голоса. В 1974 году он использовал синтезированные голоса в своем популярном альбоме классической музыки Snowflakes are Dancing , который имел всемирный успех и помог популяризировать электронную музыку.
В 1973 году британская группа Emerson, Lake and Palmer использовала вокодер в своем альбоме Brain Salad Surgery для песни « Karn Evil 9: 3rd Impression ».
В песне 1975 года « The Raven » из альбома Tales of Mystery and Imagination группы The Alan Parsons Project Алан Парсонс исполняет вокал через вокодер EMI. Согласно примечаниям к альбому, "The Raven" была первой рок-песней, в которой использовался цифровой вокодер.
Pink Floyd использовали вокодер на трёх своих альбомах: сначала на альбоме Animals 1977 года для песен « Sheep » и « Pigs (Three Different Ones) », затем в 1987 году на A Momentary Lapse of Reason на « A New Machine Part 1 » и «Новая машина, часть 2» и, наконец, в « The Division Bell» 1994 года , в « Keep Talking ».
The Electric Light Orchestra были одними из первых, кто использовал вокодер в коммерческом контексте, со своим альбомом 1977 года Out of the Blue . Группа широко использует его в альбоме, в том числе в хитах « Sweet Talkin' Woman » и « Mr. Blue Sky ». [33] В следующих альбомах группа время от времени использовала его, особенно в своих хитах « The Diary of Horace Wimp » и « Confusion » из альбома Discovery 1979 года , треках «Prologue», «Yours Truly, 2095» и «Epilogue» из их альбома Time 1981 года , [34] и « Calling America » из их альбома 1986 года Balance of Power .
В конце 1970-х французский дуэт Space Art использовал вокодер во время записи своего второго альбома Trip in the Center Head . [35]
Фил Коллинз использовал вокодер для создания вокального эффекта для своего международного хита 1981 года « In the Air Tonight ». [36]
Вокодеры время от времени появлялись на поп-записях, чаще всего просто как специальный эффект , а не как характерный аспект произведения. Однако многие экспериментальные электронные исполнители музыкального жанра нью-эйдж часто используют вокодер более комплексно в конкретных произведениях, например, Жан-Мишель Жарр (на Zoolook , 1984) и Майк Олдфилд (на QE2 , 1980 и Five Miles Out , 1982).
Модуль вокодера и его использование Майком Олдфилдом можно ясно увидеть на его DVD Live At Montreux 1981 года (трек " Sheba ").
Есть также некоторые артисты, которые сделали вокодеры неотъемлемой частью своей музыки в целом или на длительном этапе. Примеры включают немецкую синти-поп- группу Kraftwerk , японскую группу новой волны Polysics , Стиви Уандера (« Send One Your Love », « A Seed's a Star ») и джазового/фьюжн-клавишника Херби Хэнкока в конце 1970-х годов. В 1982 году Нил Янг использовал вокодер Sennheiser VSM201 на шести из девяти треков Trans . [37] Припев и бридж из песни Майкла Джексона « PYT (Pretty Young Thing) ». включает вокодер («Довольно молодая штучка/Ты заставляешь меня петь»), любезно предоставленный сессионным музыкантом Майклом Боддикером .
Coldplay использовали вокодер в некоторых своих песнях. Например, в « Major Minus » и « Hurts Like Heaven », оба из альбома Mylo Xyloto (2011), вокал Криса Мартина в основном обработан вокодером. В песне « Полночь » из «Истории призраков» (2014) Мартин также поет через вокодер. [38] Скрытый трек "X Marks the Spot" из альбома A Head Full of Dreams также был записан через вокодер.
Noisecore-группа Atari Teenage Riot использовала вокодеры в различных своих песнях и живых выступлениях, таких как Live at the Brixton Academy (2002), наряду с другими цифровыми аудиотехнологиями, как старыми, так и новыми.
В песне Red Hot Chili Peppers " By the Way " используется эффект вокодера на вокале Энтони Кидиса .
Среди наиболее последовательных пользователей вокодера при имитации человеческого голоса — Daft Punk , которые использовали этот инструмент от своего первого альбома Homework (1997) до своей последней работы Random Access Memories (2013) и рассматривают возможность сближения технологического и человеческого голоса». индивидуальность их музыкального проекта». [39] Например, текст песни « Around the World » (1997) полностью обработан вокодером, « Get Lucky » (2013) представляет собой смесь естественных и обработанных человеческих голосов, а « Instant Crush » (2013) включает в себя Джулиана. Касабланкас поет в вокодер.
Йе (Канье Уэст) использовал вокодер в финале своей песни « Runaway » (2010). [40]
Продюсер Зедд , американская кантри-певица Марен Моррис и американский музыкальный дуэт Grey записали песню под названием « The Middle », в которой использовался вокодер, и она вошла в десятку лучших чартов 2018 года .
Голоса роботов стали постоянным элементом популярной музыки 20 века. Помимо вокодеров, несколько других методов создания вариаций этого эффекта включают: Sonovox , Talk box , Auto-Tune , вокодеры с линейным предсказанием [media 4] , синтез речи , кольцевую модуляцию [media 5] [media 6] и гребенчатый фильтр .
Вокодеры используются в телевизионном производстве , кинопроизводстве и играх, обычно для роботов или говорящих компьютеров. Голоса роботов Сайлонов в Battlestar Galactica были созданы с помощью вокодера EMS 2000. Версия темы «Доктора Кто» 1980 года , аранжированная и записанная Питером Хауэллом , содержит часть основной мелодии, созданную Roland SVC- 350 вокодер. Похожий вокодер Roland VP-330 использовался для создания голоса Саундвейва , персонажа из сериала «Трансформеры» .
Вокодер (reCorDER с голосовым управлением) и Voder (Voice Operation DEmonstratoR), разработанные физиком-исследователем Гомером Дадли, ... Voder был впервые представлен в 1939 году на Всемирной выставке в Нью-Йорке (где он демонстрировался с ежечасными интервалами), а затем в 1940 год, Сан-Франциско.
Было двадцать обученных операторов, известных как «девочки», которые обращались с машиной так же, как с музыкальным инструментом, таким как фортепиано или орган... Это было сделано путем манипулирования четырнадцатью клавишами пальцами, планкой левым запястьем и педаль правой ногой.
Методы LPC наиболее широко используются при кодировании речи.
{{cite book}}
: |periodical=
игнорируется ( помощь ){{cite AV media notes}}
: CS1 maint: others in cite AV media (notes) (link){{cite AV media notes}}
: CS1 maint: others in cite AV media (notes) (link)