Вокодер ( / ˈv oʊk oʊdər / , сокращение от voice и en coder ) — это категория кодирования речи , которая анализирует и синтезирует сигнал человеческого голоса для сжатия аудиоданных , мультиплексирования , шифрования голоса или преобразования голоса .
Вокодер был изобретен в 1938 году Гомером Дадли в Bell Labs как средство синтеза человеческой речи. [1] Эта работа была развита в канальный вокодер , который использовался в качестве голосового кодека для телекоммуникаций для кодирования речи с целью экономии полосы пропускания при передаче.
Шифруя сигналы управления , можно защитить передачу голоса от перехвата. Его основное применение в этом случае — безопасная радиосвязь. Преимущество этого метода шифрования в том, что не отправляется ни один исходный сигнал, а только огибающие полосовых фильтров. Приемное устройство должно быть настроено в той же конфигурации фильтра, чтобы повторно синтезировать версию исходного спектра сигнала.
Вокодер также широко использовался как электронный музыкальный инструмент . Декодерная часть вокодера, называемая водером , может использоваться независимо для синтеза речи.
Человеческий голос состоит из звуков, генерируемых открытием и закрытием голосовой щели голосовыми связками , что создает периодическую волновую форму со многими гармониками . Затем этот базовый звук фильтруется носом и горлом (сложная резонансная система труб) для создания различий в гармоническом содержании ( форманты ) контролируемым образом, создавая широкий спектр звуков, используемых в речи. Существует еще один набор звуков, известный как глухие и взрывные звуки, которые создаются или изменяются ртом различными способами.
Вокодер исследует речь, измеряя, как ее спектральные характеристики изменяются с течением времени. Это приводит к серии сигналов, представляющих эти частоты в любой конкретный момент времени, пока пользователь говорит. Проще говоря, сигнал разделяется на ряд частотных диапазонов (чем больше это число, тем точнее анализ), а уровень сигнала, присутствующего в каждом частотном диапазоне, дает мгновенное представление спектрального энергетического содержимого. Чтобы воссоздать речь, вокодер просто обращает процесс, обрабатывая широкополосный источник шума, пропуская его через этап, который фильтрует частотное содержимое на основе первоначально записанного ряда чисел.
В частности, в кодере входной сигнал проходит через многополосный фильтр , затем выходной сигнал каждой полосы измеряется с помощью повторителя огибающей , а сигналы от повторителей огибающей передаются на декодер. Декодер применяет их в качестве управляющих сигналов к соответствующим усилителям выходных каналов фильтра.
Информация о мгновенной частоте исходного голосового сигнала (в отличие от его спектральной характеристики) отбрасывается; не было важно сохранять ее для первоначального использования вокодера в качестве вспомогательного средства шифрования. Именно этот бесчеловечный аспект процесса вокодирования сделал его полезным для создания специальных голосовых эффектов в популярной музыке и аудиоразвлечениях.
Вместо поточечного воссоздания формы сигнала процесс вокодера отправляет по каналу связи только параметры голосовой модели. Поскольку параметры изменяются медленно по сравнению с исходной формой речевого сигнала, полоса пропускания, необходимая для передачи речи, может быть уменьшена. Это позволяет большему количеству речевых каналов использовать заданный канал связи , например радиоканал или подводный кабель .
Аналоговые вокодеры обычно анализируют входящий сигнал, разделяя его на несколько настроенных частотных полос или диапазонов. Чтобы восстановить сигнал, несущий сигнал посылается через ряд этих настроенных полосовых фильтров . В примере типичного голоса робота несущий сигнал представляет собой шум или пилообразную форму волны . Обычно имеется от 8 до 20 полос.
Амплитуда модулятора для каждой из отдельных полос анализа генерирует напряжение, которое используется для управления усилителями для каждой из соответствующих полос несущих. Результатом является то, что частотные компоненты модулирующего сигнала отображаются на сигнале несущей как дискретные изменения амплитуды в каждой из полос частот.
Часто есть невокализованная полоса или канал шипения . Это для частот, которые находятся за пределами полос анализа для типичной речи, но все еще важны в речи. Примерами являются слова, которые начинаются с букв s , f , ch или любого другого шипящего звука. Использование этой полосы дает узнаваемую речь, хотя и несколько механистическую. Вокодеры часто включают вторую систему для генерации невокализованных звуков, используя генератор шума вместо основной частоты . Это смешивается с выходом несущей для повышения четкости.
В алгоритме канального вокодера, среди двух компонентов аналитического сигнала , рассмотрение только амплитудного компонента и простое игнорирование фазового компонента, как правило, приводит к нечеткому голосу; о методах исправления этого явления см. фазовый вокодер .
Разработка вокодера была начата в 1928 году инженером Bell Labs Гомером Дадли [5] , который получил патенты на него 21 марта 1939 года [6] и 16 ноября 1937 года [7].
Чтобы продемонстрировать способность синтеза речи его секции декодера, voder (демонстратор голосового управления) [8] был представлен публике в здании AT&T на Всемирной выставке в Нью-Йорке 1939–1940 годов. [9] voder состоял из электронного осциллятора — источника звука тона высокой частоты — и генератора шума для шипения , 10-полосных резонаторных фильтров с усилителями с переменным коэффициентом усиления в качестве голосового тракта и ручных контроллеров, включая набор чувствительных к давлению клавиш для управления фильтром и ножную педаль для управления высотой тона. [10] Фильтры, управляемые клавишами, преобразуют тон и шипение в гласные , согласные и интонации . Это была сложная в управлении машина, но опытный оператор мог воспроизводить узнаваемую речь. [9] [media 1]
Вокодер Дадли использовался в системе SIGSALY , которая была создана инженерами Bell Labs в 1943 году. SIGSALY использовался для зашифрованной голосовой связи во время Второй мировой войны . Голосовой кодер KO-6 был выпущен в 1949 году в ограниченном количестве; он был близок к SIGSALY со скоростью 1200 бит/с. В 1953 году голосовой кодер KY-9 THESEUS [11] со скоростью 1650 бит/с использовал твердотельную логику для снижения веса до 565 фунтов (256 кг) с 55 коротких тонн (50 000 кг) SIGSALY, а в 1961 году голосовой кодер HY-2, 16-канальная система со скоростью 2400 бит/с, весила 100 фунтов (45 кг) и была последней реализацией канального вокодера в защищенной речевой системе. [12]
Более поздние работы в этой области с тех пор использовали цифровое кодирование речи . Наиболее широко используемым методом кодирования речи является линейное предсказательное кодирование (LPC). [13] Другой метод кодирования речи, адаптивная дифференциальная импульсно-кодовая модуляция (ADPCM), был разработан П. Каммиски, Никилом С. Джайантом и Джеймсом Л. Фланаганом в Bell Labs в 1973 году. [14]
Даже при необходимости записи нескольких частот и дополнительных невокализованных звуков сжатие систем вокодера впечатляет. Стандартные системы записи речи захватывают частоты от примерно 500 до 3400 Гц, где лежит большинство частот, используемых в речи, обычно используя частоту дискретизации 8 кГц (немного больше частоты Найквиста ) . Разрешение дискретизации обычно составляет 8 или более бит на разрешение выборки для скорости передачи данных в диапазоне 64 кбит/с, но хороший вокодер может обеспечить достаточно хорошую имитацию голоса с всего лишь 5 кбит/с данных.
Голосовые кодеры качества Toll , такие как ITU G.729 , используются во многих телефонных сетях. G.729, в частности, имеет конечную скорость передачи данных 8 кбит/с с превосходным качеством голоса. G.723 достигает немного худшего качества при скоростях передачи данных 5,3 и 6,4 кбит/с. Многие системы голосового вокодера используют более низкие скорости передачи данных, но ниже 5 кбит/с качество голоса начинает быстро падать. [ необходима цитата ]
В системах шифрования АНБ используется несколько систем вокодеров :
Современные вокодеры, которые сегодня используются в коммуникационном оборудовании и устройствах хранения голоса, основаны на следующих алгоритмах:
В настоящее время вокодеры также используются в психофизике , лингвистике , вычислительной нейронауке и исследованиях кохлеарных имплантатов .
С конца 1970-х годов большинство немузыкальных вокодеров были реализованы с использованием линейного предсказания , при котором спектральная огибающая целевого сигнала (форманта) оценивается всеполюсным БИХ- фильтром . При кодировании с линейным предсказанием всеполюсный фильтр заменяет банк полосовых фильтров своего предшественника и используется в кодере для отбеливания сигнала (т. е. выравнивания спектра) и снова в декодере для повторного применения спектральной формы целевого речевого сигнала.
Одним из преимуществ этого типа фильтрации является то, что местоположение спектральных пиков линейного предиктора полностью определяется целевым сигналом и может быть настолько точным, насколько это позволяет период времени, который необходимо отфильтровать. Это контрастирует с вокодерами, реализованными с использованием банков фильтров фиксированной ширины, где местоположение спектральных пиков ограничено доступными фиксированными частотными диапазонами. Фильтрация LP также имеет недостатки, заключающиеся в том, что сигналы с большим количеством составляющих частот могут превышать количество частот, которые может представить фильтр линейного предсказания. Это ограничение является основной причиной того, что кодирование LP почти всегда используется в тандеме с другими методами в кодерах голоса с высокой степенью сжатия.
Вокодер с интерполяцией формы волны (WI) был разработан в AT&T Bell Laboratories около 1995 года WB Kleijn, и впоследствии версия с низкой сложностью была разработана AT&T для конкурса DoD Secure Vocoder. Значительные усовершенствования кодера WI были сделаны в Калифорнийском университете в Санта-Барбаре . AT&T владеет основными патентами, связанными с WI, а другие институты владеют дополнительными патентами. [23] [24] [25]
Для музыкальных приложений источник музыкальных звуков используется в качестве носителя, вместо извлечения основной частоты. Например, можно использовать звук синтезатора в качестве входа в банк фильтров, метод, который стал популярным в 1970-х годах.
Вернер Майер-Эпплер , немецкий ученый, особо интересующийся электронным синтезом голоса, опубликовал в 1948 году диссертацию по электронной музыке и синтезу речи с точки зрения звукового синтеза . [26] Позднее он сыграл важную роль в основании Студии электронной музыки WDR в Кельне в 1951 году. [27]
Одной из первых попыток использования вокодера для создания музыки был синтезатор Siemens в студии электронной музыки Siemens, разработанный между 1956 и 1959 годами. [28] [29] [media 2]
В 1968 году Роберт Муг разработал один из первых твердотельных музыкальных вокодеров для студии электронной музыки Университета в Буффало . [30]
В 1968 году Брюс Хаак построил прототип вокодера, названный Фарад в честь Майкла Фарадея . [31] Впервые он был представлен на альбоме «The Electronic Record For Children», выпущенном в 1969 году, а затем на его рок-альбоме The Electric Lucifer, выпущенном в 1970 году. [32] [media 3]
В 1970 году Венди Карлос и Роберт Муг построили еще один музыкальный вокодер, десятиполосное устройство, вдохновленное конструкциями вокодеров Гомера Дадли . Первоначально он назывался спектральным кодером-декодером, а позже его стали называть просто вокодером. Несущий сигнал поступал с модульного синтезатора Муга , а модулятор — с микрофонного входа. Выход десятиполосного вокодера был довольно разборчивым, но полагался на специально артикулированную речь.
В 1972 году первый электронный музыкальный альбом Исао Томиты Electric Samurai: Switched on Rock был ранней попыткой применения техники синтеза речи через вокодер [ нужна цитата ] [ нужно разъяснение ] к электронному року . Альбом включал электронные интерпретации современных рок- и поп -песен, при этом вместо человеческих голосов использовались синтезированные голоса. В 1974 году он использовал синтезированные голоса в своем популярном альбоме классической музыки Snowflakes are Dancing , который имел всемирный успех и помог популяризировать электронную музыку.
В 1973 году британская группа Emerson, Lake and Palmer использовала вокодер на своем альбоме Brain Salad Surgery для песни « Karn Evil 9: 3rd Impression ».
В песне 1975 года " The Raven " из альбома Tales of Mystery and Imagination группы The Alan Parsons Project Алан Парсонс исполняет вокал через вокодер EMI. Согласно буклету альбома, "The Raven" стала первой рок-песней, в которой использовался цифровой вокодер.
Группа Pink Floyd использовала вокодер на трёх своих альбомах: сначала на альбоме Animals 1977 года для песен « Sheep » и « Pigs (Three Different Ones) », затем в 1987 году на альбоме A Momentary Lapse of Reason в песнях « A New Machine Part 1 » и «A New Machine Part 2» и, наконец, на альбоме The Division Bell 1994 года в песне « Keep Talking ».
Electric Light Orchestra были одними из первых, кто использовал вокодер в коммерческом контексте, в их альбоме 1977 года Out of the Blue . Группа широко использует его на альбоме, включая хиты « Sweet Talkin' Woman » и « Mr. Blue Sky ». [33] В следующих альбомах группа время от времени использовала его, в частности, в своих хитах « The Diary of Horace Wimp » и « Confusion » с их альбома 1979 года Discovery , треках «Prologue», «Yours Truly, 2095» и «Epilogue» с их альбома 1981 года Time , [34] и « Calling America » с их альбома 1986 года Balance of Power .
В конце 1970-х годов французский дуэт Space Art использовал вокодер во время записи своего второго альбома Trip in the Centre Head . [35]
Фил Коллинз использовал вокодер для создания вокального эффекта в своем международном хите 1981 года « In the Air Tonight ». [36]
Вокодеры время от времени появлялись в поп-записях, чаще всего просто как спецэффект, а не как характерный аспект работы. Однако многие экспериментальные электронные исполнители жанра музыки new-age часто используют вокодер более комплексно в конкретных работах, например, Жан-Мишель Жарр (на Zoolook , 1984) и Майк Олдфилд (на QE2 , 1980 и Five Miles Out , 1982).
Модуль вокодера и его использование Майком Олдфилдом можно наглядно увидеть на его DVD Live At Montreux 1981 (трек « Sheba »).
Есть также некоторые артисты, которые сделали вокодеры неотъемлемой частью своей музыки, в целом или в течение длительной фазы. Примерами являются немецкая синтипоп- группа Kraftwerk , японская новая волна группа Polysics , Стиви Уандер (" Send One Your Love ", " A Seed's a Star ") и джазовый/фьюжн-клавишник Херби Хэнкок в период его конца 1970-х годов. В 1982 году Нил Янг использовал Sennheiser Vocoder VSM201 на шести из девяти треков на Trans . [37] Припев и бридж песни Майкла Джексона " PYT (Pretty Young Thing) ". включает вокодер ("Pretty young thing/You make me sing"), любезно предоставленный сессионным музыкантом Майклом Боддикером .
Coldplay использовали вокодер в некоторых своих песнях. Например, в « Major Minus » и « Hurts Like Heaven », обе из альбома Mylo Xyloto (2011), вокал Криса Мартина в основном обработан вокодером. В « Midnight » из Ghost Stories (2014) Мартин также поет через вокодер. [38] Скрытый трек «X Marks the Spot» из A Head Full of Dreams также был записан через вокодер.
Группа Atari Teenage Riot в стиле нойзкор использовала вокодеры в различных своих песнях и живых выступлениях, таких как Live at the Brixton Academy (2002), наряду с другими цифровыми аудиотехнологиями, как старыми, так и новыми.
В песне Red Hot Chili Peppers « By the Way » используется эффект вокодера в вокале Энтони Кидиса .
Среди наиболее последовательных пользователей вокодера для имитации человеческого голоса — Daft Punk , которые использовали этот инструмент с их первого альбома Homework (1997) до их последней работы Random Access Memories (2013) и считают слияние технологического и человеческого голоса «идентичностью их музыкального проекта». [39] Например, тексты песен « Around the World » (1997) полностью обработаны вокодером, « Get Lucky » (2013) представляет собой смесь естественных и обработанных человеческих голосов, а в « Instant Crush » (2013) Джулиан Касабланкас поет в вокодер.
Йе (Канье Уэст) использовал вокодер в финальной части своей песни « Runaway » (2010). [40]
Продюсер Зедд , американская кантри-певица Марен Моррис и американский музыкальный дуэт Грей записали песню под названием « The Middle », в которой использовался вокодер, и которая вошла в десятку лучших чартов в 2018 году. [41]
Голоса роботов стали повторяющимся элементом популярной музыки в 20 веке. Помимо вокодеров, существуют и другие методы создания вариаций этого эффекта: Sonovox , Talk box , Auto-Tune , [media 4] линейные вокодеры предсказания, синтез речи , [media 5] [media 6] кольцевая модуляция и гребенчатый фильтр .
Вокодеры используются в телевизионном производстве , кинопроизводстве и играх, обычно для роботов или говорящих компьютеров. Голоса роботов Сайлонов в Battlestar Galactica были созданы с помощью EMS Vocoder 2000. [37] Версия темы Доктора Кто 1980 года , аранжированная и записанная Питером Хауэллом , имеет часть основной мелодии, сгенерированную вокодером Roland SVC-350. Похожий вокодер Roland VP-330 использовался для создания голоса Саундвейва , персонажа из серии Трансформеров .
Vocoder (Voice Operated reCorDER) и Voder (Voice Operation DEmonstratoR), разработанные физиком-исследователем Гомером Дадли, ... Voder был впервые представлен в 1939 году на Всемирной выставке в Нью-Йорке (где он демонстрировался с часовыми интервалами), а затем в 1940 году в Сан-Франциско. Было двадцать обученных операторов, известных как «девушки», которые обращались с машиной так же, как с музыкальным инструментом, таким как пианино или орган, ... Это делалось путем манипулирования четырнадцатью клавишами пальцами, стержнем левым запястьем и ножной педалью правой ногой.
LPC наиболее широко используются в кодировании речи
{{cite AV media notes}}
: CS1 maint: others in cite AV media (notes) (link){{cite AV media notes}}
: CS1 maint: others in cite AV media (notes) (link)