stringtranslate.com

Обработка аудиосигнала

Обработка аудиосигналов — это подобласть обработки сигналов , которая связана с электронным манипулированием аудиосигналами . Аудиосигналы — это электронные представления звуковых волнпродольных волн , распространяющихся в воздухе и состоящих из сжатий и разрежений. Энергия, содержащаяся в аудиосигналах, или уровень звуковой мощности, обычно измеряется в децибелах . Поскольку аудиосигналы могут быть представлены как в цифровом , так и в аналоговом формате, обработка может происходить в любом домене. Аналоговые процессоры работают непосредственно с электрическим сигналом, тогда как цифровые процессоры математически оперируют его цифровым представлением.

История

Мотивация к обработке аудиосигналов началась в начале 20-го века с такими изобретениями, как телефон , фонограф и радио , которые позволили передавать и хранить аудиосигналы. Обработка звука была необходима для раннего радиовещания , так как было много проблем со связью между студией и передатчиком . [1] Теория обработки сигналов и ее применение к аудио были в значительной степени разработаны в Bell Labs в середине 20 века. Ранние работы Клода Шеннона и Гарри Найквиста по теории связи , теории выборки и импульсно-кодовой модуляции (ИКМ) заложили основы этой области. В 1957 году Макс Мэтьюз стал первым человеком, синтезировавшим звук с компьютера , что положило начало компьютерной музыке .

Основные разработки в области цифрового аудиокодирования и сжатия аудиоданных включают дифференциально-импульсно-кодовую модуляцию (DPCM) К. Чапина Катлера из Bell Labs в 1950 году, [2] линейное предсказательное кодирование (LPC) Фумитады Итакуры ( Университет Нагои ) и Сюдзо Сайто ( Nippon Telegraph and Telephone ) в 1966 году, [3] адаптивная DPCM (ADPCM) П. Каммиски, Никила С. Джаянта и Джеймса Л. Фланагана в Bell Labs в 1973 году, [4] [5] кодирование с дискретным косинусным преобразованием (DCT) с помощью Насир Ахмед , Т. Натараджан и К.Р. Рао в 1974 году [6] и модифицированное кодирование дискретного косинусного преобразования (MDCT) Дж. П. Принсеном, А. В. Джонсоном и А. Б. Брэдли в Университете Суррея в 1987 году. [7] LPC является основой для перцептивного кодирования и широко используется при кодировании речи [8] , в то время как кодирование MDCT широко используется в современных форматах кодирования звука , таких как MP3 [9] и Advanced Audio Coding (AAC). [10]

Типы

Аналоговый

Аналоговый аудиосигнал — это непрерывный сигнал, представленный электрическим напряжением или током, который аналогичен звуковым волнам в воздухе. Обработка аналогового сигнала затем включает физическое изменение непрерывного сигнала путем изменения напряжения, тока или заряда через электрические цепи .

Исторически сложилось так, что до появления широко распространенных цифровых технологий аналоговый метод был единственным методом управления сигналом. С тех пор, когда компьютеры и программное обеспечение стали более функциональными и доступными, цифровая обработка сигналов стала предпочтительным методом. Однако в музыкальных приложениях аналоговая технология часто по-прежнему желательна, поскольку она часто дает нелинейные отклики, которые трудно воспроизвести с помощью цифровых фильтров.

Цифровой

Цифровое представление выражает форму звукового сигнала как последовательность символов, обычно двоичных чисел . Это позволяет обрабатывать сигналы с использованием цифровых схем , таких как процессоры цифровых сигналов , микропроцессоры и компьютеры общего назначения. Большинство современных аудиосистем используют цифровой подход, поскольку методы цифровой обработки сигналов гораздо более мощные и эффективные, чем обработка аналоговых сигналов. [11]

Приложения

Методы обработки и области применения включают хранение , сжатие данных , извлечение музыкальной информации , обработку речи , локализацию , акустическое обнаружение , передачу , шумоподавление , акустическую идентификацию , распознавание звука , синтез и улучшение (например , эквализацию , фильтрацию , сжатие уровня , эхо и реверберацию) . удаление или добавление и т. д.).

Аудиовещание

Обработка аудиосигнала используется при трансляции аудиосигналов для повышения их точности или оптимизации полосы пропускания или задержки. В этой области наиболее важная обработка звука происходит непосредственно перед передатчиком. Звуковой процессор здесь должен предотвращать или минимизировать перемодуляцию , компенсировать нелинейные передатчики (потенциальная проблема при средневолновом и коротковолновом вещании) и регулировать общую громкость до желаемого уровня.

Активный контроль шума

Активный шумоподавление — это метод, предназначенный для уменьшения нежелательного звука. Создавая сигнал, идентичный нежелательному шуму, но с противоположной полярностью, эти два сигнала нейтрализуются из-за деструктивных помех .

Синтез звука

Синтез звука — это электронная генерация аудиосигналов. Музыкальный инструмент, который выполняет эту функцию, называется синтезатором. Синтезаторы могут как имитировать звуки , так и генерировать новые. Синтез звука также используется для генерации человеческой речи с помощью синтеза речи .

Аудио эффекты

Аудиоэффекты изменяют звук музыкального инструмента или другого источника звука. Общие эффекты включают искажение , часто используемое с электрогитарой в электро-блюзе и рок-музыке ; динамические эффекты, такие как педали громкости и компрессоры , влияющие на громкость; фильтры , такие как педали «вау-вау» и графические эквалайзеры , которые изменяют частотные диапазоны; эффекты модуляции , такие как хорус , фленжеры и фэйзеры ; эффекты высоты тона , такие как сдвиги высоты тона ; и временные эффекты, такие как реверберация и задержка , которые создают эхо и имитируют звук разных пространств.

Музыканты, звукоинженеры и продюсеры используют блоки эффектов во время живых выступлений или в студии, обычно с электрогитарой, бас-гитарой, электронными клавишными или электрическим пианино . Хотя эффекты чаще всего используются с электрическими или электронными инструментами, их можно использовать с любым источником звука, например с акустическими инструментами, барабанами и вокалом. [12] [13]

Компьютерное прослушивание

Компьютерное прослушивание (CA) или машинное прослушивание — это общая область изучения алгоритмов и систем машинной интерпретации звука. [14] [15] Поскольку понятие того, что значит для машины «слышать», очень широкое и несколько расплывчатое, компьютерное прослушивание пытается объединить несколько дисциплин, которые изначально занимались конкретными проблемами или имели конкретное применение. Инженер Пэрис Смарагдис , в интервью журналу Technology Review , рассказывает об этих системах — «программном обеспечении, которое использует звук для определения местоположения людей, перемещающихся по помещениям, контролирует машины на предмет надвигающихся поломок или активирует дорожные камеры для регистрации аварий». [16]

Вдохновленный моделями человеческого слуха , CA занимается вопросами представления, преобразования , группировки, использования музыкальных знаний и общей звуковой семантики с целью выполнения компьютером интеллектуальных операций над аудио и музыкальными сигналами. Технически это требует сочетания методов из области обработки сигналов , слухового моделирования, восприятия и познания музыки , распознавания образов и машинного обучения , а также более традиционных методов искусственного интеллекта для представления музыкальных знаний. [17] [18]

Смотрите также

Рекомендации

  1. ^ Атти, Андреас Спаниас, Тед Пейнтер, Венкатраман (2006). Обработка и кодирование аудиосигнала (изд. [Online-Ausg.]). Хобокен, Нью-Джерси: John Wiley & Sons. п. 464. ИСБН 0-471-79147-4.{{cite book}}: CS1 maint: несколько имен: список авторов ( ссылка )
  2. ^ Патент США 2605361, К. Чапин Катлер, «Дифференциальное квантование сигналов связи», выдан 29 июля 1952 г. 
  3. ^ Грей, Роберт М. (2010). «История цифровой речи в реальном времени в пакетных сетях: Часть II линейного прогнозирующего кодирования и интернет-протокола» (PDF) . Найденный. Процесс сигналов трендов . 3 (4): 203–303. дои : 10.1561/2000000036 . ISSN  1932-8346. Архивировано (PDF) из оригинала 9 октября 2022 г.
  4. ^ П. Каммиски, Никил С. Джаянт и Дж. Л. Фланаган, «Адаптивное квантование в дифференциальном ИКМ-кодировании речи», Bell Syst. Тех. Дж. , вып. 52, стр. 1105–1118, сентябрь 1973 г.
  5. ^ Каммиски, П.; Джаянт, Никил С.; Фланаган, Дж. Л. (1973). «Адаптивное квантование при дифференциальном ИКМ-кодировании речи». Технический журнал Bell System . 52 (7): 1105–1118. doi :10.1002/j.1538-7305.1973.tb02007.x. ISSN  0005-8580.
  6. ^ Насир Ахмед ; Т. Натараджан; Камисетти Рамамохан Рао (январь 1974 г.). «Дискретное косинусное преобразование» (PDF) . Транзакции IEEE на компьютерах . С-23 (1): 90–93. дои : 10.1109/TC.1974.223784. S2CID  149806273. Архивировано (PDF) из оригинала 9 октября 2022 г.
  7. ^ Дж. П. Принсен, А. В. Джонсон и А. Б. Брэдли: Кодирование поддиапазонов/преобразований с использованием конструкций банка фильтров на основе отмены наложения псевдонимов во временной области , IEEE Proc. Международный Конференция по акустике, речи и обработке сигналов (ICASSP), 2161–2164, 1987.
  8. ^ Шредер, Манфред Р. (2014). «Лаборатории Белла». Акустика, информация и связь: Мемориальный том в честь Манфреда Р. Шредера . Спрингер. п. 388. ИСБН 9783319056609.
  9. ^ Гукерт, Джон (весна 2012 г.). «Использование БПФ и MDCT в сжатии аудио MP3» (PDF) . Университет Юты . Архивировано (PDF) из оригинала 9 октября 2022 г. Проверено 14 июля 2019 г.
  10. ^ Бранденбург, Карлхайнц (1999). «Объяснение MP3 и AAC» (PDF) . Архивировано (PDF) из оригинала 13 февраля 2017 г.
  11. ^ Зёльцер, Удо (1997). Цифровая обработка аудиосигнала . Джон Уайли и сыновья. ISBN 0-471-97226-6.
  12. ^ Хорн, Грег (2000). Полный метод игры на акустической гитаре: освоение акустической гитары c. Альфред Музыка. п. 92. ИСБН 9781457415043.
  13. ^ Якабуски, Джим (2001). Профессиональные приемы звукоусиления: советы и рекомендации концертного звукорежиссера. Хэл Леонард. п. 139. ИСБН 9781931140065.
  14. ^ Машинное прослушивание: принципы, алгоритмы и системы. IGI Global. 2011. ISBN 9781615209194.
  15. ^ «Машинное прослушивание: принципы, алгоритмы и системы» (PDF) .
  16. ^ Пэрис Смарагдис научила компьютеры воспроизводить более реалистичную музыку.
  17. ^ Тангиан (Тангиан), Андраник (1993). Искусственное восприятие и распознавание музыки . Конспект лекций по искусственному интеллекту. Том. 746. Берлин-Гейдельберг: Шпрингер. ISBN 978-3-540-57394-4.
  18. ^ Тангиан (Тангиан), Андраник (1994). «Принцип корреляции восприятия и его применение к распознаванию музыки». Музыкальное восприятие . 11 (4): 465–502. дои : 10.2307/40285634. JSTOR  40285634.

дальнейшее чтение