Обработка аудиосигналов — это подобласть обработки сигналов , которая связана с электронным манипулированием аудиосигналами . Аудиосигналы — это электронные представления звуковых волн — продольных волн , распространяющихся в воздухе и состоящих из сжатий и разрежений. Энергия, содержащаяся в аудиосигналах, или уровень звуковой мощности, обычно измеряется в децибелах . Поскольку аудиосигналы могут быть представлены как в цифровом , так и в аналоговом формате, обработка может происходить в любом домене. Аналоговые процессоры работают непосредственно с электрическим сигналом, тогда как цифровые процессоры математически оперируют его цифровым представлением.
Мотивация к обработке аудиосигналов началась в начале 20-го века с такими изобретениями, как телефон , фонограф и радио , которые позволили передавать и хранить аудиосигналы. Обработка звука была необходима для раннего радиовещания , так как было много проблем со связью между студией и передатчиком . [1] Теория обработки сигналов и ее применение к аудио были в значительной степени разработаны в Bell Labs в середине 20 века. Ранние работы Клода Шеннона и Гарри Найквиста по теории связи , теории выборки и импульсно-кодовой модуляции (ИКМ) заложили основы этой области. В 1957 году Макс Мэтьюз стал первым человеком, синтезировавшим звук с компьютера , что положило начало компьютерной музыке .
Основные разработки в области цифрового аудиокодирования и сжатия аудиоданных включают дифференциально-импульсно-кодовую модуляцию (DPCM) К. Чапина Катлера из Bell Labs в 1950 году, [2] линейное предсказательное кодирование (LPC) Фумитады Итакуры ( Университет Нагои ) и Сюдзо Сайто ( Nippon Telegraph and Telephone ) в 1966 году, [3] адаптивная DPCM (ADPCM) П. Каммиски, Никила С. Джаянта и Джеймса Л. Фланагана в Bell Labs в 1973 году, [4] [5] кодирование с дискретным косинусным преобразованием (DCT) с помощью Насир Ахмед , Т. Натараджан и К.Р. Рао в 1974 году [6] и модифицированное кодирование дискретного косинусного преобразования (MDCT) Дж. П. Принсеном, А. В. Джонсоном и А. Б. Брэдли в Университете Суррея в 1987 году. [7] LPC является основой для перцептивного кодирования и широко используется при кодировании речи [8] , в то время как кодирование MDCT широко используется в современных форматах кодирования звука , таких как MP3 [9] и Advanced Audio Coding (AAC). [10]
Аналоговый аудиосигнал — это непрерывный сигнал, представленный электрическим напряжением или током, который аналогичен звуковым волнам в воздухе. Обработка аналогового сигнала затем включает физическое изменение непрерывного сигнала путем изменения напряжения, тока или заряда через электрические цепи .
Исторически сложилось так, что до появления широко распространенных цифровых технологий аналоговый метод был единственным методом управления сигналом. С тех пор, когда компьютеры и программное обеспечение стали более функциональными и доступными, цифровая обработка сигналов стала предпочтительным методом. Однако в музыкальных приложениях аналоговая технология часто по-прежнему желательна, поскольку она часто дает нелинейные отклики, которые трудно воспроизвести с помощью цифровых фильтров.
Цифровое представление выражает форму звукового сигнала как последовательность символов, обычно двоичных чисел . Это позволяет обрабатывать сигналы с использованием цифровых схем , таких как процессоры цифровых сигналов , микропроцессоры и компьютеры общего назначения. Большинство современных аудиосистем используют цифровой подход, поскольку методы цифровой обработки сигналов гораздо более мощные и эффективные, чем обработка аналоговых сигналов. [11]
Методы обработки и области применения включают хранение , сжатие данных , извлечение музыкальной информации , обработку речи , локализацию , акустическое обнаружение , передачу , шумоподавление , акустическую идентификацию , распознавание звука , синтез и улучшение (например , эквализацию , фильтрацию , сжатие уровня , эхо и реверберацию) . удаление или добавление и т. д.).
Обработка аудиосигнала используется при трансляции аудиосигналов для повышения их точности или оптимизации полосы пропускания или задержки. В этой области наиболее важная обработка звука происходит непосредственно перед передатчиком. Звуковой процессор здесь должен предотвращать или минимизировать перемодуляцию , компенсировать нелинейные передатчики (потенциальная проблема при средневолновом и коротковолновом вещании) и регулировать общую громкость до желаемого уровня.
Активный шумоподавление — это метод, предназначенный для уменьшения нежелательного звука. Создавая сигнал, идентичный нежелательному шуму, но с противоположной полярностью, эти два сигнала нейтрализуются из-за деструктивных помех .
Синтез звука — это электронная генерация аудиосигналов. Музыкальный инструмент, который выполняет эту функцию, называется синтезатором. Синтезаторы могут как имитировать звуки , так и генерировать новые. Синтез звука также используется для генерации человеческой речи с помощью синтеза речи .
Аудиоэффекты изменяют звук музыкального инструмента или другого источника звука. Общие эффекты включают искажение , часто используемое с электрогитарой в электро-блюзе и рок-музыке ; динамические эффекты, такие как педали громкости и компрессоры , влияющие на громкость; фильтры , такие как педали «вау-вау» и графические эквалайзеры , которые изменяют частотные диапазоны; эффекты модуляции , такие как хорус , фленжеры и фэйзеры ; эффекты высоты тона , такие как сдвиги высоты тона ; и временные эффекты, такие как реверберация и задержка , которые создают эхо и имитируют звук разных пространств.
Музыканты, звукоинженеры и продюсеры используют блоки эффектов во время живых выступлений или в студии, обычно с электрогитарой, бас-гитарой, электронными клавишными или электрическим пианино . Хотя эффекты чаще всего используются с электрическими или электронными инструментами, их можно использовать с любым источником звука, например с акустическими инструментами, барабанами и вокалом. [12] [13]
Компьютерное прослушивание (CA) или машинное прослушивание — это общая область изучения алгоритмов и систем машинной интерпретации звука. [14] [15] Поскольку понятие того, что значит для машины «слышать», очень широкое и несколько расплывчатое, компьютерное прослушивание пытается объединить несколько дисциплин, которые изначально занимались конкретными проблемами или имели конкретное применение. Инженер Пэрис Смарагдис , в интервью журналу Technology Review , рассказывает об этих системах — «программном обеспечении, которое использует звук для определения местоположения людей, перемещающихся по помещениям, контролирует машины на предмет надвигающихся поломок или активирует дорожные камеры для регистрации аварий». [16]
Вдохновленный моделями человеческого слуха , CA занимается вопросами представления, преобразования , группировки, использования музыкальных знаний и общей звуковой семантики с целью выполнения компьютером интеллектуальных операций над аудио и музыкальными сигналами. Технически это требует сочетания методов из области обработки сигналов , слухового моделирования, восприятия и познания музыки , распознавания образов и машинного обучения , а также более традиционных методов искусственного интеллекта для представления музыкальных знаний. [17] [18]{{cite book}}
: CS1 maint: несколько имен: список авторов ( ссылка )