Цифровое аудио — это представление звука , записанного или преобразованного в цифровую форму . В цифровом аудио звуковая волна аудиосигнала обычно кодируется в виде числовых выборок в непрерывной последовательности. Например, в аудио CD семплы берутся 44 100 раз в секунду , каждый с глубиной семпла 16 бит . Цифровое аудио — это также название всей технологии записи и воспроизведения звука с использованием аудиосигналов, закодированных в цифровой форме. После значительных достижений в области цифровых аудиотехнологий в 1970-х и 1980-х годах они постепенно заменили аналоговые аудиотехнологии во многих областях аудиотехники , производства пластинок и телекоммуникаций в 1990-х и 2000-х годах.
В цифровой аудиосистеме аналоговый электрический сигнал, представляющий звук, преобразуется с помощью аналого-цифрового преобразователя (АЦП) в цифровой сигнал, обычно с использованием импульсно-кодовой модуляции (ИКМ). Этот цифровой сигнал затем можно записывать, редактировать, модифицировать и копировать с помощью компьютеров , устройств воспроизведения звука и других цифровых инструментов. При воспроизведении цифро-аналоговый преобразователь (ЦАП) выполняет обратный процесс, преобразуя цифровой сигнал обратно в аналоговый сигнал, который затем передается через усилитель мощности звука и, в конечном итоге, на громкоговоритель .
Цифровые аудиосистемы могут включать в себя компоненты сжатия , хранения , обработки и передачи . Преобразование в цифровой формат позволяет удобно манипулировать, хранить, передавать и извлекать аудиосигнал. В отличие от аналогового звука, при котором копирование записи приводит к потерям генерации и ухудшению качества сигнала, цифровой звук позволяет создавать бесконечное количество копий без какого-либо ухудшения качества сигнала.
Цифровые аудиотехнологии используются при записи, обработке, массовом производстве и распространении звука, включая записи песен , инструментальных произведений, подкастов , звуковых эффектов и других звуков. Современное распространение музыки в Интернете зависит от цифровой записи и сжатия данных . Доступность музыки в виде файлов данных, а не физических объектов, значительно снизила затраты на распространение, а также облегчила обмен копиями. [1] До появления цифрового аудио музыкальная индустрия распространяла и продавала музыку, продавая физические копии в виде пластинок и кассет . С помощью систем цифрового аудио и онлайн-распространения, таких как iTunes , компании продают потребителям цифровые звуковые файлы, которые потребитель получает через Интернет. Популярные потоковые сервисы, такие как Apple Music , Spotify или Youtube , предлагают временный доступ к цифровому файлу и в настоящее время являются наиболее распространенной формой потребления музыки. [2]
Аналоговая аудиосистема преобразует физические формы звука в электрические представления этих сигналов с помощью преобразователя , например микрофона . Звуки затем сохраняются на аналоговом носителе, таком как магнитная лента , или передаются через аналоговый носитель, такой как телефонная линия или радио . При воспроизведении процесс обратный: электрический аудиосигнал усиливается , а затем преобразуется обратно в физические сигналы через громкоговоритель . Аналоговый звук сохраняет свои фундаментальные волновые характеристики при хранении, преобразовании, дублировании и усилении.
Аналоговые аудиосигналы подвержены шуму и искажениям из-за врожденных характеристик электронных схем и связанных с ними устройств. Помехи в цифровой системе не приводят к ошибке, если только они не настолько велики, что приводят к неправильной интерпретации символа как другого символа или к нарушению последовательности символов. Таким образом, в целом возможно иметь полностью безошибочную цифровую аудиосистему, в которой между преобразованием в цифровой формат и обратным преобразованием в аналоговый не возникает шума или искажений. [а]
Цифровой аудиосигнал может быть закодирован для исправления любых ошибок, которые могут возникнуть при хранении или передаче сигнала. Этот метод, известный как канальное кодирование , необходим для цифровых систем вещания или записи для поддержания точности битов. Модуляция от восьми до четырнадцати — это код канала, используемый для аудиокомпакт -диска (CD).
Если аудиосигнал является аналоговым, цифровая аудиосистема начинается с АЦП, который преобразует аналоговый сигнал в цифровой сигнал. [b] АЦП работает с заданной частотой дискретизации и выполняет преобразование с известным битовым разрешением. CD-аудио , например, имеет частоту дискретизации 44,1 кГц (44 100 выборок в секунду) и 16-битное разрешение для каждого стереоканала . Аналоговые сигналы, полоса которых еще не была ограничена , перед преобразованием должны быть пропущены через фильтр сглаживания , чтобы предотвратить искажение наложения спектров , вызываемое аудиосигналами с частотами выше частоты Найквиста (половина частоты дискретизации).
Цифровой аудиосигнал может храниться или передаваться. Цифровое аудио можно хранить на компакт-диске, цифровом аудиоплеере , жестком диске , USB-накопителе или любом другом устройстве хранения цифровых данных . Цифровой сигнал может быть изменен посредством цифровой обработки сигнала , где он может быть отфильтрован или к нему применены эффекты . Преобразование частоты дискретизации , включая повышающую и понижающую дискретизацию , можно использовать для изменения сигналов, которые были закодированы с другой частотой дискретизации, на общую частоту дискретизации перед обработкой. Для уменьшения размера файла обычно используются методы сжатия аудиоданных, такие как MP3 , Advanced Audio Coding , Ogg Vorbis или FLAC . Цифровое аудио может передаваться через цифровые аудиоинтерфейсы, такие как AES3 или MADI . Цифровое аудио может передаваться по сети с использованием аудио через Ethernet , аудио через IP или других стандартов и систем потокового мультимедиа .
Для воспроизведения цифровой звук необходимо преобразовать обратно в аналоговый сигнал с помощью ЦАП. Согласно теореме выборки Найквиста-Шеннона , с некоторыми практическими и теоретическими ограничениями, версия исходного аналогового сигнала с ограниченной полосой частот может быть точно восстановлена из цифрового сигнала.
Во время преобразования аудиоданные могут быть снабжены цифровым водяным знаком для предотвращения пиратства и несанкционированного использования. Нанесение водяных знаков осуществляется с использованием метода расширения спектра прямой последовательности (DSSS). Аудиоинформация затем модулируется псевдошумовой (ПШ) последовательностью, затем формируется в частотной области и возвращается в исходный сигнал. Сила встраивания определяет силу водяного знака в аудиоданных. [4]
Импульсно-кодовая модуляция (ИКМ) была изобретена британским ученым Алеком Ривзом в 1937 году. [5] В 1950 году К. Чапин Катлер из Bell Labs подал патент на дифференциальную импульсно-кодовую модуляцию (DPCM), [6] алгоритм сжатия данных . . Адаптивный DPCM (ADPCM) был представлен П. Каммиски, Никилом С. Джаянтом и Джеймсом Л. Фланаганом в Bell Labs в 1973 году. [7] [8]
Перцептивное кодирование было впервые использовано для сжатия кодирования речи с помощью кодирования с линейным предсказанием (LPC). [9] Первоначальные концепции LPC восходят к работе Фумитады Итакуры ( Университет Нагои ) и Сюдзо Сайто ( Nippon Telegraph and Telephone ) в 1966 году . [10] В 1970-х годах Бишну С. Атал и Манфред Р. Шредер в Bell Labs разработал форму LPC, называемую адаптивным прогнозирующим кодированием (APC), алгоритм перцептивного кодирования, который использовал маскирующие свойства человеческого уха, за которым в начале 1980-х годов последовал алгоритм линейного прогнозирования с кодовым возбуждением (CELP). [9]
Кодирование с дискретным косинусным преобразованием (DCT), метод сжатия с потерями , впервые предложенный Насиром Ахмедом в 1972 году, [11] [12] послужил основой для модифицированного дискретного косинусного преобразования (MDCT), которое было разработано Дж. П. Принсеном, А. В. Джонсоном и А. Б. Брэдли в 1987 году. [13] MDCT является основой для большинства стандартов кодирования звука , таких как Dolby Digital (AC-3), [14] MP3 ( MPEG Layer III), [15] [9] Advanced Audio Coding (AAC). , Windows Media Audio (WMA) и Vorbis ( Ogg ). [14]
PCM использовался в телекоммуникационных приложениях задолго до его первого использования в коммерческом вещании и записи. Коммерческая цифровая запись была впервые внедрена в Японии компаниями NHK и Nippon Columbia и их брендом Denon в 1960-х годах. Первые коммерческие цифровые записи были выпущены в 1971 году. [16]
BBC также начала экспериментировать с цифровым звуком в 1960-х годах . К началу 1970-х годов компания разработала двухканальный рекордер, а в 1972 году внедрила систему цифровой передачи звука, которая связала центр вещания с удаленными передатчиками. [16]
Первая 16-битная запись PCM в США была сделана Томасом Стокхэмом в Опере Санта-Фе в 1976 году на записывающем устройстве Soundstream . Усовершенствованная версия системы Soundstream использовалась Telarc для создания нескольких классических записей в 1978 году. Разрабатываемый в то время цифровой многодорожечный рекордер 3M был основан на технологии BBC. Первым полностью цифровым альбомом, записанным на этом аппарате, стал альбом Рая Кудера « Bop Till You Drop» в 1979 году. Британский лейбл Decca начал разработку собственных двухдорожечных цифровых аудиорекордеров в 1978 году и выпустил первую европейскую цифровую запись в 1979 году . 16]
Популярные профессиональные цифровые многодорожечные записывающие устройства, произведенные Sony/Studer ( DASH ) и Mitsubishi ( ProDigi ) в начале 1980-х годов, помогли добиться признания цифровой записи крупными звукозаписывающими компаниями. Машины для этих форматов также имели свои собственные встроенные транспортеры, использующие катушечную ленту шириной 1/4", 1/2" или 1 дюйм, при этом аудиоданные записывались на ленту с помощью мультикассеты. Стационарная магнитофонная головка с дорожкой. PCM-адаптеры позволяли осуществлять цифровую стереозапись звука на обычный видеомагнитофон NTCS или PAL .
Появление компакт-дисков в 1982 году популяризировало цифровое аудио среди потребителей. [16]
ADAT стал доступен в начале 1990-х годов, что позволяло записывать восемь дорожек с частотой 44,1 или 48 кГц на кассеты S-VHS, а DTRS выполнял аналогичную функцию с лентами Hi8.
Такие форматы , как ProDigi и DASH, назывались форматами SDAT ( цифровая аудиокассета со стационарной головкой ), в отличие от таких форматов, как системы на базе адаптеров PCM и DAT, которые назывались RDAT ( D с вращающейся головкой ) . igital Audio Tape ) из-за их процесса записи со спиральной разверткой .
Как и кассета DAT , машины ProDigi и DASH также поддерживают обязательную частоту дискретизации 44,1 кГц, но также и 48 кГц на всех машинах и, в конечном итоге, частоту дискретизации 96 кГц. Они преодолели проблемы, из-за которых типичные аналоговые записывающие устройства не могли удовлетворить требования к полосе пропускания (диапазону частот) цифровой записи за счет сочетания более высоких скоростей ленты, более узких зазоров между головками, используемых в сочетании с лентами с металлическим составом, и распределения данных по нескольким параллельным каналам. треки.
В отличие от аналоговых систем, современные цифровые звуковые рабочие станции и аудиоинтерфейсы позволяют использовать столько каналов с таким количеством различных частот дискретизации, сколько компьютер может эффективно работать одновременно. Avid Audio и Steinberg выпустили первые программы для рабочих станций цифрового аудио в 1989 году. [17] Рабочие станции цифрового звука значительно упрощают многодорожечную запись и микширование для крупных проектов, которые в противном случае были бы затруднительны с аналоговым оборудованием.
Быстрое развитие и широкое распространение цифровой телефонии PCM стало возможным благодаря технологии переключаемых конденсаторов (SC) металл-оксид-полупроводник (MOS ), разработанной в начале 1970-х годов. [18] Это привело к разработке чипов кодеков-фильтров PCM в конце 1970-х годов. [18] [19] Чип кодека-фильтра PCM с кремниевым затвором CMOS (дополнительный MOS), разработанный Дэвидом А. Ходжесом и У. К. Блэком в 1980 году, [18] с тех пор стал отраслевым стандартом для цифровой телефонии. [18] [19] К 1990-м годам телекоммуникационные сети , такие как коммутируемая телефонная сеть общего пользования (PSTN), были в значительной степени оцифрованы с помощью кодеков-кодеков CMOS PCM VLSI (очень крупномасштабной интеграции ), широко используемых в электронных системах коммутации для телефонных станций. , модемы на стороне пользователя и ряд приложений цифровой передачи , таких как цифровая сеть с интеграцией услуг (ISDN), беспроводные телефоны и сотовые телефоны . [19]
Цифровое аудио используется при трансляции звука. Стандартные технологии включают цифровое аудиовещание (DAB), мировое цифровое радио (DRM), HD-радио и внутриполосное внутриканальное радиовещание (IBOC).
Цифровой звук в приложениях записи хранится на специальных аудиотехнологиях, включая компакт-диски, цифровые аудиокассеты (DAT), цифровые компакт-кассеты (DCC) и мини-диски . Цифровое аудио может храниться в стандартных форматах аудиофайлов и храниться на рекордере с жестким диском , Blu-ray или DVD-Audio . Файлы можно воспроизводить на смартфонах, компьютерах или MP3-плеерах . Разрешение цифрового звука измеряется глубиной сэмпла . Большинство цифровых аудиоформатов используют глубину выборки 16, 24 или 32 бита.
Для персональных компьютеров USB и IEEE 1394 предусматривают передачу цифрового звука в реальном времени. USB-интерфейсы становятся все более популярными среди независимых аудиоинженеров и продюсеров благодаря своим небольшим размерам и простоте использования. В профессиональных архитектурных или монтажных приложениях существует множество протоколов и интерфейсов передачи звука через Ethernet . В радиовещании предпочтение отдается более общей технологии передачи звука по IP- сети. В телефонии передача голоса по IP используется в качестве сетевого интерфейса для цифрового аудио для голосовой связи.
Несколько интерфейсов предназначены для совместной передачи цифрового видео и аудио, включая HDMI и DisplayPort . Некоторые интерфейсы поддерживают MIDI , а также аналоговые порты XLR и TRS .
Интерфейсы, специфичные для цифрового аудио, включают в себя: