Цифровое аудио — это представление звука, записанного в цифровой форме или преобразованного в нее . В цифровом аудио звуковая волна аудиосигнала обычно кодируется в виде числовых сэмплов в непрерывной последовательности. Например, в аудио компакт-дисках сэмплы берутся 44 100 раз в секунду , каждый с разрешением 16 бит . Цифровое аудио — это также название всей технологии записи и воспроизведения звука с использованием аудиосигналов , закодированных в цифровой форме. После значительных достижений в области цифровой аудиотехнологии в 1970-х и 1980-х годах она постепенно заменила аналоговую аудиотехнологию во многих областях аудиотехники , звукозаписывающего производства и телекоммуникаций в 1990-х и 2000-х годах.
В цифровой аудиосистеме аналоговый электрический сигнал, представляющий звук, преобразуется с помощью аналого-цифрового преобразователя (АЦП) в цифровой сигнал, обычно с использованием импульсно-кодовой модуляции (ИКМ). Затем этот цифровой сигнал можно записывать, редактировать, изменять и копировать с помощью компьютеров , аудиоустройств и других цифровых инструментов. Для воспроизведения цифро-аналоговый преобразователь (ЦАП) выполняет обратный процесс, преобразуя цифровой сигнал обратно в аналоговый сигнал, который затем отправляется через усилитель мощности звука и в конечном итоге на громкоговоритель .
Цифровые аудиосистемы могут включать в себя компоненты сжатия , хранения , обработки и передачи . Преобразование в цифровой формат обеспечивает удобную обработку, хранение, передачу и извлечение аудиосигнала. В отличие от аналогового аудио, в котором копирование записи приводит к потере генерации и ухудшению качества сигнала, цифровое аудио позволяет делать бесконечное количество копий без какого-либо ухудшения качества сигнала.
Цифровые аудиотехнологии используются для записи, обработки, массового производства и распространения звука, включая записи песен , инструментальных произведений, подкастов , звуковых эффектов и других звуков. Современная онлайн-распространение музыки зависит от цифровой записи и сжатия данных . Доступность музыки в виде файлов данных, а не физических объектов, значительно снизила стоимость распространения, а также упростила обмен копиями. [1] До появления цифрового аудио музыкальная индустрия распространяла и продавала музыку, продавая физические копии в виде пластинок и кассет . С помощью цифровых аудиосистем и систем онлайн-распространения, таких как iTunes , компании продают потребителям цифровые звуковые файлы, которые потребитель получает через Интернет. Популярные потоковые сервисы, такие как Apple Music , Spotify или YouTube , предлагают временный доступ к цифровому файлу и в настоящее время являются наиболее распространенной формой потребления музыки. [2]
Аналоговая аудиосистема преобразует физические формы звуковых волн в электрические представления этих форм волн с помощью преобразователя , например микрофона . Затем звуки сохраняются на аналоговом носителе, например магнитной ленте , или передаются через аналоговую среду, например телефонную линию или радио . Для воспроизведения процесс обратный: электрический звуковой сигнал усиливается , а затем преобразуется обратно в физические формы волн с помощью громкоговорителя . Аналоговый звук сохраняет свои основные волнообразные характеристики на протяжении всего хранения, преобразования, копирования и усиления.
Аналоговые аудиосигналы подвержены шуму и искажениям из-за внутренних характеристик электронных схем и связанных с ними устройств. Нарушения в цифровой системе не приводят к ошибке, если только они не настолько велики, чтобы привести к неправильной интерпретации символа как другого символа или нарушению последовательности символов. Поэтому, как правило, возможно иметь полностью свободную от ошибок цифровую аудиосистему, в которой не вносится шум или искажение между преобразованием в цифровой формат и преобразованием обратно в аналоговый. [a]
Цифровой аудиосигнал может быть закодирован для исправления любых ошибок, которые могут возникнуть при хранении или передаче сигнала. Эта техника, известная как канальное кодирование , необходима для вещательных или записанных цифровых систем для поддержания точности битов. Модуляция восемь-четырнадцать — это канальный код, используемый для аудио компакт-диска (CD).
Если аудиосигнал аналоговый, цифровая аудиосистема начинается с АЦП, который преобразует аналоговый сигнал в цифровой. [b] АЦП работает с заданной частотой дискретизации и преобразует с известным разрешением бит. Например, аудио CD имеет частоту дискретизации 44,1 кГц (44 100 выборок в секунду) и разрешение 16 бит для каждого стереоканала . Аналоговые сигналы, которые еще не были ограничены по полосе пропускания, должны быть пропущены через фильтр сглаживания перед преобразованием, чтобы предотвратить искажение из-за наложения спектров , вызванное аудиосигналами с частотами выше частоты Найквиста (половина частоты дискретизации).
Цифровой аудиосигнал может храниться или передаваться. Цифровой звук может храниться на CD, цифровом аудиоплеере , жестком диске , USB-флэш-накопителе или любом другом устройстве хранения цифровых данных . Цифровой сигнал может быть изменен с помощью цифровой обработки сигнала , где он может быть отфильтрован или иметь эффекты . Преобразование частоты дискретизации , включая повышение и понижение частоты дискретизации, может использоваться для изменения сигналов, которые были закодированы с другой частотой дискретизации, на общую частоту дискретизации перед обработкой. Методы сжатия аудиоданных, такие как MP3 , Advanced Audio Coding (AAC), Opus , Ogg Vorbis или FLAC , обычно используются для уменьшения размера файла. Цифровой звук может передаваться по цифровым аудиоинтерфейсам, таким как AES3 или MADI . Цифровой звук может передаваться по сети с использованием аудио по Ethernet , аудио по IP или других стандартов и систем потокового мультимедиа .
Для воспроизведения цифровой звук должен быть преобразован обратно в аналоговый сигнал с помощью ЦАП. Согласно теореме о дискретизации Найквиста-Шеннона , с некоторыми практическими и теоретическими ограничениями, ограниченная по полосе версия исходного аналогового сигнала может быть точно восстановлена из цифрового сигнала.
Во время преобразования аудиоданные могут быть встроены с цифровым водяным знаком для предотвращения пиратства и несанкционированного использования. Водяные знаки создаются с использованием метода прямой последовательности расширенного спектра (DSSS). Затем аудиоинформация модулируется псевдошумовой (PN) последовательностью, затем формируется в частотной области и возвращается в исходный сигнал. Сила встраивания определяет силу водяного знака на аудиоданных. [4]
Импульсно-кодовая модуляция (ИКМ) была изобретена британским ученым Алеком Ривзом в 1937 году. [5] В 1950 году Ч. Чапин Катлер из Bell Labs подал патент на дифференциальную импульсно-кодовую модуляцию (ДИКМ), [6] алгоритм сжатия данных . Адаптивная ДИКМ (АДИКМ) была представлена П. Каммиски, Никилом С. Джайантом и Джеймсом Л. Фланаганом в Bell Labs в 1973 году. [7] [8]
Перцептивное кодирование впервые было использовано для сжатия речевого кодирования с линейным предсказательным кодированием (LPC). [9] Первоначальные концепции LPC восходят к работе Фумитады Итакуры ( Университет Нагои ) и Шузо Сайто ( Nippon Telegraph and Telephone ) в 1966 году. [10] В 1970-х годах Бишну С. Атал и Манфред Р. Шредер в Bell Labs разработали форму LPC, называемую адаптивным предсказательным кодированием (APC), алгоритм перцептивного кодирования, который использовал маскирующие свойства человеческого уха, за которым в начале 1980-х годов последовал алгоритм линейного предсказания с кодовым возбуждением (CELP). [9]
Кодирование с использованием дискретного косинусного преобразования (DCT), метода сжатия с потерями, впервые предложенного Насиром Ахмедом в 1972 году, [11] [12] легло в основу модифицированного дискретного косинусного преобразования (MDCT), разработанного JP Princen, AW Johnson и AB Bradley в 1987 году. [13] MDCT является основой для большинства стандартов аудиокодирования , таких как Dolby Digital (AC-3), [14] MP3 ( MPEG Layer III), [15] [9] AAC, Windows Media Audio (WMA), Opus и Vorbis ( Ogg ). [14]
PCM использовался в телекоммуникационных приложениях задолго до его первого использования в коммерческом вещании и записи. Коммерческая цифровая запись была впервые осуществлена в Японии NHK и Nippon Columbia и их брендом Denon в 1960-х годах. Первые коммерческие цифровые записи были выпущены в 1971 году. [16]
BBC также начала экспериментировать с цифровым звуком в 1960-х годах. К началу 1970 - х годов она разработала 2-канальный рекордер, а в 1972 году развернула цифровую систему передачи звука, которая связала их вещательный центр с их удаленными передатчиками. [16]
Первая 16-битная PCM-запись в США была сделана Томасом Стокхэмом в опере Санта-Фе в 1976 году на рекордере Soundstream . Улучшенная версия системы Soundstream использовалась для создания нескольких классических записей Telarc в 1978 году. Цифровой многодорожечный рекордер 3M, находившийся в разработке в то время, был основан на технологии BBC. Первым полностью цифровым альбомом, записанным на этой машине, был Bop till You Drop Рая Кудера в 1979 году. Британский лейбл звукозаписи Decca начал разработку собственных 2-дорожечных цифровых аудиорекордеров в 1978 году и выпустил первую европейскую цифровую запись в 1979 году. [16]
Популярные профессиональные цифровые многодорожечные рекордеры, произведенные Sony/Studer ( DASH ) и Mitsubishi ( ProDigi ) в начале 1980-х годов, помогли крупным звукозаписывающим компаниям принять цифровую запись. Машины для этих форматов также имели собственные встроенные транспорты, используя катушечную ленту шириной 1/4", 1/2" или 1", при этом аудиоданные записывались на ленту с помощью многодорожечной неподвижной головки. Адаптеры PCM позволяли осуществлять стереоцифровую аудиозапись на обычном видеомагнитофоне NTSC или PAL .
Появление в 1982 году компакт-дисков компаниями Philips и Sony популяризировало цифровое аудио среди потребителей. [16]
В начале 1990-х годов появилась технология ADAT , которая позволяла производить восьмидорожечную запись с частотой 44,1 или 48 кГц на кассетах S-VHS, а технология DTRS выполняла аналогичную функцию с лентами Hi8.
Такие форматы, как ProDigi и DASH, назывались форматами SDAT (цифровая аудиокассета со стационарной головкой), в отличие от форматов, таких как системы на базе адаптера PCM и цифровая аудиокассета (DAT), которые назывались форматами RDAT (цифровая аудиокассета со вращающейся головкой) из-за используемого в них процесса записи со спиральным сканированием.
Как и кассета DAT, машины ProDigi и DASH также поддерживали обязательную частоту дискретизации 44,1 кГц, но также и 48 кГц на всех машинах, и в конечном итоге частоту дискретизации 96 кГц. Они преодолели проблемы, из-за которых типичные аналоговые рекордеры не могли удовлетворить требования к полосе пропускания (диапазону частот) цифровой записи, за счет сочетания более высоких скоростей ленты, более узких зазоров головок, используемых в сочетании с лентами с металлическим составом, и распределения данных по нескольким параллельным дорожкам.
В отличие от аналоговых систем, современные цифровые звуковые рабочие станции и аудиоинтерфейсы позволяют использовать столько каналов с таким количеством различных частот дискретизации, сколько компьютер может эффективно использовать одновременно. Avid Audio и Steinberg выпустили первые программы для цифровых звуковых рабочих станций в 1989 году. [17] Цифровые звуковые рабочие станции значительно упрощают многодорожечную запись и микширование для больших проектов, что в противном случае было бы затруднительно при использовании аналогового оборудования.
Быстрое развитие и широкое внедрение цифровой телефонии PCM стало возможным благодаря технологии коммутируемых конденсаторов (SC) на основе металл-оксид-полупроводника (МОП) , разработанной в начале 1970-х годов. [18] Это привело к разработке микросхем кодека-фильтра PCM в конце 1970-х годов. [18] [19] Микросхема кодека-фильтра PCM на основе КМОП (комплементарных МОП) с кремниевым затвором , разработанная Дэвидом А. Ходжесом и В. К. Блэком в 1980 году, [18] с тех пор является отраслевым стандартом для цифровой телефонии. [18] [19] К 1990-м годам телекоммуникационные сети , такие как телефонная сеть общего пользования (PSTN), были в значительной степени оцифрованы с помощью кодеков-фильтров CMOS PCM VLSI ( сверхбольшой интеграции ), широко используемых в электронных коммутационных системах для телефонных станций , модемов на концах пользователей и ряда приложений цифровой передачи , таких как цифровая сеть с интеграцией услуг (ISDN), беспроводные телефоны и сотовые телефоны . [19]
Цифровое аудио используется в вещании аудио. Стандартные технологии включают цифровое аудиовещание (DAB), цифровое радио Mondiale (DRM), HD Radio и внутриполосное на канале (IBOC).
Цифровое аудио в приложениях записи хранится на аудиоспецифичных технологиях, включая CD, DAT, цифровую компакт-кассету (DCC) и мини-диск . Цифровое аудио может храниться в стандартных форматах аудиофайлов и храниться на жестком диске рекордера , Blu-ray или DVD-Audio . Файлы могут воспроизводиться на смартфонах, компьютерах или MP3-плеерах . Разрешение цифрового аудио измеряется в битовой глубине звука . Большинство форматов цифрового аудио используют разрешение 16 бит, 24 бит и 32 бит.
Для персональных компьютеров USB и IEEE 1394 имеют возможности для передачи цифрового звука в реальном времени. Интерфейсы USB становятся все более популярными среди независимых звукорежиссеров и продюсеров из-за их небольшого размера и простоты использования. В профессиональных архитектурных или инсталляционных приложениях многие [[аудио через Ethernet
существуют протоколы и интерфейсы. В вещании предпочтение отдается более общей сетевой технологии аудио по IP . В телефонии голос по IP используется как сетевой интерфейс для цифрового аудио для голосовой связи.
Несколько интерфейсов разработаны для передачи цифрового видео и аудио вместе, включая HDMI и DisplayPort . Некоторые интерфейсы предлагают поддержку MIDI , а также аналоговые порты XLR и TRS .
Интерфейсы, предназначенные для цифрового аудио, включают в себя: