Совместное кодирование

В аудиотехнике под совместным кодированием понимают объединение нескольких каналов схожей информации во время кодирования с целью получения более высокого качества, меньшего размера файла или того и другого.

Совместное стерео

Термин «совместное стерео» стал популярным, поскольку Интернет позволил передавать звук приемлемого качества с относительно низкой скоростью передачи данных и умеренной скоростью доступа в Интернет. Совместное стерео относится к любому количеству методов кодирования, используемых для этой цели. Здесь описаны две формы, обе из которых реализованы по-разному с разными кодеками , такими как MP3 , AAC и Ogg Vorbis .

Интенсивное стереокодирование

Эта форма совместного стерео использует технику, известную как совместное частотное кодирование , которая действует по принципу локализации звука . Человеческий слух преимущественно менее остр в восприятии направления определенных звуковых частот. Используя эту характеристику, интенсивное стереокодирование может снизить скорость передачи данных аудиопотока с незначительным изменением видимого качества или вообще без него.

Более конкретно, преобладание межушных временных различий (ITD) для локализации звука человеком присутствует только для более низких частот. В результате межушные амплитудные различия (IAD) остаются доминирующим индикатором местоположения для более высоких частот (граница составляет ~ 2 кГц). Идея интенсивного стереокодирования состоит в том, чтобы объединить нижний спектр в один канал (таким образом уменьшая общие различия между каналами) и передать небольшую дополнительную информацию о том, как панорамировать определенные частотные области для восстановления сигналов IAD . Однако в этой схеме ITD не теряется полностью: форма уха позволяет восстановить ITD из IAD, если звук исходит из свободного пространства, например, воспроизводится через громкоговорители. ^[1]

Этот тип кодирования не позволяет полностью восстановить исходный звук из-за потери информации, что приводит к упрощению стереоизображения и может привести к заметным артефактам сжатия . Однако при очень низких скоростях передачи данных этот тип кодирования обычно дает улучшение воспринимаемого качества звука. Он поддерживается многими форматами сжатия звука (включая MP3 , AAC , Vorbis и Opus ), но не всегда всеми кодировщиками.

Стереокодирование M/S

Стереокодирование M/S преобразует левый и правый каналы в средний канал и побочный канал. Средний канал представляет собой сумму левого и правого каналов, или . Боковой канал — это разница левого и правого каналов, или . В отличие от интенсивного стереокодирования, кодирование M/S представляет собой особый случай кодирования с преобразованием и прекрасно сохраняет звук без появления артефактов. Из-за этой характеристики кодеки без потерь, такие как FLAC или Monkey's Audio, используют стереокодирование M/S. $M=L+R$ $S=LR$

Чтобы восстановить исходный сигнал, каналы либо складываются , либо вычитаются . ${\textstyle L={\frac {M+S}{2}}}$ ${\textstyle R={\frac {MS}{2}}}$

Эту форму кодирования также иногда называют матричным стерео ^[a] и она используется во многих различных формах оборудования для обработки и записи звука. Он не ограничивается цифровыми системами и может быть создан даже с помощью пассивных аудиотрансформаторов или аналоговых усилителей . Одним из примеров использования M/S-стерео является FM- стереовещание, где модулируется несущая волна и модулируется поднесущая . Это обеспечивает обратную совместимость с монооборудованием, которому потребуется только средний канал. ^[2] Другим примером стереофонического M/S является стереофоническая пластинка с микроканавками . Боковые движения иглы представляют собой сумму двух каналов, а вертикальное движение представляет собой разницу между каналами; две перпендикулярные катушки механически декодируют каналы. ^[3] $L+R$ $LR$

M/S также является распространенным методом производства стереозаписей. См. раздел «Практика использования микрофона» § Техника M/S .

Кодирование M/S не требует строгого того, чтобы левый и правый каналы использовали один и тот же вес. В Opus CELT кодирование M/S сочетается с параметром угла, так что можно использовать разные веса для максимизации декорреляции. ^[4]^{: 4.5.1}

Похожая форма объединения нескольких каналов наблюдается в реализации ambisonics в Opus 1.3. Матрица может использоваться для смешивания каналов сферических гармоник вместе, уменьшая избыточность. ^[5]

Параметрическое стерео

Параметрическое стерео похоже на стерео по интенсивности, за исключением того, что используются параметры, выходящие за пределы разницы в интенсивности. В версии MPEG-4 (HE-AAC) используются разница в интенсивности и разница во времени, что позволяет использовать все полосы без ущерба для локализации. HE-AAC также добавляет информацию «корреляции», которая воспроизводит атмосферу путем синтеза некоторой разницы между каналами. ^[6]

Бинауральное кодирование сигналов (BCC) — это метод HE-AAC PS, расширенный для многих входных каналов, все из которых преобразуются в один. Использовались одни и те же параметры ILD, ITD и IC. MPEG Surround похож на BCC, но позволяет микшировать несколько каналов и, похоже, не использует ITD. ^[7]

Совместное частотное кодирование

Совместное частотное кодирование — это метод кодирования , используемый при сжатии аудиоданных для снижения скорости передачи данных .

Идея состоит в том, чтобы объединить заданный частотный диапазон нескольких звуковых каналов вместе, чтобы в результате кодирования звуковая информация этого диапазона сохранялась не как набор отдельных каналов, а как один однородный поток данных. Это навсегда разрушит исходное разделение каналов, поскольку информацию невозможно точно восстановить, но значительно уменьшит объем требуемого места для хранения. Только некоторые формы совместного стерео используют метод совместного частотного кодирования, например, интенсивное стереокодирование.

Реализации

При использовании в процессе сжатия MP3 объединенное стерео обычно использует несколько методов и может переключаться между ними для каждого кадра MPEG. Обычно в совместном стереорежиме современного кодера используется стереофоническое M/S для некоторых кадров и стереофоническое L/R для других, в зависимости от того, какой метод дает наилучший результат. Кодеры используют разные алгоритмы, чтобы определить, когда переключиться и сколько места выделить каждому каналу; качество может ухудшиться, если переключение происходит слишком часто или если побочный канал не получает достаточного количества битов. С помощью некоторого программного обеспечения для кодирования можно принудительно использовать стерео M/S для всех кадров, имитируя объединенный стереорежим некоторых ранних кодировщиков, таких как Xing . В кодере LAME это известно как принудительное совместное стерео. ^[8]

Как и в случае с MP3, стереофайлы Ogg Vorbis могут использовать либо L/R-стерео, либо совместное стерео. При использовании совместного стерео можно использовать как методы M/S стерео, так и методы интенсивного стерео. В отличие от MP3, где стерео M/S (если оно используется) применяется перед квантованием, кодер Ogg Vorbis применяет стерео M/S к семплам в частотной области после квантования, что делает применение стерео M/S без потерь. После этого шага любую частотную область можно преобразовать в интенсивное стерео, удалив соответствующую часть бокового канала сигнала M/S. Функция Floor Ogg Vorbis позаботится о необходимом панорамировании влево-вправо. ^{[ нужна цитация ]} Opus также поддерживает все три варианта уровня CELT; слой SILK предназначен только для M/S. ^[9]

Примечания

^ Названо так потому, что сложение и вычитание можно представить в виде матрицы .

Внешние ссылки

Юрген Херре, Фраунгофера IIS. От совместного стерео к пространственному кодированию звука: последние достижения и стандартизация. Октябрь 2004 г., Документ 157, 7-я Международная конференция DAFx'04 по цифровым аудиоэффектам.