Поддиапазонное кодирование

Схема потока сигналов поддиапазонного кодирования и декодирования

В обработке сигналов поддиапазонное кодирование ( SBC ) — это любая форма кодирования с преобразованием , которая разбивает сигнал на несколько различных частотных диапазонов , обычно с помощью быстрого преобразования Фурье , и кодирует каждый из них независимо. Такое разложение часто является первым шагом в сжатии данных аудио- и видеосигналов.

SBC — это основной метод, используемый во многих популярных алгоритмах сжатия звука с потерями, включая MP3 .

Кодирование аудиосигналов

Самый простой способ цифрового кодирования аудиосигналов — это импульсно-кодовая модуляция (PCM), которая используется на аудио компакт-дисках , записях DAT и т. д. Оцифровка преобразует непрерывные сигналы в дискретные путем выборки амплитуды сигнала через одинаковые интервалы и округления до ближайшего значения, представимого доступным количеством битов . Этот процесс принципиально неточный и включает в себя две ошибки: ошибку дискретизации из - за выборки через определенные интервалы и ошибку квантования из - за округления.

Чем больше битов используется для представления каждой выборки, тем выше степень детализации цифрового представления и, следовательно, тем меньше ошибка квантования. Такие ошибки квантования можно рассматривать как тип шума, поскольку они фактически представляют собой разницу между исходным источником и его двоичным представлением. При использовании PCM звуковые эффекты этих ошибок можно смягчить с помощью дизеринга и использования достаточного количества битов, чтобы шум был достаточно низким, чтобы его можно было замаскировать либо самим сигналом, либо другими источниками шума. Сигнал высокого качества возможен, но за счет высокого битрейта (например, более 700 кбит/с для одного канала аудио CD). Фактически, многие биты тратятся впустую при кодировании замаскированных частей сигнала, поскольку PCM не делает предположений о том, как слышит человеческое ухо.

Методы кодирования уменьшают битрейт за счет использования известных характеристик слуховой системы. Классический метод — нелинейный PCM, такой как алгоритм μ-law . Маленькие сигналы оцифровываются с более высокой степенью детализации, чем большие; эффект заключается в добавлении шума, пропорционального уровню сигнала. Формат звукового файла Au компании Sun является популярным примером кодирования по закону мю-закона. Использование 8-битного кодирования по закону мю-закона сократит битрейт аудио компакт-диска на канал примерно до 350 кбит/с, что составляет половину стандартной скорости. Поскольку этот простой метод лишь минимально использует эффекты маскировки, он дает результаты, которые часто на слух хуже оригинала.

Основные принципы

Полезность SBC, пожалуй, лучше всего проиллюстрировать на конкретном примере. При использовании для сжатия звука SBC использует слуховую маскировку в слуховой системе . Человеческие уши обычно чувствительны к широкому диапазону частот, но когда на одной частоте присутствует достаточно громкий сигнал, ухо не слышит более слабые сигналы на соседних частотах. Мы говорим, что более громкий сигнал маскирует более тихий.

Основная идея SBC состоит в том, чтобы обеспечить сокращение данных путем исключения информации о замаскированных частотах. Результат отличается от исходного сигнала, но если отброшенная информация выбрана тщательно, разница не будет заметной или, что более важно, нежелательной.

Сначала набор цифровых фильтров делит спектр входного сигнала на некоторое количество (например, 32) поддиапазонов. Психоакустическая модель рассматривает энергию в каждом из этих поддиапазонов, а также в исходном сигнале, и вычисляет пороги маскировки, используя психоакустическую информацию. Каждая из выборок поддиапазона квантуется и кодируется так, чтобы поддерживать шум квантования ниже динамически вычисляемого порога маскирования. Последним шагом является форматирование всех этих квантованных выборок в группы данных, называемые кадрами, чтобы облегчить возможное воспроизведение декодером.

Декодирование намного проще, чем кодирование, поскольку не используется психоакустическая модель. Кадры распаковываются, выборки поддиапазонов декодируются, а частотно-временное отображение восстанавливает выходной аудиосигнал.

Приложения

Начиная с конца 1980-х годов орган по стандартизации, Группа экспертов по движущимся изображениям (MPEG), разработал стандарты кодирования аудио и видео. Например, поддиапазонное кодирование лежит в основе популярного формата MP3 (более известного как MPEG-1 Audio Layer III ).

Поддиапазонное кодирование используется в кодеке G.722 , который использует поддиапазонную адаптивную дифференциальную импульсно-кодовую модуляцию (SB- ADPCM ) со скоростью передачи данных 64 кбит/с. В методе SB-ADPCM полоса частот разделяется на два поддиапазона (высший и нижний), и сигналы в каждом поддиапазоне кодируются с использованием ADPCM.

Внешние ссылки

Учебное пособие по кодированию поддиапазонов