В цифровом аудио с использованием импульсно-кодовой модуляции (PCM) битовая глубина — это количество бит информации в каждом сэмпле , и она напрямую соответствует разрешению каждого сэмпла. Примерами битовой глубины являются Compact Disc Digital Audio , который использует 16 бит на сэмпл, и DVD-Audio и Blu-ray Disc , которые могут поддерживать до 24 бит на сэмпл.
В базовых реализациях изменения в битовой глубине в первую очередь влияют на уровень шума от ошибки квантования — таким образом, на отношение сигнал/шум (SNR) и динамический диапазон . Однако такие методы, как дизеринг , формирование шума и передискретизация , могут смягчить эти эффекты без изменения битовой глубины. Битовая глубина также влияет на битрейт и размер файла.
Битовая глубина полезна для описания цифровых сигналов PCM . Форматы, отличные от PCM, например, использующие сжатие с потерями , не имеют связанной битовой глубины. [a]
PCM-сигнал — это последовательность цифровых аудиосэмплов, содержащих данные, предоставляющие необходимую информацию для реконструкции исходного аналогового сигнала . Каждый сэмпл представляет амплитуду сигнала в определенный момент времени, и сэмплы равномерно распределены во времени. Амплитуда — это единственная информация, явно хранящаяся в сэмпле, и она обычно хранится либо как целое число, либо как число с плавающей точкой , закодированное как двоичное число с фиксированным количеством цифр — битовая глубина сэмпла , также называемая длиной слова или размером слова.
Разрешение указывает на количество дискретных значений, которые могут быть представлены в диапазоне аналоговых значений. Разрешение двоичных целых чисел увеличивается экспоненциально с ростом длины слова: добавление одного бита удваивает разрешение, добавление двух учетверяет его и т. д. Количество возможных значений, которые может представлять целочисленная битовая глубина, можно вычислить с помощью 2 n , где n — битовая глубина. [1] Таким образом, 16-битная система имеет разрешение 65 536 (2 16 ) возможных значений.
Целочисленные аудиоданные PCM обычно хранятся в виде знаковых чисел в формате дополнения до двух . [2]
Сегодня большинство форматов аудиофайлов и цифровых аудиостанций (DAW) поддерживают форматы PCM с сэмплами, представленными числами с плавающей точкой. [3] [4] [5] [6] Как формат файла WAV , так и формат файла AIFF поддерживают представления с плавающей точкой. [7] [8] В отличие от целых чисел, битовая последовательность которых представляет собой одну серию битов, число с плавающей точкой состоит из отдельных полей, математическое отношение которых образует число. Наиболее распространенным стандартом является IEEE 754 , который состоит из трех полей: знакового бита, представляющего, является ли число положительным или отрицательным, мантиссы и показателя степени, определяющего коэффициент степени двойки для масштабирования мантиссы. Мантисса выражается как двоичная дробь в форматах IEEE с плавающей точкой по основанию два. [9]
Битовая глубина ограничивает отношение сигнал/шум (SNR) восстановленного сигнала до максимального уровня, определяемого ошибкой квантования . Битовая глубина не влияет на частотную характеристику , которая ограничена частотой дискретизации .
Ошибка квантования, вносимая во время аналого-цифрового преобразования (АЦП), может быть смоделирована как шум квантования. Это ошибка округления между аналоговым входным напряжением АЦП и выходным оцифрованным значением. Шум нелинейный и зависит от сигнала.
В идеальном АЦП, где ошибка квантования равномерно распределена между младшими битами (LSB) и где сигнал имеет равномерное распределение, охватывающее все уровни квантования, отношение сигнал/шум квантования (SQNR) можно рассчитать по формуле
где b — число бит квантования, а результат измеряется в децибелах (дБ). [10] [11]
Таким образом, 16-битный цифровой звук, имеющийся на компакт-дисках , имеет теоретический максимальный SNR 98 дБ, а профессиональный 24-битный цифровой звук достигает 146 дБ. По состоянию на 2011 год [обновлять]технология цифрового аудиоконвертора ограничена SNR около 123 дБ [12] [13] [14] ( фактически 21 бит) из-за реальных ограничений в проектировании интегральных схем . [b] Тем не менее, это приблизительно соответствует производительности слуховой системы человека . [17] [18] Несколько преобразователей могут использоваться для покрытия различных диапазонов одного и того же сигнала, объединяясь для записи более широкого динамического диапазона в долгосрочной перспективе, при этом все еще будучи ограниченными динамическим диапазоном одного преобразователя в краткосрочной перспективе, что называется расширением динамического диапазона . [19] [20]
Разрешение выборок с плавающей точкой менее прямолинейно, чем выборок с целыми числами, поскольку значения с плавающей точкой неравномерно распределены. В представлении с плавающей точкой расстояние между любыми двумя соседними значениями пропорционально значению.
Компромисс между форматами с плавающей точкой и целыми числами заключается в том, что расстояние между большими значениями с плавающей точкой больше, чем расстояние между большими целыми значениями той же битовой глубины. Округление большого числа с плавающей точкой приводит к большей ошибке, чем округление маленького числа с плавающей точкой, тогда как округление целого числа всегда приводит к тому же уровню ошибки. Другими словами, целые числа имеют округление, которое является равномерным, всегда округляя LSB до 0 или 1, а формат с плавающей точкой имеет равномерный SNR, уровень шума квантования всегда находится в определенной пропорции к уровню сигнала. [21] Уровень шума с плавающей точкой растет по мере роста сигнала и падает по мере его падения, что приводит к слышимой дисперсии, если битовая глубина достаточно мала. [22]
Большинство операций обработки цифрового аудио включают в себя повторное квантование сэмплов и, таким образом, вносят дополнительные ошибки округления, аналогичные исходной ошибке квантования, вносимой во время аналого-цифрового преобразования. Чтобы предотвратить ошибки округления, превышающие неявную ошибку во время АЦП, вычисления во время обработки должны выполняться с более высокой точностью, чем входные сэмплы. [23]
Операции цифровой обработки сигналов (DSP) могут выполняться с точностью как с фиксированной , так и с плавающей точкой. В любом случае точность каждой операции определяется точностью аппаратных операций, используемых для выполнения каждого шага обработки, а не разрешением входных данных. Например, на процессорах x86 операции с плавающей точкой выполняются с одинарной или двойной точностью , а операции с фиксированной точкой — с разрешением 16, 32 или 64 бит. Следовательно, вся обработка, выполняемая на оборудовании на базе Intel, будет выполняться с этими ограничениями независимо от исходного формата. [c]
Цифровые сигнальные процессоры с фиксированной точкой часто поддерживают определенную длину слова для поддержки определенного разрешения сигнала. Например, чип Motorola 56000 DSP использует 24-битные множители и 56-битные аккумуляторы для выполнения операций умножения-накопления на двух 24-битных выборках без переполнения или усечения. [24] На устройствах, которые не поддерживают большие аккумуляторы, результаты с фиксированной точкой могут быть усечены, что снижает точность. Ошибки накапливаются на нескольких этапах DSP со скоростью, которая зависит от выполняемых операций. Для некоррелированных этапов обработки аудиоданных без смещения постоянного тока ошибки считаются случайными с нулевым средним. При этом предположении стандартное отклонение распределения представляет собой сигнал ошибки, а ошибка квантования масштабируется с квадратным корнем из числа операций. [25] Высокие уровни точности необходимы для алгоритмов, которые включают повторную обработку, таких как свертка . [23] Высокие уровни точности также необходимы в рекурсивных алгоритмах, таких как фильтры с бесконечной импульсной характеристикой (IIR). [26] В частном случае БИХ-фильтров ошибка округления может ухудшить частотную характеристику и вызвать нестабильность. [23]
Шум, вызванный ошибкой квантования, включая ошибки округления и потерю точности, вызванную обработкой звука, можно уменьшить, добавив небольшое количество случайного шума, называемого дизерингом , к сигналу перед квантованием. Дизеринг устраняет нелинейное поведение ошибки квантования, давая очень низкие искажения, но за счет слегка повышенного уровня шума . Рекомендуемый дизеринг для 16-битного цифрового звука, измеренный с использованием шумового взвешивания ITU-R 468, составляет около 66 дБ ниже уровня выравнивания или 84 дБ ниже полной цифровой шкалы , что сопоставимо с уровнем шума микрофона и помещения, и, следовательно, не имеет большого значения в 16-битном звуке.
24-битный и 32-битный звук не требуют дизеринга, так как уровень шума цифрового преобразователя всегда громче, чем требуемый уровень любого дизеринга, который может быть применен. 24-битный звук теоретически может кодировать 144 дБ динамического диапазона, а 32-битный звук может достичь 192 дБ, но этого почти невозможно достичь в реальном мире, так как даже самые лучшие датчики и микрофоны редко превышают 130 дБ. [27]
Дизеринг также может использоваться для увеличения эффективного динамического диапазона. Воспринимаемый динамический диапазон 16-битного звука может составлять 120 дБ или более с шумоподобным дизерингом, используя частотную характеристику человеческого уха. [28] [29]
Динамический диапазон — это разница между самым большим и самым маленьким сигналом, который система может записать или воспроизвести. Без дизеринга динамический диапазон коррелирует с уровнем шума квантования. Например, 16-битное целочисленное разрешение допускает динамический диапазон около 96 дБ. При правильном применении дизеринга цифровые системы могут воспроизводить сигналы с уровнями ниже, чем их разрешение обычно допускает, расширяя эффективный динамический диапазон за пределы, налагаемые разрешением. [30] Использование таких методов, как передискретизация и формирование шума, может дополнительно расширить динамический диапазон сэмплированного звука, перемещая ошибку квантования за пределы интересующей полосы частот.
Если максимальный уровень сигнала ниже, чем допускается битовой глубиной, запись имеет запас по мощности . Использование более высоких битовых глубин во время студийной записи может обеспечить запас по мощности, сохраняя при этом тот же динамический диапазон. Это снижает риск клиппинга без увеличения ошибок квантования на низких уровнях громкости.
Передискретизация — альтернативный метод увеличения динамического диапазона PCM-аудио без изменения количества бит на выборку. [31] При передискретизации выборки звука получаются с кратностью желаемой частоты выборки. Поскольку предполагается, что ошибка квантования равномерно распределена с частотой, большая часть ошибки квантования смещается в ультразвуковые частоты и может быть удалена цифро -аналоговым преобразователем во время воспроизведения.
Для увеличения разрешения, эквивалентного n дополнительным битам, сигнал должен быть передискретизирован на
Например, 14-битный АЦП может производить 16-битный 48 кГц звук, если работает с 16-кратной передискретизацией или 768 кГц. Таким образом, передискретизированный PCM обменивает меньше бит на выборку на большее количество выборок, чтобы получить то же разрешение.
Динамический диапазон также может быть расширен с помощью передискретизации при реконструкции сигнала, без передискретизации в источнике. Рассмотрим 16-кратную передискретизацию при реконструкции. Каждый образец при реконструкции будет уникальным, поскольку для каждой исходной точки выборки вставлено шестнадцать, все они были рассчитаны цифровым фильтром реконструкции . Механизм увеличения эффективной битовой глубины такой же, как обсуждалось ранее, то есть мощность шума квантования не была уменьшена, но спектр шума был распространен на 16-кратную ширину полосы пропускания звука.
Историческая справка — Стандарт компакт-дисков был разработан в результате сотрудничества Sony и Philips. Первое потребительское устройство Sony имело 16-битный ЦАП; первые устройства Philips имели два 14-битных ЦАП. Это сбило с толку рынок и даже профессиональные круги, поскольку 14-битная PCM допускает 84 дБ SNR, что на 12 дБ меньше, чем 16-битная PCM. Philips реализовала 4-кратную передискретизацию с формированием шума первого порядка , что теоретически реализовало полный динамический диапазон формата CD в 96 дБ. [32] На практике Philips CD100 был оценен в 90 дБ SNR в звуковом диапазоне 20 Гц–20 кГц, как и Sony CDP-101. [33] [34]
Передискретизация сигнала приводит к одинаковому шуму квантования на единицу полосы пропускания на всех частотах и динамическому диапазону, который улучшается только с квадратным корнем из коэффициента передискретизации. Формирование шума - это метод, который добавляет дополнительный шум на более высоких частотах, который отменяет некоторую ошибку на более низких частотах, что приводит к большему увеличению динамического диапазона при передискретизации. Для формирования шума n -го порядка динамический диапазон передискретизированного сигнала улучшается на дополнительные 6 n дБ по сравнению с передискретизацией без формирования шума. [35] Например, для аналогового звука 20 кГц, дискретизированного с 4-кратной передискретизацией с формированием шума второго порядка, динамический диапазон увеличивается на 30 дБ. Следовательно, 16-битный сигнал, дискретизированный с частотой 176 кГц, будет иметь битовую глубину, равную 21-битному сигналу, дискретизированному с частотой 44,1 кГц без формирования шума.
Формирование шума обычно реализуется с помощью дельта-сигма-модуляции . Используя дельта-сигма-модуляцию, Direct Stream Digital достигает теоретического SNR 120 дБ на звуковых частотах, используя 1-битный звук с 64-кратной передискретизацией.
Битовая глубина является фундаментальным свойством реализаций цифрового звука. В зависимости от требований приложения и возможностей оборудования для разных приложений используются разные битовые глубины.
Битовая глубина влияет на битрейт и размер файла. Биты являются основной единицей данных, используемой в вычислениях и цифровой связи. Битрейт относится к количеству данных, в частности битов, переданных или полученных в секунду. В MP3 и других сжатых с потерями аудиоформатах битрейт описывает количество информации, используемой для кодирования аудиосигнала. Обычно он измеряется в кбит/с . [51]
-битные ЦАП часто обеспечивают производительность только около 16 бит, а самые лучшие достигают производительности 21 бит (ENOB)
Динамический диапазон (вход −60 дБ, A-взвешенный): 124 дБ типичный Динамический диапазон (вход −60 дБ, полоса пропускания 20 кГц): 122 дБ типичный
дБ SNR ('A'-взвешенный моно @ 48 кГц) 123 дБ SNR (невзвешенный стерео @ 48 кГц)
Таким образом, ваш 32-битный ЦАП сможет вывести максимум 21 бит полезных данных, а остальные биты будут замаскированы шумом схемы.
существующие сегодня чипы ЦАП с поддержкой 32-бит имеют фактическое разрешение менее 24 бит.
диапазон человеческого слуха составляет [приблизительно] 120 дБ
динамический диапазон можно охарактеризовать как диапазон от порога слышимости до порога боли [130 дБ]
использованием профилированного дизеринга, который перемещает энергию шума квантования в частоты, где ее труднее услышать, эффективный динамический диапазон 16-битного звука на практике достигает 120 дБ, что более чем в пятнадцать раз глубже заявленных 96 дБ. 120 дБ больше, чем разница между комаром где-то в той же комнате и отбойным молотком в футе от него... или разница между безлюдной "звуконепроницаемой" комнатой и звуком, достаточно громким, чтобы вызвать повреждение слуха за считанные секунды. 16 бит достаточно, чтобы сохранить все, что мы можем услышать, и этого будет достаточно всегда.
Одним из величайших открытий в PCM было то, что при добавлении небольшого случайного шума (который мы называем дизерингом) эффект усечения может исчезнуть. Еще более важным было осознание того, что существует
правильный
вид случайного шума для добавления и что при использовании правильного дизеринга разрешение цифровой системы становится
бесконечным
.