stringtranslate.com

Сжатие тишины

Сжатие тишины — это метод обработки звука, используемый для эффективного кодирования интервалов тишины, что позволяет сократить объем памяти или пропускную способность, необходимые для передачи аудиозаписей.

Обзор

Тишину можно определить как аудиофрагменты с незначительным звуком. Примерами тишины являются паузы между словами или предложениями в речи и паузы между нотами в музыке. Сжимая интервалы тишины, аудиофайлы становятся меньше и их легче обрабатывать, хранить и отправлять, сохраняя при этом исходное качество звука. Хотя методы различаются, сжатие тишины обычно достигается с помощью двух важных шагов: обнаружения интервалов тишины и последующего сжатия этих интервалов. Приложения сжатия тишины включают телекоммуникации , потоковую передачу звука, распознавание голоса, архивирование аудио и производство медиа. [1]

Методы

1. Обрезка

Обрезка — это метод сжатия тишины, при котором интервалы тишины полностью удаляются. Это делается путем определения интервалов звука ниже определенного порога амплитуды, указания тишины и удаления этого интервала из звука. Недостатком обрезки является то, что она навсегда изменяет исходный звук и может вызвать заметные артефакты при воспроизведении звука. [1]

а) Подстройка порога амплитуды

Подрезка амплитудного порога удаляет тишину посредством установки амплитудного порога, при котором любые аудиосегменты, которые опускаются ниже этого порога, считаются тишиной и обрезаются или полностью удаляются. Некоторые распространенные алгоритмы подрезки амплитудного порога: [ необходима цитата ]

б) Энергетическая обрезка

Обрезка на основе энергии работает посредством анализа уровней энергии аудиосигнала. Уровень энергии аудиосигнала - это величина сигнала за короткий промежуток времени. Общая формула для расчета энергии аудио - это , где - энергия сигнала, - выборки в аудиосигнале, - амплитуда сигнала выборки -го уровня. После расчета уровней энергии устанавливается порог, при котором все уровни энергии, которые опускаются ниже порога, считаются тихими и удаляются. Обрезка на основе энергии может обнаруживать тишину более точно, чем обрезка на основе амплитуды, поскольку она учитывает общую выходную мощность звука, а не только амплитуду звуковой волны. Обрезка на основе энергии часто используется для голосовых/речевых файлов из-за необходимости хранить и передавать только соответствующие части, содержащие звук. Некоторые популярные алгоритмы обрезки на основе энергии включают методы кратковременной энергии (STE) и скорости пересечения нуля (ZCR). [2] Аналогично, эти алгоритмы также используются при обнаружении голосовой активности (VAD) для обнаружения речевой активности. [1] [3]

2. Подавление тишины

Подавление тишины — это метод, используемый в контексте Voice over IP (VoIP) и потоковой передачи аудио для оптимизации скорости передачи данных. Благодаря временному сокращению данных в интервалах тишины, аудио может транслироваться через Интернет в режиме реального времени более эффективно. [1] [3]

а.Прерывистая передача(DTX)

DTX оптимизирует использование полосы пропускания во время телекоммуникаций в реальном времени, обнаруживая интервалы молчания и приостанавливая передачу этих интервалов. Благодаря постоянному мониторингу аудиосигнала алгоритмы DTX могут обнаруживать тишину на основе предопределенных критериев. При обнаружении тишины на приемник отправляется сигнал, который останавливает передачу аудиоданных. Когда речь/звук возобновляются, передача звука возобновляется. Эта технология обеспечивает бесперебойную связь, при этом высокоэффективно используя сетевые ресурсы. [1] [3]

3. Кодирование тишины

Кодирование тишины необходимо для эффективного представления интервалов тишины без полного удаления тишины. Это позволяет минимизировать данные, необходимые для кодирования и передачи тишины, сохраняя при этом целостность аудиосигнала. [4] [5] [6] Для этой цели используются несколько методов кодирования:

а.Кодирование длины серии(РЛЭ)

RLE работает для обнаружения повторяющихся идентичных образцов в аудио и кодирует эти образцы таким образом, чтобы это было более эффективно с точки зрения пространства. Вместо того, чтобы хранить каждый идентичный образец по отдельности, RLE сохраняет один образец и ведет подсчет, сколько раз он повторяется. RLE хорошо работает при кодировании тишины, поскольку интервалы тишины часто состоят из повторяющихся последовательностей идентичных образцов. Сокращение идентичных образцов, сохраненных впоследствии, уменьшает размер аудиосигнала. [4] [5]

б.Кодирование Хаффмана

Кодирование Хаффмана — это метод энтропийного кодирования и алгоритм кода переменной длины , который назначает более общие значения с более короткими двоичными кодами , требующими меньше бит для хранения. Кодирование Хаффмана работает в контексте сжатия тишины, назначая часто встречающиеся шаблоны тишины с более короткими двоичными кодами, уменьшая размер данных. [5] [6]

4. Дифференциальное кодирование

Дифференциальное кодирование использует сходство между последовательными аудиосэмплами во время интервалов тишины, сохраняя только разницу между сэмплами. Дифференциальное кодирование используется для эффективного кодирования переходов между звуком и тишиной и полезно для аудиосэмплов, где тишина перемежается с активным звуком. [7] [8] [9] Некоторые алгоритмы дифференциального кодирования включают:

а.Дельта-модуляция

Дельта-модуляция квантует и кодирует различия между последовательными аудиосэмплами, кодируя производную амплитуды аудиосэмпла. Сохраняя то, как аудиосигнал изменяется с течением времени, а не сами сэмплы, можно эффективно захватить переход от тишины к звуку. Дельта-модуляция обычно использует однобитный механизм квантования , где 1 указывает на увеличение размера сэмпла, а 0 указывает на уменьшение. Хотя это позволяет эффективно использовать полосу пропускания или хранилище, оно не может обеспечить высококачественное кодирование сигналов с низкой амплитудой. [8]

б.Дельта-сигма модуляция

Модуляция дельта-сигма является более продвинутым вариантом дельта-модуляции, которая позволяет выполнять высокоточное кодирование для сигналов с низкой амплитудой. Это осуществляется посредством квантования с высокой частотой передискретизации , что позволяет выполнять точное кодирование небольших изменений в аудиосигнале. Модуляция дельта-сигма используется в ситуациях, когда приоритетным является поддержание высокой точности звука. [9]

Приложения

Уменьшение размера аудиосигнала за счет сжатия тишины находит применение во многих приложениях:

  1. Телекоммуникации: Сокращение количества молчаливых передач в телекоммуникационных системах, таких как VoIP, позволяет более эффективно использовать полосу пропускания и снижать затраты на передачу данных.
  2. Потоковое аудио: сжатие тишины минимизирует использование данных во время потокового аудио, обеспечивая эффективную трансляцию высококачественного звука через Интернет.
  3. Архивирование аудио: сжатие тишины помогает экономить место, необходимое для хранения аудио, сохраняя при этом качество звука.

Ссылки

  1. ^ abcde Benyassine, A.; Shlomot, E.; Su, H.-Y.; Massaloux, D.; Lamblin, C.; Petit, J.-P. (1997). "Рекомендация МСЭ-Т G.729, приложение B: схема сжатия тишины для использования с G.729, оптимизированная для цифровых одновременных приложений передачи голоса и данных V.70". IEEE Communications Magazine . 35 (9): 64–73. doi :10.1109/35.620527 . Получено 09.11.2023 .
  2. ^ Сахин, Арда; Унлу, Мехмет Зубейир (2021-01-20). «Сжатие речевых файлов путем устранения невокализованных/молчаливых компонентов». Sustainable Engineering and Innovation . 3 (1): 11–14. doi : 10.37868/sei.v3i1.119 . ISSN  2712-0562. S2CID  234125634.
  3. ^ abc "О схеме сжатия тишины ITU-T G.729.1". IEEE . Получено 2023-11-09 .
  4. ^ ab Elsayed, Hend A. (2014). «Преобразование Барроуза-Уиллера и комбинация кодирования Move-to-Front и кодирования длины серии для кодирования звука без потерь». 2014 9-я Международная конференция по вычислительной технике и системам (ICCES). стр. 354–359. doi :10.1109/ICCES.2014.7030985. ISBN 978-1-4799-6594-6. S2CID  15743605 . Получено 2023-11-09 .
  5. ^ abc Патил, Рупали Б.; Кулат, КД (2017). «Аудиосжатие с использованием динамического кодирования Хаффмана и RLE». 2017 2-я Международная конференция по системам связи и электроники (ICCES). стр. 160–162. doi :10.1109/CESYS.2017.8321256. ISBN 978-1-5090-5013-0. S2CID  4122679 . Получено 2023-11-09 .
  6. ^ ab Firmansah, Luthfi; Setiawan, Erwin Budi (2016). «Сжатие аудиоданных без потерь в формате FLAC в формат MP3 с потерями с помощью алгоритма кодирования со сдвигом Хаффмана». 2016 4-я Международная конференция по информационным и коммуникационным технологиям (ICoICT). стр. 1–5. doi :10.1109/ICoICT.2016.7571951. ISBN 978-1-4673-9879-4. S2CID  18754681 . Получено 2023-11-09 .
  7. ^ Jensen, J.; Heusdens, R. (2003). "Сравнение дифференциальных схем для низкоскоростного синусоидального аудиокодирования". IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (IEEE Cat. No.03TH8684). стр. 205–208. doi :10.1109/ASPAA.2003.1285867. ISBN 0-7803-7850-4. S2CID  58213603 . Получено 2023-11-09 .
  8. ^ ab Zhu, YS; Leung, SW; Wong, CM (1996). «Цифровая система обработки звука на основе неравномерной дискретизации дельта-модуляции». IEEE Transactions on Consumer Electronics . 42 : 80–86. doi :10.1109/30.485464 . Получено 09.11.2023 .
  9. ^ ab "Сигма-дельта-модуляция для аудио DSP". IEEE . Получено 2023-11-09 .