stringtranslate.com

Формат аудиокодирования

Сравнение эффективности кодирования популярных аудиоформатов

Формат кодирования звука [1] (или иногда формат сжатия звука ) — это формат представления контента для хранения или передачи цифрового звука (например, в цифровом телевидении , цифровом радио и в аудио- и видеофайлах). Примерами форматов кодирования звука являются MP3 , AAC , Vorbis , FLAC и Opus . Конкретная программная или аппаратная реализация, способная сжимать и распаковывать звук в/из определенного формата кодирования звука, называется аудиокодеком ; примером аудиокодека является LAME , который является одним из нескольких различных кодеков, реализующих кодирование и декодирование звука в формате кодирования звука MP3 в программном обеспечении.

Некоторые форматы аудиокодирования документируются подробным техническим документом спецификации, известным как спецификация аудиокодирования . Некоторые такие спецификации пишутся и утверждаются организациями по стандартизации как технические стандарты и, таким образом, известны как стандарт аудиокодирования . Термин «стандарт» также иногда используется для фактических стандартов , а также для формальных стандартов.

Аудиоконтент, закодированный в определенном формате аудиокодирования, обычно инкапсулируется в контейнерном формате . Таким образом, у пользователя обычно нет необработанного файла AAC , но вместо этого есть аудиофайл .m4a , который является контейнером MPEG-4 Part 14, содержащим аудио в кодировке AAC. Контейнер также содержит метаданные, такие как заголовок и другие теги, и, возможно, индекс для быстрого поиска. [2] Заметным исключением являются файлы MP3 , которые представляют собой необработанное аудиокодирование без формата контейнера. Фактические стандарты для добавления тегов метаданных, таких как заголовок и исполнитель, в MP3, такие как ID3 , являются хаками , которые работают путем добавления тегов к MP3, а затем полагаются на то, что проигрыватель MP3 распознает фрагмент как неправильно сформированное аудиокодирование и, следовательно, пропускает его. В видеофайлах со звуком закодированный аудиоконтент объединяется с видео (в формате видеокодирования ) внутри мультимедийного контейнерного формата .

Формат кодирования звука не диктует все алгоритмы, используемые кодеком , реализующим формат. Важной частью того, как работает сжатие звука с потерями, является удаление данных способами, которые люди не могут услышать, согласно психоакустической модели ; реализатор кодера имеет некоторую свободу выбора, какие данные удалять (согласно своей психоакустической модели).

Форматы кодирования звука без потерь, с потерями и несжатые

Формат кодирования звука без потерь уменьшает общий объем данных, необходимых для представления звука, но может быть декодирован в исходную, несжатую форму. Формат кодирования звука с потерями дополнительно снижает битовое разрешение звука поверх сжатия, что приводит к гораздо меньшему объему данных за счет безвозвратно потерянной информации.

Передаваемое (потоковое) аудио чаще всего сжимается с использованием аудиокодеков с потерями, поскольку меньший размер гораздо удобнее для распространения. Наиболее широко используемые форматы кодирования аудио — MP3 и Advanced Audio Coding (AAC), оба из которых являются форматами с потерями, основанными на модифицированном дискретном косинусном преобразовании (MDCT) и алгоритмах перцептивного кодирования .

Иногда доступны форматы кодирования звука без потерь, такие как FLAC и Apple Lossless , но за счет большего размера файлов.

Иногда также используются несжатые аудиоформаты , такие как импульсно-кодовая модуляция (PCM или .wav). PCM был стандартным форматом для Compact Disc Digital Audio (CDDA).

История

Solidyne 922: первая в мире коммерческая звуковая карта с компрессией аудиоданных для ПК, 1990 г.

В 1950 году Bell Labs подала заявку на патент на дифференциальную импульсно-кодовую модуляцию (DPCM). [3] Адаптивная DPCM (ADPCM) была представлена ​​П. Каммиски, Никилом С. Джайантом и Джеймсом Л. Фланаганом в Bell Labs в 1973 году. [4] [5]

Перцептивное кодирование впервые было использовано для сжатия кодирования речи с линейным предсказательным кодированием (LPC). [6] Первоначальные концепции LPC восходят к работе Фумитады Итакуры ( Университет Нагои ) и Шузо Сайто ( Nippon Telegraph and Telephone ) в 1966 году. [7] В 1970-х годах Бишну С. Атал и Манфред Р. Шредер в Bell Labs разработали форму LPC, называемую адаптивным предсказательным кодированием (APC), алгоритм перцептивного кодирования, который использовал маскирующие свойства человеческого уха, за которым в начале 1980-х годов последовал алгоритм линейного предсказания с кодовым возбуждением (CELP), который достиг значительной степени сжатия для своего времени. [6] Перцептивное кодирование используется современными форматами сжатия звука, такими как MP3 [6] и AAC .

Дискретное косинусное преобразование (DCT), разработанное Насиром Ахмедом , Т. Натараджаном и К. Р. Рао в 1974 году, [8] легло в основу модифицированного дискретного косинусного преобразования (MDCT), используемого современными форматами сжатия звука, такими как MP3 [9] и AAC. MDCT было предложено JP Princen, AW Johnson и AB Bradley в 1987 году, [10] после более ранней работы Princen и Bradley в 1986 году. [11] MDCT используется современными форматами сжатия звука, такими как Dolby Digital , [12] [13] MP3 , [9] и Advanced Audio Coding (AAC). [14]

Список форматов с потерями

Общий

Речь

Список форматов без потерь

Смотрите также

Ссылки

  1. ^ Термин «аудиокодирование» можно увидеть, например, в названии Advanced Audio Coding , и он аналогичен термину видеокодирование.
  2. ^ «Видео – Где хранится информация о синхронизации в форматах контейнеров?».
  3. ^ Патент США 2605361, C. Chapin Cutler, «Дифференциальное квантование сигналов связи», выдан 29 июля 1952 г. 
  4. ^ Каммиски, П.; Джайант, Н.С.; Фланаган, Дж.Л. (1973). «Адаптивное квантование в дифференциальном кодировании речи PCM». Bell System Technical Journal . 52 (7): 1105–1118. doi :10.1002/j.1538-7305.1973.tb02007.x.
  5. ^ Cummiskey, P.; Jayant, Nikil S.; Flanagan, JL (1973). «Адаптивное квантование в дифференциальном кодировании PCM речи». The Bell System Technical Journal . 52 (7): 1105–1118. doi :10.1002/j.1538-7305.1973.tb02007.x. ISSN  0005-8580.
  6. ^ abc Шредер, Манфред Р. (2014). "Bell Laboratories". Акустика, информация и связь: Мемориальный том в честь Манфреда Р. Шредера . Springer. стр. 388. ISBN 9783319056609.
  7. ^ Грей, Роберт М. (2010). «История цифровой речи в реальном времени в пакетных сетях: Часть II линейного предиктивного кодирования и интернет-протокола» (PDF) . Найдено. Trends Signal Process . 3 (4): 203–303. doi : 10.1561/2000000036 . ISSN  1932-8346.
  8. ^ Насир Ахмед ; Т. Натараджан; Камисетти Рамамохан Рао (январь 1974 г.). «Дискретное косинусное преобразование» (PDF) . IEEE Transactions on Computers . C-23 (1): 90–93. doi :10.1109/TC.1974.223784. S2CID  149806273. Архивировано из оригинала (PDF) 2016-12-08 . Получено 2019-10-20 .
  9. ^ abc Guckert, John (весна 2012 г.). «Использование FFT и MDCT в сжатии аудио MP3» (PDF) . University of Utah . Получено 14 июля 2019 г. .
  10. ^ Princen, J.; Johnson, A.; Bradley, A. (1987). «Кодирование подполос/преобразований с использованием конструкций банка фильтров на основе отмены наложения спектров во временной области». ICASSP '87. Международная конференция IEEE по акустике, речи и обработке сигналов . Том 12. С. 2161–2164. doi :10.1109/ICASSP.1987.1169405. S2CID  58446992.
  11. ^ Принсен, Дж.; Брэдли, А. (1986). «Проект банка фильтров анализа/синтеза на основе отмены наложения спектров во временной области». Труды IEEE по акустике, речи и обработке сигналов . 34 (5): 1153–1161. doi :10.1109/TASSP.1986.1164954.
  12. ^ abcdef Luo, Fa-Long (2008). Стандарты мобильного мультимедийного вещания: технология и практика. Springer Science & Business Media . стр. 590. ISBN 9780387782638.
  13. ^ Британак, В. (2011). «О свойствах, отношениях и упрощенной реализации банков фильтров в стандартах аудиокодирования Dolby Digital (Plus) AC-3». Труды IEEE по обработке звука, речи и языка . 19 (5): 1231–1241. doi :10.1109/TASL.2010.2087755. S2CID  897622.
  14. ^ ab Brandenburg, Karlheinz (1999). "MP3 и AAC Explained" (PDF) . Архивировано (PDF) из оригинала 2017-02-13.
  15. ^ "Video Developer Report 2019" (PDF) . Bitmovin . 2019 . Получено 5 ноября 2019 .
  16. ^ Британак, В. (2011). «О свойствах, отношениях и упрощенной реализации банков фильтров в стандартах аудиокодирования Dolby Digital (Plus) AC-3». Труды IEEE по обработке звука, речи и языка . 19 (5): 1231–1241. doi :10.1109/TASL.2010.2087755. S2CID  897622.
  17. ^ Станкович, Радомир С.; Астола, Яакко Т. (2012). «Воспоминания о ранней работе в области DCT: интервью с К. Р. Рао» (PDF) . Перепечатки из Early Days of Information Sciences . 60 . Получено 13 октября 2019 г. .
  18. ^ Фонд Xiph.Org (2009-06-02). "Спецификация Vorbis I - 1.1.2 Классификация". Фонд Xiph.Org . Получено 2009-09-22 .
  19. ^ Терриберри, Тимоти Б. Презентация кодека CELT. Презентация (PDF) .
  20. ^ Валин, Жан-Марк; Максвелл, Грегори; Терриберри, Тимоти Б.; Вос, Коэн (октябрь 2013 г.). Высококачественное кодирование музыки с малой задержкой в ​​кодеке Opus . 135-я конвенция AES. Общество звукорежиссеров . arXiv : 1602.04845 .
  21. ^ Дарко, Джон Х. (29.03.2017). «Неудобная правда о Bluetooth-аудио». DAR__KO . Архивировано из оригинала 14.01.2018 . Получено 13.01.2018 .
  22. ^ Форд, Джез (24.08.2015). «Что такое Sony LDAC и как он это делает?». AVHub . Получено 13.01.2018 .
  23. ^ Форд, Джез (22.11.2016). "aptX HD — без потерь или с потерями?". AVHub . Получено 13.01.2018 .
  24. ^ "Digital Theater Systems Audio Formats". Библиотека Конгресса . 27 декабря 2011 г. Получено 10 ноября 2019 г.
  25. ^ Спаниас, Андреас; Пейнтер, Тед; Атти, Венкатраман (2006). Обработка и кодирование аудиосигналов. John Wiley & Sons . стр. 338. ISBN 9780470041963.