stringtranslate.com

Формат аудиокодирования

Сравнение эффективности кодирования популярных аудиоформатов

Формат кодирования звука [1] (или иногда формат сжатия звука ) — это формат представления контента для хранения или передачи цифрового звука (например, в цифровом телевидении , цифровом радио , а также в аудио- и видеофайлах). Примеры форматов аудиокодирования включают MP3 , AAC , Vorbis , FLAC и Opus . Конкретная программная или аппаратная реализация, способная сжимать и распаковывать звук в/из определенного формата кодирования звука, называется аудиокодеком ; примером аудиокодека является LAME , который является одним из нескольких различных кодеков, которые программно реализуют кодирование и декодирование звука в формате аудиокодирования MP3 .

Некоторые форматы кодирования звука документированы в подробной технической спецификации, известной как спецификация кодирования звука . Некоторые такие спецификации написаны и одобрены организациями по стандартизации как технические стандарты и, таким образом, известны как стандарт кодирования звука . Термин «стандарт» также иногда используется как для стандартов де-факто , так и для формальных стандартов.

Аудиоконтент, закодированный в определенном формате аудиокодирования, обычно инкапсулируется в формат контейнера . Таким образом, у пользователя обычно нет необработанного файла AAC , а есть аудиофайл .m4a , который представляет собой контейнер MPEG-4 Part 14 , содержащий аудио в кодировке AAC. Контейнер также содержит метаданные , такие как заголовок и другие теги, и, возможно, индекс для быстрого поиска. [2] Заметным исключением являются файлы MP3 , которые представляют собой необработанное аудиокодирование без контейнерного формата. Стандарты де-факто для добавления тегов метаданных, таких как название и исполнитель, в MP3-файлы, такие как ID3 , представляют собой хаки , которые работают путем добавления тегов в MP3, а затем полагаются на то, что MP3-плеер распознает фрагмент как искаженное аудиокодирование и, следовательно, пропускает его. . В видеофайлах со звуком закодированный аудиоконтент объединяется с видео (в формате видеокодирования ) внутри формата мультимедийного контейнера .

Формат аудиокодирования не определяет все алгоритмы , используемые кодеком, реализующим этот формат. В соответствии с психоакустической моделью важной частью работы сжатия звука с потерями является удаление данных способами, которые люди не могут услышать ; разработчик кодера имеет некоторую свободу выбора данных для удаления (в соответствии с их психоакустической моделью).

Форматы кодирования звука без потерь, с потерями и без сжатия

Формат кодирования звука без потерь уменьшает общий объем данных, необходимых для представления звука, но может быть декодирован в исходную несжатую форму. Формат кодирования звука с потерями дополнительно снижает битовое разрешение звука помимо сжатия, что приводит к гораздо меньшему количеству данных за счет безвозвратно потерянной информации.

Передаваемый (потоковое) аудио чаще всего сжимается с использованием аудиокодеков с потерями, поскольку меньший размер гораздо удобнее для распространения. Наиболее широко используемыми форматами аудиокодирования являются MP3 и Advanced Audio Coding (AAC), оба из которых представляют собой форматы с потерями, основанные на модифицированном дискретном косинусном преобразовании (MDCT) и алгоритмах перцепционного кодирования .

Форматы кодирования звука без потерь, такие как FLAC и Apple Lossless , иногда доступны, но за счет файлов большего размера.

Иногда также используются несжатые аудиоформаты , такие как импульсно-кодовая модуляция (PCM или .wav). PCM был стандартным форматом для компакт-дисков Digital Audio (CDDA).

История

Solidyne 922: первая в мире коммерческая звуковая карта с битовым сжатием звука для ПК, 1990 г.

В 1950 году Bell Labs подала патент на дифференциальную импульсно-кодовую модуляцию (DPCM). [3] Адаптивный DPCM (ADPCM) был представлен П. Каммиски, Никилом С. Джаянтом и Джеймсом Л. Фланаганом в Bell Labs в 1973 году. [4] [5]

Перцептивное кодирование было впервые использовано для сжатия кодирования речи с помощью кодирования с линейным предсказанием (LPC). [6] Первоначальные концепции LPC восходят к работе Фумитады Итакуры ( Университет Нагои ) и Сюдзо Сайто ( Nippon Telegraph and Telephone ) в 1966 году . [7] В 1970-х годах Бишну С. Атал и Манфред Р. Шредер в Bell Labs разработал форму LPC, называемую адаптивным прогнозирующим кодированием (APC), алгоритм перцептивного кодирования, который использовал маскирующие свойства человеческого уха, а затем в начале 1980-х годов разработал алгоритм линейного прогнозирования с кодовым возбуждением (CELP), который достиг значительной степени сжатия для пора. [6] Перцептивное кодирование используется в современных форматах сжатия звука, таких как MP3 [6] и AAC .

Дискретное косинусное преобразование (DCT), разработанное Насиром Ахмедом , Т. Натараджаном и К. Р. Рао в 1974 году, [8] послужило основой для модифицированного дискретного косинусного преобразования (MDCT), используемого в современных форматах сжатия звука, таких как MP3 [9] и AAC. . MDCT был предложен Дж. П. Принсеном, А. В. Джонсоном и А. Б. Брэдли в 1987 году [10] после более ранней работы Принсена и Брэдли в 1986 году. [11] MDCT используется в современных форматах сжатия звука, таких как Dolby Digital , [12] [13 ] ] MP3 , [9] и улучшенное кодирование звука (AAC). [14]

Список форматов с потерями

Общий

Речь

Список форматов без потерь

Смотрите также

Рекомендации

  1. ^ Термин «аудиокодирование» можно увидеть, например, в названии Advanced Audio Coding , и он аналогичен термину « кодирование видео».
  2. ^ «Видео - Где хранится информация о синхронизации в форматах контейнеров?».
  3. ^ Патент США 2605361, К. Чапин Катлер, «Дифференциальное квантование сигналов связи», выдан 29 июля 1952 г. 
  4. ^ Каммиски, П.; Джаянт, Н.С.; Фланаган, Дж. Л. (1973). «Адаптивное квантование при дифференциальном PCM-кодировании речи». Технический журнал Bell System . 52 (7): 1105–1118. doi :10.1002/j.1538-7305.1973.tb02007.x.
  5. ^ Каммиски, П.; Джаянт, Никил С.; Фланаган, Дж. Л. (1973). «Адаптивное квантование при дифференциальном ИКМ-кодировании речи». Технический журнал Bell System . 52 (7): 1105–1118. doi :10.1002/j.1538-7305.1973.tb02007.x. ISSN  0005-8580.
  6. ^ abc Шредер, Манфред Р. (2014). «Лаборатории Белла». Акустика, информация и связь: Мемориальный том в честь Манфреда Р. Шредера . Спрингер. п. 388. ИСБН 9783319056609.
  7. ^ Грей, Роберт М. (2010). «История цифровой речи в реальном времени в пакетных сетях: Часть II линейного прогнозирующего кодирования и интернет-протокола» (PDF) . Найденный. Процесс сигналов трендов . 3 (4): 203–303. дои : 10.1561/2000000036 . ISSN  1932-8346.
  8. ^ Насир Ахмед ; Т. Натараджан; Камисетти Рамамохан Рао (январь 1974 г.). «Дискретное косинусное преобразование» (PDF) . Транзакции IEEE на компьютерах . С-23 (1): 90–93. дои : 10.1109/TC.1974.223784. S2CID  149806273. Архивировано из оригинала (PDF) 8 декабря 2016 г. Проверено 20 октября 2019 г.
  9. ^ abc Гукерт, Джон (весна 2012 г.). «Использование БПФ и MDCT в сжатии аудио MP3» (PDF) . Университет Юты . Проверено 14 июля 2019 г.
  10. ^ Принсен, Дж.; Джонсон, А.; Брэдли, А. (1987). «Кодирование поддиапазона/преобразования с использованием конструкции банка фильтров на основе отмены псевдонимов во временной области». ИКАССП '87. Международная конференция IEEE по акустике, речи и обработке сигналов . Том. 12. С. 2161–2164. дои : 10.1109/ICASSP.1987.1169405. S2CID  58446992.
  11. ^ Принсен, Дж.; Брэдли, А. (1986). «Разработка банка фильтров анализа/синтеза на основе отмены псевдонимов во временной области». Транзакции IEEE по акустике, речи и обработке сигналов . 34 (5): 1153–1161. дои :10.1109/ТАССП.1986.1164954.
  12. ^ abcdef Луо, Фа-Лонг (2008). Стандарты мобильного мультимедийного вещания: технологии и практика. Springer Science & Business Media . п. 590. ИСБН 9780387782638.
  13. ^ Британак, В. (2011). «О свойствах, связях и упрощенной реализации наборов фильтров в стандартах кодирования звука Dolby Digital (Plus) AC-3». Транзакции IEEE по обработке звука, речи и языка . 19 (5): 1231–1241. дои : 10.1109/TASL.2010.2087755. S2CID  897622.
  14. ^ аб Бранденбург, Карлхайнц (1999). «Объяснение MP3 и AAC» (PDF) . Архивировано (PDF) из оригинала 13 февраля 2017 г.
  15. ^ «Отчет разработчиков видео за 2019 год» (PDF) . Битмовин . 2019 . Проверено 5 ноября 2019 г.
  16. ^ Британак, В. (2011). «О свойствах, связях и упрощенной реализации наборов фильтров в стандартах кодирования звука Dolby Digital (Plus) AC-3». Транзакции IEEE по обработке звука, речи и языка . 19 (5): 1231–1241. дои : 10.1109/TASL.2010.2087755. S2CID  897622.
  17. ^ Станкович, Радомир С.; Астола, Яакко Т. (2012). «Воспоминания о ранней работе в DCT: интервью с К.Р. Рао» (PDF) . Отпечатки первых дней информационных наук . 60 . Проверено 13 октября 2019 г.
  18. ^ Фонд Xiph.Org (02.06.2009). «Спецификация Vorbis I - Классификация 1.1.2». Фонд Xiph.Org . Проверено 22 сентября 2009 г.
  19. ^ Терриберри, Тимоти Б. Презентация кодека CELT. Презентация (PDF) .
  20. ^ Вален, Жан-Марк; Максвелл, Грегори; Терриберри, Тимоти Б.; Вос, Коэн (октябрь 2013 г.). Высококачественное кодирование музыки с малой задержкой в ​​кодеке Opus . 135-я конференция AES. Общество аудиоинженеров . arXiv : 1602.04845 .
  21. ^ Дарко, Джон Х. (29 марта 2017 г.). «Неудобная правда о Bluetooth-аудио». ДАР__КО . Архивировано из оригинала 14 января 2018 г. Проверено 13 января 2018 г.
  22. ^ Форд, Джез (24 августа 2015 г.). «Что такое Sony LDAC и как она это делает?». AVHub . Проверено 13 января 2018 г.
  23. ^ Форд, Джез (22 ноября 2016 г.). «aptX HD — без потерь или с потерями?». AVHub . Проверено 13 января 2018 г.
  24. ^ «Аудиоформаты цифровых театральных систем» . Библиотека Конгресса . 27 декабря 2011 года . Проверено 10 ноября 2019 г. .
  25. ^ Спаниас, Андреас; Художник, Тед; Атти, Венкатраман (2006). Обработка и кодирование аудиосигналов. Джон Уайли и сыновья . п. 338. ИСБН 9780470041963.