Формат аудиокодирования

Формат кодирования звука ^[1] (или иногда формат сжатия звука ) — это формат представления контента для хранения или передачи цифрового звука (например, в цифровом телевидении , цифровом радио и в аудио- и видеофайлах). Примерами форматов кодирования звука являются MP3 , AAC , Vorbis , FLAC и Opus . Конкретная программная или аппаратная реализация, способная сжимать и распаковывать звук в/из определенного формата кодирования звука, называется аудиокодеком ; примером аудиокодека является LAME , который является одним из нескольких различных кодеков, реализующих кодирование и декодирование звука в формате кодирования звука MP3 в программном обеспечении.

Некоторые форматы аудиокодирования документируются подробным техническим документом спецификации, известным как спецификация аудиокодирования . Некоторые такие спецификации пишутся и утверждаются организациями по стандартизации как технические стандарты и, таким образом, известны как стандарт аудиокодирования . Термин «стандарт» также иногда используется для фактических стандартов , а также для формальных стандартов.

Аудиоконтент, закодированный в определенном формате аудиокодирования, обычно инкапсулируется в контейнерном формате . Таким образом, у пользователя обычно нет необработанного файла AAC , но вместо этого есть аудиофайл .m4a , который является контейнером MPEG-4 Part 14, содержащим аудио в кодировке AAC. Контейнер также содержит метаданные, такие как заголовок и другие теги, и, возможно, индекс для быстрого поиска. ^[2] Заметным исключением являются файлы MP3 , которые представляют собой необработанное аудиокодирование без формата контейнера. Фактические стандарты добавления тегов метаданных, таких как заголовок и исполнитель, в MP3, такие как ID3 , являются хаками , которые работают путем добавления тегов к MP3, а затем полагаются на то, что проигрыватель MP3 распознает фрагмент как неправильно сформированное аудиокодирование и, следовательно, пропускает его. В видеофайлах со звуком закодированный аудиоконтент объединяется с видео (в формате видеокодирования ) внутри мультимедийного контейнерного формата .

Формат кодирования звука не диктует все алгоритмы, используемые кодеком , реализующим формат. Важной частью того, как работает сжатие звука с потерями, является удаление данных способами, которые люди не могут услышать, согласно психоакустической модели ; реализатор кодера имеет некоторую свободу выбора, какие данные удалять (согласно своей психоакустической модели).

Форматы кодирования звука без потерь, с потерями и несжатые

Формат кодирования звука без потерь уменьшает общий объем данных, необходимых для представления звука, но может быть декодирован в исходную, несжатую форму. Формат кодирования звука с потерями дополнительно снижает битовое разрешение звука поверх сжатия, что приводит к гораздо меньшему объему данных за счет безвозвратно потерянной информации.

Передаваемое (потоковое) аудио чаще всего сжимается с использованием аудиокодеков с потерями, поскольку меньший размер гораздо удобнее для распространения. Наиболее широко используемые форматы кодирования аудио — MP3 и Advanced Audio Coding (AAC), оба из которых являются форматами с потерями, основанными на модифицированном дискретном косинусном преобразовании (MDCT) и алгоритмах перцептивного кодирования .

Иногда доступны форматы кодирования звука без потерь, такие как FLAC и Apple Lossless , но за счет большего размера файлов.

Иногда также используются несжатые аудиоформаты , такие как импульсно-кодовая модуляция (PCM или .wav). PCM был стандартным форматом для Compact Disc Digital Audio (CDDA).

История

Solidyne 922: первая в мире коммерческая звуковая карта с компрессией аудиоданных для ПК, 1990 г.

В 1950 году Bell Labs подала заявку на патент на дифференциальную импульсно-кодовую модуляцию (DPCM). ^[3] Адаптивная DPCM (ADPCM) была представлена П. Каммиски, Никилом С. Джайантом и Джеймсом Л. Фланаганом в Bell Labs в 1973 году. ^[4]^[5]

Перцептивное кодирование впервые было использовано для сжатия кодирования речи с линейным предсказательным кодированием (LPC). ^[6] Первоначальные концепции LPC восходят к работе Фумитады Итакуры ( Университет Нагои ) и Шузо Сайто ( Nippon Telegraph and Telephone ) в 1966 году. ^[7] В 1970-х годах Бишну С. Атал и Манфред Р. Шредер в Bell Labs разработали форму LPC, называемую адаптивным предсказательным кодированием (APC), алгоритм перцептивного кодирования, который использовал маскирующие свойства человеческого уха, за которым в начале 1980-х годов последовал алгоритм линейного предсказания с кодовым возбуждением (CELP), который достиг значительной степени сжатия для своего времени. ^[6] Перцептивное кодирование используется современными форматами сжатия звука, такими как MP3 ^[6] и AAC .

Дискретное косинусное преобразование (DCT), разработанное Насиром Ахмедом , Т. Натараджаном и К. Р. Рао в 1974 году, ^[8] легло в основу модифицированного дискретного косинусного преобразования (MDCT), используемого современными форматами сжатия звука, такими как MP3 ^[9] и AAC. MDCT было предложено JP Princen, AW Johnson и AB Bradley в 1987 году, ^[10] после более ранней работы Princen и Bradley в 1986 году. ^[11] MDCT используется современными форматами сжатия звука, такими как Dolby Digital , ^[12]^[13] MP3 , ^[9] и Advanced Audio Coding (AAC). ^[14]

Список форматов с потерями

Общий

Речь

Линейное предсказательное кодирование (LPC)
- Адаптивное предиктивное кодирование (APC)
- Линейное предсказание с кодовым возбуждением (CELP)
- Алгебраическое линейное предсказание с кодовым возбуждением (ACELP)
- Расслабленное линейное предсказание с кодовым возбуждением (RCELP)
- CELP с малой задержкой (LD-CELP)
- Адаптивный многоскоростной режим (используется в GSM и 3GPP )
- Кодек 2 (отмечен отсутствием патентных ограничений)
- Speex (отмечен отсутствием патентных ограничений)
Модифицированное дискретное косинусное преобразование (MDCT)
- AAC-LD
- Ограниченное энергетическое перекрывающееся преобразование (CELT)
- Opus (в основном для приложений реального времени)

Список форматов без потерь

Apple Lossless (ALAC – аудиокодек Apple Lossless)
Адаптивное преобразование акустического кодирования (ATRAC)
Кодирование звука без потерь (также известное как MPEG-4 ALS)
Прямая потоковая передача (DST)
Dolby TrueHD
DTS-HD Мастер Аудио
Бесплатный аудиокодек без потерь (FLAC)
Дискретное косинусное преобразование без потерь (LDCT)
Упаковка без потерь (MLP)
Monkey's Audio (Обезьянье аудио APE)
MPEG-4 SLS (также известный как HD-AAC)
OptimFROG
Оригинальное качество звука (OSQ)
RealPlayer (RealAudio Lossless)
Сократить (SHN)
TTA (истинный звук без потерь)
WavPack (WavPack без потерь)
WMA без потерь (Windows Media без потерь)

Смотрите также

Ссылки

^ Термин «аудиокодирование» можно увидеть, например, в названии Advanced Audio Coding , и он аналогичен термину видеокодирование.
^ «Видео – Где хранится информация о синхронизации в форматах контейнеров?».
^ Патент США 2605361, C. Chapin Cutler, «Дифференциальное квантование сигналов связи», выдан 29 июля 1952 г.
^ Каммиски, П.; Джайант, Н.С.; Фланаган, Дж.Л. (1973). «Адаптивное квантование в дифференциальном кодировании речи PCM». Bell System Technical Journal . 52 (7): 1105–1118. doi :10.1002/j.1538-7305.1973.tb02007.x.
^ Cummiskey, P.; Jayant, Nikil S.; Flanagan, JL (1973). «Адаптивное квантование в дифференциальном кодировании PCM речи». The Bell System Technical Journal . 52 (7): 1105–1118. doi :10.1002/j.1538-7305.1973.tb02007.x. ISSN 0005-8580.
^ abc Шредер, Манфред Р. (2014). "Bell Laboratories". Акустика, информация и связь: Мемориальный том в честь Манфреда Р. Шредера . Springer. стр. 388. ISBN 9783319056609.
^ Грей, Роберт М. (2010). «История цифровой речи в реальном времени в пакетных сетях: Часть II линейного предиктивного кодирования и интернет-протокола» (PDF) . Найдено. Trends Signal Process . 3 (4): 203–303. doi : 10.1561/2000000036 . ISSN 1932-8346.
^ Насир Ахмед ; Т. Натараджан; Камисетти Рамамохан Рао (январь 1974 г.). «Дискретное косинусное преобразование» (PDF) . IEEE Transactions on Computers . C-23 (1): 90–93. doi :10.1109/TC.1974.223784. S2CID 149806273. Архивировано из оригинала (PDF) 2016-12-08 . Получено 2019-10-20 .
^ abc Guckert, John (весна 2012 г.). «Использование FFT и MDCT в сжатии аудио MP3» (PDF) . University of Utah . Получено 14 июля 2019 г. .
^ Princen, J.; Johnson, A.; Bradley, A. (1987). «Кодирование подполос/преобразований с использованием конструкций банка фильтров на основе отмены наложения спектров во временной области». ICASSP '87. Международная конференция IEEE по акустике, речи и обработке сигналов . Том 12. С. 2161–2164. doi :10.1109/ICASSP.1987.1169405. S2CID 58446992.
^ Princen, J.; Bradley, A. (1986). «Проект банка фильтров анализа/синтеза на основе отмены наложения спектров во временной области». Труды IEEE по акустике, речи и обработке сигналов . 34 (5): 1153–1161. doi :10.1109/TASSP.1986.1164954.
^ abcdef Luo, Fa-Long (2008). Стандарты мобильного мультимедийного вещания: технология и практика. Springer Science & Business Media . стр. 590. ISBN 9780387782638.
^ Британак, В. (2011). «О свойствах, отношениях и упрощенной реализации банков фильтров в стандартах аудиокодирования Dolby Digital (Plus) AC-3». Труды IEEE по обработке звука, речи и языка . 19 (5): 1231–1241. doi :10.1109/TASL.2010.2087755. S2CID 897622.
^ ab Brandenburg, Karlheinz (1999). "MP3 и AAC Explained" (PDF) . Архивировано (PDF) из оригинала 2017-02-13.
^ "Video Developer Report 2019" (PDF) . Bitmovin . 2019 . Получено 5 ноября 2019 .
^ Британак, В. (2011). «О свойствах, отношениях и упрощенной реализации банков фильтров в стандартах аудиокодирования Dolby Digital (Plus) AC-3». Труды IEEE по обработке звука, речи и языка . 19 (5): 1231–1241. doi :10.1109/TASL.2010.2087755. S2CID 897622.
^ Станкович, Радомир С.; Астола, Яакко Т. (2012). «Воспоминания о ранней работе в области DCT: интервью с К. Р. Рао» (PDF) . Перепечатки из Early Days of Information Sciences . 60 . Получено 13 октября 2019 г. .
^ Фонд Xiph.Org (2009-06-02). "Спецификация Vorbis I - 1.1.2 Классификация". Фонд Xiph.Org . Получено 2009-09-22 .
^ Терриберри, Тимоти Б. Презентация кодека CELT. Презентация (PDF) .
^ Валин, Жан-Марк; Максвелл, Грегори; Терриберри, Тимоти Б.; Вос, Коэн (октябрь 2013 г.). Высококачественное кодирование музыки с малой задержкой в кодеке Opus . 135-я конвенция AES. Общество звукорежиссеров . arXiv : 1602.04845 .
^ Дарко, Джон Х. (29.03.2017). «Неудобная правда о Bluetooth-аудио». DAR__KO . Архивировано из оригинала 14.01.2018 . Получено 13.01.2018 .
^ Форд, Джез (24.08.2015). «Что такое Sony LDAC и как он это делает?». AVHub . Получено 13.01.2018 .
^ Форд, Джез (22.11.2016). "aptX HD — без потерь или с потерями?". AVHub . Получено 13.01.2018 .
^ "Digital Theater Systems Audio Formats". Библиотека Конгресса . 27 декабря 2011 г. Получено 10 ноября 2019 г.
^ Спаниас, Андреас; Пейнтер, Тед; Атти, Венкатраман (2006). Обработка и кодирование аудиосигналов. John Wiley & Sons . стр. 338. ISBN 9780470041963.