MP3 (официально MPEG-1 Audio Layer III или MPEG-2 Audio Layer III ) [4] — формат кодирования цифрового звука, разработанный в основном Обществом Фраунгофера в Германии под руководством Карлхайнца Бранденбурга . [11] [12] Он был разработан для значительного сокращения объема данных, необходимых для представления звука, но при этом для большинства слушателей он по-прежнему звучал как точное воспроизведение исходного несжатого звука; например, по сравнению с цифровым звуком качества CD , сжатие MP3 обычно может достигать 75–95% уменьшения размера, в зависимости от скорости передачи данных . [13] В популярном использовании MP3 часто относится к файлам звуковых или музыкальных записей, хранящихся в формате файла MP3 (.mp3) на потребительских электронных устройствах.
Первоначально определенный в 1991 году как третий аудиоформат стандарта MPEG-1 , он был сохранен и далее расширен — определяя дополнительные скорости передачи данных и поддержку большего количества аудиоканалов — как третий аудиоформат последующего стандарта MPEG-2 . MP3 как формат файла обычно обозначает файлы, содержащие элементарный поток данных, закодированных в формате MPEG-1 Audio или MPEG-2 Audio, без других сложностей стандарта MP3. Что касается сжатия звука , которое является его наиболее очевидным элементом для конечных пользователей, MP3 использует сжатие с потерями для кодирования данных с использованием неточных приближений и частичного отбрасывания данных, что позволяет значительно уменьшить размеры файлов по сравнению с несжатым аудио. Сочетание небольшого размера и приемлемой точности привело к буму распространения музыки через Интернет в конце 1990-х годов, причем MP3 служил технологией, позволяющей работать в то время, когда пропускная способность и хранилище все еще были в цене. Формат MP3 вскоре стал ассоциироваться со спорами, связанными с нарушением авторских прав , музыкальным пиратством , а также с файлообменными сервисами MP3.com и Napster и другими . С появлением портативных медиаплееров (включая «MP3-плееры»), категории продуктов, включающей также смартфоны , поддержка MP3 остается практически универсальной и фактическим стандартом для цифрового аудио.
Группа экспертов по движущимся изображениям (MPEG) разработала MP3 как часть своих стандартов MPEG-1 , а позднее MPEG-2 . MPEG-1 Audio (MPEG-1 Часть 3), который включал MPEG-1 Audio Layer I, II и III, был одобрен в качестве проекта комитета для стандарта ISO / IEC в 1991 году, [14] [15] завершен в 1992 году, [16] и опубликован в 1993 году как ISO/IEC 11172-3:1993. [7] Расширение MPEG-2 Audio (MPEG-2 Часть 3) с более низкими скоростями дискретизации и битрейта было опубликовано в 1995 году как ISO/IEC 13818-3:1995. [8] [17] Оно требует лишь минимальных изменений в существующих декодерах MPEG-1 (распознавание бита MPEG-2 в заголовке и добавление новых более низких скоростей дискретизации и битрейта).
Алгоритм сжатия с потерями MP3 использует перцептивное ограничение человеческого слуха, называемое слуховой маскировкой . В 1894 году американский физик Альфред М. Майер сообщил, что тон может быть сделан неслышимым другим тоном более низкой частоты. [18] В 1959 году Ричард Эмер описал полный набор слуховых кривых относительно этого явления. [19] В период с 1967 по 1974 год Эберхард Цвикер работал в области настройки и маскировки критических частотных диапазонов, [20] [21] что, в свою очередь, основывалось на фундаментальных исследованиях в этой области Харви Флетчера и его коллег из Bell Labs . [22]
Перцептивное кодирование было впервые использовано для сжатия речевого кодирования с линейным предсказательным кодированием (LPC), [23] которое берет свое начало в работе Фумитады Итакура ( Университет Нагои ) и Шузо Сайто ( Nippon Telegraph and Telephone ) в 1966 году. [24] В 1978 году Бишну С. Атал и Манфред Р. Шредер из Bell Labs предложили речевой кодек LPC , названный адаптивным предсказательным кодированием , который использовал психоакустический алгоритм кодирования, использующий маскирующие свойства человеческого уха. [23] [25] Дальнейшая оптимизация Шредера и Атала с Дж. Л. Холлом была позже описана в статье 1979 года. [26] В том же году психоакустический маскирующий кодек был также предложен М.А. Краснером [27], который опубликовал и создал оборудование для речевого кодирования (не пригодное для битовой компрессии музыки), но публикация его результатов в относительно малоизвестном техническом отчете лаборатории Линкольна [28] не оказала немедленного влияния на основное направление разработки психоакустических кодеков.
Дискретное косинусное преобразование (DCT), тип кодирования преобразования для сжатия с потерями, предложенный Насиром Ахмедом в 1972 году, было разработано Ахмедом совместно с Т. Натараджаном и К. Р. Рао в 1973 году; они опубликовали свои результаты в 1974 году. [29] [30] [31] Это привело к разработке модифицированного дискретного косинусного преобразования (MDCT), предложенного Дж. П. Принсеном, А. В. Джонсоном и А. Б. Брэдли в 1987 году, [32] после более ранней работы Принсена и Брэдли в 1986 году. [33] Позднее MDCT стало основной частью алгоритма MP3. [34]
Эрнст Терхардт и другие коллеги в 1982 году построили алгоритм, описывающий слуховую маскировку с высокой точностью. [35] Эта работа дополнила множество отчетов авторов, начиная с Флетчера, и работу, которая изначально определяла критические соотношения и критические полосы пропускания.
В 1985 году Атал и Шредер представили линейное предсказание с кодовым возбуждением (CELP), алгоритм перцептивного кодирования речи на основе LPC со слуховой маскировкой, который достиг значительной степени сжатия данных для своего времени. [23] Рецензируемый IEEE журнал Journal on Selected Areas in Communications в 1988 году сообщил о широком спектре (в основном перцептивных) алгоритмов сжатия звука. [36] В издании «Voice Coding for Communications», опубликованном в феврале 1988 года, сообщалось о широком спектре устоявшихся, работающих технологий сжатия аудиобитов, [36] некоторые из них использовали слуховую маскировку как часть своей базовой конструкции, а несколько демонстрировали аппаратные реализации в реальном времени.
Генезис технологии MP3 полностью описан в статье профессора Ганса Мусмана [37] , который несколько лет возглавлял группу ISO MPEG Audio. В декабре 1988 года MPEG призвал к стандарту аудиокодирования. В июне 1989 года было представлено 14 алгоритмов аудиокодирования. Из-за определенного сходства между этими предложениями по кодированию они были объединены в четыре группы разработки. Первая группа была ASPEC, разработанная Fraunhofer Gesellschaft , AT&T , France Telecom , Deutsche и Thomson-Brandt . Вторая группа была MUSICAM , разработанная Matsushita , CCETT , ITT и Philips . Третья группа была ATAC (кодирование ATRAC), разработанная Fujitsu , JVC , NEC и Sony . И четвертая группа была SB-ADPCM , разработанная NTT и BTRL. [37]
Непосредственными предшественниками MP3 были «Оптимальное кодирование в частотной области» (OCF) [38] и кодирование с перцептивным преобразованием (PXFM). [39] Эти два кодека, вместе с вкладом в переключение блоков от Thomson-Brandt, были объединены в кодек под названием ASPEC, который был представлен в MPEG и выиграл конкурс качества, но был ошибочно отклонен как слишком сложный для реализации. Первой практической реализацией аудиоперцептивного кодера (OCF) в аппаратном обеспечении (аппаратное обеспечение Краснера было слишком громоздким и медленным для практического использования) была реализация кодера психоакустического преобразования на основе чипов Motorola 56000 DSP .
Другой предшественник формата и технологии MP3 можно найти в перцептивном кодеке MUSICAM, основанном на целочисленной арифметике 32 поддиапазонных фильтр-банка, управляемого психоакустической моделью. Он был в первую очередь разработан для цифрового аудиовещания (цифровое радио) и цифрового телевидения, и его основные принципы были раскрыты научному сообществу CCETT (Франция) и IRT (Германия) в Атланте во время конференции IEEE- ICASSP в 1991 году, [40] после работы над MUSICAM с Matsushita и Philips с 1989 года. [37]
Этот кодек, встроенный в систему вещания с использованием модуляции COFDM, был продемонстрирован в эфире и в полевых условиях [41] с Radio Canada и CRC Canada во время шоу NAB (Лас-Вегас) в 1991 году. Реализация звуковой части этой системы вещания была основана на двухчиповом кодере (один для преобразования поддиапазона, один для психоакустической модели, разработанной группой Г. Штолля (IRT Германия), позже известной как психоакустическая модель I) и декодере реального времени с использованием одного чипа Motorola 56001 DSP, на котором работало программное обеспечение целочисленной арифметики, разработанное группой YF Dehery (CCETT, Франция). Простота соответствующего декодера в сочетании с высоким качеством звука этого кодека, впервые использовавшего частоту дискретизации 48 кГц и входной формат 20 бит/выборка (самый высокий доступный стандарт дискретизации в 1991 году, совместимый с профессиональным цифровым студийным стандартом ввода AES/EBU), стали основными причинами для последующего принятия характеристик MUSICAM в качестве базовых функций для усовершенствованного кодека сжатия цифровой музыки.
Во время разработки программного обеспечения для кодирования MUSICAM команда Столла и Дехери тщательно использовала набор высококачественных материалов для оценки звука [42], отобранных группой профессионалов в области аудио из Европейского союза вещания, и позже использованных в качестве справочного материала для оценки кодеков сжатия музыки. Метод субполосного кодирования оказался эффективным не только для перцептивного кодирования высококачественных звуковых материалов, но и особенно для кодирования критических ударных звуковых материалов (барабаны, треугольники ,...) из-за особого временного маскирующего эффекта банка фильтров субполос MUSICAM (это преимущество является специфической особенностью методов кодирования с коротким преобразованием).
Будучи докторантом в немецком Университете Эрланген-Нюрнберг , Карлхайнц Бранденбург начал работать над цифровой компрессией музыки в начале 1980-х годов, сосредоточившись на том, как люди воспринимают музыку. Он завершил свою докторскую работу в 1989 году. [43] MP3 является прямым потомком OCF и PXFM, представляя собой результат сотрудничества Бранденбурга — работавшего в качестве постдокторанта в AT&T-Bell Labs с Джеймсом Д. Джонстоном («JJ») из AT&T-Bell Labs — с Институтом интегральных схем Фраунгофера в Эрлангене (где он работал с Бернхардом Грилем и четырьмя другими исследователями — «Оригинальная шестерка» [44] ), с относительно небольшим вкладом со стороны MP2-отдела психоакустических субполосных кодеров. В 1990 году Бранденбург стал доцентом в Эрлангене-Нюрнберге. Там он продолжил работать над сжатием музыки с учёными из Института имени Генриха Герца Общества Фраунгофера . В 1993 году он присоединился к коллективу Fraunhofer HHI. [43] Песня « Tom's Diner » в исполнении Сюзанны Веги в исполнении а капелла была первой песней, использованной Бранденбургом для разработки формата MP3. Она использовалась в качестве эталона, чтобы увидеть, насколько хорошо алгоритм сжатия MP3 справляется с человеческим голосом. Бранденбург принял песню для тестирования, прослушивая её снова и снова каждый раз, когда он совершенствовал алгоритм сжатия, убеждаясь, что это не оказывает отрицательного влияния на воспроизведение голоса Веги. [45] Соответственно, он окрестил Вегу «матерью MP3». [46] Инструментальную музыку было легче сжимать, но голос Веги звучал неестественно в ранних версиях формата. В конце концов Бранденбург встретился с Вегой и услышал выступление Tom's Diner вживую.
В 1991 году были оценены два доступных предложения для стандарта звука MPEG: MUSICAM ( адаптированное универсальное субполосное интегрированное кодирование и мультиплексирование с маскирующим шаблоном ) и ASPEC ( адаптивное спектральное перцептивное энтропийное кодирование ). Метод MUSICAM , предложенный Philips ( Нидерланды), CCETT (Франция), Институтом вещательных технологий (Германия) и Matsushita (Япония), [47] был выбран из-за его простоты и устойчивости к ошибкам, а также из-за его высокого уровня вычислительной эффективности. [48] Формат MUSICAM, основанный на субполосном кодировании , стал основой для формата сжатия звука MPEG, включив, например, его структуру кадра, формат заголовка, частоты дискретизации и т. д.
В то время как большая часть технологий и идей MUSICAM была включена в определение MPEG Audio Layer I и Layer II, только банк фильтров и структура данных, основанная на кадрировании 1152 образцов (формат файла и байт-ориентированный поток) MUSICAM остались в формате Layer III (MP3) как часть вычислительно неэффективного гибридного банка фильтров . Под председательством профессора Мусмана из Ганноверского университета Лейбница редактирование стандарта было делегировано Леону ван де Керкхофу (Нидерланды), Герхарду Штоллю (Германия) и Иву-Франсуа Деэри (Франция), которые работали над Layer I и Layer II. ASPEC был совместным предложением AT&T Bell Laboratories, Thomson Consumer Electronics, Fraunhofer Society и CNET . [49] Он обеспечивал наивысшую эффективность кодирования.
Рабочая группа в составе ван де Керкхофа, Штолля, Леонардо Чиарильоне ( вице-президент CSELT по медиа), Ива-Франсуа Деэри, Карлхайнца Бранденбурга (Германия) и Джеймса Д. Джонстона (США) взяла идеи из ASPEC, интегрировала банк фильтров из Layer II, добавила некоторые из своих идей, такие как совместное стереокодирование MUSICAM, и создала формат MP3, который был разработан для достижения того же качества при 128 кбит/с , что и MP2 при 192 кбит/с.
Алгоритмы для MPEG-1 Audio Layer I, II и III были одобрены в 1991 году [14] [15] и окончательно доработаны в 1992 году [16] как часть MPEG-1 , первого набора стандартов MPEG , что привело к международному стандарту ISO/IEC 11172-3 (он же MPEG-1 Audio или MPEG-1 Part 3 ), опубликованному в 1993 году. [7] Файлы или потоки данных, соответствующие этому стандарту, должны обрабатывать частоты дискретизации 48k, 44100 и 32k и продолжать поддерживаться текущими проигрывателями и декодерами MP3 . Таким образом, первое поколение MP3 определило 14 × 3 = 42 интерпретации структур данных кадров MP3 и макетов размеров.
Эффективность сжатия кодеров обычно определяется битрейтом, поскольку коэффициент сжатия зависит от битовой глубины и частоты дискретизации входного сигнала. Тем не менее, коэффициенты сжатия часто публикуются. Они могут использовать параметры компакт-диска (CD) в качестве эталонов (44,1 кГц , 2 канала по 16 бит на канал или 2×16 бит), или иногда параметры цифровой аудиокассеты (DAT) SP (48 кГц, 2×16 бит). Коэффициенты сжатия с этим последним эталоном выше, что демонстрирует проблему с использованием термина коэффициент сжатия для кодеров с потерями.
Карлхайнц Бранденбург использовал запись на CD песни Сюзанны Веги " Tom's Diner " для оценки и уточнения алгоритма сжатия MP3 . [50] Эта песня была выбрана из-за ее почти монофонической природы и широкого спектрального содержания, что позволяет легче услышать недостатки формата сжатия во время воспроизведения. Этот конкретный трек обладает интересным свойством, заключающимся в том, что два канала почти, но не полностью, одинаковы, что приводит к случаю, когда депрессия уровня бинауральной маскировки вызывает пространственную демаскировку шумовых артефактов, если кодер должным образом не распознает ситуацию и не применяет исправления, аналогичные тем, которые подробно описаны в психоакустической модели MPEG-2 AAC. Некоторые более важные аудиофрагменты ( глокеншпиль , треугольник, аккордеон и т. д.) были взяты с эталонного компакт-диска EBU V3/SQAM и использовались профессиональными звукорежиссерами для оценки субъективного качества форматов MPEG Audio. [ требуется ссылка ]
Реализация эталонного программного обеспечения для моделирования, написанная на языке C и позже известная как ISO 11172-5 , была разработана (в 1991–1996 годах) членами комитета ISO MPEG Audio для создания совместимых по битам файлов MPEG Audio (Layer 1, Layer 2, Layer 3). Она была одобрена как проект комитета технического отчета ISO/IEC в марте 1994 года и напечатана как документ CD 11172-5 в апреле 1994 года. [51] Она была одобрена как проект технического отчета (DTR/DIS) в ноябре 1994 года, [52] завершена в 1996 году и опубликована как международный стандарт ISO/IEC TR 11172-5:1998 в 1998 году. [53] Эталонное программное обеспечение на языке C было позже опубликовано как свободно доступный стандарт ISO. [54] Работая не в реальном времени на нескольких операционных системах, он смог продемонстрировать первое аппаратное декодирование в реальном времени (на основе DSP) сжатого звука. Некоторые другие реализации кодеров и декодеров MPEG Audio в реальном времени [55] были доступны для цифрового вещания (радио DAB , телевидение DVB ) для потребительских приемников и приставок.
7 июля 1994 года Общество Фраунгофера выпустило первый программный кодировщик MP3, названный l3enc . [56] Расширение имени файла .mp3 было выбрано командой Фраунгофера 14 июля 1995 года (ранее файлы назывались .bit ). [1] С первым программным проигрывателем MP3 в реальном времени WinPlay3 (выпущенным 9 сентября 1995 года) многие люди смогли кодировать и воспроизводить файлы MP3 на своих ПК. Из-за относительно небольших жестких дисков той эпохи (≈500–1000 МБ ) сжатие с потерями было необходимо для хранения нескольких альбомов музыки на домашнем компьютере в виде полных записей (в отличие от нотации MIDI или файлов трекера , которые объединяли нотацию с короткими записями инструментов, играющих отдельные ноты).
Хакер по имени SoloH обнаружил исходный код эталонной реализации MPEG "dist10" вскоре после релиза на серверах Университета Эрлангена . Он разработал более качественную версию и распространил ее в Интернете. Этот код положил начало широко распространенному копированию компакт-дисков и распространению цифровой музыки в формате MP3 через Интернет. [57] [58] [59] [60]
Дальнейшая работа над MPEG-аудио [61] была завершена в 1994 году как часть второго набора стандартов MPEG, MPEG-2 , более формально известного как международный стандарт ISO/IEC 13818-3 (он же MPEG-2 Часть 3 или обратно совместимый MPEG-2 Аудио или MPEG-2 Аудио BC [17] ), первоначально опубликованный в 1995 году. [8] [62] MPEG-2 Часть 3 (ISO/IEC 13818-3) определил 42 дополнительных битрейта и частоты дискретизации для MPEG-1 Audio Layer I, II и III. Новые частоты дискретизации составляют ровно половину от первоначально определенных в MPEG-1 Аудио. Это снижение частот дискретизации служит для сокращения доступной частотной точности вдвое, а также для сокращения битрейта на 50%. MPEG-2 Часть 3 также улучшил звук MPEG-1, позволив кодировать аудиопрограммы с более чем двумя каналами, до многоканального 5.1. [61] MP3, закодированный с помощью MPEG-2, обеспечивает воспроизведение в два раза меньшей полосы пропускания, чем MPEG-1, что подходит для фортепиано и пения.
Третье поколение потоков данных (файлов) в стиле "MP3" расширило идеи и реализацию MPEG-2 , но было названо MPEG-2.5 audio, поскольку MPEG-3 уже имел другое значение. Это расширение было разработано в Fraunhofer IIS, зарегистрированном владельце патента MP3, путем сокращения поля кадровой синхронизации в заголовке MP3 с 12 до 11 бит. Как и при переходе от MPEG-1 к MPEG-2, MPEG-2.5 добавляет дополнительные частоты дискретизации, равные ровно половине доступных при использовании MPEG-2. Таким образом, он расширяет область применения MP3, включая человеческую речь и другие приложения, при этом требуя только 25% полосы пропускания (воспроизведение частоты), возможной при использовании частот дискретизации MPEG-1. Хотя стандарт MPEG-2.5 не признан ISO, он широко поддерживается как недорогими китайскими, так и фирменными цифровыми аудиоплеерами, а также программными кодерами MP3 ( LAME ), декодерами (FFmpeg) и проигрывателями (MPC), добавляя 3 × 8 = 24 дополнительных типа кадров MP3. Таким образом, каждое поколение MP3 поддерживает 3 частоты дискретизации, что составляет ровно половину от предыдущего поколения, в общей сложности 9 разновидностей файлов формата MP3. Таблица сравнения частот дискретизации между MPEG-1, 2 и 2.5 приведена далее в статье. [63] [64] MPEG-2.5 поддерживается LAME (с 2000 года), Media Player Classic (MPC), iTunes и FFmpeg.
MPEG-2.5 не был разработан MPEG (см. выше) и никогда не был одобрен в качестве международного стандарта. Таким образом, MPEG-2.5 является неофициальным или фирменным расширением формата MP3. Тем не менее, он вездесущ и особенно выгоден для низкоскоростных приложений человеческой речи.
* Стандарт ISO ISO/IEC 11172-3 (он же MPEG-1 Audio) определил три формата: MPEG-1 Audio Layer I, Layer II и Layer III. Стандарт ISO ISO/IEC 13818-3 (он же MPEG-2 Audio) определил расширенную версию MPEG-1 Audio: MPEG-2 Audio Layer I, Layer II и Layer III. MPEG-2 Audio (MPEG-2 Part 3) не следует путать с MPEG-2 AAC (MPEG-2 Part 7 – ISO/IEC 13818-7). [17]
LAME — самый продвинутый кодировщик MP3. [ необходима цитата ] LAME включает кодирование с переменной скоростью передачи данных (VBR), которое использует параметр качества, а не целевой битрейт. Более поздние версии (2008+) поддерживают целевой показатель качества n.nnn , который автоматически выбирает частоту дискретизации MPEG-2 или MPEG-2.5 в зависимости от того, какая запись человеческой речи подходит для разрешения полосы пропускания всего 5512 Гц.
Во второй половине 1990-х годов файлы MP3 начали распространяться в Интернете , часто через подпольные пиратские сети песен. Первый известный эксперимент по распространению в Интернете был организован в начале 1990-х годов Internet Underground Music Archive , более известным под аббревиатурой IUMA. После некоторых экспериментов [66] с использованием несжатых аудиофайлов этот архив начал доставлять в родной всемирный низкоскоростной Интернет некоторые сжатые файлы MPEG Audio с использованием формата MP2 (Layer II), а позже использовал файлы MP3, когда стандарт был полностью завершен. Популярность MP3 начала быстро расти с появлением аудиоплеера Winamp от Nullsoft , выпущенного в 1997 году, который в 2023 году все еще имел сообщество из 80 миллионов активных пользователей. [67] В 1998 году был выпущен первый портативный твердотельный цифровой аудиоплеер MPMan , разработанный компанией SaeHan Information Systems, головной офис которой находится в Сеуле , Южная Корея , а Rio PMP300 был продан позже в 1998 году, несмотря на усилия RIAA по его юридическому подавлению . [ 68]
В ноябре 1997 года сайт mp3.com предлагал тысячи MP3-файлов, созданных независимыми исполнителями бесплатно. [68] Небольшой размер файлов MP3 позволил широко распространить одноранговый обмен файлами музыки , скопированной с компакт-дисков, что ранее было практически невозможно. Первая крупная одноранговая файлообменная сеть Napster была запущена в 1999 году. Простота создания и обмена MP3-файлами привела к широкому нарушению авторских прав . Крупные звукозаписывающие компании утверждали, что этот бесплатный обмен музыкой снижает продажи, и называли это « музыкальным пиратством ». Они отреагировали судебными исками против Napster , который в конечном итоге был закрыт и позже продан, и против отдельных пользователей, которые занимались обменом файлами. [69]
Несанкционированный обмен файлами MP3 продолжается в пиринговых сетях следующего поколения . Некоторые авторизованные сервисы, такие как Beatport , Bleep , Juno Records , eMusic , Zune Marketplace , Walmart.com , Rhapsody , одобренная индустрией звукозаписи реинкарнация Napster , и Amazon.com продают неограниченную музыку в формате MP3.
Файл MP3 состоит из кадров MP3, которые состоят из заголовка и блока данных. Эта последовательность кадров называется элементарным потоком . Из-за «битового резервуара» кадры не являются независимыми элементами и обычно не могут быть извлечены на произвольных границах кадров. Блоки данных MP3 содержат (сжатую) аудиоинформацию в терминах частот и амплитуд. На схеме показано, что заголовок MP3 состоит из синхрослова , которое используется для идентификации начала допустимого кадра. За ним следует бит, указывающий, что это стандарт MPEG , и два бита, указывающие, что используется слой 3; следовательно, MPEG-1 Audio Layer 3 или MP3. После этого значения будут отличаться в зависимости от файла MP3. ISO/IEC 11172-3 определяет диапазон значений для каждого раздела заголовка вместе со спецификацией заголовка. Большинство файлов MP3 сегодня содержат метаданные ID3 , которые предшествуют или следуют за кадрами MP3, как указано на схеме. Поток данных может содержать необязательную контрольную сумму .
Совместное стерео осуществляется только на покадровой основе. [70]
Короче говоря, сжатие MP3 работает за счет снижения точности определенных компонентов звука, которые считаются (согласно психоакустическому анализу) выходящими за пределы слуховых возможностей большинства людей. Этот метод обычно называют перцептивным кодированием или психоакустическим моделированием. [71] Оставшаяся аудиоинформация затем записывается в пространстве-эффективном режиме с использованием алгоритмов MDCT и FFT .
Алгоритм кодирования MP3 обычно делится на четыре части. Часть 1 делит аудиосигнал на более мелкие части, называемые кадрами, а затем на выходе применяется фильтр MDCT. Часть 2 пропускает образец в 1024-точечное быстрое преобразование Фурье (FFT), затем применяется психоакустическая модель, а на выходе применяется еще один фильтр MDCT. Часть 3 количественно определяет и кодирует каждый образец, что известно как распределение шума, которое саморегулируется для соответствия требованиям скорости передачи данных и маскировки звука . Часть 4 форматирует поток битов , называемый аудиокадром, который состоит из 4 частей: заголовка , проверки ошибок , аудиоданных и вспомогательных данных. [34]
Стандарт MPEG-1 не содержит точной спецификации для кодировщика MP3, но содержит примеры психоакустических моделей, циклов скорости и т. п. в ненормативной части исходного стандарта. [72] MPEG-2 удваивает количество поддерживаемых частот дискретизации, а MPEG-2.5 добавляет еще 3. Когда это было написано, предлагаемые реализации были довольно устаревшими. Разработчики стандарта должны были разработать алгоритмы, подходящие для удаления частей информации из аудиовхода. В результате появилось много различных кодировщиков MP3, каждый из которых создавал файлы разного качества. Сравнения были широко доступны, поэтому потенциальному пользователю кодировщика было легко выбрать лучший вариант. Некоторые кодировщики, которые хорошо кодировали на более высоких скоростях передачи данных (например, LAME ), не обязательно были так же хороши на более низких скоростях передачи данных. Со временем LAME развивался на веб-сайте SourceForge, пока не стал де-факто кодировщиком MP3 CBR. Позже был добавлен режим ABR. Работа продолжалась над истинной переменной скоростью передачи данных с использованием целевого показателя качества от 0 до 10. В конечном итоге числа (например, -V 9.600) могли генерировать превосходное качество кодирования голоса с низкой скоростью передачи данных всего лишь 41 кбит/с с использованием расширений MPEG-2.5.
MP3 использует перекрывающуюся структуру MDCT. Каждый кадр MPEG-1 MP3 состоит из 1152 сэмплов, разделенных на две гранулы по 576 сэмплов. Эти сэмплы, изначально находящиеся во временной области, преобразуются в один блок в 576 сэмплов частотной области с помощью MDCT. [73] MP3 также позволяет использовать более короткие блоки в грануле, вплоть до размера 192 сэмплов; эта функция используется при обнаружении переходного процесса . Это ограничивает временное распространение шума квантования, сопровождающего переходный процесс (см. психоакустику ). Частотное разрешение ограничено малым размером окна длинного блока, что снижает эффективность кодирования. [70] Временное разрешение может быть слишком низким для высокопереходных сигналов и может вызвать размывание ударных звуков. [70]
Из-за древовидной структуры банка фильтров проблемы с опережающим эхом усугубляются, поскольку объединенный импульсный отклик двух банков фильтров не обеспечивает и не может обеспечить оптимального решения по разрешению времени/частоты. [70] Кроме того, объединение выходов двух банков фильтров создает проблемы наложения спектров, которые должны частично решаться на этапе «компенсации наложения спектров»; однако это создает избыточную энергию для кодирования в частотной области, тем самым снижая эффективность кодирования. [74]
С другой стороны, декодирование тщательно определено в стандарте. Большинство декодеров являются « совместимыми с потоком битов », что означает, что распакованный вывод, который они производят из данного файла MP3, будет таким же, в пределах заданной степени допуска округления , как вывод, указанный математически в документе высокого стандарта ISO/IEC (ISO/IEC 11172-3). Поэтому сравнение декодеров обычно основано на том, насколько они эффективны с точки зрения вычислений (т. е. сколько памяти или процессорного времени они используют в процессе декодирования). Со временем эта проблема стала менее актуальной, поскольку тактовые частоты процессора перешли с МГц на ГГц. Общая задержка кодера/декодера не определена, что означает, что нет официального положения для воспроизведения без пауз . Однако некоторые кодеры, такие как LAME, могут прикреплять дополнительные метаданные, которые позволят проигрывателям, которые могут справиться с этим, обеспечить бесшовное воспроизведение.
При выполнении кодирования звука с потерями, например, при создании потока данных MP3, существует компромисс между объемом сгенерированных данных и качеством звука результатов. Человек, генерирующий MP3, выбирает битрейт, который определяет, сколько килобит в секунду звука требуется. Чем выше битрейт, тем больше будет поток данных MP3 и, как правило, тем ближе он будет звучать к исходной записи. При слишком низком битрейте артефакты сжатия (т. е. звуки, которых не было в исходной записи) могут быть слышны при воспроизведении. Некоторые аудиофайлы трудно сжимать из-за их случайности и резких атак. При сжатии этого типа аудиофайлов обычно слышны артефакты, такие как звон или опережающее эхо . Пример аплодисментов или треугольного инструмента с относительно низкой битрейтом дает хорошие примеры артефактов сжатия. Большинство субъективных тестов перцептивных кодеков, как правило, избегают использования подобных звуковых материалов, однако артефакты, создаваемые ударными звуками, едва заметны из-за специфической функции временной маскировки 32-полосного банка фильтров Layer II, на котором основан формат.
Помимо скорости передачи данных закодированного фрагмента аудио, качество звука, закодированного в MP3, также зависит от качества алгоритма кодировщика, а также от сложности кодируемого сигнала. Поскольку стандарт MP3 допускает довольно большую свободу с алгоритмами кодирования, различные кодировщики действительно демонстрируют совершенно разное качество, даже при одинаковой скорости передачи данных. Например, в публичном тесте прослушивания с участием двух ранних кодировщиков MP3, установленных на скорости около 128 кбит/с, [75] один набрал 3,66 по шкале от 1 до 5, в то время как другой набрал всего 2,22. Качество зависит от выбора кодировщика и параметров кодирования. [76]
Это наблюдение вызвало революцию в аудиокодировании. На раннем этапе битрейт был главным и единственным фактором. В то время файлы MP3 были самого простого типа: они использовали один и тот же битрейт для всего файла: этот процесс известен как кодирование с постоянной битрейтом (CBR). Использование постоянной битрейта упрощает кодирование и снижает нагрузку на процессор. Однако также можно оптимизировать размер файла, создавая файлы, в которых битрейт меняется по всему файлу. Они известны как переменный битрейт. Битовый резервуар и кодирование VBR были частью оригинального стандарта MPEG-1. Их концепция заключается в том, что в любом фрагменте аудио некоторые разделы легче сжимать, например тишина или музыка, содержащая всего несколько тонов, в то время как другие будет сложнее сжимать. Таким образом, общее качество файла можно повысить, используя более низкую битрейт для менее сложных отрывков и более высокую для более сложных частей. С некоторыми продвинутыми кодировщиками MP3 можно указать заданное качество, и кодировщик соответствующим образом отрегулирует битрейт. Пользователи, которым нужна определенная «настройка качества», прозрачная для их ушей, могут использовать это значение при кодировании всей своей музыки, и, как правило, им не нужно беспокоиться о проведении индивидуальных тестов прослушивания каждого музыкального произведения, чтобы определить правильный битрейт.
На воспринимаемое качество может влиять среда прослушивания (фоновый шум), внимание слушателя, обучение слушателя и в большинстве случаев аудиооборудование слушателя (такое как звуковые карты, колонки и наушники). Кроме того, достаточное качество может быть достигнуто за счет настройки более низкого качества для лекций и приложений человеческой речи, что сокращает время и сложность кодирования. Тест, который провел для новых студентов профессор музыки Стэнфордского университета Джонатан Бергер, показал, что предпочтение студентами музыки в формате MP3 растет с каждым годом. Бергер сказал, что студенты, похоже, предпочитают «шипящие» звуки, которые MP3 привносят в музыку. [77]
Глубокое исследование качества звука MP3, проект звукорежиссера и композитора Райана Магуайра "The Ghost in the MP3" изолирует звуки, потерянные во время сжатия MP3. В 2015 году он выпустил трек "moDernisT" (анаграмма "Tom's Diner"), составленный исключительно из звуков, удаленных во время сжатия MP3 песни "Tom's Diner", [78] [79] [80] трека, изначально использовавшегося при формулировании стандарта MP3. Подробный отчет о методах, используемых для изоляции звуков, удаленных во время сжатия MP3, вместе с концептуальной мотивацией проекта, был опубликован в Трудах Международной конференции по компьютерной музыке 2014 года. [81]
Скорость передачи данных — это произведение частоты дискретизации и количества бит на выборку, используемых для кодирования музыки. Аудио CD — 44100 выборок в секунду. Количество бит на выборку также зависит от количества аудиоканалов. CD — стерео и 16 бит на канал. Таким образом, умножение 44100 на 32 дает 1411200 — скорость передачи данных несжатого цифрового аудио CD. MP3 был разработан для кодирования этих данных 1411 кбит/с со скоростью 320 кбит/с или ниже. Если алгоритмы MP3 обнаруживают менее сложные отрывки, то можно использовать более низкие скорости передачи данных. При использовании MPEG-2 вместо MPEG-1 MP3 поддерживает только более низкие скорости дискретизации (16 000, 22 050 или 24 000 выборок в секунду) и предлагает выбор скорости передачи данных от 8 кбит/с до 160 кбит/с. Снижая частоту дискретизации, MPEG-2 Layer III удаляет все частоты выше половины новой частоты дискретизации, которые могли присутствовать в исходном аудио.
Как показано в этих двух таблицах, в стандарте MPEG-1 Audio Layer III разрешено 14 выбранных скоростей передачи данных: 32, 40, 48, 56, 64, 80, 96, 112, 128, 160, 192, 224, 256 и 320 кбит/с, а также 3 самые высокие доступные частоты дискретизации: 32, 44,1 и 48 кГц . [64] MPEG-2 Audio Layer III также допускает 14 несколько отличающихся (и в основном более низких) скоростей передачи данных: 8, 16, 24, 32, 40, 48, 56, 64, 80, 96, 112, 128, 144, 160 кбит/с с частотами дискретизации 16, 22,05 и 24 кГц , что составляет ровно половину от MPEG-1. [64] Кадры MPEG-2.5 Audio Layer III ограничены только 8 скоростями передачи данных: 8, 16, 24, 32, 40, 48, 56 и 64 кбит/с с 3 еще более низкими частотами дискретизации: 8, 11,025 и 12 кГц. [ необходима цитата ] В более ранних системах, которые поддерживают только стандарт MPEG-1 Audio Layer III, файлы MP3 со скоростью передачи данных ниже 32 кбит/с могут воспроизводиться ускоренно и с повышенной высотой тона.
В более ранних системах также отсутствовали элементы управления быстрой перемоткой воспроизведения MP3. [83] [84]
Кадры MPEG-1 содержат больше всего деталей в режиме 320 кбит/с, максимально допустимой настройке скорости передачи данных, [85] при этом тишина и простые тона по-прежнему требуют 32 кбит/с. Кадры MPEG-2 могут захватывать до 12 кГц звуковых воспроизведений, необходимых до 160 кбит/с. Файлы MP3, созданные с помощью MPEG-2, не имеют полосы пропускания 20 кГц из-за теоремы о дискретизации Найквиста-Шеннона . Воспроизведение частоты всегда строго меньше половины частоты дискретизации, а несовершенные фильтры требуют большего запаса на погрешность (уровень шума по сравнению с резкостью фильтра), поэтому частота дискретизации 8 кГц ограничивает максимальную частоту 4 кГц, в то время как частота дискретизации 48 кГц ограничивает MP3 максимальным воспроизведением звука 24 кГц. MPEG-2 использует половину, а MPEG-2.5 только четверть частоты дискретизации MPEG-1.
Для общей области воспроизведения человеческой речи полоса пропускания 5512 Гц достаточна для получения отличных результатов (для голоса) с использованием частоты дискретизации 11025 и кодирования VBR из 44100 (стандартного) WAV-файла. У носителей английского языка средняя скорость составляет 41–42 кбит/с при настройке -V 9.6, но она может меняться в зависимости от количества записанной тишины или скорости доставки (слов в минуту). Повторная выборка до 12000 (полоса пропускания 6K) выбирается параметром LAME -V 9.4. Аналогично -V 9.2 выбирает частоту дискретизации 16000 и результирующую фильтрацию нижних частот 8K. Более старые версии LAME и FFmpeg поддерживают только целочисленные аргументы для параметра выбора качества переменного битрейта. Параметр качества n.nnn (-V) задокументирован на lame.sourceforge.net, но поддерживается в LAME только с новым селектором качества переменного битрейта VBR, а не со средним битрейтом (ABR).
Частота дискретизации 44,1 кГц обычно используется для воспроизведения музыки, поскольку она также используется для аудио CD , основного источника, используемого для создания файлов MP3. В Интернете используется большое разнообразие битрейтов. Обычно используется битрейт 128 кбит/с, [86] при коэффициенте сжатия 11:1, что обеспечивает адекватное качество звука в относительно небольшом пространстве. По мере увеличения пропускной способности Интернета и размеров жестких дисков широко распространены более высокие битрейты до 320 кбит/с. Несжатый звук, хранящийся на аудио-CD, имеет битрейт 1411,2 кбит/с (16 бит/выборка × 44 100 выборок/сек × 2 канала / 1000 бит/килобит), поэтому битрейты 128, 160 и 192 кбит/с представляют коэффициенты сжатия приблизительно 11:1, 9:1 и 7:1 соответственно.
Нестандартные битрейты до 640 кбит/с могут быть достигнуты с помощью кодировщика LAME и опции свободного формата, хотя немногие MP3-плееры могут воспроизводить эти файлы. Согласно стандарту ISO, декодеры должны иметь возможность декодировать только потоки до 320 кбит/с. [87] [88] [89] Ранние кодировщики MPEG Layer III использовали то, что сейчас называется постоянной битрейтом (CBR). Программное обеспечение могло использовать только равномерный битрейт для всех кадров в файле MP3. Позднее более сложные кодировщики MP3 смогли использовать резервуар битов для нацеливания на средний битрейт , выбирая скорость кодирования для каждого кадра на основе сложности звука в этой части записи.
Более сложный кодер MP3 может создавать аудио с переменной скоростью передачи данных. Аудио MPEG может использовать переключение скорости передачи данных на основе кадра, но только декодеры уровня III должны поддерживать это. [64] [90] [91] [92] VBR используется, когда целью является достижение фиксированного уровня качества. Окончательный размер файла кодирования VBR менее предсказуем, чем при постоянной скорости передачи данных. Средняя скорость передачи данных — это тип VBR, реализованный как компромисс между двумя: скорость передачи данных может меняться для более стабильного качества, но контролируется так, чтобы оставаться близкой к среднему значению, выбранному пользователем, для предсказуемых размеров файлов. Хотя декодер MP3 должен поддерживать VBR, чтобы соответствовать стандартам, исторически некоторые декодеры имели ошибки с декодированием VBR, особенно до того, как кодеры VBR стали широко распространены. Самый развитый кодер MP3 LAME поддерживает генерацию форматов VBR, ABR и даже более старых форматов CBR MP3.
Звук уровня III также может использовать «резервуар битов», способность частично полного кадра удерживать часть аудиоданных следующего кадра, что позволяет временно изменять эффективную скорость передачи данных, даже в потоке с постоянной скоростью передачи данных. [64] [90] Внутренняя обработка резервуара битов увеличивает задержку кодирования. [ необходима ссылка ] Для частот выше примерно 16 кГц отсутствует масштабный коэффициент полосы 21 (sfb21) , что заставляет кодер выбирать между менее точным представлением в полосе 21 или менее эффективным хранением во всех полосах ниже полосы 21, последнее приводит к потере скорости передачи данных при кодировании с переменной скоростью. [93]
Поле вспомогательных данных может использоваться для хранения пользовательских данных. Вспомогательные данные являются необязательными, а количество доступных бит явно не указано. Вспомогательные данные располагаются после битов кода Хаффмана и находятся там, куда указывает main_data_begin следующего кадра. Кодер mp3PRO использовал вспомогательные данные для кодирования дополнительной информации, которая могла бы улучшить качество звука при декодировании с помощью его алгоритма.
«Тег» в аудиофайле — это раздел файла, содержащий метаданные , такие как название, исполнитель, альбом, номер трека или другая информация о содержимом файла. Стандарты MP3 не определяют форматы тегов для файлов MP3, и не существует стандартного формата контейнера , который поддерживал бы метаданные и устранял бы необходимость в тегах. Однако существует несколько фактических стандартов для форматов тегов. По состоянию на 2010 год наиболее распространенными являются ID3v1 и ID3v2 , а также недавно представленный APEv2 . Эти теги обычно встраиваются в начало или конец файлов MP3, отдельно от фактических данных кадра MP3. Декодеры MP3 либо извлекают информацию из тегов, либо просто обрабатывают их как игнорируемые, не относящиеся к MP3 мусорные данные.
Программное обеспечение для воспроизведения и редактирования часто содержит функциональность редактирования тегов, но существуют также приложения -редакторы тегов, предназначенные для этой цели. Помимо метаданных об аудиоконтенте, теги также могут использоваться для DRM . [94] ReplayGain — это стандарт для измерения и сохранения громкости файла MP3 ( нормализация звука ) в его теге метаданных, позволяющий проигрывателю, совместимому с ReplayGain, автоматически регулировать общую громкость воспроизведения для каждого файла. MP3Gain может использоваться для обратимого изменения файлов на основе измерений ReplayGain, чтобы можно было добиться скорректированного воспроизведения на проигрывателях без возможности ReplayGain.
Базовая технология декодирования и кодирования MP3 не имеет патентов в Европейском союзе, все патенты истекли там не позднее 2012 года. В Соединенных Штатах технология стала в значительной степени свободной от патентов 16 апреля 2017 года (см. ниже). Патенты MP3 истекли в США в период с 2007 по 2017 год. В прошлом многие организации заявляли о праве собственности на патенты , связанные с декодированием или кодированием MP3. Эти заявления привели к нескольким юридическим угрозам и искам из различных источников. В результате в странах, которые разрешают патенты на программное обеспечение , неопределенность относительно того, какие патенты должны быть лицензированы для создания продуктов MP3 без нарушения патентных прав, была распространена на ранних этапах принятия технологии.
Первоначальный почти полный стандарт MPEG-1 (части 1, 2 и 3) был опубликован 6 декабря 1991 года как ISO CD 11172. [95] [96] В большинстве стран патенты не могут быть поданы после того, как предшествующий уровень техники был обнародован, и патенты истекают через 20 лет после первоначальной даты подачи, что может быть на 12 месяцев позже для заявок в других странах. В результате патенты, необходимые для внедрения MP3, истекли в большинстве стран к декабрю 2012 года, через 21 год после публикации ISO CD 11172.
Исключением являются Соединенные Штаты, где действующие патенты, но поданные до 8 июня 1995 года, истекают по истечении 17 лет с даты выдачи или 20 лет с даты приоритета, в зависимости от того, что больше. Длительный процесс патентного делопроизводства может привести к выдаче патента намного позже, чем обычно ожидается (см. подводные патенты ). Различные патенты, связанные с MP3, истекли в Соединенных Штатах в даты, варьирующиеся от 2007 до 2017 года. [97] Патенты на что-либо раскрытое в ISO CD 11172, поданные через год или более после его публикации, сомнительны. Если рассматривать только известные патенты MP3, поданные до декабря 1992 года, то декодирование MP3 было безпатентным в США с 22 сентября 2015 года, когда истек патент США 5,812,672 , на который была подана заявка PCT в октябре 1992 года. [98] [99] [100] Если принять за меру самый продолжительный патент, упомянутый в вышеупомянутых ссылках, то технология MP3 стала патентно-неограниченной в Соединенных Штатах 16 апреля 2017 года, когда истек срок действия патента США 6 009 399 , удерживаемого [101] и администрируемого Technicolor [102] . В результате многие бесплатные и открытые программные проекты, такие как операционная система Fedora , решили начать поставлять поддержку MP3 по умолчанию, и пользователям больше не придется прибегать к установке неофициальных пакетов, поддерживаемых сторонними репозиториями программного обеспечения для воспроизведения или кодирования MP3. [103]
Technicolor (ранее называвшаяся Thomson Consumer Electronics) заявила, что контролирует лицензирование MP3 патентов Layer 3 во многих странах, включая США, Японию, Канаду и страны ЕС. [104] Technicolor активно обеспечивала соблюдение этих патентов. [105] Доходы от лицензирования MP3 от администрации Technicolor принесли Обществу Фраунгофера около 100 миллионов евро в 2005 году. [106] В сентябре 1998 года Институт Фраунгофера направил нескольким разработчикам программного обеспечения MP3 письмо, в котором говорилось, что для «распространения и/или продажи декодеров и/или кодеров требуется лицензия». В письме утверждалось, что нелицензионные продукты «нарушают патентные права Fraunhofer and Thomson. Чтобы производить, продавать или распространять продукты, использующие стандарт [MPEG Layer-3] и, следовательно, наши патенты, вам необходимо получить у нас лицензию по этим патентам». [107] Это привело к ситуации, когда проект кодировщика MP3 LAME не мог предложить своим пользователям официальные двоичные файлы, которые могли бы работать на их компьютере. Позиция проекта заключалась в том, что в качестве исходного кода LAME был просто описанием того, как может быть реализован кодировщик MP3 . Неофициально скомпилированные двоичные файлы были доступны из других источников.
Sisvel SpA, компания из Люксембурга, управляет лицензиями на патенты, применимые к MPEG Audio. [108] Они, вместе со своим дочерним предприятием в США Audio MPEG, Inc. ранее подавали в суд на Thomson за нарушение патентных прав на технологию MP3, [109] но эти споры были разрешены в ноябре 2005 года, когда Sisvel предоставила Thomson лицензию на свои патенты. Вскоре последовала ее примеру Motorola, которая в декабре 2005 года подписала с Sisvel соглашение о лицензировании патентов, связанных с MP3. [110] За исключением трех патентов, все патенты США, администрируемые Sisvel [111], истекли в 2015 году. Три исключения: патент США 5 878 080 , истек в феврале 2017 года; патент США 5 850 456 , истек в феврале 2017 года; и патент США 5,960,037 , срок действия которого истек 9 апреля 2017 года. Примерно с первого квартала 2023 года программа лицензирования Sisvel стала наследием. [112]
В сентябре 2006 года немецкие чиновники изъяли MP3-плееры со стенда SanDisk на выставке IFA в Берлине после того, как итальянская патентная фирма выиграла судебный запрет от имени Sisvel против SanDisk в споре о правах лицензирования. Судебный запрет был позже отменен берлинским судьей, [113] но эта отмена, в свою очередь, была заблокирована в тот же день другим судьей из того же суда, «принеся Патентный Дикий Запад в Германию», по словам одного комментатора. [114] В феврале 2007 года Texas MP3 Technologies подала в суд на Apple, Samsung Electronics и Sandisk в федеральный суд восточного Техаса , заявив о нарушении патента на портативный MP3-плеер, который, по словам Texas MP3, был ему передан. Apple, Samsung и Sandisk урегулировали иски против них в январе 2009 года. [115] [116]
Alcatel-Lucent заявила о своих правах на несколько патентов на кодирование и сжатие MP3, предположительно унаследованных от AT&T-Bell Labs, в своем собственном судебном разбирательстве. В ноябре 2006 года, до слияния компаний, Alcatel подала в суд на Microsoft за предполагаемое нарушение семи патентов. 23 февраля 2007 года суд присяжных в Сан-Диего присудил Alcatel-Lucent 1,52 млрд долларов США в качестве возмещения ущерба за нарушение двух из них. [117] Однако впоследствии суд отменил решение, постановив, что один патент не был нарушен, а другой не принадлежал Alcatel-Lucent; он был совместно принадлежащим AT&T и Fraunhofer, которые предоставили лицензию на него Microsoft , постановил судья. [118] Это решение защиты было поддержано апелляцией в 2008 году. [119]
Существуют и другие форматы с потерями. Среди них наиболее широко используется Advanced Audio Coding (AAC), который был разработан как преемник MP3. Существуют также другие форматы с потерями, такие как mp3PRO и MP2 . Они являются членами того же технологического семейства, что и MP3, и зависят от примерно похожих психоакустических моделей и алгоритмов MDCT. В то время как MP3 использует гибридный подход к кодированию, который является частью MDCT и частью FFT , AAC — это чисто MDCT, что значительно повышает эффективность сжатия. [120] Многие из основных патентов , лежащих в основе этих форматов, принадлежат Fraunhofer Society, Alcatel-Lucent, Thomson Consumer Electronics , [120] Bell , Dolby , LG Electronics , NEC , NTT Docomo , Panasonic , Sony Corporation , [121] ETRI , JVC Kenwood , Philips , Microsoft и NTT . [122]
Когда рынок цифровых аудиоплееров только набирал обороты, MP3 был широко принят в качестве стандарта, отсюда и популярное название «MP3-плеер». Sony была исключением и использовала свой собственный кодек ATRAC , взятый из их формата MiniDisc , который, по утверждению Sony, был лучше. [123] После критики и более низких, чем ожидалось , продаж Walkman , в 2004 году Sony впервые представила собственную поддержку MP3 для своих плееров Walkman. [124]
Существуют также открытые форматы сжатия, такие как Opus и Vorbis , которые доступны бесплатно и без каких-либо известных патентных ограничений. Некоторые из новых форматов сжатия аудио, такие как AAC, WMA Pro, Vorbis и Opus, свободны от некоторых ограничений, присущих формату MP3, которые не может преодолеть ни один кодировщик MP3. [97] [125]
Помимо методов сжатия с потерями, форматы без потерь являются существенной альтернативой MP3, поскольку они обеспечивают неизмененный аудиоконтент, хотя и с увеличенным размером файла по сравнению со сжатием с потерями. Форматы без потерь включают FLAC (Free Lossless Audio Codec), Apple Lossless и многие другие.
{{cite journal}}
: Цитировать журнал требует |journal=
( помощь ){{cite journal}}
: Цитировать журнал требует |journal=
( помощь ){{cite journal}}
: Цитировать журнал требует |journal=
( помощь )К Бранденбургу и Гриллу присоединились еще четыре исследователя Фраунгофера. Хайнц Герхаузер руководил исследовательской группой по аудиотехнике в институте; Харальд Попп был специалистом по оборудованию; Эрнст Эберляйн был экспертом по обработке сигналов; Юрген Херре был еще одним аспирантом, чьи математические способности соперничали с собственными Бранденбургом. В последующие годы эта группа будет называть себя «первоначальной шестеркой».
этой статье рассматривается рабочая станция для обработки сжатого цифрового звука Musicam (MPEG Audio Layer II), реализованная на микрокомпьютере и используемая не только как профессиональная монтажная станция, но и как сервер в Ethernet для библиотеки сжатого цифрового звука, тем самым предвосхищая будущее MP3 в Интернете.
"MPEG-2.5" — это название фирменного расширения, разработанного Fraunhofer IIS. Оно позволяет MP3 удовлетворительно работать при очень низких битрейтах и вводит дополнительные частоты дискретизации 8 кГц, 11,025 кГц и 12 кГц.
Поиск – нахождение нужного места на диске (только аудио CD)(2004 бумбокс )
Ускоренная перемотка вперед и просмотр воспроизведения не работают с MP3/WMA/JPEG-CD.
Его CBR создает пакеты точно такого размера, который запросил кодер, без битового резервуара, который налагает дополнительные задержки буферизации, как в таких кодеках, как MP3 или AAC-LD. [...] [Тональный шум] наиболее заметен в MP3 с низким битрейтом.