H.262/MPEG-2, часть 2

H.262 ^[2] или MPEG-2 Part 2 (официально известный как Рекомендации ITU-T H.262 и ISO/IEC 13818-2 , ^[3] также известный как MPEG-2 Video ) — это формат кодирования видео, стандартизированный и совместно поддерживается Группой экспертов по кодированию видео 16-й Исследовательской комиссии ITU-T (VCEG) и Экспертной группой ISO / IEC по движущимся изображениям (MPEG) и разрабатывается с участием многих компаний. Это вторая часть стандарта ISO/IEC MPEG-2 . Документы Рекомендации ITU-T H.262 и ISO/IEC 13818-2 идентичны.

Стандарт доступен за плату в ITU-T ^[2] и ISO. MPEG-2 Video очень похож на MPEG-1 , но также обеспечивает поддержку чересстрочного видео (метода кодирования, используемого в аналоговых телевизионных системах NTSC, PAL и SECAM). Видео MPEG-2 не оптимизировано для низких скоростей передачи данных (например, менее 1 Мбит/с), но несколько превосходит MPEG-1 при более высоких скоростях передачи данных (например, 3 Мбит/с и выше), хотя и не с большим отрывом. если видео не чересстрочное. Все декодеры видео MPEG-2, соответствующие стандарту, также полностью способны воспроизводить видеопотоки MPEG-1. ^[4]

История

Процесс утверждения ISO/IEC был завершен в ноябре 1994 года. ^[5] Первое издание было одобрено в июле 1995 года ^[6] и опубликовано ITU-T ^[2] и ISO/IEC в 1996 году. ^[7] Под председательством Дидье ЛеГалла из Bellcore . разработка стандарта ^[8] и Сакаэ Окубо из NTT был координатором ITU-T и председательствовал на согласовании его требований. ^[9]

Технология была разработана при участии ряда компаний. Компания Hyundai Electronics (ныне SK Hynix ) разработала первый декодер MPEG-2 SAVI (система/аудио/видео) в 1995 году. ^[10]

Большинство патентов , которые позже были включены в патентный пул как необходимые для реализации стандарта, поступили от трех компаний: Sony (311 патентов), Thomson (198 патентов) и Mitsubishi Electric (119 патентов). ^[11]

В 1996 году он был расширен двумя поправками, включившими регистрацию идентификаторов авторских прав и профиля 4:2:2. ^[2]^[12] МСЭ-Т опубликовал эти поправки в 1996 году, а ISO – в 1997 году ^{. [7]}

Существуют также другие поправки, опубликованные позднее ITU-T и ISO/IEC. ^[2]^[13] Самая последняя редакция стандарта была опубликована в 2013 году и включает все предыдущие поправки. ^[3]

Издания

Кодирование видео

Выборка изображений

Камера HDTV с 8-битной дискретизацией генерирует необработанный видеопоток 25 × 1920 × 1080 × 3 = 155 520 000 байт в секунду для видео с частотой 25 кадров в секунду (с использованием формата дискретизации 4:4:4 ). Этот поток данных должен быть сжат, чтобы цифровое телевидение могло уместиться в полосе пропускания доступных телевизионных каналов и если фильмы должны поместиться на DVD. Сжатие видео практично, поскольку данные в изображениях часто избыточны в пространстве и времени. Например, небо может быть голубым в верхней части изображения, и это голубое небо может сохраняться кадр за кадром. Кроме того, из-за особенностей работы глаза можно удалить или приблизить некоторые данные из видеоизображений практически без заметного ухудшения качества изображения.

Распространенный (и старый) прием уменьшения объема данных заключается в разделении каждого полного «кадра» видео на два «поля» при трансляции/кодировании: «верхнее поле», представляющее собой горизонтальные линии с нечетными номерами, и «верхнее поле», представляющее собой горизонтальные линии с нечетными номерами. нижнее поле», то есть четные строки. При приеме/декодировании два поля отображаются поочередно, при этом строки одного поля чередуются между строками предыдущего поля; этот формат называется чересстрочным видео . Типичная скорость передачи полей составляет 50 (Европа/PAL) или 59,94 (США/NTSC) полей в секунду, что соответствует 25 (Европа/PAL) или 29,97 (Северная Америка/NTSC) целым кадрам в секунду. Если видео не чересстрочное, то оно называется видео с прогрессивной разверткой , и каждое изображение представляет собой полный кадр. MPEG-2 поддерживает оба варианта.

Цифровое телевидение требует, чтобы эти изображения были оцифрованы, чтобы их можно было обрабатывать с помощью компьютерного оборудования. Каждый элемент изображения ( пиксель ) затем представляется одним числом яркости и двумя числами цветности . Они описывают яркость и цвет пикселя (см. YCbCr ). Таким образом, каждое оцифрованное изображение изначально представлено тремя прямоугольными массивами чисел.

Другой распространенной практикой уменьшения объема обрабатываемых данных является субдискретизация двух плоскостей цветности (после низкочастотной фильтрации во избежание наложения спектров ). Это работает, потому что зрительная система человека лучше различает детали яркости, чем детали оттенка и насыщенности цветов. Термин 4:2:2 используется для видео с субдискретизацией цветности 2:1 по горизонтали, а 4:2:0 используется для видео с субдискретизацией цветности 2:1 как по вертикали, так и по горизонтали. Видео с одинаковым разрешением яркости и цветности называется 4:4:4 . В документе MPEG-2 Video рассматриваются все три типа дискретизации, хотя 4:2:0, безусловно, является наиболее распространенным для потребительского видео, и не существует определенных «профилей» MPEG-2 для видео 4:4:4 (см. ниже). для дальнейшего обсуждения профилей).

Хотя обсуждение ниже в этом разделе в основном описывает сжатие видео MPEG-2, есть много деталей, которые не обсуждаются, включая детали, связанные с полями, форматами цветности, реакциями на изменения сцены, специальными кодами, которые маркируют части битового потока, и другими частями. информации. Помимо функций обработки полей для чересстрочного кодирования, MPEG-2 Video очень похож на MPEG-1 Video (и даже очень похож на более ранний стандарт H.261 ), поэтому все приведенное ниже описание одинаково хорошо применимо и к MPEG-1.

I-кадры, P-кадры и B-кадры

MPEG-2 включает три основных типа кодированных кадров: кадры с внутренним кодированием ( I-кадры ), кадры с предсказанием ( P-кадры ) и кадры с двунаправленным предсказанием ( B-кадры ).

I-кадр — это отдельно сжатая версия одного несжатого (необработанного) кадра. Кодирование I-кадра использует преимущества пространственной избыточности и неспособности глаза обнаружить определенные изменения в изображении. В отличие от P-кадров и B-кадров, I-кадры не зависят от данных в предыдущем или последующих кадрах, поэтому их кодирование очень похоже на кодирование неподвижной фотографии (примерно аналогично кодированию изображения JPEG ). Вкратце, необработанный кадр делится на блоки размером 8х8 пикселей. Данные в каждом блоке преобразуются дискретным косинусным преобразованием (DCT). Результатом является матрица коэффициентов 8×8, имеющих действительные числовые значения. Преобразование преобразует пространственные изменения в частотные изменения, но не меняет информацию в блоке; если преобразование рассчитано с идеальной точностью, исходный блок можно точно воссоздать, применив обратное косинусное преобразование (также с идеальной точностью). Преобразование 8-битных целых чисел в действительные коэффициенты преобразования фактически увеличивает объем данных, используемых на этом этапе обработки, но преимущество преобразования состоит в том, что данные изображения затем можно аппроксимировать путем квантования коэффициентов . Многие коэффициенты преобразования, обычно высокочастотные компоненты, после квантования, которое по сути является операцией округления, будут равны нулю. Наказанием этого шага является потеря некоторых тонких различий в яркости и цвете. Квантование может быть грубым или точным, в зависимости от выбора кодера. Если квантование не слишком грубое и к матрице после квантования применяется обратное преобразование, получается изображение, которое очень похоже на исходное изображение, но не совсем то же самое. Затем сама квантованная матрица коэффициентов сжимается. Обычно после применения квантования один угол массива коэффициентов 8×8 содержит только нули. Начав с противоположного угла матрицы, затем зигзагообразно перемещаясь по матрице, чтобы объединить коэффициенты в строку, затем заменяя последовательные нули в этой строке кодами длины серии, а затем применяя к этому результату кодирование Хаффмана , можно свести матрицу к меньшее количество данных. Именно эти энтропийно-кодированные данные транслируются или записываются на DVD. В приемнике или проигрывателе весь процесс обратный, что позволяет приемнику с высокой точностью восстановить исходный кадр.

Обработка B-кадров аналогична обработке P-кадров, за исключением того, что B-кадры используют изображение из последующего опорного кадра, а также изображение из предыдущего опорного кадра. В результате B-кадры обычно обеспечивают большее сжатие, чем P-кадры. B-кадры никогда не являются опорными кадрами в видео MPEG-2.

Обычно каждый 15-й кадр или около того превращается в I-кадр. P-кадры и B-кадры могут следовать за I-кадром, подобным этому, IBBPBBPBBPBB(I), чтобы сформировать группу изображений (GOP) ; однако стандарт является гибким в этом отношении. Кодер выбирает, какие изображения кодируются как I-, P- и B-кадры.

Макроблоки

P-кадры обеспечивают большее сжатие, чем I-кадры, поскольку они используют данные предыдущего I-кадра или P-кадра – опорного кадра . Для генерации P-кадра восстанавливается предыдущий опорный кадр, как это было бы в ТВ-приемнике или DVD-плеере. Сжимаемый кадр делится на макроблоки размером 16х16 пикселей . Затем для каждого из этих макроблоков восстанавливаемый опорный кадр ищет область размером 16 на 16, которая точно соответствует содержимому сжимаемого макроблока. Смещение кодируется как «вектор движения». Часто смещение равно нулю, но если что-то на изображении движется, смещение может составлять примерно 23 пикселя вправо и 4 с половиной пикселя вверх. В MPEG-1 и MPEG-2 значения векторов движения могут представлять собой целочисленные или полуцелые смещения. Сочетание между двумя регионами часто не будет идеальным. Чтобы исправить это, кодер берет разницу всех соответствующих пикселей двух областей и на основе этой разницы макроблоков затем вычисляет DCT и строки значений коэффициентов для четырех областей 8×8 в макроблоке 16×16, как описано выше. Этот «остаток» добавляется к вектору движения, и результат отправляется на приемник или сохраняется на DVD для каждого сжимаемого макроблока. Иногда подходящего совпадения не находится. Затем макроблок обрабатывается как макроблок I-кадра.

Видео профили и уровни

Видео MPEG-2 поддерживает широкий спектр приложений: от мобильных до высококачественного редактирования HD. Для многих приложений поддерживать весь стандарт нереально и слишком дорого. Чтобы позволить таким приложениям поддерживать только его подмножества, стандарт определяет профили и уровни.

Профиль определяет наборы функций, таких как B-изображения, 3D-видео, формат цветности и т. д. Уровень ограничивает необходимую память и вычислительную мощность, определяя максимальную скорость передачи данных, размеры кадров и частоту кадров.

Затем приложение MPEG определяет возможности с точки зрения профиля и уровня. Например, DVD-проигрыватель может указать, что он поддерживает основной профиль и основной уровень (часто обозначаемый как MP@ML). Это означает, что плеер может воспроизводить любой поток MPEG, закодированный как MP@ML или меньше.

В таблицах ниже приведены ограничения каждого профиля и уровня, хотя есть ограничения, не перечисленные здесь. ^[2]^{: Приложение E.} Обратите внимание, что не все комбинации профилей и уровней допустимы, а масштабируемые режимы изменяют ограничения уровней.

^ abc SNR-масштабируемость отправляет различия в области преобразования на более низкий уровень квантования каждого блока, повышая качество и скорость передачи данных при объединении обоих потоков. Основной поток можно воссоздать без потерь.
^ ab Пространственная масштабируемость кодирует разницу между потоками HD и SD с повышенным масштабированием, которая объединяется с SD для воссоздания потока HD. Основной поток не может быть воссоздан без потерь.
^ Временная масштабируемость вставляет дополнительные кадры между каждым базовым кадром, чтобы повысить частоту кадров или добавить трехмерную точку обзора. Это единственный профиль MPEG-2, допускающий адаптивную ссылку на кадры, что является важной особенностью H.264/AVC . Основной поток может быть воссоздан без потерь, только если не используются расширенные ссылки.

Ниже представлены несколько распространенных комбинаций профиля/уровня MPEG-2 с указанием конкретных максимальных пределов:

Приложения

Некоторые приложения перечислены ниже.

DVD-Video – потребительский видеоформат стандартной четкости. Использует субдискретизацию цвета 4:2:0 и переменную скорость видеоданных до 9,8 Мбит/с.
MPEG IMX – профессиональный формат записи видео стандартной четкости. Использует внутрикадровое сжатие, цветовую субдискретизацию 4:2:2 и выбираемую пользователем постоянную скорость видеоданных 30, 40 или 50 Мбит/с.
HDV – формат записи видео высокой четкости на ленту. Использует субдискретизацию цвета 4:2:0 и общую скорость передачи данных 19,4 или 25 Мбит/с.
XDCAM – семейство форматов безленточной видеозаписи, в которое, в частности, входят форматы на базе MPEG-2 Part 2. Это: MPEG IMX стандартной четкости (см. выше), MPEG HD высокой четкости, MPEG HD422 высокой четкости. MPEG IMX и MPEG HD422 используют цветовую субдискретизацию 4:2:2, MPEG HD использует цветовую субдискретизацию 4:2:0. В большинстве подформатов используется выбираемая постоянная скорость передачи видеоданных от 25 до 50 Мбит/с, хотя существует также режим с переменным битрейтом с максимальной скоростью передачи данных 18 Мбит/с.
Кодек XF — профессиональный формат безленточной видеозаписи, аналогичный MPEG HD и MPEG HD422, но хранящийся в другом файле-контейнере.
HD DVD - несуществующий потребительский формат видео высокой четкости.
Blu-ray Disc – потребительский формат видео высокой четкости.
Телерадиовещание – в некоторых странах MPEG-2 Part 2 используется для цифрового вещания в высоком разрешении . Например, ATSC определяет как несколько форматов сканирования (480i, 480p, 720p, 1080i, 1080p), так и частоту кадров/полей при субдискретизации цвета 4:2:0 со скоростью передачи данных до 19,4 Мбит/с на канал.
Цифровое кабельное телевидение
Спутниковое ТВ

Обладатели патентов

Следующие организации имеют патенты на видеотехнологию MPEG-2, как указано в MPEG LA . Срок действия всех этих патентов истек. ^[1]

Внешние ссылки

Официальный веб-сайт MPEG
Кодирование видео MPEG-2 (H.262) – Библиотека Конгресса США