Сжатие с потерями

В информационных технологиях сжатие с потерями или необратимое сжатие — это класс методов сжатия данных , которые используют неточные приближения и частичное отбрасывание данных для представления контента. Эти методы используются для уменьшения размера данных для хранения, обработки и передачи контента. Различные версии фотографии кота на этой странице показывают, как более высокие степени приближения создают более грубые изображения по мере удаления большего количества деталей. Это противоположно сжатию данных без потерь (обратимому сжатию данных), которое не ухудшает данные. Объем сокращения данных, возможный при использовании сжатия с потерями, намного выше, чем при использовании методов без потерь.

Хорошо спроектированная технология сжатия с потерями часто значительно уменьшает размеры файлов до того, как ухудшение становится заметным для конечного пользователя. Даже если пользователь это замечает, дальнейшее сокращение данных может быть желательным (например, для связи в реальном времени или для сокращения времени передачи или потребностей в хранении). Наиболее широко используемый алгоритм сжатия с потерями — это дискретное косинусное преобразование (DCT), впервые опубликованное Насиром Ахмедом , Т. Натараджаном и К. Р. Рао в 1974 году.

Сжатие с потерями чаще всего используется для сжатия мультимедийных данных ( аудио , видео и изображений ), особенно в таких приложениях, как потоковое мультимедиа и интернет-телефония . Напротив, сжатие без потерь обычно требуется для текстовых файлов и файлов данных, таких как банковские записи и текстовые статьи. Может быть выгодно создать главный файл без потерь , который затем можно использовать для создания дополнительных копий. Это позволяет избежать создания новых сжатых копий на основе исходного файла с потерями, что приведет к дополнительным артефактам и дальнейшей ненужной потере информации.

Типы

Можно сжать многие типы цифровых данных таким образом, чтобы уменьшить размер компьютерного файла, необходимого для их хранения, или пропускную способность, необходимую для их передачи, без потери полной информации, содержащейся в исходном файле. Например, изображение преобразуется в цифровой файл, если рассматривать его как массив точек и указывать цвет и яркость каждой точки. Если изображение содержит область одного цвета, его можно сжать без потерь, сказав «200 красных точек» вместо «красная точка, красная точка, ...(еще 197 раз)..., красная точка».

Исходные данные содержат определенное количество информации, и существует нижняя граница размера файла, который все еще может нести всю информацию. Базовая теория информации гласит, что существует абсолютный предел уменьшения размера этих данных. Когда данные сжимаются, их энтропия увеличивается, и она не может увеличиваться бесконечно. Например, сжатый ZIP- файл меньше своего оригинала, но повторное сжатие того же файла не уменьшит размер до нуля. Большинство алгоритмов сжатия могут распознавать, когда дальнейшее сжатие будет бессмысленным, и фактически увеличит размер данных.

Во многих случаях файлы или потоки данных содержат больше информации, чем необходимо. Например, изображение может иметь больше деталей, чем глаз может различить при воспроизведении в максимально возможном размере; аналогично, аудиофайлу не нужно много мелких деталей во время очень громкого отрывка. Разработка методов сжатия с потерями, максимально приближенных к человеческому восприятию, является сложной задачей. Иногда идеалом является файл, который обеспечивает точно такое же восприятие, как и оригинал, с максимально возможным удалением цифровой информации; в других случаях ощутимая потеря качества считается допустимым компромиссом.

Термины «необратимый» и «обратимый» предпочтительнее терминов «с потерями» и «без потерь» соответственно для некоторых приложений, таких как сжатие медицинских изображений, чтобы обойти негативные последствия «потери». Тип и величина потери могут повлиять на полезность изображений. Артефакты или нежелательные эффекты сжатия могут быть четко различимы, но результат все еще полезен для предполагаемой цели. Или сжатые с потерями изображения могут быть « визуально без потерь », или в случае медицинских изображений может быть применено так называемое диагностически приемлемое необратимое сжатие (DAIC) ^[1] .

Преобразование кодирования

Некоторые формы сжатия с потерями можно рассматривать как применение кодирования с преобразованием , которое является типом сжатия данных, используемым для цифровых изображений , цифровых аудиосигналов и цифрового видео . Преобразование обычно используется для обеспечения лучшего (более целенаправленного) квантования . Знание приложения используется для выбора информации, которую следует отбросить, тем самым снижая его пропускную способность . Оставшаяся информация затем может быть сжата с помощью различных методов. Когда вывод декодируется, результат может не быть идентичным исходному вводу, но, как ожидается, будет достаточно близким для целей приложения.

Наиболее распространенной формой сжатия с потерями является метод кодирования с преобразованием, дискретное косинусное преобразование (DCT), ^[2] которое впервые было опубликовано Насиром Ахмедом , Т. Натараджаном и К. Р. Рао в 1974 году. ^[3] DCT является наиболее широко используемой формой сжатия с потерями для популярных форматов сжатия изображений (таких как JPEG ), ^[4] стандартов кодирования видео (таких как MPEG и H.264/AVC ) и форматов сжатия аудио (таких как MP3 и AAC ).

В случае аудиоданных популярной формой кодирования с преобразованием является перцептивное кодирование , которое преобразует необработанные данные в домен, который более точно отражает информационное содержание. Например, вместо того, чтобы выражать звуковой файл как уровни амплитуды с течением времени, можно выразить его как частотный спектр с течением времени, что более точно соответствует восприятию звука человеком. Хотя сокращение данных (сжатие, будь то с потерями или без потерь) является основной целью кодирования с преобразованием, оно также позволяет достичь других целей: можно более точно представлять данные для исходного объема пространства ^[5] — например, в принципе, если начать с аналогового или цифрового мастера высокого разрешения , файл MP3 заданного размера должен обеспечить лучшее представление, чем необработанное несжатое аудио в файле WAV или AIFF того же размера. Это связано с тем, что несжатое аудио может уменьшить размер файла только за счет снижения битрейта или глубины, тогда как сжатие аудио может уменьшить размер, сохраняя битрейт и глубину. Это сжатие становится выборочной потерей наименее значимых данных, а не потерей данных по всем направлениям. Кроме того, кодирование с преобразованием может обеспечить лучшую область для манипулирования или иного редактирования данных — например, выравнивание звука наиболее естественно выражается в частотной области (например, усиление басов), а не в сырой временной области.

С этой точки зрения перцептивное кодирование по сути не связано с отбрасыванием данных, а скорее с лучшим представлением данных. Другое применение — обратная совместимость и изящная деградация : в цветном телевидении кодирование цвета через область преобразования яркости - цветности (такую как YUV ) означает, что черно-белые наборы отображают яркость, игнорируя цветовую информацию. Другим примером является субдискретизация цветности : использование цветовых пространств , таких как YIQ , используемых в NTSC , позволяет уменьшить разрешение компонентов в соответствии с человеческим восприятием — у людей самое высокое разрешение для черно-белого (яркости), более низкое разрешение для цветов среднего спектра, таких как желтый и зеленый, и самое низкое для красного и синего — таким образом, NTSC отображает приблизительно 350 пикселей яркости на строку сканирования , 150 пикселей желтого по сравнению с зеленым и 50 пикселей синего по сравнению с красным, что пропорционально чувствительности человека к каждому компоненту.

Потеря информации

Форматы сжатия с потерями страдают от потери генерации : многократное сжатие и распаковка файла приведет к постепенной потере качества. Это контрастирует со сжатием данных без потерь , где данные не будут потеряны при использовании такой процедуры. Информационно-теоретические основы сжатия данных с потерями предоставляются теорией скорости искажения . Подобно использованию вероятности в теории оптимального кодирования, теория скорости искажения в значительной степени опирается на байесовскую оценку и теорию принятия решений для моделирования перцептивного искажения и даже эстетического суждения.

Существуют две основные схемы сжатия с потерями:

В кодеках с потерей данных берутся образцы изображения или звука, нарезаются на небольшие сегменты, преобразуются в новое базисное пространство и квантуются . Полученные квантованные значения затем кодируются энтропией .
В кодеках с потерями и предсказанием предыдущие и/или последующие декодированные данные используются для предсказания текущего звукового образца или кадра изображения. Ошибка между предсказанными данными и реальными данными, вместе с любой дополнительной информацией, необходимой для воспроизведения предсказания, затем квантуется и кодируется.

В некоторых системах эти два метода объединяются, при этом преобразующие кодеки используются для сжатия сигналов ошибок, генерируемых на этапе прогнозирования.

Сравнение

Преимущество методов с потерями над методами без потерь заключается в том, что в некоторых случаях метод с потерями может создать гораздо меньший сжатый файл, чем любой метод без потерь, при этом все еще отвечая требованиям приложения. Методы с потерями чаще всего используются для сжатия звука, изображений или видео. Это связано с тем, что эти типы данных предназначены для человеческой интерпретации, где разум может легко «заполнить пробелы» или увидеть прошлые очень незначительные ошибки или несоответствия — в идеале сжатие с потерями прозрачно (незаметно), что можно проверить с помощью теста ABX . Файлы данных, использующие сжатие с потерями, имеют меньший размер и, таким образом, требуют меньших затрат на хранение и передачу через Интернет, что является важным соображением для потоковых видеосервисов , таких как Netflix , и потоковых аудиосервисов , таких как Spotify .

Прозрачность

Когда пользователь получает файл, сжатый с потерями (например, для сокращения времени загрузки), извлеченный файл может существенно отличаться от оригинала на уровне битов , при этом оставаясь неразличимым для человеческого уха или глаза для большинства практических целей. Многие методы сжатия фокусируются на особенностях человеческой физиологии , принимая во внимание, например, что человеческий глаз может видеть только определенные длины волн света. Психоакустическая модель описывает, как звук может быть сильно сжат без ухудшения воспринимаемого качества. Дефекты, вызванные сжатием с потерями, которые заметны для человеческого глаза или уха, известны как артефакты сжатия .

Степень сжатия

Коэффициент сжатия (то есть размер сжатого файла по сравнению с размером несжатого файла) видеокодеков с потерями почти всегда намного превосходит коэффициент сжатия аудио- и фотоаналогов.

Видео можно сжимать очень сильно (например, 100:1) с незначительной видимой потерей качества.
Аудио часто можно сжать до 10:1 с почти незаметной потерей качества.
Неподвижные изображения часто сжимаются с потерями в соотношении 10:1, как и звук, но потеря качества более заметна, особенно при более близком рассмотрении.

Транскодирование и редактирование

Важное предостережение относительно сжатия с потерями (формально транскодирования) заключается в том, что редактирование сжатых с потерями файлов приводит к потере цифровой генерации из-за повторного кодирования. Этого можно избежать, создавая файлы с потерями только из (без потерь) оригиналов и редактируя только (копии) исходных файлов, таких как изображения в формате raw image вместо JPEG . Если данные, сжатые с потерями, декодируются и сжимаются без потерь, размер результата может быть сопоставим с размером данных до сжатия с потерями, но уже потерянные данные не могут быть восстановлены. При решении использовать преобразование с потерями без сохранения оригинала, преобразование формата может потребоваться в будущем для достижения совместимости с программным обеспечением или устройствами ( сдвиг формата ) или для избежания уплаты патентных отчислений за декодирование или распространение сжатых файлов.

Редактирование файлов с потерями

Изменяя сжатые данные напрямую, без декодирования и повторного кодирования, можно выполнить некоторое редактирование сжатых с потерями файлов без ухудшения качества. Редактирование, которое уменьшает размер файла, как если бы он был сжат в большей степени, но без больших потерь, чем эта, иногда также возможно.

JPEG

Основными программами для редактирования JPEG без потерь являются jpegtran, и производные от них exiftran(которые также сохраняют информацию Exif ) и Jpegcrop (который предоставляет интерфейс Windows).

Они позволяют обрезать , вращать, переворачивать и переворачивать изображение или даже преобразовывать его в оттенки серого (удаляя канал цветности ). В то время как нежелательная информация уничтожается, качество оставшейся части остается неизменным.

В некоторой степени возможны и некоторые другие преобразования, такие как объединение изображений с одинаковой кодировкой (расположение рядом, как на сетке) или вставка изображений, таких как логотипы, в существующие изображения (оба через Jpegjoin) или масштабирование. ^[6]

Некоторые изменения в сжатие можно внести без повторного кодирования:

Оптимизация сжатия (для уменьшения размера без изменения декодированного изображения)
Преобразование между прогрессивным и непрогрессивным кодированием.

Бесплатная программа IrfanView, доступная только для Windows, имеет в своем JPG_TRANSFORM плагине несколько операций с JPEG без потерь .

Метаданные

Метаданные, такие как теги ID3 , комментарии Vorbis или информация Exif , обычно можно изменять или удалять без изменения базовых данных.

Масштабируемость с понижением разрешения/сжатого представления

Можно пожелать понизить дискретизацию или иным образом уменьшить разрешение представленного исходного сигнала и количество данных, используемых для его сжатого представления без повторного кодирования, как в битрейт-пилинге , но эта функциональность поддерживается не во всех проектах, так как не все кодеки кодируют данные в форме, которая позволяет просто отбросить менее важные детали. Некоторые известные проекты, которые имеют такую возможность, включают JPEG 2000 для неподвижных изображений и масштабируемое видеокодирование на основе H.264/MPEG-4 AVC для видео. Такие схемы также были стандартизированы для более старых проектов, таких как изображения JPEG с прогрессивным кодированием и видео MPEG-2 и MPEG-4 Part 2 , хотя эти предыдущие схемы имели ограниченный успех с точки зрения принятия в реальном мире общего использования. Без этой возможности, что часто имеет место на практике, для создания представления с более низким разрешением или более низкой точностью, чем заданное, необходимо начинать с исходного сигнала и кодировать его или начинать со сжатого представления, а затем распаковывать и повторно кодировать его (транскодирование ) , хотя последнее, как правило, приводит к потерям при цифровой генерации .

Другой подход заключается в кодировании исходного сигнала с несколькими различными битрейтами, а затем либо выбрать, какой использовать (как при потоковой передаче через Интернет — как в RealNetworks «SureStream» — или предлагая различные загрузки, как в iTunes Store от Apple ), либо транслировать несколько, где используется лучший из успешно полученных, как в различных реализациях иерархической модуляции . Похожие методы используются в mip-картах , пирамидальных представлениях и более сложных методах масштабного пространства . Некоторые аудиоформаты представляют собой комбинацию формата с потерями и коррекции без потерь, которые при объединении воспроизводят исходный сигнал; коррекцию можно убрать, оставив меньший, сжатый с потерями файл. К таким форматам относятся MPEG-4 SLS (масштабируемый до без потерь), WavPack , OptimFROG DualStream и DTS-HD Master Audio в режиме без потерь (XLL) ).

Методы

Графика

Изображение

Дискретное косинусное преобразование (ДКП)
- JPEG-файл ^[7]
- WebP (сжатие изображений RGB и RGBA с высокой плотностью без потерь или с потерями)
- Высокоэффективный формат изображения (HEIF)
- Лучшая портативная графика (BPG) (сжатие без потерь или с потерями)
- JPEG XR , преемник JPEG с поддержкой форматов пикселей с высоким динамическим диапазоном и широкой гаммой (сжатие с потерями или без потерь)
Сжатие вейвлетов
- JPEG 2000 — формат-преемник JPEG, использующий вейвлеты (сжатие с потерями или без потерь)
- DjVu
- ICER , используемый марсоходами, связан с JPEG 2000 в использовании вейвлетов
- PGF , прогрессивный графический файл (сжатие с потерями или без потерь)
Картезианская перцептивная компрессия , также известная как CPC
Фрактальное сжатие
JBIG2 (сжатие без потерь или с потерями)
Сжатие текстур S3TC для аппаратного обеспечения 3D-графики компьютера

3D компьютерная графика

глТФ

Видео

Дискретное косинусное преобразование (ДКП)
- Х.261 ^[7]
- Движение JPEG ^[7]
- MPEG-1 Часть 2 ^[8]
- MPEG-2 Часть 2 (H.262) ^[8]
- MPEG-4 Часть 2 ( H.263 ) ^[7]
- Расширенное кодирование видео (AVC / H.264 / MPEG-4 AVC) ^[7] (также может быть без потерь, даже в определенных разделах видео)
- Высокоэффективное кодирование видео (HEVC / H.265) ^[7]
- Ogg Theora (отмечен отсутствием патентных ограничений)
- ВК-1
Сжатие вейвлетов
- Движение JPEG 2000
- Дирак
Видеокодек Sorenson

Аудио

Общий

Модифицированное дискретное косинусное преобразование (MDCT)
- Долби Диджитал (AC-3)
- Адаптивное преобразование акустического кодирования (ATRAC)
- MPEG-слой III (MP3) ^[9]
- Расширенное кодирование звука (AAC / MP4 Audio) ^[10]
- Ворбис
- Windows Media Audio (WMA) (Профили Standard и Pro сжимают звук с потерями. Также доступен формат WMA Lossless.)
- LDAC ^[11]^[12]
- Opus (отличается отсутствием патентных ограничений, малой задержкой, высоким качеством речи и звука в целом).
Адаптивная дифференциальная импульсно-кодовая модуляция (АДИКМ)
- Подтверждено мастером качества (MQA)
MPEG-1 Аудио Слой II (MP2)
Musepack (на основе Musicam)
aptX/aptX-HD ^[13]

Речь

Линейное предсказательное кодирование (LPC)
- Адаптивное предиктивное кодирование (APC)
- Линейное предсказание с кодовым возбуждением (CELP)
- Алгебраическое линейное предсказание с кодовым возбуждением (ACELP)
- Расслабленное кодовое линейное предсказание (RCELP)
- CELP с малой задержкой (LD-CELP)
- Адаптивный многоскоростной режим (используется в GSM и 3GPP )
- Codec2 (отмечен отсутствием патентных ограничений)
- Speex (отмечен отсутствием патентных ограничений)
Модифицированное дискретное косинусное преобразование (MDCT)
- AAC-LD
- Ограниченное энергетическое перекрывающееся преобразование (CELT)
- Opus (в основном для приложений реального времени)

Другие данные

Исследователи выполняли сжатие текста с потерями, либо используя тезаурус для замены коротких слов на длинные, либо применяя методы генеративного текста ^[14] , хотя иногда они попадают в смежную категорию преобразования данных с потерями .

Понижение разрешения

Общий вид сжатия с потерями заключается в снижении разрешения изображения, как при масштабировании изображения , в частности, при прореживании . Можно также удалить менее «низкоинформационные» части изображения, например, с помощью вырезания швов . Многие медиапреобразования, такие как размытие по Гауссу , как и сжатие с потерями, необратимы: исходный сигнал не может быть восстановлен из преобразованного сигнала. Однако в целом они будут иметь тот же размер, что и оригинал, и не являются формой сжатия. Снижение разрешения имеет практическое применение, поскольку аппарат NASA New Horizons передал миниатюры своей встречи с Плутоном-Хароном, прежде чем он отправил изображения с более высоким разрешением. Другим решением для медленных соединений является использование чересстрочной развертки изображений , которая постепенно определяет изображение. Таким образом, частичной передачи достаточно для предварительного просмотра конечного изображения в версии с более низким разрешением, без создания масштабированной и полной версии. ^{[ необходима цитата ]}

Смотрите также

Примечания

^ Европейское общество радиологии (2011). «Возможность использования необратимого сжатия изображений в радиологической визуализации. Позиционный документ Европейского общества радиологии (ESR)». Insights Imaging . 2 (2): 103–115. doi :10.1007/s13244-011-0071-x. PMC 3259360 . PMID 22347940.
^ "Сжатие данных". Encyclopedia Britannica . Получено 13 августа 2019 г.
^ Ахмед, Насир ; Натараджан, Т.; Рао, КР (январь 1974 г.), «Дискретное косинусное преобразование», IEEE Transactions on Computers , C-23 (1): 90–93, doi :10.1109/TC.1974.223784, S2CID 149806273
^ "T.81 – ЦИФРОВОЕ СЖАТИЕ И КОДИРОВАНИЕ НЕПРЕРЫВНЫХ ТОНАЛЬНЫХ ИЗОБРАЖЕНИЙ – ТРЕБОВАНИЯ И РУКОВОДСТВО" (PDF) . CCITT. Сентябрь 1992 . Получено 12 июля 2019 .
^ «Хотя одной из основных целей цифровых аудиоперцептивных кодеров является сокращение данных, это не является необходимой характеристикой. Как мы увидим, перцептивное кодирование может использоваться для улучшения представления цифрового звука посредством расширенного распределения битов». Маскирование и перцептивное кодирование, Виктор Ломбарди, noisebetweensations.com
^ "Новые функции jpegtran". sylvana.net . Получено 2019-09-20 .
^ abcdef Станкович, Радомир С.; Астола, Яакко Т. (2012). «Воспоминания о ранней работе в области DCT: интервью с К. Р. Рао» (PDF) . Перепечатки из Early Days of Information Sciences . 60 . Получено 13 октября 2019 г. .
^ ab KR Rao и JJ Hwang, Методы и стандарты кодирования изображений, видео и аудио , Prentice Hall, 1996; JPEG: Глава 8; H.261: Глава 9; MPEG-1: Глава 10; MPEG-2: Глава 11.
^ Гукерт, Джон (весна 2012 г.). «Использование FFT и MDCT в сжатии аудио MP3» (PDF) . Университет Юты . Получено 14 июля 2019 г. .
^ Бранденбург, Карлхайнц (1999). "MP3 и AAC Explained" (PDF) . Архивировано (PDF) из оригинала 2017-02-13.
^ Дарко, Джон Х. (29.03.2017). «Неудобная правда о Bluetooth-аудио». DAR__KO . Архивировано из оригинала 14.01.2018 . Получено 13.01.2018 .
^ Форд, Джез (2015-08-24). «Что такое Sony LDAC и как он это делает?». AVHub . Получено 2018-01-13 .
^ Форд, Джез (22.11.2016). "aptX HD — без потерь или с потерями?". AVHub . Получено 13.01.2018 .
^ IH WITTEN; et al. "Семантические и генеративные модели для сжатия текста с потерями" (PDF) . The Computer Journal . Получено 2007-10-13 .

Внешние ссылки

Форматы аудио с потерями, сравнение скорости и степени сжатия пяти форматов аудио с потерями.
Основы сжатия данных, включая главы о сжатии изображений, аудио и видео с потерями.
Сжатие изображений PNG с потерями на Wayback Machine (архив 2005-10-03)
Использование сжатия GIF/PNG с потерями для веб-сайтов (статья)
JPG для архивирования, сравнение пригодности JPG и сжатия без потерь для архивов изображений
Сжатие изображений JPG, инструмент для сжатия JPG, PNG