Артефакт сжатия (или артефакт ) — это заметное искажение мультимедиа (включая изображения , аудио и видео ), вызванное применением сжатия с потерями . Сжатие данных с потерями предполагает удаление некоторых медиаданных, чтобы они стали достаточно маленькими, чтобы их можно было хранить в нужном дисковом пространстве или передавать ( потоковую передачу ) в пределах доступной полосы пропускания (известной как скорость передачи данных или скорость передачи данных ). Если компрессор не может сохранить достаточно данных в сжатой версии, результатом будет потеря качества или появление артефактов. Алгоритм сжатия может быть недостаточно интеллектуальным, чтобы различать искажения, не имеющие большого субъективного значения, и искажения, нежелательные для пользователя.
Наиболее распространенными артефактами цифрового сжатия являются блоки DCT, вызванные алгоритмом сжатия дискретного косинусного преобразования (DCT), используемым во многих стандартах цифровых медиа , таких как форматы видеофайлов JPEG , MP3 и MPEG . [1] [2] [3] Эти артефакты сжатия появляются при применении сильного сжатия, [1] и часто встречаются на обычных цифровых носителях, таких как DVD , обычных компьютерных форматах файлов, таких как файлы JPEG, MP3 и MPEG, а также некоторых альтернативах. на компакт-диск , например в формате Sony MiniDisc . Несжатые носители (например, на лазерных дисках , аудио компакт-дисках и файлах WAV ) или носители , сжатые без потерь (например, FLAC или PNG ), не страдают от артефактов сжатия.
Минимизация заметных артефактов является ключевой целью реализации алгоритма сжатия с потерями. Однако иногда артефакты создаются намеренно в художественных целях — стиль, известный как глитч-арт [4] или датамошинг. [5]
С технической точки зрения, артефакт сжатия — это особый класс ошибок данных, который обычно является следствием квантования при сжатии данных с потерями. Там, где используется кодирование с преобразованием , оно обычно принимает форму одной из базовых функций пространства преобразования кодера.
При выполнении блочного дискретного косинусного преобразования (DCT) [1] для квантования , как и в изображениях, сжатых в формате JPEG , могут появиться несколько типов артефактов.
Другие алгоритмы с потерями, которые используют сопоставление с образцом для дедупликации похожих символов, склонны к внесению труднообнаружимых ошибок в печатный текст. Например, цифры «6» и «8» могут быть заменены. Это наблюдалось с JBIG2 на некоторых копировальных машинах. [6] [7]
При низких скоростях передачи данных любая схема кодирования на основе блоков с потерями вносит видимые артефакты в блоки пикселей и на границы блоков. Эти границы могут быть границами блоков преобразования, границами блоков прогнозирования или теми и другими и могут совпадать с границами макроблоков . Термин «макроблокировка» обычно используется независимо от причины артефакта. Другие названия включают блокирование [8] , мозаику, [9] мозаику, пикселизацию, квилтинг и шахматную доску.
Блочные артефакты являются результатом самого принципа кодирования с блочным преобразованием . Преобразование (например, дискретное косинусное преобразование) применяется к блоку пикселей, и для достижения сжатия с потерями коэффициенты преобразования каждого блока квантуются . Чем ниже скорость передачи данных, тем более грубо представляются коэффициенты и тем больше коэффициентов квантуются до нуля. По статистике, изображения содержат больше низкочастотного контента , чем высокочастотного, поэтому после квантования остается именно низкочастотный контент, что приводит к размытым блокам с низким разрешением. В самом крайнем случае сохраняется только DC-коэффициент, то есть коэффициент, который представляет средний цвет блока, а блок преобразования после реконструкции имеет только один цвет.
Поскольку этот процесс квантования применяется индивидуально в каждом блоке, соседние блоки квантовают коэффициенты по-разному. Это приводит к разрывам на границах блоков. Они наиболее заметны на плоских участках, где мало деталей, маскирующих эффект.
Были предложены различные подходы для уменьшения эффектов сжатия изображений, но для использования стандартизированных методов сжатия/декомпрессии и сохранения преимуществ сжатия (например, более низких затрат на передачу и хранение), многие из этих методов сосредоточены на «постобработке», то есть , обработка изображений при их получении или просмотре. Не было показано, что ни один метод постобработки улучшает качество изображения во всех случаях; следовательно, ни один из них не получил широкого признания, хотя некоторые из них были реализованы и используются в проприетарных системах. Например, многие программы для редактирования фотографий имеют встроенные собственные алгоритмы уменьшения артефактов JPEG. Потребительское оборудование часто называет эту постобработку «шумоподавлением MPEG». [10]
Граничный артефакт в формате JPEG можно превратить в более приятные «зерна», мало чем отличающиеся от тех, что встречаются на фотопленках с высоким ISO. Вместо простого умножения квантованных коэффициентов на шаг квантования Q , относящийся к 2D-частоте, интеллектуальный шум в виде случайного числа в интервале [- Q /2; Q /2] можно добавить к деквантованному коэффициенту. Этот метод можно добавить как неотъемлемую часть декомпрессоров JPEG, работающих с триллионами существующих и будущих изображений JPEG. Как таковой это не метод «постобработки». [11]
Проблему звона можно уменьшить во время кодирования, превысив значения DCT и зажав кольца. [12]
Постеризация обычно происходит только при низком качестве, когда значениям DC придается слишком мало значения. Настройка таблицы квантования помогает. [13]
Когда используется прогнозирование движения, как в MPEG-1 , MPEG-2 или MPEG-4 , артефакты сжатия имеют тенденцию оставаться в нескольких поколениях распакованных кадров и перемещаться вместе с оптическим потоком изображения, что приводит к своеобразному эффекту на полпути. между эффектом рисования и «грязью», которая перемещается вместе с объектами на сцене.
Ошибки данных в сжатом битовом потоке, возможно, из-за ошибок передачи, могут привести к ошибкам, подобным большим ошибкам квантования, или могут на короткое время полностью нарушить анализ потока данных, что приведет к «разрыву» изображения. . Если в битовом потоке произошли грубые ошибки, декодеры продолжают применять обновления к поврежденному изображению в течение короткого интервала, создавая эффект «призрачного изображения», до тех пор, пока не будет получен следующий независимо сжатый кадр. В кодировании изображений MPEG они известны как « I-кадры », где «I» означает «внутри». До прибытия следующего I-кадра декодер может выполнять маскировку ошибок .
На краях блоков прогнозирования компенсации движения могут возникать разрывы границ блоков. При сжатии видео с компенсацией движения текущее изображение прогнозируется путем сдвига блоков (макроблоков, разделов или единиц прогнозирования) пикселей из ранее декодированных кадров. Если два соседних блока используют разные векторы движения, на краю между блоками возникнет разрыв.
Артефакты сжатия видео включают совокупные результаты сжатия составляющих неподвижных изображений, например, звон или другая занятость краев в последовательных неподвижных изображениях, которые появляются последовательно в виде мерцающего размытия точек вокруг краев, называемого комариным шумом , поскольку они напоминают комаров, роящихся вокруг объекта. [14] [15] Так называемый «москитный шум» возникает из-за блочного алгоритма сжатия дискретного косинусного преобразования (DCT), используемого в большинстве стандартов кодирования видео , таких как форматы MPEG . [3]
Артефакты на границах блоков можно уменьшить, применив фильтр удаления блочности . Как и при кодировании неподвижных изображений, к выходным данным декодера в качестве постобработки можно применить фильтр удаления блочности.
При кодировании видео с прогнозированием движения с замкнутым циклом прогнозирования кодер использует выходные данные декодера в качестве опорного сигнала прогнозирования, на основе которого прогнозируются будущие кадры. С этой целью кодер концептуально интегрирует декодер. Если этот «декодер» выполняет деблокировку, деблокированное изображение затем используется в качестве опорного изображения для компенсации движения, что повышает эффективность кодирования за счет предотвращения распространения блочных артефактов между кадрами. Это называется внутриконтурным деблокирующим фильтром. Стандарты, которые определяют внутриконтурный фильтр деблокирования, включают VC-1 , H.263 Приложение J, H.264/AVC и H.265/HEVC .
Сжатие звука с потерями обычно работает с психоакустической моделью — моделью восприятия человеческого слуха. Аудиоформаты с потерями обычно включают использование преобразования временной/частотной области, такого как модифицированное дискретное косинусное преобразование . В психоакустической модели используются эффекты маскировки, такие как частотная маскировка и временная маскировка, поэтому звуки, которые должны быть незаметными, не записываются. Например, в целом люди не способны воспринимать тихий тон, воспроизводимый одновременно с похожим, но более громким тоном. Метод сжатия с потерями может идентифицировать этот тихий тон и попытаться удалить его. Кроме того, шумы квантования можно «спрятать» там, где они будут замаскированы более заметными звуками. При низкой степени сжатия используется консервативная пси-модель с небольшими размерами блоков.
Когда психоакустическая модель неточна, когда размер блока преобразования ограничен или когда используется агрессивное сжатие, это может привести к артефактам сжатия. Артефакты сжатия в сжатом аудио обычно проявляются в виде звона, предэха , «птичьих артефактов», пропаданий, дребезжания, трелей, металлического звона, ощущения подводного звука, шипения или «зернистости».
Примером артефактов сжатия звука являются аплодисменты в аудиофайле с относительно высокой степенью сжатия (например, MP3 со скоростью 96 кбит/с). В целом музыкальные тона имеют повторяющиеся формы волн и более предсказуемые изменения громкости, тогда как аплодисменты по сути случайны, поэтому их трудно сжать. Сильно сжатая дорожка аплодисментов может иметь «металлический звон» и другие артефакты сжатия.
Артефакты сжатия могут намеренно использоваться в качестве визуального стиля, иногда называемого глитч-артом . В глитч-арте Розы Менкман используются артефакты сжатия , [16] в частности, блоки дискретного косинусного преобразования (DCT-блоки), встречающиеся в большинстве форматов сжатия цифровых медиаданных , таких как цифровые изображения JPEG и цифровой звук MP3 . [2] Примером неподвижных изображений является Jpegs немецкого фотографа Томаса Раффа , который намеренно использует артефакты JPEG в качестве основы стиля изображения. [17] [18]
В видеоарте используется метод datamoshing , при котором два видео чередуются, поэтому промежуточные кадры интерполируются из двух отдельных источников. Другой метод включает простое перекодирование из одного видеоформата с потерями в другой, в котором используется разница в том, как отдельные видеокодеки обрабатывают информацию о движении и цвете. [19] Эта техника была впервые использована художниками Бертраном Плейнсом в сотрудничестве с Кристианом Жакеменом в 2006 году с DivXPrime, [20] Свеном Кенигом, Такеши Мурата , Жаком Перконте и Полом Б. Дэвисом в сотрудничестве с Paperrad , а совсем недавно ее использовали Дэвид О'Рейли и в музыкальных клипах Chairlift и Набила Элдеркина в музыкальном клипе « Welcome to Heartbreak » Канье Уэста . [21] [22]
Существует также жанр интернет-мемов , в которых бессмысленные изображения намеренно сильно сжимаются, иногда несколько раз, для достижения комедийного эффекта. Изображения, созданные с использованием этой техники, часто называют «жареными во фритюре». [23]