Артефакт сжатия (или артефакт ) — это заметное искажение медиа (включая изображения , аудио и видео ), вызванное применением сжатия с потерями . Сжатие данных с потерями подразумевает отбрасывание части данных медиа, чтобы они стали достаточно маленькими для хранения в желаемом дисковом пространстве или передачи ( потоковой передачи ) в пределах доступной полосы пропускания (известной как скорость передачи данных или битрейт ). Если компрессор не может хранить достаточно данных в сжатой версии, результатом будет потеря качества или появление артефактов. Алгоритм сжатия может быть недостаточно интеллектуальным, чтобы различать искажения, имеющие небольшое субъективное значение, и те, которые нежелательны для пользователя.
Наиболее распространенными артефактами цифрового сжатия являются блоки DCT, вызванные алгоритмом сжатия дискретного косинусного преобразования (DCT), используемым во многих цифровых медиастандартах , таких как форматы видеофайлов JPEG , MP3 и MPEG . [1] [2] [3] Эти артефакты сжатия появляются при применении сильного сжатия, [1] и часто встречаются в обычных цифровых медиа, таких как DVD , обычных компьютерных форматах файлов, таких как файлы JPEG, MP3 и MPEG, и некоторых альтернативах компакт -диску , таких как формат Sony MiniDisc . Несжатые медиа (например, лазерные диски , аудио-компакт-диски и файлы WAV ) или сжатые без потерь медиа (например, FLAC или PNG ) не страдают от артефактов сжатия.
Минимизация воспринимаемых артефактов является ключевой целью при реализации алгоритма сжатия с потерями. Однако артефакты иногда намеренно создаются в художественных целях, в стиле, известном как глитч-арт [4] или датамошинг [5] .
С технической точки зрения артефакт сжатия — это особый класс ошибок данных, которые обычно являются следствием квантования при сжатии данных с потерями. При использовании кодирования с преобразованием он обычно принимает форму одной из базисных функций пространства преобразования кодера.
При выполнении блочного дискретного косинусного преобразования (ДКП) [1] для кодирования с целью квантования , как в изображениях, сжатых в формате JPEG , могут появляться различные типы артефактов.
Другие алгоритмы с потерями, которые используют сопоставление с образцом для дедупликации похожих символов, склонны вносить труднообнаружимые ошибки в печатный текст. Например, цифры "6" и "8" могут быть заменены. Это наблюдалось с JBIG2 в некоторых фотокопировальных машинах. [6] [7]
При низких скоростях передачи данных любая схема блочного кодирования с потерями вносит видимые артефакты в пиксельные блоки и на границы блоков. Эти границы могут быть границами блоков преобразования, границами блоков предсказания или и теми, и другими, и могут совпадать с границами макроблоков . Термин «макроблокирование» обычно используется независимо от причины артефакта. Другие названия включают блокировку, [8] тайлинг, [9] мозаику, пикселизацию, квилтинг и шахматную доску.
Блочные артефакты являются результатом самого принципа кодирования блочного преобразования . Преобразование (например, дискретное косинусное преобразование) применяется к блоку пикселей, и для достижения сжатия с потерями коэффициенты преобразования каждого блока квантуются . Чем ниже скорость передачи данных, тем грубее представлены коэффициенты и тем больше коэффициентов квантуется до нуля. Статистически изображения имеют больше низкочастотного содержимого , чем высокочастотного, поэтому именно низкочастотное содержимое остается после квантования, что приводит к размытым блокам с низким разрешением. В самом крайнем случае сохраняется только DC-коэффициент, то есть коэффициент, который представляет средний цвет блока, и блок преобразования представляет собой только один цвет после реконструкции.
Поскольку этот процесс квантования применяется индивидуально в каждом блоке, соседние блоки квантуют коэффициенты по-разному. Это приводит к разрывам на границах блоков. Они наиболее заметны в плоских областях, где мало деталей, чтобы замаскировать эффект.
Были предложены различные подходы для уменьшения эффектов сжатия изображений, но для использования стандартизированных методов сжатия/декомпрессии и сохранения преимуществ сжатия (например, более низких затрат на передачу и хранение) многие из этих методов фокусируются на «постобработке» — то есть обработке изображений при получении или просмотре. Ни один метод постобработки не показал улучшения качества изображения во всех случаях; следовательно, ни один из них не получил широкого признания, хотя некоторые из них были реализованы и используются в запатентованных системах. Например, многие программы для редактирования фотографий имеют встроенные запатентованные алгоритмы уменьшения артефактов JPEG. Потребительское оборудование часто называет эту постобработку «MPEG Noise Reduction». [10]
Граничный артефакт в JPEG можно превратить в более приятные «зерна», не похожие на те, что есть в фотопленках с высоким ISO. Вместо того, чтобы просто умножать квантованные коэффициенты на шаг квантования Q, относящийся к 2D-частоте, интеллектуальный шум в форме случайного числа в интервале [- Q /2; Q /2] может быть добавлен к деквантованному коэффициенту. Этот метод можно добавить как неотъемлемую часть к декомпрессорам JPEG, работающим с триллионами существующих и будущих изображений JPEG. Как таковой, он не является методом «постобработки». [11]
Проблему звона можно уменьшить во время кодирования, превышая значения DCT и устраняя звон. [12]
Постеризация обычно происходит только при низком качестве, когда значениям DC придается слишком мало значения. Настройка таблицы квантования помогает. [13]
При использовании прогнозирования движения, как в MPEG-1 , MPEG-2 или MPEG-4 , артефакты сжатия, как правило, сохраняются в нескольких поколениях распакованных кадров и перемещаются вместе с оптическим потоком изображения, что приводит к своеобразному эффекту, нечто среднее между эффектом живописи и «грязью», которая перемещается вместе с объектами на сцене.
Ошибки данных в сжатом потоке битов, возможно, из-за ошибок передачи, могут привести к ошибкам, аналогичным большим ошибкам квантования, или могут полностью нарушить синтаксический анализ потока данных на короткое время, что приведет к «разрыву» изображения. Если в потоке битов произошли грубые ошибки, декодеры продолжают применять обновления к поврежденному изображению в течение короткого интервала, создавая эффект «призрачного изображения», пока не получат следующий независимо сжатый кадр. В кодировании изображений MPEG они известны как « I-кадры », где «I» означает «intra». Пока не поступит следующий I-кадр, декодер может выполнять маскировку ошибок .
Разрывы границ блоков могут возникать на краях блоков предсказания компенсации движения . При сжатии видео с компенсацией движения текущее изображение предсказывается путем смещения блоков (макроблоков, разделов или единиц предсказания) пикселей из ранее декодированных кадров. Если два соседних блока используют разные векторы движения, на краю между блоками будет разрыв.
Артефакты сжатия видео включают в себя кумулятивные результаты сжатия составляющих неподвижных изображений, например, звон или другая краевая загроможденность в последовательных неподвижных изображениях появляются последовательно как мерцающее размытие точек по краям, называемое москитным шумом , поскольку они напоминают комаров, роящихся вокруг объекта. [14] [15] Так называемый «москитный шум» вызван алгоритмом сжатия на основе дискретного косинусного преобразования (DCT) на основе блоков, используемым в большинстве стандартов кодирования видео , таких как форматы MPEG . [3]
Артефакты на границах блоков можно уменьшить, применив фильтр деблокирования . Как и при кодировании неподвижных изображений, можно применить фильтр деблокирования к выходу декодера в качестве постобработки.
При кодировании видео с предсказанием движения с замкнутым циклом предсказания кодер использует выход декодера в качестве опорного прогноза, из которого предсказываются будущие кадры. С этой целью кодер концептуально интегрирует декодер. Если этот «декодер» выполняет деблокирование, деблокированное изображение затем используется в качестве опорного изображения для компенсации движения, что повышает эффективность кодирования, предотвращая распространение артефактов блоков по кадрам. Это называется фильтром деблокирования в цикле. Стандарты, которые определяют фильтр деблокирования в цикле, включают VC-1 , H.263 Annex J, H.264/AVC и H.265/HEVC .
Сжатие звука с потерями обычно работает с психоакустической моделью — моделью восприятия человеческого слуха. Форматы аудио с потерями обычно подразумевают использование преобразования временной/частотной области, например, модифицированного дискретного косинусного преобразования . С психоакустической моделью используются эффекты маскировки, такие как частотная маскировка и временная маскировка, так что звуки, которые должны быть незаметны, не записываются. Например, в целом люди не способны воспринимать тихий тон, воспроизводимый одновременно с похожим, но более громким тоном. Метод сжатия с потерями может идентифицировать этот тихий тон и попытаться удалить его. Кроме того, шум квантования может быть «спрятан» там, где он будет замаскирован более заметными звуками. При низком сжатии консервативная пси-модель используется с небольшими размерами блоков.
Когда психоакустическая модель неточна, когда размер блока преобразования ограничен или когда используется агрессивное сжатие, это может привести к артефактам сжатия. Артефакты сжатия в сжатом аудио обычно проявляются как звон, опережающее эхо , «артефакты птички», выпадения, дребезжание, трель, металлический звон, ощущение подводного мира, шипение или «зернистость».
Примером артефактов сжатия в аудио является аплодисменты в относительно сильно сжатом аудиофайле (например, 96 кбит/сек MP3). В целом, музыкальные тоны имеют повторяющиеся формы волн и более предсказуемые изменения громкости, тогда как аплодисменты по сути случайны, поэтому их трудно сжать. Сильно сжатый трек аплодисментов может иметь «металлический звон» и другие артефакты сжатия.
Артефакты сжатия могут намеренно использоваться в качестве визуального стиля, иногда называемого глитч-артом . Глитч-арт Розы Менкман использует артефакты сжатия , [16] в частности, блоки дискретного косинусного преобразования (блоки DCT), которые встречаются в большинстве форматов сжатия цифровых медиаданных, таких как цифровые изображения JPEG и цифровое аудио MP3 . [2] В неподвижных изображениях примером является Jpegs немецкого фотографа Томаса Раффа , который намеренно использует артефакты JPEG в качестве основы стиля изображения. [17] [18]
В видеоарте одним из используемых методов является datamoshing , когда два видео чередуются, поэтому промежуточные кадры интерполируются из двух отдельных источников. Другой метод заключается в простом перекодировании из одного формата видео с потерями в другой, что использует разницу в том, как отдельные видеокодеки обрабатывают информацию о движении и цвете. [19] Этот метод был впервые использован художниками Бертраном Плейнсом в сотрудничестве с Кристианом Жакмином в 2006 году с DivXPrime, [20] Свеном Кёнигом, Такеши Муратой , Жаком Перконте и Полом Б. Дэвисом в сотрудничестве с Paperrad , а совсем недавно использовался Дэвидом О'Рейли и в музыкальных клипах для Chairlift и Набилем Элдеркиным в музыкальном клипе « Welcome to Heartbreak » для Канье Уэста . [21] [22]
Существует также жанр интернет-мемов , где часто бессмысленные изображения намеренно сильно сжимаются, иногда многократно, для создания комического эффекта. Изображения, созданные с использованием этой техники, часто называют «жареными во фритюре». [23]