Кодирование с преобразованием — это тип сжатия данных для «естественных» данных, таких как аудиосигналы или фотографические изображения . Преобразование обычно не имеет потерь (совершенно обратимо) само по себе, но используется для обеспечения лучшего (более целенаправленного) квантования , что затем приводит к копии исходного ввода более низкого качества ( сжатие с потерями ).
При кодировании преобразования знания о приложении используются для выбора информации, которую следует отбросить, тем самым снижая его пропускную способность . Оставшаяся информация может быть сжата различными методами. Когда вывод декодируется, результат может не совпадать с исходным вводом, но ожидается, что он будет достаточно близок для целей приложения.
Одна из самых успешных систем кодирования преобразования обычно не упоминается как таковая — примером может служить цветное телевидение NTSC . После обширной серии исследований в 1950-х годах Альда Бедфорд показала, что человеческий глаз имеет высокое разрешение только для черного и белого, несколько меньше для цветов «среднего диапазона», таких как желтый и зеленый, и еще меньше для цветов в конце спектра, красного и синего.
Использование этих знаний позволило RCA разработать систему, в которой они отбрасывали большую часть синего сигнала после того, как он поступает с камеры, сохраняя большую часть зеленого и только часть красного; это цветовая субдискретизация в цветовом пространстве YIQ .
Результатом является сигнал со значительно меньшим содержанием, который вписывается в существующие черно-белые сигналы 6 МГц как фазомодулированный дифференциальный сигнал. Средний телевизор отображает эквивалент 350 пикселей на строке, но телевизионный сигнал содержит достаточно информации только для 50 пикселей синего и, возможно, 150 пикселей красного. Это не очевидно для зрителя в большинстве случаев, так как глаз в любом случае мало использует "отсутствующую" информацию.
Системы PAL и SECAM используют почти идентичные или очень похожие методы передачи цвета. В любом случае обе системы являются субдискретизированными.
Термин гораздо чаще используется в цифровых носителях и цифровой обработке сигналов . Наиболее широко используемым методом кодирования преобразования в этом отношении является дискретное косинусное преобразование (DCT), [1] [2] предложенное Насиром Ахмедом в 1972 году, [3] [4] и представленное Ахмедом с Т. Натараджаном и К. Р. Рао в 1974 году. [5] Это DCT, в контексте семейства дискретных косинусных преобразований, является DCT-II. Это основа для общего стандарта сжатия изображений JPEG , [6] который исследует небольшие блоки изображения и преобразует их в частотную область для более эффективного квантования (с потерями) и сжатия данных . В кодировании видео стандарты H.26x и MPEG изменяют этот метод сжатия изображений DCT по кадрам в движущемся изображении с использованием компенсации движения , что еще больше уменьшает размер по сравнению с серией JPEG.
При кодировании звука сжатие звука MPEG анализирует преобразованные данные в соответствии с психоакустической моделью , которая описывает чувствительность человеческого уха к частям сигнала, аналогично телевизионной модели. MP3 использует гибридный алгоритм кодирования, объединяющий модифицированное дискретное косинусное преобразование (MDCT) и быстрое преобразование Фурье (FFT). [7] Его сменило Advanced Audio Coding (AAC), которое использует чистый алгоритм MDCT для значительного повышения эффективности сжатия. [8]
Основной процесс оцифровки аналогового сигнала представляет собой разновидность кодирования с преобразованием, в котором в качестве преобразования используется выборка в одной или нескольких областях.