Дискретное косинусное преобразование

Дискретное косинусное преобразование ( ДКП ) выражает конечную последовательность точек данных в терминах суммы косинусных функций, колеблющихся на разных частотах . DCT, впервые предложенный Насиром Ахмедом в 1972 году, представляет собой широко используемый метод преобразования при обработке сигналов и сжатии данных . Он используется в большинстве цифровых носителей , включая цифровые изображения (например, JPEG и HEIF ), цифровое видео (например, MPEG и H.26x ), цифровое аудио (например, Dolby Digital , MP3 и AAC ), цифровое телевидение (например, SDTV) . , HDTV и VOD ), цифровое радио (например, AAC+ и DAB+ ) и кодирование речи (например, AAC-LD , Siren и Opus ). ДКП также важны для многих других приложений в науке и технике , таких как цифровая обработка сигналов , телекоммуникационные устройства, сокращение использования полосы пропускания сети и спектральные методы численного решения уравнений в частных производных .

ДКП — это преобразование Фурье, аналогичное дискретному преобразованию Фурье (ДПФ), но использующее только действительные числа . ДКП обычно связаны с коэффициентами ряда Фурье периодически и симметрично расширенной последовательности, тогда как ДПФ связаны с коэффициентами ряда Фурье только периодически расширенной последовательности. ДКП эквивалентны ДПФ примерно вдвое большей длины, работающие с реальными данными с четной симметрией (поскольку преобразование Фурье действительной и четной функции является действительным и четным), тогда как в некоторых вариантах входные или выходные данные сдвинуты на половину выборки. .

Существует восемь стандартных вариантов DCT, из которых четыре являются распространенными. Наиболее распространенным вариантом дискретного косинусного преобразования является ДКП типа II, который часто называют просто ДКП . Это был первоначальный DCT, впервые предложенный Ахмедом. Его обратное, ДКП типа III, соответственно, часто называют просто обратным ДКП или IDCT . Двумя связанными преобразованиями являются дискретное синусоидальное преобразование (ДСТ), которое эквивалентно ДПФ действительных и нечетных функций , и модифицированное дискретное косинусное преобразование (МДКП), основанное на ДКП перекрывающихся данных. Многомерные DCT (MD DCT) разработаны для распространения концепции DCT на многомерные сигналы. Для снижения вычислительной сложности реализации DCT было разработано множество быстрых алгоритмов. Одним из них является целочисленное DCT (IntDCT), ^[1] целочисленное приближение стандартного DCT, ^[2]^{: ix, xiii, 1, 141–304} , используемое в нескольких международных стандартах ISO/IEC и ITU-T . ^[1]^[2]

Сжатие DCT, также известное как блочное сжатие, сжимает данные в наборы дискретных блоков DCT. ^[3] Размеры блоков DCT, включая 8x8 пикселей для стандартного DCT, а также различные размеры целочисленных DCT от 4x4 до 32x32 пикселей. ^[1]^[4] DCT обладает сильным свойством сжатия энергии , ^[5]^[6] позволяет достичь высокого качества при высоких коэффициентах сжатия данных . ^[7]^[8] Однако при применении сильного сжатия DCT могут появиться артефакты блочного сжатия .

История

DCT был впервые разработан Насиром Ахмедом , Т. Натараджаном и К. Р. Рао во время работы в Университете штата Канзас . Концепция была предложена Национальному научному фонду в 1972 году. Изначально DCT предназначался для сжатия изображений . ^[9]^[1] Ахмед разработал практический алгоритм DCT вместе со своими аспирантами Т. Раджем Натараджаном, Уиллсом Дитрихом и Джереми Фрисом, а также своим другом доктором К. Р. Рао в Техасском университете в Арлингтоне в 1973 году. ^[9] Они представили их результаты были опубликованы в статье в январе 1974 года под названием « Дискретное косинусное преобразование» . ^[5]^[6]^[10] В нем описано то, что сейчас называется DCT типа II (DCT-II), ^[2]^{: 51} , а также обратное DCT типа III (IDCT). ^[5]

С момента своего появления в 1974 году были проведены значительные исследования DCT. ^[10] В 1977 году Вэнь-Сюн Чен вместе с К. Харрисоном Смитом и Стэнли К. Фраликом опубликовал статью, в которой представил быстрый алгоритм ДКП. ^[11]^[10] Дальнейшие разработки включают статью 1978 года М. Дж. Нарасимхи и А. М. Петерсона, а также статью 1984 года Б. Г. Ли. ^[10] Эти исследовательские работы, а также оригинальная статья Ахмеда 1974 года и статья Чена 1977 года были процитированы Объединенной группой экспертов по фотографии в качестве основы для алгоритма сжатия изображений с потерями в формате JPEG в 1992 году ^{. [10]}^[12]

Дискретное синусоидальное преобразование (ДСТ) было получено на основе ДКП путем замены условия Неймана при x=0 на условие Дирихле . ^[2]^{: 35-36} DST было описано в статье DCT 1974 года Ахмедом, Натараджаном и Рао. ^[5] DST типа I (DST-I) позже был описан Анилом К. Джайном в 1976 году, а DST типа II (DST-II) был затем описан Х. Б. Кекра и Дж. К. Соланкой в 1978 году. ^[13]

В 1975 году Джон А. Роуз и Гунер С. Робинсон адаптировали DCT для межкадрового видеокодирования с компенсацией движения . Они экспериментировали с DCT и быстрым преобразованием Фурье (FFT), разрабатывая межкадровые гибридные кодеры для обоих, и обнаружили, что DCT является наиболее эффективным из-за его меньшей сложности, способного сжимать данные изображения до 0,25 бит на пиксель . для сцены видеотелефона с качеством изображения, сравнимым с внутрикадровым кодером , требующим 2 бита на пиксель. ^[14]^[15] В 1979 году Анил К. Джайн и Джасвант Р. Джайн продолжили разработку сжатия видео DCT с компенсацией движения, ^[16]^[17] также называемого блочной компенсацией движения. ^[17] Это привело к тому, что в 1981 году Чен разработал практический алгоритм сжатия видео, названный DCT с компенсацией движения или адаптивным кодированием сцены. ^[17] DCT с компенсацией движения позже стал стандартным методом кодирования для сжатия видео, начиная с конца 1980-х годов. ^[18]^[19]

Вариант DCT, модифицированное дискретное косинусное преобразование (MDCT), был разработан Джоном П. Принсеном, А. В. Джонсоном и Аланом Б. Брэдли в Университете Суррея в 1987 году ^[20] после более ранней работы Принсена и Брэдли в 1986 году ^{. 21]} MDCT используется в большинстве современных форматов сжатия звука , таких как Dolby Digital (AC-3), ^[22]^[23] MP3 (который использует гибридный алгоритм DCT- FFT ), ^[24] Advanced Audio Coding (AAC). , ^[25] и Ворбис ( Огг ). ^[26]

Насир Ахмед также разработал алгоритм DCT без потерь вместе с Гиридхаром Мандьямом и Нираджем Маготрой из Университета Нью-Мексико в 1995 году. Это позволяет использовать метод DCT для сжатия изображений без потерь. Это модификация исходного алгоритма DCT, включающая элементы обратного DCT и дельта-модуляции . Это более эффективный алгоритм сжатия без потерь, чем энтропийное кодирование . ^[27] DCT без потерь также известен как LDCT. ^[28]

Приложения

DCT является наиболее широко используемым методом преобразования при обработке сигналов ^[29] и , безусловно, наиболее широко используемым линейным преобразованием при сжатии данных . ^[30] Несжатые цифровые носители , а также сжатие без потерь предъявляют высокие требования к памяти и пропускной способности , что значительно снижается за счет метода сжатия с потерями DCT , ^[7]^[8] способного достичь степени сжатия данных от 8: 1 до 14: 1 для почти студийное качество, ^[7] до 100:1 для контента приемлемого качества. ^[8] Стандарты сжатия DCT используются в цифровых медиа-технологиях, таких как цифровые изображения , цифровые фотографии , ^[31]^[32] цифровое видео , ^[18]^[33] потоковое мультимедиа , ^[34] цифровое телевидение , потоковое телевидение , видео на спрос (VOD), ^[8] цифровое кино , ^[22] видео высокой четкости (HD-видео) и телевидение высокой четкости (HDTV). ^[7]^[35]

DCT, и в частности DCT-II, часто используется при обработке сигналов и изображений, особенно для сжатия с потерями, поскольку он обладает сильным свойством сжатия энергии . ^[5]^[6] В типичных приложениях большая часть информации о сигнале имеет тенденцию концентрироваться в нескольких низкочастотных компонентах DCT. Для сильно коррелированных марковских процессов ДКП может приближаться к эффективности уплотнения преобразования Карунена-Лоэва (которая является оптимальной в смысле декорреляции). Как поясняется ниже, это связано с граничными условиями, заложенными в косинусных функциях.

ДКП широко используются при решении уравнений в частных производных спектральными методами , где различные варианты ДКП соответствуют немного отличающимся четным и нечетным граничным условиям на двух концах массива.

ДКП тесно связаны с полиномами Чебышева , а быстрые алгоритмы ДКП (ниже) используются в аппроксимации Чебышева произвольных функций рядами полиномов Чебышева, например, в квадратуре Кленшоу – Кертиса .

Общие приложения

DCT широко используется во многих приложениях, включая следующие.

Обработка аудиосигнала — кодирование звука , сжатие аудиоданных (с потерями и без потерь), ^[36] объемный звук , ^[22] подавление акустического эха и обратной связи , распознавание фонем , устранение наложения временных интервалов (TDAC) ^[37]
- Цифровое аудио ^[1]
- Цифровое радио — цифровое аудиовещание (DAB+), ^[38] HD Radio ^[39]
- Обработка речи — кодирование речи ^[40]^[41] распознавание речи , обнаружение речевой активности (VAD) ^[37]
- Цифровая телефония — передача голоса по IP (VoIP), ^[40] мобильная телефония , видеотелефония , ^[41] телеконференции , видеоконференции ^[1]
Биометрия — ориентация по отпечатку пальца , системы распознавания лиц , биометрические водяные знаки , биометрические водяные знаки на основе отпечатков пальцев, идентификация/распознавание отпечатков ладоней ^[37]
- Обнаружение лиц — распознавание лиц ^[37]
Компьютеры и Интернет — Всемирная паутина , социальные сети , ^[31]^[32] Интернет-видео ^[42]
- Снижение использования пропускной способности сети ^[1]
Бытовая электроника ^[37] — мультимедийные системы, ^[1] мультимедийные телекоммуникационные устройства, ^[1] бытовые устройства ^[42]
Криптография — шифрование , стеганография , защита авторских прав ^[37]
Сжатие данных — кодирование с преобразованием , сжатие с потерями , сжатие без потерь ^[36]
- Операции кодирования — квантование , перцепционное взвешивание, энтропийное кодирование , кодирование с переменным битрейтом ^[1]
Цифровые медиа ^[34] — цифровое распространение ^[43]
- Потоковое мультимедиа ^[34] — потоковое аудио , потоковое видео , потоковое телевидение , видео по запросу (VOD) ^[8]
Обнаружение подделок ^[37]
Геофизическая нестационарная электромагнетика (переходная ЭМ) ^[37]
Изображения — идентификация художника , ^{[37] измерение} фокуса и размытости , ^[37] извлечение особенностей ^[37]
- Форматирование цвета — форматирование яркости и различий в цвете, цветовые форматы (например, YUV444 и YUV411 ), операции декодирования , такие как обратная операция между форматами цвета дисплея ( YIQ , YUV , RGB ) ^[1]
- Цифровая обработка изображений — цифровые изображения , цифровые камеры , цифровая фотография , ^[31]^[32] визуализация в расширенном динамическом диапазоне (HDR-изображения) ^[44]
- Сжатие изображения ^[37]^[45] — форматы файлов изображений , ^[46] многоракурсное сжатие изображения, прогрессивная передача изображения ^[37]
- Обработка изображений — цифровая обработка изображений , ^[1] анализ изображений , поиск изображений на основе содержимого , обнаружение углов , направленное блочное представление изображения , обнаружение краев , улучшение изображения , объединение изображений , сегментация изображения , интерполяция , оценка уровня шума изображения , зеркальное отображение, вращение, профиль едва заметного искажения (JND), пространственно-временные эффекты маскировки, фовеативная визуализация ^[37]
- Оценка качества изображения — метрика ухудшения качества на основе DCT (DCT QM) ^[37]
- Реконструкция изображения — автоматическая проверка направленных текстур , восстановление изображения , закрашивание , визуальное восстановление ^[37]
Медицинские технологии
- Электрокардиография (ЭКГ) — векторкардиография (ВКГ) ^[37]
- Медицинская визуализация — сжатие медицинских изображений, объединение изображений, водяные знаки, классификация сжатия опухолей головного мозга ^[37]
Распознавание образов ^[37]
Извлечение области интереса (ROI) ^[37]
Обработка сигналов — цифровая обработка сигналов , цифровые сигнальные процессоры (DSP), программное обеспечение DSP , мультиплексирование , сигнализация , управляющие сигналы, аналого-цифровое преобразование (АЦП), ^[1] сжатая выборка , маскирование ошибок пирамиды DCT , понижающая дискретизация , повышающая дискретизация , сигнал Оценка отношения шум/шум (SNR), преобразование , фильтр Винера ^[37]
- Комплексный анализ особенностей кепстра ^[37]
- ДКП- фильтрация ^[37]
Наблюдение ^[37]
Камера регистрации данных о событиях в автомобиле ^[37]
видео
- Цифровое кино ^[45] — цифровая кинематография , цифровые кинокамеры , монтаж видео , монтаж фильмов , ^[47]^[48] Dolby Digital audio ^[1]^[22]
- Цифровое телевидение (DTV) ^[7] — цифровое телевизионное вещание , ^[45] телевидение стандартной четкости (SDTV), телевидение высокой четкости (HDTV), ^[7]^[35]чипы кодера/декодера HDTV , Ultra HDTV (UHDTV) ^{[ 1]}
- Цифровое видео ^[18]^[33] — цифровой универсальный диск (DVD), ^[45] видео высокой четкости (HD) ^[7]^[35]
- Кодирование видео — сжатие видео , ^[1] стандарты кодирования видео , ^[37] оценка движения , компенсация движения , межкадровое предсказание, векторы движения , ^[1] кодирование 3D-видео , модель вероятности обнаружения локальных искажений (LDDP), обнаружение движущихся объектов , Многоракурсное видеокодирование (MVC) ^[37]
- Обработка видео — анализ движения , анализ движения 3D-DCT, анализ видеоконтента , извлечение данных , ^[37] просмотр видео , ^[49] профессиональное видеопроизводство ^[50]
Водяные знаки — цифровые водяные знаки , водяные знаки изображений , водяные знаки видео, водяные знаки 3D-видео , обратимое сокрытие данных , обнаружение водяных знаков ^[37]
Беспроводная технология
- Мобильные устройства ^[42] — мобильные телефоны , смартфоны , ^[41] видеофоны ^[1]
- Радиочастотная (РЧ) технология — радиочастотная инженерия , апертурные решетки , ^[37] формирование луча , цифровые арифметические схемы , направленное зондирование , космическая визуализация ^[51]
Беспроводная сенсорная сеть (WSN) — беспроводные акустические сенсорные сети ^[37]

Стандарты визуальных медиа

DCT-II — важный метод сжатия изображений. Он используется в стандартах сжатия изображений, таких как JPEG , и стандартах сжатия видео , таких как H.26x , MJPEG , MPEG , DV , Theora и Daala . Там вычисляются двумерные DCT-II блоков, а результаты квантоваются и энтропийно кодируются . В этом случае обычно равно 8, и формула DCT-II применяется к каждой строке и столбцу блока. Результатом является массив коэффициентов преобразования 8 × 8, в котором элемент (вверху слева) является компонентом постоянного тока (нулевой частоты), а записи с возрастающими значениями вертикального и горизонтального индекса представляют более высокие вертикальные и горизонтальные пространственные частоты. $N\times N$ $N$ $(0,0)$

Целочисленное DCT, целочисленное приближение DCT, ^[2]^[1] используется в расширенном кодировании видео (AVC), ^[52]^[1], представленном в 2003 году, и высокоэффективном кодировании видео (HEVC), ^[4]^{[ 1]} , представленный в 2013 году. Целочисленное DCT также используется в формате высокоэффективного изображения (HEIF), который использует подмножество формата кодирования видео HEVC для кодирования неподвижных изображений. ^[4] AVC использует блоки 4 x 4 и 8 x 8. HEVC и HEIF используют блоки разных размеров от 4 x 4 до 32 x 32 пикселей . ^[4]^[1] По состоянию на 2019 год ^{[обновлять]}AVC является наиболее часто используемым форматом для записи, сжатия и распространения видеоконтента, который используется 91% разработчиков видео, за ним следует HEVC, который используется 43% разработчиков. ^[43]

Форматы изображений

Видео форматы

Аудиостандарты MDCT

Общий звук

Кодирование речи

доктор медицины ДКП

Многомерные DCT (MD DCT) имеют несколько применений, в основном 3-D DCT, такие как 3-D DCT-II, который имеет несколько новых приложений, таких как системы кодирования гиперспектральных изображений, [ ^85] кодирование 3-D DCT переменной временной длины, ^{[86 ] алгоритмы} кодирования видео , ^[87] адаптивное видеокодирование ^[88] и трехмерное сжатие. ^[89] Благодаря усовершенствованию аппаратного и программного обеспечения и внедрению нескольких быстрых алгоритмов необходимость использования MD DCT быстро возрастает. DCT-IV приобрел популярность благодаря своим приложениям для быстрой реализации блоков многофазной фильтрации с действительными значениями, ^[90] перекрывающегося ортогонального преобразования ^[91]^[92] и базисов вейвлетов с косинусной модуляцией. ^[93]

Цифровая обработка сигналов

DCT играет очень важную роль в цифровой обработке сигналов . Используя DCT, сигналы можно сжимать. ДКТ можно использовать в электрокардиографии для сжатия сигналов ЭКГ. DCT2 обеспечивает лучшую степень сжатия, чем DCT.

DCT широко реализован в процессорах цифровых сигналов (DSP), а также в программном обеспечении цифровой обработки сигналов. Многие компании разработали DSP на основе технологии DCT. DCT широко используются для таких приложений, как кодирование , декодирование видео, аудио, мультиплексирование , сигналы управления, передача сигналов и аналого-цифровое преобразование . DCT также широко используются в чипах кодеров/декодеров телевидения высокой четкости (HDTV) . ^[1]

Артефакты сжатия

Распространенной проблемой сжатия DCT в цифровых носителях являются артефакты блочного сжатия , ^[94] вызванные блоками DCT. ^[3] Алгоритм DCT может вызывать блочные артефакты при применении сильного сжатия. Поскольку DCT используется в большинстве стандартов кодирования цифровых изображений и видео (таких как форматы JPEG , H.26x и MPEG ), артефакты блочного сжатия на основе DCT широко распространены в цифровых носителях . В алгоритме DCT изображение (или кадр в последовательности изображений) разбивается на квадратные блоки, которые обрабатываются независимо друг от друга, затем берется DCT этих блоков и квантоваются полученные коэффициенты DCT . Этот процесс может вызвать артефакты блокировки, в первую очередь при высоких коэффициентах сжатия данных . ^[94] Это также может вызвать эффект « москитного шума », обычно встречающийся в цифровом видео (например, в форматах MPEG). ^[95]

Блоки DCT часто используются в глитч-арте . ^[3] Художница Роза Менкман использует артефакты сжатия на основе DCT в своих глитч-артах, ^[96] особенно блоки DCT, встречающиеся в большинстве цифровых медиаформатов , таких как цифровые изображения JPEG и цифровой звук MP3 . ^[3] Другой пример — Jpegs немецкого фотографа Томаса Раффа , который намеренно использует артефакты JPEG в качестве основы стиля изображения. ^[97]^[98]

Неофициальный обзор

Как и любое преобразование Фурье, дискретное косинусное преобразование (ДКП) выражает функцию или сигнал в виде суммы синусоид с разными частотами и амплитудами . Подобно дискретному преобразованию Фурье (ДПФ), ДКП работает с функцией в конечном числе дискретных точек данных. Очевидным различием между ДКП и ДПФ является то, что первый использует только косинусные функции, а второй использует как косинусы, так и синусы (в форме комплексных экспонент ). Однако это видимое различие является всего лишь следствием более глубокого различия: ДКП подразумевает отличные граничные условия от ДПФ или других связанных преобразований.

Преобразования, связанные с Фурье, которые работают с функцией в конечной области , такие как ДПФ, ДКП или ряд Фурье , можно рассматривать как неявное определение расширения этой функции за пределами области. То есть, написав функцию как сумму синусоид, вы можете вычислить эту сумму в любом месте , даже если оригинал не был указан. ДПФ, как и ряд Фурье, подразумевает периодическое расширение исходной функции. ДКП, как и косинусное преобразование , подразумевает четное расширение исходной функции. ${\ displaystyle f (x)}$ $х$ $х$ ${\ displaystyle f (x)}$

Иллюстрация неявного четного/нечетного расширения входных данных DCT для N = 11 точек данных (красные точки) для четырех наиболее распространенных типов DCT (типы I–IV). Обратите внимание на тонкие различия в интерфейсах между данными и расширениями: в DCT-II и DCT-IV обе конечные точки реплицируются в расширениях, но не в DCT-I или DCT-III (и нулевая точка вставляется в расширение смены знака в DCT-III).

Однако, поскольку ДКП работают с конечными дискретными последовательностями, возникают две проблемы , которые не применимы к непрерывному косинусному преобразованию. Во-первых, необходимо указать, является ли функция четной или нечетной как на левой, так и на правой границах области (т. е. на границах min- n и max- n в определениях ниже соответственно). Во-вторых, необходимо указать, в какой точке функция будет четной или нечетной. В частности, рассмотрим последовательность abcd из четырех равноотстоящих друг от друга точек данных и скажем, что мы указываем четную левую границу. Есть две разумные возможности: либо данные четны о выборке a , и в этом случае четное расширение равно dcbabcd , либо данные четны о точке на полпути между a и предыдущей точкой, и в этом случае четное расширение равно dcbaabcd ( а повторяется).

Этот выбор приводит ко всем стандартным вариантам DCT, а также дискретным синусоидальным преобразованиям (DST). Каждая граница может быть четной или нечетной (2 варианта на границу) и может быть симметричной относительно точки данных или точки на полпути между двумя точками данных (2 варианта на границу), всего 2 × 2 × 2 × 2 = 16. возможности. Половина этих возможностей, те, у которых левая граница четная, соответствуют 8 типам ДКП; другая половина — это 8 типов летнего времени.

Эти различные граничные условия сильно влияют на применение преобразования и приводят к уникальным полезным свойствам для различных типов ДКП. В частности, при использовании преобразований Фурье для решения уравнений в частных производных спектральными методами граничные условия задаются непосредственно как часть решаемой задачи. Или, для MDCT (основанного на DCT типа IV), граничные условия тесно связаны с критическим свойством MDCT по устранению наложения временных интервалов. Более тонким образом граничные условия отвечают за свойства «компактификации энергии», которые делают ДКП полезными для сжатия изображений и звука, поскольку границы влияют на скорость сходимости любого ряда Фурье.

В частности, хорошо известно, что любые разрывы функции снижают скорость сходимости ряда Фурье, поэтому для представления функции с заданной точностью требуется больше синусоид. Тот же принцип определяет полезность ДПФ и других преобразований для сжатия сигнала; чем более гладкая функция, тем меньше членов в ее ДПФ или ДКП требуется для ее точного представления и тем больше ее можно сжать. (Здесь мы думаем о ДПФ или ДКП как о приближениях ряда Фурье или косинусного ряда функции соответственно, чтобы говорить о ее «гладкости».) Однако неявная периодичность ДПФ означает, что разрывы обычно возникают при границы: любой случайный сегмент сигнала вряд ли будет иметь одинаковое значение как на левой, так и на правой границах. (Аналогичная проблема возникает для DST, в котором нечетное левое граничное условие подразумевает разрыв для любой функции, которая не равна нулю на этой границе.) Напротив, DCT, где обе границы четны, всегда дает непрерывное расширение на этой границе. границы (хотя уклон обычно прерывистый). Вот почему DCT и, в частности, DCT типов I, II, V и VI (типы, которые имеют две четные границы), обычно лучше подходят для сжатия сигнала, чем DFT и DST. На практике для таких приложений обычно предпочитают ДКП типа II, отчасти из соображений удобства вычислений.

Формальное определение

Формально дискретное косинусное преобразование представляет собой линейную обратимую функцию (где обозначает набор действительных чисел ) или, что эквивалентно, обратимую квадратную матрицу размера $N$ × $N.$ Существует несколько вариантов DCT со слегка измененными определениями. N вещественных чисел преобразуются в $N$ вещественных чисел по одной из формул $:$ $f:\mathbb {R} ^{N} \to \mathbb {R} ^{N}$ $\mathbb {R}$ $~x_{0},\ \ldots \ x_{N-1}~$ $X_{0},\,\ldots,\,X_{N-1}$

ДКП-I

X_{k}={\frac {1}{2}}(x_{0}+(-1)^{k}x_{N-1})+\sum _{n=1}^{ N-2}x_{n}\cos \left[\,{\frac {\pi }{\,N-1\,}}\,n\,k\,\right]\qquad {\text{ for }}~k=0,\ \ldots \ N-1~.

Некоторые авторы дополнительно умножают члены и на и, соответственно, умножают члены и , на которые делает матрицу DCT-I ортогональной , если дальнейшее умножение на общий масштабный коэффициент, но нарушает прямое соответствие с вещественно-четным ДПФ . $x_{0}$ $x_{N-1}$ ${\sqrt {2\,}}\,,$ $X_{0}$ $X_{N-1}$ $1/{\sqrt {2\,}}\,,$ ${\sqrt {{\tfrac {2}{N-1\,}}\,}},$

DCT-I в точности эквивалентен (до общего масштабного коэффициента 2) ДПФ действительных чисел с четной симметрией. Например, ДКП-I действительных чисел в точности эквивалентно ДПФ восьми действительных чисел (даже симметрии), разделенных на два. (Напротив, типы ДКП II-IV включают сдвиг на половину выборки в эквивалентном ДПФ.) $2(N-1)$ $N=5$ ${\ displaystyle a \ b \ c \ d \ e}$ ${\ displaystyle a \ b \ c \ d \ e \ d \ c \ b}$

Однако обратите внимание, что DCT-I не определен для значений меньше 2, в то время как все остальные типы DCT определяются для любых положительных значений. $N$ $Н.$

Таким образом, ДКП-I соответствует граничным условиям: четно около и даже около ; аналогично для $x_{n}$ $n=0$ $n=N-1$ $X_{k}.$

ДКТ-II

X_{k}=\sum _{n=0}^{N-1}x_{n}\cos \left[\,{\tfrac {\,\pi \,}{N}}\left(n+{\tfrac {1}{2}}\right)k\,\right]\qquad {\text{ for }}~k=0,\ \dots \ N-1~.

DCT-II, вероятно, является наиболее часто используемой формой, и ее часто называют просто «DCT». ^[5]^[6]

Это преобразование в точности эквивалентно (до общего масштабного коэффициента 2) ДПФ реальных входных данных четной симметрии, где элементы с четным индексом равны нулю. То есть это половина входного ДПФ , где преобразование for и DCT -II также возможно с использованием сигнала 2 $N$ с последующим умножением на половину сдвига. Это демонстрирует Махул . $4N$ $4N$ $y_{n},$ $y_{2n}=0,$ $y_{2n+1}=x_{n}$ $0\leq n<N,$ $y_{2N}=0,$ $y_{4N-n}=y_{n}$ $0<n<2N.$

Некоторые авторы дополнительно умножают этот термин на общий масштабный коэффициент, а остальную часть матрицы умножают на общий масштабный коэффициент (соответствующее изменение в DCT-III см. ниже). Это делает матрицу DCT-II ортогональной , но нарушает прямое соответствие с действительно-четным ДПФ полусдвинутого входного сигнала. Это нормализация, которую использует Matlab , например, см. ^[99] Во многих приложениях, таких как JPEG , масштабирование является произвольным, поскольку масштабные коэффициенты могут быть объединены с последующим вычислительным этапом (например, этапом квантования в JPEG ^[100] ), и может быть выбрано масштабирование, позволяющее вычисляется с меньшим количеством умножений. ^[101]^[102] $X_{0}$ $1/{\sqrt {N\,}}\,$ ${\textstyle {\sqrt {{2}/{N}}}}$

DCT-II подразумевает граничные условия: четно и четно примерно четно и нечетно примерно $x_{n}$ $n=-1/2$ $n=N-1/2\,;$ $X_{k}$ $k=0$ $k=N.$

ДКП-III

X_{k}={\tfrac {1}{2}}x_{0}+\sum _{n=1}^{N-1}x_{n}\cos \left[\,{\tfrac {\,\pi \,}{N}}\left(k+{\tfrac {1}{2}}\right)n\,\right]\qquad {\text{ for }}~k=0,\ \ldots \ N-1~.

Поскольку это инверсия DCT-II с точностью до масштабного коэффициента (см. Ниже), эту форму иногда называют просто «обратным DCT» («IDCT»). ^[6]

Некоторые авторы делят термин на 2, а не на 2 (что дает общий термин) и умножают полученную матрицу на общий масштабный коэффициент (соответствующее изменение в DCT-II см. выше), так что DCT-II и DCT- III являются транспонированием друг друга. Это делает матрицу DCT-III ортогональной , но нарушает прямое соответствие с действительно-четным ДПФ полусмещенного выходного сигнала. $x_{0}$ ${\sqrt {2}}$ $x_{0}/{\sqrt {2}}$ ${\textstyle {\sqrt {2/N}}}$

DCT-III предполагает граничные условия: четно и нечетно, четно и четно. $x_{n}$ $n=0$ $n=N;$ $X_{k}$ $k=-1/2$ $k=N-1/2.$

ДКП-IV

X_{k}=\sum _{n=0}^{N-1}x_{n}\cos \left[\,{\tfrac {\,\pi \,}{N}}\,\left(n+{\tfrac {1}{2}}\right)\left(k+{\tfrac {1}{2}}\right)\,\right]\qquad {\text{ for }}k=0,\ \ldots \ N-1~.

Матрица DCT-IV становится ортогональной (и, таким образом, будучи явно симметричной, является собственной обратной), если ее дополнительно умножить на общий масштабный коэффициент ${\textstyle {\sqrt {2/N}}.}$

Вариант DCT-IV, в котором данные разных преобразований перекрываются , называется модифицированным дискретным косинусным преобразованием (MDCT). ^[103]

DCT-IV подразумевает граничные условия: примерно четно и нечетно аналогично для $x_{n}$ $n=-1/2$ $n=N-1/2;$ $X_{k}.$

ДКП V-VIII

ДКП типов I–IV рассматривают обе границы последовательно с точки зрения точки симметрии: они являются четными/нечетными либо вокруг точки данных для обеих границ, либо на полпути между двумя точками данных для обеих границ. Напротив, ДКП типов V-VIII подразумевают границы, которые являются четными/нечетными вокруг точки данных для одной границы и на полпути между двумя точками данных для другой границы.

Другими словами, типы ДКП I–IV эквивалентны действительно-четным ДПФ четного порядка (независимо от того, является ли оно четным или нечетным), поскольку соответствующее ДПФ имеет длину (для ДКП-I) или (для ДКП-II и III). ) или (для DCT-IV). Четыре дополнительных типа дискретного косинусного преобразования ^[104] по существу соответствуют вещественно-четным ДПФ логически нечетного порядка, которые имеют множители в знаменателях косинусных аргументов. $N$ $2(N-1)$ $4N$ $8N$ $N\pm {1}/{2}$

Однако эти варианты, похоже, редко используются на практике. Одна из причин, возможно, заключается в том, что алгоритмы БПФ для ДПФ нечетной длины обычно более сложны, чем алгоритмы БПФ для ДПФ четной длины (например, самые простые алгоритмы по основанию 2 предназначены только для четных длин), и эта повышенная сложность переносится и на ДКП. как описано ниже.

(Тривиальный вещественно-четный массив, ДПФ длины один (нечетная длина) одного числа $a$ , соответствует DCT-V длины ) $N=1.$

Обратные преобразования

Используя приведенные выше соглашения о нормализации, обратным DCT-I является DCT-I, умноженный на 2/( N - 1). Обратным DCT-IV является DCT-IV, умноженный на 2/ N . Обратное значение DCT-II — это DCT-III, умноженное на 2/ N , и наоборот. ^[6]

Как и в случае с ДПФ , коэффициент нормализации перед этими определениями преобразования является просто соглашением и различается в зависимости от обработки. Например, некоторые авторы умножают преобразования на, чтобы обратное не требовало каких-либо дополнительных мультипликативных коэффициентов. В сочетании с соответствующими коэффициентами √ 2 (см. выше) это можно использовать для того, чтобы сделать матрицу преобразования ортогональной . ${\textstyle {\sqrt {2/N}}}$

Многомерные ДКП

Многомерные варианты различных типов ДКП непосредственно следуют из одномерных определений: они просто представляют собой отделимый продукт (эквивалентно композицию) ДКП по каждому измерению.

МД ДКТ-II

Например, двумерный DCT-II изображения или матрицы — это просто одномерный DCT-II сверху, выполняемый по строкам, а затем по столбцам (или наоборот). То есть 2D DCT-II задается формулой (без учета нормализации и других масштабных коэффициентов, как указано выше):

{\begin{aligned}X_{k_{1},k_{2}}&=\sum _{n_{1}=0}^{N_{1}-1}\left(\sum _{n_{2}=0}^{N_{2}-1}x_{n_{1},n_{2}}\cos \left[{\frac {\pi }{N_{2}}}\left(n_{2}+{\frac {1}{2}}\right)k_{2}\right]\right)\cos \left[{\frac {\pi }{N_{1}}}\left(n_{1}+{\frac {1}{2}}\right)k_{1}\right]\\&=\sum _{n_{1}=0}^{N_{1}-1}\sum _{n_{2}=0}^{N_{2}-1}x_{n_{1},n_{2}}\cos \left[{\frac {\pi }{N_{1}}}\left(n_{1}+{\frac {1}{2}}\right)k_{1}\right]\cos \left[{\frac {\pi }{N_{2}}}\left(n_{2}+{\frac {1}{2}}\right)k_{2}\right].\end{aligned}}

Обратное многомерное ДКП - это просто разделяемое произведение обратных значений соответствующих одномерных ДКП (см. Выше), например, одномерные обратные значения, применяемые по одному измерению за раз в алгоритме строка-столбец.

3 -D DCT-II является лишь расширением 2-D DCT-II в трехмерном пространстве и математически может быть рассчитан по формуле

X_{k_{1},k_{2},k_{3}}=\sum _{n_{1}=0}^{N_{1}-1}\sum _{n_{2}=0}^{N_{2}-1}\sum _{n_{3}=0}^{N_{3}-1}x_{n_{1},n_{2},n_{3}}\cos \left[{\frac {\pi }{N_{1}}}\left(n_{1}+{\frac {1}{2}}\right)k_{1}\right]\cos \left[{\frac {\pi }{N_{2}}}\left(n_{2}+{\frac {1}{2}}\right)k_{2}\right]\cos \left[{\frac {\pi }{N_{3}}}\left(n_{3}+{\frac {1}{2}}\right)k_{3}\right],\quad {\text{for }}k_{i}=0,1,2,\dots ,N_{i}-1.

Обратной 3-D DCT-II является 3-D DCT-III , и ее можно вычислить по формуле:

x_{n_{1},n_{2},n_{3}}=\sum _{k_{1}=0}^{N_{1}-1}\sum _{k_{2}=0}^{N_{2}-1}\sum _{k_{3}=0}^{N_{3}-1}X_{k_{1},k_{2},k_{3}}\cos \left[{\frac {\pi }{N_{1}}}\left(n_{1}+{\frac {1}{2}}\right)k_{1}\right]\cos \left[{\frac {\pi }{N_{2}}}\left(n_{2}+{\frac {1}{2}}\right)k_{2}\right]\cos \left[{\frac {\pi }{N_{3}}}\left(n_{3}+{\frac {1}{2}}\right)k_{3}\right],\quad {\text{for }}n_{i}=0,1,2,\dots ,N_{i}-1.

Технически вычисление двух-, трех- (или многомерного) ДКП с помощью последовательностей одномерных ДКП вдоль каждого измерения известно как алгоритм строки-столбца . Однако, как и в случае с многомерными алгоритмами БПФ , существуют другие методы вычисления того же самого, выполняя вычисления в другом порядке (т.е. чередование/комбинирование алгоритмов для разных измерений). В связи с быстрым ростом приложений, основанных на 3-D DCT, разработано несколько быстрых алгоритмов для расчета 3-D DCT-II. Алгоритмы Vector-Radix применяются для вычисления MD DCT для уменьшения вычислительной сложности и увеличения скорости вычислений. Для эффективного расчета 3-D DCT-II был разработан быстрый алгоритм векторно-радиксного децимации по частоте (VR DIF).

3-D DCT-II VR DIF

Для применения алгоритма VR DIF входные данные необходимо сформулировать и переупорядочить следующим образом. ^[105]^[106] Предполагается, что размер преобразования N × N × N равен 2.

{\begin{array}{lcl}{\tilde {x}}(n_{1},n_{2},n_{3})=x(2n_{1},2n_{2},2n_{3})\\{\tilde {x}}(n_{1},n_{2},N-n_{3}-1)=x(2n_{1},2n_{2},2n_{3}+1)\\{\tilde {x}}(n_{1},N-n_{2}-1,n_{3})=x(2n_{1},2n_{2}+1,2n_{3})\\{\tilde {x}}(n_{1},N-n_{2}-1,N-n_{3}-1)=x(2n_{1},2n_{2}+1,2n_{3}+1)\\{\tilde {x}}(N-n_{1}-1,n_{2},n_{3})=x(2n_{1}+1,2n_{2},2n_{3})\\{\tilde {x}}(N-n_{1}-1,n_{2},N-n_{3}-1)=x(2n_{1}+1,2n_{2},2n_{3}+1)\\{\tilde {x}}(N-n_{1}-1,N-n_{2}-1,n_{3})=x(2n_{1}+1,2n_{2}+1,2n_{3})\\{\tilde {x}}(N-n_{1}-1,N-n_{2}-1,N-n_{3}-1)=x(2n_{1}+1,2n_{2}+1,2n_{3}+1)\\\end{array}}

где

0\leq n_{1},n_{2},n_{3}\leq {\frac {N}{2}}-1

На рисунке рядом показаны четыре этапа, которые участвуют в расчете 3-D DCT-II с использованием алгоритма VR DIF. Первый этап — это трехмерное переупорядочение с использованием индексного отображения, иллюстрируемого приведенными выше уравнениями. Второй этап – расчет бабочки. Каждая бабочка вычисляет вместе восемь точек, как показано на рисунке чуть ниже, где . $c(\varphi _{i})=\cos(\varphi _{i})$

Исходный 3-D DCT-II теперь можно записать как

X(k_{1},k_{2},k_{3})=\sum _{n_{1}=1}^{N-1}\sum _{n_{2}=1}^{N-1}\sum _{n_{3}=1}^{N-1}{\tilde {x}}(n_{1},n_{2},n_{3})\cos(\varphi k_{1})\cos(\varphi k_{2})\cos(\varphi k_{3})

где $\varphi _{i}={\frac {\pi }{2N}}(4N_{i}+1),{\text{ and }}i=1,2,3.$

Если учитывать четные и нечетные части и и, общую формулу для расчета 3-D DCT-II можно выразить как $k_{1},k_{2}$ $k_{3}$

X(k_{1},k_{2},k_{3})=\sum _{n_{1}=1}^{{\tfrac {N}{2}}-1}\sum _{n_{2}=1}^{{\tfrac {N}{2}}-1}\sum _{n_{1}=1}^{{\tfrac {N}{2}}-1}{\tilde {x}}_{ijl}(n_{1},n_{2},n_{3})\cos(\varphi (2k_{1}+i)\cos(\varphi (2k_{2}+j)\cos(\varphi (2k_{3}+l))

где

{\tilde {x}}_{ijl}(n_{1},n_{2},n_{3})={\tilde {x}}(n_{1},n_{2},n_{3})+(-1)^{l}{\tilde {x}}\left(n_{1},n_{2},n_{3}+{\frac {n}{2}}\right)

+(-1)^{j}{\tilde {x}}\left(n_{1},n_{2}+{\frac {n}{2}},n_{3}\right)+(-1)^{j+l}{\tilde {x}}\left(n_{1},n_{2}+{\frac {n}{2}},n_{3}+{\frac {n}{2}}\right)

+(-1)^{i}{\tilde {x}}\left(n_{1}+{\frac {n}{2}},n_{2},n_{3}\right)+(-1)^{i+j}{\tilde {x}}\left(n_{1}+{\frac {n}{2}}+{\frac {n}{2}},n_{2},n_{3}\right)

+(-1)^{i+l}{\tilde {x}}\left(n_{1}+{\frac {n}{2}},n_{2},n_{3}+{\frac {n}{3}}\right)

+(-1)^{i+j+l}{\tilde {x}}\left(n_{1}+{\frac {n}{2}},n_{2}+{\frac {n}{2}},n_{3}+{\frac {n}{2}}\right){\text{ where }}i,j,l=0{\text{ or }}1.

Арифметическая сложность

Весь расчет трехмерного DCT состоит из этапов, и на каждом этапе есть «бабочки». Весь трехмерный DCT требует расчета бабочек. Для каждой бабочки требуется семь действительных умножений (включая тривиальные умножения) и 24 действительных сложения (включая тривиальные сложения). Следовательно, общее количество действительных умножений, необходимых для этого этапа, и общее количество действительных сложений, т. е. включая постсложения (рекурсивные сложения), которые могут быть рассчитаны непосредственно после этапа «бабочка» или после этапа реверса битов, определяются выражением ^{[ 106]} $~[\log _{2}N]~$ $~{\tfrac {1}{8}}\ N^{3}~$ $~\left[{\tfrac {1}{8}}\ N^{3}\log _{2}N\right]~$ $~\left[{\tfrac {7}{8}}\ N^{3}\ \log _{2}N\right]~,$ $~\underbrace {\left[{\frac {3}{2}}N^{3}\log _{2}N\right]} _{\text{Real}}+\underbrace {\left[{\frac {3}{2}}N^{3}\log _{2}N-3N^{3}+3N^{2}\right]} _{\text{Recursive}}=\left[{\frac {9}{2}}N^{3}\log _{2}N-3N^{3}+3N^{2}\right]~.$

Традиционный метод расчета MD-DCT-II использует подход «строка-столбец-кадр» (RCF), который является вычислительно сложным и менее производительным на большинстве современных аппаратных платформ. Количество умножений, необходимых для вычисления алгоритма VR DIF по сравнению с алгоритмом RCF, довольно велико. Количество умножений и сложений, используемых в подходе RCF, определяется как и соответственно. Из таблицы 1 видно, что общее количество $~\left[{\frac {3}{2}}N^{3}\log _{2}N\right]~$ $~\left[{\frac {9}{2}}N^{3}\log _{2}N-3N^{3}+3N^{2}\right]~,$

умножений, связанных с алгоритмом 3-D DCT VR, меньше, чем с использованием подхода RCF, более чем на 40%. Кроме того, подход RCF включает в себя транспонирование матрицы и большее количество индексации и обмена данными, чем новый алгоритм VR. Это делает алгоритм 3-D DCT VR более эффективным и лучше подходит для 3-D приложений, в которых используется 3-D DCT-II, таких как сжатие видео и другие приложения обработки трехмерных изображений.

Основным соображением при выборе быстрого алгоритма является избежание вычислительных и структурных сложностей. По мере развития технологий компьютеров и DSP время выполнения арифметических операций (умножения и сложения) становится очень быстрым, и наиболее важным фактором становится регулярная вычислительная структура. ^[107] Таким образом, хотя предложенный выше алгоритм 3-D VR не достигает теоретической нижней границы количества умножений, ^[108] он имеет более простую вычислительную структуру по сравнению с другими алгоритмами 3-D DCT. Его можно реализовать на месте с использованием одной бабочки, и он обладает свойствами алгоритма БПФ Кули – Тьюки в 3D. Следовательно, 3-D VR представляет собой хороший выбор для сокращения арифметических операций при расчете 3-D DCT-II, сохраняя при этом простую структуру, которая характеризует алгоритмы БПФ Кули-Тьюки типа «бабочка» .

Изображение справа показывает комбинацию горизонтальных и вертикальных частот для двумерного DCT 8 × 8 . Каждый шаг слева направо и сверху вниз — это увеличение частоты на 1/2 цикла. Например, перемещение вправо от верхнего левого квадрата приводит к увеличению горизонтальной частоты на полпериода. Еще одно движение вправо дает два полупериода. Движение вниз дает два полупериода по горизонтали и полупериод по вертикали. Исходные данные (8×8) преобразуются в линейную комбинацию этих 64 частотных квадратов. $(~N_{1}=N_{2}=8~)$

МД-ДКП-IV

MD DCT-IV — это просто расширение 1-D DCT-IV на $М-$ мерную область. 2D DCT-IV матрицы или изображения определяется выражением

X_{k,\ell }=\sum _{n=0}^{N-1}\;\sum _{m=0}^{M-1}\ x_{n,m}\cos \left(\ {\frac {\,(2m+1)(2k+1)\ \pi \,}{4N}}\ \right)\cos \left(\ {\frac {\,(2n+1)(2\ell +1)\ \pi \,}{4M}}\ \right)~,

для и

~~k=0,\ 1,\ 2\ \ldots \ N-1~~

~~\ell =0,\ 1,\ 2,\ \ldots \ M-1~.

Мы можем вычислить MD DCT-IV, используя обычный метод строк-столбцов, или мы можем использовать метод полиномиального преобразования ^[109] для быстрых и эффективных вычислений. Основная идея этого алгоритма состоит в том, чтобы использовать полиномиальное преобразование для прямого преобразования многомерного ДКП в серию одномерных ДКП. MD DCT-IV также имеет несколько применений в различных областях.

Вычисление

Хотя прямое применение этих формул потребует операций, то же самое можно вычислить, только усложнив, путем факторизации вычислений аналогично быстрому преобразованию Фурье (БПФ). Можно также вычислить ДКП с помощью БПФ в сочетании с этапами предварительной и постобработки. В общем, методы вычисления DCT известны как алгоритмы быстрого косинусного преобразования (FCT). $~{\mathcal {O}}(N^{2})~$ $~{\mathcal {O}}(N\log N)~$ $~{\mathcal {O}}(N)~$ $~{\mathcal {O}}(N\log N)~$

В принципе, наиболее эффективными алгоритмами обычно являются те, которые специализируются непосредственно на ДКП, а не на использовании обычного БПФ плюс дополнительных операций (исключение см. ниже). Однако даже «специализированные» алгоритмы ДКП (включая все те, которые достигают наименьших известных арифметических значений, по крайней мере, для размеров степени двойки ) обычно тесно связаны с алгоритмами БПФ, поскольку ДКП по сути представляют собой ДПФ вещественно-четных данных. можно разработать быстрый алгоритм ДКП, приняв БПФ и исключив избыточные операции из-за этой симметрии. Это можно сделать даже автоматически (Frigo & Johnson 2005). Наиболее распространены алгоритмы, основанные на алгоритме БПФ Кули-Тьюки , но применим и любой другой алгоритм БПФ. Например, алгоритм БПФ Винограда приводит к алгоритмам минимального умножения для ДПФ, хотя обычно за счет большего количества сложений, и аналогичный алгоритм был предложен (Фейг и Виноград 1992а) для ДКП. Поскольку алгоритмы ДПФ, ДКП и подобных преобразований очень тесно связаны, любое улучшение алгоритмов одного преобразования теоретически приведет к немедленным улучшениям и для других преобразований (Дюамель и Веттерли, 1990). $~{\mathcal {O}}(N)~$

Хотя алгоритмы ДКП, использующие немодифицированное БПФ, часто имеют некоторые теоретические накладные расходы по сравнению с лучшими специализированными алгоритмами ДКП, у первых также есть явное преимущество: широко доступны высокооптимизированные программы БПФ. Таким образом, на практике часто легче получить высокую производительность для общих длин $N$ с помощью алгоритмов на основе БПФ. ^[a] С другой стороны, специализированные алгоритмы DCT широко используются для преобразований небольших фиксированных размеров, таких как DCT-II 8 × 8, используемый при сжатии JPEG , или небольшие DCT (или MDCT), обычно используемые при сжатии звука. (Уменьшенный размер кода также может быть причиной использования специализированного DCT для приложений встроенных устройств.)

Фактически, даже алгоритмы ДКП, использующие обычное БПФ, иногда эквивалентны удалению избыточных операций из более крупного БПФ вещественно-симметричных данных, и они даже могут быть оптимальными с точки зрения арифметических вычислений. Например, ДКП типа II эквивалентно ДПФ размера с вещественно-четной симметрией, элементы которого с четным индексом равны нулю. Один из наиболее распространенных методов вычисления этого значения с помощью БПФ (например, метод, используемый в FFTPACK и FFTW ) был описан Нарасимхой и Петерсоном (1978) и Махоулом (1980), и этот метод, оглядываясь назад, можно рассматривать как один шаг Алгоритм Кули – Тьюки с прореживанием во времени по основанию 4, примененный к «логическому» действительно-четному ДПФ, соответствующему DCT-II. ^[b] Поскольку элементы с четным индексом равны нулю, этот шаг по основанию 4 точно такой же, как шаг разделения системы счисления. Если последующее БПФ реальных данных размера также выполняется с помощью алгоритма разделения счисления реальных данных (как в Соренсене и др. (1987)), то результирующий алгоритм фактически соответствует тому, что долгое время было наименьшим опубликованным арифметическим счетчиком для степени из двух DCT-II ( операции вещественной арифметики ^[c] ). $~4N~$ $~N~$ $~2N\log _{2}N-N+2~$

Недавнее сокращение количества операций также использует БПФ реальных данных. ^[110] Таким образом, нет ничего плохого в вычислении ДКП посредством БПФ с арифметической точки зрения – иногда это просто вопрос того, является ли соответствующий алгоритм БПФ оптимальным. (На практике накладные расходы на вызов функций при вызове отдельной процедуры БПФ могут быть значительными для небольших систем, но это скорее вопрос реализации, чем алгоритмический вопрос, поскольку его можно решить путем развертывания или встраивания.) $~{\tfrac {17}{9}}N\log _{2}N+{\mathcal {O}}(N)$ $~N~,$

Пример IDCT

Рассмотрим это изображение заглавной буквы А размером 8x8 в оттенках серого.

Исходный размер, масштаб в 10 раз (ближайший сосед), масштаб в 10 раз (билинейный).

{\displaystyle {\begin{bmatrix}6.1917&-0.3411&1.2418&0.1492&0.1583&0.2742&-0.0724&0.0561\\0.2205&0.0214&0.4503&0.3947&-0.7846&-0.4391&0.1001 &-0.2554\\1.0423 &0.2214&-1.0017&-0.2720&0.0789&-0.1952&0.2801&0.4713\\-0.2340&-0.0392&-0.2617&-0.2866&0.6351&0.3501&-0.1433&0.3550\\0.2750&0 .0226&0,1229&0. 2183&-0.2583&-0.0742&-0.2042&-0.5906\\0.0653&0.0428&-0.4721&-0.2905&0.4745&0.2875&-0.0284&-0.1311\\0.3169&0.0541&-0.1033&-0 .0225&-0,0056&0,1017& -0.1650&-0.1500\\-0.2970&-0.0627&0.1960&0.0644&-0.1136&-0.1031&0.1887&0.1444\\\end{bmatrix}}} — Базисные функции дискретного косинусного преобразования с соответствующими коэффициентами (специфичными для нашего изображения).
ДКП изображения = . ${\begin{bmatrix}6.1917&-0.3411&1.2418&0.1492&0.1583&0.2742&-0.0724&0.0561\\0.2205&0.0214&0.4503&0.3947&-0.7846&-0.4391&0.1001&-0.2554\\1.0423&0.2214&-1.0017&-0.2720&0.0789&-0.1952&0.2801&0.4713\\-0.2340&-0.0392&-0.2617&-0.2866&0.6351&0.3501&-0.1433&0.3550\\0.2750&0.0226&0.1229&0.2183&-0.2583&-0.0742&-0.2042&-0.5906\\0.0653&0.0428&-0.4721&-0.2905&0.4745&0.2875&-0.0284&-0.1311\\0.3169&0.0541&-0.1033&-0.0225&-0.0056&0.1017&-0.1650&-0.1500\\-0.2970&-0.0627&0.1960&0.0644&-0.1136&-0.1031&0.1887&0.1444\\\end{bmatrix}}$

Каждая базисная функция умножается на свой коэффициент, а затем это произведение добавляется к окончательному изображению.

Слева финальное изображение. В середине находится взвешенная функция (умноженная на коэффициент), которая добавляется к окончательному изображению. Справа — текущая функция и соответствующий коэффициент. Изображения масштабируются (с использованием билинейной интерполяции) в 10 раз.

Смотрите также

Дискретное вейвлет-преобразование
JPEG — Дискретное косинусное преобразование — содержит потенциально более простой для понимания пример преобразования DCT.
Список преобразований, связанных с Фурье
Модифицированное дискретное косинусное преобразование

Примечания

^ Алгоритмическая производительность на современном оборудовании обычно не определяется простыми арифметическими вычислениями, и оптимизация требует значительных инженерных усилий, чтобы наилучшим образом использовать, в пределах присущих ей ограничений, доступную встроенную аппаратную оптимизацию.
^ Шаг по основанию 4 уменьшает размер ДПФ до четырех размеров ДПФ реальных данных, два из которых равны нулю, а два из которых равны друг другу по четной симметрии. Следовательно, мы предоставляем БПФ одного размера реальных данных плюс бабочек после того, как тривиальные и/или повторяющиеся части будут удалены и/или объединены. $~4N~$ $~N~$ $~N~$ $~{\mathcal {O}}(N)~$
^ Точное количество действительных арифметических операций, и в частности количество действительных умножений, в некоторой степени зависит от масштабирования определения преобразования. Подсчет приведен для определения DCT-II, показанного здесь; два умножения можно сохранить, если преобразование масштабируется на общий коэффициент. Дополнительные умножения можно сохранить, если разрешить индивидуальное масштабирование результатов преобразования, как было показано Араи, Агуи и Накадзимой (1988) для случая размера 8, используемого в JPEG. $~2N\log _{2}N-N+2~$ ${\sqrt {2}}$

дальнейшее чтение

Нарасимха, М.; Петерсон, А. (июнь 1978 г.). «О вычислении дискретного косинусного преобразования». Транзакции IEEE в области коммуникаций . 26 (6): 934–936. дои : 10.1109/TCOM.1978.1094144.
Махул, Дж. (февраль 1980 г.). «Быстрое косинусное преобразование в одном и двух измерениях». Транзакции IEEE по акустике, речи и обработке сигналов . 28 (1): 27–34. дои :10.1109/ТАССП.1980.1163351.
Соренсен, Х.; Джонс, Д.; Хайдеман, М.; Буррус, К. (июнь 1987 г.). «Алгоритмы быстрого преобразования Фурье с действительными значениями». Транзакции IEEE по акустике, речи и обработке сигналов . 35 (6): 849–863. CiteSeerX 10.1.1.205.4523 . дои :10.1109/ТАССП.1987.1165220.
Плонка, Г. ; Таше, М. (январь 2005 г.). «Быстрые и численно устойчивые алгоритмы дискретных косинусных преобразований». Линейная алгебра и ее приложения . 394 (1): 309–345. дои : 10.1016/j.laa.2004.07.015 .
Дюамель, П.; Веттерли, М. (апрель 1990 г.). «Быстрое преобразование Фурье: обзор учебного пособия и современное состояние». Обработка сигналов (Представленная рукопись). 19 (4): 259–299. дои : 10.1016/0165-1684(90)90158-U.
Ахмед, Н. (январь 1991 г.). «Как я придумал дискретное косинусное преобразование». Цифровая обработка сигналов . 1 (1): 4–9. дои : 10.1016/1051-2004(91)90086-Z.
Фиг, Э.; Виноград, С. (сентябрь 1992b). «Быстрые алгоритмы дискретного косинусного преобразования». Транзакции IEEE по обработке сигналов . 40 (9): 2174–2193. Бибкод : 1992ITSP...40.2174F. дои : 10.1109/78.157218.
Малвар, Энрике (1992), Обработка сигналов с перекрывающимися преобразованиями , Бостон: Artech House, ISBN 978-0-89006-467-2
Мартуччи, Ю.А. (май 1994 г.). «Симметричная свертка и дискретные синусоидальные и косинусные преобразования». Транзакции IEEE по обработке сигналов . 42 (5): 1038–1051. Бибкод : 1994ITSP...42.1038M. дои : 10.1109/78.295213.
Оппенгейм, Алан; Шафер, Рональд; Бак, Джон (1999), Обработка сигналов в дискретном времени (2-е изд.), Аппер-Сэддл-Ривер, Нью-Джерси: Прентис-Холл, ISBN 978-0-13-754920-7
Фриго, М.; Джонсон, С.Г. (февраль 2005 г.). «Проектирование и реализация FFTW3» (PDF) . Труды IEEE . 93 (2): 216–231. Бибкод : 2005IEEP..93..216F. CiteSeerX 10.1.1.66.3097 . doi :10.1109/JPROC.2004.840301. S2CID 6644892.
Буссакта, Саид.; Альшибами, Хамуд О. (апрель 2004 г.). «Быстрый алгоритм для 3-D DCT-II» (PDF) . Транзакции IEEE по обработке сигналов . 52 (4): 992–1000. Бибкод : 2004ITSP...52..992B. дои :10.1109/TSP.2004.823472. S2CID 3385296.
Ченг, LZ; Цзэн, Ю.Х. (2003). «Новый быстрый алгоритм для многомерного ДКП типа IV». Транзакции IEEE по обработке сигналов . 51 (1): 213–220. дои :10.1109/TSP.2002.806558.
Вэнь-Сюн Чен; Смит, К.; Фралик, С. (сентябрь 1977 г.). «Быстрый вычислительный алгоритм дискретного косинусного преобразования». Транзакции IEEE в области коммуникаций . 25 (9): 1004–1009. дои : 10.1109/TCOM.1977.1093941.
Пресс, WH; Теукольский, С.А.; Феттерлинг, WT; Фланнери, BP (2007), «Раздел 12.4.2. Косинусное преобразование», Численные рецепты: искусство научных вычислений (3-е изд.), Нью-Йорк: Cambridge University Press, ISBN 978-0-521-88068-8, заархивировано из оригинала 11 августа 2011 г. , получено 13 августа 2011 г.

Внешние ссылки

Викискладе есть медиафайлы, связанные с дискретным косинусным преобразованием .

Сайед Али Хайям: Дискретное косинусное преобразование (ДКП): теория и применение
Реализация целочисленной аппроксимации MPEG IDCT 8x8 (ISO/IEC 23002-2)
Маттео Фриго и Стивен Дж. Джонсон : FFTW , домашняя страница FFTW. Бесплатная ( GPL ) библиотека C, которая может вычислять быстрые DCT (типы I-IV) в одном или нескольких измерениях произвольного размера.
Такуя Оура: пакет БПФ общего назначения, пакет БПФ 1/2 размера. Бесплатные библиотеки C и FORTRAN для вычисления быстрых DCT (типов II–III) в одном, двух или трех измерениях, степень двойки.
Тим Кинцл: Быстрые алгоритмы для вычисления 8-точечного DCT и IDCT, Аллея алгоритмов.
LTFAT — это бесплатный набор инструментов Matlab/Octave с интерфейсами для реализации FFTW DCT и DST типов I–IV.