stringtranslate.com

Верность визуальной информации

Верность визуальной информации ( VIF ) — это полный индекс оценки качества изображения , основанный на статистике естественной сцены и понятии информации об изображении, извлекаемой зрительной системой человека . [1] Он был разработан Хамидом Р. Шейхом и Аланом Бовиком в Лаборатории инженерии изображений и видео (LIVE) Техасского университета в Остине в 2006 году. Он развернут в ядре системы мониторинга качества видео Netflix VMAF , которая контролирует качество изображения всех закодированных видео, транслируемых Netflix.

Обзор модели

Изображения и видео трехмерных визуальных сред происходят из общего класса: класса естественных сцен. Естественные сцены из крошечного подпространства в пространстве всех возможных сигналов, и исследователи разработали сложные модели для характеристики этой статистики. Большинство реальных процессов искажения нарушают эту статистику и делают изображение или видеосигналы неестественными. Индекс VIF использует статистические модели естественной сцены (NSS) в сочетании с моделью искажения (канала) для количественной оценки информации, которой обмениваются тестовые и эталонные изображения. Кроме того, индекс VIF основан на гипотезе о том, что эта общая информация является аспектом точности, который хорошо соотносится с визуальным качеством. В отличие от предыдущих подходов, основанных на чувствительности к ошибкам зрительной системы человека (HVS) и измерении структуры, [2] этот статистический подход, используемый в информационно-теоретической обстановке, дает метод оценки качества (QA) полного эталона (FR) , который не полагается ни на какой параметр HVS или геометрии просмотра, ни на какие-либо константы, требующие оптимизации, и при этом является конкурентоспособным с современными методами QA. [3]

В частности, эталонное изображение моделируется как выход стохастического « естественного» источника, который проходит через канал HVS и позже обрабатывается мозгом. Информационное содержание эталонного изображения количественно определяется как взаимная информация между входом и выходом канала HVS. Это информация, которую мозг в идеале мог бы извлечь из выхода HVS. Затем та же мера количественно определяется в присутствии канала искажения изображения, который искажает выход естественного источника до того, как он пройдет через канал HVS, тем самым измеряя информацию, которую мозг в идеале мог бы извлечь из тестового изображения. Это наглядно показано на рисунке 1. Затем две информационные меры объединяются для формирования меры точности визуальной информации, которая связывает визуальное качество с относительной информацией изображения.

Рисунок 1

Модель системы

Исходная модель

Гауссовская масштабная смесь (GSM) используется для статистического моделирования вейвлет-коэффициентов управляемой пирамидальной декомпозиции изображения. [4] Модель описана ниже для заданного поддиапазона многомасштабной многоориентационной декомпозиции и может быть расширена на другие поддиапазоны аналогичным образом. Пусть вейвлет-коэффициенты в заданном поддиапазоне будут , где обозначает набор пространственных индексов по поддиапазону, а каждый является размерным вектором . Поддиапазон разделен на неперекрывающиеся блоки коэффициентов каждый, где каждый блок соответствует . Согласно модели GSM, где является положительным скаляром , а является гауссовым вектором со средним нулевым значением и ковариацией . Далее предполагается, что неперекрывающиеся блоки независимы друг от друга, и что случайное поле не зависит от .

Модель искажения

Процесс искажения моделируется с использованием комбинации затухания сигнала и аддитивного шума в вейвлет- домене. Математически, если обозначает случайное поле из заданного поддиапазона искаженного изображения, является детерминированным скалярным полем и , где является нулевым средним гауссовым вектором с ковариацией , то

Кроме того, моделируется как независимый от и .

модель HVS

Двойственность моделей HVS и NSS подразумевает, что несколько аспектов HVS уже учтены в исходной модели. Здесь HVS дополнительно моделируется на основе гипотезы о том, что неопределенность в восприятии визуальных сигналов ограничивает объем информации, которую можно извлечь из источника и искаженного изображения. Этот источник неопределенности может быть смоделирован как визуальный шум в модели HVS. В частности, шум HVS в заданном поддиапазоне вейвлет-разложения моделируется как аддитивный белый гауссовский шум. Пусть и будут случайными полями, где и будут нулевыми средними гауссовыми векторами с ковариацией и . Далее, пусть и обозначим визуальный сигнал на выходе HVS. Математически мы имеем и . Отметим, что и являются случайными полями , которые не зависят от , и .

индекс ВИФ

Пусть обозначает вектор всех блоков из заданного поддиапазона. Пусть и определяются аналогично. Пусть обозначает оценку максимального правдоподобия заданных и . Количество информации, извлеченной из ссылки, получается как

в то время как количество информации, извлеченной из тестового изображения, определяется как

Обозначая блоки в поддиапазоне вейвлет-разложения через , и аналогично для других переменных, индекс VIF определяется как

Производительность

Коэффициент корреляции рангов Спирмена (SROCC) между индексными оценками VIF искаженных изображений в базе данных оценки качества изображений LIVE и соответствующими оценками человеческого мнения оценивается в 0,96. [ необходима ссылка ]

Ссылки

  1. ^ Шейх, Хамид; Бовик, Алан (2006). «Информация об изображении и визуальное качество». Труды IEEE по обработке изображений . 15 (2): 430–444. Bibcode : 2006ITIP...15..430S. doi : 10.1109/tip.2005.859378. PMID  16479813.
  2. ^ Ван, Чжоу; Бовик, Алан; Шейх, Хамид; Симончелли, Ээро (2004). «Оценка качества изображения: от видимости ошибок до структурного сходства». Труды IEEE по обработке изображений . 13 (4): 600–612. Bibcode : 2004ITIP...13..600W. doi : 10.1109/tip.2003.819861. PMID  15376593. S2CID  207761262.
  3. ^ Шейх, Хамид Р. «Информация об изображении и визуальное качество». Техасский университет . Получено 15 апреля 2024 г.
  4. ^ Симончелли, Ээро; Фримен, Уильям (1995). «Управляемая пирамида: гибкая архитектура для многомасштабных производных вычислений». Труды., Международная конференция по обработке изображений . Том 3. С. 444–447. doi :10.1109/ICIP.1995.537667. ISBN 0-7803-3122-2. S2CID  1099364.

Внешние ссылки