Верность визуальной информации ( VIF ) — это полный индекс оценки качества изображения , основанный на статистике естественной сцены и понятии информации об изображении, извлекаемой зрительной системой человека . [1] Он был разработан Хамидом Р. Шейхом и Аланом Бовиком в Лаборатории инженерии изображений и видео (LIVE) Техасского университета в Остине в 2006 году. Он развернут в ядре системы мониторинга качества видео Netflix VMAF , которая контролирует качество изображения всех закодированных видео, транслируемых Netflix.
Изображения и видео трехмерных визуальных сред происходят из общего класса: класса естественных сцен. Естественные сцены из крошечного подпространства в пространстве всех возможных сигналов, и исследователи разработали сложные модели для характеристики этой статистики. Большинство реальных процессов искажения нарушают эту статистику и делают изображение или видеосигналы неестественными. Индекс VIF использует статистические модели естественной сцены (NSS) в сочетании с моделью искажения (канала) для количественной оценки информации, которой обмениваются тестовые и эталонные изображения. Кроме того, индекс VIF основан на гипотезе о том, что эта общая информация является аспектом точности, который хорошо соотносится с визуальным качеством. В отличие от предыдущих подходов, основанных на чувствительности к ошибкам зрительной системы человека (HVS) и измерении структуры, [2] этот статистический подход, используемый в информационно-теоретической обстановке, дает метод оценки качества (QA) полного эталона (FR) , который не полагается ни на какой параметр HVS или геометрии просмотра, ни на какие-либо константы, требующие оптимизации, и при этом является конкурентоспособным с современными методами QA. [3]
В частности, эталонное изображение моделируется как выход стохастического « естественного» источника, который проходит через канал HVS и позже обрабатывается мозгом. Информационное содержание эталонного изображения количественно определяется как взаимная информация между входом и выходом канала HVS. Это информация, которую мозг в идеале мог бы извлечь из выхода HVS. Затем та же мера количественно определяется в присутствии канала искажения изображения, который искажает выход естественного источника до того, как он пройдет через канал HVS, тем самым измеряя информацию, которую мозг в идеале мог бы извлечь из тестового изображения. Это наглядно показано на рисунке 1. Затем две информационные меры объединяются для формирования меры точности визуальной информации, которая связывает визуальное качество с относительной информацией изображения.
Гауссовская масштабная смесь (GSM) используется для статистического моделирования вейвлет-коэффициентов управляемой пирамидальной декомпозиции изображения. [4] Модель описана ниже для заданного поддиапазона многомасштабной многоориентационной декомпозиции и может быть расширена на другие поддиапазоны аналогичным образом. Пусть вейвлет-коэффициенты в заданном поддиапазоне будут , где обозначает набор пространственных индексов по поддиапазону, а каждый является размерным вектором . Поддиапазон разделен на неперекрывающиеся блоки коэффициентов каждый, где каждый блок соответствует . Согласно модели GSM, где является положительным скаляром , а является гауссовым вектором со средним нулевым значением и ковариацией . Далее предполагается, что неперекрывающиеся блоки независимы друг от друга, и что случайное поле не зависит от .
Процесс искажения моделируется с использованием комбинации затухания сигнала и аддитивного шума в вейвлет- домене. Математически, если обозначает случайное поле из заданного поддиапазона искаженного изображения, является детерминированным скалярным полем и , где является нулевым средним гауссовым вектором с ковариацией , то
Кроме того, моделируется как независимый от и .
Двойственность моделей HVS и NSS подразумевает, что несколько аспектов HVS уже учтены в исходной модели. Здесь HVS дополнительно моделируется на основе гипотезы о том, что неопределенность в восприятии визуальных сигналов ограничивает объем информации, которую можно извлечь из источника и искаженного изображения. Этот источник неопределенности может быть смоделирован как визуальный шум в модели HVS. В частности, шум HVS в заданном поддиапазоне вейвлет-разложения моделируется как аддитивный белый гауссовский шум. Пусть и будут случайными полями, где и будут нулевыми средними гауссовыми векторами с ковариацией и . Далее, пусть и обозначим визуальный сигнал на выходе HVS. Математически мы имеем и . Отметим, что и являются случайными полями , которые не зависят от , и .
Пусть обозначает вектор всех блоков из заданного поддиапазона. Пусть и определяются аналогично. Пусть обозначает оценку максимального правдоподобия заданных и . Количество информации, извлеченной из ссылки, получается как
в то время как количество информации, извлеченной из тестового изображения, определяется как
Обозначая блоки в поддиапазоне вейвлет-разложения через , и аналогично для других переменных, индекс VIF определяется как
Коэффициент корреляции рангов Спирмена (SROCC) между индексными оценками VIF искаженных изображений в базе данных оценки качества изображений LIVE и соответствующими оценками человеческого мнения оценивается в 0,96. [ необходима ссылка ]