Субъективное качество видео

Субъективное качество видео — это качество видео , воспринимаемое людьми. Оно касается того, как видео воспринимается зрителем (также называемым «наблюдателем» или «субъектом»), и определяет его мнение о конкретной видеопоследовательности . Оно относится к области качества восприятия . Измерение субъективного качества видео необходимо, поскольку было показано, что объективные алгоритмы оценки качества, такие как PSNR, плохо коррелируют с субъективными оценками. Субъективные оценки также могут использоваться в качестве наземной истины для разработки новых алгоритмов.

Субъективные тесты качества видео — это психофизические эксперименты , в которых ряд зрителей оценивают заданный набор стимулов. Эти тесты довольно дороги с точки зрения времени (подготовка и проведение) и человеческих ресурсов, поэтому должны быть тщательно разработаны.

В субъективных тестах качества видео, как правило, SRC («Источники», т.е. исходные видеопоследовательности) обрабатываются с различными условиями ( HRC для «Гипотетических опорных схем») для генерации PVS («Обработанных видеопоследовательностей»). ^[1]

Измерение

Основная идея измерения субъективного качества видео похожа на оценку среднего мнения (MOS) для аудио . Для оценки субъективного качества видео системы обработки видео обычно предпринимаются следующие шаги:

Выбирайте оригинальные, неискаженные видеопоследовательности для тестирования.
Выберите настройки системы, которые необходимо оценить
Применить настройки к SRC, что приведет к тестовым последовательностям
Выберите метод тестирования, описывающий, как последовательности представляются зрителям и как собирается их мнение.
Пригласите группу зрителей
Проведите тестирование в определенной среде (например, в лабораторных условиях) и представьте каждый PVS в определенном порядке каждому зрителю.
Рассчитать результаты рейтинга для отдельных PVS, SRC и HRC, например MOS

На результаты могут влиять многие параметры условий просмотра, такие как освещенность помещения, тип дисплея, яркость, контрастность, разрешение, расстояние просмотра, а также возраст и уровень образования зрителей. Поэтому рекомендуется сообщать эту информацию вместе с полученными оценками.

Выбор источника

Обычно система должна тестироваться с репрезентативным количеством различного контента и его характеристик. Например, можно выбрать отрывки из контента разных жанров, например, боевиков, новостных программ и мультфильмов. Длина исходного видео зависит от цели теста, но обычно используются последовательности длительностью не менее 10 секунд.

Количество движения и пространственных деталей также должно охватывать широкий диапазон. Это гарантирует, что тест содержит последовательности различной сложности.

Источники должны быть безупречного качества. Не должно быть никаких видимых артефактов кодирования или других свойств, которые могли бы снизить качество исходной последовательности.

Настройки

Конструкция HRC зависит от изучаемой системы. Обычно на этом этапе вводятся несколько независимых переменных, и они варьируются на нескольких уровнях. Например, для проверки качества видеокодека независимыми переменными могут быть программное обеспечение для кодирования видео, целевой битрейт и целевое разрешение обрабатываемой последовательности.

Рекомендуется выбирать настройки, которые приводят к рейтингам, охватывающим весь диапазон качества. Другими словами, предполагая шкалу рейтинга Absolute Category , тест должен показывать последовательности, которые зрители оценивали бы от плохого до отличного.

Зрители

Количество зрителей

Зрители также называются «наблюдателями» или «субъектами». Определенное минимальное количество зрителей должно быть приглашено на исследование, поскольку большее количество субъектов повышает надежность результатов эксперимента, например, за счет снижения стандартного отклонения усредненных оценок. Кроме того, существует риск исключения субъектов за ненадежное поведение во время оценки.

Минимальное количество субъектов, необходимых для субъективного исследования качества видео, строго не определено. Согласно ITU-T, возможно любое число от 4 до 40, где 4 является абсолютным минимумом по статистическим причинам, а приглашение более 40 субъектов не имеет никакой дополнительной ценности. В целом, в эксперименте должно участвовать не менее 15 наблюдателей. Они не должны быть напрямую вовлечены в оценку качества изображения в рамках своей работы и не должны быть опытными оценщиками. ^[2] В других документах также утверждается, что для получения значимых усредненных оценок необходимо не менее 10 субъектов. ^[3]

Однако большинство рекомендаций по количеству субъектов были разработаны для измерения качества видео, с которым сталкивается домашний телевизор или пользователь ПК, где диапазон и разнообразие искажений, как правило, ограничены (например, только артефактами кодирования). Учитывая большой диапазон и разнообразие нарушений, которые могут возникнуть на видео, снятых с помощью мобильных устройств и/или переданных по беспроводным сетям, как правило, может потребоваться большее количество людей-субъектов.

Бруннстрём и Барковски предоставили расчеты для оценки минимально необходимого количества субъектов на основе существующих субъективных тестов. ^[4] Они утверждают, что для обеспечения статистически значимых различий при сравнении оценок может потребоваться большее количество субъектов, чем обычно рекомендуется.

Выбор зрителя

Зрители не должны быть экспертами в том смысле, что они не должны быть профессионалами в области видеокодирования или смежных областях. Это требование введено, чтобы избежать потенциальной предвзятости субъекта. ^[2]

Обычно зрители проверяются на нормальное зрение или зрение, скорректированное до нормального, с помощью таблиц Снеллена . Дальтонизм часто проверяется с помощью пластин Ишихары . ^[2]

В сообществе QoE продолжается дискуссия о том, оказывает ли культурное, социальное или экономическое происхождение зрителя значительное влияние на полученные субъективные результаты качества видео. Систематическое исследование с участием шести лабораторий в четырех странах не выявило статистически значимого влияния языка и культуры субъекта/страны происхождения на оценки качества видео. ^[5]

Тестовая среда

Субъективные тесты качества можно проводить в любой среде. Однако из-за возможных факторов влияния из гетерогенных контекстов обычно рекомендуется проводить тесты в нейтральной среде, например, в специальной лабораторной комнате. Такая комната может быть звукоизолированной, со стенами, окрашенными в нейтральный серый цвет, и с использованием правильно откалиброванных источников света. Несколько рекомендаций уточняют эти условия. ^[6]^[7] Было показано, что контролируемые среды приводят к меньшей изменчивости полученных оценок. ^[5]

Краудсорсинг

Краудсорсинг недавно использовался для субъективной оценки качества видео и, в более общем плане, в контексте качества восприятия . ^[8] Здесь зрители дают оценки, используя свой собственный компьютер, дома, а не принимая участие в субъективном тесте качества в лабораторных помещениях. Хотя этот метод позволяет получить больше результатов, чем в традиционных субъективных тестах, при меньших затратах, валидность и надежность собранных ответов должны быть тщательно проверены. ^[9]

Анализ результатов

Мнения зрителей обычно усредняются в средний балл мнения (MOS). Для этой цели метки категориальных шкал могут быть переведены в числа. Например, ответы «плохо» и «отлично» могут быть сопоставлены со значениями от 1 до 5, а затем усреднены. Значения MOS всегда должны сообщаться с их статистическими доверительными интервалами , чтобы можно было оценить общее согласие между наблюдателями.

Отбор субъектов

Часто перед оценкой результатов принимаются дополнительные меры. Отбор субъектов — это процесс, в ходе которого зрители, чьи оценки считаются недействительными или ненадежными, исключаются из дальнейшего анализа. Недействительные оценки трудно обнаружить, поскольку субъекты могли поставить оценку, не посмотрев видео, или смошенничать во время теста. Общая надежность субъекта может быть определена различными процедурами, некоторые из которых изложены в рекомендациях МСЭ-Р и МСЭ-Т. ^[2]^[7] Например, корреляция между индивидуальными оценками человека и общим MOS, оцененным для всех последовательностей, является хорошим индикатором их надежности по сравнению с остальными участниками теста.

Продвинутые модели

При оценке стимулов люди подвержены предубеждениям. Это может привести к разному и неточному поведению при оценке и, следовательно, к значениям MOS, которые не являются репрезентативными для «истинного качества» стимула. В последние годы были предложены усовершенствованные модели, направленные на формальное описание процесса оценки и последующее восстановление шумности в субъективных оценках. По словам Яновски и др., субъекты могут иметь предвзятость мнения, которая обычно смещает их оценки, а также неточность оценки, которая зависит от субъекта и стимула, которые должны быть оценены. ^[10] Ли и др. предложили различать непоследовательность субъекта и неоднозначность содержания . ^[11]

Стандартизированные методы тестирования

Существует множество способов выбора правильных последовательностей, системных настроек и методик тестирования. Некоторые из них были стандартизированы. Они подробно описаны в нескольких рекомендациях ITU-R и ITU-T, среди которых ITU-R BT.500 ^[7] и ITU-T P.910. ^[2] Хотя в некоторых аспектах есть совпадения, рекомендация BT.500 уходит корнями в вещание, тогда как P.910 фокусируется на мультимедийном контенте.

Стандартизированный метод тестирования обычно описывает следующие аспекты:

как долго длится сеанс эксперимента
где происходит эксперимент
сколько раз и в каком порядке следует просматривать каждый PVS
проводятся ли оценки один раз за стимул (например, после презентации) или непрерывно
являются ли оценки абсолютными, т.е. относящимися только к одному стимулу, или относительными (сравнивающими два или более стимулов)
по какой шкале принимаются оценки

Другая рекомендация, ITU-T P.913 ^[6], предоставляет исследователям больше свободы для проведения субъективных испытаний качества в условиях, отличных от типичной испытательной лаборатории, при этом от них по-прежнему требуется сообщать все детали, необходимые для того, чтобы сделать такие испытания воспроизводимыми.

Примеры

Ниже приведены некоторые примеры стандартизированных процедур тестирования.

Одиночный стимул

ACR (абсолютный рейтинг категории): ^[2] каждая последовательность оценивается индивидуально по шкале ACR . Метки на шкале — «плохо», «плохо», «удовлетворительно», «хорошо» и «отлично», и они переводятся в значения 1, 2, 3, 4 и 5 при расчете MOS.
ACR-HR (Absolute Category Rating with Hidden Reference): разновидность ACR, в которой исходная неповрежденная исходная последовательность отображается в дополнение к нарушенным последовательностям, не сообщая субъектам о ее наличии (отсюда «скрытый»). Рейтинги рассчитываются как дифференциальные баллы между эталонной и нарушенной версиями. Дифференциальный балл определяется как балл PVS минус балл, присвоенный скрытому эталону, плюс количество баллов по шкале. Например, если PVS оценен как «плохой», а его соответствующий скрытый эталон как «хороший», то рейтинг равен . Когда эти рейтинги усредняются, результатом является не MOS, а дифференциальный MOS («DMOS»). ${\textstyle 2-4+5=3}$
SSCQE (Single Stimulus Continuous Quality Rating): ^[7] более длинная последовательность оценивается непрерывно с течением времени с помощью слайдера (вариация фейдера ) , на котором субъекты оценивают текущее качество. Образцы берутся через регулярные интервалы, что приводит к кривой качества с течением времени, а не к единому рейтингу качества.

Двойной стимул или множественный стимул

DSCQS (Double Stimulus Continuous Quality Scale): ^[7] зритель видит ненарушенный референт и нарушенную последовательность в случайном порядке. Им разрешается повторно просмотреть последовательности, а затем оценить качество для обоих по непрерывной шкале, помеченной категориями ACR.
DSIS (шкала нарушения двойного стимула) ^[7] и DCR (рейтинг категории ухудшения): ^[2] оба относятся к одному и тому же методу. Зритель видит ненарушенное контрольное видео, затем то же самое видео с нарушениями, а затем его просят проголосовать за второе видео, используя так называемую шкалу нарушений (от «нарушения незаметны» до «нарушения очень раздражают»).
PC (Pair Comparison): ^[2] вместо сравнения неповрежденной и нарушенной последовательности сравниваются различные типы нарушений (HRC). Все возможные комбинации HRC должны быть оценены.

Выбор методологии

Выбор метода во многом зависит от цели теста и возможных ограничений по времени и другим ресурсам. Некоторые методы могут иметь меньше контекстных эффектов (т. е. когда порядок стимулов влияет на результаты), которые являются нежелательными предвзятостями теста. ^[12] В ITU-T P.910 отмечается, что такие методы, как DCR, следует использовать для тестирования точности передачи, особенно в высококачественных системах. ACR и ACR-HR лучше подходят для квалификационных тестов и — благодаря предоставлению абсолютных результатов — сравнения систем. Метод PC имеет высокую дискриминационную способность, но он требует более длительных сеансов тестирования.

Базы данных

Результаты субъективных тестов качества, включая используемые стимулы, называются базами данных . Ряд субъективных баз данных качества изображений и видео, основанных на таких исследованиях, были опубликованы научно-исследовательскими институтами. Эти базы данных — некоторые из которых стали фактическими стандартами — используются во всем мире телевизионными, кинематографическими и видеоинженерами для разработки и тестирования объективных моделей качества, поскольку разработанные модели можно обучать на основе полученных субъективных данных. Обзор общедоступных баз данных был составлен Группой экспертов по качеству видео, а видеоактивы были опубликованы в библиотеке Consumer Digital Video Library.

Ссылки

^ Учебное пособие ITU-T: Объективная перцептивная оценка качества видео: Полное справочное телевидение, 2004.
^ abcdefgh Рекомендация МСЭ-Т P.910: Методы субъективной оценки качества видео для мультимедийных приложений, 2008.
^ Винклер, Стефан. «О свойствах субъективных оценок в экспериментах по качеству видео». Proc. Качество мультимедийного опыта , 2009.
^ Бруннстрём, Кьелл; Барковски, Маркус (2018-09-25). «Статистическое качество анализа опыта: планирование размера выборки и тестирование статистической значимости». Журнал электронной визуализации . 27 (5): 053013. Bibcode : 2018JEI....27e3013B. doi : 10.1117/1.jei.27.5.053013. ISSN 1017-9909. S2CID 53058660.
^ ab Pinson, MH; Janowski, L.; Pepion, R.; Huynh-Thu, Q.; Schmidmer, C.; Corriveau, P.; Younkin, A.; Callet, P. Le; Barkowsky, M. (октябрь 2012 г.). «Влияние субъектов и среды на аудиовизуальные субъективные тесты: международное исследование» (PDF) . IEEE Journal of Selected Topics in Signal Processing . 6 (6): 640–651. Bibcode : 2012ISTSP...6..640P. doi : 10.1109/jstsp.2012.2215306. ISSN 1932-4553. S2CID 10667847.
^ ab ITU-T P.913: Методы субъективной оценки качества видео, качества звука и аудиовизуального качества интернет-видео и телевидения распределительного качества в любой среде, 2014.
^ abcdef ITU-R BT.500: Методология субъективной оценки качества телевизионного изображения, 2012.
^ Хоссфельд, Тобиас (15.01.2014). «Лучшие практики для краудтестинга QoE: оценка QoE с помощью краудсорсинга». Труды IEEE по мультимедиа . 16 (2): 541–558. doi :10.1109/TMM.2013.2291663. S2CID 16862362.
^ Хоссфельд, Тобиас; Хирт, Маттиас; Реди, Джудит; Мацца, Филиппо; Коршунов, Павел; Надери, Бабак; Зойферт, Михаэль; Гардло, Бруно; Эггер, Себастьян (октябрь 2014 г.). «Лучшие практики и рекомендации по краудсорсинговому QoE — уроки, извлеченные из работы целевой группы Qualinet «Краудсорсинг»». hal-01078761. {{cite journal}}: Цитировать журнал требует |journal=( помощь )
^ Janowski, Lucjan; Pinson, Margaret (2015). «Точность субъектов в качественном эксперименте: теоретическая модель субъекта». IEEE Transactions on Multimedia . 17 (12): 2210–2224. doi : 10.1109/tmm.2015.2484963 . ISSN 1520-9210. S2CID 22343847.
^ Ли, Чжи; Бампис, Христос Г. (2017). «Восстановление субъективных показателей качества из зашумленных измерений». Конференция по сжатию данных 2017 г. (DCC) . IEEE. стр. 52–61. arXiv : 1611.01715 . doi : 10.1109/dcc.2017.26. ISBN 9781509067213. S2CID 14251604.
^ Пинсон, Маргарет и Вольф, Стивен. «Сравнение субъективных методов тестирования качества видео». Конференция SPIE по видеокоммуникациям и обработке изображений , Лугано, Швейцария, июль 2003 г.

Внешние ссылки

Группа экспертов по качеству видео