Средний балл мнения (MOS) — это мера, используемая в области качества опыта и телекоммуникационной инженерии , представляющая общее качество стимула или системы. Это среднее арифметическое по всем индивидуальным «значениям по предопределенной шкале, которые субъект присваивает своему мнению о производительности качества системы». [1] Такие рейтинги обычно собираются в субъективном тесте оценки качества , но их также можно оценить алгоритмически.
MOS — это широко используемая мера для оценки качества видео, аудио и аудиовизуальных материалов, но не ограничивающаяся этими модальностями. МСЭ-Т определил несколько способов обозначения MOS в Рекомендации МСЭ-Т P.800.1 в зависимости от того, была ли получена оценка в результате аудиовизуальных, разговорных, аудирования, разговора или видеотестов качества.
MOS выражается как одно рациональное число, обычно в диапазоне от 1 до 5, где 1 — это самое низкое воспринимаемое качество, а 5 — самое высокое воспринимаемое качество. Возможны и другие диапазоны MOS в зависимости от шкалы оценок , которая использовалась в базовом тесте. Очень часто используется шкала оценок абсолютной категории , которая сопоставляет оценки от «плохо» до «отлично» с числами от 1 до 5, как показано в таблице ниже.
Другие стандартизированные шкалы оценки качества существуют в Рекомендациях МСЭ-Т (таких как МСЭ-Т P.800 или МСЭ-Т P.910). Например, можно использовать непрерывную шкалу в диапазоне от 1 до 100. Какая шкала используется, зависит от цели теста. В определенных контекстах нет статистически значимых различий между оценками для одних и тех же стимулов, когда они получены с использованием разных шкал. [2]
MOS рассчитывается как среднее арифметическое отдельных оценок, полученных людьми для данного стимула в субъективном тесте оценки качества . Таким образом:
Где находятся индивидуальные оценки данного стимула по субъектам?
MOS подвержен определенным математическим свойствам и предубеждениям. В целом, продолжаются дебаты о полезности MOS для количественной оценки качества опыта в одном скалярном значении. [3]
Когда MOS приобретается с использованием категориальных рейтинговых шкал, он основан на — подобно шкалам Лайкерта — порядковой шкале . В этом случае ранжирование элементов шкалы известно, но их интервал — нет. Поэтому математически неверно вычислять среднее значение по отдельным рейтингам для получения центральной тенденции; вместо этого следует использовать медиану. [4] Однако на практике и в определении MOS считается приемлемым вычислять среднее арифметическое.
Было показано, что для категориальных рейтинговых шкал (таких как ACR) отдельные элементы не воспринимаются субъектами равноудаленными. Например, может быть больший «разрыв» между Good и Fair , чем между Good и Excellent . Воспринимаемое расстояние также может зависеть от языка, на который переведена шкала. [5] Однако существуют исследования, которые не смогли доказать значительного влияния перевода шкалы на полученные результаты. [6]
Несколько других предубеждений присутствуют в том, как обычно приобретаются оценки MOS. [7] В дополнение к вышеупомянутым проблемам со шкалами, которые воспринимаются нелинейно, существует так называемое «предубеждение выравнивания диапазона»: в ходе субъективного эксперимента субъекты склонны давать оценки, которые охватывают всю шкалу оценок. Это делает невозможным сравнение двух разных субъективных тестов, если диапазон представленного качества отличается. Другими словами, MOS никогда не является абсолютной мерой качества, а только относительно теста, в котором он был приобретен.
По указанным выше причинам – и из-за нескольких других контекстуальных факторов, влияющих на воспринимаемое качество в субъективном тесте – значение MOS должно сообщаться только в том случае, если контекст, в котором были собраны значения, известен и также сообщен. Поэтому значения MOS, собранные из разных контекстов и тестовых дизайнов, не следует сравнивать напрямую. Рекомендация МСЭ-Т P.800.2 предписывает, как следует сообщать значения MOS. В частности, в P.800.2 говорится:
Не имеет смысла напрямую сравнивать значения MOS, полученные в ходе отдельных экспериментов, если только эти эксперименты не были специально разработаны для сравнения, и даже в этом случае данные должны быть статистически проанализированы, чтобы гарантировать, что такое сравнение является обоснованным.
MOS исторически берет свое начало от субъективных измерений, когда слушатели сидели в «тихой комнате» и оценивали качество телефонного звонка так, как они его воспринимали. Этот тип методологии тестирования использовался в телефонной отрасли десятилетиями и был стандартизирован в Рекомендации МСЭ-Т P.800. В ней указано, что «говорящий должен сидеть в тихой комнате с объемом от 30 до 120 м³ и временем реверберации менее 500 мс (предпочтительно в диапазоне 200–300 мс). Уровень шума в комнате должен быть ниже 30 дБА без доминирующих пиков в спектре». Требования к другим модальностям были аналогичным образом указаны в более поздних Рекомендациях МСЭ-Т.
Получение оценок MOS может быть трудоемким и дорогим, поскольку требует привлечения оценщиков-людей. Для различных вариантов использования, таких как разработка кодеков или мониторинг качества обслуживания, где качество должно оцениваться многократно и автоматически, оценки MOS также могут быть предсказаны с помощью объективных моделей качества , которые обычно разрабатываются и обучаются с использованием оценок MOS-людей. Возникающий при использовании таких моделей вопрос заключается в том, заметны ли полученные различия MOS для пользователей. Например, при оценке изображений по пятибалльной шкале MOS ожидается, что изображение с MOS, равным 5, будет заметно лучше по качеству, чем изображение с MOS, равным 1. Напротив, не очевидно, будет ли изображение с MOS, равным 3,8, заметно лучше по качеству, чем изображение с MOS, равным 3,6. Исследования, проведенные с целью определения наименьшей разницы MOS, которая заметна для пользователей для цифровых фотографий, показали, что для того, чтобы 75% пользователей смогли обнаружить изображение более высокого качества, требуется разница MOS примерно в 0,46. [8] Тем не менее, ожидание качества изображения, а следовательно, и MOS, со временем меняются вместе с изменением ожиданий пользователя. В результате минимальные заметные различия MOS, определенные с использованием аналитических методов, таких как в [8], могут со временем меняться.