Шкала оценок

По поводу рейтинговых шкал как систем образовательных оценок см. еще статьи об образовании в разных странах (под названием «Образование в...»), например, Образование в Украине .

По поводу оценочных шкал, используемых в медицинской практике, см. статьи о диагнозах, например, Большое депрессивное расстройство .

Рейтинговая шкала — это набор категорий, предназначенных для получения информации о количественном или качественном признаке. В социальных науках , особенно в психологии , распространенными примерами являются шкала ответов Лайкерта и рейтинговые шкалы от 1 до 10, в которых человек выбирает число, которое, как считается, отражает воспринимаемое качество продукта .

Фон

Рейтинговая шкала — это метод, который требует от оценщика присвоить оцениваемому объекту значение, иногда числовое, как меру некоторого оцениваемого атрибута.

Виды рейтинговых шкал

Все рейтинговые шкалы можно отнести к одному из следующих типов:

Числовая рейтинговая шкала (NRS)
Вербальная рейтинговая шкала (VRS)
Визуально-аналоговая шкала (ВАШ)
Лайкерт
Графическая шкала оценок
Описательная графическая рейтинговая шкала

Некоторые данные измеряются на порядковом уровне . Числа указывают относительное положение предметов, но не величину разницы. Шкалы отношения и мнения обычно являются порядковыми; Одним из примеров является шкала ответа Лайкерта :

Заявление

например: «Я не мог жить без компьютера».

Варианты ответа

Категорически не согласен
Не согласен
Нейтральный
Соглашаться
Полностью согласен

Некоторые данные измеряются на уровне интервалов . Числа указывают величину разницы между элементами, но абсолютного нуля не существует. Хорошим примером является температурная шкала Фаренгейта/Цельсия, где разница между числами имеет значение, а расположение нуля — нет.

Некоторые данные измеряются на уровне соотношения . Числа обозначают величину разницы и имеют фиксированную нулевую точку. Коэффициенты можно рассчитать. Примеры включают возраст, доход, цену, затраты, выручку от продаж, объем продаж и долю рынка.

Для измерения отношения или восприятия требуется более одного вопроса по рейтинговой шкале из-за необходимости статистических сравнений между категориями в политомической модели Раша для упорядоченных категорий. ^[1] С точки зрения классической теории тестирования , для получения индекса внутренней надежности, такого как альфа Кронбаха , требуется более одного вопроса , ^[2] который является основным критерием оценки эффективности рейтинговой шкалы и, в более общем плане, психометрический инструмент.

Рейтинговые шкалы, используемые в Интернете

Рейтинговые шкалы широко используются в Интернете в попытке оценить мнение потребителей о продуктах. Примерами сайтов, использующих шкалы рейтингов, являются IMDb , Epinions.com , Yahoo! Movies , Amazon.com , BoardGameGeek и TV.com , которые используют рейтинговую шкалу от 0 до 100 для получения «персонализированных рекомендаций фильмов».

Почти во всех случаях онлайн-шкалы рейтингов допускают только одну оценку для каждого пользователя для каждого продукта, хотя есть исключения, такие как Ratings.net , который позволяет пользователям оценивать продукты по нескольким качествам. Большинство онлайновых рейтинговых агентств также предоставляют мало качественных описаний рейтинговых категорий или вообще не предоставляют их вообще, хотя, опять же, есть исключения, такие как Yahoo! Movies , в котором каждая из категорий помечена между F и A +, и BoardGameGeek, в котором даются подробные описания каждой категории от 1 до 10. Часто описываются только верхняя и нижняя категории, например, в онлайн-рейтинге IMDb .

Период действия

Валидность означает, насколько хорошо инструмент измеряет то, что он намеревается измерить. Поскольку каждый пользователь оценивает продукт только один раз, например, в категории от 1 до 10, нет возможности оценить внутреннюю надежность с использованием такого индекса, как альфа Кронбаха . Поэтому невозможно оценить достоверность рейтингов как меры зрительского восприятия. Для установления достоверности потребуется установить как надежность, так и точность (т.е. того, что рейтинги представляют то, что они должны представлять). Степень достоверности инструмента определяется посредством применения логических/или статистических процедур. «Процедура измерения действительна в той степени, в которой она измеряет то, что она предполагает измерить».

Еще одна фундаментальная проблема заключается в том, что онлайн-рейтинги обычно включают в себя удобную выборку, подобно телевизионным опросам, т.е. они отражают только мнения тех, кто склонен выставлять рейтинги.

Валидность касается различных аспектов процесса измерения. Каждый из этих типов использует логику, статистическую проверку или и то, и другое для определения степени достоверности и имеет особую ценность при определенных условиях. Типы валидности включают валидность содержания, прогностическую валидность и конструктную валидность.

Выборка

Ошибки выборки могут привести к результатам, которые имеют определенную предвзятость или относятся только к определенной подгруппе. Рассмотрим такой пример: предположим, что фильм нравится только узкоспециализированной аудитории: 90% из них — поклонники этого жанра, и только 10% — люди с общим интересом к кино. Предположим, что фильм очень популярен среди зрителей, которые его смотрят, и что только те, кто относится к нему наиболее сильно, склонны оценивать его в Интернете; следовательно, все оценщики набираются из числа преданных. Эта комбинация может привести к очень высоким рейтингам фильма, которые не выходят за рамки людей, которые действительно смотрят фильм (или, возможно, даже за пределы тех, кто действительно его оценивает).

Качественное описание

Качественное описание категорий повышает полезность рейтинговой шкалы. Например, если без описания даны только баллы 1–10, некоторые люди могут выбирать 10 редко, тогда как другие могут выбирать категорию часто. Если вместо этого цифра «10» описывается как «почти безупречная», эта категория, скорее всего, будет означать одно и то же для разных людей. Это касается всех категорий, а не только крайних точек.

Вышеупомянутые проблемы усугубляются, когда для списков и рейтингов продуктов используются агрегированные статистические данные, такие как средние значения. Рейтинги пользователей представляют собой в лучшем случае порядковую категоризацию. Хотя для таких данных нередко рассчитывают средние значения или средние значения, это не может быть оправдано, поскольку при вычислении средних значений требуются равные интервалы, чтобы представить одну и ту же разницу между уровнями воспринимаемого качества. Ключевые проблемы с агрегированными данными, основанными на типах рейтинговых шкал, обычно используемых в Интернете, заключаются в следующем:

Средние значения не следует рассчитывать для собранных данных.
Обычно невозможно оценить надежность или обоснованность оценок пользователей.
Товары не сравниваются по явным, не говоря уже об общих ^{[ необходимо разъяснение ]} критериях.
Это делают только пользователи, склонные выставлять оценку продукту.
Данные обычно не публикуются в форме, позволяющей оценить рейтинги продуктов.

Более развитые методологии включают методы моделирования выбора или максимальной разницы , причем последний связан с моделью Раша из-за связи между законом сравнительного суждения Терстоуна ^{[ необходимы пояснения ]} и моделью Раша.

Снижение рейтинговой шкалы

Международная совместная исследовательская работа ^[3] представила управляемый данными алгоритм для уменьшения рейтинговой шкалы. Он основан на площади под рабочей характеристикой приемника .

Происхождение

Историческое происхождение рейтинговых шкал было переоценено после важного археологического открытия в Тбилиси (Грузия ) в 2010 году. Экскаваторы обнаружили табличку, относящуюся к периоду раннего средневековья, с надписью древней грузинской письменности. ^[4] На этой табличке имелся ряд линейных отметок, интерпретируемых как ранняя форма рейтинговой шкалы. Надписи дали представление о средневековых методах количественного определения и оценки, предполагая зачаточную версию современных рейтинговых шкал. Это открытие в настоящее время хранится в Национальном музее Грузии . ^[5]

Смотрите также

В Викиверситете есть учебные ресурсы о форматах ответов.

Внешние ссылки

Семантический дифференциал UEQ для измерения пользовательского опыта