Тестовый балл — это часть информации, обычно число, которое передает результаты экзаменуемого на тесте . Одно из формальных определений заключается в том, что это «краткое изложение доказательств, содержащихся в ответах экзаменуемого на пункты теста, которые связаны с измеряемым конструктом или конструктами». [1]
Результаты тестов интерпретируются с помощью интерпретации , основанной на норме или критерии , а иногда и того и другого. Интерпретация, основанная на норме, означает, что оценка передает значение об экзаменуемом в отношении его положения среди других экзаменуемых. Интерпретация, основанная на критериях, означает, что оценка передает информацию об экзаменуемом в отношении определенного предмета, независимо от оценок других экзаменуемых. [2]
Существует два типа результатов тестов: сырые баллы и масштабированные баллы . Сырой балл — это балл без какой-либо корректировки или преобразования, например, простое количество вопросов, на которые даны правильные ответы. Шкалированный балл — это результат некоторых преобразований, примененных к сырому баллу, например, при относительной оценке .
Целью шкалированных оценок является представление оценок для всех экзаменуемых по единой шкале. Предположим, что тест имеет две формы, и одна сложнее другой. Было определено путем приравнивания , что оценка 65% по форме 1 эквивалентна оценке 68% по форме 2. Оценки по обеим формам можно преобразовать в шкалу так, чтобы эти две эквивалентные оценки имели одинаковые сообщаемые оценки. Например, они обе могут быть оценкой 350 по шкале от 100 до 500.
Два известных теста в США , которые имеют шкалированные баллы, — это ACT и SAT. Шкала ACT варьируется от 0 до 36, а SAT — от 200 до 800 (по разделу). По-видимому, эти две шкалы были выбраны для представления среднего значения и стандартного отклонения 18 и 6 (ACT) и 500 и 100. Верхняя и нижняя границы были выбраны, потому что интервал плюс или минус три стандартных отклонения содержит более 99% населения. Баллы за пределами этого диапазона трудно измерить, и они имеют небольшую практическую ценность.
Обратите внимание, что масштабирование не влияет на психометрические свойства теста; это то, что происходит после завершения процесса оценки (и уравнивания, если оно присутствует). Поэтому это не вопрос психометрии как таковой, а вопрос интерпретируемости.
Когда тесты оцениваются по принципу «правильно-неправильно» , делается важное предположение об обучении. Количество правильных ответов или сумма баллов по пунктам (где дается частичный кредит) считаются подходящим и достаточным показателем текущего статуса успеваемости. Кроме того, делается вторичное предположение, что в неправильных ответах нет значимой информации .
Во-первых, правильный ответ может быть получен с помощью запоминания без какого-либо глубокого понимания основного содержания или концептуальной структуры поставленной проблемы. Во-вторых, когда требуется более одного шага для решения, часто существуют различные подходы к ответу, которые приведут к правильному результату. Тот факт, что ответ правильный, не указывает, какая из нескольких возможных процедур была использована. Когда студент предоставляет ответ (или показывает работу), эта информация легко доступна из исходных документов.
Во-вторых, если бы неправильные ответы были слепыми догадками, то среди этих ответов не было бы никакой информации. С другой стороны, если неправильные ответы отражают отклонения интерпретации от ожидаемой, эти ответы должны демонстрировать упорядоченную связь с тем, что измеряет общий тест. Это отклонение должно зависеть от уровня психолингвистической зрелости студента, выбирающего или дающего ответ на языке, на котором написан тест.
В этом втором случае должно быть возможно извлечь этот порядок из ответов на тестовые задания. [3] Такие процессы извлечения, например , модель Раша , являются стандартной практикой для разработки заданий среди профессионалов. Однако, поскольку неправильные ответы отбрасываются в процессе подсчета баллов, анализ этих ответов на предмет информации, которую они могут содержать, проводится редко.
В-третьих, хотя иногда предоставляются баллы за субтесты по темам, более распространенной практикой является сообщение общего балла или его перемасштабированной версии. Это перемасштабирование предназначено для сравнения этих баллов с каким-то стандартом. Это дальнейшее сжатие результатов теста систематически удаляет всю информацию о том, какие конкретные пункты были пропущены.
Таким образом, оценка теста по принципу «верно-неверно» не учитывает: 1) то, как учащиеся получили правильные ответы, 2) что привело их к неприемлемым ответам и 3) где в тексте теста произошло это отклонение от ожиданий.
Этот комментарий предполагает, что текущая процедура подсчета баллов скрывает динамику процесса сдачи теста и затемняет способности оцениваемых студентов. Текущая практика подсчета баллов упрощает эти данные на начальном этапе подсчета баллов. Результатом этой процедурной ошибки является сокрытие диагностической информации, которая могла бы помочь учителям лучше обслуживать своих студентов. Это также мешает тем, кто усердно готовит эти тесты, наблюдать информацию, которая в противном случае предупредила бы их о наличии этой ошибки.
В настоящее время разрабатывается решение этой проблемы, известное как оценка спектра реакции (RSE) [4] , которое, по-видимому, способно восстановить все три формы потери информации, при этом по-прежнему предоставляя числовую шкалу для определения текущего состояния производительности и отслеживания ее изменения.
Этот подход RSE обеспечивает интерпретацию каждого ответа, будь то правильный или неправильный, что указывает на вероятные мыслительные процессы, используемые испытуемым. [5] Среди других результатов, в этой главе сообщается, что восстанавливаемая информация объясняет в два-три раза больше изменчивости теста, чем рассмотрение только правильных ответов. Эта огромная потеря информации может быть объяснена тем фактом, что «неправильные» ответы удаляются из информации, собираемой в процессе подсчета баллов, и больше не доступны для выявления процедурной ошибки, присущей подсчету баллов по принципу «правильно-неправильно». Процедура обходит ограничения, создаваемые линейными зависимостями, присущими тестовым данным.