stringtranslate.com

Тест, соответствующий норме

Норма -связанный тест ( NRT ) — это тип теста , оценки или анализа , который дает оценку положения тестируемого человека в предопределенной популяции по отношению к измеряемому признаку. Присвоение баллов по таким тестам можно описать как относительную градацию , маркировку на кривой ( BrE ) или градацию по кривой ( AmE , CanE ) (также называемую кривой градации , колоколообразной кривой или использованием кривых градации ). Это метод присвоения оценок ученикам в классе таким образом, чтобы получить или приблизиться к заранее заданному распределению этих оценок, имеющему определенное среднее значение и свойства вывода, такие как нормальное распределение (также называемое гауссовым распределением). [1] Термин «кривая» относится к колоколообразной кривой , графическому представлению плотности вероятности нормального распределения, но этот метод может быть использован для достижения любого желаемого распределения оценок — например, равномерного распределения . Оценка выводится из анализа результатов тестов и, возможно, других соответствующих данных из выборки, взятой из популяции. То есть, этот тип теста определяет, показал ли испытуемый лучшие или худшие результаты, чем другие, а не то, знает ли испытуемый больше или меньше материала, чем необходимо для данной цели. Термин нормативная оценка используется, когда референтная популяция — это сверстники испытуемого.

Оценку, основанную на норме, можно противопоставить оценке, основанной на критерии , и ипсативной оценке . При оценке, основанной на критерии, балл показывает, хорошо или плохо справились с данным заданием участники, а не то, как это соотносится с другими участниками; в ипсативной системе участники сравниваются с предыдущими результатами. Каждый метод может быть использован для оценки одного и того же тестового задания. [2]

Роберт Глейзер изначально ввел термины «тест, основанный на норме» и «тест, основанный на критериях» . [3]

Распространенное использование

Многие вступительные экзамены в колледжи и общенациональные школьные тесты используют тесты, основанные на норме. SAT , экзамен на высшую квалификацию (GRE) и шкала интеллекта Векслера для детей (WISC) сравнивают индивидуальную успеваемость учащихся с успеваемостью нормативной выборки. Тестируемые не могут «провалить» тест, основанный на норме, поскольку каждый участник получает оценку, которая сравнивает его с другими, которые прошли тест, обычно даваемую процентилем. Это полезно, когда существует широкий диапазон приемлемых баллов, и цель состоит в том, чтобы выяснить, кто справляется лучше.

Тесты IQ являются тестами, отнесенными к норме, поскольку их цель — ранжировать интеллект испытуемых. Медианный IQ установлен на уровне 100, и все испытуемые ранжируются вверх или вниз по сравнению с этим уровнем.

Другие типы

В качестве альтернативы нормативному тестированию тесты могут представлять собой ипсативные оценки или оценки, основанные на критериях.

Ипсативный

При ипсативной оценке результаты человека сравниваются только с его предыдущими результатами. [4] [5] Например, человек, соблюдающий диету для снижения веса, оценивается по тому, как его текущий вес сравнивается с его предыдущим весом, а не по тому, как его вес сравнивается с идеалом или с весом другого человека.

Критерий-ссылка

Тест является критериально-связанным, когда выполнение оценивается в соответствии с ожидаемым или желаемым поведением. Тесты, которые оценивают тестируемого на основе установленного стандарта (например, каждый должен быть в состоянии пробежать один километр менее чем за пять минут), являются критериально-связанными тестами. Цель критериально-связанного теста — выяснить, может ли человек бежать так быстро, как хочет тестирующий, а не выяснить, быстрее или медленнее он других бегунов. Реформа образования на основе стандартов фокусируется на критериально-связанном тестировании. [6] [7] Большинство повседневных тестов и контрольных работ, проводимых в школе, а также большинство государственных тестов достижений и выпускных экзаменов в средней школе являются критериально-связанными. В этой модели все участники теста могут сдать тест или все участники теста провалить его.

Методы

Один из методов оценки по кривой состоит из трех этапов:

  1. Числовые баллы (или, возможно, баллы по достаточно мелкозернистой порядковой шкале ) присваиваются студентам. Абсолютные значения менее значимы, при условии, что порядок баллов соответствует относительной успеваемости каждого студента в рамках курса.
  2. Эти баллы преобразуются в процентили (или какую-либо другую систему квантилей ).
  3. Значения процентилей преобразуются в градации в соответствии с делением шкалы процентилей на интервалы, где ширина интервала каждой градации указывает желаемую относительную частоту для этой градации.

Например, если в определенном университетском курсе есть пять оценок: A, B, C, D и F, где A зарезервирована для лучших 20 % студентов, B — для следующих 30 %, C — для следующих 30–40 % и D или F — для оставшихся 10–20 %, то баллы в процентильном интервале от 0 % до 10–20 % будут соответствовать оценке D или F, баллы от 11–21 % до 50 % будут соответствовать оценке C, баллы от 51 % до 80 % будут соответствовать оценке B, а баллы от 81 % до 100 % будут соответствовать оценке A.

В соответствии с примером, проиллюстрированным выше, кривая оценок позволяет учебным заведениям гарантировать распределение студентов по определенным пороговым значениям среднего балла (GPA). Поскольку многие профессора устанавливают кривую, чтобы нацелиться на средний балл курса C, [ необходимо разъяснение ] соответствующий эквивалент среднего балла будет 2,0 по стандартной шкале 4,0, используемой в большинстве североамериканских университетов. [1] Аналогично, средний балл 3,0 по шкале 4,0 будет указывать на то, что студент входит в 20 % лучших студентов класса. Кривые оценок служат для придания этим цифрам дополнительной значимости, и конкретное распределение может различаться в разных учебных заведениях. [8]

Преимущества и ограничения

Основным преимуществом тестов на соответствие норме является то, что они могут предоставить информацию о том, как результаты человека в тесте сравниваются с результатами других людей в референтной группе.

Серьезным ограничением тестов на соответствие норме является то, что референтная группа может не представлять текущую интересующую популяцию. Как отмечено на веб-сайте International Personality Item Pool Института исследований Орегона , «следует быть очень осторожным с использованием заготовленных «норм», поскольку не очевидно, что можно когда-либо найти популяцию, репрезентативным подмножеством которой является ваша текущая выборка. Большинство «норм» вводят в заблуждение, и поэтому их не следует использовать. Гораздо более оправданными являются локальные нормы, которые вы разрабатываете сами. Например, если вы хотите дать обратную связь членам класса студентов, вы должны соотнести балл каждого человека со средними значениями и стандартными отклонениями, полученными из самого класса. Чтобы максимизировать информативность, вы можете предоставить студентам распределение частот для каждой шкалы, основанное на этих локальных нормах, и затем люди могут найти (и обвести) свои собственные баллы по этим соответствующим распределениям». [9]

Ссылка на норму не гарантирует, что тест является валидным (т.е. что он измеряет ту конструкцию, для измерения которой он предназначен).

Другим недостатком тестов, основанных на норме, является то, что они не могут измерить прогресс населения в целом, а только там, где индивидуумы попадают в это целое. Вместо этого необходимо проводить измерения в отношении фиксированной цели, например, для измерения успеха программы образовательной реформы, которая стремится повысить успеваемость всех учащихся.

При тестировании, основанном на норме, уровень класса традиционно устанавливался на уровне, установленном средними 50 процентами баллов. [10] Напротив, Национальный фонд детского чтения считает, что крайне важно обеспечить, чтобы практически все дети читали на уровне класса или выше к третьему классу, цель, которая не может быть достигнута при определении уровня класса, основанном на норме. [11]

Нормы автоматически не подразумевают стандарт. Тест, основанный на норме, не стремится навязывать какие-либо ожидания относительно того, что должны знать или уметь делать тестируемые. Он измеряет текущий уровень тестируемых, сравнивая их с их сверстниками. Система, основанная на рангах, выдает только данные, которые говорят, какие студенты справляются на среднем уровне, какие студенты справляются лучше, а какие хуже. Он не определяет, какие студенты способны правильно выполнять задания на уровне, приемлемом для трудоустройства или дальнейшего обучения.

Конечной целью кривых оценок является минимизация или устранение влияния различий между разными преподавателями одного и того же курса, гарантируя, что студенты в любом классе оцениваются относительно своих однокурсников. Это также позволяет обойти проблемы, связанные с использованием нескольких версий конкретного экзамена, метод, часто используемый, когда даты проведения теста различаются между секциями класса. Независимо от любой разницы в уровне сложности, реальной или кажущейся, кривая оценок обеспечивает сбалансированное распределение академических результатов.

Однако кривая оценка может повысить конкурентоспособность между студентами и повлиять на их чувство справедливости преподавателей в классе. Студенты, как правило, больше всего расстраиваются в случае, если кривая снижает их оценку по сравнению с той, которую они получили бы, если бы кривая не использовалась. Чтобы этого не произошло, преподаватели обычно прилагают усилия, чтобы сам тест был достаточно сложным, когда они собираются использовать кривую оценки, так что они ожидают, что средний студент получит более низкий сырой балл, чем балл, который предполагается использовать в среднем на кривой, тем самым гарантируя, что все студенты выиграют от кривой. Таким образом, кривые оценки нельзя использовать слепо, и их необходимо тщательно рассмотреть и взвесить по сравнению с альтернативами, такими как оценка, основанная на критериях. Кроме того, постоянное неправильное использование кривых оценок может скорректировать оценки за плохо разработанные тесты, тогда как оценки должны быть разработаны так, чтобы точно отражать цели обучения, поставленные преподавателем. [12]

Смотрите также

Ссылки

  1. ^ ab Roell, Kelly. "Что такое градуировка по кривой?". About.com . Получено 13 ноября 2013 г.
  2. ^ Кронбах, Л. Дж. (1970). Основы психологического тестирования (3-е изд.). Нью-Йорк: Harper & Row.
  3. ^ Глейзер, Р. (1963). «Технология обучения и измерение результатов обучения». Американский психолог . 18 : 510–522. doi :10.1037/h0049294.
  4. ^ Оценка
  5. ^ "PDF presentation" (PDF) . Архивировано из оригинала (PDF) 2015-09-24 . Получено 2006-07-21 .
  6. ^ stories 5-01.html [ постоянная неработающая ссылка ] Fairtest.org: Тесты Times on Testing, «связанные с критериями», оценивают учащихся по фиксированному критерию, а не друг по другу.
  7. ^ "Совет по образованию штата Иллинойс - Стандарты обучения в Иллинойсе". Архивировано из оригинала 2010-04-14 . Получено 2010-04-14 .Стандарты обучения в Иллинойсе
  8. Волох, Юджин (9 февраля 2015 г.). «В похвалу градации по кривой». Washington Post . Получено 18 мая 2017 г. Как и демократия, градация по кривой может быть наихудшей возможной системой — за исключением всех альтернатив.
  9. ^ Орегонский научно-исследовательский институт, веб-сайт IPIP, http://ipip.ori.org/newNorms.htm
  10. ^ [1] NCTM: Новости и СМИ: Вопросы оценки (Newsbulletin, апрель 2004 г.) «по определению, половина учащихся страны в любой конкретный момент времени не дотягивают до нужного уровня»
  11. ^ [2] Архивировано 11 марта 2007 г. на сайте Национального фонда детского чтения Wayback Machine.
  12. ^ Риз, Майкл (13 мая 2013 г.). «Изгибаться или не изгибаться». Блог инструктора-новатора . Университет Джонса Хопкинса . Получено 13 мая 2013 г.

Внешние ссылки