Тестовое уравнивание традиционно относится к статистическому процессу определения сопоставимых баллов на разных формах экзамена . [ 1] Это может быть выполнено с использованием либо классической теории тестирования , либо теории ответов на задания .
В теории ответов на вопросы уравнивание [2] — это процесс помещения оценок из двух или более параллельных тестовых форм в общую шкалу оценок. Результатом является то, что оценки из двух разных тестовых форм можно сравнивать напрямую или рассматривать так, как если бы они были получены из одной и той же тестовой формы. Когда тесты не параллельны, общий процесс называется связыванием. Это процесс уравнивания единиц и начал двух шкал, по которым оценивались способности учащихся по результатам разных тестов. Процесс аналогичен уравниванию градусов по Фаренгейту с градусами по Цельсию путем преобразования измерений из одной шкалы в другую. Определение сопоставимых баллов является побочным продуктом уравнивания, которое возникает в результате уравнивания шкал, полученных из результатов тестов.
Предположим, что Дик и Джейн оба сдают тест, чтобы получить лицензию на определенную профессию. Поскольку высокие ставки (вы получаете возможность заниматься профессией, если сдадите тест) могут создать соблазн смошенничать, организация, которая контролирует тест, создает две формы. Если мы знаем, что Дик набрал 60% по форме A, а Джейн набрала 70% по форме B, знаем ли мы наверняка, кто из них лучше усвоил материал? Что, если форма A состоит из очень сложных пунктов, а форма B относительно легкая? Для решения этой самой проблемы проводятся уравнивающие анализы, чтобы баллы были максимально справедливыми.
В теории ответов на вопросы "местоположения" человека (меры некоторого качества, оцениваемые тестом) оцениваются по интервальной шкале ; т. е. местоположения оцениваются по отношению к единице и началу отсчета. В образовательной оценке принято использовать тесты для оценки различных групп учащихся с целью установления общей шкалы путем уравнивания начал и, при необходимости, единиц шкал, полученных из данных ответов из разных тестов. Этот процесс называется уравниванием или уравниванием тестов.
В теории ответов на вопросы существует два различных вида уравнивания: горизонтальное и вертикальное. [3] Вертикальное уравнивание относится к процессу уравнивания тестов, проводимых для групп учащихся с разными способностями, например, учащихся в разных классах (годах обучения). [4] Горизонтальное уравнивание относится к уравниванию тестов, проводимых для групп с похожими способностями; например, два теста, проводимых для учащихся одного класса в течение двух последовательных календарных лет. Различные тесты используются для избежания эффектов практики.
С точки зрения теории ответов на вопросы, уравнивание — это всего лишь частный случай более общего процесса шкалирования , применимого при использовании более одного теста. На практике, однако, шкалирование часто реализуется отдельно для разных тестов, а затем шкалы впоследствии уравниваются.
Часто различают два метода уравнивания: уравнивание обычных людей и уравнивание обычных предметов . Уравнивание обычных людей подразумевает проведение двух тестов для обычной группы людей. Среднее и стандартное отклонение положений шкалы групп в двух тестах уравниваются с помощью линейного преобразования. Уравнивание обычных предметов подразумевает использование набора общих предметов, называемых якорным тестом, встроенным в два разных теста. Уравнивается среднее положение предметов для общих предметов.
В классической теории тестов уравнивание средних значений просто корректирует распределение оценок таким образом, чтобы среднее значение одной формы было сопоставимо со средним значением другой формы. Хотя уравнивание средних значений привлекательно из-за своей простоты, ему не хватает гибкости, а именно учета возможности того, что стандартные отклонения форм различаются. [1]
Линейное выравнивание корректирует так, чтобы две формы имели сопоставимое среднее и стандартное отклонение . Существует несколько типов линейного выравнивания, которые различаются в предположениях и математике, используемых для оценки параметров. Методы Tucker и Levine Observed Score оценивают связь между наблюдаемыми оценками в двух формах, в то время как метод Levine True Score оценивает связь между истинными оценками в двух формах. [1]
Равнопроцентильное выравнивание определяет отношение выравнивания как такое, где оценка может иметь эквивалентный процентиль в любой форме. Это отношение может быть нелинейным.
В отличие от теории ответов на вопросы, уравнивание на основе классической теории тестов несколько отличается от масштабирования. Уравнивание — это преобразование «сырой-сырой», поскольку оно оценивает сырой балл по форме B, который эквивалентен каждому сырому баллу по базовой форме A. Любое используемое масштабирующее преобразование затем применяется поверх или вместе с уравниванием.