stringtranslate.com

Классическая теория тестирования

Классическая теория тестирования (КТТ) — это совокупность родственной психометрической теории, которая предсказывает результаты психологического тестирования , такие как сложность заданий или способности тестируемых. Это теория тестирования, основанная на идее о том, что наблюдаемая или полученная человеком оценка на тесте представляет собой сумму истинного балла (безошибочного балла) и балла ошибок. [1] Вообще говоря, цель классической теории тестов — понять и повысить надежность психологических тестов.

Классическую теорию тестирования можно рассматривать как примерно синоним теории истинного результата . Термин «классический» относится не только к хронологии этих моделей, но также контрастирует с более поздними психометрическими теориями, обычно называемыми теорией реакции на предмет , которые иногда носят название «современные», как в «современной теории скрытых черт».

Классическая теория тестирования в том виде, в каком мы ее знаем сегодня, была систематизирована Новиком (1966) и описана в таких классических текстах, как Лорд и Новик (1968) и Аллен и Йен (1979/2002). Приведенное ниже описание классической теории тестов следует за этими плодотворными публикациями.

История

Классическая теория тестирования родилась только после того, как были концептуализированы следующие три достижения или идеи:

1. признание наличия ошибок в измерениях,

2. представление об этой ошибке как о случайной величине,

3. концепция корреляции и способы ее индексации.

В 1904 году Чарльз Спирман отвечал за выяснение того, как исправить коэффициент корреляции затухания из-за ошибки измерения и как получить индекс надежности, необходимый для внесения поправки. [2] Некоторые считают, что открытие Спирмена положило начало классической теории испытаний (Traub, 1997). Среди других, кто оказал влияние на структуру классической теории испытаний, - Джордж Удни Юл , Трумэн Ли Келли , Фриц Кудер и Мэрион Ричардсон, участвовавшие в создании формул Кудера-Ричардсона , Луи Гуттман и, совсем недавно, Мелвин Новик , не говоря уже о других. в течение следующей четверти века после первых результатов Спирмена.

Определения

Классическая теория тестирования предполагает, что каждый человек имеет истинный балл T , который был бы получен, если бы в измерениях не было ошибок. Истинный балл человека определяется как ожидаемый правильный результат за бесконечное количество независимых проверок. К сожалению, пользователи теста никогда не наблюдают истинный балл человека, а только наблюдаемый балл X . Предполагается, что наблюдаемая оценка = истинная оценка плюс некоторая ошибка :

 Х = Т + Е наблюдаемая оценка истинная ошибка оценки

Классическая теория тестов занимается отношениями между тремя переменными , , и в совокупности. Эти отношения используются, чтобы что-то сказать о качестве результатов тестов. В этом отношении наиболее важным понятием является надежность . Надежность наблюдаемых результатов теста , которая обозначается как , определяется как отношение истинной дисперсии оценок к наблюдаемой дисперсии оценок :

Поскольку можно показать, что дисперсия наблюдаемых оценок равна сумме дисперсии истинных оценок и дисперсии оценок ошибок, это эквивалентно

Это уравнение, которое формулирует соотношение сигнал/шум, имеет интуитивную привлекательность: надежность результатов тестов становится выше, когда доля дисперсии ошибок в результатах тестов становится меньше, и наоборот. Надежность равна доле дисперсии результатов тестов, которую мы могли бы объяснить, если бы знали истинные результаты. Квадратный корень из надежности представляет собой абсолютное значение корреляции между истинными и наблюдаемыми оценками.

Оценка тестов и результатов: надежность

Надежность не может быть оценена напрямую, поскольку для этого потребуется знать истинные оценки, что согласно классической теории испытаний невозможно. Однако оценки надежности можно получить различными способами. Одним из способов оценки надежности является построение так называемого параллельного теста . Фундаментальным свойством параллельного теста является то, что он дает одинаковый истинный результат и ту же наблюдаемую дисперсию результатов, что и исходный тест для каждого человека. Если у нас есть параллельные тесты x и x', то это означает, что

и

При этих предположениях из этого следует, что корреляция между результатами параллельных тестов равна надежности (доказательство см. в Lord & Novick, 1968, гл. 2).

Использование параллельных тестов для оценки надежности затруднительно, поскольку параллельные тесты очень трудно найти. На практике метод используется редко. Вместо этого исследователи используют меру внутренней согласованности, известную как показатель Кронбаха . Рассмотрим тест, состоящий из пунктов , . Общий балл за тест определяется как сумма баллов по отдельным пунктам, так что для отдельных

Тогда альфа Кронбаха равна

Можно показать, что метод Кронбаха обеспечивает нижнюю границу надежности при довольно мягких предположениях. [ нужна цитата ] Таким образом, надежность результатов тестов в популяции всегда выше, чем значение теста Кронбаха в этой популяции. Таким образом, этот метод эмпирически осуществим и, как следствие, очень популярен среди исследователей. Расчет Кронбаха включен во многие стандартные статистические пакеты, такие как SPSS и SAS . [3]

Как было отмечено выше, все упражнения классической теории испытаний направлены на то, чтобы прийти к подходящему определению надежности. Предполагается, что надежность что-то говорит об общем качестве рассматриваемых тестов. Общая идея заключается в том, что чем выше надежность, тем лучше. Классическая теория испытаний не говорит, насколько высокой должна быть надежность. Слишком высокое значение , скажем, более 0,9 указывает на избыточность элементов. Для исследований личности рекомендуется значение около 0,8, а для индивидуального тестирования с высокими ставками желательно значение 0,9+. [4] Эти «критерии» не основаны на формальных аргументах, а скорее являются результатом общепринятых норм и профессиональной практики. Неясно, в какой степени их можно сопоставить с формальными принципами статистического вывода.

Оценка элементов: корреляция P и общего количества элементов.

Надежность представляет собой удобный показатель качества испытаний, выражаемый одним числом — надежностью. Однако он не предоставляет никакой информации для оценки отдельных элементов. Анализ предметов в рамках классического подхода часто опирается на две статистики: P-значение (долю) и корреляцию общего количества предметов ( коэффициент корреляции между точками и бисериями ). Значение P представляет собой долю испытуемых, ответивших в указанном направлении, и обычно называется сложностью задания . Корреляция общего количества предметов обеспечивает индекс различения или дифференцирующей способности предмета и обычно называется распознаванием предмета . Кроме того, эта статистика рассчитывается для каждого ответа на часто используемый вопрос с множественным выбором и используется для оценки вопросов и диагностики возможных проблем, таких как сбивающий с толку отвлекающий фактор. Такой ценный анализ обеспечивается специально разработанным психометрическим программным обеспечением .

Альтернативы

Классическая теория тестов является влиятельной теорией результатов тестов в социальных науках. В психометрии эта теория была заменена более сложными моделями теории ответа на задание (IRT) и теории обобщаемости (G-теория). Однако IRT не включен в стандартные статистические пакеты, такие как SPSS , но SAS может оценивать модели IRT через PROC IRT и PROC MCMC, а также существуют пакеты IRT для языка статистического программирования с открытым исходным кодом R (например, CTT). Хотя коммерческие пакеты обычно предоставляют оценки Кронбаха , специализированное психометрическое программное обеспечение может быть предпочтительным для IRT или G-теории. Однако общие статистические пакеты часто не обеспечивают полного классического анализа (данные Кронбаха — лишь одна из многих важных статистических данных), и во многих случаях также необходимо специализированное программное обеспечение для классического анализа.

Недостатки

Одним из наиболее важных или хорошо известных недостатков классической теории тестирования является то, что характеристики испытуемого и характеристики теста нельзя разделить: каждую можно интерпретировать только в контексте другой. Другой недостаток заключается в определении надежности, которое существует в классической теории тестов, в которой говорится, что надежность - это «корреляция между результатами тестов в параллельных формах теста». [5] Проблема в том, что существуют разные мнения о том, что такое параллельные тесты. Различные коэффициенты надежности дают либо оценки надежности с нижней границей, либо оценки надежности с неизвестными смещениями. Третий недостаток связан со стандартной ошибкой измерения. Проблема здесь в том, что согласно классической теории тестирования предполагается, что стандартная ошибка измерения одинакова для всех испытуемых. Однако, как объясняет Хэмблтон в своей книге, баллы по любому тесту являются неодинаково точными показателями для испытуемых с разными способностями, что делает неправдоподобным предположение о равных ошибках измерения для всех испытуемых (Hambleton, Swaminathan, Rogers, 1991, стр. 4). Четвертый и последний недостаток классической теории тестирования заключается в том, что она ориентирована на тесты, а не на задания. Другими словами, классическая теория тестирования не может помочь нам предсказать, насколько хорошо отдельный человек или даже группа испытуемых справятся с заданием теста. [5]

Смотрите также

Примечания

  1. ^ Национальный совет по измерению в образовании http://www.ncme.org/ncme/NCME/Resource_Center/Glossary/NCME/Resource_Center/Glossary1.aspx?hkey=4bb87415-44dc-4088-9ed9-e8515326a061#anchorC. Архивировано 22 июля 2017 г. в Wayback Machine
  2. ^ Трауб, Р. (1997). Классическая теория тестирования в исторической перспективе. Измерение образования: проблемы и практика 16 (4), 8–14. doi:doi:10.1111/j.1745-3992.1997.tb00603.x
  3. ^ Пуй-Ва Лей и Цюн Ву (2007). «CTTITEM: макрос SAS и синтаксис SPSS для классического анализа элементов». Методы исследования поведения . 39 (3): 527–530. дои : 10.3758/BF03193021 . ПМИД  17958163.
  4. ^ Стрейнер, Д.Л. (2003). «Начиная с самого начала: введение в коэффициент альфа и внутреннюю согласованность». Журнал оценки личности . 80 (1): 99–103. doi : 10.1207/S15327752JPA8001_18. HDL : 11655/5356 . PMID  12584072. S2CID  3679277.
  5. ^ ab Хэмблтон, Р., Сваминатан, Х., Роджерс, Х. (1991). Основы теории ответов на вопросы . Ньюбери-Парк, Калифорния: Sage Publications, Inc.

Рекомендации

дальнейшее чтение

Внешние ссылки