Теория ответов на вопросы

В психометрии теория ответов на вопросы ( IRT ) (также известная как теория латентных черт , теория сильных истинных оценок или современная теория ментальных тестов ) является парадигмой для разработки, анализа и оценки тестов , анкет и аналогичных инструментов, измеряющих способности, отношения или другие переменные. Это теория тестирования, основанная на взаимосвязи между результатами отдельных лиц по тестовому заданию и уровнями результатов испытуемых по общей мере способности, для измерения которой был разработан этот элемент. Для представления характеристик как элемента, так и испытуемого используется несколько различных статистических моделей. ^[1] В отличие от более простых альтернатив для создания шкал и оценки ответов на вопросы, она не предполагает, что каждый элемент одинаково сложен. Это отличает IRT, например, от шкалы Лайкерта , в которой « Все элементы считаются копиями друг друга или, другими словами, элементы считаются параллельными инструментами». ^[2] Напротив, теория ответов на вопросы рассматривает сложность каждого вопроса (кривые характеристик вопросов, или ICC) как информацию, которая должна быть включена в элементы шкалирования.

Он основан на применении связанных математических моделей к данным тестирования . Поскольку его часто считают превосходящим классическую теорию тестирования , ^[3] он является предпочтительным методом разработки шкал в Соединенных Штатах, ^{[ необходима ссылка ]} особенно когда требуются оптимальные решения, как в так называемых тестах с высокими ставками , например, Graduate Record Examination (GRE) и Graduate Management Admission Test (GMAT).

Название теории ответа на элемент обусловлено фокусом теории на элементе, в отличие от фокуса на уровне теста классической теории тестов. Таким образом, IRT моделирует ответ каждого испытуемого с заданной способностью на каждый элемент теста. Термин элемент является общим, охватывающим все виды информативных элементов. Это могут быть вопросы с несколькими вариантами ответов, которые имеют неправильные и правильные ответы, но также являются обычными утверждениями в анкетах, которые позволяют респондентам указывать уровень согласия ( рейтинг или шкала Лайкерта ), или симптомы пациента, оцененные как присутствующие/отсутствующие, или диагностическая информация в сложных системах.

IRT основан на идее, что вероятность правильного/ключевого ответа на элемент является математической функцией параметров человека и элемента . (Выражение «математическая функция параметров человека и элемента» аналогично уравнению Левина , B = f(P, E) , которое утверждает, что поведение является функцией человека в его среде.) Параметр человека толкуется как (обычно) одна скрытая черта или измерение. Примерами являются общий интеллект или сила отношения. Параметры, по которым характеризуются элементы, включают их сложность (известную как «расположение» из-за их расположения в диапазоне сложности); дискриминацию (наклон или корреляция), представляющую, насколько круто меняется уровень успеха людей в зависимости от их способностей; и параметр псевдоугадывания, характеризующий (нижнюю) асимптоту, при которой даже наименее способные люди будут набирать баллы из-за угадывания (например, 25% для чистой случайности в элементе с множественным выбором с четырьмя возможными ответами).

Таким же образом IRT может использоваться для измерения человеческого поведения в онлайновых социальных сетях. Мнения, выраженные разными людьми, могут быть агрегированы для изучения с помощью IRT. Также была оценена его возможность классификации информации как дезинформации или истинной информации.

Обзор

Концепция функции ответа на вопрос существовала примерно до 1950 года. Пионерская работа над теорией IRT проводилась в 1950-х и 1960-х годах. Трое из пионеров — психометрист Службы образовательного тестирования Фредерик М. Лорд ^[4] , датский математик Георг Раш и австрийский социолог Пауль Лазарсфельд , которые независимо друг от друга проводили параллельные исследования. Ключевыми фигурами, способствовавшими прогрессу IRT, являются Бенджамин Дрейк Райт и Дэвид Андрич . IRT не получила широкого распространения до конца 1970-х и 1980-х годов, когда специалистам рассказали о «полезности» и «преимуществах» IRT, с одной стороны, и персональные компьютеры предоставили многим исследователям доступ к вычислительной мощности, необходимой для IRT, с другой. В 1990-х годах Маргарет Ву разработала две программы для ответов на вопросы, которые анализируют данные PISA и TIMSS; ACER ConQuest (1998) и R-пакет TAM (2010).

Среди прочего, цель IRT — предоставить основу для оценки того, насколько хорошо работают оценки и насколько хорошо работают отдельные элементы оценок. Наиболее распространенное применение IRT — в образовании, где психометристы используют его для разработки и проектирования экзаменов , поддержания банков элементов для экзаменов и выравнивания сложности элементов для последовательных версий экзаменов (например, чтобы можно было сравнивать результаты с течением времени). ^[5]

Модели IRT часто называют моделями скрытых черт . Термин «скрытый» используется для того, чтобы подчеркнуть, что дискретные ответы на вопросы считаются наблюдаемыми проявлениями предполагаемых черт, конструкций или атрибутов, которые не наблюдаются напрямую, но которые должны быть выведены из явных ответов. Модели скрытых черт были разработаны в области социологии, но фактически идентичны моделям IRT.

IRT обычно заявляется как улучшение по сравнению с классической теорией тестирования (CTT). Для задач, которые могут быть выполнены с использованием CTT, IRT обычно обеспечивает большую гибкость и предоставляет более сложную информацию. Некоторые приложения, такие как компьютеризированное адаптивное тестирование , поддерживаются IRT и не могут быть разумно выполнены с использованием только классической теории тестирования. Еще одним преимуществом IRT перед CTT является то, что более сложная информация, предоставляемая IRT , позволяет исследователю повысить надежность оценки .

IRT предполагает три предположения:

Одномерная черта, обозначаемая как ; ${\тета}$
Локальная независимость элементов;
Реакцию человека на предмет можно смоделировать с помощью математической функции реакции предмета (IRF).

Далее предполагается, что черта может быть измерена по шкале (само существование теста предполагает это), обычно установленной по стандартной шкале со средним значением 0,0 и стандартным отклонением 1,0. Одномерность следует интерпретировать как однородность, качество, которое должно быть определено или эмпирически продемонстрировано в отношении заданной цели или использования, но не как количество, которое можно измерить. «Локальная независимость» означает (a) что вероятность использования одного элемента не связана с использованием любого другого элемента(ов) и (b) что ответ на элемент является независимым решением каждого испытуемого, то есть нет никакого списывания или парной или групповой работы. Тема размерности часто исследуется с помощью факторного анализа , в то время как IRF является основным строительным блоком IRT и находится в центре многих исследований и литературы.

Функция ответа элемента

IRF дает вероятность того, что человек с заданным уровнем способностей ответит правильно. У людей с более низкими способностями меньше шансов, в то время как люди с высокими способностями с большой вероятностью ответят правильно; например, ученики с более высокими математическими способностями с большей вероятностью правильно ответят на математический вопрос. Точное значение вероятности зависит, помимо способностей, от набора параметров вопроса для IRF.

Трёхпараметрическая логистическая модель

Например, в трехпараметрической логистической модели ( 3PL ) вероятность правильного ответа на дихотомический вопрос i , обычно вопрос с множественным выбором, равна:

p_{i}({\theta })=c_{i}+{\frac {1-c_{i}}{1+e^{-a_{i}({\theta }-b_{i})}}}

где указывает, что способности человека моделируются как выборка из нормального распределения с целью оценки параметров элемента. После оценки параметров элемента, способности отдельных людей оцениваются для целей отчетности. , , и являются параметрами элемента. Параметры элемента определяют форму IRF. На рисунке 1 изображена идеальная 3PL ICC. ${\тета}$ $a_{i}$ $b_{i}$ $c_{i}$

Параметры элемента можно интерпретировать как изменение формы стандартной логистической функции :

P(t)={\frac {1}{1+e^{-t}}}.

Вкратце параметры интерпретируются следующим образом (индексы опущены для удобства чтения); b — самый базовый, поэтому указан первым:

b – сложность, расположение элемента: середина между (мин) и 1 (макс), а также там, где наклон максимален. $p(b)=(1+c)/2,$ $c_{i}$
а – дискриминация, масштаб, наклон: максимальный наклон $p'(b)=a\cdot (1-c)/4.$
c – псевдоугадывание, случайность, асимптотический минимум $p(-\infty)=c.$

Если затем упростить их до и, что означает, что b равно 50% уровню успеха (сложности), а a (деленное на четыре) является максимальным наклоном (дискриминацией), который происходит на 50% уровне успеха. Кроме того, логарифм ( логарифм шансов ) правильного ответа (предполагая ): в частности, если способность θ равна сложности b, есть равные шансы (1:1, поэтому логарифм 0) правильного ответа, чем больше способность выше (или ниже) сложности, тем больше (или меньше) вероятность правильного ответа, причем дискриминация a определяет, насколько быстро шансы увеличиваются или уменьшаются со способностью. $с=0,$ $p(b)=1/2$ $p'(b)=a/4,$ $а(\theta -b)$ $с=0$

Другими словами, стандартная логистическая функция имеет асимптотический минимум 0 ( ), центрирована вокруг 0 ( , ) и имеет максимальный наклон. Параметр растягивает горизонтальную шкалу, параметр смещает горизонтальную шкалу, а параметр сжимает вертикальную шкалу от до Это подробно описано ниже. $с=0$ $b=0$ $P(0)=1/2$ $P'(0)=1/4.$ $а$ $б$ $с$ $[0,1]$ $[c,1].$

Параметр представляет местоположение элемента, которое в случае тестирования достижений называется сложностью элемента. Это точка, в которой IRF имеет максимальный наклон, и где значение находится на полпути между минимальным значением и максимальным значением 1. Элемент примера имеет среднюю сложность, поскольку = 0,0, что близко к центру распределения. Обратите внимание, что эта модель масштабирует сложность элемента и черту человека на одном и том же континууме. Таким образом, можно говорить о том, что элемент примерно такой же сложный, как уровень черты человека A, или о том, что уровень черты человека примерно такой же, как сложность элемента Y, в том смысле, что успешное выполнение задачи, связанной с элементом, отражает определенный уровень способностей. $b_{i}$ ${\тета}$ $c_{i}$ $b_{i}$

Параметр элемента представляет дискриминацию элемента: то есть степень, в которой элемент дискриминирует людей в разных регионах латентного континуума. Этот параметр характеризует наклон IRF, где наклон максимален. В примере элемента = 1,0, что дискриминирует довольно хорошо; люди с низкими способностями действительно имеют гораздо меньшие шансы правильно ответить, чем люди с более высокими способностями. Этот параметр дискриминации соответствует весовому коэффициенту соответствующего элемента или индикатора в стандартной взвешенной линейной (метод наименьших квадратов, OLS ) регрессии и, следовательно, может использоваться для создания взвешенного индекса индикаторов для неконтролируемого измерения базовой латентной концепции. $a_{i}$ $a_{i}$

Для таких элементов, как элементы с множественным выбором , параметр используется в попытке учесть влияние угадывания на вероятность правильного ответа. Он указывает вероятность того, что люди с очень низкими способностями ответят на этот элемент правильно случайно, математически представленную как нижняя асимптота . Элемент с четырьмя вариантами множественного выбора может иметь IRF, как в примере; существует 1/4 шанса того, что кандидат с крайне низкими способностями угадает правильный ответ, поэтому будет приблизительно 0,25. Этот подход предполагает, что все варианты одинаково правдоподобны, потому что если один вариант не имеет смысла, даже человек с самыми низкими способностями сможет отбросить его, поэтому методы оценки параметра IRT учитывают это и оценивают на основе наблюдаемых данных. ^[6] $c_{i}$ $c_{i}$ $c_{i}$

Модели ИРТ

В широком смысле, модели IRT можно разделить на два семейства: одномерные и многомерные. Одномерные модели требуют одного измерения черты (способности) . Многомерные модели IRT моделируют данные отклика, которые, как предполагается, возникают из нескольких черт. Однако из-за значительно возросшей сложности большинство исследований и приложений IRT используют одномерную модель. ${\тета}$

Модели IRT также можно классифицировать на основе количества оцениваемых ответов. Типичный элемент с множественным выбором является дихотомическим ; даже если может быть четыре или пять вариантов, он все равно оценивается только как правильный/неправильный (верный/неверный). Другой класс моделей применяется к политомическим результатам, где каждый ответ имеет разное значение балла. ^[7]^[8] Распространенным примером этого являются элементы типа Лайкерта , например, «Оцените по шкале от 1 до 5». Другим примером является частичный кредитный скоринг, к которому могут применяться такие модели, как политомическая модель Раша .

Количество параметров ИРТ

Дихотомические модели IRT описываются числом параметров, которые они используют. ^[9] Модель 3PL названа так, потому что она использует три параметра элемента. Двухпараметрическая модель (2PL) предполагает, что данные не предполагают, но элементы могут различаться по местоположению ( ) и дискриминации ( ). Однопараметрическая модель (1PL) предполагает, что предположение является частью способности и что все элементы, соответствующие модели, имеют эквивалентные дискриминации, так что элементы описываются только одним параметром ( ). Это приводит к тому, что однопараметрические модели обладают свойством специфической объективности, что означает, что ранг сложности элемента одинаков для всех респондентов независимо от способности, и что ранг способности человека одинаков для элементов независимо от сложности. Таким образом, модели с одним параметром независимы от выборки, свойство, которое не выполняется для двухпараметрических и трехпараметрических моделей. Кроме того, теоретически существует четырехпараметрическая модель (4PL) с верхней асимптотой , обозначенной как , где в 3PL заменяется на . Однако это используется редко. Обратите внимание, что алфавитный порядок параметров элемента не соответствует их практической или психометрической важности; параметр местоположение/сложность ( ) явно наиболее важен, поскольку он включен во все три модели. 1PL использует только , 2PL использует и , 3PL добавляет , а 4PL добавляет . $b_{i}$ $a_{i}$ $b_{i}$ $d_{i},$ $1-c_{i}$ $d_{i}-c_{i}$ $b_{i}$ $b_{i}$ $b_{i}$ $a_{i}$ $c_{i}$ $d_{i}$

Модель 2PL эквивалентна модели 3PL с , и подходит для тестирования заданий, где угадывание правильного ответа крайне маловероятно, например, заданий с заполнением пропусков («Чему равен квадратный корень из 121?»), или где концепция угадывания неприменима, например, заданий, касающихся личности, отношения или интересов (например, «Мне нравятся бродвейские мюзиклы. Согласен/Не согласен»). $c_{i}=0$

1PL предполагает не только, что угадывание отсутствует (или не имеет значения), но и что все элементы эквивалентны с точки зрения дискриминации, аналогично общему факторному анализу с идентичными нагрузками для всех элементов. Отдельные элементы или индивиды могут иметь вторичные факторы, но они предполагаются взаимно независимыми и коллективно ортогональными .

Логистические и обычные модели IRT

Альтернативная формулировка строит IRF на основе нормального распределения вероятностей; иногда их называют нормальными оживальными моделями . Например, формула для двухпараметрической нормальной оживальной IRF выглядит следующим образом:

p_{i}(\theta )=\Phi \left({\frac {\theta -b_{i}}{\sigma _{i}}}\right)

где Φ — кумулятивная функция распределения (CDF) стандартного нормального распределения.

Нормально-оживальная модель вытекает из предположения о нормально распределенной ошибке измерения и теоретически привлекательна на этой основе. Вот , опять же, параметр сложности. Параметр дискриминации — это , стандартное отклонение ошибки измерения для элемента i , и сопоставимо с 1/ . $b_{i}$ ${\сигма}_{я}$ $a_{i}$

Можно оценить нормально-оживальную модель скрытых признаков, проведя факторный анализ матрицы тетрахорических корреляций между элементами. ^[10] Это означает, что технически возможно оценить простую модель IRT с использованием статистического программного обеспечения общего назначения.

При изменении масштаба параметра способности можно сделать логистическую модель 2PL близкой к кумулятивной нормальной огиве. ^[11] Обычно логистические модели 2PL и нормальные огивы IRF отличаются по вероятности не более чем на 0,01 по всему диапазону функции. Однако наибольшая разница наблюдается в хвостах распределения, которые, как правило, оказывают большее влияние на результаты.

Модель скрытых признаков/IRT изначально была разработана с использованием нормальных огивов, но в то время (1960-е годы) это считалось слишком требовательным к вычислительным ресурсам для компьютеров. Логистическая модель была предложена как более простая альтернатива и с тех пор широко используется. Однако совсем недавно было продемонстрировано, что при использовании стандартных полиномиальных приближений к нормальной CDF [ ^12] нормальная огивная модель не более требовательна к вычислительным ресурсам, чем логистические модели. ^[13]

Модель Раша

Модель Раша часто считается моделью 1PL IRT. Однако сторонники моделирования Раша предпочитают рассматривать ее как совершенно иной подход к концептуализации связи между данными и теорией. ^[14] Как и другие подходы статистического моделирования, IRT подчеркивает приоритет соответствия модели наблюдаемым данным, ^[15] в то время как модель Раша подчеркивает приоритет требований к фундаментальному измерению, при этом адекватное соответствие модели данных является важным, но вторичным требованием, которое должно быть выполнено до того, как тестовый или исследовательский инструмент может быть заявлен для измерения признака. ^[16] С точки зрения эксплуатации это означает, что подходы IRT включают дополнительные параметры модели для отражения закономерностей, наблюдаемых в данных (например, позволяя элементам варьироваться в своей корреляции со скрытым признаком), тогда как в подходе Раша утверждения относительно наличия скрытого признака могут считаться действительными только тогда, когда и (a) данные соответствуют модели Раша, и (b) тестовые элементы и испытуемые соответствуют модели. Таким образом, в моделях Раша несоответствующие ответы требуют диагностики причины несоответствия и могут быть исключены из набора данных, если можно обоснованно объяснить, почему они не учитывают скрытую черту. ^[17] Таким образом, подход Раша можно рассматривать как подтверждающий подход, в отличие от исследовательских подходов, которые пытаются моделировать наблюдаемые данные.

Наличие или отсутствие параметра угадывания или псевдослучайности является основным и иногда спорным различием. Подход IRT включает параметр левой асимптоты для учета угадывания в экзаменах с множественным выбором , в то время как модель Раша не включает, поскольку предполагается, что угадывание добавляет случайно распределенный шум к данным. Поскольку шум распределен случайным образом, предполагается, что при условии проверки достаточного количества элементов ранжирование лиц по скрытой черте по сырой оценке не изменится, а просто подвергнется линейному перемасштабированию. Напротив, трехпараметрический IRT достигает соответствия модели данных путем выбора модели, которая соответствует данным, ^[18] за счет жертвования определенной объективностью.

На практике модель Раша имеет по крайней мере два основных преимущества по сравнению с подходом IRT. Первое преимущество — это главенство конкретных требований Раша, ^[19] которые (при их выполнении) обеспечивают фундаментальное измерение без человека (где люди и предметы могут быть отображены на одной и той же инвариантной шкале). ^[20] Другое преимущество подхода Раша заключается в том, что оценка параметров в моделях Раша более проста из-за наличия достаточной статистики, что в данном случае означает однозначное отображение необработанных числовых корректных оценок в оценки Раша. ^[21] ${\тета}$

Анализ соответствия модели

Как и при любом использовании математических моделей, важно оценить соответствие данных модели. Если несоответствие элемента какой-либо модели диагностируется как следствие низкого качества элемента, например, запутанных отвлекающих факторов в тесте с множественным выбором, то элементы могут быть удалены из этой формы теста и переписаны или заменены в будущих формах теста. Если, однако, возникает большое количество несоответствующих элементов без видимой причины для несоответствия, необходимо будет пересмотреть конструктную валидность теста и, возможно, необходимо будет переписать спецификации теста. Таким образом, несоответствие предоставляет бесценные диагностические инструменты для разработчиков тестов, позволяя эмпирически проверять гипотезы, на которых основаны спецификации теста, на основе данных.

Существует несколько методов оценки соответствия, например, статистика хи-квадрат или ее стандартизированная версия. Двух- и трехпараметрические модели IRT корректируют дискриминацию элементов, обеспечивая улучшенное соответствие модели данных, поэтому статистика соответствия не имеет подтверждающей диагностической ценности, присущей однопараметрическим моделям, где идеализированная модель указана заранее.

Данные не следует удалять на основании несоответствия модели, а скорее потому, что была диагностирована конструктивно релевантная причина несоответствия, например, неноситель английского языка сдавал написанный на английском языке тест по естественным наукам. Можно утверждать, что такой кандидат не принадлежит к той же популяции лиц в зависимости от размерности теста, и, хотя один параметр мер IRT, как утверждается, не зависит от выборки, они не являются независимыми от популяции, поэтому несоответствие, такое как это, является конструктивно релевантным и не делает недействительным тест или модель. Такой подход является важным инструментом в валидации инструмента. В двух- и трехпараметрических моделях, где психометрическая модель корректируется для соответствия данным, будущие введения теста должны проверяться на соответствие той же модели, которая использовалась при первоначальной валидации, чтобы подтвердить гипотезу о том, что баллы от каждого введения обобщаются на другие введения. Если для каждого введения указана другая модель для достижения соответствия модели данных, то измеряется другая скрытая черта, и нельзя утверждать, что баллы теста сопоставимы между введениями.

Информация

Одним из основных вкладов теории ответов на вопросы является расширение концепции надежности . Традиционно надежность относится к точности измерения (т. е. степени, в которой измерение свободно от ошибок). Традиционно она измеряется с помощью одного индекса, определяемого различными способами, например, как отношение истинной и наблюдаемой дисперсии баллов. Этот индекс полезен для характеристики средней надежности теста, например, для сравнения двух тестов. Но IRT ясно дает понять, что точность не является одинаковой во всем диапазоне баллов теста. Например, баллы на краях диапазона теста, как правило, имеют больше связанных с ними ошибок, чем баллы ближе к середине диапазона.

Теория ответов на элементы продвигает концепцию информации об элементах и тестах, чтобы заменить надежность. Информация также является функцией параметров модели. Например, согласно теории информации Фишера , информация об элементах, предоставленная в случае 1PL для дихотомических данных ответов, представляет собой просто вероятность правильного ответа, умноженную на вероятность неправильного ответа, или,

I(\theta )=p_{i}(\theta )q_{i}(\theta ).\,

Стандартная ошибка оценки (SE) является обратной величиной тестовой информации на данном уровне признака, это

{\text{SE}}(\theta )={\frac {1}{\sqrt {I(\theta )}}}.

Таким образом, чем больше информации, тем меньше погрешность измерения.

Для других моделей, таких как модели с двумя и тремя параметрами, параметр дискриминации играет важную роль в функции. Функция информации об элементе для модели с двумя параметрами имеет вид

I(\theta )=a_{i}^{2}p_{i}(\theta )q_{i}(\theta ).\,

Функция информации об элементе для трехпараметрической модели имеет вид

I(\theta )=a_{i}^{2}{\frac {(p_{i}(\theta )-c_{i})^{2}}{(1-c_{i})^{2}}}{\frac {q_{i}(\theta )}{p_{i}(\theta )}}.

^[22]

В целом, функции информации об элементах имеют колоколообразную форму. Высокодискриминирующие элементы имеют высокие, узкие информационные функции; они вносят большой вклад, но в узком диапазоне. Менее дискриминирующие элементы предоставляют меньше информации, но в более широком диапазоне.

Графики информации об элементах можно использовать для того, чтобы увидеть, сколько информации вносит элемент и какую часть диапазона баллов шкалы. Из-за локальной независимости функции информации об элементах являются аддитивными . Таким образом, функция информации о тесте — это просто сумма функций информации элементов на экзамене. Используя это свойство с большим банком элементов, функции информации о тесте можно формировать для очень точного контроля погрешности измерения .

Характеристика точности результатов тестов, возможно, является центральным вопросом в психометрической теории и является главным различием между IRT и CTT. Результаты IRT показывают, что концепция надежности CTT является упрощением. Вместо надежности IRT предлагает функцию информации о тесте, которая показывает степень точности при различных значениях тета, θ.

Эти результаты позволяют психометристам (потенциально) тщательно формировать уровень надежности для различных диапазонов способностей, включая тщательно выбранные элементы. Например, в ситуации сертификации , в которой тест может быть только сдан или провален, где есть только один «проходной балл», и где фактический проходной балл не важен, можно разработать очень эффективный тест, выбрав только элементы, которые имеют высокую информацию около проходного балла. Эти элементы обычно соответствуют элементам, сложность которых примерно такая же, как и у проходного балла.

Подсчет очков

Параметр личности представляет собой величину скрытой черты личности, которая является человеческой способностью или свойством, измеряемым тестом. ^[23] Это может быть когнитивная способность, физическая способность, навык, знание, отношение, характеристика личности и т. д. ${\theta }$

Оценка параметра человека — «оценка» в тесте с IRT — вычисляется и интерпретируется совершенно иным образом по сравнению с традиционными оценками, такими как число или процент правильных ответов. Общая оценка правильного числа ответов человека не является фактической оценкой, а основана на IRF, что приводит к взвешенной оценке, когда модель содержит параметры дискриминации элементов. Фактически она получается путем умножения функции ответа элемента для каждого элемента, чтобы получить функцию правдоподобия , наивысшая точка которой является оценкой максимального правдоподобия . Эта наивысшая точка обычно оценивается с помощью программного обеспечения IRT с использованием метода Ньютона-Рафсона . ^[24] Хотя оценка намного сложнее с IRT, для большинства тестов корреляция между оценкой тета и традиционной оценкой очень высока; часто она составляет 0,95 или более [цитата?]. График оценок IRT по сравнению с традиционными оценками показывает оживальную форму, подразумевающую, что IRT оценивает отдельных людей на границах диапазона больше, чем в середине. ${\theta }$

Важное различие между CTT и IRT заключается в обработке ошибки измерения, индексируемой стандартной ошибкой измерения . Все тесты, анкеты и инвентаризации являются неточными инструментами; мы никогда не можем знать истинный балл человека , а можем только иметь оценку, наблюдаемый балл. Существует некоторое количество случайной ошибки, которая может подтолкнуть наблюдаемый балл выше или ниже истинного балла. CTT предполагает, что размер ошибки одинаков для каждого испытуемого, но IRT допускает его варьирование. ^[25]

Кроме того, ничто в IRT не опровергает человеческое развитие или улучшение или не предполагает, что уровень черт фиксирован. Человек может освоить навыки, знания или даже так называемые «навыки прохождения теста», которые могут привести к более высокому истинному баллу. Фактически, часть исследований IRT фокусируется на измерении изменения уровня черт. ^[26]

Сравнение классической и предметной теорий реагирования

Классическая теория тестирования (CTT) и IRT в основном касаются одних и тех же проблем, но являются разными теоретическими блоками и влекут за собой разные методы. Хотя эти две парадигмы в целом последовательны и дополняют друг друга, есть ряд различий:

IRT делает более сильные предположения, чем CTT, и во многих случаях обеспечивает соответственно более сильные выводы; в первую очередь, характеристики ошибок. Конечно, эти результаты справедливы только тогда, когда предположения моделей IRT фактически выполняются.
Хотя результаты КТТ позволили получить важные практические результаты, модельная природа IRT дает множество преимуществ по сравнению с аналогичными результатами КТТ.
Преимущество процедур оценки результатов теста CTT заключается в том, что их просто вычислить (и объяснить), тогда как оценка результатов теста IRT обычно требует относительно сложных процедур оценки.
IRT обеспечивает несколько улучшений в масштабировании предметов и людей. Конкретные особенности зависят от модели IRT, но большинство моделей масштабируют сложность предметов и способности людей по одной и той же метрике. Таким образом, сложность предмета и способности человека можно осмысленно сравнивать.
Еще одно улучшение, предоставляемое IRT, заключается в том, что параметры моделей IRT, как правило, не зависят от образца или теста, тогда как истинная оценка определяется в CTT в контексте конкретного теста. Таким образом, IRT обеспечивает значительно большую гибкость в ситуациях, когда используются различные образцы или формы теста. Эти результаты IRT являются основополагающими для компьютерного адаптивного тестирования.

Стоит также упомянуть некоторые специфические сходства между CTT и IRT, которые помогают понять соответствие между концепциями. Во-первых, Лорд ^[27] показал, что при предположении, что распределено нормально, дискриминация в модели 2PL является приблизительно монотонной функцией точечно -бисериальной корреляции . В частности: $\theta$

a_{i}\cong {\frac {\rho _{it}}{\sqrt {1-\rho _{it}^{2}}}}

где — точечная бисериальная корреляция элемента i . Таким образом, если предположение верно, то там, где есть более высокая дискриминация, как правило, будет и более высокая точечно-бисериальная корреляция. $\rho _{it}$

Другое сходство заключается в том, что хотя IRT обеспечивает стандартную ошибку каждой оценки и информационную функцию, также возможно получить индекс для теста в целом, который является прямым аналогом альфа Кронбаха , называемый индексом разделения . Чтобы сделать это, необходимо начать с разложения оценки IRT на истинное местоположение и ошибку, аналогично разложению наблюдаемой оценки на истинную оценку и ошибку в CTT. Пусть

{\hat {\theta }}=\theta +\epsilon

где - истинное местоположение, а - ошибка ассоциации с оценкой. Затем - оценка стандартного отклонения для человека с заданной взвешенной оценкой, а индекс разделения получается следующим образом $\theta$ $\epsilon$ ${\mbox{SE}}({\theta })$ $\epsilon$

R_{\theta }={\frac {{\text{var}}[\theta ]}{{\text{var}}[{\hat {\theta }}]}}={\frac {{\text{var}}[{\hat {\theta }}]-{\text{var}}[\epsilon ]}{{\text{var}}[{\hat {\theta }}]}}

где среднеквадратическая стандартная ошибка оценки человека дает оценку дисперсии ошибок, , по людям. Стандартные ошибки обычно производятся как побочный продукт процесса оценки. Индекс разделения обычно очень близок по значению к альфа Кронбаха. ^[28] $\epsilon _{n}$

Иногда IRT называют сильной теорией истинного счета или современной теорией ментального тестирования, поскольку она представляет собой более позднюю теорию и более четко формулирует гипотезы, подразумеваемые в CTT.

Выполнение

Реализации различных вариаций теории отклика элемента доступны во многих различных статистических программах и языках, включая язык программирования R , ^[29]^[30]^[31] и Python . ^[32]

Смотрите также

Ссылки

^ "Глоссарий важных терминов оценки и измерения". Национальный совет по измерению в образовании . Архивировано из оригинала 2017-07-22.
^ A. van Alphen, R. Halfens, A. Hasman и T. Imbos. (1994). Лайкерт или Раш? Нет ничего более применимого, чем хорошая теория. Journal of Advanced Nursing . 20 , 196-201
^ Эмбретсон, Сьюзен Э.; Рейз, Стивен П. (2000). Теория ответов на вопросы для психологов. Psychology Press. ISBN 9780805828191.
^ Обзор исследований ETS
^ Хэмблтон, Р. К., Сваминатан, Х. и Роджерс, Х. Дж. (1991). Основы теории ответов на вопросы . Ньюбери-Парк, Калифорния: Sage Press.
^ Бок, РД; Эйткин, М. (1981). «Оценка предельного максимального правдоподобия параметров элемента: применение алгоритма EM». Психометрика . 46 (4): 443–459. doi :10.1007/BF02293801. S2CID 122123206.
^ Остини, Ремо; Неринг, Майкл Л. (2005). Модели теории политомических ответов на вопросы. Количественные приложения в социальных науках. Том 144. SAGE. ISBN 978-0-7619-3068-6.
^ Неринг, Майкл Л.; Остини, Ремо, ред. (2010). Справочник по моделям теории политомических ответов на вопросы. Тейлор и Фрэнсис. ISBN 978-0-8058-5992-8.
^ Thissen, D. & Orlando, M. (2001). Теория ответов на вопросы для вопросов, оцениваемых по двум категориям. В D. Thissen & Wainer, H. (ред.), Test Scoring (стр. 73–140). Mahwah, NJ: Lawrence Erlbaum Associates, Inc.
^ KG Jöreskog и D. Sörbom (1988). Руководство пользователя PRELIS 1, версия 1. Чикаго: Scientific Software, Inc.
^ Камилли, Грегори (1994). «Происхождение масштабной константы d = 1,7 в теории ответов на вопросы». Журнал образовательной и поведенческой статистики . 19 (3): 293–295. doi :10.3102/10769986019003293. S2CID 122401679.
^ Абрамовиц М., Стигун И.А. (1972). Справочник по математическим функциям . Вашингтон, округ Колумбия: Типография правительства США.
^ Uebersax, JS (декабрь 1999 г.). «Пробит-анализ латентного класса с дихотомическими или упорядоченными мерами категорий: условные модели независимости/зависимости». Applied Psychological Measurement . 23 (4): 283–297. doi :10.1177/01466219922031400. S2CID 120497324.
^ Андрич, Д. (1989), Различия между предположениями и требованиями при измерении в социальных науках, в Китсе, JA, Тафте, Р., Хите, RA, Ловибонде, С. (редакторы), Математические и теоретические системы , Elsevier Science Publishers, Северная Голландия, Амстердам, стр. 7-16.
^ Steinberg, J. (2000). Фредерик Лорд, который придумал критерий тестирования, умер в возрасте 87 лет. New York Times, 10 февраля 2000 г.
^ Андрич, Д. (январь 2004 г.). «Противоречие и модель Раша: характеристика несовместимых парадигм?». Медицинская помощь . 42 (1): I–7. doi :10.1097/01.mlr.0000103528.48582.7c. PMID 14707751. S2CID 23087904.
^ Смит, Р. М. (1990). «Теория и практика соответствия». Труды по измерению Раша . 3 (4): 78.
^ Цвик, Р.; Тайер, Д.Т.; Вингерски, М. (декабрь 1995 г.). «Влияние калибровки Раша на оценку способностей и DIF в компьютерно-адаптивных тестах». Журнал образовательных измерений . 32 (4): 341–363. doi :10.1111/j.1745-3984.1995.tb00471.x.
^ Раш, Г. (1960/1980). Вероятностные модели для некоторых тестов интеллекта и достижений . (Копенгаген, Датский институт исследований в области образования), расширенное издание (1980) с предисловием и послесловием Б. Д. Райта. Чикаго: Издательство Чикагского университета.
^ Райт, Б.Д. (1992). «IRT в 1990-х: какие модели работают лучше всего?». Труды Rasch Measurement Transactions . 6 (1): 196–200.
^ Фишер, Г. Х. и Моленаар, И. В. (1995). Модели Раша: основы, последние разработки и приложения . Нью-Йорк: Springer.
^ де Айяла, Р. Дж. (2009). Теория и практика теории ответов на вопросы , Нью-Йорк, Нью-Йорк: The Guilford Press. (6.12), стр. 144
^ Lazarsfeld PF, & Henry NW (1968). Анализ латентной структуры . Бостон: Houghton Mifflin.
^ Томпсон, NA (2009). «Оценка способностей с помощью IRT» (PDF) .
^ Колен, Майкл Дж.; Цзэн, Линцзя; Хансон, Брэдли А. (июнь 1996 г.). «Условные стандартные ошибки измерения для шкал баллов с использованием IRT». Журнал образовательных измерений . 33 (2): 129–140. doi :10.1111/j.1745-3984.1996.tb00485.x.
^ Холл, Л. А. и Макдональд, Дж. Л. (2000). Измерение изменений в восприятии учителями влияния развития персонала на преподавание. Доклад, представленный на ежегодном собрании Американской ассоциации образовательных исследований (Новый Орлеан, Луизиана, 24–28 апреля 2000 г.).
^ Лорд, Ф. М. (1980). Применение теории ответов на вопросы к практическим задачам тестирования . Махвах, Нью-Джерси: Lawrence Erlbaum Associates, Inc.
^ Андрич, Д. (1982). «Индекс разделения личности в теории скрытых черт, традиционный индекс KR.20 и модель ответа шкалы Гуттмана». Исследования и перспективы образования . 9 : 95–104.
^ Чалмерс, Р. Филип (2012). "mirt: Пакет теории многомерных ответов на вопросы для среды R". Журнал статистического программного обеспечения . 48 (6). doi : 10.18637/jss.v048.i06 .
^ Бюркнер, Пол-Кристиан (2021). «Моделирование байесовских ответов на вопросы в R с brms и Stan». Журнал статистического программного обеспечения . 100 (5). doi : 10.18637/jss.v100.i05 .
^ Майр, Патрик; Россель, Ив; Грубер, Катрин (15 декабря 2023 г.). «Вид задач CRAN: психометрические модели и методы». cran.r-project.org . Получено 3 октября 2024 г. .
^ Лалор, Джон Патрик; Родригес, Педро (январь 2023 г.). «py-irt: масштабируемая библиотека теории отклика элементов для Python». INFORMS Journal on Computing . 35 (1): 5–13. doi :10.1287/ijoc.2022.1250.

Дальнейшее чтение

Было написано много книг, которые рассматривают теорию ответов на вопросы или содержат модели IRT или IRT-подобные модели. Это частичный список, в котором основное внимание уделяется текстам, которые предоставляют большую глубину.

Лорд, Ф. М. (1980). Применение теории ответов на вопросы к практическим задачам тестирования. Махвах, Нью-Джерси: Erlbaum.

Эта книга суммирует большую часть работы Лорда по IRT, включая главы о связи между IRT и классическими методами, основах IRT, оценке и нескольких продвинутых темах. Глава об оценке в настоящее время устарела, поскольку в ней в первую очередь обсуждается метод совместного максимального правдоподобия, а не метод маргинального максимального правдоподобия, реализованный Дарреллом Боком и его коллегами.

Эмбретсон, Сьюзен Э.; Рейз, Стивен П. (2000). Теория ответа на вопрос для психологов. Psychology Press. ISBN 978-0-8058-2819-1.

Эта книга представляет собой доступное введение в ИРТ, предназначенное, как следует из названия, для психологов.

Бейкер, Фрэнк (2001). Основы теории ответов на вопросы. ERIC Clearinghouse по оценке и анализу, Мэрилендский университет, Колледж-Парк, Мэриленд.

Эта вводная книга написана одним из пионеров в этой области и доступна в Интернете по адресу [1]

Бейкер, Фрэнк Б.; Ким, Сок-Хо (2004). Теория отклика элемента: Методы оценки параметров (2-е изд.). Марсель Деккер. ISBN 978-0-8247-5825-7.

В этой книге описываются различные модели теории ответов на предметы и даются подробные объяснения алгоритмов, которые можно использовать для оценки параметров предметов и способностей. Части книги доступны онлайн в виде ограниченного предварительного просмотра в Google Books .

ван дер Линден, Вим Дж.; Хэмблтон, Рональд К., ред. (1996). Справочник по современной теории реагирования на предметы. Спрингер. ISBN 978-0-387-94661-0.

Эта книга дает всесторонний обзор различных популярных моделей IRT. Она хорошо подходит для тех, кто уже имеет базовые знания об IRT.

де Бек, Пол; Уилсон, Марк (2004). Модели ответов на объяснительные вопросы: обобщенный линейный и нелинейный подход. Springer. ISBN 978-0-387-40275-8.

В этом томе представлено комплексное введение в модели ответов на вопросы, предназначенное в основном для практиков, исследователей и аспирантов.

Фокс, Жан-Поль (2010). Байесовское моделирование ответов на вопросы: теория и применение. Springer. ISBN 978-1-4419-0741-7.

В этой книге обсуждается байесовский подход к моделированию ответов на вопросы. Книга будет полезна для лиц (знакомых с IRT), заинтересованных в анализе данных ответов на вопросы с байесовой точки зрения.

Внешние ссылки

«ИСТОРИЯ ТЕОРИИ ОТВЕТА НА ПРЕДМЕТ (до 1982 г.)», Иллинойсский университет в Чикаго
Простое руководство по теории ответов на вопросы (PDF)
Загрузки психометрического программного обеспечения
Учебное пособие по ИРТ
Часто задаваемые вопросы по учебнику IRT
Введение в ИРТ
Стандарты образовательного и психологического тестирования
Компьютерная программа на языке команд IRT (ICL)
Программы IRT от SSI, Inc.
Анализ скрытых признаков и модели IRT
Анализ Раша Архивировано 25.08.2009 на Wayback Machine
Программы анализа Раша от Winsteps
Теория ответов на вопросы
Бесплатное программное обеспечение IRT
Пакеты IRT в R
Поддержка IRT / EIRT в Lertap 5 Архивировано 04.03.2016 на Wayback Machine
Визуальный анализ IRT и создание отчетов с помощью Xcalibre