stringtranslate.com

Теория ответа на предмет

В психометрии теория ответа на задание ( IRT ) (также известная как теория скрытых черт , теория сильной истинной оценки или современная теория ментальных тестов ) является парадигмой для разработки, анализа и оценки тестов , анкет и подобных инструментов, измеряющих способности. отношения или другие переменные. Это теория тестирования, основанная на взаимосвязи между результатами отдельных людей по заданию теста и уровнем успеваемости участников теста по общему показателю способностей, для измерения которых предназначено это задание. Для представления как заданий, так и характеристик тестируемых используется несколько различных статистических моделей. [1] В отличие от более простых альтернатив создания шкал и оценки ответов на анкеты, здесь не предполагается, что каждый пункт одинаково сложен. Это отличает IRT от, например, масштабирования Лайкерта , в котором « предполагается, что все элементы являются копиями друг друга или, другими словами, элементы считаются параллельными инструментами». [2] Напротив, теория реакции на задание рассматривает сложность каждого задания (характеристические кривые задания, или ICC) как информацию, которая должна быть включена в масштабирование заданий.

Он основан на применении соответствующих математических моделей к данным тестирования . Поскольку ее часто считают превосходящей классическую теорию тестирования , [3] это предпочтительный метод разработки шкал в Соединенных Штатах, [ нужна ссылка ] , особенно когда требуются оптимальные решения, как в так называемых тестах с высокими ставками , например , экзамен для поступления в аспирантуру (GRE) и вступительный тест для выпускников (GMAT).

Теория ответа на задание имени обусловлена ​​тем, что теория фокусирует внимание на задании, в отличие от фокуса на уровне теста, как в классической теории тестирования. Таким образом, IRT моделирует реакцию каждого испытуемого с заданными способностями на каждый элемент теста. Термин «элемент» является общим и охватывает все виды информационных элементов. Это могут быть вопросы с несколькими вариантами ответов , на которые даны неправильные и правильные ответы, но они также обычно представляют собой утверждения в анкетах, которые позволяют респондентам указать уровень согласия ( рейтинг или шкала Лайкерта ), или симптомы пациента, оцениваемые как присутствующие/отсутствующие, или диагностическую информацию в комплексе. системы.

IRT основан на идее, что вероятность правильного ответа на предмет является математической функцией параметров человека и предмета . (Выражение «математическая функция параметров человека и предмета» аналогично уравнению Левина B = f(P, E) , которое утверждает, что поведение является функцией человека в его окружении.) Параметр человека истолковывается как ( обычно) одна скрытая черта или измерение. Примеры включают общий интеллект или силу позиции. Параметры, по которым характеризуются элементы, включают их сложность (известную как «местоположение» из-за их местоположения в диапазоне сложности); дискриминация (наклон или корреляция), показывающая, насколько сильно уровень успеха людей зависит от их способностей; и параметр псевдоугадывания, характеризующий (нижнюю) асимптоту, при которой даже наименее способные люди получат баллы благодаря угадыванию (например, 25% для чистого шанса на предмет с множественным выбором и четырьмя возможными ответами).

Таким же образом IRT можно использовать для измерения поведения людей в социальных сетях. Мнения, высказанные разными людьми, можно объединить для изучения с помощью IRT. Также оценивалось его использование для классификации информации как дезинформации или правдивой информации.

Обзор

Концепция функции ответа на задание возникла примерно до 1950 года. Новаторская работа IRT как теории произошла в 1950-х и 1960-х годах. Тремя пионерами были психометрик Службы образовательного тестирования Фредерик М. Лорд , [4] датский математик Георг Раш и австрийский социолог Пол Лазарсфельд , которые независимо проводили параллельные исследования. Ключевые фигуры, которые способствовали развитию IRT, включают Бенджамина Дрейка Райта и Дэвида Андрича . ИРТ не получил широкого распространения до конца 1970-х и 1980-х годов, когда практикующим специалистам рассказали о «полезности» и «преимуществах» ИРТ, с одной стороны, а персональные компьютеры предоставили многим исследователям доступ к вычислительной мощности, необходимой для ИРТ, с другой. В 1990-х годах Маргарет Ву разработала две программы для ответов на вопросы, которые анализируют данные PISA и TIMSS; ACER ConQuest (1998 г.) и R-пакет ТАМ (2010 г.).

Помимо прочего, цель IRT — предоставить основу для оценки того, насколько хорошо работают оценки и насколько хорошо работают отдельные элементы оценок. Наиболее распространенное применение IRT — в образовании, где психометристы используют его для разработки и проектирования экзаменов , ведения банков заданий для экзаменов и уравнивания сложности заданий для последовательных версий экзаменов (например, чтобы обеспечить возможность сравнения результатов с течением времени). . [5]

Модели IRT часто называют моделями скрытых черт . Термин «скрытый» используется, чтобы подчеркнуть, что ответы на отдельные вопросы считаются наблюдаемыми проявлениями гипотетических черт, конструкций или атрибутов, которые не наблюдаются напрямую, но которые должны быть выведены из явных ответов. Модели латентных черт были разработаны в области социологии, но практически идентичны моделям IRT.

Обычно IRT считается улучшением классической теории тестирования (CTT). Для задач, которые можно выполнить с помощью CTT, IRT обычно обеспечивает большую гибкость и предоставляет более сложную информацию. Некоторые приложения, такие как компьютеризированное адаптивное тестирование , доступны благодаря IRT, и их невозможно реализовать, используя только классическую теорию тестирования. Еще одним преимуществом IRT перед CTT является то, что более подробная информация, предоставляемая IRT, позволяет исследователю повысить надежность оценки .

IRT предполагает три предположения:

  1. Одномерный признак, обозначаемый  ;
  2. Локальная независимость элементов;
  3. Реакция человека на предмет может быть смоделирована с помощью математической функции ответа предмета (IRF).

Далее предполагается, что признак можно измерить по шкале (само существование теста предполагает это), обычно установленной на стандартной шкале со средним значением 0,0 и стандартным отклонением 1,0. Одномерность следует интерпретировать как однородность, качество, которое следует определить или эмпирически продемонстрировать в отношении данной цели или использования, но не как величину, которую можно измерить. «Локальная независимость» означает (а) что вероятность использования одного предмета не связана с использованием какого-либо другого предмета(ов) и (б) что ответ на задание является независимым решением каждого тестируемого, т.е. здесь нет читерства, парной или групповой работы. Тема размерности часто исследуется с помощью факторного анализа , в то время как IRF является основным строительным блоком IRT и центром большей части исследований и литературы.

Функция ответа на элемент

IRF дает вероятность того, что человек с данным уровнем способностей ответит правильно. У людей с более низкими способностями меньше шансов, в то время как люди с высокими способностями, скорее всего, ответят правильно; например, учащиеся с более высокими математическими способностями с большей вероятностью правильно решат математический вопрос. Точное значение вероятности зависит, помимо способностей, от набора параметров предмета для IRF.

Логистическая модель с тремя параметрами

Рисунок 1: Пример 3PL IRF с наложенными пунктирными линиями для демонстрации параметров.

Например, в логистической модели с тремя параметрами ( 3PL ) вероятность правильного ответа на дихотомический элемент i , обычно вопрос с несколькими вариантами ответов, равна:

где указывает, что способности человека моделируются как выборка из нормального распределения с целью оценки параметров элемента. После оценки параметров предмета оцениваются способности отдельных людей для целей отчетности. , , и — параметры элемента. Параметры элемента определяют форму IRF. На рисунке 1 изображен идеальный ICC 3PL.

Параметры товара можно интерпретировать как изменение формы стандартной логистической функции :

Вкратце, параметры интерпретируются следующим образом (для наглядности опускаем индексы); b является самым простым, поэтому указан первым:

Тогда это упрощается до и означает, что b равно 50% уровню успеха (сложности), а a (деленное на четыре) - это максимальный наклон (дискриминация), который происходит на уровне успеха 50%. Кроме того, логит (логарифм шансов ) правильного ответа равен (при условии ): в частности, если способность θ равна сложности b, существуют четные шансы (1:1, поэтому логит 0) правильного ответа, тем выше способность (или ниже) сложность тем более (или менее) вероятен правильный ответ, при этом различение определяет , насколько быстро шансы увеличиваются или уменьшаются в зависимости от способностей.

Другими словами, стандартная логистическая функция имеет асимптотический минимум 0 ( ), центрируется вокруг 0 ​​( , ) и имеет максимальный наклон. Параметр растягивает горизонтальную шкалу, параметр смещает горизонтальную шкалу, а параметр сжимает вертикальную шкалу. от до Это подробно описано ниже.

Параметр представляет местоположение элемента, который в случае тестирования достижений называется сложностью элемента. Это точка, в которой IRF имеет максимальный наклон и где значение находится посередине между минимальным значением и максимальным значением 1. Пример задания имеет среднюю сложность, поскольку = 0,0, что находится недалеко от центра распространение. Обратите внимание, что эта модель масштабирует сложность задания и черты характера человека в один и тот же континуум. Таким образом, можно говорить о том, что задание примерно так же сложно, как уровень характеристики человека А, или о том, что уровень характеристики человека примерно такой же, как сложность предмета Y, в том смысле, что успешное выполнение задачи, связанной с заданием, отражает конкретную уровень способностей.

Параметр предмета представляет собой дискриминацию предмета: то есть степень, в которой предмет различает людей в разных регионах скрытого континуума. Этот параметр характеризует наклон IRF, при котором наклон достигает максимального значения. Элемент примера имеет значение =1,0, что обеспечивает достаточно хорошую дискриминацию; у людей с низкими способностями действительно гораздо меньше шансов правильно ответить, чем у людей с более высокими способностями. Этот параметр дискриминации соответствует весовому коэффициенту соответствующего элемента или показателя в стандартной взвешенной линейной регрессии ( МНК ) и, следовательно, может использоваться для создания взвешенного индекса показателей для неконтролируемого измерения базовой скрытой концепции.

Для таких элементов, как элементы с множественным выбором , этот параметр используется для того, чтобы учесть влияние угадывания на вероятность правильного ответа. Это указывает на вероятность того, что люди с очень низкими способностями случайно ответят на этот вопрос правильно, что математически представлено как нижняя асимптота . Элемент с четырьмя вариантами множественного выбора может иметь IRF, как пример элемента; вероятность того, что кандидат с чрезвычайно низкими способностями угадает правильный ответ, составляет 1/4, поэтому она будет равна примерно 0,25. Этот подход предполагает, что все варианты одинаково вероятны, потому что, если один вариант не имеет смысла, даже человек с самыми низкими способностями сможет его отбросить, поэтому методы оценки параметров IRT учитывают это и оценивают a на основе наблюдаемых данных. [6]

модели ИРТ

В общих чертах модели IRT можно разделить на два семейства: одномерные и многомерные. Одномерные модели требуют одного измерения черт (способностей) . Многомерные модели IRT моделируют данные об ответах, которые, как предполагается, возникают из-за множества характеристик. Однако из-за значительно возросшей сложности в большинстве исследований и приложений IRT используется одномерная модель.

Модели IRT также можно классифицировать по количеству полученных ответов. Типичный вопрос с множественным выбором является дихотомическим ; даже несмотря на то, что вариантов может быть четыре или пять, они все равно оцениваются только как правильные/неправильные (верные/неправильные). Другой класс моделей применим к политомическим результатам, где каждый ответ имеет разное значение балла. [7] [8] Типичным примером этого являются элементы типа Лайкерта , например, «Оцените по шкале от 1 до 5». Другим примером является скоринг частичной кредитоспособности, к которому могут быть применены такие модели, как политомическая модель Раша .


Количество параметров IRT

Дихотомические модели IRT описываются количеством параметров, которые они используют. [9] 3PL назван так потому, что в нем используются три параметра элемента. Двухпараметрическая модель (2PL) предполагает, что данные не подлежат угадыванию, но элементы могут различаться с точки зрения местоположения ( ) и дискриминации ( ). Однопараметрическая модель (1PL) предполагает, что угадывание является частью способности и что все предметы, соответствующие модели, имеют эквивалентные различия, так что предметы описываются только одним параметром ( ). В результате однопараметрические модели обладают свойством специфической объективности, то есть ранг сложности задания одинаков для всех респондентов независимо от способностей, а ранг способностей человека одинаков для заданий независимо от сложности. Таким образом, модели с 1 параметром не зависят от выборки, а это свойство не справедливо для моделей с двумя и тремя параметрами. Кроме того, теоретически существует четырехпараметрическая модель (4PL) с верхней асимптотой , обозначаемой где в 3PL заменяется на . Однако это используется редко. Обратите внимание, что алфавитный порядок параметров заданий не соответствует их практической или психометрической важности; Параметр местоположение/сложность ( ), очевидно, является наиболее важным, поскольку он включен во все три модели. 1PL использует только , 2PL использует и , 3PL добавляет , а 4PL добавляет .

Модель 2PL эквивалентна модели 3PL с и подходит для тестирования заданий, в которых угадать правильный ответ крайне маловероятно, например заданий с заполнением пропусков («Чему равен квадратный корень из 121?»). концепция угадывания не применяется, например, в отношении личности, отношения или интересов (например, «Мне нравятся бродвейские мюзиклы. Согласен/Не согласен»).

1PL предполагает не только отсутствие угадывания (или неуместность), но и то, что все задания эквивалентны с точки зрения дискриминации, что аналогично общему факторному анализу с одинаковыми нагрузками для всех заданий. Отдельные предметы или индивидуумы могут иметь вторичные факторы, но предполагается, что они взаимно независимы и коллективно ортогональны .

Логистические и обычные модели IRT

Альтернативная формулировка строит IRF на основе нормального распределения вероятностей; их иногда называют нормальными оживальными моделями . Например, формула для двухпараметрической IRF с нормальным оживалом:

где Φкумулятивная функция распределения (CDF) стандартного нормального распределения.

Модель нормального ожива основана на предположении о нормально распределенной ошибке измерения и на этом основании теоретически привлекательна. Здесь снова параметр сложности. Параметром дискриминации является стандартное отклонение ошибки измерения для элемента i , сравнимое с 1/ .

Можно оценить модель скрытых черт нормального огива путем факторного анализа матрицы тетрахорических корреляций между элементами. [10] Это означает, что технически возможно оценить простую модель IRT с использованием статистического программного обеспечения общего назначения.

Благодаря изменению масштаба параметра способности можно приблизить логистическую модель 2PL к кумулятивной нормальной оживе. [11] Обычно логистические и нормально-оживальные IRF 2PL различаются по вероятности не более чем на 0,01 во всем диапазоне функции. Однако наибольшая разница проявляется в хвостах распределения, которые, как правило, оказывают большее влияние на результаты.

Модель скрытых признаков/IRT изначально была разработана с использованием обычных огив, но в то время (1960-е годы) это считалось слишком требовательным в вычислительном отношении для компьютеров. Логистическая модель была предложена как более простая альтернатива и с тех пор получила широкое распространение. Однако совсем недавно было продемонстрировано, что при использовании стандартных полиномиальных аппроксимаций нормального CDF [ 12] модель нормального ожива не требует больше вычислительных затрат, чем логистические модели. [13]

Модель Раша

Модель Раша часто называют моделью 1PL IRT. Однако сторонники моделирования Раша предпочитают рассматривать его как совершенно другой подход к концептуализации взаимосвязи между данными и теорией. [14] Как и другие подходы к статистическому моделированию, IRT подчеркивает приоритет соответствия модели наблюдаемым данным, [15] в то время как модель Раша подчеркивает приоритет требований к фундаментальным измерениям, при этом адекватное соответствие модели данных является важным, но вторичное требование, которое необходимо выполнить, прежде чем можно будет заявить, что тест или исследовательский инструмент измеряет признак. [16] С практической точки зрения это означает, что подходы IRT включают дополнительные параметры модели для отражения закономерностей, наблюдаемых в данных (например, позволяя элементам варьироваться в зависимости от их корреляции со скрытым признаком), тогда как в подходе Раша утверждения о наличии скрытый признак можно считать действительным только тогда, когда (а) данные соответствуют модели Раша и (б) тестовые задания и испытуемые соответствуют модели. Таким образом, в соответствии с моделями Раша несоответствующие ответы требуют диагностики причины несоответствия и могут быть исключены из набора данных, если можно подробно объяснить, почему они не затрагивают скрытую черту. [17] Таким образом, подход Раша можно рассматривать как подтверждающий подход, в отличие от исследовательских подходов, которые пытаются смоделировать наблюдаемые данные.

Наличие или отсутствие параметра предположения или псевдослучайности является важным, а иногда и спорным различием. Подход IRT включает параметр левой асимптоты для учета угадывания в экзаменах с множественным выбором , тогда как модель Раша этого не делает, поскольку предполагается, что угадывание добавляет к данным случайно распределенный шум. Поскольку шум распределяется случайным образом, предполагается, что при условии проверки достаточного числа элементов ранжирование людей по скрытому признаку по исходному баллу не изменится, а просто подвергнется линейному изменению масштаба. Напротив, трехпараметрическая IRT обеспечивает соответствие модели данных путем выбора модели, которая соответствует данным, [18] за счет принесения в жертву конкретной объективности.

На практике модель Раша имеет как минимум два принципиальных преимущества по сравнению с подходом IRT. Первым преимуществом является приоритет конкретных требований Раша, [19] которые (при их выполнении) обеспечивают фундаментальные измерения без участия человека (когда люди и предметы могут быть отображены на одной и той же инвариантной шкале). [20] Еще одним преимуществом подхода Раша является то, что оценка параметров в моделях Раша более проста из-за наличия достаточной статистики, что в этом приложении означает взаимно однозначное отображение необработанных правильных чисел в оценки Раша. [21]

Анализ соответствия модели

Как и при любом использовании математических моделей, важно оценить соответствие данных модели. Если диагностировано несоответствие задания какой-либо модели из-за плохого качества задания, например, запутывание отвлекающих факторов в тесте с несколькими вариантами ответов, то задания могут быть удалены из этой формы теста и переписаны или заменены в будущих формах теста. Однако если возникает большое количество несоответствующих элементов без видимой причины несоответствия, необходимо пересмотреть конструктивную валидность теста и, возможно, переписать спецификации теста. Таким образом, несоответствие предоставляет разработчикам тестов бесценные диагностические инструменты, позволяющие эмпирически проверять гипотезы, на которых основаны спецификации тестов, на основе данных.

Существует несколько методов оценки соответствия, например статистика Хи-квадрат или ее стандартизированная версия. Двух- и трехпараметрические модели IRT корректируют различение элементов, обеспечивая улучшенное соответствие модели данных, поэтому статистике соответствия не хватает подтверждающей диагностической ценности, обнаруженной в однопараметрических моделях, где идеализированная модель указывается заранее.

Данные следует удалять не на основании несоответствия модели, а скорее потому, что была диагностирована соответствующая конструкция причина несоответствия, например, если английский язык не является родным, сдавая тест по естественным наукам, написанный на английском языке. Можно утверждать, что такой кандидат не принадлежит к одной и той же популяции людей, в зависимости от размерности теста, и, хотя один параметр IRT-меры считается независимым от выборки, они не являются независимыми от популяции, поэтому такое несоответствие, как это, построить уместно и не делает тест или модель недействительными. Такой подход является важным инструментом валидации инструментов. В двух- и трехпараметрических моделях, где психометрическая модель корректируется в соответствии с данными, будущие применения теста должны быть проверены на соответствие той же модели, которая использовалась при первоначальной валидации, чтобы подтвердить гипотезу о том, что баллы от каждой администрации обобщают. другим администрациям. Если для каждой администрации указана другая модель для достижения соответствия модели данных, тогда измеряется другой скрытый признак, и нельзя утверждать, что результаты тестов сопоставимы между администрациями.

Информация

Одним из основных вкладов теории реагирования на предмет является расширение концепции надежности . Традиционно надежность относится к точности измерения (т.е. степени отсутствия ошибок в измерениях). Традиционно он измеряется с использованием единого индекса, определяемого различными способами, например, отношения истинной и наблюдаемой дисперсии оценок. Этот индекс полезен для характеристики средней надежности теста, например, для сравнения двух тестов. Но IRT ясно дает понять, что точность не одинакова для всего диапазона результатов тестов. Например, результаты на границах диапазона теста обычно содержат больше ошибок, чем результаты ближе к середине диапазона.

Теория реагирования на задание выдвигает концепцию задания и тестовой информации вместо надежности. Информация также является функцией параметров модели. Например, согласно теории информации Фишера , информация об элементе, предоставляемая в случае 1PL для данных дихотомического ответа, представляет собой просто вероятность правильного ответа, умноженную на вероятность неправильного ответа, или

Стандартная ошибка оценки (SE) является обратной величиной тестовой информации на данном уровне признака.

Таким образом, больше информации означает меньшую ошибку измерения.

Для других моделей, таких как модели с двумя и тремя параметрами, параметр дискриминации играет важную роль в функции. Функция информации об элементе для модели с двумя параметрами:

Функция информации об элементе для модели с тремя параметрами:

[22]

В целом функции информации об элементах имеют форму колокола. Предметы с высокой степенью различения имеют высокие и узкие информационные функции; они вносят большой вклад, но в узком диапазоне. Менее разборчивые элементы дают меньше информации, но в более широком диапазоне.

Графики информации об элементе можно использовать, чтобы увидеть, какой объем информации вносит элемент и в какую часть диапазона оценок шкалы. Из-за локальной независимости информационные функции элемента являются аддитивными . Таким образом, информационная функция теста представляет собой просто сумму информационных функций заданий экзамена. Используя это свойство с большим банком элементов, можно сформировать функции тестовой информации для очень точного контроля погрешности измерения .

Характеристика точности результатов тестов, пожалуй, является центральным вопросом психометрической теории и главным различием между IRT и CTT. Результаты IRT показывают, что концепция надежности CTT является упрощением. Вместо надежности IRT предлагает функцию тестовой информации, которая показывает степень точности при различных значениях тета, θ.

Эти результаты позволяют специалистам по психометрии (потенциально) тщательно формировать уровень надежности для разных диапазонов способностей, включая тщательно выбранные элементы. Например, в ситуации сертификации , когда тест может быть пройден или не пройден, где есть только один «отсечной балл» и где фактический проходной балл неважен, можно разработать очень эффективный тест, выбрав только те элементы, которые имеют высокая информация возле кат-скора. Эти предметы обычно соответствуют предметам, сложность которых примерно такая же, как и у кат-скора.

Подсчет очков

Параметр «Личность» представляет собой величину скрытой черты личности, которая представляет собой человеческие способности или качества, измеряемые с помощью теста. [23] Это могут быть когнитивные способности, физические способности, навыки, знания, отношение, личностные характеристики и т. д.

Оценка личностного параметра — «балла» в тесте с IRT — рассчитывается и интерпретируется совершенно иначе по сравнению с традиционными оценками, такими как число или процент правильных ответов. Общий балл человека за правильное числовое значение не является фактическим баллом, а скорее основан на IRF, что приводит к взвешенному баллу, когда модель содержит параметры распознавания предметов. Фактически он получается путем умножения функции ответа элемента для каждого элемента, чтобы получить функцию правдоподобия , высшая точка которой является оценкой максимального правдоподобия . Эта самая высокая точка обычно оценивается с помощью программного обеспечения IRT с использованием метода Ньютона-Рафсона . [24] Хотя с помощью IRT оценка гораздо сложнее, для большинства тестов корреляция между тета-оценкой и традиционной оценкой очень высока; часто оно составляет 0,95 и более [цитата?]. График сопоставления оценок IRT с традиционными оценками имеет оживающую форму, что означает, что IRT оценивает отдельных индивидуумов на границах диапазона больше, чем в середине.

Важным различием между CTT и IRT является обработка ошибки измерения, индексируемой стандартной ошибкой измерения . Все тесты, анкеты и опросники являются неточными инструментами; мы никогда не сможем узнать истинный балл человека , а можем получить только приблизительную оценку, наблюдаемый балл. Существует некоторая случайная ошибка, которая может привести к тому, что наблюдаемая оценка окажется выше или ниже истинной. СТТ предполагает, что величина ошибки одинакова для каждого экзаменуемого, а IRT допускает ее варьирование. [25]

Кроме того, ничто в IRT не опровергает развитие или совершенствование человека и не предполагает, что уровень черт является фиксированным. Человек может приобрести навыки, знания или даже так называемые «навыки сдачи тестов», которые могут привести к более высокому истинному баллу. Фактически, часть исследований IRT фокусируется на измерении изменений уровня черт. [26]

Сравнение классической теории и теории реагирования на предметы

Классическая теория тестирования (КТТ) и IRT в основном касаются одних и тех же проблем, но представляют собой разные разделы теории и используют разные методы. Хотя эти две парадигмы в целом согласованы и дополняют друг друга, существует ряд различий:

Стоит также упомянуть некоторые конкретные сходства между CTT и IRT, которые помогают понять соответствие между понятиями. Во-первых, Лорд [27] показал, что в предположении нормального распределения дискриминация в модели 2PL является примерно монотонной функцией точечно -бисериальной корреляции . В частности:

где - точечная бисериальная корреляция элемента i . Таким образом, если предположение верно, то там, где существует более высокая дискриминация, обычно будет более высокая корреляция между точками и бирядами.

Еще одно сходство заключается в том, что, хотя IRT предусматривает стандартную ошибку каждой оценки и информационную функцию, также можно получить индекс для теста в целом, который напрямую аналогичен альфе Кронбаха , называемый индексом разделения . Для этого необходимо начать с разложения оценки IRT на истинное местоположение и ошибку, аналогично разложению наблюдаемой оценки на истинную оценку и ошибку в CTT. Позволять

где — истинное местоположение, а — связь ошибки с оценкой. Тогда оценивается стандартное отклонение для человека с заданным взвешенным баллом, а индекс разделения получается следующим образом.

где среднеквадратическая стандартная ошибка оценки человека дает оценку дисперсии ошибок между людьми. Стандартные ошибки обычно возникают как побочный продукт процесса оценки. Индекс разделения обычно очень близок по значению к альфе Кронбаха. [28]

IRT иногда называют сильной теорией истинного результата или современной теорией ментальных тестов, потому что это более поздняя теория, которая делает более явными гипотезы, которые неявно заложены в CTT.

Смотрите также

Рекомендации

  1. ^ «Глоссарий важных терминов оценки и измерения» . Национальный совет по измерениям в образовании . Архивировано из оригинала 22 июля 2017 г.
  2. ^ А. ван Альфен, Р. Халфенс, А. Хасман и Т. Имбос. (1994). Лайкерт или Раш? Нет ничего более применимого, чем хорошая теория. Журнал продвинутого сестринского дела . 20 , 196-201
  3. ^ Эмбретсон, Сьюзен Э.; Рейз, Стивен П. (2000). Теория ответа на предмет для психологов. Психология Пресс. ISBN 9780805828191.
  4. ^ Обзор исследования ETS
  5. ^ Хэмблтон, Р.К., Сваминатан, Х., и Роджерс, Х.Дж. (1991). Основы теории ответов на вопросы . Ньюбери-Парк, Калифорния: Sage Press.
  6. ^ Бок, Р.Д.; Эйткин, М. (1981). «Маргинальная оценка максимального правдоподобия параметров элемента: применение EM-алгоритма». Психометрика . 46 (4): 443–459. дои : 10.1007/BF02293801. S2CID  122123206.
  7. ^ Остини, Ремо; Неринг, Майкл Л. (2005). Модели теории реакции политомических предметов. Количественные приложения в социальных науках. Том. 144. МУДРЕЦ. ISBN 978-0-7619-3068-6.
  8. ^ Неринг, Майкл Л.; Остини, Ремо, ред. (2010). Справочник по моделям теории ответов на политомические вопросы. Тейлор и Фрэнсис. ISBN 978-0-8058-5992-8.
  9. ^ Тиссен, Д. и Орландо, М. (2001). Теория ответа на предметы для предметов, оцененных в двух категориях. В Д. Тиссен и Вайнер, Х. (ред.), Оценка тестов (стр. 73–140). Махва, Нью-Джерси: Lawrence Erlbaum Associates, Inc.
  10. ^ К.Г. Йорескуг и Д. Сёрбом (1988). Руководство пользователя PRELIS 1, версия 1 . Чикаго: Scientific Software, Inc.
  11. ^ Камилли, Грегори (1994). «Происхождение константы масштабирования d = 1,7 в теории ответа на предмет». Журнал образовательной и поведенческой статистики . 19 (3): 293–295. дои : 10.3102/10769986019003293. S2CID  122401679.
  12. ^ Абрамовиц М., Стегун И.А. (1972). Справочник по математическим функциям . Вашингтон, округ Колумбия: Типография правительства США.
  13. ^ Юберсакс, JS (декабрь 1999 г.). «Анализ скрытого класса пробита с дихотомическими или упорядоченными категориями: модели условной независимости/зависимости». Прикладные психологические измерения . 23 (4): 283–297. дои : 10.1177/01466219922031400. S2CID  120497324.
  14. ^ Андрич, Д. (1989), Различия между предположениями и требованиями в измерениях в социальных науках», в Китс, Дж. А., Тафт, Р., Хит, Р. А., Ловибонд, С. (редакторы), Математические и теоретические системы , Elsevier Science Publishers , Северная Голландия, Амстердам, стр. 7-16.
  15. ^ Стейнберг, Дж. (2000). Фредерик Лорд, придумавший критерии тестирования, умер в возрасте 87 лет. New York Times, 10 февраля 2000 г.
  16. ^ Андрич, Д. (январь 2004 г.). «Споры и модель Раша: характеристика несовместимых парадигм?». Медицинская помощь . 42 (1): I–7. дои : 10.1097/01.mlr.0000103528.48582.7c. PMID  14707751. S2CID  23087904.
  17. ^ Смит, RM (1990). «Теория и практика соответствия». Транзакции измерения Раша . 3 (4): 78.
  18. ^ Цвик, Р.; Тайер, Д.Т.; Вингерский, М. (декабрь 1995 г.). «Влияние калибровки Раша на способность и оценку DIF в компьютерно-адаптивных тестах». Журнал образовательных измерений . 32 (4): 341–363. doi :10.1111/j.1745-3984.1995.tb00471.x.
  19. ^ Раш, Г. (1960/1980). Вероятностные модели для некоторых тестов интеллекта и достижений . (Копенгаген, Датский институт исследований в области образования), расширенное издание (1980 г.) с предисловием и послесловием Б. Д. Райта. Чикаго: Издательство Чикагского университета.
  20. ^ Райт, Б.Д. (1992). «IRT в 1990-е годы: какие модели работают лучше всего?». Транзакции измерения Раша . 6 (1): 196–200.
  21. ^ Фишер, Г.Х. и Моленаар, И.В. (1995). Модели Раша: основы, последние разработки и приложения . Нью-Йорк: Спрингер.
  22. ^ де Аяла, RJ (2009). Теория и практика теории реагирования на предмет , Нью-Йорк, Нью-Йорк: The Guilford Press. (6.12), с.144
  23. ^ Лазарсфельд П.Ф. и Генри Н.В. (1968). Анализ скрытой структуры . Бостон: Хоутон Миффлин.
  24. ^ Томпсон, Северная Каролина (2009). «Оценка способностей с помощью IRT» (PDF) .
  25. ^ Колен, Майкл Дж.; Цзэн, Линцзя; Хэнсон, Брэдли А. (июнь 1996 г.). «Условные стандартные ошибки измерения показателей шкалы с использованием IRT». Журнал образовательных измерений . 33 (2): 129–140. doi :10.1111/j.1745-3984.1996.tb00485.x.
  26. ^ Холл, Лос-Анджелес, и Макдональд, Дж.Л. (2000). Измерение изменений в восприятии учителями влияния развития персонала на преподавание. Документ, представленный на ежегодном собрании Американской ассоциации исследований в области образования (Новый Орлеан, Луизиана, 24–28 апреля 2000 г.).
  27. ^ Лорд, FM (1980). Применение теории реагирования на задания к практическим задачам тестирования . Махва, Нью-Джерси: Lawrence Erlbaum Associates, Inc.
  28. ^ Андрич, Д. (1982). «Индекс разделения людей в теории скрытых черт, традиционный индекс KR.20 и модель ответа по шкале Гуттмана». Исследования в области образования и перспективы . 9 : 95–104.

дальнейшее чтение

Было написано множество книг, посвященных теории ответов на задания или содержащих модели IRT или подобные IRT. Это неполный список, в котором основное внимание уделяется текстам, которые обеспечивают большую глубину.

В этой книге изложена большая часть работы Лорда по IRT, включая главы, посвященные взаимосвязи между IRT и классическими методами, основам IRT, оценке и нескольким сложным темам. Его глава об оценках уже устарела, поскольку в ней в основном обсуждается совместный метод максимального правдоподобия, а не метод предельного максимального правдоподобия, реализованный Дарреллом Боком и его коллегами.
Эта книга представляет собой доступное введение в ИРТ, предназначенное, как следует из названия, для психологов.
Эта вводная книга написана одним из пионеров в этой области и доступна в Интернете по адресу [1].
В этой книге описаны различные модели теории реагирования предметов и представлены подробные объяснения алгоритмов, которые можно использовать для оценки параметров предметов и способностей. Части книги доступны в Интернете в виде ограниченного предварительного просмотра в Google Книгах .
В этой книге представлен всесторонний обзор различных популярных моделей IRT. Он хорошо подходит для людей, которые уже получили базовое представление о IRT.
В этом томе представлено комплексное введение в модели ответов на вопросы, предназначенное в основном для практиков, исследователей и аспирантов.
В этой книге обсуждается байесовский подход к моделированию ответов на задания. Книга будет полезна для людей (знакомых с IRT), заинтересованных в анализе данных ответов на задания с байесовской точки зрения.

Внешние ссылки