Модель Раша , названная в честь Георга Раша , является психометрической моделью для анализа категориальных данных , таких как ответы на вопросы по оценке чтения или ответы анкеты, как функции компромисса между способностями, установками или чертами личности респондента и сложностью элемента. [1] [2] Например, они могут быть использованы для оценки способности учащегося к чтению или крайности отношения человека к смертной казни по ответам на анкету. Помимо психометрии и образовательных исследований, модель Раша и ее расширения используются в других областях, включая профессию здравоохранения , [3] сельское хозяйство , [4] и маркетинговые исследования. [5] [6]
Математическая теория, лежащая в основе моделей Раша, является частным случаем теории ответов на вопросы . Однако существуют важные различия в интерпретации параметров модели и ее философских импликациях [7] , которые отделяют сторонников модели Раша от традиции моделирования ответов на вопросы. Центральный аспект этого разделения касается роли специфической объективности [8], определяющего свойства модели Раша по мнению Георга Раша , как требования для успешного измерения.
В модели Раша вероятность определенного ответа (например, правильный/неправильный ответ) моделируется как функция параметров человека и элемента. В частности, в исходной модели Раша вероятность правильного ответа моделируется как логистическая функция разницы между параметрами человека и элемента. Математическая форма модели приводится далее в этой статье. В большинстве контекстов параметры модели характеризуют уровень знаний респондентов и сложность элементов как местоположения на непрерывной скрытой переменной. Например, в образовательных тестах параметры элементов представляют сложность элементов, в то время как параметры человека представляют способности или уровень достижений людей, которые оцениваются. Чем выше способности человека относительно сложности элемента, тем выше вероятность правильного ответа на этот элемент. Когда местоположение человека на скрытой черте равно сложности элемента, по определению существует вероятность правильного ответа в модели Раша 0,5.
Модель Раша является моделью в одном смысле, поскольку она представляет структуру, которую должны демонстрировать данные для получения измерений из данных; т. е. она предоставляет критерий успешного измерения. Помимо данных, уравнения Раша моделируют отношения, которые мы ожидаем получить в реальном мире. Например, образование призвано подготовить детей ко всему спектру проблем, с которыми они столкнутся в жизни, а не только к тем, которые появляются в учебниках или на тестах. Требуя, чтобы меры оставались одинаковыми (инвариантными) в различных тестах, измеряющих одно и то же, модели Раша позволяют проверить гипотезу о том, что конкретные проблемы, поставленные в учебной программе и на тесте, последовательно представляют бесконечную совокупность всех возможных проблем в этой области. Таким образом, модель Раша является моделью в смысле идеала или стандарта, который предоставляет эвристическую фикцию, служащую полезным организующим принципом, даже если он никогда не соблюдается на практике.
Перспектива или парадигма, лежащая в основе модели Раша, отличается от перспективы, лежащей в основе статистического моделирования . Модели чаще всего используются с целью описания набора данных. Параметры изменяются и принимаются или отклоняются в зависимости от того, насколько хорошо они соответствуют данным. Напротив, при использовании модели Раша целью является получение данных, соответствующих модели. [9] [10] [11] Обоснованием этой перспективы является то, что модель Раша воплощает требования, которые должны быть выполнены для получения измерения, в том смысле, что измерение обычно понимается в физических науках.
Полезной аналогией для понимания этого обоснования является рассмотрение объектов, измеряемых на весах. Предположим, что вес объекта A измеряется как существенно больший, чем вес объекта B в одном случае, затем сразу после этого вес объекта B измеряется как существенно больший, чем вес объекта A. Свойство, которое мы требуем от измерений, заключается в том, что результирующее сравнение между объектами должно быть одинаковым или инвариантным, независимо от других факторов. Это ключевое требование воплощено в формальной структуре модели Раша. Следовательно, модель Раша не изменяется в соответствии с данными. Вместо этого метод оценки должен быть изменен так, чтобы это требование выполнялось, таким же образом, как весы должны быть исправлены, если они дают разные сравнения между объектами при отдельных измерениях объектов.
Данные, анализируемые с использованием модели, обычно представляют собой ответы на обычные пункты тестов, например, образовательные тесты с правильными/неправильными ответами. Однако модель является общей и может применяться везде, где дискретные данные получены с целью измерения количественного атрибута или черты.
Когда все испытуемые имеют возможность попробовать все пункты в одном тесте, каждый общий балл по тесту сопоставляется с уникальной оценкой способностей, и чем больше общий балл, тем выше оценка способностей. Общие баллы не имеют линейной связи с оценками способностей. Скорее, эта связь нелинейна, как показано на рисунке 1. Общий балл показан на вертикальной оси, в то время как соответствующая оценка местоположения человека показана на горизонтальной оси. Для конкретного теста, на котором основана кривая характеристик теста (TCC), показанная на рисунке 1, связь приблизительно линейна во всем диапазоне общих баллов примерно от 13 до 31. Форма TCC, как правило, несколько сигмоидальная , как в этом примере. Однако точная связь между общими баллами и оценками местоположения человека зависит от распределения пунктов в тесте. TCC круче в диапазонах на континууме, в котором больше пунктов, например, в диапазоне по обе стороны от 0 на рисунках 1 и 2.
При применении модели Раша местоположения элементов часто сначала масштабируются на основе методов, описанных ниже. Эту часть процесса масштабирования часто называют калибровкой элементов . В образовательных тестах, чем меньше доля правильных ответов, тем выше сложность элемента и, следовательно, тем выше местоположение элемента по шкале. После масштабирования местоположений элементов на шкале измеряются местоположения людей. В результате местоположения людей и элементов оцениваются по единой шкале, как показано на рисунке 2.
Для дихотомических данных, таких как правильные/неправильные ответы, по определению местоположение элемента на шкале соответствует местоположению человека, при котором вероятность правильного ответа на вопрос составляет 0,5. В общем случае вероятность правильного ответа человека на вопрос со сложностью ниже, чем местоположение этого человека, больше 0,5, в то время как вероятность правильного ответа на вопрос со сложностью выше, чем местоположение человека, меньше 0,5. Кривая характеристик элемента (ICC) или функция ответа элемента (IRF) показывает вероятность правильного ответа как функцию способностей человека. Отдельный ICC показан и объяснен более подробно в отношении рисунка 4 в этой статье (см. также функцию ответа элемента ). Самые левые ICC на рисунке 3 — самые простые элементы, самые правые ICC на том же рисунке — самые сложные элементы.
Когда ответы человека сортируются по сложности элемента, от самого низкого к самому высокому, наиболее вероятным шаблоном является шаблон или вектор Гуттмана ; т. е. {1,1,...,1,0,0,0,...,0}. Однако, хотя этот шаблон является наиболее вероятным, учитывая структуру модели Раша, модель требует только вероятностных шаблонов ответов Гуттмана; то есть шаблонов, которые стремятся к шаблону Гуттмана. Необычно, чтобы ответы строго соответствовали шаблону, поскольку существует много возможных шаблонов. Для того, чтобы данные соответствовали модели Раша, ответам необязательно строго соответствовать шаблону.
Каждая оценка способности имеет связанную стандартную ошибку измерения , которая количественно определяет степень неопределенности, связанную с оценкой способности. Оценки элементов также имеют стандартные ошибки. Как правило, стандартные ошибки оценок элементов значительно меньше стандартных ошибок оценок личности, поскольку обычно имеется больше данных об ответах для элемента, чем для человека. То есть количество людей, пытающихся выполнить данный элемент, обычно больше, чем количество элементов, которые пытается выполнить данный человек. Стандартные ошибки оценок личности меньше, когда наклон ICC круче, что обычно находится в среднем диапазоне баллов по тесту. Таким образом, в этом диапазоне наблюдается большая точность, поскольку чем круче наклон, тем больше различие между любыми двумя точками на линии.
Статистические и графические тесты используются для оценки соответствия данных модели. Некоторые тесты являются глобальными, в то время как другие фокусируются на конкретных элементах или людях. Некоторые тесты соответствия предоставляют информацию о том, какие элементы можно использовать для повышения надежности теста , исключая или исправляя проблемы с плохими элементами. В Rasch Measurement вместо индексов надежности используется индекс разделения людей. Однако индекс разделения людей аналогичен индексу надежности. Индекс разделения представляет собой сводку истинного разделения как отношения к разделению, включая ошибку измерения. Как упоминалось ранее, уровень ошибки измерения не является равномерным по всему диапазону теста, но, как правило, больше для более экстремальных оценок (низких и высоких).
Класс моделей назван в честь Георга Раша , датского математика и статистика, который выдвинул эпистемологический довод в пользу моделей, основанный на их соответствии основному требованию измерения в физике , а именно требованию инвариантного сравнения . [1] Это определяющая черта класса моделей, как подробно изложено в следующем разделе. Модель Раша для дихотомических данных имеет тесную концептуальную связь с законом сравнительного суждения (LCJ), моделью, сформулированной и широко используемой Л. Л. Терстоуном , [12] [13] и, следовательно, также со шкалой Терстоуна . [14]
До того, как представить модель измерения, по которой он наиболее известен, Раш применил распределение Пуассона к данным чтения в качестве модели измерения, выдвинув гипотезу, что в соответствующем эмпирическом контексте количество ошибок, сделанных данным человеком, регулируется отношением сложности текста к способности человека читать. Раш назвал эту модель мультипликативной моделью Пуассона . Модель Раша для дихотомических данных — т. е. когда ответы классифицируются по двум категориям — является его наиболее широко известной и используемой моделью и находится в центре внимания здесь. Эта модель имеет форму простой логистической функции .
Приведенный выше краткий обзор подчеркивает некоторые отличительные и взаимосвязанные черты взгляда Раша на социальное измерение, а именно:
Таким образом, в соответствии с перспективой, сформулированной Томасом Куном в его статье 1961 года « Функция измерения в современной физической науке» , измерение рассматривалось как основанное на теории , так и как инструментальное средство для обнаружения количественных аномалий, не соответствующих гипотезам, связанным с более широкой теоретической структурой. [15] Эта перспектива контрастирует с той, которая обычно преобладает в социальных науках, где такие данные, как результаты тестов, напрямую рассматриваются как измерения, не требуя теоретического обоснования для измерения. Хотя этот контраст существует, перспектива Раша фактически дополняет использование статистического анализа или моделирования, которое требует измерений на уровне интервалов, поскольку целью применения модели Раша является получение таких измерений. Применения моделей Раша описаны в самых разных источниках. [16]
Модель Раша для дихотомических данных часто рассматривается как модель теории ответов на элементы (IRT) с одним параметром элемента. Однако, вместо того, чтобы быть конкретной моделью IRT, сторонники модели [17] рассматривают ее как модель, обладающую свойством, которое отличает ее от других моделей IRT. В частности, определяющим свойством моделей Раша является их формальное или математическое воплощение принципа инвариантного сравнения. Раш резюмировал принцип инвариантного сравнения следующим образом:
Модели Раша воплощают этот принцип, поскольку их формальная структура допускает алгебраическое разделение параметров человека и элемента в том смысле, что параметр человека может быть исключен в процессе статистической оценки параметров элемента. Этот результат достигается за счет использования условной оценки максимального правдоподобия , в которой пространство ответов разбивается в соответствии с общими баллами человека. Следствием этого является то, что сырая оценка для элемента или человека является достаточной статистикой для параметра элемента или человека . То есть общий балл человека содержит всю информацию, доступную в указанном контексте об этом человеке, а общий балл элемента содержит всю информацию относительно элемента, относительно соответствующей скрытой черты. Модель Раша требует определенной структуры в данных ответов, а именно вероятностной структуры Гуттмана .
В несколько более привычных терминах модели Раша обеспечивают основу и обоснование для получения местоположений человека на континууме из общих баллов оценок. Хотя не редкость рассматривать общие баллы непосредственно как измерения, на самом деле они являются подсчетами дискретных наблюдений, а не измерениями. Каждое наблюдение представляет собой наблюдаемый результат сравнения человека и предмета. Такие результаты напрямую аналогичны наблюдению за наклоном рычажных весов в том или ином направлении. Это наблюдение будет указывать на то, что тот или иной объект имеет большую массу, но подсчеты таких наблюдений нельзя рассматривать напрямую как измерения.
Раш указал, что принцип инвариантного сравнения характерен для измерения в физике, используя, в качестве примера, двустороннюю экспериментальную систему отсчета, в которой каждый инструмент оказывает механическую силу на твердые тела, чтобы произвести ускорение . Раш [1] : 112–3 заявил в этом контексте: «В общем: если для любых двух объектов мы находим определенное отношение их ускорений, произведенных одним инструментом, то такое же отношение будет найдено и для любого другого инструмента». Легко показать, что второй закон Ньютона влечет за собой то, что такие отношения обратно пропорциональны отношениям масс тел .
Пусть будет дихотомической случайной величиной, где, например, обозначает правильный ответ и неправильный ответ на заданный пункт оценки. В модели Раша для дихотомических данных вероятность результата определяется как:
где — способность человека , а — сложность элемента . Таким образом, в случае дихотомического элемента достижений — вероятность успеха при взаимодействии соответствующего человека и элемента оценки. Легко показать, что логарифмические шансы , или логиты , правильного ответа человека на элемент, основанные на модели, равны . При наличии двух испытуемых с разными параметрами способностей и и произвольного элемента со сложностью вычислите разницу в логитах для этих двух испытуемых по формуле . Эта разница становится . И наоборот, можно показать, что логарифмические шансы правильного ответа одного и того же человека на один элемент, обусловленный правильным ответом на один из двух элементов, равны разнице между положениями элементов. Например,
где — общий балл человека n по двум пунктам, что подразумевает правильный ответ на один или другой из пунктов. [1] [19] [20] Следовательно, условные логарифмические шансы не включают параметр человека , который, следовательно, может быть устранен путем обусловливания общего балла . То есть, путем разбиения ответов в соответствии с сырыми баллами и вычисления логарифмических шансов правильного ответа, оценка получается без участия . В более общем смысле, ряд параметров элемента можно оценить итеративно с помощью применения такого процесса, как оценка условного максимального правдоподобия (см. Оценка модели Раша ). Хотя это и более сложно, в таких оценках применяется тот же фундаментальный принцип.
ICC модели Раша для дихотомических данных показана на рисунке 4. Серая линия отображает вероятность дискретного результата (то есть правильного ответа на вопрос) для лиц с различным положением на латентном континууме (то есть их уровня способностей). Положение элемента, по определению, это то положение, в котором вероятность равна 0,5. На рисунке 4 черные круги представляют собой фактические или наблюдаемые пропорции лиц в интервалах классов, для которых наблюдался результат. Например, в случае оценочного элемента, используемого в контексте педагогической психологии , они могут представлять пропорции лиц, которые правильно ответили на элемент. Лица упорядочиваются по оценкам их положения на латентном континууме и классифицируются по интервалам классов на этой основе, чтобы графически проверить соответствие наблюдений модели. Существует близкое соответствие данных модели. В дополнение к графическому анализу данных используется ряд статистических тестов соответствия для оценки того, можно ли отнести отклонения наблюдений от модели исключительно к случайным эффектам, как это требуется, или же существуют систематические отклонения от модели.
Существует несколько политомических расширений модели Раша, которые обобщают дихотомическую модель таким образом, что ее можно применять в контекстах, в которых последовательные целочисленные оценки представляют категории возрастающего уровня или величины скрытой черты, такой как возрастающие способности, двигательная функция, одобрение утверждения и т. д. Эти политомические расширения применимы, например, к использованию шкал Лайкерта, ранжированию в образовательной оценке и оценке выступлений судьями.
Критика модели Раша заключается в том, что она чрезмерно ограничительна или предписывающа, поскольку предположение модели заключается в том, что все элементы имеют равную дискриминацию, тогда как на практике дискриминация элементов различается, и, таким образом, ни один набор данных никогда не покажет идеального соответствия модели данных. Частое заблуждение заключается в том, что модель Раша не позволяет каждому элементу иметь различную дискриминацию, но равная дискриминация является предположением об инвариантном измерении, поэтому различная дискриминация элементов не запрещена, а скорее указывает на то, что качество измерения не равно теоретическому идеалу. Так же, как и в физических измерениях, реальные наборы данных никогда не будут идеально соответствовать теоретическим моделям, поэтому уместный вопрос заключается в том, обеспечивает ли конкретный набор данных достаточное качество измерения для поставленной цели, а не в том, идеально ли он соответствует недостижимому стандарту совершенства.
Критика, характерная для использования модели Раша с данными ответов из заданий с множественным выбором, заключается в том, что в модели нет положения для угадывания, поскольку левая асимптота всегда приближается к нулевой вероятности в модели Раша. Это означает, что человек с низкими способностями всегда будет давать неправильный ответ. Однако люди с низкими способностями, проходящие экзамен с множественным выбором, имеют существенно более высокую вероятность выбора правильного ответа исключительно случайно (для задания с k вариантами вероятность составляет около 1/ k ).
Трехпараметрическая логистическая модель ослабляет оба эти предположения, а двухпараметрическая логистическая модель допускает различные наклоны. [21] Однако спецификация равномерной дискриминации и нулевой левой асимптоты являются необходимыми свойствами модели для поддержания достаточности простой невзвешенной сырой оценки. На практике ненулевая нижняя асимптота, обнаруженная в наборах данных с множественным выбором, представляет меньшую угрозу для измерения, чем обычно предполагается, и обычно не приводит к существенным ошибкам в измерении, когда хорошо разработанные тестовые элементы используются разумно [22]
Verhelst & Glas (1995) выводят уравнения условного максимального правдоподобия (CML) для модели, которую они называют однопараметрической логистической моделью (OPLM). В алгебраической форме она кажется идентичной модели 2PL, но OPLM содержит предустановленные индексы дискриминации, а не оцененные параметры дискриминации 2PL. Однако, как отмечают эти авторы, проблема, с которой приходится сталкиваться при оценке с оцененными параметрами дискриминации, заключается в том, что дискриминации неизвестны, что означает, что взвешенная сырая оценка «не является простой статистикой, и, следовательно, невозможно использовать CML в качестве метода оценки». [23] : 217 То есть, достаточность взвешенной «оценки» в 2PL не может использоваться в соответствии со способом, которым определяется достаточная статистика . Если веса вменяются вместо оценки, как в OPLM, условная оценка возможна, и некоторые свойства модели Раша сохраняются. [24] [23] В OPLM значения индекса дискриминации ограничены диапазоном от 1 до 15. Ограничением этого подхода является то, что на практике значения индексов дискриминации должны быть заданы заранее в качестве отправной точки. Это означает, что некоторый тип оценки дискриминации задействован, когда цель состоит в том, чтобы избежать этого.
Модель Раша для дихотомических данных по своей сути подразумевает один параметр дискриминации, который, как отметил Раш, [1] : 121 представляет собой произвольный выбор единицы , в терминах которой величины скрытой черты выражаются или оцениваются. Однако модель Раша требует, чтобы дискриминация была единообразной во взаимодействиях между людьми и элементами в рамках указанной системы отсчета (т. е. контекст оценки, заданный условиями для оценки).
Применение модели дает диагностическую информацию о том, насколько хорошо выполняется критерий. Применение модели может также дать информацию о том, насколько хорошо пункты или вопросы в оценках работают для измерения способности или черты. Например, зная долю людей, которые занимаются определенным поведением, модель Раша может быть использована для выведения связей между сложностью поведения , отношениями и поведением. [25] Известными сторонниками моделей Раша являются Бенджамин Дрейк Райт , Дэвид Андрич и Эрлинг Андерсен.