Теория обобщаемости

Теория обобщаемости , или G-теория , представляет собой статистическую основу для концептуализации, исследования и разработки надежных наблюдений . Он используется для определения надежности (т. е. воспроизводимости) измерений в конкретных условиях. Это особенно полезно для оценки надежности оценок производительности. Первоначально он был представлен в работах Кронбаха Л.Дж. , Раджаратнама Н. и Глесера Г.К. (1963).

Обзор

В теории G источники вариаций называются фасетами . Фасеты аналогичны «факторам», используемым в дисперсионном анализе , и могут включать в себя людей, оценщиков, элементы/формы, время и настройки, среди других возможностей. Эти аспекты являются потенциальными источниками ошибок, и цель теории обобщаемости состоит в количественной оценке количества ошибок, вызванных каждым аспектом и взаимодействием аспектов. Полезность данных, полученных в ходе исследования G, решающим образом зависит от его дизайна. Поэтому исследователь должен тщательно обдумать способы, с помощью которых он/она надеется обобщить какие-либо конкретные результаты. Важно ли обобщать одну настройку на большее количество настроек? От одного оценщика к большему числу оценщиков? От одного набора предметов к большему набору предметов? Ответы на эти вопросы будут варьироваться от одного исследователя к другому и по-разному будут определять дизайн исследования G.

Помимо решения о том, какие аспекты исследователь обычно желает изучить, необходимо определить, какой аспект будет служить объектом измерения (например, систематическим источником дисперсии) для целей анализа. Остальные представляющие интерес аспекты тогда считаются источниками ошибок измерения. В большинстве случаев объектом измерения будет человек, которому присвоен номер/балл. В других случаях это может быть группа или исполнители, например команда или класс. В идеальном случае почти вся измеренная дисперсия будет отнесена к объекту измерения (например, индивидуальным различиям), и лишь незначительная часть дисперсии будет отнесена к остальным аспектам (например, оценщику, времени, обстановке).

Результаты исследования G также могут быть использованы для принятия решения или исследования D. В исследовании D мы можем задать гипотетический вопрос: «Что произойдет, если изменить различные аспекты этого исследования?» Например, компания, производящая безалкогольные напитки, может быть заинтересована в оценке качества нового продукта с помощью шкалы потребительских оценок. Используя исследование D, можно было бы оценить, как изменится согласованность оценок качества, если потребителям будет задано 10 вопросов вместо 2 или если 1000 потребителей оценят безалкогольный напиток вместо 100. Используя смоделированные исследования D, можно поэтому можно изучить, как коэффициенты обобщаемости (аналогичные коэффициентам надежности в классической теории испытаний ) будут меняться при различных обстоятельствах, и, следовательно, определить идеальные условия, при которых наши измерения будут наиболее надежными.

Сравнение с классической теорией тестов

В центре внимания классической теории испытаний (КТТ) находится определение погрешности измерения. Возможно, самой известной моделью СТТ является уравнение , где X — наблюдаемая оценка, T — истинная оценка, а e — ошибка, возникающая при измерении. Хотя e может представлять множество различных типов ошибок, таких как ошибки оценщика или прибора, CTT позволяет нам оценивать только один тип ошибок за раз. По сути, он объединяет все источники ошибок в один термин ошибки. Это может быть подходящим в контексте строго контролируемых лабораторных условий, но дисперсия является частью повседневной жизни. Например, в полевых исследованиях нереалистично ожидать, что условия измерения останутся постоянными. Теория обобщения признает и учитывает изменчивость условий оценки, которая может повлиять на измерения. Преимущество теории G заключается в том, что исследователи могут оценить, какая доля общей дисперсии результатов обусловлена отдельными факторами, которые часто различаются в оценке, такими как обстановка, время, предметы и оценщики. $X=T+E$

Еще одно важное различие между теорией CTT и G заключается в том, что последний подход учитывает, как может измениться согласованность результатов, если для принятия абсолютных, а не относительных решений используется мера. Примером абсолютного или основанного на критериях решения может служить сравнение результатов теста человека с пороговым баллом для определения права на участие или диагноза (т. е. балл ребенка по тесту достижений используется для определения права на участие в программе для одаренных детей). ). Напротив, примером относительного или основанного на норме решения может служить ситуация, когда баллы человека по тесту используются либо для (а) определения относительного положения по сравнению с его/ее сверстниками (т. е. используется балл ребенка по субтесту по чтению). чтобы определить, к какой группе чтения он/она отнесен), или (б) провести внутрииндивидуальные сравнения (т. е. сравнение предыдущих и текущих результатов одного и того же человека). Тип решения, интересующего исследователя, будет определять, какую формулу следует использовать для расчета коэффициента обобщаемости (аналогично коэффициенту надежности в КТТ).

Смотрите также

Теория реакции предмета

Внешние ссылки

Георг Э. Мэтт, Теория обобщаемости
Теория обобщаемости, основанная на Раше
Ральф Блох, G_String Software

Теория обобщаемости

Обзор

Сравнение с классической теорией тестов

Смотрите также

Рекомендации

Внешние ссылки