В статистике и психометрии надежность — это общая согласованность меры. [1] Говорят, что мера имеет высокую надежность, если она дает схожие результаты при постоянных условиях :
«Это характеристика набора результатов тестов, которая относится к количеству случайных ошибок в процессе измерения, которые могут быть заложены в результатах. Результаты, которые являются высоконадежными, являются точными, воспроизводимыми и последовательными от одного случая тестирования к другому. То есть, если бы процесс тестирования был повторен с группой испытуемых, были бы получены по сути те же самые результаты. Различные виды коэффициентов надежности со значениями в диапазоне от 0,00 (большая ошибка) до 1,00 (нет ошибок) обычно используются для указания количества ошибок в результатах». [2]
Например, измерения роста и веса людей часто бывают чрезвычайно надежными. [3] [4]
Существует несколько общих классов оценок надежности:
Надежность не подразумевает валидность . То есть, надежная мера, которая последовательно измеряет что-то, не обязательно измеряет то, что вы хотите, чтобы измеряли. Например, хотя существует множество надежных тестов определенных способностей, не все из них будут валидны для прогнозирования, скажем, производительности труда.
Хотя надежность не подразумевает валидность , надежность накладывает ограничение на общую валидность теста. Тест, который не является абсолютно надежным, не может быть абсолютно валидным, ни как средство измерения характеристик человека, ни как средство прогнозирования баллов по критерию. В то время как надежный тест может предоставлять полезную валидную информацию, тест, который не является надежным, не может быть валидным. [7]
Например, если набор весов последовательно измеряет вес объекта на 500 граммов больше истинного веса, то весы будут очень надежными, но они не будут действительными (поскольку возвращаемый вес не является истинным весом). Чтобы весы были действительными, они должны возвращать истинный вес объекта. Этот пример показывает, что совершенно надежная мера не обязательно является действительной, но что действительная мера обязательно должна быть надежной.
На практике тестовые измерения никогда не бывают идеально последовательными. Теории надежности тестов были разработаны для оценки влияния непоследовательности на точность измерения. Основной отправной точкой для почти всех теорий надежности тестов является идея о том, что тестовые баллы отражают влияние двух видов факторов: [7]
1. Факторы постоянства: стабильные характеристики личности или атрибута, которые пытаемся измерить.
2. Факторы непоследовательности: особенности личности или ситуации, которые могут повлиять на результаты теста, но не имеют ничего общего с измеряемым атрибутом.
Эти факторы включают в себя: [7]
Цель оценки надежности — определить, какая часть изменчивости результатов тестов обусловлена ошибками измерения , а какая — изменчивостью истинных результатов ( истинного значения ). [7]
Истинная оценка — это воспроизводимая характеристика измеряемой концепции. Это часть наблюдаемой оценки, которая будет повторяться в различных случаях измерения при отсутствии ошибки.
Ошибки измерения состоят из случайной и систематической ошибки . Они представляют собой расхождения между результатами, полученными в ходе тестов, и соответствующими истинными оценками.
Эта концептуальная разбивка обычно представлена простым уравнением:
Цель теории надежности — оценить погрешности измерений и предложить способы улучшения испытаний, чтобы свести погрешности к минимуму.
Центральным предположением теории надежности является то, что ошибки измерения по сути случайны. Это не означает, что ошибки возникают из-за случайных процессов. Для любого человека ошибка измерения не является полностью случайным событием. Однако среди большого числа людей причины ошибки измерения считаются настолько разнообразными, что ошибки измерения действуют как случайные величины. [7]
Если ошибки обладают основными характеристиками случайных величин, то разумно предположить, что ошибки с равной вероятностью могут быть как положительными, так и отрицательными и что они не коррелируют с истинными результатами или с ошибками в других тестах.
Предполагается, что: [8]
1. Средняя погрешность измерения = 0
2. Истинные оценки и ошибки не коррелируют.
3. Ошибки по разным показателям не коррелируют.
Теория надежности показывает, что дисперсия полученных оценок представляет собой просто сумму дисперсии истинных оценок плюс дисперсию ошибок измерения . [7]
Это уравнение предполагает, что результаты тестов варьируются в зависимости от двух факторов:
1. Изменчивость истинных оценок
2. Изменчивость из-за ошибок измерения.
Коэффициент надежности представляет собой индекс относительного влияния истинных и ошибочных оценок на полученные тестовые баллы. В общем виде коэффициент надежности определяется как отношение истинной дисперсии баллов к общей дисперсии тестовых баллов. Или, что эквивалентно, единица минус отношение дисперсии ошибочной оценки к дисперсии наблюдаемой оценки :
К сожалению, не существует возможности напрямую наблюдать или вычислять истинный результат, поэтому для оценки надежности теста используются различные методы.
Некоторые примеры методов оценки надежности включают надежность повторного тестирования , надежность внутренней согласованности и надежность параллельного тестирования . Каждый метод подходит к проблеме определения источника ошибки в тесте несколько по-разному.
Классическим теоретикам тестирования было хорошо известно, что точность измерения неравномерна по шкале измерения. Тесты, как правило, лучше различают испытуемых со средним уровнем черт и хуже среди испытуемых с высокими и низкими баллами. Теория ответов на вопросы расширяет концепцию надежности с одного индекса до функции, называемой информационной функцией . Информационная функция IRT является обратной величиной условной наблюдаемой стандартной ошибки балла при любом заданном тестовом балле.
Цель оценки надежности — определить, какая часть изменчивости результатов тестов обусловлена ошибками измерения, а какая — изменчивостью истинных результатов.
Разработаны четыре практические стратегии, которые предоставляют работающие методы оценки надежности теста. [7]
1. Метод надежности повторного тестирования : напрямую оценивает степень постоянства результатов тестирования от одного тестирования к другому.
Это включает в себя:
Корреляция между результатами первого теста и результатами повторного теста используется для оценки надежности теста с использованием коэффициента корреляции Пирсона : см. также корреляцию между элементами и общей суммой .
2. Метод параллельных форм :
Ключом к этому методу является разработка альтернативных форм тестов, которые эквивалентны по содержанию, процессам реагирования и статистическим характеристикам. Например, существуют альтернативные формы для нескольких тестов общего интеллекта, и эти тесты, как правило, считаются эквивалентными. [7]
С помощью параллельной тестовой модели можно разработать две формы теста, которые эквивалентны в том смысле, что истинный балл человека по форме A будет идентичен его истинному баллу по форме B. Если обе формы теста были предложены нескольким людям, различия между баллами по форме A и форме B могут быть вызваны только ошибками в измерениях. [7]
Это включает в себя:
Корреляция между результатами двух альтернативных форм используется для оценки надежности теста.
Этот метод обеспечивает частичное решение многих проблем, присущих методу надежности повторного тестирования . Например, поскольку две формы теста различны, эффект переноса является меньшей проблемой. Эффекты реактивности также частично контролируются; хотя проведение первого теста может изменить ответы на второй тест. Однако разумно предположить, что эффект не будет таким сильным при альтернативных формах теста, как при двух введениях одного и того же теста. [7]
Однако этот метод имеет свои недостатки:
3. Метод деления пополам :
Этот метод рассматривает две половины меры как альтернативные формы. Он обеспечивает простое решение проблемы, с которой сталкивается метод параллельных форм : трудности в разработке альтернативных форм. [7]
Это включает в себя:
Корреляция между этими двумя разделенными половинами используется для оценки надежности теста. Затем эта оценка надежности половин увеличивается до полной длины теста с использованием формулы прогнозирования Спирмена–Брауна .
Существует несколько способов разбиения теста для оценки надежности. Например, тест на словарный запас из 40 пунктов можно разделить на два подтеста: первый из них будет состоять из пунктов с 1 по 20, а второй — из пунктов с 21 по 40. Однако ответы из первой половины могут систематически отличаться от ответов из второй половины из-за увеличения сложности пунктов и усталости. [7]
При разделении теста две половины должны быть максимально похожими, как по содержанию, так и по вероятному состоянию респондента. Самый простой метод — принять разделение на нечетные и четные, в котором нечетные элементы образуют одну половину теста, а четные — другую. Такое расположение гарантирует, что каждая половина будет содержать равное количество элементов из начала, середины и конца исходного теста. [7]
4. Внутренняя согласованность : оценивает согласованность результатов по пунктам в тесте. Наиболее распространенной мерой внутренней согласованности является альфа Кронбаха , которая обычно интерпретируется как среднее значение всех возможных коэффициентов разделения пополам. [9] Альфа Кронбаха является обобщением более ранней формы оценки внутренней согласованности, формулы Кьюдера–Ричардсона 20. [ 9] Хотя она наиболее часто используется, существуют некоторые заблуждения относительно альфы Кронбаха. [10] [11]
Эти меры надежности различаются по своей чувствительности к разным источникам ошибок и поэтому не обязательно должны быть равными. Кроме того, надежность является свойством оценок меры, а не самой меры, и поэтому говорят, что она зависит от выборки . Оценки надежности одной выборки могут отличаться от оценок второй выборки (за пределами того, что можно было бы ожидать из-за вариаций выборки), если вторая выборка взята из другой популяции, поскольку истинная изменчивость в этой второй популяции отличается. (Это справедливо для мер всех типов — линейки могут хорошо измерять дома, но иметь низкую надежность при использовании для измерения длины насекомых.)
Надежность может быть улучшена за счет ясности выражения (для письменных оценок), удлинения меры [9] и других неформальных средств. Однако формальный психометрический анализ, называемый анализом элементов, считается наиболее эффективным способом повышения надежности. Этот анализ состоит из вычисления трудностей элементов и индексов дискриминации элементов , причем последний индекс включает вычисление корреляций между элементами и суммой баллов элементов всего теста. Если элементы, которые слишком сложны, слишком легки и/или имеют близкую к нулю или отрицательную дискриминацию, заменить лучшими элементами, надежность измерения увеличится.
{{cite book}}
: CS1 maint: несколько имен: список авторов ( ссылка )