В психометрии содержательная валидность (также известная как логическая валидность ) относится к степени, в которой мера представляет все грани заданной конструкции. Например, шкала депрессии может не иметь содержательной валидности, если она оценивает только аффективное измерение депрессии, но не учитывает поведенческое измерение. Элемент субъективности существует в отношении определения содержательной валидности, что требует определенной степени согласия относительно того, что представляет собой конкретная черта личности, такая как экстраверсия . Разногласия относительно черты личности помешают достижению высокой содержательной валидности. [1]
Валидность содержания отличается от валидности внешнего вида , которая относится не к тому, что тест измеряет на самом деле, а к тому, что он, по-видимому, измеряет на первый взгляд. Валидность внешнего вида оценивает, «выглядит ли тест валидным» для испытуемых, которые его проходят, административного персонала, который принимает решение о его использовании, и других технически неподготовленных наблюдателей. Валидность содержания требует использования признанных экспертов по предметной области для оценки того, оценивают ли тестовые задания определенное содержание, и более строгих статистических тестов , чем оценка валидности внешнего вида. Валидность содержания чаще всего рассматривается в академическом и профессиональном тестировании, где тестовые задания должны отражать знания, фактически требуемые для данной тематической области (например, история) или профессиональных навыков (например, бухгалтерский учет). В клинических условиях валидность содержания относится к соответствию между тестовыми заданиями и содержанием симптомов синдрома.
Один из широко используемых методов измерения валидности контента был разработан CH Lawshe. По сути, это метод оценки согласия между оценщиками или судьями относительно того, насколько важен тот или иной пункт. В статье, посвященной тестированию перед приемом на работу, Lawshe (1975) [2] предложил, чтобы каждый из экспертов-оценщиков предметной области (SME) в составе судейской коллегии отвечал на следующий вопрос по каждому пункту: «Являются ли навыки или знания, измеряемые этим пунктом, «важными», «полезными, но не важными» или «не необходимыми» для выполнения работы?» По словам Lawshe, если более половины членов комиссии указывают, что пункт важен, этот пункт имеет по крайней мере некоторую валидность контента. Более высокие уровни валидности контента существуют, поскольку большее число членов комиссии соглашается с тем, что определенный пункт важен. Используя эти предположения, Lawshe разработал формулу, называемую коэффициентом валидности контента: где коэффициент валидности контента, количество членов комиссии SME, указывающих «важный», общее количество членов комиссии SME. Эта формула дает значения в диапазоне от +1 до -1; Положительные значения указывают на то, что по крайней мере половина МСП оценили элемент как необходимый. Средний CVR по элементам может использоваться как индикатор общей валидности содержания теста.
Лоуше (1975) предоставил таблицу критических значений для CVR, с помощью которой оценщик теста мог определить для пула МСП заданного размера размер расчетного CVR, необходимого для превышения случайного ожидания. Эта таблица была рассчитана для Лоуше его другом Лоуэллом Шиппером. Тщательное изучение этой опубликованной таблицы выявило аномалию. В таблице Шиппера критическое значение для CVR монотонно увеличивается от случая 40 МСП (минимальное значение = .29) до случая 9 МСП (минимальное значение = .78) только для того, чтобы неожиданно упасть в случае 8 МСП (минимальное значение = .75) перед тем, как достичь своего верхнего значения в случае 7 МСП (минимальное значение = .99). Однако при применении формулы к 8 оценщикам результат от 7 Essential и 1 другой оценки дает CVR .75. Если бы .75 не было критическим значением, то потребовалось бы 8 из 8 оценщиков Essential, которые дали бы CVR 1.00. В этом случае, чтобы соответствовать возрастающему порядку CVR, значение для 8 оценщиков должно было бы быть 1.00. Это нарушило бы тот же принцип, потому что у вас было бы «идеальное» значение, требуемое для 8 оценщиков, но не для оценок при другом количестве оценщиков, как выше, так и ниже 8 оценщиков. Было ли это отклонение от в остальном монотонной прогрессии таблицы вызвано ошибкой в расчетах со стороны Шиппера или ошибкой при наборе или верстке, неясно. Уилсон, Пан и Шумски (2012), стремясь исправить ошибку, не нашли объяснения в трудах Лоуше или каких-либо публикациях Шиппера, описывающих, как была вычислена таблица критических значений. Уилсон и коллеги определили, что значения Шиппера были близкими приближениями к нормальному приближению к биномиальному распределению. Сравнивая значения Шиппера с недавно рассчитанными биномиальными значениями, они также обнаружили, что Лоуше и Шиппер ошибочно обозначили свою опубликованную таблицу как представляющую односторонний тест, когда на самом деле значения отражали биномиальные значения для двустороннего теста. Уилсон и коллеги опубликовали пересчет критических значений для коэффициента валидности контента, предоставив критические значения в единичных шагах на нескольких уровнях альфа. [3]
Таблица значений следующая: [2]