Валидность теста

Валидность теста – это степень, в которой тест (например, химический , физический или учебный тест ) точно измеряет то, что он должен измерять . В области психологического тестирования и образовательного тестирования «валидность означает степень, в которой доказательства и теория поддерживают интерпретации результатов тестов, вытекающие из предлагаемого использования тестов». ^[1] Хотя классические модели разделили концепцию на различные «валидности» (такие как валидность содержания , валидность критерия и валидность конструкта ), ^[2] в настоящее время преобладает точка зрения, что валидность — это единая унитарная конструкция. ^[3]

Валидность обычно считается наиболее важным вопросом в психологическом и образовательном тестировании ^[4] , поскольку она касается значения, придаваемого результатам теста. ^[3] Хотя во многих учебниках валидность представлена как статическая конструкция, ^[5] со времени первых опубликованных рекомендаций по построению психологических и образовательных тестов развивались различные модели валидности. ^[6] Эти модели можно разделить на две основные группы: классические модели, которые включают несколько типов валидности, и современные модели, которые представляют валидность как единую конструкцию. Современные модели реорганизуют классические «валидности» либо в «аспекты» валидности ^[3] , либо в «типы» доказательств, подтверждающих валидность ^[1].

Валидность теста часто путают с надежностью , которая относится к согласованности меры. Адекватная надежность является предпосылкой валидности, но высокая надежность никоим образом не гарантирует валидность меры.

Историческая справка

Хотя психологам и педагогам было известно о нескольких аспектах валидности до Второй мировой войны, их методы установления валидности обычно ограничивались корреляцией результатов тестов с каким-либо известным критерием. ^[7] Под руководством Ли Кронбаха в 1954 году в «Технических рекомендациях по психологическим тестам и диагностическим методам» ^[6] была предпринята попытка прояснить и расширить сферу действия, разделив ее на четыре части: (а) параллельная достоверность , (б) прогностическая достоверность. , (c) достоверность содержания и (d) достоверность конструкции . Последующая публикация Кронбаха и Миля ^[8] сгруппировала прогностическую и параллельную валидность в «критериальную ориентацию», которая в конечном итоге стала критериальной валидностью .

В течение следующих четырех десятилетий многие теоретики, включая самого Кронбаха, ^[9] выражали свое недовольство этой моделью обоснованности «три в одном». ^[10]^[11]^[12] Их аргументы завершились статьей Сэмюэля Мессика 1995 года, в которой валидность описывалась как единая конструкция, состоящая из шести «аспектов». ^[3] По его мнению, различные выводы, сделанные на основе результатов тестов, могут требовать разных типов доказательств, но не разной достоверности.

Стандарты образовательного и психологического тестирования 1999 года ^[1] в значительной степени систематизировали модель Мессика. Они описывают пять типов доказательств, подтверждающих достоверность, которые включают в себя каждый из аспектов Мессика и не упоминают содержание, критерии и конструктную достоверность классических моделей.

Процесс проверки

Согласно Стандартам 1999 года , ^[1] валидация — это процесс сбора доказательств для обеспечения «надежной научной основы» для интерпретации оценок, предложенных разработчиком теста и/или пользователем теста. Таким образом, валидация начинается с структуры, которая определяет объем и аспекты (в случае многомерных шкал) предлагаемой интерпретации. Структура также включает рациональное обоснование, связывающее интерпретацию с рассматриваемым тестом.

Затем исследователи валидности перечисляют ряд предположений, которые должны быть выполнены, чтобы интерпретация была достоверной. Или, наоборот, они могут составить список вопросов, которые могут поставить под угрозу достоверность интерпретаций. В любом случае исследователи продолжают собирать доказательства – будь то оригинальные эмпирические исследования, метаанализ или обзор существующей литературы или логический анализ проблем – чтобы поддержать или подвергнуть сомнению положения интерпретации (или угрозы достоверности интерпретации). . Особое внимание уделяется качеству, а не количеству доказательств.

Единственная интерпретация любого результата теста может потребовать, чтобы несколько утверждений были истинными (или могут быть подвергнуты сомнению любым из множества угроз его достоверности). Веские доказательства в поддержку одного утверждения не уменьшают требования к поддержке других предположений.

Доказательства, подтверждающие (или подвергающие сомнению) обоснованность интерпретации, можно отнести к одной из пяти категорий:

Доказательства, основанные на содержании теста
Доказательства, основанные на процессах реагирования
Доказательства, основанные на внутренней структуре
Доказательства, основанные на отношениях к другим переменным
Доказательства, основанные на последствиях тестирования

Методы сбора каждого типа доказательств следует использовать только в том случае, если они дают информацию, которая поддержит или подвергнет сомнению предположения, необходимые для рассматриваемой интерпретации.

Каждое доказательство в конечном итоге интегрируется в аргумент достоверности. Аргумент может потребовать пересмотра теста, протокола его проведения или теоретических конструкций, лежащих в основе интерпретаций. Если тест и/или интерпретация результатов теста каким-либо образом пересматриваются, новый процесс проверки должен собрать доказательства в поддержку новой версии.

Смотрите также

Шкала достоверности

Валидность теста

Историческая справка

Процесс проверки

Смотрите также

Рекомендации