Валидность теста – это степень, в которой тест (например, химический , физический или учебный тест ) точно измеряет то, что он должен измерять . В области психологического тестирования и образовательного тестирования «валидность означает степень, в которой доказательства и теория поддерживают интерпретации результатов тестов, вытекающие из предлагаемого использования тестов». [1] Хотя классические модели разделили концепцию на различные «валидности» (такие как валидность содержания , валидность критерия и валидность конструкта ), [2] в настоящее время преобладает точка зрения, что валидность — это единая унитарная конструкция. [3]
Валидность обычно считается наиболее важным вопросом в психологическом и образовательном тестировании [4] , поскольку она касается значения, придаваемого результатам теста. [3] Хотя во многих учебниках валидность представлена как статическая конструкция, [5] со времени первых опубликованных рекомендаций по построению психологических и образовательных тестов развивались различные модели валидности. [6] Эти модели можно разделить на две основные группы: классические модели, которые включают несколько типов валидности, и современные модели, которые представляют валидность как единую конструкцию. Современные модели реорганизуют классические «валидности» либо в «аспекты» валидности [3] , либо в «типы» доказательств, подтверждающих валидность [1].
Валидность теста часто путают с надежностью , которая относится к согласованности меры. Адекватная надежность является предпосылкой валидности, но высокая надежность никоим образом не гарантирует валидность меры.
Хотя психологам и педагогам было известно о нескольких аспектах валидности до Второй мировой войны, их методы установления валидности обычно ограничивались корреляцией результатов тестов с каким-либо известным критерием. [7] Под руководством Ли Кронбаха в 1954 году в «Технических рекомендациях по психологическим тестам и диагностическим методам» [6] была предпринята попытка прояснить и расширить сферу действия, разделив ее на четыре части: (а) параллельная достоверность , (б) прогностическая достоверность. , (c) достоверность содержания и (d) достоверность конструкции . Последующая публикация Кронбаха и Миля [8] сгруппировала прогностическую и параллельную валидность в «критериальную ориентацию», которая в конечном итоге стала критериальной валидностью .
В течение следующих четырех десятилетий многие теоретики, включая самого Кронбаха, [9] выражали свое недовольство этой моделью обоснованности «три в одном». [10] [11] [12] Их аргументы завершились статьей Сэмюэля Мессика 1995 года, в которой валидность описывалась как единая конструкция, состоящая из шести «аспектов». [3] По его мнению, различные выводы, сделанные на основе результатов тестов, могут требовать разных типов доказательств, но не разной достоверности.
Стандарты образовательного и психологического тестирования 1999 года [1] в значительной степени систематизировали модель Мессика. Они описывают пять типов доказательств, подтверждающих достоверность, которые включают в себя каждый из аспектов Мессика и не упоминают содержание, критерии и конструктную достоверность классических моделей.
Согласно Стандартам 1999 года , [1] валидация — это процесс сбора доказательств для обеспечения «надежной научной основы» для интерпретации оценок, предложенных разработчиком теста и/или пользователем теста. Таким образом, валидация начинается с структуры, которая определяет объем и аспекты (в случае многомерных шкал) предлагаемой интерпретации. Структура также включает рациональное обоснование, связывающее интерпретацию с рассматриваемым тестом.
Затем исследователи валидности перечисляют ряд предположений, которые должны быть выполнены, чтобы интерпретация была достоверной. Или, наоборот, они могут составить список вопросов, которые могут поставить под угрозу достоверность интерпретаций. В любом случае исследователи продолжают собирать доказательства – будь то оригинальные эмпирические исследования, метаанализ или обзор существующей литературы или логический анализ проблем – чтобы поддержать или подвергнуть сомнению положения интерпретации (или угрозы достоверности интерпретации). . Особое внимание уделяется качеству, а не количеству доказательств.
Единственная интерпретация любого результата теста может потребовать, чтобы несколько утверждений были истинными (или могут быть подвергнуты сомнению любым из множества угроз его достоверности). Веские доказательства в поддержку одного утверждения не уменьшают требования к поддержке других предположений.
Доказательства, подтверждающие (или подвергающие сомнению) обоснованность интерпретации, можно отнести к одной из пяти категорий:
Методы сбора каждого типа доказательств следует использовать только в том случае, если они дают информацию, которая поддержит или подвергнет сомнению предположения, необходимые для рассматриваемой интерпретации.
Каждое доказательство в конечном итоге интегрируется в аргумент достоверности. Аргумент может потребовать пересмотра теста, протокола его проведения или теоретических конструкций, лежащих в основе интерпретаций. Если тест и/или интерпретация результатов теста каким-либо образом пересматриваются, новый процесс проверки должен собрать доказательства в поддержку новой версии.