stringtranslate.com

Валидность теста

Валидность теста – это степень, в которой тест (например, химический , физический или учебный тест ) точно измеряет то, что он должен измерять . В области психологического тестирования и образовательного тестирования «валидность означает степень, в которой доказательства и теория поддерживают интерпретации результатов тестов, вытекающие из предлагаемого использования тестов». [1] Хотя классические модели разделили концепцию на различные «валидности» (такие как валидность содержания , валидность критерия и валидность конструкта ), [2] в настоящее время преобладает точка зрения, что валидность — это единая унитарная конструкция. [3]

Валидность обычно считается наиболее важным вопросом в психологическом и образовательном тестировании [4] , поскольку она касается значения, придаваемого результатам теста. [3] Хотя во многих учебниках валидность представлена ​​как статическая конструкция, [5] со времени первых опубликованных рекомендаций по построению психологических и образовательных тестов развивались различные модели валидности. [6] Эти модели можно разделить на две основные группы: классические модели, которые включают несколько типов валидности, и современные модели, которые представляют валидность как единую конструкцию. Современные модели реорганизуют классические «валидности» либо в «аспекты» валидности [3] , либо в «типы» доказательств, подтверждающих валидность [1].

Валидность теста часто путают с надежностью , которая относится к согласованности меры. Адекватная надежность является предпосылкой валидности, но высокая надежность никоим образом не гарантирует валидность меры.

Историческая справка

Хотя психологам и педагогам было известно о нескольких аспектах валидности до Второй мировой войны, их методы установления валидности обычно ограничивались корреляцией результатов тестов с каким-либо известным критерием. [7] Под руководством Ли Кронбаха в 1954 году в «Технических рекомендациях по психологическим тестам и диагностическим методам» [6] была предпринята попытка прояснить и расширить сферу действия, разделив ее на четыре части: (а) параллельная достоверность , (б) прогностическая достоверность. , (c) достоверность содержания и (d) достоверность конструкции . Последующая публикация Кронбаха и Миля [8] сгруппировала прогностическую и параллельную валидность в «критериальную ориентацию», которая в конечном итоге стала критериальной валидностью .

В течение следующих четырех десятилетий многие теоретики, включая самого Кронбаха, [9] выражали свое недовольство этой моделью обоснованности «три в одном». [10] [11] [12] Их аргументы завершились статьей Сэмюэля Мессика 1995 года, в которой валидность описывалась как единая конструкция, состоящая из шести «аспектов». [3] По его мнению, различные выводы, сделанные на основе результатов тестов, могут требовать разных типов доказательств, но не разной достоверности.

Стандарты образовательного и психологического тестирования 1999 года [1] в значительной степени систематизировали модель Мессика. Они описывают пять типов доказательств, подтверждающих достоверность, которые включают в себя каждый из аспектов Мессика и не упоминают содержание, критерии и конструктную достоверность классических моделей.

Процесс проверки

Согласно Стандартам 1999 года , [1] валидация — это процесс сбора доказательств для обеспечения «надежной научной основы» для интерпретации оценок, предложенных разработчиком теста и/или пользователем теста. Таким образом, валидация начинается с структуры, которая определяет объем и аспекты (в случае многомерных шкал) предлагаемой интерпретации. Структура также включает рациональное обоснование, связывающее интерпретацию с рассматриваемым тестом.

Затем исследователи валидности перечисляют ряд предположений, которые должны быть выполнены, чтобы интерпретация была достоверной. Или, наоборот, они могут составить список вопросов, которые могут поставить под угрозу достоверность интерпретаций. В любом случае исследователи продолжают собирать доказательства – будь то оригинальные эмпирические исследования, метаанализ или обзор существующей литературы или логический анализ проблем – чтобы поддержать или подвергнуть сомнению положения интерпретации (или угрозы достоверности интерпретации). . Особое внимание уделяется качеству, а не количеству доказательств.

Единственная интерпретация любого результата теста может потребовать, чтобы несколько утверждений были истинными (или могут быть подвергнуты сомнению любым из множества угроз его достоверности). Веские доказательства в поддержку одного утверждения не уменьшают требования к поддержке других предположений.

Доказательства, подтверждающие (или подвергающие сомнению) обоснованность интерпретации, можно отнести к одной из пяти категорий:

  1. Доказательства, основанные на содержании теста
  2. Доказательства, основанные на процессах реагирования
  3. Доказательства, основанные на внутренней структуре
  4. Доказательства, основанные на отношениях к другим переменным
  5. Доказательства, основанные на последствиях тестирования

Методы сбора каждого типа доказательств следует использовать только в том случае, если они дают информацию, которая поддержит или подвергнет сомнению предположения, необходимые для рассматриваемой интерпретации.

Каждое доказательство в конечном итоге интегрируется в аргумент достоверности. Аргумент может потребовать пересмотра теста, протокола его проведения или теоретических конструкций, лежащих в основе интерпретаций. Если тест и/или интерпретация результатов теста каким-либо образом пересматриваются, новый процесс проверки должен собрать доказательства в поддержку новой версии.

Смотрите также

Рекомендации

  1. ^ abcd Американская ассоциация исследований в области образования, Американская психологическая ассоциация и Национальный совет по измерениям в образовании. (1999) Стандарты образовательного и психологического тестирования . Вашингтон, округ Колумбия: Американская ассоциация исследований в области образования.
  2. ^ Гион, РМ (1980). О тринитарных доктринах справедливости. Профессиональная психология, 11 , 385–398.
  3. ^ abcd Мессик, С. (1995). Валидность психологической оценки: проверка выводов на основе ответов и действий людей как научное исследование значения оценок. Американский психолог, 50 , 741–749.
  4. ^ Пофэм, WJ (2008). Все об оценивании / Непонятый Грааль. Образовательное лидерство, 66 (1), 82-83.
  5. См. отличный в остальном текст: Нитко, Дж. Дж., Брукхарт, С. М. (2004). Учебная оценка учащихся . Река Аппер-Сэддл, Нью-Джерси: Меррилл-Прентис Холл.
  6. ^ ab Американская психологическая ассоциация, Американская ассоциация исследований в области образования и Национальный совет по измерениям в образовании. (1954). Технические рекомендации по психологическим тестам и диагностическим методикам . Вашингтон, округ Колумбия: Ассоциация.
  7. ^ Ангофф, WH (1988). Действительность: развивающаяся концепция. В Х. Вайнере и Х. Брауне (ред.), Проверка достоверности (стр. 19–32). Хиллсдейл, Нью-Джерси: Лоуренс Эрлбаум.
  8. ^ Кронбах, Л.Дж., и Миль, Ч.П. (1955). Конструируйте валидность в психологических тестах. Психологический бюллетень, 52 , 281–302.
  9. ^ Кронбах, ЖЖ (1969). Валидация образовательных мер. Материалы приглашенной конференции по проблемам тестирования 1969 года. Принстон , Нью-Джерси: Служба образовательного тестирования, 35–52.
  10. ^ Левинджер, Дж. (1957). Объективные тесты как инструменты психологической теории. Психологические отчеты, 3 , 634–694.
  11. ^ Тенопир, ML (1977). Путаница содержания и конструкции. Психология персонала, 30 , 47-54.
  12. ^ Гион, РМ (1977). Достоверность содержания – источник моего недовольства. Прикладные психологические измерения, 1 , 1-10.