Срок действия (статистика)

Валидность — это основная степень, в которой концепция , вывод или измерение являются обоснованными и, вероятно, точно соответствуют реальному миру. ^[1]^[2] Слово «валидный» происходит от латинского validus, что означает «сильный». Валидность инструмента измерения (например, теста в сфере образования) — это степень, в которой этот инструмент измеряет то, что он якобы измеряет. ^[3] Валидность основана на силе совокупности различных типов доказательств (например, лицевой валидности, конструктной валидности и т. д.), которые более подробно описаны ниже.

В психометрии валидность имеет особое применение, известное как валидность теста : «степень, в которой доказательства и теория поддерживают интерпретацию результатов тестов» («как это вытекает из предполагаемого использования тестов»). ^[4]

Принято считать, что концепция научной достоверности рассматривает природу реальности с точки зрения статистических показателей и как таковая является эпистемологической и философской проблемой, а также вопросом измерения . Использование этого термина в логике более узкое и касается связи между посылками и выводом аргумента. В логике валидность относится к свойству аргумента, согласно которому, если посылки истинны, то истинность вывода вытекает с необходимостью. Заключение аргумента истинно, если аргумент обоснован, то есть, если аргумент действителен и его посылки верны. Напротив, «научная или статистическая достоверность» — это не дедуктивное утверждение, которое обязательно сохраняет истину, а индуктивное утверждение, которое остается истинным или ложным в неопределенной манере. Вот почему «научная или статистическая достоверность» — это утверждение, которое по своей природе квалифицируется как сильное или слабое; оно никогда не является необходимым и не является безусловно истинным. Это приводит к тому, что заявления о «научной или статистической достоверности» становятся открытыми для интерпретации относительно того, что на самом деле означают факты.

Валидность важна, потому что она может помочь определить, какие типы тестов использовать, и помочь гарантировать, что исследователи используют методы, которые не только этичны и экономически эффективны, но и те, которые действительно измеряют рассматриваемые идеи или конструкции.

Валидность теста

Валидность (точность)

Валидность ^[5] оценки – это степень, в которой она измеряет то, что она должна измерять. Это не то же самое, что надежность , которая представляет собой степень, в которой измерение дает очень стабильные результаты. В рамках достоверности измерения не всегда должны быть одинаковыми, как в случае с надежностью. Однако если мера надежна, она не обязательно действительна. Например, весы с отклонением на 5 фунтов надежны, но недействительны. Тест не может быть валидным, если он не надежен. Валидность также зависит от того, измеряется ли измерение того, для чего оно было разработано, а не чего-то другого. ^[6] Валидность (аналогично надежности) — понятие относительное; валидность – это не идея «все или ничего». Существует много различных типов валидности.

Конструировать валидность

Валидность конструкта относится к степени, в которой операционализация конструкта (например, практические тесты, разработанные на основе теории) измеряют конструкт, определенный теорией. Оно включает в себя все другие виды валидности. Например, степень, в которой тест измеряет интеллект, является вопросом валидности конструкции. Мера интеллекта предполагает, среди прочего, что эта мера связана с вещами, с которыми она должна быть связана ( конвергентная валидность ), а не с вещами, с которыми она не должна быть связана ( дискриминантная валидность ). ^[7]

Доказательства валидности конструкта включают эмпирическую и теоретическую поддержку интерпретации конструкта. Такие линии доказательств включают статистический анализ внутренней структуры теста, включая взаимосвязь между ответами на различные тестовые задания. Они также включают взаимосвязи между тестом и показателями других конструкций. В нынешнем понимании валидность конструкта не отличается от поддержки содержательной теории конструкта, для измерения которого предназначен тест. Таким образом, эксперименты, направленные на выявление аспектов причинной роли конструкции, также способствуют построению доказательств достоверности. ^[7]

Содержание действия

Валидность содержания — это нестатистический тип валидности, который включает «систематическое изучение содержания теста с целью определить, охватывает ли он репрезентативную выборку измеряемой области поведения» (Анастаси и Урбина, 1997, стр. 114). Например, есть ли в опроснике IQ пункты, охватывающие все области интеллекта, обсуждаемые в научной литературе?

Доказательство достоверности контента включает в себя степень, в которой содержание теста соответствует домену контента, связанному с конструкцией. Например, тест на умение складывать два числа должен включать ряд комбинаций цифр. Тест только с однозначными числами или только с четными числами не обеспечит хорошего охвата предметной области. Доказательства, связанные с содержанием, обычно включают эксперта в данной области (SME), который оценивает тестовые задания на соответствие спецификациям теста. Экспертам следует обратить внимание на любые культурные различия. Например, когда анкета для оценки вождения принимается в Англии (например, DBQ), эксперты должны учитывать правостороннее вождение в Великобритании. Некоторые исследования показали, что это будет иметь решающее значение для получения действительной анкеты. ^[8] Прежде чем приступить к окончательному заполнению вопросников, исследователь должен проверить достоверность пунктов по каждому из конструктов или переменных и, соответственно, модифицировать инструменты измерения на основе мнения малого и среднего бизнеса.

В тест заложена валидность содержания за счет тщательного выбора элементов, которые нужно включить (Анастаси и Урбина, 1997). Элементы выбираются так, чтобы они соответствовали спецификации теста, составленной путем тщательного изучения предметной области. Фокскрофт, Патерсон, Ле Ру и Хербст (2004, стр. 49) ^[9] отмечают, что с помощью группы экспертов для рассмотрения спецификаций теста и выбора заданий можно повысить достоверность содержания теста. Эксперты смогут просмотреть элементы и прокомментировать, охватывают ли они репрезентативную выборку поведенческой области.

Лицевая валидность

Лицевая валидность — это оценка того, соответствует ли тест определенному критерию; он не гарантирует, что тест действительно измеряет явления в этой области. Измерения могут иметь высокую валидность, но когда тест не измеряет то, что он собой представляет, он имеет низкую внешнюю валидность. Действительно, когда тест подвергается фальсификации (симуляции), низкая внешняя валидность может сделать тест более валидным. Учитывая, что можно получить более честные ответы с более низкой валидностью лица, иногда важно при применении мер создать впечатление, будто существует низкая валидность лица.

Валидность лица очень тесно связана с достоверностью контента. В то время как достоверность содержания зависит от теоретической основы для предположения, оценивает ли тест все области определенного критерия (например, дает ли оценка навыков сложения в хорошей мере математические навыки? Чтобы ответить на этот вопрос, вы должны знать, какие различные виды арифметических навыков математические навыки включают в себя) валидность лица связана с тем, является ли тест хорошим показателем или нет. Эта оценка выносится «на лицо» теста, поэтому ее также может оценивать любитель.

Фейковая валидность является отправной точкой, но никогда не следует предполагать, что она вероятно верна для какой-либо конкретной цели, поскольку «эксперты» ошибались и раньше — Malleus Malificarum («Молот ведьм») не имел никакой поддержки для своих выводов, кроме самооценки. воображаемая компетентность двух «экспертов» в «обнаружении колдовства», тем не менее, она использовалась как «испытание», чтобы осудить и сжечь на кострах десятки тысяч мужчин и женщин как «ведьм». ^[10]

Критерий достоверности

Доказательство валидности критерия включает корреляцию между тестом и критериальной переменной (или переменными), взятой в качестве репрезентативной для конструкции. Другими словами, он сравнивает тест с другими показателями или результатами (критериями), которые уже признаны действительными. Например, тесты отбора сотрудников часто проверяются по показателям производительности труда (критерий), а тесты IQ часто проверяются по показателям академической успеваемости (критерий).

Если данные испытаний и данные критериев собираются одновременно, это называется параллельным доказательством достоверности. Если сначала собираются тестовые данные, чтобы спрогнозировать данные критерия, собранные в более поздний момент времени, то это называется доказательством прогностической достоверности.

Параллельное действие

Параллельная валидность относится к степени, в которой операционализация коррелирует с другими показателями той же конструкции, которые измеряются в то же время. Когда мера сравнивается с другой мерой того же типа, они будут связаны (или коррелированы). Возвращаясь к примеру с отборочным тестом, это будет означать, что тесты проводятся для нынешних сотрудников, а затем коррелируются с их оценками в аттестациях.

Прогностическая достоверность

Прогностическая валидность относится к степени, в которой операционализация может предсказывать (или коррелировать) другие показатели той же конструкции, которые будут измерены в какой-то момент в будущем. Опять же, в примере с отборочным тестом это будет означать, что тесты проводятся для кандидатов, все кандидаты принимаются на работу, их эффективность проверяется позднее, а затем их баллы по двум показателям коррелируют.

Это также когда измерение предсказывает взаимосвязь между тем, что измеряется, и чем-то еще; предсказание того, произойдет ли что-то другое в будущем. Высокая корреляция между прогнозируемыми заранее и фактическими результатами является самым убедительным доказательством достоверности.

Экспериментальная достоверность

Обоснованность плана экспериментальных исследований является фундаментальной частью научного метода [ ^2] и вопросом исследовательской этики . Без обоснованного дизайна невозможно сделать достоверные научные выводы.

Обоснованность статистического вывода

Валидность статистических выводов — это степень, в которой выводы о взаимосвязи между переменными, основанные на данных, являются правильными или «обоснованными». Вначале речь шла исключительно о том, верен ли статистический вывод о взаимосвязи переменных, но теперь наблюдается движение к переходу к «разумным» выводам, использующим: количественные, статистические и качественные данные. ^[11]

Обоснованность статистических выводов предполагает обеспечение использования адекватных процедур выборки, соответствующих статистических тестов и надежных процедур измерения. ^[12] Поскольку этот тип достоверности касается исключительно отношений, обнаруженных между переменными, эта связь может быть исключительно корреляцией.

Внутренняя валидность

Внутренняя валидность – это индуктивная оценка степени, в которой можно сделать выводы о причинно-следственных связях (например, причинах и следствиях) на основе использованных показателей, условий исследования и всего плана исследования. Хорошие экспериментальные методы, в которых влияние независимой переменной на зависимую изучается в строго контролируемых условиях, обычно допускают более высокую степень внутренней валидности, чем, например, планы для одного случая.

Восемь типов мешающих переменных могут мешать внутренней достоверности (т. е. попытке изолировать причинно-следственные связи):

История : конкретные события, происходящие между первым и вторым измерениями в дополнение к экспериментальным переменным.
Созревание — процессы внутри участников, происходящие в зависимости от течения времени (не специфичные для конкретных событий), например, старение, голод, усталость и т. д.
Тестирование : влияние прохождения теста на результаты второго тестирования.
Приборы , изменения в калибровке измерительного инструмента или изменения в составе наблюдателей или счетчиков могут привести к изменениям в полученных измерениях.
Статистическая регрессия , действующая в том случае, когда группы отбирались на основе их крайних оценок.
Отбор , систематические ошибки, возникающие в результате дифференцированного отбора респондентов для групп сравнения.
Экспериментальная смертность , или дифференциальная потеря респондентов из групп сравнения.
Взаимодействие отбора-взросления и т. д., например, в квазиэкспериментальных планах с несколькими группами.

Внешняя валидность

Внешняя валидность касается степени, в которой (внутренне валидные) результаты исследования могут считаться истинными для других случаев, например, для разных людей, мест или времен. Другими словами, речь идет о том, можно ли достоверно обобщить результаты. Если бы то же самое исследование было проведено и в других случаях, получили бы такие же результаты?

Основным фактором при этом является то, является ли выборка исследования (например, участники исследования) репрезентативной для населения в целом по соответствующим параметрам. Другими факторами, ставящими под угрозу внешнюю валидность, являются:

Реактивный или интерактивный эффект тестирования : предварительный тест может повысить баллы в посттесте.
Эффекты взаимодействия систематических ошибок отбора и экспериментальной переменной .
Реактивные эффекты экспериментальных мероприятий , которые исключают обобщение влияния экспериментальной переменной на людей, подвергающихся ее воздействию в неэкспериментальных условиях.
Вмешательство при многократном лечении , когда эффекты более раннего лечения невозможно стереть.

Экологическая обоснованность

Экологическая валидность — это степень, в которой результаты исследований могут быть применены к реальным жизненным ситуациям за пределами исследовательских учреждений. Этот вопрос тесно связан с внешней валидностью, но затрагивает вопрос о том, в какой степени экспериментальные данные отражают то, что можно наблюдать в реальном мире (экология = наука о взаимодействии между организмом и его средой). Чтобы быть экологически обоснованными, методы, материалы и условия исследования должны приближаться к реальной ситуации, которую изучают.

Экологическая обоснованность частично связана с проблемой эксперимента и наблюдения. Обычно в науке выделяют две области исследований: наблюдательные (пассивные) и экспериментальные (активные). Целью экспериментальных планов является проверка причинно-следственной связи, чтобы вы могли сделать вывод, что А является причиной Б или Б является причиной А. Но иногда этические и/или методологические ограничения не позволяют вам провести эксперимент (например, как изоляция влияет на когнитивное функционирование ребенка?) . Тогда вы все равно сможете провести исследование, но оно будет не причинно-следственным, а корреляционным. Вы можете только заключить, что А происходит вместе с Б. Оба метода имеют свои сильные и слабые стороны.

Связь с внутренней валидностью

На первый взгляд кажется, что внутренняя и внешняя валидность противоречат друг другу: чтобы получить экспериментальный план, вы должны контролировать все мешающие переменные. Вот почему вы часто проводите эксперименты в лабораторных условиях. Приобретая внутреннюю достоверность (исключая мешающие переменные, сохраняя их постоянными), вы теряете экологическую или внешнюю достоверность, поскольку устанавливаете искусственную лабораторную обстановку. С другой стороны, с помощью наблюдательного исследования вы не можете контролировать мешающие переменные (низкая внутренняя валидность), но вы можете проводить измерения в естественной (экологической) среде, в том месте, где обычно происходит поведение. Однако при этом вы жертвуете внутренней достоверностью.

Однако кажущееся противоречие внутренней и внешней валидности является лишь поверхностным. Вопрос о том, распространяются ли результаты конкретного исследования на других людей, места или времена, возникает только тогда, когда кто-то следует индуктивистской исследовательской стратегии . Если целью исследования является дедуктивная проверка теории, его интересуют только факторы, которые могут подорвать строгость исследования, то есть угрозы внутренней достоверности. Другими словами, значимость внешней и внутренней валидности для исследования зависит от целей исследования. Более того, объединение целей исследования с проблемами достоверности может привести к проблеме взаимной внутренней достоверности, когда теории способны объяснить только явления в искусственных лабораторных условиях, но не в реальном мире. ^[13]^[14]

Диагностическая достоверность

В психиатрии существует особая проблема с оценкой обоснованности самих диагностических категорий . В этом контексте: ^[15]

валидность содержания может относиться к симптомам и диагностическим критериям;
параллельная валидность может определяться различными коррелятами или маркерами, а также, возможно, ответом на лечение;
прогностическая достоверность может относиться главным образом к диагностической стабильности с течением времени;
дискриминантная валидность может включать отграничение от других расстройств.

Робинс и Гузе в 1970 году предложили критерии, которые впоследствии стали влиятельными формальными критериями для установления достоверности психиатрических диагнозов. Они перечислили пять критериев: ^[15]

четкое клиническое описание (включая профили симптомов, демографические характеристики и типичные осадители)
лабораторные исследования (включая психологические тесты, радиологические и посмертные исследования)
отграничение от других расстройств (посредством критериев исключения)
последующие исследования, показывающие характерное течение (включая доказательства диагностической стабильности)
семейные исследования, показывающие семейную кластеризацию

Они были включены в критерии Фейнера и исследовательские диагностические критерии , которые с тех пор легли в основу классификационных систем DSM и ICD.

Кендлер в 1980 году различал: ^[15]

предшествующие валидаторы (семейная агрегация, преморбидная личность и провоцирующие факторы)
одновременные валидаторы (включая психологические тесты)
прогностические валидаторы (постоянство диагноза с течением времени, частота рецидивов и выздоровлений, а также реакция на лечение)

Нэнси Андреасен (1995) перечислила несколько дополнительных валидаторов – молекулярную генетику и молекулярную биологию , нейрохимию , нейроанатомию , нейрофизиологию и когнитивную нейробиологию – которые потенциально способны связывать симптомы и диагнозы с их нейронными субстратами . ^[15]

Кенделл и Джаблински (2003) подчеркнули важность различия между валидностью и полезностью и утверждали, что диагностические категории, определяемые их синдромами, следует считать валидными только в том случае, если было доказано, что они представляют собой отдельные сущности с естественными границами, которые отделяют их от других расстройств. ^[15]

Кендлер (2006) подчеркнул, что для того, чтобы критерий валидации был полезным, он должен быть достаточно чувствительным, чтобы подтвердить большинство синдромов, которые являются истинными расстройствами, и в то же время быть достаточно конкретным, чтобы сделать недействительными большинство синдромов, которые не являются истинными расстройствами. На этом основании он утверждает, что критерий Робинса и Гузе «в семье» недостаточно конкретен, поскольку под него подпадают большинство психологических и физических черт человека - например, произвольный синдром, включающий смесь «роста более 6 футов, рыжих волос и рыжих волос». «и большой нос» будет «передаваться по наследству », но это не следует считать доказательством того, что это заболевание. Кендлер также предположил, что « эссенциалистские » генные модели психических расстройств и надежда на то, что мы сможем подтвердить категоричные психиатрические диагнозы, «разрезая природу по суставам» исключительно в результате открытия генов, неправдоподобны. ^[16]

В системе Федерального суда США достоверность и надежность доказательств оценивается с использованием стандарта Даубера: см . «Добер против Меррелла Доу Фармасьютикалс» . Перри и Лихтенвальд (2010) в своем анализе осуждения за неправомерное убийство служат отправной точкой для обсуждения широкого спектра тем надежности и обоснованности. ^[17]

Смотрите также

дальнейшее чтение

Кронбах, ЖЖ; Мил, PE (1955), «Конструируйте валидность психологических тестов», Psychoological Bulletin , 52 (4): 281–302, doi : 10.1037/h0040957, hdl : 11299/184279 , PMID 13245896, S2CID 5312179
Рупп, А.А.; Пант, Х.А. (2007), «Теория достоверности», Салкинд, Нил Дж. (ред.), Энциклопедия измерений и статистики , SAGE Publishing.

В Викиверситете есть учебные ресурсы о валидности.