Валидность — это основная степень, в которой концепция , вывод или измерение являются обоснованными и, вероятно, точно соответствуют реальному миру. [1] [2] Слово «валидный» происходит от латинского validus, что означает сильный. Валидность инструмента измерения (например, теста в образовании) — это степень, в которой инструмент измеряет то, что он, как утверждается, измеряет. [3] Валидность основана на силе набора различных типов доказательств (например, очевидная валидность, конструктная валидность и т. д.), описанных более подробно ниже.
В психометрии валидность имеет особое применение, известное как валидность теста : «степень, в которой доказательства и теория подтверждают интерпретации результатов теста» («как следует из предлагаемого использования тестов»). [4]
Общепринято, что концепция научной обоснованности рассматривает природу реальности с точки зрения статистических мер и как таковая является эпистемологическим и философским вопросом, а также вопросом измерения . Использование этого термина в логике более узко, относящееся к взаимосвязи между посылками и заключением аргумента. В логике обоснованность относится к свойству аргумента, согласно которому, если посылки истинны, то истинность заключения следует с необходимостью. Вывод аргумента истинен, если аргумент обоснован, то есть если аргумент верен и его посылки истинны. Напротив, «научная или статистическая обоснованность» не является дедуктивным утверждением, которое обязательно сохраняет истину, а является индуктивным утверждением, которое остается истинным или ложным неопределенным образом. Вот почему «научная или статистическая обоснованность» является утверждением, которое квалифицируется как сильное или слабое по своей природе, оно никогда не является необходимым или безусловно истинным. Это имеет эффект, делая утверждения о «научной или статистической обоснованности» открытыми для интерпретации относительно того, что на самом деле означают факты по данному вопросу.
Валидность важна, поскольку она может помочь определить, какие типы тестов следует использовать, и гарантировать, что исследователи используют методы, которые не только этичны и экономически эффективны, но и действительно измеряют рассматриваемые идеи или конструкции.
Валидность [5] оценки — это степень, в которой она измеряет то, что она должна измерять. Это не то же самое, что надежность , которая представляет собой степень, в которой измерение дает очень последовательные результаты. В рамках валидности измерение не всегда должно быть похожим, как это происходит в надежности. Однако просто потому, что измерение надежно, оно не обязательно валидно. Например, весы, которые отстают на 5 фунтов, надежны, но не валидны. Тест не может быть валидным, если он не надежен. Валидность также зависит от измерения, измеряющего то, для измерения чего оно было разработано, а не что-то другое вместо этого. [6] Валидность (подобно надежности) — это относительное понятие; валидность — это не идея «все или ничего». Существует много различных типов валидности.
Конструктивная валидность относится к степени, в которой операционализации конструкта (например, практические тесты, разработанные на основе теории) измеряют конструкт, как определено теорией. Она включает в себя все другие типы валидности. Например, степень, в которой тест измеряет интеллект, является вопросом конструктной валидности. Мера интеллекта предполагает, среди прочего, что мера связана с вещами, с которыми она должна быть связана ( конвергентная валидность ), а не связана с вещами, с которыми она не должна быть связана ( дискриминантная валидность ). [7]
Доказательства валидности конструкции включают эмпирическую и теоретическую поддержку интерпретации конструкции. Такие линии доказательств включают статистический анализ внутренней структуры теста, включая взаимосвязи между ответами на различные тестовые задания. Они также включают взаимосвязи между тестом и измерениями других конструкций. Как в настоящее время понимается, валидность конструкции не отличается от поддержки содержательной теории конструкции, которую тест предназначен для измерения. Таким образом, эксперименты, разработанные для выявления аспектов причинной роли конструкции, также способствуют построению доказательств валидности. [7]
Валидность содержания — это нестатистический тип валидности, который включает «систематическое изучение содержания теста для определения того, охватывает ли оно репрезентативную выборку измеряемой области поведения» (Anastasi & Urbina, 1997, стр. 114). Например, содержит ли опросник IQ пункты, охватывающие все области интеллекта, обсуждаемые в научной литературе?
Доказательства валидности контента включают в себя степень, в которой контент теста соответствует домену контента, связанному с конструкцией. Например, тест на способность складывать два числа должен включать в себя ряд комбинаций цифр. Тест только с однозначными числами или только с четными числами не будет иметь хорошего покрытия домена контента. Доказательства, связанные с контентом, обычно включают эксперта по предметной области (SME), оценивающего тестовые элементы в соответствии со спецификациями теста. Эксперты должны обращать внимание на любые культурные различия. Например, когда вопросник по оценке вождения заимствуется из Англии (например, DBQ), эксперты должны учитывать правостороннее вождение в Великобритании. Некоторые исследования обнаружили, как это будет иметь решающее значение для получения валидного вопросника. [8] Перед тем, как перейти к окончательному администрированию вопросников, исследователь должен проверить валидность элементов по отношению к каждому из конструктов или переменных и соответствующим образом изменить измерительные инструменты на основе мнения SME.
Тест имеет встроенную в него содержательную валидность путем тщательного выбора элементов для включения (Anastasi & Urbina, 1997). Элементы выбираются так, чтобы они соответствовали спецификации теста, которая составляется путем тщательного изучения предметной области. Foxcroft, Paterson, le Roux & Herbst (2004, стр. 49) [9] отмечают, что использование группы экспертов для проверки спецификаций теста и выбора элементов позволяет улучшить содержательную валидность теста. Эксперты смогут просмотреть элементы и прокомментировать, охватывают ли элементы репрезентативную выборку поведенческой области.
Внешняя валидность — это оценка того, измеряет ли тест определенный критерий; она не гарантирует, что тест действительно измеряет явления в этой области. Меры могут иметь высокую валидность, но когда тест не измеряет то, что он измеряет, он имеет низкую внешнюю валидность. Действительно, когда тест подвергается подделке (симуляции), низкая внешняя валидность может сделать тест более валидным. Учитывая, что можно получить более честные ответы с более низкой внешней валидностью, иногда важно создать видимость низкой внешней валидности при применении мер.
Внешняя валидность очень тесно связана с содержательной валидностью. В то время как содержательная валидность зависит от теоретической основы для предположения, оценивает ли тест все области определенного критерия (например, дает ли оценка навыков сложения хорошую меру для математических навыков? Чтобы ответить на этот вопрос, вы должны знать, какие различные виды арифметических навыков включают математические навыки), наружная валидность относится к тому, кажется ли тест хорошей мерой или нет. Это суждение выносится по «лицу» теста, поэтому его может оценить и любитель.
Внешняя валидность является отправной точкой, но никогда не следует считать ее вероятной валидностью для любой данной цели, поскольку «эксперты» уже ошибались раньше — Malleus Malificarum (Молот Ведьм) не имел никакой поддержки своим выводам, кроме воображаемой компетентности двух «экспертов» в «обнаружении колдовства», тем не менее, ее использовали в качестве «теста» для осуждения и сожжения на костре десятков тысяч мужчин и женщин как «ведьм». [10]
Доказательство валидности критерия включает корреляцию между тестом и критериальной переменной (или переменными), взятой в качестве репрезентативной для конструкта. Другими словами, оно сравнивает тест с другими мерами или результатами (критериями), которые уже считаются валидными. Например, тесты по отбору сотрудников часто проверяются на основе мер производительности труда (критерий), а тесты IQ часто проверяются на основе мер успеваемости (критерий).
Если тестовые данные и данные критериев собираются одновременно, это называется доказательством одновременной валидности. Если тестовые данные собираются первыми, чтобы предсказать данные критериев, собранные в более поздний момент времени, это называется доказательством предиктивной валидности.
Конкурентная валидность относится к степени, в которой операционализация коррелирует с другими мерами того же конструкта, которые измеряются в то же время. Когда мера сравнивается с другой мерой того же типа, они будут связаны (или коррелированы). Возвращаясь к примеру с отборочным тестом, это будет означать, что тесты проводятся для текущих сотрудников, а затем коррелируются с их баллами по обзорам производительности.
Прогностическая валидность относится к степени, в которой операционализация может предсказывать (или коррелировать с) другие меры той же конструкции, которые измеряются в какой-то момент в будущем. Опять же, в примере с отборочным тестом это будет означать, что тесты проводятся для кандидатов, все кандидаты нанимаются, их производительность проверяется позднее, а затем их баллы по двум мерам коррелируются.
Это также когда измерение предсказывает связь между тем, что измеряется, и чем-то еще; предсказывая, произойдет ли что-то другое в будущем. Высокая корреляция между предсказанными ex-ante и фактическими результатами ex-post является самым сильным доказательством валидности.
Обоснованность дизайна экспериментальных исследований является фундаментальной частью научного метода , [2] и предметом исследовательской этики . Без обоснованного дизайна невозможно сделать обоснованные научные выводы.
Статистическая валидность вывода — это степень, в которой выводы о взаимосвязи между переменными, основанные на данных, являются правильными или «разумными». Это началось как вопрос исключительно о том, был ли статистический вывод о взаимосвязи переменных правильным, но теперь наблюдается движение в сторону перехода к «разумным» выводам, которые используют: количественные, статистические и качественные данные. [11]
Статистическая валидность вывода подразумевает использование адекватных процедур выборки, соответствующих статистических тестов и надежных процедур измерения. [12] Поскольку этот тип валидности касается исключительно взаимосвязи, которая обнаруживается между переменными, взаимосвязь может быть исключительно корреляцией.
Внутренняя валидность — это индуктивная оценка степени, в которой выводы о причинно-следственных связях могут быть сделаны (например, причина и следствие) на основе используемых мер, условий исследования и всего исследовательского плана. Хорошие экспериментальные методы, в которых влияние независимой переменной на зависимую переменную изучается в строго контролируемых условиях, обычно позволяют достичь более высоких степеней внутренней валидности, чем, например, однофакторные планы.
Восемь видов вмешивающихся переменных могут помешать внутренней валидности (т.е. попытке выделить причинно-следственные связи):
Внешняя валидность касается степени, в которой (внутренне валидные) результаты исследования могут считаться верными для других случаев, например, для других людей, мест или времен. Другими словами, речь идет о том, могут ли результаты быть валидно обобщены. Если бы то же самое исследование было проведено в этих других случаях, дало бы оно те же результаты?
Основным фактором в этом является то, является ли выборка исследования (например, участники исследования) репрезентативной для генеральной совокупности по соответствующим измерениям. Другие факторы, ставящие под угрозу внешнюю валидность:
Экологическая валидность — это степень, в которой результаты исследований могут быть применены к реальным ситуациям за пределами исследовательских условий. Этот вопрос тесно связан с внешней валидностью, но охватывает вопрос о том, в какой степени экспериментальные результаты отражают то, что можно наблюдать в реальном мире (экология = наука о взаимодействии между организмом и его средой). Чтобы быть экологически валидными, методы, материалы и обстановка исследования должны приближаться к реальной ситуации, которая исследуется.
Экологическая валидность частично связана с вопросом эксперимента против наблюдения. Обычно в науке есть две области исследования: наблюдательное (пассивное) и экспериментальное (активное). Целью экспериментальных проектов является проверка причинно-следственной связи, чтобы вы могли сделать вывод, что A вызывает B или B вызывает A. Но иногда этические и/или методологические ограничения не позволяют вам провести эксперимент (например, как изоляция влияет на когнитивные функции ребенка?). Тогда вы все равно можете проводить исследования, но они не являются причинно-следственными, а корреляционными. Вы можете только заключить, что A происходит вместе с B. Оба метода имеют свои сильные и слабые стороны.
На первый взгляд внутренняя и внешняя валидность кажутся противоречащими друг другу — чтобы получить экспериментальный дизайн, вы должны контролировать все мешающие переменные. Вот почему вы часто проводите свой эксперимент в лабораторных условиях. Получая внутреннюю валидность (исключая мешающие переменные, сохраняя их постоянными), вы теряете экологическую или внешнюю валидность, поскольку вы создаете искусственную лабораторную обстановку. С другой стороны, при наблюдательном исследовании вы не можете контролировать мешающие переменные (низкая внутренняя валидность), но вы можете проводить измерения в естественной (экологической) среде, в месте, где обычно происходит поведение. Однако, делая это, вы жертвуете внутренней валидностью.
Однако очевидное противоречие внутренней и внешней валидности является лишь поверхностным. Вопрос о том, распространяются ли результаты конкретного исследования на других людей, места или времена, возникает только тогда, когда человек следует индуктивистской исследовательской стратегии . Если целью исследования является дедуктивная проверка теории, он озабочен только факторами, которые могут подорвать строгость исследования, т. е. угрозами внутренней валидности. Другими словами, значимость внешней и внутренней валидности для исследовательского исследования зависит от целей исследования. Более того, смешение целей исследования с проблемами валидности может привести к проблеме взаимной внутренней валидности, когда теории способны объяснить только явления в искусственных лабораторных условиях, но не реальный мир. [13] [14]
В психиатрии существует особая проблема с оценкой валидности самих диагностических категорий . В этом контексте: [15]
Робинс и Гуз предложили в 1970 году то, что должно было стать влиятельными формальными критериями для установления обоснованности психиатрических диагнозов. Они перечислили пять критериев: [15]
Они были включены в критерии Фейнера и исследовательские диагностические критерии , которые с тех пор легли в основу систем классификации DSM и МКБ.
Кендлер в 1980 году различал: [15]
Нэнси Андреасен (1995) перечислила несколько дополнительных валидаторов – молекулярную генетику и молекулярную биологию , нейрохимию , нейроанатомию , нейрофизиологию и когнитивную нейронауку – которые все потенциально способны связывать симптомы и диагнозы с их нейронными субстратами . [15]
Кенделл и Джаблински (2003) подчеркнули важность различия между валидностью и полезностью и утверждали, что диагностические категории, определяемые их синдромами, следует считать валидными только в том случае, если было показано, что они являются дискретными сущностями с естественными границами, которые отделяют их от других расстройств. [15]
Кендлер (2006) подчеркнул, что для того, чтобы быть полезным, критерий проверки должен быть достаточно чувствительным, чтобы подтвердить большинство синдромов, которые являются истинными расстройствами, и в то же время достаточно специфичным, чтобы опровергнуть большинство синдромов, которые не являются истинными расстройствами. На этом основании он утверждает, что критерий Робинса и Гуза «передается по наследству» недостаточно специфичен, поскольку большинство человеческих психологических и физических черт будут соответствовать требованиям — например, произвольный синдром, включающий смесь «роста более 6 футов, рыжих волос и большого носа», будет признан «передаваемым по наследству» и « наследственным », но это не должно считаться доказательством того, что это расстройство. Кендлер далее предположил, что « эссенциалистские » генные модели психиатрических расстройств и надежда на то, что мы сможем подтвердить категориальные психиатрические диагнозы, «разрезая природу по ее суставам» исключительно в результате открытия генов, несостоятельны. [16]
В Федеральной судебной системе США обоснованность и надежность доказательств оценивается с использованием стандарта Дауберта: см. Daubert v. Merrell Dow Pharmaceuticals . Perri и Lichtenwald (2010) предлагают отправную точку для обсуждения широкого круга тем надежности и действительности в своем анализе осуждения за неправомерное убийство. [17]
Проблема валидности заключается в том, действительно ли тест измеряет то, что он призван измерять...