Валидность (статистика)

Валидность — это основная степень, в которой концепция , вывод или измерение являются обоснованными и, вероятно, точно соответствуют реальному миру. ^[1]^[2] Слово «валидный» происходит от латинского validus, что означает сильный. Валидность инструмента измерения (например, теста в образовании) — это степень, в которой инструмент измеряет то, что он, как утверждается, измеряет. ^[3] Валидность основана на силе набора различных типов доказательств (например, очевидная валидность, конструктная валидность и т. д.), описанных более подробно ниже.

В психометрии валидность имеет особое применение, известное как валидность теста : «степень, в которой доказательства и теория подтверждают интерпретации результатов теста» («как следует из предлагаемого использования тестов»). ^[4]

Общепринято, что концепция научной обоснованности рассматривает природу реальности с точки зрения статистических мер и как таковая является эпистемологическим и философским вопросом, а также вопросом измерения . Использование этого термина в логике более узко, относящееся к взаимосвязи между посылками и заключением аргумента. В логике обоснованность относится к свойству аргумента, согласно которому, если посылки истинны, то истинность заключения следует с необходимостью. Вывод аргумента истинен, если аргумент обоснован, то есть если аргумент верен и его посылки истинны. Напротив, «научная или статистическая обоснованность» не является дедуктивным утверждением, которое обязательно сохраняет истину, а является индуктивным утверждением, которое остается истинным или ложным неопределенным образом. Вот почему «научная или статистическая обоснованность» является утверждением, которое квалифицируется как сильное или слабое по своей природе, оно никогда не является необходимым или безусловно истинным. Это имеет эффект, делая утверждения о «научной или статистической обоснованности» открытыми для интерпретации относительно того, что на самом деле означают факты по данному вопросу.

Валидность важна, поскольку она может помочь определить, какие типы тестов следует использовать, и гарантировать, что исследователи используют методы, которые не только этичны и экономически эффективны, но и действительно измеряют рассматриваемые идеи или конструкции.

Валидность теста

Достоверность (точность)

Валидность ^[5] оценки — это степень, в которой она измеряет то, что она должна измерять. Это не то же самое, что надежность , которая представляет собой степень, в которой измерение дает очень последовательные результаты. В рамках валидности измерение не всегда должно быть похожим, как это происходит в надежности. Однако просто потому, что измерение надежно, оно не обязательно валидно. Например, весы, которые отстают на 5 фунтов, надежны, но не валидны. Тест не может быть валидным, если он не надежен. Валидность также зависит от измерения, измеряющего то, для измерения чего оно было разработано, а не что-то другое вместо этого. ^[6] Валидность (подобно надежности) — это относительное понятие; валидность — это не идея «все или ничего». Существует много различных типов валидности.

Конструктивная валидность

Конструктивная валидность относится к степени, в которой операционализации конструкта (например, практические тесты, разработанные на основе теории) измеряют конструкт, как определено теорией. Она включает в себя все другие типы валидности. Например, степень, в которой тест измеряет интеллект, является вопросом конструктной валидности. Мера интеллекта предполагает, среди прочего, что мера связана с вещами, с которыми она должна быть связана ( конвергентная валидность ), а не связана с вещами, с которыми она не должна быть связана ( дискриминантная валидность ). ^[7]

Доказательства валидности конструкции включают эмпирическую и теоретическую поддержку интерпретации конструкции. Такие линии доказательств включают статистический анализ внутренней структуры теста, включая взаимосвязи между ответами на различные тестовые задания. Они также включают взаимосвязи между тестом и измерениями других конструкций. Как в настоящее время понимается, валидность конструкции не отличается от поддержки содержательной теории конструкции, которую тест предназначен для измерения. Таким образом, эксперименты, разработанные для выявления аспектов причинной роли конструкции, также способствуют построению доказательств валидности. ^[7]

Валидность содержания

Валидность содержания — это нестатистический тип валидности, который включает «систематическое изучение содержания теста для определения того, охватывает ли оно репрезентативную выборку измеряемой области поведения» (Anastasi & Urbina, 1997, стр. 114). Например, содержит ли опросник IQ пункты, охватывающие все области интеллекта, обсуждаемые в научной литературе?

Доказательства валидности контента включают в себя степень, в которой контент теста соответствует домену контента, связанному с конструкцией. Например, тест на способность складывать два числа должен включать в себя ряд комбинаций цифр. Тест только с однозначными числами или только с четными числами не будет иметь хорошего покрытия домена контента. Доказательства, связанные с контентом, обычно включают эксперта по предметной области (SME), оценивающего тестовые элементы в соответствии со спецификациями теста. Эксперты должны обращать внимание на любые культурные различия. Например, когда вопросник по оценке вождения заимствуется из Англии (например, DBQ), эксперты должны учитывать правостороннее вождение в Великобритании. Некоторые исследования обнаружили, как это будет иметь решающее значение для получения валидного вопросника. ^[8] Перед тем, как перейти к окончательному администрированию вопросников, исследователь должен проверить валидность элементов по отношению к каждому из конструктов или переменных и соответствующим образом изменить измерительные инструменты на основе мнения SME.

Тест имеет встроенную в него содержательную валидность путем тщательного выбора элементов для включения (Anastasi & Urbina, 1997). Элементы выбираются так, чтобы они соответствовали спецификации теста, которая составляется путем тщательного изучения предметной области. Foxcroft, Paterson, le Roux & Herbst (2004, стр. 49) ^[9] отмечают, что использование группы экспертов для проверки спецификаций теста и выбора элементов позволяет улучшить содержательную валидность теста. Эксперты смогут просмотреть элементы и прокомментировать, охватывают ли элементы репрезентативную выборку поведенческой области.

Лицевая действительность

Внешняя валидность — это оценка того, измеряет ли тест определенный критерий; она не гарантирует, что тест действительно измеряет явления в этой области. Меры могут иметь высокую валидность, но когда тест не измеряет то, что он измеряет, он имеет низкую внешнюю валидность. Действительно, когда тест подвергается подделке (симуляции), низкая внешняя валидность может сделать тест более валидным. Учитывая, что можно получить более честные ответы с более низкой внешней валидностью, иногда важно создать видимость низкой внешней валидности при применении мер.

Внешняя валидность очень тесно связана с содержательной валидностью. В то время как содержательная валидность зависит от теоретической основы для предположения, оценивает ли тест все области определенного критерия (например, дает ли оценка навыков сложения хорошую меру для математических навыков? Чтобы ответить на этот вопрос, вы должны знать, какие различные виды арифметических навыков включают математические навыки), наружная валидность относится к тому, кажется ли тест хорошей мерой или нет. Это суждение выносится по «лицу» теста, поэтому его может оценить и любитель.

Внешняя валидность является отправной точкой, но никогда не следует считать ее вероятной валидностью для любой данной цели, поскольку «эксперты» уже ошибались раньше — Malleus Malificarum (Молот Ведьм) не имел никакой поддержки своим выводам, кроме воображаемой компетентности двух «экспертов» в «обнаружении колдовства», тем не менее, ее использовали в качестве «теста» для осуждения и сожжения на костре десятков тысяч мужчин и женщин как «ведьм». ^[10]

Критерий валидности

Доказательство валидности критерия включает корреляцию между тестом и критериальной переменной (или переменными), взятой в качестве репрезентативной для конструкта. Другими словами, оно сравнивает тест с другими мерами или результатами (критериями), которые уже считаются валидными. Например, тесты по отбору сотрудников часто проверяются на основе мер производительности труда (критерий), а тесты IQ часто проверяются на основе мер успеваемости (критерий).

Если тестовые данные и данные критериев собираются одновременно, это называется доказательством одновременной валидности. Если тестовые данные собираются первыми, чтобы предсказать данные критериев, собранные в более поздний момент времени, это называется доказательством предиктивной валидности.

Конкурентная действительность

Конкурентная валидность относится к степени, в которой операционализация коррелирует с другими мерами того же конструкта, которые измеряются в то же время. Когда мера сравнивается с другой мерой того же типа, они будут связаны (или коррелированы). Возвращаясь к примеру с отборочным тестом, это будет означать, что тесты проводятся для текущих сотрудников, а затем коррелируются с их баллами по обзорам производительности.

Прогностическая валидность

Прогностическая валидность относится к степени, в которой операционализация может предсказывать (или коррелировать с) другие меры той же конструкции, которые измеряются в какой-то момент в будущем. Опять же, в примере с отборочным тестом это будет означать, что тесты проводятся для кандидатов, все кандидаты нанимаются, их производительность проверяется позднее, а затем их баллы по двум мерам коррелируются.

Это также когда измерение предсказывает связь между тем, что измеряется, и чем-то еще; предсказывая, произойдет ли что-то другое в будущем. Высокая корреляция между предсказанными ex-ante и фактическими результатами ex-post является самым сильным доказательством валидности.

Экспериментальная валидность

Обоснованность дизайна экспериментальных исследований является фундаментальной частью научного метода , ^[2] и предметом исследовательской этики . Без обоснованного дизайна невозможно сделать обоснованные научные выводы.

Статистическая обоснованность вывода

Статистическая валидность вывода — это степень, в которой выводы о взаимосвязи между переменными, основанные на данных, являются правильными или «разумными». Это началось как вопрос исключительно о том, был ли статистический вывод о взаимосвязи переменных правильным, но теперь наблюдается движение в сторону перехода к «разумным» выводам, которые используют: количественные, статистические и качественные данные. ^[11]

Статистическая валидность вывода подразумевает использование адекватных процедур выборки, соответствующих статистических тестов и надежных процедур измерения. ^[12] Поскольку этот тип валидности касается исключительно взаимосвязи, которая обнаруживается между переменными, взаимосвязь может быть исключительно корреляцией.

Внутренняя валидность

Внутренняя валидность — это индуктивная оценка степени, в которой выводы о причинно-следственных связях могут быть сделаны (например, причина и следствие) на основе используемых мер, условий исследования и всего исследовательского плана. Хорошие экспериментальные методы, в которых влияние независимой переменной на зависимую переменную изучается в строго контролируемых условиях, обычно позволяют достичь более высоких степеней внутренней валидности, чем, например, однофакторные планы.

Восемь видов вмешивающихся переменных могут помешать внутренней валидности (т.е. попытке выделить причинно-следственные связи):

История , конкретные события, происходящие между первым и вторым измерениями в дополнение к экспериментальным переменным.
Созревание , процессы внутри участников как функция течения времени (не специфичные для конкретных событий), например, старение, усиление голода, усталости и т. д.
Тестирование , влияние сдачи теста на результаты второго тестирования.
Инструменты , изменения в калибровке измерительного инструмента или смена наблюдателей или оценщиков могут привести к изменениям в полученных измерениях.
Статистическая регрессия , при которой группы выбираются на основе их крайних значений.
Отбор , смещения, возникающие в результате дифференциального отбора респондентов для групп сравнения.
Экспериментальная смертность , или дифференциальная потеря респондентов из групп сравнения.
Взаимодействие отбора и созревания и т. д., например, в квазиэкспериментальных проектах с несколькими группами.

Внешняя валидность

Внешняя валидность касается степени, в которой (внутренне валидные) результаты исследования могут считаться верными для других случаев, например, для других людей, мест или времен. Другими словами, речь идет о том, могут ли результаты быть валидно обобщены. Если бы то же самое исследование было проведено в этих других случаях, дало бы оно те же результаты?

Основным фактором в этом является то, является ли выборка исследования (например, участники исследования) репрезентативной для генеральной совокупности по соответствующим измерениям. Другие факторы, ставящие под угрозу внешнюю валидность:

Реактивный или интерактивный эффект тестирования , предварительное тестирование может повысить результаты последующего тестирования.
Эффекты взаимодействия смещений отбора и экспериментальной переменной .
Реактивные эффекты экспериментальных условий , которые исключают обобщение относительно влияния экспериментальной переменной на людей, подвергающихся ее воздействию в неэкспериментальных условиях.
Интерференция многократного лечения , при которой последствия более раннего лечения не поддаются стиранию.

Экологическая валидность

Экологическая валидность — это степень, в которой результаты исследований могут быть применены к реальным ситуациям за пределами исследовательских условий. Этот вопрос тесно связан с внешней валидностью, но охватывает вопрос о том, в какой степени экспериментальные результаты отражают то, что можно наблюдать в реальном мире (экология = наука о взаимодействии между организмом и его средой). Чтобы быть экологически валидными, методы, материалы и обстановка исследования должны приближаться к реальной ситуации, которая исследуется.

Экологическая валидность частично связана с вопросом эксперимента против наблюдения. Обычно в науке есть две области исследования: наблюдательное (пассивное) и экспериментальное (активное). Целью экспериментальных проектов является проверка причинно-следственной связи, чтобы вы могли сделать вывод, что A вызывает B или B вызывает A. Но иногда этические и/или методологические ограничения не позволяют вам провести эксперимент (например, как изоляция влияет на когнитивные функции ребенка?). Тогда вы все равно можете проводить исследования, но они не являются причинно-следственными, а корреляционными. Вы можете только заключить, что A происходит вместе с B. Оба метода имеют свои сильные и слабые стороны.

Связь с внутренней валидностью

На первый взгляд внутренняя и внешняя валидность кажутся противоречащими друг другу — чтобы получить экспериментальный дизайн, вы должны контролировать все мешающие переменные. Вот почему вы часто проводите свой эксперимент в лабораторных условиях. Получая внутреннюю валидность (исключая мешающие переменные, сохраняя их постоянными), вы теряете экологическую или внешнюю валидность, поскольку вы создаете искусственную лабораторную обстановку. С другой стороны, при наблюдательном исследовании вы не можете контролировать мешающие переменные (низкая внутренняя валидность), но вы можете проводить измерения в естественной (экологической) среде, в месте, где обычно происходит поведение. Однако, делая это, вы жертвуете внутренней валидностью.

Однако очевидное противоречие внутренней и внешней валидности является лишь поверхностным. Вопрос о том, распространяются ли результаты конкретного исследования на других людей, места или времена, возникает только тогда, когда человек следует индуктивистской исследовательской стратегии . Если целью исследования является дедуктивная проверка теории, он озабочен только факторами, которые могут подорвать строгость исследования, т. е. угрозами внутренней валидности. Другими словами, значимость внешней и внутренней валидности для исследовательского исследования зависит от целей исследования. Более того, смешение целей исследования с проблемами валидности может привести к проблеме взаимной внутренней валидности, когда теории способны объяснить только явления в искусственных лабораторных условиях, но не реальный мир. ^[13]^[14]

Диагностическая валидность

В психиатрии существует особая проблема с оценкой валидности самих диагностических категорий . В этом контексте: ^[15]

содержательная валидность может относиться к симптомам и диагностическим критериям;
Конкурентная валидность может определяться различными коррелятами или маркерами, а также, возможно, реакцией на лечение;
прогностическая достоверность может в основном относиться к диагностической стабильности с течением времени;
дискриминантная валидность может включать разграничение от других расстройств.

Робинс и Гуз предложили в 1970 году то, что должно было стать влиятельными формальными критериями для установления обоснованности психиатрических диагнозов. Они перечислили пять критериев: ^[15]

четкое клиническое описание (включая профили симптомов, демографические характеристики и типичные провоцирующие факторы)
лабораторные исследования (включая психологические тесты, рентгенологию и результаты вскрытия)
отграничение от других расстройств (с помощью критериев исключения)
последующие исследования, показывающие характерное течение (включая доказательства диагностической стабильности)
семейные исследования, показывающие семейную кластеризацию

Они были включены в критерии Фейнера и исследовательские диагностические критерии , которые с тех пор легли в основу систем классификации DSM и МКБ.

Кендлер в 1980 году различал: ^[15]

предшествующие валидаторы (семейная агрегация, преморбидная личность и провоцирующие факторы)
параллельные валидаторы (включая психологические тесты)
прогностические валидаторы (диагностическая согласованность с течением времени, показатели рецидивов и выздоровлений, а также реакция на лечение)

Нэнси Андреасен (1995) перечислила несколько дополнительных валидаторов – молекулярную генетику и молекулярную биологию , нейрохимию , нейроанатомию , нейрофизиологию и когнитивную нейронауку – которые все потенциально способны связывать симптомы и диагнозы с их нейронными субстратами . ^[15]

Кенделл и Джаблински (2003) подчеркнули важность различия между валидностью и полезностью и утверждали, что диагностические категории, определяемые их синдромами, следует считать валидными только в том случае, если было показано, что они являются дискретными сущностями с естественными границами, которые отделяют их от других расстройств. ^[15]

Кендлер (2006) подчеркнул, что для того, чтобы быть полезным, критерий проверки должен быть достаточно чувствительным, чтобы подтвердить большинство синдромов, которые являются истинными расстройствами, и в то же время достаточно специфичным, чтобы опровергнуть большинство синдромов, которые не являются истинными расстройствами. На этом основании он утверждает, что критерий Робинса и Гуза «передается по наследству» недостаточно специфичен, поскольку большинство человеческих психологических и физических черт будут соответствовать требованиям — например, произвольный синдром, включающий смесь «роста более 6 футов, рыжих волос и большого носа», будет признан «передаваемым по наследству» и « наследственным », но это не должно считаться доказательством того, что это расстройство. Кендлер далее предположил, что « эссенциалистские » генные модели психиатрических расстройств и надежда на то, что мы сможем подтвердить категориальные психиатрические диагнозы, «разрезая природу по ее суставам» исключительно в результате открытия генов, несостоятельны. ^[16]

В Федеральной судебной системе США обоснованность и надежность доказательств оценивается с использованием стандарта Дауберта: см. Daubert v. Merrell Dow Pharmaceuticals . Perri и Lichtenwald (2010) предлагают отправную точку для обсуждения широкого круга тем надежности и действительности в своем анализе осуждения за неправомерное убийство. ^[17]

Смотрите также

Ссылки

^ Brains, Willnat, Manheim, Rich 2011. Эмпирический политический анализ 8-е издание. Бостон: Longman стр. 105
^ ab Кэмпбелл, Дональд Т. (1957). «Факторы, имеющие отношение к валидности экспериментов в социальных условиях». Psychological Bulletin . 54 (4): 297–312. doi :10.1037/h0040950. ISSN 1939-1455. PMID 13465924.
^ Келли, Трумэн Ли (1927). Интерпретация образовательных измерений . Йонкерс-на-Гудзоне, Нью-Йорк: World Book Company. стр. 14. Проблема валидности заключается в том, действительно ли тест измеряет то, что он призван измерять...
^ Американская ассоциация образовательных исследований, Психологическая ассоциация и Национальный совет по измерениям в образовании. (1999). Стандарты образовательного и психологического тестирования . Вашингтон, округ Колумбия: Американская ассоциация образовательных исследований.
^ Национальный совет по измерениям в образовании. https://web.archive.org/web/20160924135257/http://www.ncme.org/ncme/NCME/Resource_Center/Glossary/NCME/Resource_Center/Glossary1.aspx?hkey=4bb87415-44dc-4088-9ed9-e8515326a061
^ Крамер, Джеффри П., Дуглас А. Бернстайн и Вики Фарес. Введение в клиническую психологию. 7-е изд. Аппер Сэддл Ривер, Нью-Джерси: Pearson Prentice Hall, 2009. Печать.
^ ab Cronbach, Lee J.; Meehl, Paul E. (1955). «Конструктная валидность в психологических тестах». Psychological Bulletin . 52 (4): 281–302. doi : 10.1037/h0040957. hdl : 11299/184279 . ISSN 0033-2909. PMID 13245896. S2CID 5312179.
^ Аргами, Ширазех; Садеги, Голамреза; Аббаси Ченари, Мохсен (2020). «Повторная оценка психометрических свойств персидской версии Манчестерского опросника поведения водителей». Iran Occupational Health . 17 (8): 1–19.
^ Foxcroft, C., Paterson, H., le Roux, N., & Herbst, D. Human Sciences Research Council, (2004). «Психологическая оценка в Южной Африке: анализ потребностей: модели использования тестов и потребности специалистов по психологической оценке: окончательный отчет: июль» . Получено с веб-сайта: http://www.hsrc.ac.za/research/output/outputDocuments/1716_Foxcroft_Psychologicalassessmentin%20SA.pdf
^ Наиболее распространенные оценки составляют от 40 000 до 60 000 смертей. Брайан Левак ( The Witch Hunt in Early Modern Europe ) умножил количество известных европейских судебных процессов над ведьмами на средний уровень осуждения и казни, получив цифру около 60 000 смертей. Энн Левеллин Барстоу ( Witchcraze ) скорректировала оценку Левака с учетом утерянных записей, оценивая количество смертей в 100 000. Рональд Хаттон ( Triumph of the Moon ) утверждает, что оценка Левака уже была скорректирована с учетом этих данных, и пересматривает цифру примерно до 40 000.
^ Козби, Пол К. Методы поведенческих исследований. 10-е изд. Бостон: McGraw-Hill Higher Education, 2009. Печать.
^ Джонатан Джавид (6 ноября 2015 г.). «Достоверность и надежность измерений». slideshare.net . Получено 23 марта 2018 г. .
^ Лин, Хауз; Вернер, Кайтлин М.; Инцлихт, Михаэль (16.02.2021). «Обещания и опасности эксперимента: проблема взаимной внутренней валидности». Перспективы психологической науки . 16 (4): 854–863. doi : 10.1177/1745691620974773. ISSN 1745-6916. PMID 33593177. S2CID 231877717.
^ Шрам, Артур (2005-06-01). «Искусственность: напряжение между внутренней и внешней обоснованностью в экономических экспериментах». Журнал экономической методологии . 12 (2): 225–237. doi :10.1080/13501780500086081. ISSN 1350-178X. S2CID 145588503.
^ abcde Кенделл, Р.; Ябленски, А. (2003). «Различение обоснованности и полезности психиатрических диагнозов». Американский журнал психиатрии . 160 (1): 4–12. doi :10.1176/appi.ajp.160.1.4. PMID 12505793.
^ Кендлер, КС (2006). «Размышления о связи между психиатрической генетикой и психиатрической нозологией». Американский журнал психиатрии . 163 (7): 1138–46. doi :10.1176/appi.ajp.163.7.1138. PMID 16816216.
^ Перри, Ф.С.; Лихтенвальд, Т.Г. (2010). «Ненадежное использование судебной психологии в качестве доказательства: дело Тимоти Мастерса» (PDF) . Champion Magazine (июль): 34–45.

Дальнейшее чтение

Cronbach, LJ; Meehl, PE (1955), «Конструктная валидность в психологических тестах», Psychological Bulletin , 52 (4): 281–302, doi : 10.1037/h0040957, hdl : 11299/184279 , PMID 13245896, S2CID 5312179
Рапп, А.А.; Пант, Х.А. (2007), «Теория валидности», в Salkind, Neil J. (ред.), Encyclopedia of Measurement and Statistics , SAGE Publishing

В Викиверситете есть обучающие ресурсы по теме «Достоверность»