Внутренняя валидность

Внутренняя валидность — это степень, в которой часть доказательства поддерживает утверждение о причине и следствии в контексте конкретного исследования. Это одно из важнейших свойств научных исследований и важная концепция в рассуждениях о доказательствах в более общем плане. Внутренняя валидность определяется тем, насколько хорошо исследование может исключить альтернативные объяснения своих результатов (обычно источники систематической ошибки или «предвзятости»). Она контрастирует с внешней валидностью , степенью, в которой результаты могут обосновывать выводы о других контекстах (то есть степенью, в которой результаты могут быть обобщены ). Как внутренняя, так и внешняя валидность могут быть описаны с использованием качественных или количественных форм причинной нотации .

Подробности

Говорят, что выводы обладают внутренней валидностью, если причинно-следственная связь между двумя переменными продемонстрирована должным образом. ^[1]^[2] Валидный причинно-следственный вывод может быть сделан, когда выполняются три критерия:

«причина» предшествует «следствию» во времени (временное предшествование),
«причина» и «следствие» имеют тенденцию происходить вместе (ковариация), и
нет никаких правдоподобных альтернативных объяснений наблюдаемой ковариации (неложности). ^[2]

В научных экспериментальных условиях исследователи часто изменяют состояние одной переменной ( независимой переменной ), чтобы увидеть, какое влияние она оказывает на вторую переменную ( зависимую переменную ). ^[3] Например, исследователь может манипулировать дозировкой определенного препарата между различными группами людей, чтобы увидеть, какое влияние он оказывает на здоровье. В этом примере исследователь хочет сделать причинно-следственный вывод, а именно, что различные дозы препарата могут быть ответственны за наблюдаемые изменения или различия. Когда исследователь может уверенно приписать наблюдаемые изменения или различия в зависимой переменной независимой переменной (то есть, когда исследователь наблюдает связь между этими переменными и может исключить другие объяснения или конкурирующие гипотезы ), то причинно-следственный вывод считается внутренне обоснованным. ^[4]

Однако во многих случаях размер эффектов , обнаруженных в зависимой переменной, может зависеть не только от

вариации независимой переменной,
мощность инструментов и статистических процедур, используемых для измерения и обнаружения эффектов, и
выбор статистических методов (см.: Достоверность статистического заключения ).

Скорее, ряд переменных или обстоятельств, неконтролируемых (или неконтролируемых), могут привести к дополнительным или альтернативным объяснениям (a) обнаруженных эффектов и/или (b) величины обнаруженных эффектов. Внутренняя валидность, таким образом, является скорее вопросом степени, чем или-или, и именно поэтому исследовательские проекты, отличные от настоящих экспериментов, также могут давать результаты с высокой степенью внутренней валидности.

Чтобы обеспечить выводы с высокой степенью внутренней валидности, можно принять меры предосторожности при разработке исследования. Как правило, выводы, основанные на прямом манипулировании независимой переменной, допускают большую внутреннюю валидность, чем выводы, основанные на ассоциации, наблюдаемой без манипуляции.

Если рассматривать только внутреннюю валидность, строго контролируемые истинные экспериментальные проекты (т. е. со случайным выбором, случайным распределением по контрольным или экспериментальным группам, надежными инструментами, надежными процессами манипуляции и защитой от мешающих факторов) могут быть «золотым стандартом» научных исследований. Однако сами методы, используемые для повышения внутренней валидности, могут также ограничивать обобщаемость или внешнюю валидность результатов. Например, изучение поведения животных в зоопарке может облегчить выведение обоснованных причинно-следственных выводов в этом контексте, но эти выводы могут не распространяться на поведение животных в дикой природе. В целом, типичный эксперимент в лаборатории, изучающий определенный процесс, может упускать из виду многие переменные, которые обычно сильно влияют на этот процесс в природе.

Примеры угроз

Чтобы вспомнить восемь из этих угроз внутренней валидности, используйте мнемоническую аббревиатуру ЭТОТ БЕСПОРЯДОК ^[5] , которая означает:

Тестирование,
История,
Смена инструмента,
Статистическая регрессия к среднему значению,
Созревание,
Экспериментальная смертность,
Выбор и
Взаимодействие при выборе.

Неоднозначное временное старшинство

Когда неизвестно, какая переменная изменилась первой, может быть сложно определить, какая переменная является причиной, а какая — следствием.

Сбивает с толку

Основная угроза обоснованности причинных выводов — это смущение : изменения в зависимой переменной могут быть скорее отнесены к изменениям в третьей переменной, которая связана с управляемой переменной. Там, где ложные связи не могут быть исключены, могут быть разработаны конкурирующие гипотезы относительно исходного причинного вывода.

Смещение отбора

Смещение отбора относится к проблеме, заключающейся в том, что на этапе предварительного тестирования существуют различия между группами, которые могут взаимодействовать с независимой переменной и, таким образом, быть «ответственными» за наблюдаемый результат. Исследователи и участники привносят в эксперимент множество характеристик, некоторые из которых приобретены, а другие — врожденные. Например, пол, вес, цвет волос, глаз и кожи, личность, умственные и физические способности, а также такие установки, как мотивация или готовность участвовать.

На этапе отбора исследования, если неравное количество испытуемых имеют схожие переменные, связанные с субъектом, возникает угроза внутренней валидности. Например, исследователь создал две группы для испытаний, экспериментальную и контрольную. Испытуемые в обеих группах не похожи друг на друга по независимой переменной, но похожи по одной или нескольким переменным, связанным с субъектом.

Самостоятельный выбор также оказывает негативное влияние на интерпретационную силу зависимой переменной. Это часто происходит в онлайн-опросах, где люди из определенных демографических групп выбирают тест чаще, чем из других демографических групп.

История

События вне исследования/эксперимента или между повторными измерениями зависимой переменной могут влиять на реакцию участников на экспериментальные процедуры. Часто это крупномасштабные события (стихийное бедствие, политические изменения и т. д.), которые влияют на отношение и поведение участников таким образом, что становится невозможным определить, вызвано ли какое-либо изменение зависимых измерений независимой переменной или историческим событием.

Созревание

Субъекты меняются в ходе эксперимента или даже между измерениями. Например, маленькие дети могут повзрослеть, и их способность концентрироваться может измениться по мере взросления. Как постоянные изменения, такие как физический рост, так и временные, такие как усталость, дают «естественные» альтернативные объяснения; таким образом, они могут изменить способ, которым субъект будет реагировать на независимую переменную. Поэтому по завершении исследования исследователь может не иметь возможности определить, связана ли причина расхождения со временем или с независимой переменной.

Повторное тестирование (также называемое эффектами тестирования)

Повторное измерение участников может привести к предвзятости. Участники могут помнить правильные ответы или могут быть обусловлены тем, что их проверяют. Повторное прохождение (одних и тех же или похожих) тестов на интеллект обычно приводит к росту баллов, но вместо того, чтобы сделать вывод о том, что базовые навыки изменились навсегда, эта угроза внутренней валидности дает хорошую конкурирующую гипотезу.

Смена инструмента (инструментальность)

Инструмент, используемый в процессе тестирования, может изменить эксперимент. Это также относится к наблюдателям, которые были более сконцентрированы или подготовлены, или к неосознанно изменившим критерии, которые они используют для вынесения суждений. Это также может быть проблемой с измерениями самоотчетов, данными в разное время. В этом случае воздействие можно смягчить с помощью ретроспективного предварительного тестирования. Если происходят какие-либо изменения в инструментах, внутренняя валидность основного вывода затрагивается, поскольку альтернативные объяснения легко доступны.

Регрессия к среднему значению

Этот тип ошибки возникает, когда субъекты выбираются на основе крайних оценок (далеко от среднего значения) во время теста. Например, когда дети с худшими оценками по чтению выбираются для участия в курсе чтения, улучшения в конце курса могут быть связаны с регрессией к среднему значению, а не с эффективностью курса. Если бы дети прошли повторное тестирование до начала курса, они, скорее всего, в любом случае получили бы более высокие оценки. Аналогично, крайние выбросы по индивидуальным оценкам с большей вероятностью будут зафиксированы в одном случае тестирования, но, скорее всего, примут более нормальное распределение при повторном тестировании.

Смертность/дифференциальная убыль

Эта ошибка возникает, если выводы делаются на основе только тех участников, которые участвовали от начала до конца. Однако участники могли выбыть из исследования до его завершения, а может быть, даже из-за самого исследования, программы или эксперимента. Например, процент членов группы, бросивших курить на момент посттеста, был обнаружен намного выше в группе, прошедшей программу обучения отказу от курения, чем в контрольной группе. Однако в экспериментальной группе только 60% завершили программу. Если этот отсев систематически связан с какой-либо особенностью исследования, администрированием независимой переменной, инструментами или если выбывание приводит к соответствующей предвзятости между группами, возможен целый класс альтернативных объяснений, которые учитывают наблюдаемые различия.

Взаимодействие отбора и созревания

Это происходит, когда взаимодействуют переменные, связанные с субъектом, цвет волос, цвет кожи и т. д., и переменные, связанные со временем, возраст, физический размер и т. д. Если между двумя группами возникает расхождение, то оно может быть связано с возрастными различиями в возрастных категориях.

Диффузия

Если эффекты лечения распространяются от групп лечения к контрольным группам, может наблюдаться отсутствие различий между экспериментальными и контрольными группами. Однако это не означает, что независимая переменная не оказывает никакого эффекта или что нет связи между зависимой и независимой переменной.

Компенсаторное соперничество/обиженная деморализация

Поведение в контрольных группах может измениться в результате исследования. Например, члены контрольной группы могут работать усерднее, чтобы увидеть, что ожидаемое превосходство экспериментальной группы не продемонстрировано. Опять же, это не означает, что независимая переменная не оказала никакого эффекта или что нет связи между зависимой и независимой переменной. И наоборот, изменения в зависимой переменной могут быть вызваны только деморализованной контрольной группой, работающей менее усердно или мотивированной, а не независимой переменной.

Предвзятость экспериментатора

Смещение экспериментатора происходит, когда люди, проводящие эксперимент, непреднамеренно влияют на результат, неосознанно ведя себя по-разному по отношению к членам контрольной и экспериментальной групп. Можно исключить возможность смещения экспериментатора с помощью двойных слепых исследований, в которых экспериментатор не знает, к какому состоянию принадлежит участник.

Проблема взаимной внутренней валидности

Эксперименты с высокой внутренней валидностью могут производить явления и результаты, которые не имеют отношения к реальной жизни, что приводит к проблеме взаимной внутренней валидности. ^[6]^[7] Она возникает, когда исследователи используют экспериментальные результаты для разработки теорий, а затем используют эти теории для разработки экспериментов по проверке теорий. Эта взаимная обратная связь между экспериментами и теориями может привести к теориям, которые объясняют только явления и результаты в искусственных лабораторных условиях, но не в реальной жизни.

Смотрите также

Ссылки

^ Брюэр, М. (2000). Дизайн исследования и вопросы валидности. В Рейс, Х. и Джадд, К. (ред.) Справочник по методам исследования в социальной и личностной психологии. Кембридж: Издательство Кембриджского университета.
^ ab Шадиш, У., Кук, Т. и Кэмпбелл, Д. (2002). Экспериментальные и квазиэкспериментальные проекты для обобщенного причинного вывода Бостон: Houghton Mifflin.
^ Левин, Г. и Паркинсон, С. (1994). Экспериментальные методы в психологии. Хиллсдейл, Нью-Джерси: Лоуренс Эрлбаум.
^ Либерт, Р. М. и Либерт, Л. Л. (1995). Наука и поведение: Введение в методы психологического исследования. Энглвуд Клиффс, Нью-Джерси: Prentice Hall.
^ Вортман, П. М. (1983). «Исследование оценки – методологическая перспектива». Annual Review of Psychology . 34 : 223–260. doi :10.1146/annurev.ps.34.020183.001255.
^ Шрам, Артур (2005-06-01). «Искусственность: напряжение между внутренней и внешней обоснованностью в экономических экспериментах». Журнал экономической методологии . 12 (2): 225–237. doi :10.1080/13501780500086081. ISSN 1350-178X. S2CID 145588503.
^ Лин, Хауз; Вернер, Кайтлин М.; Инцлихт, Михаэль (16.02.2021). «Обещания и опасности эксперимента: проблема взаимной внутренней валидности». Перспективы психологической науки . 16 (4): 854–863. doi : 10.1177/1745691620974773. ISSN 1745-6916. PMID 33593177. S2CID 231877717.

Внешние ссылки

Внутренняя валидность (методы социальных исследований)
Внутренняя валидность