Внешняя валидность — это обоснованность применения выводов научного исследования вне контекста этого исследования. [1] Другими словами, это степень, в которой результаты исследования могут быть обобщены или перенесены на другие ситуации, людей, стимулы и времена. [2] [3] Обобщаемость означает применимость заранее определенной выборки к более широкой популяции, тогда как транспортабельность означает применимость одной выборки к другой целевой популяции. [2] Напротив, внутренняя валидность — это достоверность выводов, сделанных в контексте конкретного исследования.
Математический анализ внешней валидности касается определения того, возможно ли обобщение на гетерогенные группы населения, а также разработки статистических и вычислительных методов, которые дают достоверные обобщения. [4]
При установлении внешней достоверности ученые склонны определять «объем» исследования, который относится к применимости или ограничениям теории или аргументов исследования. [2] Это влечет за собой определение выборки исследования и более широкой популяции, которую представляет выборка. [2]
«Угроза внешней достоверности — это объяснение того, как вы можете ошибаться, делая обобщения на основе результатов конкретного исследования». [5] В большинстве случаев возможность обобщения ограничена, когда эффект одного фактора (т.е. независимой переменной ) зависит от других факторов. Следовательно, все угрозы внешней валидности можно описать как статистические взаимодействия . [6] Вот некоторые примеры:
Обратите внимание, что внешняя валидность исследования ограничена его внутренней валидностью. Если причинно-следственный вывод , сделанный в ходе исследования, недействителен, то обобщение этого вывода на другие контексты также будет недействительным.
Кук и Кэмпбелл [7] провели решающее различие между обобщением на некоторую популяцию и обобщением на субпопуляции, определяемые разными уровнями некоторого фонового фактора. Линч утверждал, что почти никогда невозможно обобщить значимые популяции, за исключением моментального снимка истории, но можно проверить, в какой степени влияние некоторой причины на некоторую зависимую переменную распространяется на субпопуляции, которые различаются по некоторому фоновому фактору. Это требует проверки того, смягчается ли исследуемый эффект лечения взаимодействием с одним или несколькими фоновыми факторами. [6] [8]
Хотя перечисление угроз достоверности может помочь исследователям избежать необоснованных обобщений, многие из этих угроз можно обезвредить или нейтрализовать систематическим образом, чтобы обеспечить обоснованное обобщение. В частности, экспериментальные результаты одной популяции могут быть «повторно обработаны» или «перекалиброваны», чтобы обойти популяционные различия и произвести действительные обобщения во второй популяции, где эксперименты не могут быть проведены. Перл и Барейнбойм [4] классифицировали проблемы обобщения на две категории: (1) те, которые поддаются валидной перекалибровке, и (2) те, где внешняя валидность теоретически невозможна. Используя исчисление на основе графов, [9] они вывели необходимое и достаточное условие для экземпляра задачи, позволяющее сделать допустимое обобщение, и разработали алгоритмы, которые автоматически производят необходимую повторную калибровку, когда бы она ни существовала. [10] Это сводит проблему внешней валидности к упражнениям в теории графов и привело некоторых философов к выводу, что проблема теперь решена. [11]
Важный вариант проблемы внешней достоверности касается систематической ошибки отбора , также известной как систематическая ошибка выборки , то есть систематическая ошибка, возникающая, когда исследования проводятся на нерепрезентативных выборках целевой совокупности. Например, если клиническое исследование проводится на студентах колледжа, исследователь может захотеть узнать, распространяются ли результаты на всю популяцию, где такие характеристики, как возраст, образование и доход, существенно отличаются от характеристик типичного студента. Основанный на графах метод Барейнбойма и Перла определяет условия, при которых можно обойти систематическую ошибку отбора выборки, и, когда эти условия выполняются, метод строит несмещенную оценку среднего причинного эффекта во всей совокупности. Основное различие между обобщением результатов исследований с неправильной выборкой и обобщением на разрозненные группы населения заключается в том, что различия между популяциями обычно вызваны ранее существовавшими факторами, такими как возраст или этническая принадлежность, тогда как ошибка отбора часто вызвана условиями после лечения, например, пациенты, выбывшие из исследования, или пациенты, отобранные по тяжести травмы. Когда выбор определяется факторами после обработки, требуются нетрадиционные методы повторной калибровки для обеспечения оценки без систематических ошибок, и эти методы легко получить из графика задачи. [12] [13]
Если возраст считается основным фактором, вызывающим различия в эффекте лечения от человека к человеку, тогда возрастные различия между включенными в выборку студентами и населением в целом могут привести к смещенной оценке среднего эффекта лечения в этой группе населения. Однако такое смещение можно исправить с помощью простой процедуры повторного взвешивания: мы берем возрастной эффект в студенческой подгруппе и вычисляем его среднее значение, используя возрастное распределение в общей популяции. Это дало бы нам объективную оценку среднего эффекта лечения в популяции. Если, с другой стороны, лечение само по себе влияет на соответствующий фактор, который отличает исследуемую выборку от генеральной совокупности, тогда необходимо использовать другую схему повторного взвешивания. Назвав этот фактор Z , мы снова усредняем z -специфическое влияние X на Y в экспериментальной выборке, но теперь взвешиваем его по «причинному влиянию» X на Z. Другими словами, новый вес представляет собой долю единиц, достигших уровня Z=z , в которых лечение X=x проводилось для всей популяции. Эту вероятность вмешательства, о которой часто пишут [14] , иногда можно оценить на основе наблюдательных исследований среди населения в целом.
Типичный пример такого характера возникает, когда Z является посредником между лечением и результатом. Например, лечение может представлять собой препарат, снижающий уровень холестерина, Z может быть уровнем холестерина, а Y — ожидаемой продолжительностью жизни. Здесь на Z влияет как лечение, так и основной фактор, определяющий результат, Y. Предположим, что субъекты, выбранные для экспериментального исследования, имеют тенденцию иметь более высокий уровень холестерина, чем это типично для населения в целом. Чтобы оценить средний эффект препарата на выживаемость во всей популяции, мы сначала вычисляем z -специфический эффект лечения в экспериментальном исследовании, а затем усредняем его, используя в качестве весовой функции. Полученная оценка будет свободна от систематической ошибки, даже если Z и Y смешаны, то есть когда существует неизмеренный общий фактор, влияющий как на Z , так и на Y. [15]
Точные условия, обеспечивающие достоверность этой и других схем взвешивания, сформулированы в работах Bareinboim and Pearl, 2016 [15] и Bareinboim et al., 2014. [13]
Во многих исследованиях и проектах исследований может существовать компромисс между внутренней и внешней валидностью: [16] [17] [18] Попытки повысить внутреннюю валидность могут также ограничить возможность обобщения результатов, и наоборот. Эта ситуация побудила многих исследователей призывать к «экологически обоснованным» экспериментам. Под этим они подразумевают, что экспериментальные процедуры должны напоминать условия «реального мира». Они критикуют отсутствие экологической обоснованности многих лабораторных исследований с упором на искусственно контролируемую и ограниченную среду. Некоторые исследователи считают, что внешняя валидность и экологическая валидность тесно связаны в том смысле, что причинно-следственные выводы, основанные на экологически обоснованных исследовательских проектах, часто допускают более высокую степень обобщения, чем те, которые получены в искусственно созданной лабораторной среде. Однако это снова связано с различием между обобщением на некоторую популяцию (тесно связанным с опасениями по поводу экологической обоснованности) и обобщением на субпопуляции, которые различаются по какому-то фоновому фактору. Некоторые результаты, полученные в экологически обоснованных исследовательских условиях, вряд ли могут быть обобщены, а некоторые результаты, полученные в строго контролируемых условиях, могут претендовать на почти универсальную внешнюю достоверность. Таким образом, внешняя и экологическая валидность независимы — исследование может обладать внешней валидностью, но не экологической валидностью, и наоборот.
В рамках качественной исследовательской парадигмы внешняя валидность заменяется концепцией переносимости. Переносимость — это способность результатов исследования переноситься в ситуации со схожими параметрами, популяциями и характеристиками. [19]
Исследователи часто заявляют, что эксперименты по своей природе имеют низкую внешнюю валидность. Некоторые утверждают, что при использовании экспериментального метода может возникнуть множество недостатков. Благодаря получению достаточного контроля над ситуацией, чтобы случайным образом распределять людей по условиям и исключать влияние посторонних переменных, ситуация может стать несколько искусственной и далекой от реальной жизни.
Речь идет о двух видах обобщения:
Однако оба эти соображения относятся к концепции Кука и Кэмпбелла об обобщении на некоторую целевую группу, а не к, возможно, более важной задаче оценки возможности обобщения результатов эксперимента на субпопуляции, которые отличаются от конкретной изучаемой ситуации, и на людей, которые отличаются от респондентов. изучается каким-то осмысленным образом. [7]
Критики экспериментов предполагают, что внешняя валидность может быть повышена за счет использования полевых условий (или, как минимум, реалистичных лабораторных условий) и использования истинных вероятностных выборок респондентов. Однако, если цель состоит в том, чтобы понять возможность обобщения среди субпопуляций, которые различаются ситуативными или личными фоновыми факторами, эти средства не обладают той эффективностью в увеличении внешней валидности, которую им обычно приписывают. Если существуют фоновые взаимодействия с лечением фактора X, о которых исследователь не знает (что кажется вероятным), эти исследовательские практики могут маскировать существенный недостаток внешней валидности. Дипбой и Фланаган, пишущие о промышленной и организационной психологии, отмечают, что факты свидетельствуют о том, что результаты, полученные в одной полевой обстановке и в одной лабораторной обстановке, с одинаковой вероятностью не будут обобщены на вторую полевые условия. [20] Таким образом, полевые исследования по своей природе не обладают высокой внешней валидностью, а лабораторные исследования по своей природе не обладают низкой внешней валидностью. В обоих случаях зависит, будет ли конкретный изучаемый эффект лечения меняться при изменении фоновых факторов, которые в этом исследовании остаются постоянными. Если исследование «нереалистично» на уровне какого-то фонового фактора, который не взаимодействует с лечением, оно не влияет на внешнюю валидность. Внешняя достоверность оказывается под угрозой только в том случае, если в эксперименте сохраняется постоянный какой-либо фоновый фактор на нереалистичном уровне и если изменение этого фонового фактора выявило бы сильное взаимодействие Лечение x Фоновый фактор. [6]
Исследования в области психологических экспериментов, проводимые в университетах, часто критикуются за то, что они проводятся в искусственных ситуациях и не могут быть обобщены на реальную жизнь. [21] [22] Чтобы решить эту проблему, социальные психологи пытаются повысить обобщаемость своих результатов, делая свои исследования как можно более реалистичными. Как отмечалось выше, это сделано в надежде на обобщение на какую-то конкретную группу населения. Реализм сам по себе не помогает делать заявления о том, изменились бы результаты, если бы условия были более реалистичными или если бы участники исследования были помещены в другие реалистичные условия. Если тестируется только один параметр, невозможно делать заявления о возможности обобщения для всех параметров. [6] [8]
Однако многие авторы смешивают внешнюю обоснованность и реализм. Существует несколько способов сделать эксперимент реалистичным:
Степень сходства эксперимента с ситуациями реальной жизни называется обыденным реализмом эксперимента. [21]
Гораздо важнее обеспечить высокий уровень психологического реализма исследования — насколько схожи психологические процессы, запускаемые в эксперименте, с психологическими процессами, происходящими в повседневной жизни. [23]
Психологический реализм усиливается, если люди оказываются вовлеченными в реальное событие. Для этого исследователи иногда рассказывают участникам легенду — ложное описание цели исследования. Однако если бы экспериментаторы рассказали участникам о цели эксперимента, такая процедура была бы низкой по психологическому реализму. В повседневной жизни никто не знает, когда произойдет чрезвычайная ситуация, и у людей нет времени планировать меры реагирования на них. Это означает, что типы запускаемых психологических процессов будут сильно отличаться от тех, что происходят в реальной чрезвычайной ситуации, что снижает психологический реализм исследования. [3]
Люди не всегда знают, почему они делают то, что делают, или что они делают, пока это не происходит. Следовательно, описание экспериментальной ситуации участникам и последующая просьба к ним нормально реагировать приведет к реакциям, которые могут не соответствовать поведению людей, которые на самом деле находятся в такой же ситуации. Мы не можем зависеть от предсказаний людей относительно того, что они будут делать в гипотетической ситуации; мы сможем узнать, что на самом деле будут делать люди, только если сконструируем ситуацию, запускающую те же психологические процессы, которые происходят в реальном мире.
Социальные психологи изучают, как люди в целом восприимчивы к социальному влиянию. Несколько экспериментов зафиксировали интересный и неожиданный пример социального влияния, когда простое знание о присутствии других снижало вероятность того, что люди помогут.
Единственный способ быть уверенным в том, что результаты эксперимента отражают поведение конкретной популяции, — это гарантировать, что участники выбираются из этой популяции случайным образом. Выборки в экспериментах не могут быть выбраны случайным образом, как в опросах, потому что отбирать случайные выборки для экспериментов по социальной психологии непрактично и дорого. Достаточно сложно убедить случайную выборку людей согласиться ответить на несколько вопросов по телефону в рамках политического опроса, и проведение таких опросов может стоить тысячи долларов. Более того, даже если каким-то образом удалось набрать по-настоящему случайную выборку, в эффектах экспериментального лечения может наблюдаться ненаблюдаемая гетерогенность... Лечение может иметь положительный эффект на одни подгруппы, но отрицательный эффект на другие. Эффекты, показанные в средних значениях лечения, не могут распространяться на какую-либо подгруппу. [6] [24]
Многие исследователи решают эту проблему, изучая основные психологические процессы, которые делают людей восприимчивыми к социальному влиянию, предполагая, что эти процессы настолько фундаментальны, что они универсальны. Некоторые процессы социальной психологии различаются в разных культурах, и в таких случаях необходимо изучать разные выборки людей. [25]
Окончательной проверкой внешней валидности эксперимента является повторение — проведение исследования заново, как правило, с другими группами испытуемых или в разных условиях. Исследователи часто используют разные методы, чтобы увидеть, получают ли они те же результаты.
Когда проводится множество исследований одной проблемы, результаты могут различаться. Некоторые исследования могут обнаружить влияние количества свидетелей на помогающее поведение, тогда как некоторые этого не делают. Чтобы разобраться в этом, существует статистический метод, называемый метаанализом , который усредняет результаты двух или более исследований, чтобы увидеть, является ли эффект независимой переменной надежным. Метаанализ, по сути, говорит нам о вероятности того, что результаты многих исследований обусловлены случайностью или независимой переменной. Если будет обнаружено, что независимая переменная оказывает влияние только в одном из 20 исследований, метаанализ покажет вам, что это одно исследование было исключением и что в среднем независимая переменная не влияет на зависимую переменную. Если независимая переменная оказывает влияние в большинстве исследований, метаанализ, скорее всего, покажет нам, что в среднем она влияет на зависимую переменную.
Могут быть достоверные явления, которые не ограничиваются лабораторными условиями. Например, было обнаружено, что увеличение числа свидетелей препятствует оказанию помощи многим людям, включая детей, студентов университетов и будущих служителей; [25] в Израиле; [26] в маленьких и крупных городах США; [27] в различных местах, таких как психологические лаборатории, городские улицы и поезда метро; [28] и при различных типах чрезвычайных ситуаций, таких как захваты, потенциальные пожары, драки и несчастные случаи, [29] , а также при менее серьезных событиях, таких как спущенное колесо. [30] Многие из этих повторов были проведены в реальных условиях, когда люди не могли знать, что эксперимент проводится.
Некоторые полагают, что при проведении экспериментов в психологии всегда существует компромисс между внутренней и внешней достоверностью.
Некоторые исследователи полагают, что хороший способ повысить внешнюю валидность — провести полевые эксперименты . В полевом эксперименте поведение людей изучается вне лаборатории, в естественной обстановке. Полевой эксперимент по своей конструкции идентичен лабораторному эксперименту, за исключением того, что он проводится в реальных условиях. Участники полевого эксперимента не осознают, что события, которые они переживают, на самом деле являются экспериментом. Некоторые утверждают, что внешняя валидность такого эксперимента высока, поскольку он проводится в реальном мире с реальными людьми, которые более разнообразны, чем типичная выборка студентов университета. Однако, поскольку реальные условия существенно различаются, результаты в одной реальной ситуации могут или не могут быть обобщены на другую реальную ситуацию. [20]
Ни внутренняя, ни внешняя валидность не фиксируется ни в одном эксперименте. Социальные психологи в первую очередь отдают предпочтение внутренней валидности, проводя лабораторные эксперименты, в которых людей случайным образом распределяют в разные условия и контролируют все внешние переменные. Другие социальные психологи предпочитают внешнюю валидность контролю, проводя большую часть своих исследований в полевых условиях, а многие делают и то, и другое. В совокупности оба типа исследований отвечают требованиям идеального эксперимента. Посредством репликации исследователи могут изучить данный исследовательский вопрос с максимальной внутренней и внешней достоверностью. [31]