Моделирование структурными уравнениями ( SEM ) — это разнообразный набор методов, используемых учеными, проводящими как наблюдательные, так и экспериментальные исследования. SEM используется в основном в социальных и поведенческих науках, но также используется в эпидемиологии, [2] бизнесе, [3] и других областях. Дать определение SEM сложно без обращения к техническому языку, но хорошей отправной точкой является само название.
SEM включает в себя модель, показывающую, как различные аспекты некоторого явления , как полагают, причинно связаны друг с другом. Модели структурных уравнений часто содержат постулированные причинно-следственные связи между некоторыми скрытыми переменными (переменными, которые, как считается, существуют, но которые невозможно наблюдать напрямую). Дополнительные причинно-следственные связи связывают эти скрытые переменные с наблюдаемыми переменными, значения которых появляются в наборе данных. Причинно-следственные связи представлены с помощью уравнений , но постулируемое структурирование также может быть представлено с помощью диаграмм, содержащих стрелки, как на рисунках 1 и 2. Причинно-следственные структуры подразумевают, что среди значений наблюдаемых переменных должны проявляться определенные закономерности. Это позволяет использовать связи между значениями наблюдаемых переменных для оценки величин постулируемых эффектов и проверки соответствия наблюдаемых данных требованиям предполагаемых причинных структур. [4]
Граница между тем, что является и не является моделью структурных уравнений, не всегда ясна, но модели SE часто содержат постулируемые причинные связи между набором скрытых переменных (переменных, которые, как считается, существуют, но которые нельзя наблюдать напрямую, например, отношение, интеллект или психическое заболевание) и причинные связи, связывающие постулируемые латентные переменные с переменными, которые можно наблюдать и значения которых доступны в некотором наборе данных. Вариации среди стилей скрытых причинных связей, вариации среди наблюдаемых переменных, измеряющих скрытые переменные, и вариации в стратегиях статистической оценки приводят к созданию набора инструментов SEM, включающего подтверждающий факторный анализ , подтверждающий композитный анализ , траекторный анализ , многогрупповое моделирование, продольное моделирование. , частичное моделирование пути наименьших квадратов , моделирование скрытого роста и иерархическое или многоуровневое моделирование. [5] [6] [7] [8] [9]
Исследователи SEM используют компьютерные программы для оценки силы и знака коэффициентов, соответствующих моделируемым структурным связям, например чисел, связанных со стрелками на рисунке 1. Поскольку постулируемая модель, подобная рис. 1, может не соответствовать мирским силам, контролирующим измерения наблюдаемых данных, программы также предоставляют модельные тесты и диагностические подсказки, указывающие, какие индикаторы или какие компоненты модели могут привести к несоответствию между моделью и наблюдаемыми данными. Критика методов SEM намекает на: игнорирование доступных тестов модели, проблемы в спецификации модели, тенденцию принимать модели без учета внешней достоверности и потенциальные философские предубеждения. [10]
Большим преимуществом SEM является то, что все эти измерения и тесты происходят одновременно в одной процедуре статистической оценки, где все коэффициенты модели рассчитываются с использованием всей информации из наблюдаемых переменных. Это означает, что оценки будут более точными, чем если бы исследователь рассчитывал каждую часть модели отдельно. [11]
Моделирование структурными уравнениями (SEM) начало отличаться от корреляции и регрессии, когда Сьюэлл Райт предоставил явные причинно-следственные интерпретации для набора уравнений в стиле регрессии, основанные на четком понимании физических и физиологических механизмов, вызывающих прямые и косвенные эффекты среди наблюдаемых им переменных. [12] [13] [14] Уравнения оценивались как обычные уравнения регрессии, но существенный контекст измеряемых переменных позволял получить четкое причинно-следственное, а не просто прогнозирующее понимание. О. Д. Дункан представил SEM в социальных науках в своей книге 1975 года [15] , а расцвет SEM пришелся на конец 1970-х и 1980-е годы, когда увеличение вычислительной мощности позволило оценить практическую модель. В 1987 году Гайдук [6] представил первое введение длиной в книгу по моделированию структурными уравнениями со скрытыми переменными, за которым вскоре последовал популярный текст Боллена (1989). [16]
Различные, но математически связанные подходы к моделированию разработаны в психологии, социологии и экономике. Ранняя работа Комиссии Коулза над оценкой одновременных уравнений была сосредоточена на алгоритмах Купмана и Худа (1953) из экономики транспорта и оптимальной маршрутизации с оценкой максимального правдоподобия и алгебраическими вычислениями в закрытой форме, поскольку итеративные методы поиска решений были ограничены во времена, когда еще не было компьютеров. Слияние двух из этих потоков развития (факторный анализ из психологии и анализ пути из социологии через Дункана) сформировало нынешнее ядро SEM. Одна из нескольких программ, разработанных Карлом Йорескогом в Службе образовательного тестирования, LISREL [17] [18] [19] включала скрытые переменные (которые психологи называли скрытыми факторами факторного анализа) в уравнениях в стиле траекторного анализа (которые социологи унаследовали от Райта). и Дункан). Факторно-структурированная часть модели включала ошибки измерения, которые позволяли корректировать ошибки измерения, хотя и не обязательно безошибочно, оценивать эффекты, связывающие различные постулируемые латентные переменные.
Следы исторической конвергенции традиций факторного анализа и траекторного анализа сохраняются в виде различия между измерительной и структурной частями моделей; а также продолжающиеся разногласия по поводу тестирования моделей и того, должны ли измерения предшествовать структурным оценкам или сопровождать их. [20] [21] Рассмотрение факторного анализа как метода сокращения данных преуменьшает значение тестирования, что контрастирует с подходом анализа пути к тестированию постулируемых причинно-следственных связей, когда результат теста может сигнализировать о неправильной спецификации модели. В литературе продолжают проявляться разногласия между традициями факторного анализа и траекторного анализа.
Анализ пути Райта оказал влияние на Германа Уолда, ученика Уолда Карла Йорескога и ученика Йорескога Класа Форнелла, но SEM так и не завоевал большого внимания среди американских специалистов по эконометрике, возможно, из-за фундаментальных различий в целях моделирования и типичных структурах данных. Длительное разделение экономической отрасли СЭМ привело к процедурным и терминологическим различиям, хотя глубокие математические и статистические связи сохраняются. [22] [23] Экономическую версию SEM можно увидеть в дискуссиях SEMNET об эндогенности, а также в жаре, вызванной тем, что подход Джуди Перла к причинно-следственной связи с помощью направленных ациклических графов (DAG) сталкивается с экономическими подходами к моделированию. [4] Доступны дискуссии по сравнению и противопоставлению различных подходов SEM [24] [25], но дисциплинарные различия в структурах данных и проблемы, мотивирующие экономические модели, делают воссоединение маловероятным. Перл [4] расширил SEM от линейных до непараметрических моделей и предложил причинно-следственную и контрфактическую интерпретации уравнений. Непараметрические SEM позволяют оценивать общие, прямые и косвенные эффекты без каких-либо обязательств относительно линейности эффектов или предположений о распределении ошибок. [25]
SEM-анализ популярен в социальных науках, поскольку компьютерные программы позволяют оценивать сложные причинные структуры, но сложность моделей приводит к существенной вариативности качества результатов. Некоторые, но не все, результаты получены без «неудобства» понимания плана эксперимента, статистического контроля, последствий размера выборки и других особенностей, способствующих хорошему планированию исследования. [ нужна цитата ]
Следующие соображения применимы к построению и оценке многих моделей структурных уравнений.
Построение или определение модели требует внимания к:
Модели структурных уравнений пытаются отразить мировые силы, действующие в причинно однородных случаях, а именно в случаях, запутавшихся в одних и тех же мирских причинных структурах, но чьи значения причин различаются и, следовательно, имеют разные значения результирующих переменных. Причинной однородности можно способствовать путем отбора случаев или разделения случаев в модели с несколькими группами. Спецификация модели не является полной, пока исследователь не укажет:
Скрытый уровень модели состоит из эндогенных и экзогенных переменных . Эндогенные латентные переменные — это переменные с истинной оценкой, постулируемые как получающие эффекты по крайней мере от одной другой смоделированной переменной. Каждая эндогенная переменная моделируется как зависимая переменная в уравнении регрессионного типа. Экзогенные скрытые переменные — это фоновые переменные, которые постулируются как вызывающие одну или несколько эндогенных переменных и моделируются как переменные-предикторы в уравнениях регрессионного типа. Причинно-следственные связи между экзогенными переменными явно не моделируются, но обычно признаются путем моделирования экзогенных переменных как свободно коррелирующие друг с другом. Модель может включать промежуточные переменные – переменные, получающие эффекты от одних переменных, но также передающие эффекты другим переменным. Как и в регрессии, каждой эндогенной переменной присваивается переменная остатка или ошибки, инкапсулирующая эффекты недоступных и обычно неизвестных причин. Каждая скрытая переменная, экзогенная или эндогенная , считается содержащей истинные баллы случаев по этой переменной, и эти истинные баллы причинно вносят действительные/истинные вариации в одну или несколько наблюдаемых/сообщаемых индикаторных переменных. [26]
Программа LISREL присваивала греческие имена элементам набора матриц, чтобы отслеживать различные компоненты модели. Эти имена стали относительно стандартными обозначениями, хотя обозначения были расширены и изменены с учетом различных статистических соображений. [19] [6] [16] [27] Тексты и программы, «упрощающие» спецификацию модели с помощью диаграмм или с помощью уравнений, позволяющих выбирать имена переменных, выбранные пользователем, повторно конвертировать модель пользователя в некоторую стандартную форму матричной алгебры в фоновом режиме. «Упрощения» достигаются за счет неявного введения программных «предположений» по умолчанию о функциях модели, о которых пользователям предположительно не нужно беспокоиться. К сожалению, эти допущения по умолчанию легко скрывают компоненты модели, оставляя нераспознанные проблемы, скрывающимися в структуре модели и лежащих в ее основе матрицах.
В SEM выделяются два основных компонента моделей: структурная модель , показывающая потенциальные причинные зависимости между эндогенными и экзогенными латентными переменными , и модель измерения , показывающая причинные связи между латентными переменными и показателями. Например, модели исследовательского и подтверждающего факторного анализа фокусируются на причинно-следственных связях измерений, тогда как модели путей более точно соответствуют скрытым структурным связям SEM.
Разработчики моделей определяют каждый коэффициент в модели как свободный для оценки или фиксированный по некоторому значению. Свободные коэффициенты могут представлять собой постулируемые эффекты, которые исследователь желает проверить, фоновые корреляции между экзогенными переменными или дисперсии остаточных переменных или переменных ошибок, обеспечивающие дополнительные вариации эндогенных скрытых переменных. Фиксированные коэффициенты могут иметь значения, подобные значениям 1,0 на рисунке 2, которые обеспечивают масштабы для скрытых переменных, или значениями 0,0, которые подтверждают причинно-следственные связи, такие как утверждение об отсутствии прямых эффектов (отсутствие стрелок), указывающих от академических достижений к любому из четырех шкал на рисунке 1. Программы SEM предоставляют оценки и тесты свободных коэффициентов, в то время как фиксированные коэффициенты вносят важный вклад в тестирование общей структуры модели. Также можно использовать различные виды ограничений между коэффициентами. [27] [6] [16] Спецификация модели зависит от того, что известно из литературы, опыта исследователя с смоделированными индикаторными переменными и особенностей, исследуемых с использованием конкретной структуры модели.
Существует ограничение на количество коэффициентов, которые можно оценить в модели. Если точек данных меньше, чем количество оцененных коэффициентов, результирующая модель называется «неидентифицированной», и оценки коэффициентов получить невозможно. Взаимный эффект и другие причинно-следственные связи также могут мешать оценке. [28] [29] [27]
Коэффициенты модели, установленные на нуле, 1,0 или других значениях, не требуют оценки, поскольку они уже имеют указанные значения. Оценочные значения коэффициентов свободной модели получаются путем максимального соответствия данным или минимизации различий с ними относительно того, какими были бы характеристики данных, если бы коэффициенты свободной модели принимали оценочные значения. Влияние модели на то, как должны выглядеть данные для определенного набора значений коэффициентов, зависит от: а) местоположения коэффициентов в модели (например, какие переменные связаны/несвязаны), б) характера связей между переменными ( ковариации или эффекты; при этом эффекты часто считаются линейными); переменные (часто предполагается измерение интервального уровня).
Более сильный эффект, связывающий две латентные переменные, означает, что показатели этих латентных переменных должны быть более сильно коррелированы. Следовательно, разумной оценкой латентного эффекта будет любое значение, которое лучше всего соответствует корреляциям между показателями соответствующих латентных переменных, а именно оценочное значение, максимизирующее совпадение с данными или минимизирующее различия с данными. При оценке максимального правдоподобия числовые значения всех коэффициентов свободной модели корректируются индивидуально (постепенно увеличиваются или уменьшаются от начальных начальных значений) до тех пор, пока они не максимизируют вероятность наблюдения выборочных данных – являются ли данные ковариациями/корреляциями переменных или фактические значения случаев по индикаторным переменным. Обычные оценки методом наименьших квадратов — это значения коэффициентов, которые минимизируют квадратичные различия между данными и тем, как данные выглядели бы, если бы модель была правильно определена, а именно, если бы все оцененные функции модели соответствовали реальным функциям.
Соответствующая статистическая функция для максимизации или минимизации для получения оценок зависит от уровней измерения переменных (оценка обычно проще с помощью измерений на интервальном уровне, чем с помощью номинальных или порядковых показателей), а также от того, где конкретная переменная появляется в модели (например, эндогенные дихотомические переменные). создают больше трудностей с оценкой, чем экзогенные дихотомические переменные). Большинство программ SEM предоставляют несколько вариантов того, что следует максимизировать или минимизировать, чтобы получить оценки коэффициентов модели. Выбор часто включает оценку максимального правдоподобия (MLE), максимального правдоподобия с полной информацией (FIML), обычный метод наименьших квадратов (OLS), взвешенный метод наименьших квадратов (WLS), диагонально взвешенный метод наименьших квадратов (DWLS) и двухэтапный метод наименьших квадратов. [27]
Одна из распространенных проблем заключается в том, что оценочное значение коэффициента может быть недостаточно идентифицировано, поскольку оно недостаточно ограничено моделью и данными. Никакой уникальной наилучшей оценки не существует, если модель и данные вместе не ограничивают или ограничивают значение коэффициента в достаточной степени. Например, величина единственной корреляции данных между двумя переменными недостаточна для оценки взаимной пары смоделированных эффектов между этими переменными. Корреляция может быть объяснена тем, что один из взаимных эффектов сильнее другого эффекта, или тем, что другой эффект сильнее первого, или эффектами равной величины. Недоопределенные оценки эффекта могут быть идентифицированы путем введения дополнительных ограничений модели и/или данных. Например, взаимные эффекты могут быть идентифицированы путем ограничения одной оценки эффекта двойной, тройной или эквивалентной другой оценке эффекта [29] , но результирующие оценки будут заслуживающими доверия только в том случае, если дополнительное ограничение модели соответствует структуре мира. . Данные о третьей переменной, которая непосредственно вызывает только одну из пары взаимно причинно связанных переменных, также могут помочь в идентификации. [28] Ограничение третьей переменной, чтобы она не вызывала напрямую одну из взаимно-причинных переменных, нарушает симметрию, в противном случае это ухудшает оценки взаимного эффекта, потому что эта третья переменная должна быть более сильно коррелирована с переменной, которую она вызывает напрямую, чем с переменной в «другом» «конец взаимного, на который оно влияет лишь косвенно. [28] Обратите внимание, что это снова предполагает правильность причинной спецификации модели, а именно, что действительно существует прямой эффект, ведущий от третьей переменной к переменной на этом конце взаимных эффектов, и нет прямого воздействия на переменную на «другом конце». конец" взаимно связанной пары переменных. Теоретические требования нулевых/нулевых эффектов обеспечивают полезные ограничения, помогающие в оценке, хотя теории часто не могут четко указать, какие эффекты предположительно не существуют.
Оценка модели зависит от теории, данных, модели и стратегии оценки. Таким образом, модельные оценки учитывают:
Исследования, претендующие на проверку или «исследование» теории, требуют внимания к невероятным несоответствиям модели и данных. Оценка корректирует свободные коэффициенты модели, чтобы обеспечить наилучшее соответствие данным. Результаты программ SEM включают матрицу, сообщающую о взаимосвязях между наблюдаемыми переменными, которые наблюдались бы, если бы предполагаемые эффекты модели фактически контролировали значения наблюдаемых переменных. «Соответствие» модели сообщает о совпадении или несоответствии между подразумеваемыми моделью связями (часто ковариациями) и соответствующими наблюдаемыми связями между переменными. Большие и существенные различия между данными и последствиями модели сигнализируют о проблемах. Вероятность, сопровождающая тест χ 2 ( хи-квадрат ), представляет собой вероятность того, что данные могут возникнуть в результате случайных изменений выборки, если предполагаемая модель представляет собой реальные основные силы населения. Небольшая вероятность χ 2 указывает на то, что появление текущих данных было бы маловероятным, если бы смоделированная структура представляла собой реальные причинные силы населения, а остальные различия объяснялись случайными вариациями выборки.
Если модель по-прежнему не соответствует данным, несмотря на выбор оптимальных оценок коэффициентов, честный исследовательский ответ сообщает и учитывает эти доказательства (часто значимый критерий модели χ 2 ). [30] Невероятное несоответствие данных модели ставит под сомнение как оценки коэффициентов, так и способность модели определять структуру модели, независимо от того, возникает ли несогласованность из-за проблемных данных, неправильной статистической оценки или неправильной спецификации модели. Оценки коэффициентов в моделях, несовместимых с данными («неудачных»), можно интерпретировать как отчеты о том, как мир будет выглядеть для того, кто верит в модель, которая противоречит имеющимся данным. Оценки в моделях, несовместимых с данными, не обязательно становятся «очевидно неверными», становясь статистически странными или неправильно подписанными согласно теории. Оценки могут даже близко соответствовать требованиям теории, но остающаяся несогласованность данных делает соответствие между оценками и теорией неспособным обеспечить помощь. Неудачные модели остаются интерпретируемыми, но только как интерпретации, противоречащие имеющимся данным.
Репликация вряд ли обнаружит неправильно определенные модели, которые не соответствуют данным. Если данные репликации находятся в пределах случайных вариаций исходных данных, те же неправильные размещения коэффициентов, которые обеспечивали несоответствие исходным данным, вероятно, также будут ненадлежащим образом соответствовать данным репликации. Репликация помогает обнаруживать такие проблемы, как ошибки в данных (допущенные разными исследовательскими группами), но особенно слаба при обнаружении неправильных спецификаций после исследовательской модификации модели – например, когда подтверждающий факторный анализ (CFA) применяется к случайной второй половине данных после исследовательского факторного анализа. (EFA) по данным за первое полугодие.
Индекс модификации — это оценка того, насколько «улучшится» соответствие модели данным (но не обязательно насколько улучшится структура модели), если для оценки будет освобожден конкретный фиксированный в настоящее время коэффициент модели. Исследователи, сталкивающиеся с моделями, несовместимыми с данными, могут легко освободить коэффициенты, которые, как сообщают индексы модификации, могут привести к существенному улучшению соответствия. Это одновременно создает существенный риск перехода от причинно-неправильной и неудачной модели к причинно-неправильной, но подходящей модели, поскольку улучшенное соответствие данных не дает уверенности в том, что освобожденные коэффициенты по существу разумны или соответствуют миру. Исходная модель может содержать причинно-следственные ошибки, такие как неправильно направленные эффекты или неправильные предположения о недоступных переменных, и такие проблемы нельзя исправить путем добавления коэффициентов в текущую модель. Следовательно, такие модели остаются неточными, несмотря на более точное соответствие, обеспечиваемое дополнительными коэффициентами. Подбор, но несовместимых с миром моделей особенно вероятен, если исследователь, приверженный конкретной модели (например, факторной модели, имеющей желаемое количество факторов), получает первоначально несостоятельную модель, подгоняемую путем введения ковариаций ошибок измерения, «предложенных» модификацией. индексы. МакКаллум (1986) продемонстрировал, что «даже при благоприятных условиях к моделям, возникающим в результате поиска спецификаций, следует относиться с осторожностью». [31] Неправильную спецификацию модели иногда можно исправить путем введения коэффициентов, предложенных индексами модификации, но гораздо больше возможностей для исправления возникает за счет использования нескольких индикаторов схожих, но существенно разных скрытых переменных. [32]
«Принятие» неудачных моделей как «достаточно близких» также не является разумной альтернативой. Предостерегающий пример был предоставлен Брауном, МакКаллумом, Кимом, Андерсоном и Глейзером, которые обратились к математическому обоснованию того, почему критерий χ 2 может иметь (хотя и не всегда) значительную силу для обнаружения неверных спецификаций модели. [33] Вероятность, сопровождающая тест χ 2 , представляет собой вероятность того, что данные могут возникнуть в результате случайных изменений выборки, если текущая модель с ее оптимальными оценками представляет собой реальные основные силы населения. Небольшая вероятность χ2 указывает на то , что появление текущих данных было бы маловероятным, если бы текущая структура модели представляла собой реальные причинные силы населения – а остальные различия объяснялись случайными вариациями выборки. Браун, МакКаллум, Ким, Андерсен и Глейзер представили факторную модель, которую они считали приемлемой, несмотря на то, что модель существенно не согласовывалась с их данными согласно χ 2 . Ошибочность их утверждения о том, что близкое соответствие следует рассматривать как достаточно хорошее, была продемонстрирована Гайдуком, Пазкеркой-Робинсоном, Каммингсом, Леверсом и Бересом [34] , которые продемонстрировали подходящую модель для собственных данных Брауна и др., включив в нее экспериментальная особенность Browne и др. упустили из виду. Ошибка заключалась не в математике индексов или в чрезмерной чувствительности теста χ 2 . Ошибка заключалась в том, что Браун, МакКаллум и другие авторы забыли, пренебрегли или упустили из виду, что нельзя полагать, что степень несоответствия соответствует характеру, местоположению или серьезности проблем в спецификации модели. [35]
Многие исследователи пытались оправдать переход к индексам соответствия, а не тестированию своих моделей, утверждая, что χ 2 увеличивается (и, следовательно, вероятность χ 2 уменьшается) с увеличением размера выборки (N). При дисконтировании χ 2 на этом основании есть две ошибки . Во-первых, для правильных моделей χ 2 не увеличивается с увеличением N, [30] поэтому, если χ 2 увеличивается с ростом N, это само по себе является признаком того, что что-то заметно проблематично. Во-вторых, для моделей, которые явно неверно определены, увеличение χ 2 с ростом N дает хорошие новости: увеличивается статистическая мощность для обнаружения неправильных спецификаций модели (а именно, способность обнаруживать ошибки второго рода). Некоторые виды важных неточностей не могут быть обнаружены с помощью χ 2 , [35] поэтому любое количество несоответствий, выходящее за рамки того, что может быть разумно вызвано случайными вариациями, требует сообщения и рассмотрения. [36] [30] Тест модели χ 2 , возможно скорректированный, [37] является самым надежным доступным тестом модели структурного уравнения.
Многочисленные индексы соответствия количественно определяют, насколько близко модель соответствует данным, но все индексы соответствия страдают от логической трудности, заключающейся в том, что размер или степень несоответствия не надежно скоординированы с серьезностью или характером проблем, вызывающих несогласованность данных. [35] Модели с различными причинно-следственными структурами, которые одинаково хорошо соответствуют данным, называются эквивалентными моделями. [27] Такие модели эквивалентны с точки зрения соответствия данных, но не являются причинно-следственными, поэтому по крайней мере одна из так называемых эквивалентных моделей должна быть несовместима со структурой мира. Если между X и Y существует идеальная корреляция 1,0, и мы моделируем это, поскольку X вызывает Y, будет идеальное соответствие и нулевая остаточная ошибка. Но модель может не соответствовать миру, потому что Y на самом деле может быть причиной X, или и X, и Y могут реагировать на общую причину Z, или мир может содержать смесь этих эффектов (например, общая причина плюс следствие Y). на X) или другие причинные структуры. Идеальное соответствие не говорит нам о том, что структура модели соответствует структуре мира, а это, в свою очередь, подразумевает, что приближение к идеальному совпадению не обязательно соответствует приближению к структуре мира – возможно, так оно и есть, а может быть, и нет. Это делает неверным заявление исследователя о том, что даже идеальное соответствие модели подразумевает, что модель правильно каузально определена. Даже для моделей умеренной сложности точно эквивалентные модели встречаются редко. Модели, почти соответствующие данным по любому индексу, неизбежно вносят дополнительные потенциально важные, но неизвестные неверные спецификации моделей. Эти модели представляют собой еще большее препятствие для исследований.
Эта логическая слабость делает все индексы соответствия «бесполезными», когда модель структурного уравнения существенно не согласуется с данными, [36] , но несколько сил продолжают распространять использование индексов соответствия. Например, Даг Сорбом сообщил, что когда кто-то спросил Карла Йорескога, разработчика первой программы моделирования структурными уравнениями: «Почему вы тогда добавили GFI?» На вашу программу LISREL Джорескуг ответил: «Ну, пользователи угрожают нам, говоря, что перестанут использовать LISREL, если он всегда будет выдавать такие большие хи-квадраты. Поэтому нам пришлось изобрести что-то, чтобы сделать людей счастливыми. GFI служит этой цели». [38] Свидетельства χ 2 несоответствия данных модели были слишком статистически достоверными, чтобы их можно было вытеснить или отбросить, но людям, по крайней мере, можно было предоставить способ отвлечься от «тревожных» свидетельств. Карьерную прибыль по-прежнему можно получать, разрабатывая дополнительные индексы, сообщая об исследованиях поведения индексов и публикуя модели, намеренно скрывая доказательства несоответствия данных модели под MDI (кучей отвлекающих индексов). Кажется, не существует общего обоснования того, почему исследователь должен «принять» причинно неправильную модель, а не пытаться исправить обнаруженные неверные спецификации. И некоторые части литературы, похоже, не заметили, что «принятие модели» (на основе «удовлетворения» значению индекса) страдает от усиленной версии критики, применяемой к «принятию» нулевой гипотезы. В текстах по вводной статистике обычно рекомендуется заменить термин «принять» на «не удалось отвергнуть нулевую гипотезу», чтобы признать возможность ошибки второго рода. Ошибка типа III возникает в результате «принятия» гипотезы модели, когда текущих данных достаточно, чтобы отвергнуть модель.
Вопрос о том, привержены ли исследователи поиску структуры мира, является фундаментальной проблемой. Замещение тестовых доказательств несоответствия данных модели путем сокрытия их за заявлениями об индексе приемлемого соответствия приводит к общедисциплинарным издержкам, связанным с отвлечением внимания от всего, что дисциплина могла бы сделать для достижения структурно улучшенного понимания сути дисциплины. Дисциплина в конечном итоге платит реальную цену за индексное смещение доказательств неправильной спецификации модели. Разногласия, возникающие из-за разногласий по поводу необходимости исправления неправильных спецификаций моделей, вероятно, будут увеличиваться по мере увеличения использования нефакторных моделей и использования меньшего количества более точных индикаторов схожих, но, что немаловажно, различных скрытых переменных. [32]
Соображения, относящиеся к использованию индексов соответствия, включают проверку:
Некоторые из наиболее часто используемых статистических данных соответствия включают в себя
В следующей таблице приведены ссылки, документирующие эти и другие характеристики некоторых распространенных индексов: RMSEA (среднеквадратическая ошибка аппроксимации), SRMR (стандартизованная среднеквадратическая невязка), CFI (индекс подтверждающего соответствия) и TLI (такер -Индекс Льюиса). Дополнительные индексы, такие как AIC (информационный критерий Акаике), можно найти в большинстве руководств по SEM. [27] Для каждого показателя соответствия решение о том, что представляет собой достаточно хорошее соответствие между моделью и данными, отражает цель моделирования исследователя (возможно, оспаривание чужой модели или улучшение измерения); следует ли утверждать, что модель была «протестирована»; и удобно ли исследователю «игнорировать» доказательства документированной индексом степени несоответствия. [30]
Исследователи согласны с тем, что выборки должны быть достаточно большими, чтобы обеспечить стабильные оценки коэффициентов и разумную мощность тестирования, но не существует общего согласия относительно конкретных требуемых размеров выборки или даже того, как определить подходящие размеры выборки. Рекомендации основывались на количестве коэффициентов, подлежащих оценке, количестве смоделированных переменных и моделировании Монте-Карло, касающемся конкретных коэффициентов модели. [27] Рекомендации по размеру выборки, основанные на соотношении количества показателей к латентным, являются факторно-ориентированными и не применяются к моделям, использующим одиночные показатели с фиксированными ненулевыми отклонениями ошибок измерения. [32] В целом, для моделей среднего размера без статистически трудно поддающихся оценке коэффициентов требуемые размеры выборки (N) кажутся примерно сопоставимыми с N, необходимыми для регрессии, использующей все индикаторы.
Чем больше размер выборки, тем выше вероятность включения в нее случаев, которые не являются причинно-однородными. Следовательно, увеличение N для повышения вероятности возможности сообщить о желаемом коэффициенте как статистически значимом одновременно увеличивает риск неправильной спецификации модели и способность обнаруживать неправильную спецификацию. Исследователи, стремящиеся извлечь уроки из своего моделирования (в том числе потенциально узнать, что их модель требует корректировки или замены), будут стремиться к как можно большему размеру выборки, насколько это позволяет финансирование и их оценка вероятной популяционной причинной гетерогенности/однородности. Если доступное N огромно, моделирование подмножеств случаев может контролировать переменные, которые в противном случае могли бы нарушить причинную однородность. Исследователи, опасающиеся, что им, возможно, придется сообщать о недостатках своей модели, разрываются между желанием большего N, чтобы обеспечить достаточную мощность для обнаружения интересующих структурных коэффициентов, и избеганием мощности, способной сигнализировать о несоответствии данных модели. Огромные различия в структурах моделей и характеристиках данных позволяют предположить, что адекватные размеры выборок можно было бы определить, приняв во внимание опыт других исследователей (как хороший, так и плохой) с моделями сопоставимого размера и сложности, которые были оценены с использованием аналогичных данных.
Причинные интерпретации моделей SE являются наиболее ясными и понятными, но эти интерпретации будут ошибочными/неправильными, если структура модели не соответствует причинной структуре мира. Следовательно, интерпретация должна учитывать общий статус и структуру модели, а не только оцененные коэффициенты модели. Соответствует ли модель данным и/или как модель соответствует данным, имеет первостепенное значение для интерпретации. Подбор данных, полученный путем изучения или отслеживания индексов последовательных модификаций, не гарантирует, что модель неверна, но вызывает серьезные сомнения, поскольку эти подходы склонны к неправильному моделированию характеристик данных. Например, изучение того, сколько факторов требуется, упреждает обнаружение того, что данные не являются факторно-структурированными, особенно если факторную модель «убедили» в ее соответствии посредством включения ковариаций ошибок измерения. Способность данных выступать против постулируемой модели постепенно снижается с каждым необоснованным включением эффекта «предлагаемого индекса модификации» или ковариации ошибок. Становится чрезвычайно сложно восстановить правильную модель, если исходная/базовая модель содержит несколько неверных спецификаций. [46]
Оценки прямого эффекта интерпретируются параллельно с интерпретацией коэффициентов в уравнениях регрессии, но с причинно-следственной связью. Каждое увеличение значения причинной переменной на единицу рассматривается как изменение расчетной величины значения зависимой переменной при условии контроля или корректировки всех других действующих/моделируемых причинных механизмов. Косвенные эффекты интерпретируются аналогичным образом: величина конкретного косвенного эффекта равна произведению ряда прямых эффектов, составляющих этот косвенный эффект. В качестве единиц измерения используются реальные масштабы значений наблюдаемых переменных и присвоенные масштабные значения скрытых переменных. Заданный/фиксированный эффект 1.0 скрытого значения на конкретном индикаторе координирует масштаб этого индикатора с масштабом скрытой переменной. Предположение о том, что остальная часть модели остается постоянной или неизменной, может потребовать дисконтирования косвенных эффектов, которые в реальном мире могут быть одновременно вызваны реальным увеличением единицы продукции. И само увеличение единицы может быть несовместимо с тем, что возможно в реальном мире, потому что может не быть известного способа изменить значение причинной переменной. Если модель корректируется с учетом ошибок измерения, эта корректировка позволяет интерпретировать эффекты скрытого уровня как относящиеся к различиям в истинных показателях. [26]
Интерпретации SEM наиболее радикально отличаются от интерпретаций регрессии, когда сеть причинных коэффициентов соединяет скрытые переменные, поскольку регрессии не содержат оценок косвенных эффектов. Интерпретации SEM должны отражать последствия моделей косвенных эффектов, которые переносят эффекты от фоновых переменных через промежуточные переменные к последующим зависимым переменным. Интерпретации СЭМ способствуют пониманию того, как многочисленные мирские причинно-следственные связи могут работать согласованно, независимо или даже противодействовать друг другу. Прямым эффектам могут противодействовать (или усиливаться) косвенные эффекты, а их корреляционные последствия могут противодействоваться (или усиливаться) эффектами общих причин. [15] Значение и интерпретация конкретных оценок должны быть контекстуализированы в полной модели.
Интерпретация модели SE должна связывать конкретные причинные сегменты модели с их последствиями дисперсии и ковариации. Одиночный прямой эффект сообщает, что дисперсия независимой переменной приводит к определенному изменению значений зависимой переменной, но причинные детали того, что именно заставляет это происходить, остаются неопределенными, поскольку один коэффициент эффекта не содержит подкомпонентов, доступных для интеграции. в структурированную историю о том, как возникает этот эффект. Для предоставления характеристик, составляющих историю о том, как функционирует тот или иной эффект, потребуется более детальная модель SE, включающая переменные, промежуточные между причиной и следствием. Пока такая модель не появится, каждый предполагаемый прямой эффект сохраняет оттенок неизвестного, тем самым обращаясь к сути теории. Параллельная существенная неизвестность будет сопровождать каждый оцененный коэффициент даже в более детализированной модели, поэтому ощущение фундаментальной тайны никогда полностью не искореняется из моделей SE.
Даже если каждый смоделированный эффект неизвестен, за исключением идентичности задействованных переменных и предполагаемой величины эффекта, структуры, связывающие несколько смоделированных эффектов, дают возможность выразить, как вещи функционируют для координации наблюдаемых переменных, тем самым обеспечивая полезные возможности интерпретации. Например, общая причина способствует ковариации или корреляции между двумя затронутыми переменными, потому что, если значение причины возрастает, значения обоих эффектов также должны расти (при условии положительных эффектов), даже если мы не знаем всей истории. лежащую в основе каждой причины. [15] (Корреляция — это ковариация между двумя переменными, обе из которых были стандартизированы и имеют дисперсию 1,0). Другой вклад в интерпретацию можно внести, выразив, как две причинные переменные могут объяснить дисперсию зависимой переменной, а также как ковариация между двумя такими причинами может увеличить или уменьшить объясненную дисперсию зависимой переменной. То есть интерпретация может включать объяснение того, как набор эффектов и ковариаций может способствовать уменьшению дисперсии зависимой переменной. [47] Понимание причинно-следственных связей неявно связано с пониманием «контроля» и потенциально объясняет, почему следует контролировать одни переменные, а не другие. [4] [48] По мере усложнения моделей эти фундаментальные компоненты могут объединяться неинтуитивным образом, например, объясняя, почему не может быть никакой корреляции (нулевой ковариации) между двумя переменными, несмотря на то, что переменные связаны прямой ненулевой причинной связью. эффект. [15] [16] [6] [29]
Статистическая незначительность оценки эффекта указывает на то, что эта оценка может довольно легко возникнуть как случайное изменение выборки вокруг нулевого/нулевого эффекта, поэтому интерпретация оценки как реального эффекта становится двусмысленной. Как и в регрессии, доля дисперсии каждой зависимой переменной, объясняемая вариациями смоделированных причин, определяется R 2 , хотя блокированную ошибку R 2 следует использовать, если зависимая переменная участвует во взаимных или циклических эффектах или если она имеет переменная ошибки, коррелирующая с переменной ошибки любого предиктора. [49]
Предостережение, показанное в разделе «Оценка модели», требует повторения. Должна быть возможна интерпретация независимо от того, согласуется ли модель с данными. Оценки показывают, как мир будет выглядеть для того, кто верит в эту модель – даже если это убеждение необоснованно, потому что модель оказывается ошибочной. Интерпретация должна признавать, что коэффициенты модели могут соответствовать или не соответствовать «параметрам» – потому что коэффициенты модели могут не иметь соответствующих мирских структурных особенностей.
Добавление новых скрытых переменных, входящих в исходную модель или выходящих из нее в нескольких явных причинных местах/переменных, способствует обнаружению неправильных спецификаций модели, которые в противном случае могли бы испортить интерпретацию коэффициентов. Корреляции между новыми скрытыми показателями и всеми исходными показателями способствуют тестированию структуры исходной модели, поскольку несколько новых и сфокусированных коэффициентов эффекта должны работать в координации с исходными прямыми и косвенными эффектами модели для координации новых показателей с исходными показателями. Если структура исходной модели была проблематичной, редких новых причинно-следственных связей будет недостаточно для координации новых показателей с исходными показателями, тем самым сигнализируя о несоответствии коэффициентов исходной модели из-за несоответствия данных модели. [29] Корреляционные ограничения, основанные на коэффициентах нулевого/нулевого эффекта, а также коэффициентах, которым присвоены фиксированные ненулевые значения, способствуют как тестированию модели, так и оценке коэффициентов, и, следовательно, заслуживают признания в качестве основы, поддерживающей оценки и их интерпретацию. [29]
Интерпретации становятся все более сложными для моделей, содержащих взаимодействия, нелинейности, несколько групп, несколько уровней и категориальные переменные. [27] Эффекты, затрагивающие причинно-следственные связи, взаимные эффекты или коррелированные остатки, также требуют слегка пересмотренной интерпретации. [6] [29]
Тщательная интерпретация как неудачных, так и подходящих моделей может способствовать продвижению исследований. Чтобы быть надежной, модель должна исследовать академически информативные причинные структуры, согласовывать применимые данные с понятными оценками и не включать пустые коэффициенты. [50] Надежно подогнанные модели встречаются реже, чем неудачные модели или модели, которые неправильно подогнаны, но вполне возможны модели, подходящие по размеру. [34] [51] [52] [53]
Множество способов концептуализации моделей PLS [54] усложняют интерпретацию моделей PLS. Многие из приведенных выше комментариев применимы, если разработчик модели PLS придерживается реалистичной точки зрения, стремясь обеспечить сочетание смоделированных показателей таким образом, чтобы они соответствовали некоторой существующей, но недоступной скрытой переменной. Некаузальные модели PLS, такие как модели, ориентированные в первую очередь на R 2 или прогностическую силу вне выборки, меняют критерии интерпретации, уменьшая озабоченность тем, имеют ли коэффициенты модели мировые аналоги. Фундаментальные особенности, отличающие пять точек зрения на моделирование PLS, обсуждаемые Ригдоном, Сарстедтом и Ринглом [54], указывают на различия в целях разработчиков PLS, а также на соответствующие различия в функциях модели, требующих интерпретации.
Следует проявлять осторожность, заявляя о причинно-следственной связи, даже если проводились эксперименты или запланированные по времени исследования. Термин причинно-следственная модель следует понимать как означающий «модель, которая передает причинно-следственные предположения», а не обязательно модель, которая дает обоснованные причинно-следственные выводы - может быть, это так, а может быть, и нет. Сбор данных в различные моменты времени и использование экспериментального или квазиэкспериментального плана может помочь исключить некоторые конкурирующие гипотезы, но даже рандомизированные эксперименты не могут полностью исключить угрозы причинно-следственным связям. Ни один исследовательский план не может полностью гарантировать наличие причинно-следственных структур. [4]
Моделирование структурными уравнениями чревато противоречиями. Исследователи, придерживающиеся традиции факторного анализа, обычно пытаются сократить наборы множественных показателей до меньшего количества, более управляемых шкал или показателей факторов для последующего использования в моделях с траекторной структурой. Это представляет собой поэтапный процесс, при котором на начальном этапе измерения предоставляются шкалы или коэффициентные оценки, которые будут использоваться позже в модели с траекторной структурой. Такой поэтапный подход кажется очевидным, но на самом деле он сталкивается с серьезными основными недостатками. Сегментация на этапы мешает тщательной проверке того, действительно ли шкалы или оценки факторов представляют индикаторы и/или достоверно сообщают о эффектах скрытого уровня. Модель структурного уравнения, одновременно включающая в себя как структуры измерения, так и структуры скрытого уровня, не только проверяет, правильно ли координируют скрытые факторы индикаторы, но также проверяет, координирует ли тот же самый скрытый одновременно должным образом индикаторы каждого латентного уровня с индикаторами теоретических причин и/или последствий это скрыто. [29] Если латентный человек не способен выполнять оба этих стиля координации, достоверность этого латентного состояния подвергается сомнению, а шкала или коэффициенты, предназначенные для измерения этого латентного состояния, подвергаются сомнению. Разногласия вращались вокруг уважения или неуважения к доказательствам, оспаривающим обоснованность постулируемых скрытых факторов. Кипящие, а иногда и кипящие дискуссии привели к появлению специального выпуска журнала Structural Equation Modeling, посвященного целевой статье Гайдука и Глейзера [20] , за которой последовало несколько комментариев и возражений, [21] которые стали доступны бесплатно благодаря усилиям Джорджа Маркулидеса.
Эти дискуссии вызвали разногласия по поводу того, следует ли проверять модели структурных уравнений на соответствие данным, и тестирование моделей стало следующим предметом дискуссий. Ученые, имеющие опыт моделирования путей, были склонны защищать тщательное тестирование моделей, в то время как ученые, имеющие факторные истории, были склонны защищать индексацию соответствия, а не тестирование соответствия. Эти дискуссии привели к появлению целевой статьи Пола Барретта в книге «Личность и индивидуальные различия» [36], в которой он сказал: «Фактически, теперь я бы рекомендовал запретить ВСЕ подобные индексы когда-либо появляться в какой-либо статье как индикаторы «приемлемости» модели или «степени неудачник». [36] (стр. 821). Статья Барретта также сопровождалась комментариями с обеих точек зрения. [50] [55]
Споры по поводу тестирования моделей утихли, поскольку четкое сообщение о значительных несоответствиях данных модели становится обязательным. Ученые не могут игнорировать или не сообщать о фактах только потому, что им не нравится то, о чем сообщают факты. [30] Требование внимания к доказательствам, указывающим на неправильную спецификацию модели, лежит в основе недавней озабоченности решением проблемы «эндогенности» – стиля неправильной спецификации модели, который мешает оценке из-за отсутствия независимости ошибок/остаточных переменных. В целом, споры о причинной природе моделей структурных уравнений, включая факторные модели, также утихают. Стэн Мулайк, приверженец факторного анализа, признал причинную основу факторных моделей. [56] Комментарии Боллена и Перла относительно мифов о причинности в контексте СЭМ [25] усилили центральную роль причинного мышления в контексте СЭМ.
Более краткая полемика была сосредоточена на конкурирующих моделях. Сравнение конкурирующих моделей может быть очень полезным, но существуют фундаментальные проблемы, которые невозможно решить путем создания двух моделей и сохранения более подходящей модели. Статистическая сложность таких презентаций, как Леви и Хэнкок (2007) [57] , например, позволяет легко упустить из виду, что исследователь может начать с одной ужасной модели и одной ужасной модели, а закончить сохранением структурно ужасной модели, потому что некоторые индексные отчеты она подходит лучше, чем ужасная модель. К сожалению, даже сильные в других отношениях тексты по SEM, такие как Kline (2016) [27], остаются пугающе слабыми в представлении тестирования моделей. [58] В целом, вклад, который может внести моделирование структурными уравнениями, зависит от тщательной и детальной оценки модели, даже если неудачная модель оказывается лучшей из имеющихся.
Еще один спор, который затронул периферию предыдущих споров, ждет своего часа. [ нужна цитата ] Факторные модели и встроенные в теорию факторные структуры, имеющие несколько индикаторов, имеют тенденцию давать сбой, а удаление слабых индикаторов имеет тенденцию уменьшать несогласованность данных модели. Сокращение количества индикаторов приводит к беспокойству и разногласиям по поводу минимального количества индикаторов, необходимых для поддержки скрытой переменной в модели структурного уравнения. Исследователей, привязанных к факторной традиции, можно убедить сократить количество индикаторов до трех на каждую скрытую переменную, но три или даже два индикатора все равно могут быть несовместимы с предполагаемой общей причиной основных факторов. Гайдук и Литтвей (2012) [32] обсудили, как учитывать, защищать и корректировать ошибку измерения при использовании только одного индикатора для каждой моделируемой скрытой переменной. Отдельные индикаторы эффективно использовались в моделях SE в течение длительного времени [51] , но противоречия остаются лишь до тех пор, пока рецензент рассматривал измерение только с точки зрения факторного анализа.
Следы этих противоречий, хотя и сокращаются, разбросаны по всей литературе по SEM, и вы можете легко спровоцировать разногласия, задав вопрос: что следует делать с моделями, которые существенно не согласуются с данными? Или задав вопрос: преобладает ли простота модели над уважением к доказательствам несогласованности данных? Или какой вес следует придавать индексам, которые показывают близкие или не очень близкие данные, подходящие для некоторых моделей? Или нам следует быть особенно снисходительными и «вознаграждать» экономные модели, которые не соответствуют данным? Или, учитывая, что RMSEA оправдывает игнорирование некоторых реальных несоответствий для каждой степени свободы модели, не означает ли это, что люди, тестирующие модели с нулевыми гипотезами ненулевого RMSEA, проводят неудовлетворительное тестирование моделей? Для убедительного ответа на такие вопросы необходимы значительные различия в уровне статистической сложности, хотя ответы, скорее всего, будут сосредоточены на нетехническом вопросе: обязаны ли исследователи сообщать и уважать доказательства.
Программы моделирования структурными уравнениями сильно различаются по своим возможностям и требованиям пользователей. [64]
{{cite book}}
: CS1 maint: location missing publisher (link)