stringtranslate.com

Смешанная модель

Смешанная модель , модель со смешанными эффектами или модель со смешанными компонентами ошибок — это статистическая модель , содержащая как фиксированные эффекты , так и случайные эффекты . [1] [2] Эти модели полезны в самых разных дисциплинах физических, биологических и социальных наук. Они особенно полезны в условиях, когда повторяющиеся измерения проводятся на одних и тех же статистических единицах (см. также продольное исследование ) или когда измерения проводятся на группах связанных статистических единиц. [2] Смешанные модели часто предпочтительнее традиционного анализа моделей дисперсионной регрессии, поскольку они не полагаются на предположение независимых наблюдений. Кроме того, они обладают гибкостью в работе с пропущенными значениями и неравномерным интервалом повторных измерений. [3] Анализ смешанной модели позволяет явно моделировать измерения с использованием более широкого спектра корреляций и дисперсии - ковариации , избегая предвзятых оценок. структуры.

На этой странице будут обсуждаться в основном линейные модели смешанных эффектов, а не обобщенные линейные модели смешанных эффектов или нелинейные модели смешанных эффектов . [4]

Качественное описание

Линейные смешанные модели (LMM) — это статистические модели , которые включают фиксированные и случайные эффекты для точного представления ненезависимых структур данных. LMM является альтернативой дисперсионному анализу . Часто ANOVA предполагает независимость наблюдений внутри каждой группы, однако это предположение может не выполняться для ненезависимых данных, таких как многоуровневые/ иерархические , продольные или коррелированные наборы данных.

Ненезависимые наборы — это наборы, в которых изменчивость результатов обусловлена ​​корреляциями внутри групп или между группами. Смешанные модели правильно учитывают гнездовые структуры/иерархические структуры данных, где на наблюдения влияют их вложенные ассоциации. Например, при изучении методов обучения с участием нескольких школ необходимо учитывать несколько уровней переменных. Индивидуальный уровень/нижний уровень включает отдельных учащихся или учителей школы. Наблюдения, полученные от этого ученика/учителя, вложены в его школу. Например, Учащийся А — это единица в Школе А. Следующий более высокий уровень — это школа. На более высоком уровне в школе есть несколько отдельных учеников и учителей. Уровень школы влияет на наблюдения, полученные от учеников и учителей. Например, школа A и школа B — это более высокие уровни, каждая со своим набором учеников A и B соответственно. Это представляет собой иерархическую схему данных. Решением моделирования иерархических данных является использование линейных смешанных моделей.

Представление о том, что данные, относящиеся к системе образования, не являются независимыми и структурированы на вложенных/иерархических уровнях.

LMM позволяют нам понять важные эффекты между уровнями и внутри них, в то же время внося поправки на стандартные ошибки из-за независимости, встроенные в структуру данных. [4] [5]

Фиксированный эффект

Фиксированные эффекты инкапсулируют тенденции/тенденции, которые являются последовательными на уровнях основного интереса. Эти эффекты считаются фиксированными, поскольку они неслучайны и предполагаются постоянными для изучаемой популяции. [5] Например, при изучении образования фиксированный эффект может представлять собой общие эффекты на уровне школы, которые одинаковы для всех школ.

Хотя иерархия набора данных обычно очевидна, необходимо указать конкретные фиксированные эффекты, влияющие на средние ответы для всех испытуемых. Некоторых коэффициентов с фиксированным эффектом достаточно без соответствующих случайных эффектов, тогда как другие фиксированные коэффициенты представляют собой только среднее значение, в котором отдельные единицы являются случайными. Они могут быть определены путем включения случайных точек пересечения и наклонов . [6] [7] [8]

В большинстве ситуаций рассматриваются несколько связанных моделей и принимается модель, которая лучше всего представляет собой универсальную модель.

Случайный эффект, ε

Ключевым компонентом смешанной модели является объединение случайных эффектов с фиксированным эффектом. Фиксированные эффекты часто используются для представления базовой модели. В линейных смешанных моделях истинная регрессия популяции является линейной, β. Фиксированные данные устанавливаются на самом высоком уровне. Случайные эффекты приводят к статистической изменчивости на разных уровнях иерархии данных. Они объясняют неизмеренные источники отклонений, которые влияют на определенные группы данных. Например, различия между учеником 1 и учеником 2 в одном классе или различия между классом 1 и классом 2 в одной школе.   [6] [7] [8]

История и текущий статус

Представление смещенных и несмещенных данных и различий между оценками LSR и LMM.

Рональд Фишер представил модели случайных эффектов для изучения корреляции значений признаков между родственниками. [9] В 1950-х годах Чарльз Рой Хендерсон предоставил лучшие линейные несмещенные оценки фиксированных эффектов и лучшие линейные несмещенные прогнозы случайных эффектов. [10] [11] [12] [13] Впоследствии смешанное моделирование стало основной областью статистических исследований, включая работу по вычислению оценок максимального правдоподобия, нелинейных моделей смешанных эффектов, недостающих данных в моделях смешанных эффектов и байесовских моделей. оценка моделей смешанных эффектов. Смешанные модели применяются во многих дисциплинах, где для каждой интересующей единицы проводится несколько коррелированных измерений. Они широко используются в исследованиях с участием людей и животных в самых разных областях — от генетики до маркетинга, а также в бейсболе [14] и промышленной статистике. [15] Ассоциация смешанной линейной модели позволила улучшить предотвращение ложноположительных ассоциаций. Популяции глубоко взаимосвязаны, и структуру родства динамики популяций чрезвычайно сложно смоделировать без использования смешанных моделей. Однако линейные смешанные модели могут быть не единственным решением. В LMM используется допущение о постоянной остаточной дисперсии , которое иногда нарушается при учете глубоко связанных непрерывных и бинарных признаков. [16]

Определение

В матричной записи линейную смешанную модель можно представить как

где

Например, если каждое наблюдение может принадлежать к любому нулю или более из k категорий, тогда Z , который имеет одну строку на каждое наблюдение, может быть выбран так, чтобы иметь k столбцов, где значение 1 для матричного элемента Z указывает, что наблюдение является известно, что наблюдение принадлежит к какой-либо категории, а значение 0 указывает на то, что наблюдение, как известно, не принадлежит к какой-либо категории. Выведенное значение u для категории тогда является перехватом для конкретной категории . Если Z имеет дополнительные столбцы, где ненулевые значения вместо этого являются значением независимой переменной для наблюдения, то соответствующее выведенное значение u представляет собой наклон для этой независимой переменной, специфичный для категории . Отношения между точками пересечения категорий и наклонами количественно оцениваются с помощью ковариационной матрицы G.

Оценка

Совместную плотность и можно записать как: . Предполагая нормальность , и , а также максимизируя плотность соединений по и , получаем «уравнения смешанной модели» Хендерсона (MME) для линейных смешанных моделей: [10] [12] [17]

где, например, X ' — это транспонированная матрица X , а R -1 — это матрица , обратная R.

Решениями MME и являются лучшие линейные несмещенные оценки и предикторы для и соответственно. Это следствие теоремы Гаусса-Маркова, когда условная дисперсия результата не масштабируется до единичной матрицы. Когда условная дисперсия известна, то оценка методом наименьших квадратов, взвешенная с обратной дисперсией, является лучшей линейной несмещенной оценкой. Однако условная дисперсия редко, если вообще когда-либо, известна. Поэтому желательно совместно оценивать дисперсию и оценки взвешенных параметров при решении MME.

Одним из методов, используемых для подбора таких смешанных моделей, является метод алгоритма ожидания-максимизации (EM), в котором компоненты дисперсии рассматриваются как ненаблюдаемые мешающие параметры в совместной вероятности. [18] В настоящее время этот метод реализован в статистическом программном обеспечении, таком как Python (пакет statsmodels) и SAS (смешанный процесс), и в качестве начального шага только в пакете R nlme lme(). Решение уравнений смешанной модели представляет собой оценку максимального правдоподобия, когда распределение ошибок нормальное. [19] [20]

Фиксированные, смешанные и случайные эффекты влияют на модели линейной регрессии.

Существует несколько других методов подбора смешанных моделей, включая первоначальное использование MEM, а затем метода Ньютона-Рафсона (используемого пакетом R nlme [21] lme()), штрафных наименьших квадратов, чтобы получить профилированное логарифмическое правдоподобие только в зависимости от (низкоразмерные) параметры дисперсии-ковариации , т. е. его матрицы cov , а затем современная прямая оптимизация для этой приведенной целевой функции (используется пакетом lme4 [22] R lmer() и пакетом Julia MixedModels.jl) и прямая оптимизация вероятности (используется, например, в glmmTMB R ). Примечательно, что хотя каноническая форма, предложенная Хендерсоном, полезна для теории, многие популярные пакеты программного обеспечения используют другую формулировку для численных вычислений, чтобы воспользоваться преимуществами методов разреженной матрицы (например, lme4 и MixedModels.jl).

Смотрите также

Рекомендации

  1. ^ Балтаги, Бади Х. (2008). Эконометрический анализ панельных данных (Четвертое изд.). Нью-Йорк: Уайли. стр. 54–55. ISBN 978-0-470-51886-1.
  2. ↑ Аб Гомес, Дилан Дж. Э. (20 января 2022 г.). «Должен ли я использовать фиксированные эффекты или случайные эффекты, если у меня менее пяти уровней группирующего фактора в модели со смешанными эффектами?». ПерДж . 10 : е12794. дои : 10.7717/peerj.12794 . ПМЦ 8784019 . ПМИД  35116198. 
  3. ^ Ян, Цзянь; Зайтлен, Н.А.; Годдард, Мэн; Вишер, премьер-министр; Принс, Алабама (29 января 2014 г.). «Преимущества и подводные камни применения методов ассоциации смешанной модели». Нат Жене . 46 (2): 100–106. дои : 10.1038/ng.2876. ПМЦ 3989144 . ПМИД  24473328. 
  4. ^ Аб Селтман, Ховард (2016). Экспериментальный дизайн и анализ. Том. 1. С. 357–378.
  5. ^ ab «Введение в линейные смешанные модели». Передовые исследования, вычислительные статистические методы и анализ данных . Группа статистического консалтинга Калифорнийского университета в Лос-Анджелесе. 2021.
  6. ^ аб Крефт и де Леу, Дж. Знакомство с многоуровневым моделированием . Лондон: Сейдж.
  7. ^ Аб Рауденбуш, Брык, SW, AS (2002). Иерархические линейные модели: приложения и методы анализа данных . Таузенд-Оукс, Калифорния: Сейдж.{{cite book}}: CS1 maint: multiple names: authors list (link)
  8. ^ аб Снейдерс, Боскер, TAB, RJ (2012). Многоуровневый анализ: введение в базовое и расширенное многоуровневое моделирование . Том. 2-е издание. Лондон: Сейдж.{{cite book}}: CS1 maint: multiple names: authors list (link)
  9. ^ Фишер, РА (1918). «Корреляция между родственниками при предположении менделевской наследственности». Труды Королевского общества Эдинбурга . 52 (2): 399–433. дои : 10.1017/S0080456800012163. S2CID  181213898.
  10. ^ Аб Робинсон, ГК (1991). «Этот BLUP — хорошая вещь: оценка случайных эффектов». Статистическая наука . 6 (1): 15–32. дои : 10.1214/ss/1177011926 . JSTOR  2245695.
  11. ^ CR Хендерсон; Оскар Кемпторн; С.Р. Сирл; К.М. фон Крозиг (1959). «Оценка экологических и генетических тенденций на основе записей, подлежащих выбраковке». Биометрия . 15 (2). Международное биометрическое общество: 192–218. дои : 10.2307/2527669. JSTOR  2527669.
  12. ^ аб Л. Дейл Ван Флек. «Чарльз Рой Хендерсон, 1 апреля 1911 г. - 14 марта 1989 г.» (PDF) . Национальная академия наук США .
  13. ^ Маклин, Роберт А.; Сандерс, Уильям Л.; Строуп, Уолтер В. (1991). «Единый подход к смешанным линейным моделям». Американский статистик . 45 (1). Американская статистическая ассоциация: 54–64. дои : 10.2307/2685241. JSTOR  2685241.
  14. ^ Андерсон, Р.Дж. (2016). «Гуру аналитики MLB, который может стать следующим Нейтом Сильвером, имеет новую революционную статистику»».
  15. ^ Обенчейн, Лилли, Боб, Эли (1993). «Анализ данных и визуализация информации» (PDF) . МВСУГ.{{cite book}}: CS1 maint: multiple names: authors list (link)
  16. ^ Чен, Х; Ван, К; Кономос, член парламента; Стилп, AM; Ли, З; Софер, Т; Шпиро, А.А.; Чен, В; Брем, Дж. М.; Селедон, Джей Си; Редлайн, С; Папаниколау, С; Тортон, Дж.Дж.; Тортон, штат Техас; Лори, CC; Райс, К; Лин, X (7 апреля 2016 г.). «Контроль за структурой популяции и родством бинарных признаков в исследованиях генетических ассоциаций с помощью смешанных логистических моделей». Ам Джей Хум Жене . 98 (4): 653–666. дои : 10.1016/j.ajhg.2016.02.012. ПМЦ 4833218 . ПМИД  27018471. 
  17. ^ Хендерсон, CR (1973). «Оценка производителей и генетические тенденции» (PDF) . Журнал зоотехники . 1973 год . Американское общество зоотехники: 10–41. doi :10.1093/ansci/1973.Symposium.10 . Проверено 17 августа 2014 г.
  18. ^ Линдстрем, ML; Бейтс, DM (1988). «Алгоритмы Ньютона-Рафсона и EM для линейных моделей смешанных эффектов для данных повторных измерений». Журнал Американской статистической ассоциации . 83 (404): 1014–1021. дои : 10.1080/01621459.1988.10478693.
  19. ^ Лэрд, Нэн М.; Уэр, Джеймс Х. (1982). «Модели случайных эффектов для продольных данных». Биометрия . 38 (4). Международное биометрическое общество: 963–974. дои : 10.2307/2529876. JSTOR  2529876. PMID  7168798.
  20. ^ Фицморис, Гаррет М.; Лэрд, Нэн М.; Уэр, Джеймс Х. (2004). Прикладной продольный анализ . Джон Уайли и сыновья. стр. 326–328.
  21. ^ Пиньейру, Дж; Бейтс, DM (2006). Модели со смешанными эффектами в цветах S и S-PLUS . Статистика и вычисления. Нью-Йорк: Springer Science & Business Media. дои : 10.1007/b98882. ISBN 0-387-98957-9.
  22. ^ Бейтс, Д.; Мехлер, М.; Болкер, Б.; Уокер, С. (2015). «Подбор линейных моделей со смешанными эффектами с использованием lme4». Журнал статистического программного обеспечения . 67 (1). дои : 10.18637/jss.v067.i01 . hdl : 2027.42/146808 .

дальнейшее чтение