Байесовская линейная регрессия

Байесовская линейная регрессия — это тип условного моделирования , в котором среднее значение одной переменной описывается линейной комбинацией других переменных с целью получения апостериорной вероятности коэффициентов регрессии (а также других параметров, описывающих распределение регрессанта) и, в конечном итоге, допускает вневыборочное предсказание регрессанта (часто обозначаемое ) в зависимости от наблюдаемых значений регрессоров (обычно ). Простейшей и наиболее широко используемой версией этой модели является нормальная линейная модель , в которой задано гауссовское распределение . В этой модели и при определенном выборе априорных вероятностей для параметров — так называемых сопряженных априорных — апостериорную вероятность можно найти аналитически. При более произвольно выбранных априорных вероятностях апостериорные вероятности обычно приходится аппроксимировать. $y$ $X$ $y$ $X$

Настройка модели

Рассмотрим стандартную задачу линейной регрессии , в которой для мы указываем среднее значение условного распределения заданного вектора -предиктора : $i=1,\ldots ,n$ $y_{i}$ $k\times 1$ $\mathbf {x} _{i}$ $y_{i}=\mathbf {x} _{i}^{\mathsf {T}}{\boldsymbol {\beta }}+\varepsilon _{i},$

где — вектор, а — независимые и одинаково нормально распределенные случайные величины: ${\boldsymbol {\beta }}$ $k\times 1$ $\varepsilon _{i}$ $\varepsilon _{i}\sim N(0,\sigma ^{2}).$

Это соответствует следующей функции правдоподобия :

$\rho (\mathbf {y} \mid \mathbf {X} ,{\boldsymbol {\beta }},\sigma ^{2})\propto (\sigma ^{2})^{-n/2}\exp \left(-{\frac {1}{2\sigma ^{2}}}(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})^{\mathsf {T}}(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})\right).$

Для оценки вектора коэффициентов с использованием псевдообратной матрицы Мура–Пенроуза используется обычное решение по методу наименьших квадратов : ${\hat {\boldsymbol {\beta }}}=(\mathbf {X} ^{\mathsf {T}}\mathbf {X} )^{-1}\mathbf {X} ^{\mathsf {T}}\mathbf {y}$

где — матрица плана , каждая строка которой представляет собой вектор-предиктор ; — вектор- столбец . $\mathbf {X}$ $n\times k$ $\mathbf {x} _{i}^{\mathsf {T}}$ $\mathbf {y}$ $n$ $[y_{1}\;\cdots \;y_{n}]^{\mathsf {T}}$

Это частотный подход, и он предполагает, что имеется достаточно измерений, чтобы сказать что-то осмысленное о . В байесовском подходе данные дополняются дополнительной информацией в форме априорного распределения вероятностей . Априорное убеждение о параметрах объединяется с функцией правдоподобия данных в соответствии с теоремой Байеса, чтобы получить апостериорное убеждение о параметрах и . Априорное может принимать различные функциональные формы в зависимости от домена и информации, которая доступна априори . ${\boldsymbol {\beta }}$ ${\boldsymbol {\beta }}$ $\sigma$

Поскольку данные включают в себя и , фокус только на распределении условного на потребности обоснования. Фактически, «полный» байесовский анализ потребовал бы совместного правдоподобия вместе с априорным , где символизирует параметры распределения для . Только при предположении (слабой) экзогенности совместное правдоподобие может быть учтено в . ^[1] Последняя часть обычно игнорируется при предположении непересекающихся наборов параметров. Более того, при классических предположениях считаются выбранными (например, в спланированном эксперименте) и, следовательно, имеют известную вероятность без параметров. ^[2] $\mathbf {y}$ $\mathbf {X}$ $\mathbf {y}$ $\mathbf {X}$ $\rho (\mathbf {y} ,\mathbf {X} \mid {\boldsymbol {\beta }},\sigma ^{2},\gamma )$ $\rho (\beta ,\sigma ^{2},\gamma )$ $\gamma$ $\mathbf {X}$ $\rho (\mathbf {y} \mid {\boldsymbol {\mathbf {X} }},\beta ,\sigma ^{2})\rho (\mathbf {X} \mid \gamma )$ $\mathbf {X}$

С сопряженными априорными распределениями

Сопряженное априорное распределение

Для произвольного априорного распределения может не быть аналитического решения для апостериорного распределения . В этом разделе мы рассмотрим так называемое сопряженное априорное распределение , для которого апостериорное распределение может быть получено аналитически.

Априорная функция сопряжена с этой функцией правдоподобия, если она имеет ту же функциональную форму относительно и . Поскольку логарифм правдоподобия является квадратичным по , логарифм правдоподобия переписывается таким образом, что правдоподобие становится нормальным по . Запишите $\rho ({\boldsymbol {\beta }},\sigma ^{2})$ ${\boldsymbol {\beta }}$ $\sigma$ ${\boldsymbol {\beta }}$ $({\boldsymbol {\beta }}-{\hat {\boldsymbol {\beta }}})$

${\begin{aligned}(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})^{\mathsf {T}}(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})&=[(\mathbf {y} -\mathbf {X} {\hat {\boldsymbol {\beta }}})+(\mathbf {X} {\hat {\boldsymbol {\beta }}}-\mathbf {X} {\boldsymbol {\beta }})]^{\mathsf {T}}[(\mathbf {y} -\mathbf {X} {\hat {\boldsymbol {\beta }}})+(\mathbf {X} {\hat {\boldsymbol {\beta }}}-\mathbf {X} {\boldsymbol {\beta }})]\\&=(\mathbf {y} -\mathbf {X} {\hat {\boldsymbol {\beta }}})^{\mathsf {T}}(\mathbf {y} -\mathbf {X} {\hat {\boldsymbol {\beta }}})+({\boldsymbol {\beta }}-{\hat {\boldsymbol {\beta }}})^{\mathsf {T}}(\mathbf {X} ^{\mathsf {T}}\mathbf {X} )({\boldsymbol {\beta }}-{\hat {\boldsymbol {\beta }}})+\underbrace {2(\mathbf {X} {\hat {\boldsymbol {\beta }}}-\mathbf {X} {\boldsymbol {\beta }})^{\mathsf {T}}(\mathbf {y} -\mathbf {X} {\hat {\boldsymbol {\beta }}})} _{=\ 0}\\&=(\mathbf {y} -\mathbf {X} {\hat {\boldsymbol {\beta }}})^{\mathsf {T}}(\mathbf {y} -\mathbf {X} {\hat {\boldsymbol {\beta }}})+({\boldsymbol {\beta }}-{\hat {\boldsymbol {\beta }}})^{\mathsf {T}}(\mathbf {X} ^{\mathsf {T}}\mathbf {X} )({\boldsymbol {\beta }}-{\hat {\boldsymbol {\beta }}})\,.\end{aligned}}$

Теперь вероятность записывается как где — число коэффициентов регрессии. $\rho (\mathbf {y} |\mathbf {X} ,{\boldsymbol {\beta }},\sigma ^{2})\propto (\sigma ^{2})^{-{\frac {v}{2}}}\exp \left(-{\frac {vs^{2}}{2{\sigma }^{2}}}\right)(\sigma ^{2})^{-{\frac {n-v}{2}}}\exp \left(-{\frac {1}{2{\sigma }^{2}}}({\boldsymbol {\beta }}-{\hat {\boldsymbol {\beta }}})^{\mathsf {T}}(\mathbf {X} ^{\mathsf {T}}\mathbf {X} )({\boldsymbol {\beta }}-{\hat {\boldsymbol {\beta }}})\right),$ $vs^{2}=(\mathbf {y} -\mathbf {X} {\hat {\boldsymbol {\beta }}})^{\mathsf {T}}(\mathbf {y} -\mathbf {X} {\hat {\boldsymbol {\beta }}})\quad {\text{ and }}\quad v=n-k,$ $k$

Это предполагает форму для априорного распределения: где - обратное гамма-распределение $\rho ({\boldsymbol {\beta }},\sigma ^{2})=\rho (\sigma ^{2})\rho ({\boldsymbol {\beta }}\mid \sigma ^{2}),$ $\rho (\sigma ^{2})$ $\rho (\sigma ^{2})\propto (\sigma ^{2})^{-{\frac {v_{0}}{2}}-1}\exp \left(-{\frac {v_{0}s_{0}^{2}}{2\sigma ^{2}}}\right).$

В обозначениях, введенных в статье об обратном гамма-распределении , это плотность распределения с и с и в качестве априорных значений и , соответственно. Эквивалентно, его также можно описать как масштабированное обратное распределение хи-квадрат , ${\text{Inv-Gamma}}(a_{0},b_{0})$ $a_{0}={\tfrac {v_{0}}{2}}$ $b_{0}={\tfrac {1}{2}}v_{0}s_{0}^{2}$ $v_{0}$ $s_{0}^{2}$ $v$ $s^{2}$ ${\text{Scale-inv-}}\chi ^{2}(v_{0},s_{0}^{2}).$

Далее условная априорная плотность является нормальным распределением , $\rho ({\boldsymbol {\beta }}|\sigma ^{2})$

$\rho ({\boldsymbol {\beta }}\mid \sigma ^{2})\propto (\sigma ^{2})^{-k/2}\exp \left(-{\frac {1}{2\sigma ^{2}}}({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{0})^{\mathsf {T}}\mathbf {\Lambda } _{0}({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{0})\right).$

В обозначениях нормального распределения условное априорное распределение имеет вид ${\mathcal {N}}\left({\boldsymbol {\mu }}_{0},\sigma ^{2}{\boldsymbol {\Lambda }}_{0}^{-1}\right).$

Апостериорное распределение

Теперь, когда априорное распределение определено, апостериорное распределение можно выразить как

${\begin{aligned}\rho ({\boldsymbol {\beta }},\sigma ^{2}\mid \mathbf {y} ,\mathbf {X} )&\propto \rho (\mathbf {y} \mid \mathbf {X} ,{\boldsymbol {\beta }},\sigma ^{2})\rho ({\boldsymbol {\beta }}\mid \sigma ^{2})\rho (\sigma ^{2})\\&\propto (\sigma ^{2})^{-n/2}\exp \left(-{\frac {1}{2{\sigma }^{2}}}(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})^{\mathsf {T}}(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})\right)(\sigma ^{2})^{-k/2}\exp \left(-{\frac {1}{2\sigma ^{2}}}({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{0})^{\mathsf {T}}{\boldsymbol {\Lambda }}_{0}({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{0})\right)(\sigma ^{2})^{-(a_{0}+1)}\exp \left(-{\frac {b_{0}}{\sigma ^{2}}}\right)\end{aligned}}$

При некоторой перестановке ^[3] апостериорную вероятность можно переписать так, чтобы апостериорное среднее вектора параметров можно было выразить через оценку наименьших квадратов и априорное среднее , причем сила априорной вероятности указывается матрицей априорной точности. ${\boldsymbol {\mu }}_{n}$ ${\boldsymbol {\beta }}$ ${\hat {\boldsymbol {\beta }}}$ ${\boldsymbol {\mu }}_{0}$ ${\boldsymbol {\Lambda }}_{0}$

${\boldsymbol {\mu }}_{n}=(\mathbf {X} ^{\mathsf {T}}\mathbf {X} +{\boldsymbol {\Lambda }}_{0})^{-1}(\mathbf {X} ^{\mathsf {T}}\mathbf {X} {\hat {\boldsymbol {\beta }}}+{\boldsymbol {\Lambda }}_{0}{\boldsymbol {\mu }}_{0}).$

Чтобы подтвердить, что это действительно апостериорное среднее, квадратичные члены в экспоненте можно переставить в квадратичную форму в . ^[4] ${\boldsymbol {\mu }}_{n}$ ${\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{n}$

$(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})^{\mathsf {T}}(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})+({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{0})^{\mathsf {T}}{\boldsymbol {\Lambda }}_{0}({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{0})=({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{n})^{\mathsf {T}}(\mathbf {X} ^{\mathsf {T}}\mathbf {X} +{\boldsymbol {\Lambda }}_{0})({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{n})+\mathbf {y} ^{\mathsf {T}}\mathbf {y} -{\boldsymbol {\mu }}_{n}^{\mathsf {T}}(\mathbf {X} ^{\mathsf {T}}\mathbf {X} +{\boldsymbol {\Lambda }}_{0}){\boldsymbol {\mu }}_{n}+{\boldsymbol {\mu }}_{0}^{\mathsf {T}}{\boldsymbol {\Lambda }}_{0}{\boldsymbol {\mu }}_{0}.$

Теперь апостериорную вероятность можно выразить как нормальное распределение, умноженное на обратное гамма-распределение :

$\rho ({\boldsymbol {\beta }},\sigma ^{2}\mid \mathbf {y} ,\mathbf {X} )\propto (\sigma ^{2})^{-k/2}\exp \left(-{\frac {1}{2{\sigma }^{2}}}({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{n})^{\mathsf {T}}(\mathbf {X} ^{\mathsf {T}}\mathbf {X} +\mathbf {\Lambda } _{0})({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{n})\right)(\sigma ^{2})^{-{\frac {n+2a_{0}}{2}}-1}\exp \left(-{\frac {2b_{0}+\mathbf {y} ^{\mathsf {T}}\mathbf {y} -{\boldsymbol {\mu }}_{n}^{\mathsf {T}}(\mathbf {X} ^{\mathsf {T}}\mathbf {X} +{\boldsymbol {\Lambda }}_{0}){\boldsymbol {\mu }}_{n}+{\boldsymbol {\mu }}_{0}^{\mathsf {T}}{\boldsymbol {\Lambda }}_{0}{\boldsymbol {\mu }}_{0}}{2\sigma ^{2}}}\right).$

Таким образом, апостериорное распределение можно параметризовать следующим образом. где два фактора соответствуют плотностям и распределениям, а их параметры задаются как $\rho ({\boldsymbol {\beta }},\sigma ^{2}\mid \mathbf {y} ,\mathbf {X} )\propto \rho ({\boldsymbol {\beta }}\mid \sigma ^{2},\mathbf {y} ,\mathbf {X} )\rho (\sigma ^{2}\mid \mathbf {y} ,\mathbf {X} ),$ ${\mathcal {N}}\left({\boldsymbol {\mu }}_{n},\sigma ^{2}{\boldsymbol {\Lambda }}_{n}^{-1}\right)\,$ ${\text{Inv-Gamma}}\left(a_{n},b_{n}\right)$

${\boldsymbol {\Lambda }}_{n}=(\mathbf {X} ^{\mathsf {T}}\mathbf {X} +\mathbf {\Lambda } _{0}),\quad {\boldsymbol {\mu }}_{n}=({\boldsymbol {\Lambda }}_{n})^{-1}(\mathbf {X} ^{\mathsf {T}}\mathbf {X} {\hat {\boldsymbol {\beta }}}+{\boldsymbol {\Lambda }}_{0}{\boldsymbol {\mu }}_{0}),$ $a_{n}=a_{0}+{\frac {n}{2}},\qquad b_{n}=b_{0}+{\frac {1}{2}}(\mathbf {y} ^{\mathsf {T}}\mathbf {y} +{\boldsymbol {\mu }}_{0}^{\mathsf {T}}{\boldsymbol {\Lambda }}_{0}{\boldsymbol {\mu }}_{0}-{\boldsymbol {\mu }}_{n}^{\mathsf {T}}{\boldsymbol {\Lambda }}_{n}{\boldsymbol {\mu }}_{n}).$

что иллюстрирует байесовский вывод как компромисс между информацией, содержащейся в априорной информации, и информацией, содержащейся в выборке.

Модель доказательства

Доказательство модели — это вероятность данных, заданных моделью . Оно также известно как предельное правдоподобие и как априорная прогностическая плотность . Здесь модель определяется функцией правдоподобия и априорным распределением параметров, то есть . Доказательство модели фиксирует в одном числе, насколько хорошо такая модель объясняет наблюдения. Доказательство модели байесовской линейной регрессионной модели, представленное в этом разделе, может быть использовано для сравнения конкурирующих линейных моделей с помощью сравнения байесовских моделей . Эти модели могут различаться по количеству и значениям предикторных переменных, а также по их априорным данным по параметрам модели. Сложность модели уже учтена доказательством модели, поскольку оно маргинализирует параметры путем интегрирования по всем возможным значениям и . Этот интеграл можно вычислить аналитически, а решение дано в следующем уравнении. ^[5] $p(\mathbf {y} \mid m)$ $m$ $p(\mathbf {y} \mid \mathbf {X} ,{\boldsymbol {\beta }},\sigma )$ $p({\boldsymbol {\beta }},\sigma )$ $p(\mathbf {y} ,{\boldsymbol {\beta }},\sigma \mid \mathbf {X} )$ ${\boldsymbol {\beta }}$ $\sigma$ $p(\mathbf {y} |m)=\int p(\mathbf {y} \mid \mathbf {X} ,{\boldsymbol {\beta }},\sigma )\,p({\boldsymbol {\beta }},\sigma )\,d{\boldsymbol {\beta }}\,d\sigma$ $p(\mathbf {y} \mid m)={\frac {1}{(2\pi )^{n/2}}}{\sqrt {\frac {\det({\boldsymbol {\Lambda }}_{0})}{\det({\boldsymbol {\Lambda }}_{n})}}}\cdot {\frac {b_{0}^{a_{0}}}{b_{n}^{a_{n}}}}\cdot {\frac {\Gamma (a_{n})}{\Gamma (a_{0})}}$

Здесь обозначает гамма-функцию . Поскольку мы выбрали сопряженную априорную вероятность, предельное правдоподобие также можно легко вычислить, оценив следующее равенство для произвольных значений и . Обратите внимание, что это уравнение есть не что иное, как перестановка теоремы Байеса . Подстановка формул для априорной вероятности, правдоподобия и апостериорной вероятности и упрощение полученного выражения приводит к аналитическому выражению, приведенному выше. $\Gamma$ ${\boldsymbol {\beta }}$ $\sigma$ $p(\mathbf {y} \mid m)={\frac {p({\boldsymbol {\beta }},\sigma |m)\,p(\mathbf {y} \mid \mathbf {X} ,{\boldsymbol {\beta }},\sigma ,m)}{p({\boldsymbol {\beta }},\sigma \mid \mathbf {y} ,\mathbf {X} ,m)}}$

Другие случаи

В общем случае может быть невозможно или непрактично вывести апостериорное распределение аналитически. Однако возможно аппроксимировать апостериорное распределение с помощью метода приближенного байесовского вывода, такого как выборка Монте-Карло , ^[6] INLA или вариационный Байес .

Особый случай называется гребневой регрессией . ${\boldsymbol {\mu }}_{0}=0,\mathbf {\Lambda } _{0}=c\mathbf {I}$

Аналогичный анализ может быть выполнен для общего случая многомерной регрессии, и часть его обеспечивает байесовскую оценку ковариационных матриц : см. Байесовская многомерная линейная регрессия .

Смотрите также

Примечания

↑ См. Джекман (2009), стр. 101.
^ См. Гельман и др. (2013), стр. 354.
^ Промежуточные этапы этого вычисления можно найти в работе О'Хагана (1994) в начале главы «Линейные модели».
^ Промежуточные этапы описаны в работе Fahrmeir et al. (2009) на стр. 188.
^ Промежуточные этапы этого вычисления можно найти в книге О'Хагана (1994) на стр. 257.
^ Карлин и Луис (2008) и Гельман и др. (2003) объясняют, как использовать методы выборки для байесовской линейной регрессии.

Ссылки

Бокс, GEP ; Тиао, GC (1973). Байесовский вывод в статистическом анализе . Wiley. ISBN 0-471-57428-7.
Карлин, Брэдли П.; Луис, Томас А. (2008). Байесовские методы анализа данных (третье изд.). Бока-Ратон, Флорида: Chapman and Hall/CRC. ISBN 1-58488-697-8.
Фармейр, Л.; Кнейб, Т.; Ланг, С. (2009). Регрессия. Modelle, Methoden und Anwendungen (второе изд.). Гейдельберг: Спрингер. дои : 10.1007/978-3-642-01837-4. ISBN 978-3-642-01836-7.
Гельман, Эндрю и др. (2013). «Введение в регрессионные модели». Байесовский анализ данных (третье изд.). Бока-Ратон, Флорида: Chapman and Hall/CRC. стр. 353–380. ISBN 978-1-4398-4095-5.
Джекман, Саймон (2009). «Регрессионные модели». Байесовский анализ для социальных наук . Wiley. С. 99–124. ISBN 978-0-470-01154-6.
Росси, Питер Э.; Алленби, Грег М.; Маккалок, Роберт (2006). Байесовская статистика и маркетинг . John Wiley & Sons. ISBN 0470863676.
О'Хаган, Энтони (1994). Байесовский вывод . Расширенная теория статистики Кендалла. Т. 2B (Первое издание). Холстед. ISBN 0-340-52922-9.

Внешние ссылки

Байесовская оценка линейных моделей (Wikibook по программированию на языке R). Байесовская линейная регрессия, реализованная в R.