Байесовская линейная регрессия

Байесовская линейная регрессия — это тип условного моделирования , при котором среднее значение одной переменной описывается линейной комбинацией других переменных с целью получения апостериорной вероятности коэффициентов регрессии (а также других параметров, описывающих распределение регрессии ). ) и, в конечном итоге, позволяет прогнозировать регрессию за пределами выборки (часто обозначаемую ) при условии наблюдаемых значений регрессоров (обычно ). Самой простой и наиболее широко используемой версией этой модели является нормальная линейная модель , в которой данное распределено по Гауссу . В этой модели и при определенном выборе априорных вероятностей параметров — так называемых сопряженных априорных вероятностей — апостериорная вероятность может быть найдена аналитически. При более произвольно выбранных априорных значениях апостериорные значения обычно приходится аппроксимировать. $y$ $X$ $y$ $X$

Настройка модели

Рассмотрим стандартную задачу линейной регрессии , в которой мы указываем среднее значение условного распределения заданного вектора -предиктора : $i=1,\ldots ,n$ $y_{i}$ $k\times 1$ $\mathbf {x} _{i}$

y_{i}=\mathbf {x} _{i}^{\mathsf {T}}{\boldsymbol {\beta }}+\varepsilon _{i},

где – вектор, а – независимые и одинаково нормально распределенные случайные величины: ${\boldsymbol {\beta }}$ $k\times 1$ $\varepsilon _{i}$

\varepsilon _{i}\sim N(0,\sigma ^{2}).

Это соответствует следующей функции правдоподобия :

\rho (\mathbf {y} \mid \mathbf {X} ,{\boldsymbol {\beta }},\sigma ^{2})\propto (\sigma ^{2})^{-n/2}\exp \left(-{\frac {1}{2\sigma ^{2}}}(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})^{\mathsf {T}}(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})\right).

Обычное решение методом наименьших квадратов используется для оценки вектора коэффициентов с использованием псевдообратного метода Мура – Пенроуза :

{\hat {\boldsymbol {\beta }}}=(\mathbf {X} ^{\mathsf {T}}\mathbf {X} )^{-1}\mathbf {X} ^{\mathsf {T}}\mathbf {y}

где – матрица плана , каждая строка которой представляет собой вектор-предиктор ; и является вектором - столбцом . $\mathbf {X}$ $n\times k$ $\mathbf {x} _{i}^{\mathsf {T}}$ $\mathbf {y}$ $n$ $[y_{1}\;\cdots \;y_{n}]^{\mathsf {T}}$

Это частотный подход, который предполагает, что имеется достаточно измерений, чтобы сказать что-то значимое о . В байесовском подходе данные дополняются дополнительной информацией в виде априорного распределения вероятностей . Априорное убеждение о параметрах объединяется с функцией правдоподобия данных согласно теореме Байеса , чтобы получить апостериорное убеждение о параметрах и . Априорное значение может принимать различные функциональные формы в зависимости от предметной области и информации, которая доступна априорно . ${\boldsymbol {\beta }}$ ${\boldsymbol {\beta }}$ $\sigma$

Поскольку данные включают в себя как и , основное внимание уделяется только распределению при условии обоснования потребностей. Фактически, «полный» байесовский анализ потребовал бы совместного правдоподобия вместе с априорным значением , где символизирует параметры распределения для . Только в предположении (слабой) экзогенности можно учитывать совместную вероятность . ^[1] Последняя часть обычно игнорируется в предположении непересекающихся наборов параметров. Более того, при классических предположениях считается выбранным (например, в спланированном эксперименте) и, следовательно, имеет известную вероятность без параметров. ^[2] $\mathbf {y}$ $\mathbf {X}$ $\mathbf {y}$ $\mathbf {X}$ $\rho (\mathbf {y} ,\mathbf {X} \mid {\boldsymbol {\beta }},\sigma ^{2},\gamma )$ $\rho (\beta ,\sigma ^{2},\gamma )$ $\gamma$ $\mathbf {X}$ $\rho (\mathbf {y} \mid {\boldsymbol {\mathbf {X} }},\beta ,\sigma ^{2})\rho (\mathbf {X} \mid \gamma )$ $\mathbf {X}$

С сопряженными априорами

Сопряженное априорное распределение

Для произвольного априорного распределения может не существовать аналитического решения для апостериорного распределения . В этом разделе мы рассмотрим так называемое сопряженное априорное распределение , для которого апостериорное распределение можно получить аналитически.

Априорная функция сопряжена с этой функцией правдоподобия , если она имеет одинаковую функциональную форму относительно и . Поскольку логарифмическое правдоподобие квадратично в , логарифмическое правдоподобие перезаписывается так, что правдоподобие становится нормальным в . Писать $\rho ({\boldsymbol {\beta }},\sigma ^{2})$ ${\boldsymbol {\beta }}$ $\sigma$ ${\boldsymbol {\beta }}$ $({\boldsymbol {\beta }}-{\hat {\boldsymbol {\beta }}})$

{\begin{aligned}(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})^{\mathsf {T}}(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})&=[(\mathbf {y} -\mathbf {X} {\hat {\boldsymbol {\beta }}})+(\mathbf {X} {\hat {\boldsymbol {\beta }}}-\mathbf {X} {\boldsymbol {\beta }})]^{\mathsf {T}}[(\mathbf {y} -\mathbf {X} {\hat {\boldsymbol {\beta }}})+(\mathbf {X} {\hat {\boldsymbol {\beta }}}-\mathbf {X} {\boldsymbol {\beta }})]\\&=(\mathbf {y} -\mathbf {X} {\hat {\boldsymbol {\beta }}})^{\mathsf {T}}(\mathbf {y} -\mathbf {X} {\hat {\boldsymbol {\beta }}})+({\boldsymbol {\beta }}-{\hat {\boldsymbol {\beta }}})^{\mathsf {T}}(\mathbf {X} ^{\mathsf {T}}\mathbf {X} )({\boldsymbol {\beta }}-{\hat {\boldsymbol {\beta }}})+\underbrace {2(\mathbf {X} {\hat {\boldsymbol {\beta }}}-\mathbf {X} {\boldsymbol {\beta }})^{\mathsf {T}}(\mathbf {y} -\mathbf {X} {\hat {\boldsymbol {\beta }}})} _{=\ 0}\\&=(\mathbf {y} -\mathbf {X} {\hat {\boldsymbol {\beta }}})^{\mathsf {T}}(\mathbf {y} -\mathbf {X} {\hat {\boldsymbol {\beta }}})+({\boldsymbol {\beta }}-{\hat {\boldsymbol {\beta }}})^{\mathsf {T}}(\mathbf {X} ^{\mathsf {T}}\mathbf {X} )({\boldsymbol {\beta }}-{\hat {\boldsymbol {\beta }}})\,.\end{aligned}}

Вероятность теперь переписывается как

\rho (\mathbf {y} |\mathbf {X} ,{\boldsymbol {\beta }},\sigma ^{2})\propto (\sigma ^{2})^{-{\frac {v}{2}}}\exp \left(-{\frac {vs^{2}}{2{\sigma }^{2}}}\right)(\sigma ^{2})^{-{\frac {n-v}{2}}}\exp \left(-{\frac {1}{2{\sigma }^{2}}}({\boldsymbol {\beta }}-{\hat {\boldsymbol {\beta }}})^{\mathsf {T}}(\mathbf {X} ^{\mathsf {T}}\mathbf {X} )({\boldsymbol {\beta }}-{\hat {\boldsymbol {\beta }}})\right),

vs^{2}=(\mathbf {y} -\mathbf {X} {\hat {\boldsymbol {\beta }}})^{\mathsf {T}}(\mathbf {y} -\mathbf {X} {\hat {\boldsymbol {\beta }}})\quad {\text{ and }}\quad v=n-k,

k

Это предполагает форму предшествующего:

\rho ({\boldsymbol {\beta }},\sigma ^{2})=\rho (\sigma ^{2})\rho ({\boldsymbol {\beta }}\mid \sigma ^{2}),

обратное гамма-распределение

\rho (\sigma ^{2})

\rho (\sigma ^{2})\propto (\sigma ^{2})^{-{\frac {v_{0}}{2}}-1}\exp \left(-{\frac {v_{0}s_{0}^{2}}{2\sigma ^{2}}}\right).

В обозначениях, введенных в статье об обратном гамма-распределении , это плотность распределения с и с и как априорные значения и соответственно. Эквивалентно, его также можно описать как масштабированное обратное распределение хи-квадрат : ${\text{Inv-Gamma}}(a_{0},b_{0})$ $a_{0}={\tfrac {v_{0}}{2}}$ $b_{0}={\tfrac {1}{2}}v_{0}s_{0}^{2}$ $v_{0}$ $s_{0}^{2}$ $v$ $s^{2}$ ${\text{Scale-inv-}}\chi ^{2}(v_{0},s_{0}^{2}).$

Далее условная априорная плотность является нормальным распределением , $\rho ({\boldsymbol {\beta }}|\sigma ^{2})$

\rho ({\boldsymbol {\beta }}\mid \sigma ^{2})\propto (\sigma ^{2})^{-k/2}\exp \left(-{\frac {1}{2\sigma ^{2}}}({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{0})^{\mathsf {T}}\mathbf {\Lambda } _{0}({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{0})\right).

В обозначениях нормального распределения условное априорное распределение имеет вид ${\mathcal {N}}\left({\boldsymbol {\mu }}_{0},\sigma ^{2}{\boldsymbol {\Lambda }}_{0}^{-1}\right).$

Заднее распределение

Теперь, когда априорное значение указано, апостериорное распределение можно выразить как

{\begin{aligned}\rho ({\boldsymbol {\beta }},\sigma ^{2}\mid \mathbf {y} ,\mathbf {X} )&\propto \rho (\mathbf {y} \mid \mathbf {X} ,{\boldsymbol {\beta }},\sigma ^{2})\rho ({\boldsymbol {\beta }}\mid \sigma ^{2})\rho (\sigma ^{2})\\&\propto (\sigma ^{2})^{-n/2}\exp \left(-{\frac {1}{2{\sigma }^{2}}}(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})^{\mathsf {T}}(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})\right)(\sigma ^{2})^{-k/2}\exp \left(-{\frac {1}{2\sigma ^{2}}}({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{0})^{\mathsf {T}}{\boldsymbol {\Lambda }}_{0}({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{0})\right)(\sigma ^{2})^{-(a_{0}+1)}\exp \left(-{\frac {b_{0}}{\sigma ^{2}}}\right)\end{aligned}}

После некоторой перестановки ^[3] апостериорное значение можно переписать так, чтобы апостериорное среднее вектора параметров можно было выразить через оценку наименьших квадратов и априорное среднее , причем сила априорного значения указывается априорным значением. прецизионная матрица ${\boldsymbol {\mu }}_{n}$ ${\boldsymbol {\beta }}$ ${\hat {\boldsymbol {\beta }}}$ ${\boldsymbol {\mu }}_{0}$ ${\boldsymbol {\Lambda }}_{0}$

{\boldsymbol {\mu }}_{n}=(\mathbf {X} ^{\mathsf {T}}\mathbf {X} +{\boldsymbol {\Lambda }}_{0})^{-1}(\mathbf {X} ^{\mathsf {T}}\mathbf {X} {\hat {\boldsymbol {\beta }}}+{\boldsymbol {\Lambda }}_{0}{\boldsymbol {\mu }}_{0}).

Чтобы оправдать, что это действительно апостериорное среднее, квадратичные члены в экспоненте можно переставить в квадратичную форму в . ^[4] ${\boldsymbol {\mu }}_{n}$ ${\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{n}$

(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})^{\mathsf {T}}(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})+({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{0})^{\mathsf {T}}{\boldsymbol {\Lambda }}_{0}({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{0})=({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{n})^{\mathsf {T}}(\mathbf {X} ^{\mathsf {T}}\mathbf {X} +{\boldsymbol {\Lambda }}_{0})({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{n})+\mathbf {y} ^{\mathsf {T}}\mathbf {y} -{\boldsymbol {\mu }}_{n}^{\mathsf {T}}(\mathbf {X} ^{\mathsf {T}}\mathbf {X} +{\boldsymbol {\Lambda }}_{0}){\boldsymbol {\mu }}_{n}+{\boldsymbol {\mu }}_{0}^{\mathsf {T}}{\boldsymbol {\Lambda }}_{0}{\boldsymbol {\mu }}_{0}.

Теперь апостериорное распределение можно выразить как произведение нормального распределения на обратное гамма-распределение :

\rho ({\boldsymbol {\beta }},\sigma ^{2}\mid \mathbf {y} ,\mathbf {X} )\propto (\sigma ^{2})^{-k/2}\exp \left(-{\frac {1}{2{\sigma }^{2}}}({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{n})^{\mathsf {T}}(\mathbf {X} ^{\mathsf {T}}\mathbf {X} +\mathbf {\Lambda } _{0})({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{n})\right)(\sigma ^{2})^{-{\frac {n+2a_{0}}{2}}-1}\exp \left(-{\frac {2b_{0}+\mathbf {y} ^{\mathsf {T}}\mathbf {y} -{\boldsymbol {\mu }}_{n}^{\mathsf {T}}(\mathbf {X} ^{\mathsf {T}}\mathbf {X} +{\boldsymbol {\Lambda }}_{0}){\boldsymbol {\mu }}_{n}+{\boldsymbol {\mu }}_{0}^{\mathsf {T}}{\boldsymbol {\Lambda }}_{0}{\boldsymbol {\mu }}_{0}}{2\sigma ^{2}}}\right).

Следовательно, апостериорное распределение можно параметризовать следующим образом.

\rho ({\boldsymbol {\beta }},\sigma ^{2}\mid \mathbf {y} ,\mathbf {X} )\propto \rho ({\boldsymbol {\beta }}\mid \sigma ^{2},\mathbf {y} ,\mathbf {X} )\rho (\sigma ^{2}\mid \mathbf {y} ,\mathbf {X} ),

{\mathcal {N}}\left({\boldsymbol {\mu }}_{n},\sigma ^{2}{\boldsymbol {\Lambda }}_{n}^{-1}\right)\,

{\text{Inv-Gamma}}\left(a_{n},b_{n}\right)

{\boldsymbol {\Lambda }}_{n}=(\mathbf {X} ^{\mathsf {T}}\mathbf {X} +\mathbf {\Lambda } _{0}),\quad {\boldsymbol {\mu }}_{n}=({\boldsymbol {\Lambda }}_{n})^{-1}(\mathbf {X} ^{\mathsf {T}}\mathbf {X} {\hat {\boldsymbol {\beta }}}+{\boldsymbol {\Lambda }}_{0}{\boldsymbol {\mu }}_{0}),

a_{n}=a_{0}+{\frac {n}{2}},\qquad b_{n}=b_{0}+{\frac {1}{2}}(\mathbf {y} ^{\mathsf {T}}\mathbf {y} +{\boldsymbol {\mu }}_{0}^{\mathsf {T}}{\boldsymbol {\Lambda }}_{0}{\boldsymbol {\mu }}_{0}-{\boldsymbol {\mu }}_{n}^{\mathsf {T}}{\boldsymbol {\Lambda }}_{n}{\boldsymbol {\mu }}_{n}).

который иллюстрирует, что байесовский вывод является компромиссом между информацией, содержащейся в априоре, и информацией, содержащейся в выборке.

Модель доказательства

Доказательством модели является вероятность данных с учетом модели . Он также известен как предельное правдоподобие и априорная плотность прогнозирования . Здесь модель определяется функцией правдоподобия и априорным распределением параметров, т.е. Доказательства модели отражают в одном числе, насколько хорошо такая модель объясняет наблюдения. Доказательства модели байесовской линейной регрессии, представленные в этом разделе, можно использовать для сравнения конкурирующих линейных моделей путем сравнения байесовских моделей . Эти модели могут различаться количеством и значениями переменных-предсказателей, а также их априорными значениями параметров модели. Сложность модели уже учтена в доказательствах модели, поскольку она исключает параметры путем интегрирования по всем возможным значениям и . $p(\mathbf {y} \mid m)$ $m$ $p(\mathbf {y} \mid \mathbf {X} ,{\boldsymbol {\beta }},\sigma )$ $p({\boldsymbol {\beta }},\sigma )$ $p(\mathbf {y} ,{\boldsymbol {\beta }},\sigma \mid \mathbf {X} )$ ${\boldsymbol {\beta }}$ $\sigma$

p(\mathbf {y} |m)=\int p(\mathbf {y} \mid \mathbf {X} ,{\boldsymbol {\beta }},\sigma )\,p({\boldsymbol {\beta }},\sigma )\,d{\boldsymbol {\beta }}\,d\sigma

^[5]

p(\mathbf {y} \mid m)={\frac {1}{(2\pi )^{n/2}}}{\sqrt {\frac {\det({\boldsymbol {\Lambda }}_{0})}{\det({\boldsymbol {\Lambda }}_{n})}}}\cdot {\frac {b_{0}^{a_{0}}}{b_{n}^{a_{n}}}}\cdot {\frac {\Gamma (a_{n})}{\Gamma (a_{0})}}

Здесь обозначает гамма-функцию . Поскольку мы выбрали сопряженный априор, предельное правдоподобие также можно легко вычислить, вычислив следующее равенство для произвольных значений и . $\Gamma$ ${\boldsymbol {\beta }}$ $\sigma$

p(\mathbf {y} \mid m)={\frac {p({\boldsymbol {\beta }},\sigma |m)\,p(\mathbf {y} \mid \mathbf {X} ,{\boldsymbol {\beta }},\sigma ,m)}{p({\boldsymbol {\beta }},\sigma \mid \mathbf {y} ,\mathbf {X} ,m)}}

теоремы Байеса

Другие случаи

В общем, аналитическое выведение апостериорного распределения может оказаться невозможным или непрактичным. Тем не менее, можно аппроксимировать апостериорный метод приближенным байесовским выводом , таким как выборка Монте-Карло ^[6] или вариационный Байес .

Особый случай называется гребневой регрессией . ${\boldsymbol {\mu }}_{0}=0,\mathbf {\Lambda } _{0}=c\mathbf {I}$

Подобный анализ может быть выполнен для общего случая многомерной регрессии, и частично он обеспечивает байесовскую оценку ковариационных матриц : см. Байесовскую многомерную линейную регрессию .

Смотрите также

Примечания

^ См. Джекман (2009), с. 101.
^ См. Гельман и др. (2013), с. 354.
^ Промежуточные этапы этого вычисления можно найти у О'Хагана (1994) в начале главы, посвященной линейным моделям.
^ Промежуточные этапы описаны у Fahrmeir et al. (2009) на странице 188.
^ Промежуточные этапы этого вычисления можно найти у О'Хагана (1994) на странице 257.
^ Карлин и Луи (2008) и Гельман и др. (2003) объясняют, как использовать методы выборки для байесовской линейной регрессии.

Внешние ссылки

Байесовская оценка линейных моделей (викибук по программированию на R). Байесовская линейная регрессия, реализованная в R.