Метод статистического анализа
Байесовская линейная регрессия — это тип условного моделирования , при котором среднее значение одной переменной описывается линейной комбинацией других переменных с целью получения апостериорной вероятности коэффициентов регрессии (а также других параметров, описывающих распределение регрессии ). ) и, в конечном итоге, позволяет прогнозировать регрессию за пределами выборки (часто обозначаемую ) при условии наблюдаемых значений регрессоров (обычно ). Самой простой и наиболее широко используемой версией этой модели является нормальная линейная модель , в которой данное распределено по Гауссу . В этой модели и при определенном выборе априорных вероятностей параметров — так называемых сопряженных априорных вероятностей — апостериорная вероятность может быть найдена аналитически. При более произвольно выбранных априорных значениях апостериорные значения обычно приходится аппроксимировать.![{\displaystyle y}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle X}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle y}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle X}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Настройка модели
Рассмотрим стандартную задачу линейной регрессии , в которой мы указываем среднее значение условного распределения заданного вектора -предиктора :![{\ displaystyle i = 1, \ ldots, n}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle y_{i}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle k\times 1}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \mathbf {x} _{i}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle y_{i}=\mathbf {x} _{i}^{\mathsf {T}}{\boldsymbol {\beta }}+\varepsilon _{i},}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
где – вектор, а – независимые и одинаково нормально распределенные случайные величины:![{\displaystyle {\boldsymbol {\beta }}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle k\times 1}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \varepsilon _ {i} \sim N (0, \ sigma ^ {2}).}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Это соответствует следующей функции правдоподобия :
![{\displaystyle \rho (\mathbf {y} \mid \mathbf {X}, {\boldsymbol {\beta }},\sigma ^{2})\propto (\sigma ^{2})^{-n/ 2}\exp \left(-{\frac {1}{2\sigma ^{2}}}(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})^{\mathsf { T}}(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})\right).}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Обычное решение методом наименьших квадратов используется для оценки вектора коэффициентов с использованием псевдообратного метода Мура – Пенроуза :
![{\displaystyle {\hat {\boldsymbol {\beta }}}=(\mathbf {X} ^{\mathsf {T}}\mathbf {X})^{-1}\mathbf {X} ^{\mathsf {T}}\mathbf {y} }](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
где – матрица плана , каждая строка которой представляет собой вектор-предиктор ; и является вектором - столбцом .![{\displaystyle \mathbf {X} }](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \mathbf {x} _{i}^{\mathsf {T}}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \mathbf {y} }](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle п}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle [y_{1}\;\cdots \;y_{n}]^{\mathsf {T}}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Это частотный подход, который предполагает, что имеется достаточно измерений, чтобы сказать что-то значимое о . В байесовском подходе данные дополняются дополнительной информацией в виде априорного распределения вероятностей . Априорное убеждение о параметрах объединяется с функцией правдоподобия данных согласно теореме Байеса , чтобы получить апостериорное убеждение о параметрах и . Априорное значение может принимать различные функциональные формы в зависимости от предметной области и информации, которая доступна априорно .![{\displaystyle {\boldsymbol {\beta }}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle {\boldsymbol {\beta }}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\ displaystyle \ сигма }](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Поскольку данные включают в себя как и , основное внимание уделяется только распределению при условии обоснования потребностей. Фактически, «полный» байесовский анализ потребовал бы совместного правдоподобия вместе с априорным значением , где символизирует параметры распределения для . Только в предположении (слабой) экзогенности можно учитывать совместную вероятность . [1] Последняя часть обычно игнорируется в предположении непересекающихся наборов параметров. Более того, при классических предположениях считается выбранным (например, в спланированном эксперименте) и, следовательно, имеет известную вероятность без параметров. [2]![{\displaystyle \mathbf {y} }](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \mathbf {X} }](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \mathbf {y} }](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \mathbf {X} }](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \rho (\mathbf {y},\mathbf {X} \mid {\boldsymbol {\beta }},\sigma ^{2},\gamma)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \rho (\beta,\sigma ^{2},\gamma)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \гамма }](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \mathbf {X} }](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \rho (\mathbf {y} \mid {\boldsymbol {\mathbf {X}}},\beta,\sigma ^{2})\rho (\mathbf {X} \mid \gamma)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \mathbf {X} }](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
С сопряженными априорами
Сопряженное априорное распределение
Для произвольного априорного распределения может не существовать аналитического решения для апостериорного распределения . В этом разделе мы рассмотрим так называемое сопряженное априорное распределение , для которого апостериорное распределение можно получить аналитически.
Априорная функция сопряжена с этой функцией правдоподобия , если она имеет одинаковую функциональную форму относительно и . Поскольку логарифмическое правдоподобие квадратично в , логарифмическое правдоподобие перезаписывается так, что правдоподобие становится нормальным в . Писать![{\displaystyle \rho ({\boldsymbol {\beta }},\sigma ^{2})}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle {\boldsymbol {\beta }}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\ displaystyle \ сигма }](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle {\boldsymbol {\beta }}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle ({\boldsymbol {\beta }}-{\hat {\boldsymbol {\beta }}})}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle {\begin{aligned}(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})^{\mathsf {T}}(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})&=[(\mathbf {y} -\mathbf {X} {\hat {\boldsymbol {\beta }}})+(\mathbf {X} {\hat {\boldsymbol {\beta }}}-\mathbf {X} {\boldsymbol {\beta }})]^{\mathsf {T}}[(\mathbf {y} -\mathbf {X} {\hat {\boldsymbol { \beta }}})+(\mathbf {X} {\hat {\boldsymbol {\beta }}}-\mathbf {X} {\boldsymbol {\beta }})]\\&=(\mathbf {y } -\mathbf {X} {\hat {\boldsymbol {\beta }}})^{\mathsf {T}}(\mathbf {y} -\mathbf {X} {\hat {\boldsymbol {\beta } }})+({\boldsymbol {\beta }}-{\hat {\boldsymbol {\beta }}})^{\mathsf {T}}(\mathbf {X} ^{\mathsf {T}}\ mathbf {X} )({\boldsymbol {\beta }}-{\hat {\boldsymbol {\beta }}})+\underbrace {2(\mathbf {X} {\hat {\boldsymbol {\beta }} }-\mathbf {X} {\boldsymbol {\beta }})^{\mathsf {T}}(\mathbf {y} -\mathbf {X} {\hat {\boldsymbol {\beta }}})} _ {=\ 0}\\&=(\mathbf {y} -\mathbf {X} {\hat {\boldsymbol {\beta }}})^{\mathsf {T}}(\mathbf {y} - \mathbf {X} {\hat {\boldsymbol {\beta }}})+({\boldsymbol {\beta }} - {\hat {\boldsymbol {\beta }}})^{\mathsf {T}} (\mathbf {X} ^{\mathsf {T}}\mathbf {X} )({\boldsymbol {\beta }}-{\hat {\boldsymbol {\beta }}})\,.\end{aligned }}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Вероятность теперь переписывается как
![{\displaystyle \rho (\mathbf {y} |\mathbf {X}, {\boldsymbol {\beta }},\sigma ^{2})\propto (\sigma ^{2})^{- {\frac {v}{2}}}\exp \left(-{\frac {vs^{2}}{2{\sigma }^{2}}}\right)(\sigma ^{2})^{- {\frac {nv}{2}}}\exp \left(-{\frac {1}{2{\sigma }^{2}}}({\boldsymbol {\beta }}-{\hat {\ полужирный символ {\beta }}})^{\mathsf {T}}(\mathbf {X} ^{\mathsf {T}}\mathbf {X} )({\boldsymbol {\beta }}-{\hat { \boldsymbol {\beta }}})\right),}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle vs^{2}=(\mathbf {y} -\mathbf {X} {\hat {\boldsymbol {\beta }}})^{\mathsf {T}}(\mathbf {y} -\ mathbf {X} {\hat {\boldsymbol {\beta }}})\quad {\text{ и }}\quad v=nk,}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle k}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Это предполагает форму предшествующего:
![{\displaystyle \rho ({\boldsymbol {\beta }},\sigma ^{2})=\rho (\sigma ^{2})\rho ({\boldsymbol {\beta }}\mid \sigma ^{ 2}),}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
обратное гамма-распределение![{\displaystyle \rho (\sigma ^{2})}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \rho (\sigma ^{2})\propto (\sigma ^{2})^{-{\frac {v_{0}}{2}}-1}\exp \left(- {\ frac {v_{0}s_{0}^{2}}{2\sigma ^{2}}}\right).}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
В обозначениях, введенных в статье об обратном гамма-распределении , это плотность распределения с и с и как априорные значения и соответственно. Эквивалентно, его также можно описать как масштабированное обратное распределение хи-квадрат :![{\displaystyle {\text{Inv-Gamma}}(a_{0},b_{0})}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle a_{0}={\tfrac {v_{0}}{2}}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle b_{0}={\tfrac {1}{2}}v_{0}s_{0}^{2}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle v_{0}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle s_{0}^{2}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle v}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle s^{2}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle {\text{Scale-inv-}}\chi ^{2}(v_{0},s_{0}^{2}).}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Далее условная априорная плотность является нормальным распределением ,![{\displaystyle \rho ({\boldsymbol {\beta }}|\sigma ^{2})}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \rho ({\boldsymbol {\beta }}\mid \sigma ^{2})\propto (\sigma ^{2})^{-k/2}\exp \left(-{\frac { 1}{2\sigma ^{2}}}({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{0})^{\mathsf {T}}\mathbf {\Lambda } _ {0}({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{0})\right).}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
В обозначениях нормального распределения условное априорное распределение имеет вид![{\displaystyle {\mathcal {N}}\left({\boldsymbol {\mu }}_{0},\sigma ^{2}{\boldsymbol {\Lambda }}_{0}^{-1}\ верно).}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Заднее распределение
Теперь, когда априорное значение указано, апостериорное распределение можно выразить как
![{\displaystyle {\begin{aligned}\rho ({\boldsymbol {\beta }},\sigma ^{2}\mid \mathbf {y},\mathbf {X}) &\propto \rho (\mathbf { y} \mid \mathbf {X} ,{\boldsymbol {\beta }},\sigma ^{2})\rho ({\boldsymbol {\beta }}\mid \sigma ^{2})\rho (\ сигма ^{2})\\&\propto (\sigma ^{2})^{-n/2}\exp \left(-{\frac {1}{2{\sigma }^{2}}} (\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})^{\mathsf {T}}(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }}) \right)(\sigma ^{2})^{-k/2}\exp \left(-{\frac {1}{2\sigma ^{2}}}({\boldsymbol {\beta }}- {\boldsymbol {\mu }}_{0})^{\mathsf {T}}{\boldsymbol {\Lambda }}_{0}({\boldsymbol {\beta }}-{\boldsymbol {\mu } }_{0})\right)(\sigma ^{2})^{-(a_{0}+1)}\exp \left(-{\frac {b_{0}}{\sigma ^{2 }}}\right)\end{aligned}}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
После некоторой перестановки [3] апостериорное значение можно переписать так, чтобы апостериорное среднее вектора параметров можно было выразить через оценку наименьших квадратов и априорное среднее , причем сила априорного значения указывается априорным значением. прецизионная матрица![{\displaystyle {\boldsymbol {\mu }}_{n}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle {\boldsymbol {\beta }}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle {\hat {\boldsymbol {\beta }}}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle {\boldsymbol {\mu }}_{0}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle {\boldsymbol {\Lambda }}_{0}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle {\boldsymbol {\mu }}_{n}=(\mathbf {X} ^{\mathsf {T}}\mathbf {X} + {\boldsymbol {\Lambda }}_{0})^ {-1}(\mathbf {X} ^{\mathsf {T}}\mathbf {X} {\hat {\boldsymbol {\beta }}}+{\boldsymbol {\Lambda }}_{0}{\ жирный символ {\mu }}_{0}).}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Чтобы оправдать, что это действительно апостериорное среднее, квадратичные члены в экспоненте можно переставить в квадратичную форму в . [4]![{\displaystyle {\boldsymbol {\mu }}_{n}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle {\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{n}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle (\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})^{\mathsf {T}}(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})+({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{0})^{\mathsf {T}}{\boldsymbol {\Lambda }}_{0}({\ Boldsymbol {\beta }}-{\boldsymbol {\mu }}_{0})=({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{n})^{\mathsf {T }}(\mathbf {X} ^{\mathsf {T}}\mathbf {X} +{\boldsymbol {\Lambda }}_{0})({\boldsymbol {\beta }}-{\boldsymbol {\ mu }}_{n})+\mathbf {y} ^{\mathsf {T}}\mathbf {y} -{\boldsymbol {\mu }}_{n}^{\mathsf {T}}(\ mathbf {X} ^{\mathsf {T}}\mathbf {X} +{\boldsymbol {\Lambda }}_{0}){\boldsymbol {\mu }}_{n}+{\boldsymbol {\mu }}_{0}^{\mathsf {T}}{\boldsymbol {\Lambda }}_{0}{\boldsymbol {\mu }}_{0}.}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Теперь апостериорное распределение можно выразить как произведение нормального распределения на обратное гамма-распределение :
![{\displaystyle \rho ({\boldsymbol {\beta }},\sigma ^{2} \mid \mathbf {y},\mathbf {X})\propto (\sigma ^{2})^{-k/ 2}\exp \left(-{\frac {1}{2{\sigma }^{2}}}({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{n})^ {\mathsf {T}}(\mathbf {X} ^{\mathsf {T}}\mathbf {X} +\mathbf {\Lambda } _{0})({\boldsymbol {\beta }}-{\ жирный символ {\mu }}_{n})\right)(\sigma ^{2})^{- {\frac {n+2a_{0}}{2}}-1}\exp \left(-{ \frac {2b_{0}+\mathbf {y} ^{\mathsf {T}}\mathbf {y} -{\boldsymbol {\mu }}_{n}^{\mathsf {T}}(\mathbf {X} ^{\mathsf {T}}\mathbf {X} +{\boldsymbol {\Lambda }}_{0}){\boldsymbol {\mu }}_{n}+{\boldsymbol {\mu } }_{0}^{\mathsf {T}}{\boldsymbol {\Lambda }}_{0}{\boldsymbol {\mu }}_{0}}{2\sigma ^{2}}}\right ).}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Следовательно, апостериорное распределение можно параметризовать следующим образом.
![{\displaystyle \rho ({\boldsymbol {\beta }},\sigma ^{2} \mid \mathbf {y},\mathbf {X})\propto \rho ({\boldsymbol {\beta }}\mid \sigma ^{2},\mathbf {y},\mathbf {X})\rho (\sigma ^{2}\mid \mathbf {y},\mathbf {X}),}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle {\mathcal {N}}\left({\boldsymbol {\mu }}_{n},\sigma ^{2}{\boldsymbol {\Lambda }}_{n}^{-1}\ верно)\,}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle {\text{Inv-Gamma}} \left(a_{n},b_{n}\right)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle {\boldsymbol {\Lambda }}_{n}=(\mathbf {X} ^{\mathsf {T}}\mathbf {X} +\mathbf {\Lambda } _{0}),\quad {\boldsymbol {\mu }}_{n}=({\boldsymbol {\Lambda }}_{n})^{-1}(\mathbf {X} ^{\mathsf {T}}\mathbf {X } {\hat {\boldsymbol {\beta }}}+{\boldsymbol {\Lambda }}_{0}{\boldsymbol {\mu }}_{0}),}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle a_{n}=a_{0}+{\frac {n}{2}},\qquad b_{n}=b_{0}+{\frac {1}{2}}(\mathbf { y} ^{\mathsf {T}}\mathbf {y} +{\boldsymbol {\mu }}_{0}^{\mathsf {T}}{\boldsymbol {\Lambda }}_{0}{\ boldsymbol {\mu }}_{0}-{\boldsymbol {\mu }}_{n}^{\mathsf {T}}{\boldsymbol {\Lambda }}_{n}{\boldsymbol {\mu } }_{n}).}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
который иллюстрирует, что байесовский вывод является компромиссом между информацией, содержащейся в априоре, и информацией, содержащейся в выборке.
Модель доказательства
Доказательством модели является вероятность данных с учетом модели . Он также известен как предельное правдоподобие и априорная плотность прогнозирования . Здесь модель определяется функцией правдоподобия и априорным распределением параметров, т.е. Доказательства модели отражают в одном числе, насколько хорошо такая модель объясняет наблюдения. Доказательства модели байесовской линейной регрессии, представленные в этом разделе, можно использовать для сравнения конкурирующих линейных моделей путем сравнения байесовских моделей . Эти модели могут различаться количеством и значениями переменных-предсказателей, а также их априорными значениями параметров модели. Сложность модели уже учтена в доказательствах модели, поскольку она исключает параметры путем интегрирования по всем возможным значениям и .![{\displaystyle p(\mathbf {y} \mid m)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle м}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle p(\mathbf {y} \mid \mathbf {X}, {\boldsymbol {\beta }},\sigma)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle p({\boldsymbol {\beta }},\sigma)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle p(\mathbf {y}, {\boldsymbol {\beta}},\sigma \mid \mathbf {X})}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle {\boldsymbol {\beta }}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\ displaystyle \ сигма }](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle p(\mathbf {y} |m)=\int p(\mathbf {y} \mid \mathbf {X}, {\boldsymbol {\beta }},\sigma)\,p({\boldsymbol {\beta }},\sigma )\,d{\boldsymbol {\beta }}\,d\sigma }](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
[5]![{\displaystyle p(\mathbf {y} \mid m)={\frac {1}{(2\pi)^{n/2}}}{\sqrt {\frac {\det({\boldsymbol {\ Lambda }}_{0})}{\det({\boldsymbol {\Lambda }}_{n})}}}\cdot {\frac {b_{0}^{a_{0}}}{b_{ n}^{a_{n}}}}\cdot {\frac {\Gamma (a_{n})}{\Gamma (a_{0})}}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Здесь обозначает гамма-функцию . Поскольку мы выбрали сопряженный априор, предельное правдоподобие также можно легко вычислить, вычислив следующее равенство для произвольных значений и .![{\displaystyle \Гамма}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle {\boldsymbol {\beta }}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\ displaystyle \ сигма }](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle p(\mathbf {y} \mid m)={\frac {p({\boldsymbol {\beta }},\sigma |m)\,p(\mathbf {y} \mid \mathbf {X } , {\boldsymbol {\beta }},\sigma,m)}{p({\boldsymbol {\beta }},\sigma \mid \mathbf {y},\mathbf {X},m)}}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
теоремы БайесаДругие случаи
В общем, аналитическое выведение апостериорного распределения может оказаться невозможным или непрактичным. Тем не менее, можно аппроксимировать апостериорный метод приближенным байесовским выводом , таким как выборка Монте-Карло [6] или вариационный Байес .
Особый случай называется гребневой регрессией .![{\displaystyle {\boldsymbol {\mu }}_{0}=0,\mathbf {\Lambda } _{0}=c\mathbf {I} }](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Подобный анализ может быть выполнен для общего случая многомерной регрессии, и частично он обеспечивает байесовскую оценку ковариационных матриц : см. Байесовскую многомерную линейную регрессию .
Смотрите также
Примечания
- ^ См. Джекман (2009), с. 101.
- ^ См. Гельман и др. (2013), с. 354.
- ^ Промежуточные этапы этого вычисления можно найти у О'Хагана (1994) в начале главы, посвященной линейным моделям.
- ^ Промежуточные этапы описаны у Fahrmeir et al. (2009) на странице 188.
- ^ Промежуточные этапы этого вычисления можно найти у О'Хагана (1994) на странице 257.
- ^ Карлин и Луи (2008) и Гельман и др. (2003) объясняют, как использовать методы выборки для байесовской линейной регрессии.
Рекомендации
- Коробка, ГЭП ; Тяо, GC (1973). Байесовский вывод в статистическом анализе . Уайли. ISBN 0-471-57428-7.
- Карлин, Брэдли П.; Луи, Томас А. (2008). Байесовские методы анализа данных (Третье изд.). Бока-Ратон, Флорида: Чепмен и Холл/CRC. ISBN 1-58488-697-8.
- Фармейр, Л.; Кнейб, Т.; Ланг, С. (2009). Регрессия. Modelle, Methoden und Anwendungen (второе изд.). Гейдельберг: Спрингер. дои : 10.1007/978-3-642-01837-4. ISBN 978-3-642-01836-7.
- Гельман, Эндрю ; и другие. (2013). «Введение в регрессионные модели». Байесовский анализ данных (Третье изд.). Бока-Ратон, Флорида: Чепмен и Холл/CRC. стр. 353–380. ISBN 978-1-4398-4095-5.
- Джекман, Саймон (2009). «Регрессионные модели». Байесовский анализ для социальных наук . Уайли. стр. 99–124. ISBN 978-0-470-01154-6.
- Росси, Питер Э.; Алленби, Грег М.; Маккалок, Роберт (2006). Байесовская статистика и маркетинг . Джон Уайли и сыновья. ISBN 0470863676.
- О'Хаган, Энтони (1994). Байесовский вывод . Продвинутая теория статистики Кендалла. Том. 2Б (Первое изд.). Холстед. ISBN 0-340-52922-9.
Внешние ссылки
- Байесовская оценка линейных моделей (викибук по программированию на R). Байесовская линейная регрессия, реализованная в R.