Доверительная область

В статистике доверительная область — это многомерное обобщение доверительного интервала . Это набор точек в n -мерном пространстве, часто представленный в виде эллипсоида вокруг точки, которая является предполагаемым решением проблемы, хотя могут встречаться и другие формы.

Интерпретация

Доверительная область рассчитывается таким образом, что если набор измерений повторялся много раз и доверительная область рассчитывалась одинаково для каждого набора измерений, то в определенный процент времени (например, 95%) доверительная область будет включите точку, представляющую «истинные» значения набора оцениваемых переменных. Однако если не сделаны определенные предположения об априорных вероятностях , это не означает, что при расчете одной доверительной области существует 95% вероятность того, что «истинные» значения лежат внутри этой области, поскольку мы не предполагаем никакой конкретной вероятности. распределение «истинных» значений, и мы можем иметь или не иметь другую информацию о том, где они могут находиться.

Случай независимых одинаково нормально распределенных ошибок

Предположим, мы нашли решение следующей переопределенной задачи: ${\boldsymbol {\beta }}$

\mathbf {Y} =\mathbf {X} {\boldsymbol {\beta }}+{\boldsymbol {\varepsilon }}

где Y — n -мерный вектор-столбец, содержащий наблюдаемые значения зависимой переменной , X — матрица наблюдаемых значений независимых переменных размером nxp (которая может представлять физическую модель), которая, как предполагается, точно известна, представляет собой вектор-столбец, содержащий p- параметры, которые необходимо оценить, и представляет собой n -мерный вектор-столбец ошибок, которые, как предполагается, независимо распределены с нормальными распределениями с нулевым средним значением и каждый из которых имеет одинаковую неизвестную дисперсию . ${\boldsymbol {\beta }}$ ${\boldsymbol {\varepsilon }}$ $\sigma ^{2}$

Совместная доверительная область 100(1 − α ) % для элементов представлена набором значений вектора b , которые удовлетворяют следующему неравенству: ^[1] ${\boldsymbol {\beta }}$

({\boldsymbol {\hat {\beta }}}-\mathbf {b})^{\operatorname {T} }\mathbf {X} ^{\operatorname {T} }\mathbf {X} ( {\boldsymbol {\hat {\beta }}}-\mathbf {b})\leq ps^{2}F_{1-\alpha }(p,\nu ),

где переменная b представляет любую точку в доверительной области, p — количество параметров, т. е. число элементов вектора — это вектор оцениваемых параметров, а s ² — приведенный хи-квадрат , несмещенная оценка , равная ${\boldsymbol {\beta }},$ ${\boldsymbol {\hat {\beta }}}$ $\sigma ^{2}$

s^{2}={\frac {\varepsilon ^{\operatorname {T} }\varepsilon }{np}}.

Кроме того, F — квантильная функция F -распределения , где p и степени свободы — уровень статистической значимости , а символ означает транспонирование . $\nu =np$ $\альфа$ $X^{\operatorname {T} }$ $X$

Выражение можно переписать как:

({\boldsymbol {\hat {\beta }}}-\mathbf {b})^{\operatorname {T} }\mathbf {C} _{\mathbf {\beta } }^{-1} ({\boldsymbol {\hat {\beta }}}-\mathbf {b})\leq pF_{1-\alpha }(p,\nu),

где – ковариационная матрица, масштабированная по методу наименьших квадратов . $\mathbf {C} _{\mathbf {\beta } }=s^{2}\left(\mathbf {X} ^{\operatorname {T} }\mathbf {X} \right)^{- 1}$ ${\boldsymbol {\hat {\beta }}}$

Вышеупомянутое неравенство определяет эллипсоидальную область в p -мерном декартовом пространстве параметров R ^p . Центр эллипсоида находится по оценке . По мнению Пресса и др., эллипсоид легче построить после выполнения разложения по сингулярным значениям . Длины осей эллипсоида пропорциональны обратным значениям на диагоналях диагональной матрицы, а направления этих осей задаются строками 3-й матрицы разложения. ${\boldsymbol {\hat {\beta }}}$

Взвешенные и обобщенные методы наименьших квадратов

Теперь рассмотрим более общий случай, когда некоторые отдельные элементы имеют известную ненулевую ковариацию (другими словами, ошибки в наблюдениях не распределяются независимо) и/или не все стандартные отклонения ошибок равны. Предположим, что ковариационная матрица is , где V — несингулярная матрица размером n x n , равная в более конкретном случае, описанном в предыдущем разделе (где I — единичная матрица ), но здесь допускается ненулевое значение -диагональные элементы, представляющие ковариацию пар отдельных наблюдений, а также не обязательно имеющие равные все диагональные элементы. ${\boldsymbol {\varepsilon }}$ ${\boldsymbol {\varepsilon }}$ $\mathbf {V} \sigma ^{2}$ $\mathbf {I}$

Можно найти ^[2] неособую симметричную матрицу P такую, что

\mathbf {P} ^{\prime }\mathbf {P} =\mathbf {P} \mathbf {P} =\mathbf {V}

По сути, P является квадратным корнем из ковариационной матрицы V.

Задача наименьших квадратов

\mathbf {Y} =\mathbf {X} {\boldsymbol {\beta }}+{\boldsymbol {\varepsilon }}

затем может быть преобразовано путем умножения каждого члена слева на обратное P , образуя новую формулировку проблемы

\mathbf {Z} =\mathbf {Q} {\boldsymbol {\beta }}+\mathbf {f},

где

\mathbf {Z} =\mathbf {P} ^{-1}\mathbf {Y}

\mathbf {Q} =\mathbf {P} ^{-1}\mathbf {X}

\mathbf {f} =\mathbf {P} ^{-1}{\boldsymbol {\varepsilon }}

Тогда совместная доверительная область для параметров, т.е. для элементов , ограничивается эллипсоидом, определяемым следующим образом: ^[3] ${\boldsymbol {\beta }}$

(\mathbf {b} -{\boldsymbol {\hat {\beta }}})^{\prime }\mathbf {Q} ^{\prime }\mathbf {Q} (\mathbf {b} - {\boldsymbol {\hat {\beta }}})={\frac {p}{np}}(\mathbf {Z} ^{\prime }\mathbf {Z} -\mathbf {b} ^{\prime }\mathbf {Q} ^{\prime }\mathbf {Z} )F_{1-\alpha }(p,np).

Здесь F представляет собой процентную точку F -распределения , а величины p и np представляют собой степени свободы , которые являются параметрами этого распределения.

Нелинейные задачи

Доверительные области могут быть определены для любого распределения вероятностей. Экспериментатор может выбрать уровень значимости и форму области, после чего размер области определяется распределением вероятностей. Естественный выбор — использовать в качестве границы набор точек с постоянными значениями ( хи-квадрат ). $\чи ^{2}$

Один из подходов состоит в том, чтобы использовать линейную аппроксимацию нелинейной модели, которая может быть близкой аппроксимацией вблизи решения, а затем применить анализ линейной задачи, чтобы найти приблизительную доверительную область. Это может быть разумным подходом, если доверительная область не очень велика и вторые производные модели также не очень велики.

Также можно использовать подходы начальной загрузки . ^[4]

Смотрите также

Примечания

^ Дрейпер и Смит (1981, стр. 94)
^ Дрейпер и Смит (1981, стр. 108)
^ Дрейпер и Смит (1981, стр. 109)
^ Хаттон Т.Дж., Бакстон Б.Ф., Хаммонд П., Поттс HWW (2003). Оценка средних траекторий роста в пространстве форм с использованием сглаживания ядра. Транзакции IEEE по медицинской визуализации , 22 (6):747-53