Регион доверия

В статистике доверительная область — это многомерное обобщение доверительного интервала . Это набор точек в n -мерном пространстве, часто представленный в виде эллипсоида вокруг точки, которая является предполагаемым решением задачи, хотя могут встречаться и другие формы.

Интерпретация

Доверительная область рассчитывается таким образом, что если бы набор измерений был повторен много раз и доверительная область рассчитывалась бы одинаково для каждого набора измерений, то определенный процент времени (например, 95%) доверительная область включала бы точку, представляющую «истинные» значения набора оцениваемых переменных. Однако, если не сделаны определенные предположения о априорных вероятностях , это не означает, что при расчете одной доверительной области существует 95%-ная вероятность того, что «истинные» значения лежат внутри области, поскольку мы не предполагаем какого-либо конкретного распределения вероятностей «истинных» значений, и у нас может быть или не быть другой информации о том, где они, вероятно, будут лежать.

Случай независимых, одинаково нормально распределенных ошибок

Предположим, что мы нашли решение следующей переопределенной задачи: ${\boldsymbol {\beta }}$

\mathbf {Y} =\mathbf {X} {\boldsymbol {\beta }}+{\boldsymbol {\varepsilon }}

где Y — n -мерный вектор-столбец, содержащий наблюдаемые значения зависимой переменной , X — матрица размером n на p наблюдаемых значений независимых переменных (которая может представлять физическую модель), которая, как предполагается, известна точно, — вектор-столбец, содержащий p параметров, которые необходимо оценить, и — n -мерный вектор-столбец ошибок, которые, как предполагается, распределены независимо с нормальным распределением с нулевым средним и каждая из которых имеет одинаковую неизвестную дисперсию . ${\boldsymbol {\beta }}$ ${\boldsymbol {\varepsilon }}$ $\сигма ^{2}$

Совместная область 100(1 − α ) % доверительной вероятности для элементов представлена набором значений вектора b , которые удовлетворяют следующему неравенству: ^[1] ${\boldsymbol {\beta }}$

({\boldsymbol {\hat {\beta }}}-\mathbf {b} )^{\operatorname {T} }\mathbf {X} ^{\operatorname {T} }\mathbf {X} ({\boldsymbol {\hat {\beta }}}-\mathbf {b} )\leq ps^{2}F_{1-\alpha }(p,\nu ),

где переменная b представляет любую точку в доверительной области, p - число параметров, т.е. число элементов вектора - вектор оцененных параметров, а s ² - приведенный хи-квадрат , несмещенная оценка , равная ${\boldsymbol {\beta }},$ ${\boldsymbol {\hat {\beta }}}$ $\сигма ^{2}$

s^{2}={\frac {\varepsilon ^{\operatorname {T} }\varepsilon }{np}}.

Далее, F — это квантильная функция F-распределения , где p и степени свободы — уровень статистической значимости , а символ означает транспонирование . $\nu =np$ $\альфа$ $X^{\operatorname {T} }$ $X$

Выражение можно переписать так:

({\boldsymbol {\hat {\beta }}}-\mathbf {b} )^{\operatorname {T} }\mathbf {C} _{\mathbf {\beta } }^{-1}({\boldsymbol {\hat {\beta }}}-\mathbf {b} )\leq pF_{1-\alpha }(p,\nu ),

где — ковариационная матрица, масштабированная по методу наименьших квадратов . $\mathbf {C} _{\mathbf {\beta } }=s^{2}\left(\mathbf {X} ^{\operatorname {T} }\mathbf {X} \right)^{-1}$ ${\boldsymbol {\hat {\beta }}}$

Вышеуказанное неравенство определяет эллипсоидальную область в p -мерном декартовом пространстве параметров R ^p . Центр эллипсоида находится в точке . Согласно Прессу и др., проще построить эллипсоид после выполнения сингулярного разложения . Длины осей эллипсоида пропорциональны обратным величинам значений на диагоналях диагональной матрицы, а направления этих осей задаются строками 3-й матрицы разложения. ${\boldsymbol {\hat {\beta }}}$

Взвешенные и обобщенные наименьшие квадраты

Теперь рассмотрим более общий случай, когда некоторые отдельные элементы имеют известную ненулевую ковариацию (другими словами, ошибки в наблюдениях не распределены независимо), и/или стандартные отклонения ошибок не все равны. Предположим, что ковариационная матрица равна , где V — невырожденная матрица размером n на n , которая была равна в более конкретном случае, рассмотренном в предыдущем разделе (где I — единичная матрица ,), но здесь допускается наличие ненулевых недиагональных элементов, представляющих ковариацию пар отдельных наблюдений, а также не обязательно наличие всех диагональных элементов равными. ${\boldsymbol {\varepsilon }}$ ${\boldsymbol {\varepsilon }}$ $\mathbf {V} \сигма ^{2}$ $\mathbf {Я}$

Можно найти ^[2] невырожденную симметричную матрицу P такую, что

\mathbf {P} ^{\prime }\mathbf {P} =\mathbf {P} \mathbf {P} =\mathbf {V}

По сути, P представляет собой квадратный корень ковариационной матрицы V.

Задача наименьших квадратов

\mathbf {Y} =\mathbf {X} {\boldsymbol {\beta }}+{\boldsymbol {\varepsilon }}

затем можно преобразовать, умножив слева каждый член на обратный член P , сформировав новую формулировку задачи

\mathbf {Z} =\mathbf {Q} {\boldsymbol {\beta }}+\mathbf {f},

где

\mathbf {Z} =\mathbf {P} ^{-1}\mathbf {Y}

\mathbf {Q} =\mathbf {P} ^{-1}\mathbf {X}

\mathbf {f} =\mathbf {P} ^{-1}{\boldsymbol {\varepsilon }}

Совместная доверительная область для параметров, т.е. для элементов , тогда ограничивается эллипсоидом, заданным формулой: ^[3] ${\boldsymbol {\beta }}$

(\mathbf {b} -{\boldsymbol {\hat {\beta }}})^{\prime }\mathbf {Q} ^{\prime }\mathbf {Q} (\mathbf {b} - {\boldsymbol {\hat {\beta }}})={\frac {p}{np}}(\mathbf {Z} ^{\prime }\mathbf {Z} -\mathbf {b} ^{\prime }\mathbf {Q} ^{\prime }\mathbf {Z} )F_{1-\alpha }(p,np).

Здесь F представляет собой процентную точку F -распределения , а величины p и np — степени свободы , которые являются параметрами этого распределения.

Нелинейные проблемы

Доверительные области могут быть определены для любого распределения вероятностей. Экспериментатор может выбрать уровень значимости и форму области, а затем размер области определяется распределением вероятностей. Естественным выбором является использование в качестве границы набора точек с постоянными ( хи-квадрат ) значениями. $\чи ^{2}$

Один из подходов заключается в использовании линейного приближения к нелинейной модели, которое может быть близким приближением в окрестности решения, а затем применении анализа для линейной задачи для нахождения приблизительной доверительной области. Это может быть разумным подходом, если доверительная область не очень велика и вторые производные модели также не очень велики.

Также можно использовать подходы бутстрэппинга . ^[4]

Смотрите также

Примечания

^ Дрейпер и Смит (1981, стр. 94)
^ Дрейпер и Смит (1981, стр. 108)
^ Дрейпер и Смит (1981, стр. 109)
^ Hutton TJ, Buxton BF, Hammond P, Potts HWW (2003). Оценка траекторий среднего роста в пространстве форм с использованием сглаживания ядра. IEEE Transactions on Medical Imaging , 22 (6):747-53

Ссылки

Draper, NR; H. Smith (1981) [1966]. Прикладной регрессионный анализ (2-е изд.). США: John Wiley and Sons Ltd. ISBN 0-471-02995-5.
Press, WH; SA Teukolsky; WT Vetterling; BP Flannery (1992) [1988]. Численные рецепты на языке C: Искусство научных вычислений (2-е изд.). Кембридж, Великобритания: Cambridge University Press.