Матрица проекции

В статистике матрица проекции , [ ^1] иногда также называемая матрицей влияния ^[2] или матрицей шляпы , отображает вектор значений ответа (значений зависимой переменной) в вектор подогнанных значений (или прогнозируемых значений). Он описывает влияние каждого значения ответа на каждое подобранное значение. ^[3]^[4] Диагональные элементы матрицы проекции — это рычаги , которые описывают влияние каждого значения ответа на подобранное значение для того же наблюдения. $(\mathbf {P})$ ${\ displaystyle (\ mathbf {H})}$

Определение

Если вектор значений ответа обозначается , а вектор подобранных значений — , $\mathbf {y}$ $\mathbf {\hat {y}}$

\mathbf {\hat {y}} =\mathbf {P} \mathbf {y} .

Как обычно произносится «y-hat», матрицу проекции также называют шляпной матрицей, поскольку она «надевает шляпу » . $\mathbf {\hat {y}}$ $\mathbf {P}$ $\mathbf {y}$

Заявление на остаток

Формулу вектора невязок также можно компактно выразить с помощью матрицы проекции: $\mathbf {r}$

\mathbf {r} =\mathbf {y} -\mathbf {\hat {y}} =\mathbf {y} -\mathbf {P} \mathbf {y} =\left(\mathbf {I} -\mathbf {P} \right)\mathbf {y} .

где единичная матрица . Матрицу иногда называют матрицей производителя остатков или матрицей аннигилятора . $\mathbf {I}$ $\mathbf {M}:=\mathbf {I} -\mathbf {P}$

Ковариационная матрица остатков по распространению ошибок равна $\mathbf {r}$

\mathbf {\Sigma } _{\mathbf {r} }=\left(\mathbf {I} -\mathbf {P} \right)^{\textsf {T}} \mathbf {\Sigma } \ влево(\mathbf {I} -\mathbf {P} \right)

где – ковариационная матрица вектора ошибки (и, соответственно, вектора ответа). Для случая линейных моделей с независимыми и одинаково распределенными ошибками , в которых это сводится к: ^[3] $\mathbf {\Sigma}$ $\mathbf {\Sigma } =\sigma ^{2}\mathbf {I}$

\mathbf {\Sigma } _{\mathbf {r} }=\left(\mathbf {I} -\mathbf {P} \right)\sigma ^{2}

Интуиция

Из рисунка ясно, что ближайшей точкой от вектора к пространству столбцов , является , и это та точка, где мы можем провести линию, ортогональную пространству столбцов . Вектор, ортогональный пространству столбцов матрицы, находится в пустом пространстве транспонирования матрицы, поэтому $\mathbf {b}$ $\mathbf {A}$ $\mathbf {Ax}$ $\mathbf {A}$

\mathbf {A} ^{\textsf {T}}(\mathbf {b} -\mathbf {Ax})=0

Оттуда происходит перестановка, так что

{\begin{aligned}&&\mathbf {A} ^{\textsf {T}}\mathbf {b} &-\mathbf {A} ^{\textsf {T}}\mathbf {Ax} =0 \\\Rightarrow &&\mathbf {A} ^{\textsf {T}}\mathbf {b} &=\mathbf {A} ^{\textsf {T}}\mathbf {Ax} \\\Rightarrow &&\mathbf {x} &=\left(\mathbf {A} ^{\textsf {T}}\mathbf {A} \right)^{-1}\mathbf {A} ^{\textsf {T}}\mathbf { б} \end{aligned}}

Следовательно, поскольку находится в пространстве столбцов , матрица проекции, которая отображается, равна просто , или . $\mathbf {Ax}$ $\mathbf {A}$ $\mathbf {b}$ $\mathbf {x}$ $\mathbf {A}$ $\mathbf {A} \left(\mathbf {A} ^{\textsf {T}} \mathbf {A} \right)^{-1}\mathbf {A} ^{\textsf {T}}$

Линейная модель

Предположим, что мы хотим оценить линейную модель, используя линейный метод наименьших квадратов. Модель можно записать как

\mathbf {y} =\mathbf {X} {\boldsymbol {\beta }}+{\boldsymbol {\varepsilon }},

где – матрица объясняющих переменных ( матрица плана ), β – вектор неизвестных параметров, подлежащих оценке, а ε – вектор ошибки. $\mathbf {X}$

Многие типы моделей и методов подпадают под эту формулировку. Несколько примеров: линейный метод наименьших квадратов , сглаживающие сплайны , сплайны регрессии , локальная регрессия , ядерная регрессия и линейная фильтрация .

Обычные наименьшие квадраты

Когда веса для каждого наблюдения идентичны и ошибки некоррелированы, оцениваемые параметры равны

{\hat {\boldsymbol {\beta }}}=\left(\mathbf {X} ^{\textsf {T}}\mathbf {X} \right)^{-1}\mathbf {X} ^{\textsf {T}}\mathbf {y},

поэтому подобранные значения

{\hat {\mathbf {y} }}=\mathbf {X} {\hat {\boldsymbol {\beta }}}=\mathbf {X} \left(\mathbf {X} ^{\textsf {T}}\mathbf {X} \right)^{-1}\mathbf {X} ^{\textsf {T}}\mathbf {y} .

Следовательно, матрица проекции (и матрица шляпы) определяется выражением

\mathbf {P}:=\mathbf {X} \left(\mathbf {X} ^{\textsf {T}}\mathbf {X} \right)^{-1}\mathbf {X} ^ {\textsf {T}}.

Взвешенные и обобщенные методы наименьших квадратов

Вышеизложенное можно обобщить на случаи, когда веса не идентичны и/или ошибки коррелируют. Предположим, что ковариационная матрица ошибок равна Σ . Тогда с тех пор

{\hat {\mathbf {\beta} }}_{\text{GLS}}=\left(\mathbf {X} ^{\textsf {T}}\mathbf {\Sigma } ^{-1 }\mathbf {X} \right)^{-1}\mathbf {X} ^{\textsf {T}}\mathbf {\Sigma } ^{-1}\mathbf {y}

матрица шляпы, таким образом,

\mathbf {H} =\mathbf {X} \left(\mathbf {X} ^{\textsf {T}} \mathbf {\Sigma } ^{-1}\mathbf {X} \right)^ {-1}\mathbf {X} ^{\textsf {T}}\mathbf {\Sigma } ^{-1}

и снова можно увидеть, что , хотя теперь оно уже не симметрично. $H^{2}=H\cdot H=H$

Характеристики

Матрица проекции обладает рядом полезных алгебраических свойств. ^[5]^[6] На языке линейной алгебры матрица проекции — это ортогональная проекция на пространство столбцов матрицы конструкции . ^[4] (Обратите внимание, что это псевдообратное значение X .) Некоторые факты о матрице проекции в этом случае суммируются следующим образом: ^[4] $\mathbf {X}$ $\left(\mathbf {X} ^{\textsf {T}}\mathbf {X} \right)^{-1}\mathbf {X} ^{\textsf {T}}$

$\mathbf {u} =(\mathbf {I} -\mathbf {P} )\mathbf {y} ,$ и $\mathbf {u} =\mathbf {y} -\mathbf {P} \mathbf {y} \perp \mathbf {X} .$
$\mathbf {P}$ симметричен, как и . $\mathbf {M} :=\mathbf {I} -\mathbf {P}$
$\mathbf {P}$ идемпотент: , и так же . $\mathbf {P} ^{2}=\mathbf {P}$ $\mathbf {M}$
Если - матрица размера n × r с , то $\mathbf {X}$ $\operatorname {rank} (\mathbf {X} )=r$ $\operatorname {rank} (\mathbf {P} )=r$
Собственные значения состоят из r единиц и n − r нулей, а собственные значения состоят из n − r единиц и r нулей. ^[7] $\mathbf {P}$ $\mathbf {M}$
$\mathbf {X}$ инвариантно относительно : следовательно . $\mathbf {P}$ $\mathbf {PX} =\mathbf {X} ,$ $\left(\mathbf {I} -\mathbf {P} \right)\mathbf {X} =\mathbf {0}$
$\left(\mathbf {I} -\mathbf {P} \right)\mathbf {P} =\mathbf {P} \left(\mathbf {I} -\mathbf {P} \right)=\mathbf {0} .$
$\mathbf {P}$ уникально для некоторых подпространств.

Матрица проекции , соответствующая линейной модели , симметрична и идемпотентна , то есть . Тем не менее, это не всегда так; Например, при локально взвешенном сглаживании диаграмм рассеяния (LOESS) матрица шляпки, как правило, не является ни симметричной, ни идемпотентной. $\mathbf {P} ^{2}=\mathbf {P}$

Для линейных моделей след матрицы проекции равен рангу , который представляет собой количество независимых параметров линейной модели. ^[8] Для других моделей, таких как LOESS, которые все еще являются линейными в наблюдениях , матрица проекции может использоваться для определения эффективных степеней свободы модели. $\mathbf {X}$ $\mathbf {y}$

Практическое применение матрицы проекции в регрессионном анализе включает рычаг и расстояние Кука , которые связаны с выявлением влиятельных наблюдений , то есть наблюдений, которые оказывают большое влияние на результаты регрессии.

Блочная формула

Предположим, что матрица проекта может быть разложена по столбцам как . Определите оператор шляпы или проекции как . Аналогично определите оператор невязки как . Тогда матрицу проекции можно разложить следующим образом: ^[9] $\mathbf {X}$ $\mathbf {X} ={\begin{bmatrix}\mathbf {A} &\mathbf {B} \end{bmatrix}}$ $\mathbf {P} [\mathbf {X} ]:=\mathbf {X} \left(\mathbf {X} ^{\textsf {T}}\mathbf {X} \right)^{-1}\mathbf {X} ^{\textsf {T}}$ $\mathbf {M} [\mathbf {X} ]:=\mathbf {I} -\mathbf {P} [\mathbf {X} ]$

\mathbf {P} [\mathbf {X} ]=\mathbf {P} [\mathbf {A} ]+\mathbf {P} {\big [}\mathbf {M} [\mathbf {A} ]\mathbf {B} {\big ]},

где, например, и . Существует ряд приложений такого разложения. В классическом приложении есть столбец всех единиц, который позволяет анализировать эффекты добавления члена-члена в регрессию. Другое использование — в модели с фиксированными эффектами , где — большая разреженная матрица фиктивных переменных для условий с фиксированным эффектом. Можно использовать этот раздел для вычисления шляпной матрицы без явного формирования матрицы , которая может быть слишком большой, чтобы поместиться в компьютерную память. $\mathbf {P} [\mathbf {A} ]=\mathbf {A} \left(\mathbf {A} ^{\textsf {T}}\mathbf {A} \right)^{-1}\mathbf {A} ^{\textsf {T}}$ $\mathbf {M} [\mathbf {A} ]=\mathbf {I} -\mathbf {P} [\mathbf {A} ]$ $\mathbf {A}$ $\mathbf {A}$ $\mathbf {X}$ $\mathbf {X}$

История

Матрица шляпы была представлена Джоном Уайлдером в 1972 году. В статье Хоглина, округ Колумбия, и Уэлша, Р.Э. (1978) приводятся свойства матрицы, а также множество примеров ее применения.