Смещение пропущенной переменной

В статистике смещение из-за пропущенной переменной ( OVB ) возникает, когда статистическая модель не учитывает одну или несколько соответствующих переменных . Смещение приводит к тому, что модель приписывает влияние отсутствующих переменных тем, которые были включены.

Более конкретно, OVB — это смещение , которое появляется в оценках параметров в регрессионном анализе , когда предполагаемая спецификация неверна, поскольку в ней отсутствует независимая переменная, которая является определяющим фактором зависимой переменной и коррелирует с одной или несколькими включенными независимыми переменными. переменные.

В линейной регрессии

Интуиция

Предположим, что истинная причинно-следственная связь определяется формулой:

y=a+bx+cz+u

с параметрами a, b, c , зависимой переменной y , независимыми переменными x и z и ошибкой u . Мы хотим знать влияние самого x на y (то есть мы хотим получить оценку b ).

Для того, чтобы в линейной регрессии существовало смещение по пропущенной переменной, должны соблюдаться два условия :

пропущенная переменная должна быть детерминантом зависимой переменной (т. е. ее истинный коэффициент регрессии не должен быть равен нулю); и
пропущенная переменная должна коррелировать с независимой переменной, указанной в регрессии (т. е. cov( z , x ) не должна равняться нулю).

Предположим, мы опускаем z из регрессии и предположим, что связь между x и z определяется выражением

z=d+fx+e

с параметрами d , f и ошибкой e . Подстановка второго уравнения в первое дает

y=(a+cd)+(b+cf)x+(u+ce).

Если регрессия y проводится только по x , это последнее уравнение и является тем, что оценивается, а коэффициент регрессии по x на самом деле является оценкой ( b + cf ), давая не просто оценку желаемого прямого воздействия x на y . (то есть b ), а скорее его сумму с косвенным эффектом (эффект f от x на z , умноженный на эффект c от z на y ). Таким образом, исключив переменную z из регрессии, мы оценили полную производную y по x , а не его частную производную по x . Они различаются, если оба c и f не равны нулю.

Направление и степень смещения содержатся в cf , поскольку искомый эффект равен b , но оценки регрессии b+cf . Степень смещения представляет собой абсолютное значение cf , а направление смещения вверх (в сторону более положительного или менее отрицательного значения), если cf > 0 (если направление корреляции между y и z такое же, как и между x и z ), в противном случае – вниз.

Детальный анализ

В качестве примера рассмотрим линейную модель вида

y_{i}=x_{i}\beta +z_{i}\delta +u_{i},\qquad i=1,\dots ,n

где

x _i — вектор-строка размером 1 × p значений p независимых переменных , наблюдаемых в момент времени i или для i- ^го участника исследования;
β — вектор-столбец p × 1 ненаблюдаемых параметров (коэффициенты отклика зависимой переменной на каждую из p независимых переменных в x _i ), подлежащих оценке;
z _i — скаляр и представляет собой значение другой независимой переменной, наблюдаемой в момент времени i или для i- ^го участника исследования;
δ является скаляром и представляет собой ненаблюдаемый параметр (коэффициент реакции зависимой переменной на z _i ), подлежащий оценке;
u _i — ненаблюдаемая ошибка , возникающая в момент времени i или для i ^-го участника исследования; это ненаблюдаемая реализация случайной величины , имеющей математическое ожидание 0 (условно по _xi и z i ₎ ;
y _i — наблюдение зависимой переменной в момент времени i или для i- ^го участника исследования.

Мы собираем наблюдения всех переменных с индексами i = 1, ..., n и складываем их одно под другим, чтобы получить матрицу X и векторы Y , Z и U :

X=\left[{\begin{array}{c}x_{1}\\\vdots \\x_{n}\end{array}}\right]\in \mathbb {R} ^{n\times p},

Y=\left[{\begin{array}{c}y_{1}\\\vdots \\y_{n}\end{array}}\right],\quad Z=\left[{\begin{array}{c}z_{1}\\\vdots \\z_{n}\end{array}}\right],\quad U=\left[{\begin{array}{c}u_{1}\\\vdots \\u_{n}\end{array}}\right]\in \mathbb {R} ^{n\times 1}.

Если независимая переменная z исключена из регрессии, то оценочные значения параметров отклика других независимых переменных будут получены путем обычного расчета методом наименьших квадратов :

{\widehat {\beta }}=(X'X)^{-1}X'Y\,

(где «простое» обозначение означает транспонирование матрицы , а верхний индекс -1 означает инверсию матрицы ).

Заменив Y на основе предполагаемой линейной модели,

{\begin{aligned}{\widehat {\beta }}&=(X'X)^{-1}X'(X\beta +Z\delta +U)\\&=(X'X)^{-1}X'X\beta +(X'X)^{-1}X'Z\delta +(X'X)^{-1}X'U\\&=\beta +(X'X)^{-1}X'Z\delta +(X'X)^{-1}X'U.\end{aligned}}

Принимая во внимание ожидания, вклад последнего члена равен нулю; это следует из предположения, что U некоррелирован с регрессорами X . Об упрощении остальных условий:

{\begin{aligned}E[{\widehat {\beta }}\mid X]&=\beta +(X'X)^{-1}E[X'Z\mid X]\delta \\&=\beta +{\text{bias}}.\end{aligned}}

Второй член после знака равенства в этом случае представляет собой смещение пропущенной переменной, которое не равно нулю, если пропущенная переменная z коррелирует с любой из включенных переменных в матрице X (то есть, если X'Z не равна вектор нулей). Обратите внимание, что смещение равно взвешенной части z _i , которая «объясняется» x _i .

Эффект в обычных наименьших квадратах

Теорема Гаусса-Маркова утверждает, что модели регрессии, которые удовлетворяют предположениям классической модели линейной регрессии, обеспечивают наиболее эффективные , линейные и несмещенные оценки. В обычном методе наименьших квадратов соответствующее предположение классической модели линейной регрессии заключается в том, что член ошибки не коррелирует с регрессорами.

Наличие систематической ошибки, связанной с пропущенными переменными, нарушает это конкретное предположение. Нарушение приводит к тому, что оценщик OLS оказывается предвзятым и противоречивым . Направление смещения зависит от оценщиков, а также от ковариации между регрессорами и пропущенными переменными. Положительная ковариация пропущенной переменной как с регрессором, так и с зависимой переменной приведет к тому, что оценка МНК коэффициента включенного регрессора будет больше истинного значения этого коэффициента. Этот эффект можно увидеть, взяв математическое ожидание параметра, как показано в предыдущем разделе.

Смотрите также