Смещение пропущенной переменной

В статистике смещение из-за пропущенных переменных ( OVB ) происходит, когда статистическая модель упускает одну или несколько релевантных переменных. Смещение приводит к тому, что модель приписывает эффект пропущенных переменных тем, которые были включены .

Более конкретно, OVB — это смещение , которое появляется в оценках параметров в регрессионном анализе , когда предполагаемая спецификация неверна, поскольку в ней отсутствует независимая переменная, которая является детерминантой зависимой переменной и коррелирует с одной или несколькими включенными независимыми переменными.

В линейной регрессии

Интуиция

Предположим, что истинная причинно-следственная связь имеет вид:

y=a+bx+cz+u

с параметрами a, b, c , зависимой переменной y , независимыми переменными x и z и ошибкой u . Мы хотим узнать влияние самого x на y (то есть мы хотим получить оценку b ).

Для существования смещения из-за пропущенной переменной в линейной регрессии должны выполняться два условия :

пропущенная переменная должна быть детерминантой зависимой переменной (т.е. ее истинный коэффициент регрессии не должен быть равен нулю); и
пропущенная переменная должна быть коррелирована с независимой переменной, указанной в регрессии (т.е. cov( z , x ) не должна быть равна нулю).

Предположим, что мы исключили z из регрессии и предположим, что связь между x и z задается выражением

z=d+fx+e

с параметрами d , f и ошибкой e . Подстановка второго уравнения в первое дает

y=(a+cd)+(b+cf)x+(u+ce).

Если регрессия y проводится только по x , то это последнее уравнение и есть то, что оценивается, а коэффициент регрессии по x на самом деле является оценкой ( b + cf ), давая не просто оценку желаемого прямого эффекта x на y (который равен b ), а скорее его суммы с косвенным эффектом (эффект f от x на z , умноженный на эффект c от z на y ). Таким образом, исключая переменную z из регрессии, мы оценили полную производную y по x , а не ее частную производную по x . Они различаются, если и c , и f не равны нулю.

Направление и степень смещения содержатся в cf , поскольку искомый эффект — b , но регрессия оценивает b + cf . Степень смещения — это абсолютное значение cf , а направление смещения — вверх (к более положительному или менее отрицательному значению), если cf > 0 (если направление корреляции между y и z такое же, как между x и z ), и вниз в противном случае.

Подробный анализ

В качестве примера рассмотрим линейную модель вида

y_{i}=x_{i}\beta +z_{i}\delta +u_{i},\qquad i=1,\dots ,n

где

x _i — вектор-строка размером 1 × p значений p независимых переменных, наблюдаемых в момент времени i или для i ^-го участника исследования;
β — вектор-столбец размером p × 1 ненаблюдаемых параметров (коэффициентов отклика зависимой переменной на каждую из p независимых переменных в x _i ), подлежащих оценке;
z _i — скаляр, представляющий собой значение другой независимой переменной, наблюдаемой в момент времени i или для i ^-го участника исследования;
δ — скаляр и ненаблюдаемый параметр (коэффициент отклика зависимой переменной на z _i ), подлежащий оценке;
u _i — ненаблюдаемая ошибка, возникающая в момент времени i или для i- ^го участника исследования; это ненаблюдаемая реализация случайной величины , имеющей ожидаемое значение 0 (условно от x _i и z _i );
y _i — наблюдение зависимой переменной в момент времени i или для i- ^го участника исследования.

Мы собираем наблюдения всех переменных с индексами i = 1, ..., n и размещаем их друг под другом, чтобы получить матрицу X и векторы Y , Z и U :

X=\left[{\begin{array}{c}x_{1}\\\vdots \\x_{n}\end{array}}\right]\in \mathbb {R} ^{n\times p},

Y=\left[{\begin{array}{c}y_{1}\\\vdots \\y_{n}\end{array}}\right],\quad Z=\left[{\begin{array}{c}z_{1}\\\vdots \\z_{n}\end{array}}\right],\quad U=\left[{\begin{array}{c}u_{1}\\\vdots \\u_{n}\end{array}}\right]\in \mathbb {R} ^{n\times 1}.

Если независимая переменная z исключена из регрессии, то оценочные значения параметров отклика других независимых переменных будут получены с помощью обычного расчета по методу наименьших квадратов ,

{\widehat {\beta }}=(X'X)^{-1}X'Y\,

(где обозначение «штрих» означает транспонирование матрицы, а верхний индекс -1 — обращение матрицы ).

Подставляя Y на основе предполагаемой линейной модели,

{\begin{aligned}{\widehat {\beta }}&=(X'X)^{-1}X'(X\beta +Z\delta +U)\\&=(X'X)^{-1}X'X\beta +(X'X)^{-1}X'Z\delta +(X'X)^{-1}X'U\\&=\beta +(X'X)^{-1}X'Z\delta +(X'X)^{-1}X'U.\end{aligned}}

Принимая во внимание ожидания, вклад конечного члена равен нулю; это следует из предположения, что U не коррелирует с регрессорами X. При упрощении оставшихся членов:

{\begin{aligned}E[{\widehat {\beta }}\mid X]&=\beta +(X'X)^{-1}E[X'Z\mid X]\delta \\&=\beta +{\text{bias}}.\end{aligned}}

Второй член после знака равенства в этом случае является смещением пропущенной переменной, которое не равно нулю, если пропущенная переменная z коррелирует с любой из включенных переменных в матрице X (то есть, если X′Z не равен вектору нулей). Обратите внимание, что смещение равно взвешенной части z _{i ,} которая «объясняется» x _i .

Эффект в обычном методе наименьших квадратов

Теорема Гаусса –Маркова утверждает, что модели регрессии, которые удовлетворяют предположениям классической линейной регрессионной модели, обеспечивают наиболее эффективные , линейные и несмещенные оценки. В обычных наименьших квадратах соответствующее предположение классической линейной регрессионной модели заключается в том, что член ошибки не коррелирует с регрессорами.

Наличие смещения из-за пропущенной переменной нарушает это конкретное предположение. Нарушение приводит к тому, что оценка OLS становится смещенной и непоследовательной . Направление смещения зависит от оценок, а также от ковариации между регрессорами и пропущенными переменными. Положительная ковариация пропущенной переменной как с регрессором, так и с зависимой переменной приведет к тому, что оценка OLS коэффициента включенного регрессора будет больше истинного значения этого коэффициента. Этот эффект можно увидеть, взяв ожидание параметра, как показано в предыдущем разделе.

Смотрите также

Вмешивающаяся переменная

Ссылки

Баррето; Хоуленд (2006). «Смещение пропущенной переменной». Введение в эконометрику: использование моделирования Монте-Карло с Microsoft Excel . Cambridge University Press.
Кларк, Кевин А. (2005). «Скрытая угроза: смещение пропущенной переменной в эконометрических исследованиях». Управление конфликтами и наука о мире . 22 (4): 341–352. doi :10.1080/07388940500339183.
Грин, WH (1993). Эконометрический анализ (2-е изд.). Macmillan. стр. 245–246.
Вулдридж, Джеффри М. (2009). «Опущенное смещение переменной: простой случай». Введение в эконометрику: современный подход . Мейсон, Огайо: Cengage Learning. стр. 89–93. ISBN 9780324660548.