В статистике смещение из-за пропущенных переменных ( OVB ) происходит, когда статистическая модель упускает одну или несколько релевантных переменных. Смещение приводит к тому, что модель приписывает эффект пропущенных переменных тем, которые были включены .
Более конкретно, OVB — это смещение , которое появляется в оценках параметров в регрессионном анализе , когда предполагаемая спецификация неверна, поскольку в ней отсутствует независимая переменная, которая является детерминантой зависимой переменной и коррелирует с одной или несколькими включенными независимыми переменными.
Предположим, что истинная причинно-следственная связь имеет вид:
с параметрами a, b, c , зависимой переменной y , независимыми переменными x и z и ошибкой u . Мы хотим узнать влияние самого x на y (то есть мы хотим получить оценку b ).
Для существования смещения из-за пропущенной переменной в линейной регрессии должны выполняться два условия :
Предположим, что мы исключили z из регрессии и предположим, что связь между x и z задается выражением
с параметрами d , f и ошибкой e . Подстановка второго уравнения в первое дает
Если регрессия y проводится только по x , то это последнее уравнение и есть то, что оценивается, а коэффициент регрессии по x на самом деле является оценкой ( b + cf ), давая не просто оценку желаемого прямого эффекта x на y (который равен b ), а скорее его суммы с косвенным эффектом (эффект f от x на z , умноженный на эффект c от z на y ). Таким образом, исключая переменную z из регрессии, мы оценили полную производную y по x , а не ее частную производную по x . Они различаются, если и c , и f не равны нулю.
Направление и степень смещения содержатся в cf , поскольку искомый эффект — b , но регрессия оценивает b + cf . Степень смещения — это абсолютное значение cf , а направление смещения — вверх (к более положительному или менее отрицательному значению), если cf > 0 (если направление корреляции между y и z такое же, как между x и z ), и вниз в противном случае.
В качестве примера рассмотрим линейную модель вида
где
Мы собираем наблюдения всех переменных с индексами i = 1, ..., n и размещаем их друг под другом, чтобы получить матрицу X и векторы Y , Z и U :
и
Если независимая переменная z исключена из регрессии, то оценочные значения параметров отклика других независимых переменных будут получены с помощью обычного расчета по методу наименьших квадратов ,
(где обозначение «штрих» означает транспонирование матрицы, а верхний индекс -1 — обращение матрицы ).
Подставляя Y на основе предполагаемой линейной модели,
Принимая во внимание ожидания, вклад конечного члена равен нулю; это следует из предположения, что U не коррелирует с регрессорами X. При упрощении оставшихся членов:
Второй член после знака равенства в этом случае является смещением пропущенной переменной, которое не равно нулю, если пропущенная переменная z коррелирует с любой из включенных переменных в матрице X (то есть, если X′Z не равен вектору нулей). Обратите внимание, что смещение равно взвешенной части z i , которая «объясняется» x i .
Теорема Гаусса –Маркова утверждает, что модели регрессии, которые удовлетворяют предположениям классической линейной регрессионной модели, обеспечивают наиболее эффективные , линейные и несмещенные оценки. В обычных наименьших квадратах соответствующее предположение классической линейной регрессионной модели заключается в том, что член ошибки не коррелирует с регрессорами.
Наличие смещения из-за пропущенной переменной нарушает это конкретное предположение. Нарушение приводит к тому, что оценка OLS становится смещенной и непоследовательной . Направление смещения зависит от оценок, а также от ковариации между регрессорами и пропущенными переменными. Положительная ковариация пропущенной переменной как с регрессором, так и с зависимой переменной приведет к тому, что оценка OLS коэффициента включенного регрессора будет больше истинного значения этого коэффициента. Этот эффект можно увидеть, взяв ожидание параметра, как показано в предыдущем разделе.