В статистике смещение из-за пропущенной переменной ( OVB ) возникает, когда статистическая модель не учитывает одну или несколько соответствующих переменных . Смещение приводит к тому, что модель приписывает влияние отсутствующих переменных тем, которые были включены.
Более конкретно, OVB — это смещение , которое появляется в оценках параметров в регрессионном анализе , когда предполагаемая спецификация неверна, поскольку в ней отсутствует независимая переменная, которая является определяющим фактором зависимой переменной и коррелирует с одной или несколькими включенными независимыми переменными. переменные.
Предположим, что истинная причинно-следственная связь определяется формулой:
с параметрами a, b, c , зависимой переменной y , независимыми переменными x и z и ошибкой u . Мы хотим знать влияние самого x на y (то есть мы хотим получить оценку b ).
Для того, чтобы в линейной регрессии существовало смещение по пропущенной переменной, должны соблюдаться два условия :
Предположим, мы опускаем z из регрессии и предположим, что связь между x и z определяется выражением
с параметрами d , f и ошибкой e . Подстановка второго уравнения в первое дает
Если регрессия y проводится только по x , это последнее уравнение и является тем, что оценивается, а коэффициент регрессии по x на самом деле является оценкой ( b + cf ), давая не просто оценку желаемого прямого воздействия x на y . (то есть b ), а скорее его сумму с косвенным эффектом (эффект f от x на z , умноженный на эффект c от z на y ). Таким образом, исключив переменную z из регрессии, мы оценили полную производную y по x , а не его частную производную по x . Они различаются, если оба c и f не равны нулю.
Направление и степень смещения содержатся в cf , поскольку искомый эффект равен b , но оценки регрессии b+cf . Степень смещения представляет собой абсолютное значение cf , а направление смещения вверх (в сторону более положительного или менее отрицательного значения), если cf > 0 (если направление корреляции между y и z такое же, как и между x и z ), в противном случае – вниз.
В качестве примера рассмотрим линейную модель вида
где
Мы собираем наблюдения всех переменных с индексами i = 1, ..., n и складываем их одно под другим, чтобы получить матрицу X и векторы Y , Z и U :
и
Если независимая переменная z исключена из регрессии, то оценочные значения параметров отклика других независимых переменных будут получены путем обычного расчета методом наименьших квадратов :
(где «простое» обозначение означает транспонирование матрицы , а верхний индекс -1 означает инверсию матрицы ).
Заменив Y на основе предполагаемой линейной модели,
Принимая во внимание ожидания, вклад последнего члена равен нулю; это следует из предположения, что U некоррелирован с регрессорами X . Об упрощении остальных условий:
Второй член после знака равенства в этом случае представляет собой смещение пропущенной переменной, которое не равно нулю, если пропущенная переменная z коррелирует с любой из включенных переменных в матрице X (то есть, если X'Z не равна вектор нулей). Обратите внимание, что смещение равно взвешенной части z i , которая «объясняется» x i .
Теорема Гаусса-Маркова утверждает, что модели регрессии, которые удовлетворяют предположениям классической модели линейной регрессии, обеспечивают наиболее эффективные , линейные и несмещенные оценки. В обычном методе наименьших квадратов соответствующее предположение классической модели линейной регрессии заключается в том, что член ошибки не коррелирует с регрессорами.
Наличие систематической ошибки, связанной с пропущенными переменными, нарушает это конкретное предположение. Нарушение приводит к тому, что оценщик OLS оказывается предвзятым и противоречивым . Направление смещения зависит от оценщиков, а также от ковариации между регрессорами и пропущенными переменными. Положительная ковариация пропущенной переменной как с регрессором, так и с зависимой переменной приведет к тому, что оценка МНК коэффициента включенного регрессора будет больше истинного значения этого коэффициента. Этот эффект можно увидеть, взяв математическое ожидание параметра, как показано в предыдущем разделе.