stringtranslate.com

Смещение пропущенной переменной

В статистике смещение из-за пропущенной переменной ( OVB ) возникает, когда статистическая модель не учитывает одну или несколько соответствующих переменных . Смещение приводит к тому, что модель приписывает влияние отсутствующих переменных тем, которые были включены.

Более конкретно, OVB — это смещение , которое появляется в оценках параметров в регрессионном анализе , когда предполагаемая спецификация неверна, поскольку в ней отсутствует независимая переменная, которая является определяющим фактором зависимой переменной и коррелирует с одной или несколькими включенными независимыми переменными. переменные.

В линейной регрессии

Интуиция

Предположим, что истинная причинно-следственная связь определяется формулой:

с параметрами a, b, c , зависимой переменной y , независимыми переменными x и z и ошибкой u . Мы хотим знать влияние самого x на y (то есть мы хотим получить оценку b ).

Для того, чтобы в линейной регрессии существовало смещение по пропущенной переменной, должны соблюдаться два условия :

Предположим, мы опускаем z из регрессии и предположим, что связь между x и z определяется выражением

с параметрами d , f и ошибкой e . Подстановка второго уравнения в первое дает

Если регрессия y проводится только по x , это последнее уравнение и является тем, что оценивается, а коэффициент регрессии по x на самом деле является оценкой ( b  +  cf ), давая не просто оценку желаемого прямого воздействия x на y . (то есть b ), а скорее его сумму с косвенным эффектом (эффект f от x на z , умноженный на эффект c от z на y ). Таким образом, исключив переменную z из регрессии, мы оценили полную производную y по x , а не его частную производную по  x . Они различаются, если оба c и f не равны нулю.

Направление и степень смещения содержатся в cf , поскольку искомый эффект равен b , но оценки регрессии b+cf . Степень смещения представляет собой абсолютное значение cf , а направление смещения вверх (в сторону более положительного или менее отрицательного значения), если cf > 0 (если направление корреляции между y и z такое же, как и между x и z ), в противном случае – вниз.

Детальный анализ

В качестве примера рассмотрим линейную модель вида

где

Мы собираем наблюдения всех переменных с индексами i = 1, ..., n и складываем их одно под другим, чтобы получить матрицу X и векторы Y , Z и U :

и

Если независимая переменная z исключена из регрессии, то оценочные значения параметров отклика других независимых переменных будут получены путем обычного расчета методом наименьших квадратов :

(где «простое» обозначение означает транспонирование матрицы , а верхний индекс -1 означает инверсию матрицы ).

Заменив Y на основе предполагаемой линейной модели,

Принимая во внимание ожидания, вклад последнего члена равен нулю; это следует из предположения, что U некоррелирован с регрессорами X . Об упрощении остальных условий:

Второй член после знака равенства в этом случае представляет собой смещение пропущенной переменной, которое не равно нулю, если пропущенная переменная z коррелирует с любой из включенных переменных в матрице X (то есть, если X'Z не равна вектор нулей). Обратите внимание, что смещение равно взвешенной части z i , которая «объясняется» x i .

Эффект в обычных наименьших квадратах

Теорема Гаусса-Маркова утверждает, что модели регрессии, которые удовлетворяют предположениям классической модели линейной регрессии, обеспечивают наиболее эффективные , линейные и несмещенные оценки. В обычном методе наименьших квадратов соответствующее предположение классической модели линейной регрессии заключается в том, что член ошибки не коррелирует с регрессорами.

Наличие систематической ошибки, связанной с пропущенными переменными, нарушает это конкретное предположение. Нарушение приводит к тому, что оценщик OLS оказывается предвзятым и противоречивым . Направление смещения зависит от оценщиков, а также от ковариации между регрессорами и пропущенными переменными. Положительная ковариация пропущенной переменной как с регрессором, так и с зависимой переменной приведет к тому, что оценка МНК коэффициента включенного регрессора будет больше истинного значения этого коэффициента. Этот эффект можно увидеть, взяв математическое ожидание параметра, как показано в предыдущем разделе.

Смотрите также

Рекомендации