stringtranslate.com

Смещение пропущенной переменной

В статистике смещение из-за пропущенных переменных ( OVB ) происходит, когда статистическая модель упускает одну или несколько релевантных переменных. Смещение приводит к тому, что модель приписывает эффект пропущенных переменных тем, которые были включены .

Более конкретно, OVB — это смещение , которое появляется в оценках параметров в регрессионном анализе , когда предполагаемая спецификация неверна, поскольку в ней отсутствует независимая переменная, которая является детерминантой зависимой переменной и коррелирует с одной или несколькими включенными независимыми переменными.

В линейной регрессии

Интуиция

Предположим, что истинная причинно-следственная связь имеет вид:

с параметрами a, b, c , зависимой переменной y , независимыми переменными x и z и ошибкой u . Мы хотим узнать влияние самого x на y (то есть мы хотим получить оценку b ).

Для существования смещения из-за пропущенной переменной в линейной регрессии должны выполняться два условия :

Предположим, что мы исключили z из регрессии и предположим, что связь между x и z задается выражением

с параметрами d , f и ошибкой e . Подстановка второго уравнения в первое дает

Если регрессия y проводится только по x , то это последнее уравнение и есть то, что оценивается, а коэффициент регрессии по x на самом деле является оценкой ( b  +  cf ), давая не просто оценку желаемого прямого эффекта x на y (который равен b ), а скорее его суммы с косвенным эффектом (эффект f от x на z , умноженный на эффект c от z на y ). Таким образом, исключая переменную z из регрессии, мы оцениваем полную производную y по x , а не ее частную производную по  x . Они различаются, если и c , и f не равны нулю.

Направление и степень смещения содержатся в cf , поскольку искомый эффект — b , но регрессия оценивает b + cf . Степень смещения — это абсолютное значение cf , а направление смещения — вверх (в сторону более положительного или менее отрицательного значения), если cf > 0 (если направление корреляции между y и z такое же, как между x и z ), и вниз в противном случае.

Подробный анализ

В качестве примера рассмотрим линейную модель вида

где

Мы собираем наблюдения всех переменных с индексами i = 1, ..., n и размещаем их друг под другом, чтобы получить матрицу X и векторы Y , Z и U :

и

Если независимая переменная z исключена из регрессии, то оценочные значения параметров отклика других независимых переменных будут получены с помощью обычного расчета по методу наименьших квадратов ,

(где обозначение «штрих» означает транспонирование матрицы, а верхний индекс -1 — обращение матрицы ).

Подставляя Y на основе предполагаемой линейной модели,

Принимая во внимание ожидания, вклад конечного члена равен нулю; это следует из предположения, что U не коррелирует с регрессорами X. При упрощении оставшихся членов:

Второй член после знака равенства в этом случае является смещением пропущенной переменной, которое не равно нулю, если пропущенная переменная z коррелирует с любой из включенных переменных в матрице X (то есть, если X′Z не равен вектору нулей). Обратите внимание, что смещение равно взвешенной части z i , которая «объясняется» x i .

Эффект в обычном методе наименьших квадратов

Теорема Гаусса –Маркова утверждает, что модели регрессии, которые удовлетворяют предположениям классической линейной регрессионной модели, обеспечивают наиболее эффективные , линейные и несмещенные оценки. В обычных наименьших квадратах соответствующее предположение классической линейной регрессионной модели заключается в том, что член ошибки не коррелирует с регрессорами.

Наличие смещения из-за пропущенной переменной нарушает это конкретное предположение. Нарушение приводит к тому, что оценка OLS становится смещенной и непоследовательной . Направление смещения зависит от оценок, а также от ковариации между регрессорами и пропущенными переменными. Положительная ковариация пропущенной переменной как с регрессором, так и с зависимой переменной приведет к тому, что оценка OLS коэффициента включенного регрессора будет больше истинного значения этого коэффициента. Этот эффект можно увидеть, взяв ожидание параметра, как показано в предыдущем разделе.

Смотрите также

Ссылки