Статистический метод, исправляющий систематическую ошибку выборки
Поправка Хекмана — это статистический метод, позволяющий исправить погрешность неслучайно выбранных выборок или иным образом случайно усеченных зависимых переменных , что является широко распространенной проблемой в количественных социальных науках при использовании данных наблюдений . [1] Концептуально это достигается путем явного моделирования индивидуальной вероятности выборки каждого наблюдения (так называемое уравнение отбора) вместе с условным ожиданием зависимой переменной (так называемое уравнение результата). Полученная функция правдоподобия математически похожа на тобит-модель для цензурированных зависимых переменных , связь, впервые установленную Джеймсом Хекманом в 1974 году. [2] Хекман также разработал подход с двухэтапной функцией управления для оценки этой модели, [3] который позволяет избежать вычислительное бремя необходимости оценивать оба уравнения совместно , хотя и ценой неэффективности . [4] Хекман получил Нобелевскую премию по экономике в 2000 году за свою работу в этой области. [5]
Метод
Статистический анализ, основанный на неслучайно отобранных выборках, может привести к ошибочным выводам. Коррекция Хекмана, двухэтапный статистический подход, предлагает средства коррекции неслучайно выбранных выборок.
Хекман рассматривал смещение от использования неслучайно выбранных выборок для оценки поведенческих взаимосвязей как ошибку спецификации. Он предлагает двухэтапный метод оценки для исправления систематической ошибки. Коррекция использует идею функции управления и ее легко реализовать. Коррекция Хекмана включает в себя предположение о нормальности , обеспечивает тест на предвзятость выборки и формулу для модели с поправкой на предвзятость.
Предположим, что исследователь хочет оценить факторы, определяющие предложения заработной платы, но имеет доступ к наблюдениям о заработной плате только тех, кто работает. Поскольку работающие люди выбираются из населения не случайным образом, оценка факторов, определяющих заработную плату, по работающей подгруппе населения может привести к смещению. Коррекция Хекмана происходит в два этапа.
На первом этапе исследователь формулирует модель вероятности работы, основанную на экономической теории . Канонической спецификацией этого отношения является пробит- регрессия вида
![{\displaystyle \operatorname {Prob} (D=1|Z)=\Phi (Z\gamma),}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
где D указывает на занятость ( D = 1, если респондент трудоустроен, и D = 0 в противном случае), Z — вектор объясняющих переменных, — вектор неизвестных параметров, а Φ — кумулятивная функция распределения стандартного нормального распределения . Оценка модели дает результаты, которые можно использовать для прогнозирования вероятности трудоустройства для каждого человека.![{\displaystyle \гамма }](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
На втором этапе исследователь корректирует самоотбор, включая преобразование этих предсказанных индивидуальных вероятностей в качестве дополнительной объясняющей переменной. Уравнение заработной платы может быть указано:
![{\displaystyle w^{*}=X\beta +u}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
где обозначает базовое предложение заработной платы, которое не соблюдается, если респондент не работает. Тогда условное ожидание заработной платы при условии, что человек работает, составит![{\displaystyle w^{*}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle E[w|X,D=1]=X\beta +E[u|X,D=1].}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
В предположении, что члены ошибок в совокупности нормальны , мы имеем
![{\displaystyle E[w|X,D=1]=X\beta +\rho \sigma _{u}\lambda (Z\gamma),}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
где ρ — корреляция между ненаблюдаемыми детерминантами склонности к труду и ненаблюдаемыми детерминантами предложения заработной платы u , σ u — стандартное отклонение , а — обратный коэффициент Миллса, оцениваемый в . Это уравнение демонстрирует понимание Хекмана о том, что выборку выборки можно рассматривать как форму систематической ошибки по пропущенным переменным , поскольку она обусловлена как X , так и выборкой, как если бы выборка была выбрана случайным образом. Уравнение заработной платы можно оценить, заменив оценками Пробита из первого этапа, построив член и включив его в качестве дополнительной объясняющей переменной в оценку линейной регрессии уравнения заработной платы. Поскольку , коэффициент on может быть нулевым только в том случае, если , поэтому проверка нуля, при которой коэффициент on равен нулю, эквивалентна проверке селективности выборки.
![{\displaystyle и}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \lambda }](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle Z\gamma }](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \lambda }](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \гамма }](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \lambda }](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \sigma _{u}>0}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \lambda }](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \rho =0}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \lambda }](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Достижения Хекмана породили большое количество эмпирических приложений в экономике, а также в других социальных науках. Исходный метод впоследствии был обобщен Хекманом и другими. [6]
Статистические выводы
Поправка Хекмана представляет собой двухэтапную M-оценку , в которой ковариационная матрица, сгенерированная оценкой OLS на втором этапе, противоречива. [7] Корректные стандартные ошибки и другие статистические данные могут быть сгенерированы на основе асимптотического приближения или путем повторной выборки, например, с помощью начальной загрузки . [8]
Недостатки
- Двухэтапный оценщик, описанный выше, представляет собой оценщик максимального правдоподобия с ограниченной информацией (LIML). В асимптотической теории и в конечных выборках, как показано моделированием Монте-Карло, оценка полной информации (FIML) демонстрирует лучшие статистические свойства. Однако оценщик FIML сложнее реализовать с вычислительной точки зрения. [9]
- Каноническая модель предполагает, что ошибки в целом нормальны. Если это предположение не соответствует действительности, то оценщик, как правило, непоследователен и может давать ошибочные выводы в небольших выборках. [10] В таких случаях можно использовать полупараметрические и другие надежные альтернативы. [11]
- Модель получает формальную идентификацию на основе предположения о нормальности, когда одни и те же ковариаты появляются в уравнении отбора и в уравнении интереса, но идентификация будет незначительной, если только в хвостах не будет много наблюдений, где существует существенная нелинейность в обратном коэффициенте Миллса. Как правило, для получения достоверных оценок требуется ограничение исключения: должна быть хотя бы одна переменная, которая появляется с ненулевым коэффициентом в уравнении выбора, но не появляется в интересующем уравнении, по сути, это инструмент . Если такая переменная отсутствует, может быть сложно внести поправку на избирательность выборки. [9] Причина этого двоякая: без инструмента идентификация опирается на предположение о функциональной форме, которое обычно считается очень слабым. [12] Более того, даже если предположение верно, выбранная функция может быть очень близка к линейной функциональной форме в исследуемой области, вызывая проблему мультиколлинеарности на втором этапе.
Реализации в пакетах статистики
- Р : Процедуры типа Хекмана доступны как часть пакета
sampleSelection
. [13] [14] - Stata : команда
heckman
предоставляет модель выбора Хекмана. [15] [16]
Смотрите также
Рекомендации
- ^ Уиншип, Кристофер; Маре, Роберт Д. (1992). «Модели систематической ошибки отбора выборки». Ежегодный обзор социологии . 18 : 327–350. doi : 10.1146/annurev.so.18.080192.001551.
- ^ Хекман, Джеймс (1974). «Теневые цены, рыночная заработная плата и предложение рабочей силы». Эконометрика . 42 (4): 679–694. дои : 10.2307/1913937. JSTOR 1913937.
- ^ Хекман, Джеймс (1976). «Общая структура статистических моделей усечения, выборки выборки и ограниченных зависимых переменных, а также простая система оценки для таких моделей». Анналы экономических и социальных измерений . 5 (4): 475–492.
- ^ Навата, Кадзумицу (1994). «Оценка моделей смещения выборки с помощью оценщика максимального правдоподобия и двухэтапного оценщика Хекмана». Письма по экономике . 45 (1): 33–40. дои : 10.1016/0165-1765(94)90053-1.
- ↑ Учитель, Луи (12 октября 2000 г.). «Два американца получили Нобелевскую премию по экономике». Газета "Нью-Йорк Таймс .
- ^ Ли, Лунг-Фей (2001). «Самоотбор». В Балтаги Б. (ред.). Компаньон теоретической эконометрики . Оксфорд: Блэквелл. стр. 383–409. дои : 10.1002/9780470996249.ch19. ISBN 9780470996249.
- ^ Амемия, Такеши (1985). Продвинутая эконометрика . Кембридж: Издательство Гарвардского университета. стр. 368–372. ISBN 0-674-00560-0.
- ^ Кэмерон, А. Колин ; Триведи, Правин К. (2005). «Последовательная двухэтапная m-оценка». Микроэконометрика: методы и приложения . Нью-Йорк: Издательство Кембриджского университета. стр. 200–202. ISBN 0-521-84805-9.
- ^ Аб Пухани, П. (2000). «Поправка Хекмана для отбора выборки и ее критика». Журнал экономических обзоров . 14 (1): 53–68. дои : 10.1111/1467-6419.00104.
- ^ Голдбергер, А. (1983). «Аномальная ошибка выбора». В Карлине, Сэмюэл ; Амемия, Такеши ; Гудман, Лео (ред.). Исследования в области эконометрики, временных рядов и многомерной статистики . Нью-Йорк: Академическая пресса. стр. 67–84. ISBN 0-12-398750-4.
- ^ Ньюи, Уитни; Пауэлл, Дж.; Уокер, Джеймс Р. (1990). «Полупараметрическая оценка моделей выбора: некоторые эмпирические результаты». Американский экономический обзор . 80 (2): 324–28. JSTOR 2006593.
- ^ Льюбель, Артур (01 декабря 2019 г.). «Зоопарк идентификации: значения идентификации в эконометрике». Журнал экономической литературы . 57 (4): 835–903. дои : 10.1257/jel.20181361. ISSN 0022-0515.
- ^ Тумет, О.; Хеннингсен, А. (2008). «Примеры моделей выбора в R: пакет sampleSelection». Журнал статистического программного обеспечения . 27 (7): 1–23. дои : 10.18637/jss.v027.i07 .
- ^ «sampleSelection: Модели выбора образца» . Р-проект . 3 мая 2019 г.
- ^ «Хекман — Модель выбора Хекмана» (PDF) . Руководство по Стате .
- ^ Кэмерон, А. Колин; Триведи, Правин К. (2010). Микроэконометрика с использованием Stata (пересмотренная ред.). Колледж-Стейшн: Stata Press. стр. 556–562. ISBN 978-1-59718-073-3.
дальнейшее чтение
- Ахен, Кристофер Х. (1986). «Оценка эффектов лечения в квазиэкспериментах: случай цензурированных данных». Статистический анализ квазиэкспериментов . Беркли: Издательство Калифорнийского университета. стр. 97–137. ISBN 0-520-04723-0.
- Брин, Ричард (1996). Модели регрессии: цензурированные, выборочные или усеченные данные. Таузенд-Оукс: Сейдж. стр. 33–48. ISBN 0-8039-5710-6.
- Фу, Винсент Канг; Уиншип, Кристофер ; Маре, Роберт Д. (2004). «Модели систематической ошибки отбора выборки». В Харди, Мелисса; Брайман, Алан (ред.). Справочник по анализу данных . Лондон: Сейдж. стр. 409–430. дои : 10.4135/9781848608184.n18. ISBN 0-7619-6652-8.
- Грин, Уильям Х. (2012). «Случайное усечение и выборка». Эконометрический анализ (Седьмое изд.). Бостон: Пирсон. стр. 912–27. ISBN 978-0-273-75356-8.
- Велла, Фрэнсис (1998). «Оценка моделей с предвзятостью отбора выборки: опрос». Журнал человеческих ресурсов . 33 (1): 127–169. дои : 10.2307/146317. JSTOR 146317.
Внешние ссылки
- Факты о Нобелевской премии Хекмана.