stringtranslate.com

Модели ошибок в переменных

В статистике модели ошибок в переменных или модели ошибок измерения являются регрессионными моделями , которые учитывают ошибки измерения в независимых переменных . Напротив , стандартные регрессионные модели предполагают, что эти регрессоры были измерены точно или наблюдались без ошибок; как таковые, эти модели учитывают только ошибки в зависимых переменных или откликах. [ необходима цитата ]

Иллюстрация разбавления регрессии (или смещения затухания) диапазоном оценок регрессии в моделях с ошибками в переменных. Две линии регрессии (красные) ограничивают диапазон возможностей линейной регрессии. Пологий наклон получается, когда независимая переменная (или предиктор) находится на оси x. Более крутой наклон получается, когда независимая переменная находится на оси y. По соглашению, при независимой переменной на оси x получается более пологий наклон. Зеленые опорные линии представляют собой средние значения в произвольных ячейках вдоль каждой оси. Обратите внимание, что более крутые зеленые и красные оценки регрессии более согласованы с меньшими ошибками в переменной оси y.

В случае, когда некоторые регрессоры были измерены с ошибками, оценка, основанная на стандартном предположении, приводит к несостоятельным оценкам, что означает, что оценки параметров не стремятся к истинным значениям даже в очень больших выборках. Для простой линейной регрессии эффектом является недооценка коэффициента, известная как смещение затухания . В нелинейных моделях направление смещения, вероятно, будет более сложным. [1] [2] [3]

Мотивирующий пример

Рассмотрим простую модель линейной регрессии вида

где обозначает истинный , но ненаблюдаемый регрессор . Вместо этого мы наблюдаем это значение с ошибкой:

где предполагается, что ошибка измерения не зависит от истинного значения . Практическим применением является стандартный школьный научный эксперимент для закона Гука , в котором оценивается соотношение между весом, добавленным к пружине, и величиной, на которую пружина растягивается. Если ′s просто регрессируются на ′s (см. простую линейную регрессию ), то оценка для коэффициента наклона будет

которая сходится по мере увеличения размера выборки без ограничений:

Это контрастирует с «истинным» эффектом , оцененным с использованием ,:

Дисперсии неотрицательны, так что в пределе оценка меньше, чем , эффект, который статистики называют ослаблением или разбавлением регрессии . [4] Таким образом, «наивная» оценка наименьших квадратов является несостоятельной оценкой для . Однако, является состоятельной оценкой параметра, необходимого для наилучшего линейного предиктора с учетом наблюдаемого : в некоторых приложениях это может быть тем, что требуется, а не оценкой «истинного» коэффициента регрессии , хотя это предполагало бы, что дисперсия ошибок в оценке и предсказании идентична. Это следует непосредственно из результата, процитированного непосредственно выше, и того факта, что коэффициент регрессии, связывающий ′ s с фактически наблюдаемыми ′s, в простой линейной регрессии определяется как

Именно этот коэффициент, а не , потребуется для построения предиктора на основе наблюдаемого значения , подверженного шуму.

Можно утверждать, что почти все существующие наборы данных содержат ошибки разной природы и величины, так что смещение затухания встречается чрезвычайно часто (хотя в многомерной регрессии направление смещения неоднозначно [5] ). Джерри Хаусман рассматривает это как железный закон эконометрики : «Величина оценки обычно меньше ожидаемой». [6]

Спецификация

Обычно модели ошибок измерения описываются с использованием подхода скрытых переменных . Если — переменная отклика, а — наблюдаемые значения регрессоров, то предполагается, что существуют некоторые скрытые переменные и , которые следуют «истинной» функциональной зависимости модели , и такие, что наблюдаемые величины являются их зашумленными наблюдениями:

где — параметр модели , а — те регрессоры, которые считаются безошибочными (например, когда линейная регрессия содержит отсекаемый член, регрессор, соответствующий константе, определенно не имеет «ошибок измерения»). В зависимости от спецификации эти безошибочные регрессоры могут или не могут рассматриваться отдельно; в последнем случае просто предполагается, что соответствующие записи в матрице дисперсии 's равны нулю.

Все переменные , , наблюдаются , что означает, что статистик располагает набором данных статистических единиц , которые следуют описанному выше процессу генерации данных ; однако скрытые переменные , , , и не наблюдаются.

Эта спецификация не охватывает все существующие модели ошибок в переменных. Например, в некоторых из них функция может быть непараметрической или полупараметрической. Другие подходы моделируют связь между и как распределительную, а не функциональную, то есть они предполагают, что условно следует определенное (обычно параметрическое) распределение.

Терминология и предположения

Линейная модель

Линейные модели ошибок в переменных были изучены первыми, вероятно, потому, что линейные модели использовались так широко, и они проще, чем нелинейные. В отличие от стандартной регрессии наименьших квадратов (OLS), расширение регрессии ошибок в переменных (EiV) от простого до многомерного случая не является простым, если только не рассматривать все переменные одинаково, т.е. предполагать равную надежность. [10]

Простая линейная модель

Простая линейная модель ошибок в переменных уже была представлена ​​в разделе «мотивация»:

где все переменные скалярны . Здесь α и β — интересующие нас параметры, тогда как σ ε и σ η — стандартные отклонения членов ошибки — являются мешающими параметрами . «Истинный» регрессор x* рассматривается как случайная величина ( структурная модель), независимая от ошибки измерения η ( классическое предположение).

Эта модель идентифицируема в двух случаях: (1) либо скрытый регрессор x* не является нормально распределенным , (2) либо x* имеет нормальное распределение, но ни ε t, ни η t не делятся на нормальное распределение. [11] То есть параметры α , β могут быть последовательно оценены из набора данных без какой-либо дополнительной информации, при условии, что скрытый регрессор не является гауссовым.

До того, как был установлен этот результат идентифицируемости, статистики пытались применить метод максимального правдоподобия , предполагая, что все переменные нормальны, а затем пришли к выводу, что модель не идентифицирована. Предложенное средство состояло в том, чтобы предположить , что некоторые параметры модели известны или могут быть оценены из внешнего источника. Такие методы оценки включают [12]

Методы оценки, не предполагающие знания некоторых параметров модели, включают в себя

Многопараметрическая линейная модель

Многомерная модель выглядит точно так же, как простая линейная модель, только на этот раз β , η t , x t и x* t являются векторами размера k× 1.

В случае, когда ( ε t , η t ) совместно нормальны, параметр β не идентифицируется тогда и только тогда, когда существует невырожденная  блочная матрица k×k [ a A ], где a — вектор 1, такой, что a′x*  распределен нормально и независимо от  A′x* . В случае, когда ε t , η t1 ,..., η tk взаимно независимы, параметр  β  не идентифицируется тогда и только тогда, когда в дополнение к условиям выше некоторые ошибки можно записать в виде суммы двух независимых переменных, одна из которых нормальна. [15]

Некоторые методы оценки для многомерных линейных моделей:

Нелинейные модели

Общая нелинейная модель погрешности измерения принимает форму

Здесь функция g может быть как параметрической, так и непараметрической. Когда функция g параметрическая, она будет записана как g ( x *, β ).

Для общего векторного регрессора x* условия идентифицируемости модели неизвестны. Однако в случае скаляра x* модель идентифицируется, если только функция g не имеет "логарифмически-экспоненциальную" форму [20]

и скрытый регрессор x* имеет плотность

где константы A , B , C , D , E , F могут зависеть от a , b , c , d .

Несмотря на этот оптимистичный результат, на данный момент не существует методов оценки нелинейных моделей ошибок в переменных без какой-либо внешней информации. Однако существует несколько методов, которые используют некоторые дополнительные данные: либо инструментальные переменные, либо повторные наблюдения.

Методы инструментальных переменных

Повторные наблюдения

В этом подходе доступны два (или может быть больше) повторных наблюдения регрессора x* . Оба наблюдения содержат свои собственные ошибки измерения, однако эти ошибки должны быть независимыми:

где x*η 1η 2 . Переменные η 1 , η 2 не обязательно должны быть одинаково распределены (хотя если это так, эффективность оценщика может быть немного улучшена). Имея только эти два наблюдения, можно последовательно оценить функцию плотности x*, используя метод деконволюции Котларски . [22]

Ссылки

  1. ^ Грилихес, Цви; Рингстад, Видар (1970). «Смещение ошибок в переменных в нелинейных контекстах». Econometrica . 38 (2): 368–370. doi :10.2307/1913020. JSTOR  1913020.
  2. ^ Чешер, Эндрю (1991). «Эффект ошибки измерения». Biometrika . 78 (3): 451–462. doi :10.1093/biomet/78.3.451. JSTOR  2337015.
  3. ^ Кэрролл, Рэймонд Дж.; Рупперт, Дэвид; Стефански, Леонард А.; Крайничану, Киприан (2006). Погрешность измерения в нелинейных моделях: современная перспектива (второе издание). ISBN 978-1-58488-633-4.
  4. ^ Грин, Уильям Х. (2003). Эконометрический анализ (5-е изд.). Нью-Джерси: Prentice Hall. Глава 5.6.1. ISBN 978-0-13-066189-0.
  5. ^ Wansbeek, T.; Meijer, E. (2000). «Ошибка измерения и скрытые переменные». В Baltagi, BH (ред.). A Companion to Theoretical Econometrics . Blackwell. стр. 162–179. doi :10.1111/b.9781405106764.2003.00013.x. ISBN 9781405106764.
  6. ^ Хаусман, Джерри А. (2001). «Неправильно измеренные переменные в эконометрическом анализе: проблемы справа и проблемы слева». Журнал экономических перспектив . 15 (4): 57–67 [стр. 58]. doi : 10.1257/jep.15.4.57 . JSTOR  2696516.
  7. ^ Фуллер, Уэйн А. (1987). Модели погрешности измерения. John Wiley & Sons. стр. 2. ISBN 978-0-471-86187-4.
  8. ^ Хаяси, Фумио (2000). Эконометрика. Princeton University Press. С. 7–8. ISBN 978-1400823833.
  9. ^ Коул, Хира; Сонг, Вэйсин (2008). «Проверка регрессионной модели с ошибками измерения Берксона». Журнал статистического планирования и вывода . 138 (6): 1615–1628. doi :10.1016/j.jspi.2007.05.048.
  10. ^ Тофаллис, К. (2023). Подгонка уравнения к данным беспристрастно. Математика, 11(18), 3957. https://ssrn.com/abstract=4556739 https://doi.org/10.3390/math11183957
  11. ^ Рейерсол, Олав (1950). «Идентифицируемость линейной связи между переменными, подверженными ошибкам». Econometrica . 18 (4): 375–389 [стр. 383]. doi :10.2307/1907835. JSTOR  1907835.Несколько более ограничительный результат был установлен ранее Гири, RC (1942). «Внутренние связи между случайными величинами». Труды Королевской Ирландской Академии . 47 : 63–76. JSTOR  20488436.Он показал, что при дополнительном предположении, что ( ε, η ) являются совместно нормальными, модель не идентифицируется тогда и только тогда, когда x* s являются нормальными.
  12. ^ Фуллер, Уэйн А. (1987). «Единственная объясняющая переменная». Модели ошибок измерения . John Wiley & Sons. стр. 1–99. ISBN 978-0-471-86187-4.
  13. ^ Пал, Маноранджан (1980). «Согласованные оценки моментов коэффициентов регрессии при наличии ошибок в переменных». Журнал эконометрики . 14 (3): 349–364 (стр. 360–361). doi :10.1016/0304-4076(80)90032-9.
  14. ^ Сюй, Шаоцзи (2014-10-02). «Свойство геометрической средней регрессии». Американский статистик . 68 (4): 277–281. doi :10.1080/00031305.2014.962763. ISSN  0003-1305.
  15. ^ Бен-Моше, Дэн (2020). «Идентификация линейных регрессий с ошибками во всех переменных». Эконометрическая теория . 37 (4): 1–31. arXiv : 1404.1473 . doi : 10.1017/S0266466620000250. S2CID  225653359.
  16. ^ Dagenais, Marcel G.; Dagenais, Denyse L. (1997). «Оценки более высоких моментов для моделей линейной регрессии с ошибками в переменных». Журнал эконометрики . 76 (1–2): 193–221. CiteSeerX 10.1.1.669.8286 . doi :10.1016/0304-4076(95)01789-5. В более ранней статье Пал (1980) рассмотрел более простой случай, когда все компоненты вектора ( ε , η ) независимы и симметрично распределены.
  17. ^ Фуллер, Уэйн А. (1987). Модели погрешности измерения. John Wiley & Sons. стр. 184. ISBN 978-0-471-86187-4.
  18. ^ Эриксон, Тимоти; Уайтед, Тони М. (2002). «Двухшаговая оценка GMM модели ошибок в переменных с использованием моментов высокого порядка». Эконометрическая теория . 18 (3): 776–799. doi :10.1017/s0266466602183101. JSTOR  3533649. S2CID  14729228.
  19. ^ Тофаллис, К. (2023). Подгонка уравнения к данным беспристрастно. Математика, 11(18), 3957. https://ssrn.com/abstract=4556739 https://doi.org/10.3390/math11183957
  20. ^ Шеннах, С .; Ху, И.; Льюбель, А. (2007). «Непараметрическая идентификация классической модели ошибок в переменных без побочной информации». Рабочий документ .
  21. ^ Ньюи, Уитни К. (2001). «Гибкая имитационная оценка момента нелинейной модели ошибок в переменных». Обзор экономики и статистики . 83 (4): 616–627. doi :10.1162/003465301753237704. hdl : 1721.1/63613 . JSTOR  3211757. S2CID  57566922.
  22. ^ Ли, Тонг; Вуонг, Куанг (1998). «Непараметрическая оценка модели ошибки измерения с использованием нескольких индикаторов». Журнал многомерного анализа . 65 (2): 139–165. doi : 10.1006/jmva.1998.1741 .
  23. ^ Ли, Тонг (2002). «Надежная и последовательная оценка нелинейных моделей с ошибками в переменных». Журнал эконометрики . 110 (1): 1–26. doi :10.1016/S0304-4076(02)00120-3.
  24. ^ Шеннах, Сюзанна М. (2004). «Оценка нелинейных моделей с погрешностью измерения». Econometrica . 72 (1): 33–75. doi :10.1111/j.1468-0262.2004.00477.x. JSTOR  3598849.
  25. ^ Шеннах, Сюзанна М. (2004). «Непараметрическая регрессия при наличии ошибки измерения». Эконометрическая теория . 20 (6): 1046–1093. doi :10.1017/S0266466604206028. S2CID  123036368.

Дальнейшее чтение

Внешние ссылки