В случае, когда некоторые регрессоры были измерены с ошибками, оценка, основанная на стандартном предположении, приводит к несостоятельным оценкам, что означает, что оценки параметров не стремятся к истинным значениям даже в очень больших выборках. Для простой линейной регрессии эффектом является недооценка коэффициента, известная как смещение затухания . В нелинейных моделях направление смещения, вероятно, будет более сложным. [1] [2] [3]
Мотивирующий пример
Рассмотрим простую модель линейной регрессии вида
где обозначает истинный , но ненаблюдаемый регрессор . Вместо этого мы наблюдаем это значение с ошибкой:
где предполагается, что ошибка измерения не зависит от истинного значения . Практическим применением является стандартный школьный научный эксперимент для закона Гука , в котором оценивается соотношение между весом, добавленным к пружине, и величиной, на которую пружина растягивается.
Если ′s просто регрессируются на ′s (см. простую линейную регрессию ), то оценка для коэффициента наклона будет
которая сходится по мере увеличения размера выборки без ограничений:
Это контрастирует с «истинным» эффектом , оцененным с использованием ,:
Дисперсии неотрицательны, так что в пределе оценка меньше, чем , эффект, который статистики называют ослаблением или разбавлением регрессии . [4] Таким образом, «наивная» оценка наименьших квадратов является несостоятельной оценкой для . Однако, является состоятельной оценкой параметра, необходимого для наилучшего линейного предиктора с учетом наблюдаемого : в некоторых приложениях это может быть тем, что требуется, а не оценкой «истинного» коэффициента регрессии , хотя это предполагало бы, что дисперсия ошибок в оценке и предсказании идентична. Это следует непосредственно из результата, процитированного непосредственно выше, и того факта, что коэффициент регрессии, связывающий ′ s с фактически наблюдаемыми ′s, в простой линейной регрессии определяется как
Именно этот коэффициент, а не , потребуется для построения предиктора на основе наблюдаемого значения , подверженного шуму.
Можно утверждать, что почти все существующие наборы данных содержат ошибки разной природы и величины, так что смещение затухания встречается чрезвычайно часто (хотя в многомерной регрессии направление смещения неоднозначно [5] ). Джерри Хаусман рассматривает это как железный закон эконометрики : «Величина оценки обычно меньше ожидаемой». [6]
Спецификация
Обычно модели ошибок измерения описываются с использованием подхода скрытых переменных . Если — переменная отклика, а — наблюдаемые значения регрессоров, то предполагается, что существуют некоторые скрытые переменные и , которые следуют «истинной» функциональной зависимости модели , и такие, что наблюдаемые величины являются их зашумленными наблюдениями:
где — параметр модели , а — те регрессоры, которые считаются безошибочными (например, когда линейная регрессия содержит отсекаемый член, регрессор, соответствующий константе, определенно не имеет «ошибок измерения»). В зависимости от спецификации эти безошибочные регрессоры могут или не могут рассматриваться отдельно; в последнем случае просто предполагается, что соответствующие записи в матрице дисперсии 's равны нулю.
Все переменные , , наблюдаются , что означает, что статистик располагает набором данных статистических единиц , которые следуют описанному выше процессу генерации данных ; однако скрытые переменные , , , и не наблюдаются.
Эта спецификация не охватывает все существующие модели ошибок в переменных. Например, в некоторых из них функция может быть непараметрической или полупараметрической. Другие подходы моделируют связь между и как распределительную, а не функциональную, то есть они предполагают, что условно следует определенное (обычно параметрическое) распределение.
Терминология и предположения
Наблюдаемая переменная может называться манифестной , индикаторной или прокси- переменной .
Ненаблюдаемая переменная может быть названа скрытой или истинной переменной. Она может рассматриваться либо как неизвестная константа (в этом случае модель называется функциональной моделью ), либо как случайная величина (соответственно структурной моделью ). [7]
Связь между погрешностью измерения и скрытой переменной можно моделировать разными способами:
Классические ошибки : ошибки не зависят от скрытой переменной. Это наиболее распространенное предположение, оно подразумевает, что ошибки вносятся измерительным устройством и их величина не зависит от измеряемой величины.
Независимость среднего : ошибки равны нулю для каждого значения скрытого регрессора. Это менее ограничительное предположение, чем классическое, [8] , поскольку оно допускает наличие гетероскедастичности или других эффектов в ошибках измерения.
Ошибки Берксона :ошибки не зависят от наблюдаемого регрессора x . [9] Это предположение имеет очень ограниченную применимость. Одним из примеров являются ошибки округления: например, если возраст человека* является непрерывной случайной величиной , тогда как наблюдаемый возраст усекается до следующего наименьшего целого числа, то ошибка усечения приблизительно независима от наблюдаемого возраста . Другая возможность связана с экспериментом с фиксированным планом: например, если ученый решает провести измерение в определенный заранее определенный момент времени, скажем, в, то реальное измерение может произойти при некотором другом значении(например, из-за его конечного времени реакции), и такая ошибка измерения будет в целом независима от «наблюдаемого» значения регрессора.
Ошибки неправильной классификации : особый случай, используемый для фиктивных регрессоров . Если является индикатором определенного события или состояния (например, человек является мужчиной/женщиной, какое-то медицинское лечение было проведено/не проведено и т. д.), то ошибка измерения в таком регрессоре будет соответствовать неправильной классификации, аналогичной ошибкам типа I и типа II в статистическом тестировании. В этом случае ошибка может принимать только 3 возможных значения, а ее распределение, обусловленное моделируется двумя параметрами: , и . Необходимым условием для идентификации является то, что , то есть неправильная классификация не должна происходить «слишком часто». (Эту идею можно обобщить на дискретные переменные с более чем двумя возможными значениями.)
Линейная модель
Линейные модели ошибок в переменных были изучены первыми, вероятно, потому, что линейные модели использовались так широко, и они проще, чем нелинейные. В отличие от стандартной регрессии наименьших квадратов (OLS), расширение регрессии ошибок в переменных (EiV) от простого до многомерного случая не является простым, если только не рассматривать все переменные одинаково, т.е. предполагать равную надежность. [10]
Простая линейная модель
Простая линейная модель ошибок в переменных уже была представлена в разделе «мотивация»:
где все переменные скалярны . Здесь α и β — интересующие нас параметры, тогда как σ ε и σ η — стандартные отклонения членов ошибки — являются мешающими параметрами . «Истинный» регрессор x* рассматривается как случайная величина ( структурная модель), независимая от ошибки измерения η ( классическое предположение).
Эта модель идентифицируема в двух случаях: (1) либо скрытый регрессор x* не является нормально распределенным , (2) либо x* имеет нормальное распределение, но ни ε t, ни η t не делятся на нормальное распределение. [11] То есть параметры α , β могут быть последовательно оценены из набора данных без какой-либо дополнительной информации, при условии, что скрытый регрессор не является гауссовым.
До того, как был установлен этот результат идентифицируемости, статистики пытались применить метод максимального правдоподобия , предполагая, что все переменные нормальны, а затем пришли к выводу, что модель не идентифицирована. Предложенное средство состояло в том, чтобы предположить , что некоторые параметры модели известны или могут быть оценены из внешнего источника. Такие методы оценки включают [12]
Регрессия Деминга — предполагает, что отношение δ = σ² ε / σ² η известно. Это может быть уместно, например, когда ошибки в y и x вызваны измерениями, а точность измерительных приборов или процедур известна. Случай, когда δ = 1, также известен как ортогональная регрессия .
Регрессия с известным коэффициентом надежности λ = σ² ∗ / ( σ² η + σ² ∗ ), где σ² ∗ — дисперсия скрытого регрессора. Такой подход может быть применим, например, когда доступны повторяющиеся измерения одной и той же единицы или когда коэффициент надежности известен из независимого исследования. В этом случае последовательная оценка наклона равна оценке наименьших квадратов, деленной на λ .
Регрессия с известным σ² η может возникнуть, когда источник ошибок в x' s известен и их дисперсия может быть рассчитана. Это может включать ошибки округления или ошибки, вносимые измерительным устройством. Когда σ² η известно, мы можем вычислить коэффициент надежности как λ = ( σ² x − σ² η ) / σ² x и свести задачу к предыдущему случаю.
Методы оценки, не предполагающие знания некоторых параметров модели, включают в себя
Метод моментов — оценка GMM на основе совместных кумулянтов третьего (или более высокого) порядка наблюдаемых переменных. Коэффициент наклона можно оценить из [13]
где ( n 1 , n 2 ) таковы, что K ( n 1 +1, n 2 ) — совместный кумулянт ( x , y ) — не равен нулю. В случае, когда третий центральный момент латентного регрессора x* не равен нулю, формула сводится к
Инструментальные переменные — регрессия, которая требует, чтобы были доступны некоторые дополнительные переменные данных z , называемые инструментами . Эти переменные должны быть некоррелированными с ошибками в уравнении для зависимой (результирующей) переменной ( действительными ), и они также должны быть коррелированными ( релевантными ) с истинными регрессорами x* . Если такие переменные могут быть найдены, то оценщик принимает вид
Геометрическое среднее функциональное отношение. Это рассматривает обе переменные как имеющие одинаковую надежность. Результирующий наклон является геометрическим средним обычного наклона наименьших квадратов и обратного наклона наименьших квадратов, т.е. двух красных линий на диаграмме. [14]
Многопараметрическая линейная модель
Многомерная модель выглядит точно так же, как простая линейная модель, только на этот раз β , η t , x t и x* t являются векторами размера k× 1.
В случае, когда ( ε t , η t ) совместно нормальны, параметр β не идентифицируется тогда и только тогда, когда существует невырожденная блочная матрица k×k [ a A ], где a — вектор k× 1, такой, что a′x* распределен нормально и независимо от A′x* . В случае, когда ε t , η t1 ,..., η tk взаимно независимы, параметр β не идентифицируется тогда и только тогда, когда в дополнение к условиям выше некоторые ошибки можно записать в виде суммы двух независимых переменных, одна из которых нормальна. [15]
Некоторые методы оценки для многомерных линейных моделей:
Метод наименьших квадратов является расширением регрессии Деминга на многомерную настройку. Когда все k +1 компоненты вектора ( ε , η ) имеют равные дисперсии и независимы, это эквивалентно запуску ортогональной регрессии y на векторе x — то есть регрессии, которая минимизирует сумму квадратов расстояний между точками ( y t , x t ) и k -мерной гиперплоскостью «наилучшего соответствия».
Метод оценки моментов [16] может быть построен на основе моментных условий E[ z t ·( y t − α − β'x t )] = 0, где (5 k +3)-мерный вектор инструментов z t определяется как
где обозначает произведение Адамара матриц, а переменные x t , y t предварительно были обесценены. Авторы метода предлагают использовать модифицированную оценку IV Фуллера. [17]
Этот метод может быть расширен для использования моментов выше третьего порядка, если это необходимо, и для учета переменных, измеренных без ошибок. [18]
Подход инструментальных переменных требует от нас нахождения дополнительных переменных данных z t , которые служат инструментами для неверно измеренных регрессоров x t . Этот метод является самым простым с точки зрения реализации, однако его недостатком является то, что он требует сбора дополнительных данных, что может быть дорогостоящим или даже невозможным. Когда инструменты найдены, оценщик принимает стандартную форму
Подход беспристрастной подгонки рассматривает все переменные одинаково, предполагая равную надежность, и не требует никакого различия между объясняющими и ответными переменными, поскольку полученное уравнение может быть переставлено. Это простейшая модель погрешности измерения, и она является обобщением геометрического среднего функционального отношения, упомянутого выше для двух переменных. Он требует только вычисления ковариаций, и поэтому может быть оценен с использованием основных функций электронных таблиц. [19]
Нелинейные модели
Общая нелинейная модель погрешности измерения принимает форму
Здесь функция g может быть как параметрической, так и непараметрической. Когда функция g параметрическая, она будет записана как g ( x *, β ).
Для общего векторного регрессора x* условия идентифицируемости модели неизвестны. Однако в случае скаляра x* модель идентифицируется, если только функция g не имеет "логарифмически-экспоненциальную" форму [20]
и скрытый регрессор x* имеет плотность
где константы A , B , C , D , E , F могут зависеть от a , b , c , d .
Несмотря на этот оптимистичный результат, на данный момент не существует методов оценки нелинейных моделей ошибок в переменных без какой-либо внешней информации. Однако существует несколько методов, которые используют некоторые дополнительные данные: либо инструментальные переменные, либо повторные наблюдения.
Методы инструментальных переменных
Метод смоделированных моментов Ньюи [21] для параметрических моделей — требует, чтобы существовал дополнительный набор наблюдаемых предикторных переменных z t , такой, чтобы истинный регрессор мог быть выражен как
где π 0 и σ 0 — (неизвестные) постоянные матрицы, а ζ t ⊥ z t . Коэффициент π 0 можно оценить с помощью стандартной регрессии наименьших квадратов x на z . Распределение ζ t неизвестно, однако мы можем смоделировать его как принадлежащее гибкому параметрическому семейству — ряду Эджворта :
Моделируемые моменты можно вычислить с помощью алгоритма выборки по важности : сначала мы генерируем несколько случайных величин { v ts ~ ϕ , s = 1,…, S , t = 1,…, T } из стандартного нормального распределения, затем мы вычисляем моменты при t -м наблюдении как
где θ = ( β , σ , γ ), A — это просто некоторая функция инструментальных переменных z , а H — двухкомпонентный вектор моментов
С помощью моментных функций m t можно применить стандартный метод GMM для оценки неизвестного параметра θ .
Повторные наблюдения
В этом подходе доступны два (или может быть больше) повторных наблюдения регрессора x* . Оба наблюдения содержат свои собственные ошибки измерения, однако эти ошибки должны быть независимыми:
где x* ⊥ η 1 ⊥ η 2 . Переменные η 1 , η 2 не обязательно должны быть одинаково распределены (хотя если это так, эффективность оценщика может быть немного улучшена). Имея только эти два наблюдения, можно последовательно оценить функцию плотности x*, используя метод деконволюции Котларски . [22]
Метод условной плотности Ли для параметрических моделей. [23] Уравнение регрессии можно записать в терминах наблюдаемых переменных как
где можно было бы вычислить интеграл, если бы мы знали условную функцию плотности ƒ x*|x . Если бы эта функция могла быть известна или оценена, то задача превращается в стандартную нелинейную регрессию, которую можно оценить, например, с помощью метода NLLS . Предполагая для простоты, что η 1 , η 2 распределены одинаково, эта условная плотность может быть вычислена как
где с небольшой ошибкой в обозначениях x j обозначает j -й компонент вектора. Все плотности в этой формуле можно оценить с помощью инверсии эмпирических характеристических функций . В частности,
Для того чтобы инвертировать эти характеристические функции, необходимо применить обратное преобразование Фурье с параметром обрезки C, необходимым для обеспечения численной устойчивости. Например:
Оценка Шеннаха для параметрической линейной по параметрам и нелинейной по переменным модели. [24] Это модель вида
где w t представляет собой переменные, измеренные без ошибок. Регрессор x* здесь скалярный (метод можно распространить и на случай вектора x* ).
Если бы не ошибки измерения, это была бы стандартная линейная модель с оценщиком
где
Оказывается, все ожидаемые значения в этой формуле можно оценить, используя тот же трюк деконволюции. В частности, для общей наблюдаемой w t (которая может быть 1, w 1 t , …, w ℓ t , или y t ) и некоторой функции h (которая может представлять любой g j или g i g j ) мы имеем
^ Грин, Уильям Х. (2003). Эконометрический анализ (5-е изд.). Нью-Джерси: Prentice Hall. Глава 5.6.1. ISBN978-0-13-066189-0.
^ Wansbeek, T.; Meijer, E. (2000). «Ошибка измерения и скрытые переменные». В Baltagi, BH (ред.). A Companion to Theoretical Econometrics . Blackwell. стр. 162–179. doi :10.1111/b.9781405106764.2003.00013.x. ISBN9781405106764.
^ Хаусман, Джерри А. (2001). «Неправильно измеренные переменные в эконометрическом анализе: проблемы справа и проблемы слева». Журнал экономических перспектив . 15 (4): 57–67 [стр. 58]. doi : 10.1257/jep.15.4.57 . JSTOR 2696516.
^ Фуллер, Уэйн А. (1987). Модели погрешности измерения. John Wiley & Sons. стр. 2. ISBN978-0-471-86187-4.
^ Хаяси, Фумио (2000). Эконометрика. Princeton University Press. С. 7–8. ISBN978-1400823833.
^ Коул, Хира; Сонг, Вэйсин (2008). «Проверка регрессионной модели с ошибками измерения Берксона». Журнал статистического планирования и вывода . 138 (6): 1615–1628. doi :10.1016/j.jspi.2007.05.048.
^ Тофаллис, К. (2023). Подгонка уравнения к данным беспристрастно. Математика, 11(18), 3957. https://ssrn.com/abstract=4556739 https://doi.org/10.3390/math11183957
^ Рейерсол, Олав (1950). «Идентифицируемость линейной связи между переменными, подверженными ошибкам». Econometrica . 18 (4): 375–389 [стр. 383]. doi :10.2307/1907835. JSTOR 1907835.Несколько более ограничительный результат был установлен ранее Гири, RC (1942). «Внутренние связи между случайными величинами». Труды Королевской Ирландской Академии . 47 : 63–76. JSTOR 20488436.Он показал, что при дополнительном предположении, что ( ε, η ) являются совместно нормальными, модель не идентифицируется тогда и только тогда, когда x* s являются нормальными.
^ Фуллер, Уэйн А. (1987). «Единственная объясняющая переменная». Модели ошибок измерения . John Wiley & Sons. стр. 1–99. ISBN978-0-471-86187-4.
^ Пал, Маноранджан (1980). «Согласованные оценки моментов коэффициентов регрессии при наличии ошибок в переменных». Журнал эконометрики . 14 (3): 349–364 (стр. 360–361). doi :10.1016/0304-4076(80)90032-9.
^ Сюй, Шаоцзи (2014-10-02). «Свойство геометрической средней регрессии». Американский статистик . 68 (4): 277–281. doi :10.1080/00031305.2014.962763. ISSN 0003-1305.
^ Бен-Моше, Дэн (2020). «Идентификация линейных регрессий с ошибками во всех переменных». Эконометрическая теория . 37 (4): 1–31. arXiv : 1404.1473 . doi : 10.1017/S0266466620000250. S2CID 225653359.
^ Dagenais, Marcel G.; Dagenais, Denyse L. (1997). «Оценки более высоких моментов для моделей линейной регрессии с ошибками в переменных». Журнал эконометрики . 76 (1–2): 193–221. CiteSeerX 10.1.1.669.8286 . doi :10.1016/0304-4076(95)01789-5. В более ранней статье Пал (1980) рассмотрел более простой случай, когда все компоненты вектора ( ε , η ) независимы и симметрично распределены.
^ Фуллер, Уэйн А. (1987). Модели погрешности измерения. John Wiley & Sons. стр. 184. ISBN978-0-471-86187-4.
^ Эриксон, Тимоти; Уайтед, Тони М. (2002). «Двухшаговая оценка GMM модели ошибок в переменных с использованием моментов высокого порядка». Эконометрическая теория . 18 (3): 776–799. doi :10.1017/s0266466602183101. JSTOR 3533649. S2CID 14729228.
^ Тофаллис, К. (2023). Подгонка уравнения к данным беспристрастно. Математика, 11(18), 3957. https://ssrn.com/abstract=4556739 https://doi.org/10.3390/math11183957
^ Шеннах, С .; Ху, И.; Льюбель, А. (2007). «Непараметрическая идентификация классической модели ошибок в переменных без побочной информации». Рабочий документ .
^ Ньюи, Уитни К. (2001). «Гибкая имитационная оценка момента нелинейной модели ошибок в переменных». Обзор экономики и статистики . 83 (4): 616–627. doi :10.1162/003465301753237704. hdl : 1721.1/63613 . JSTOR 3211757. S2CID 57566922.
^ Ли, Тонг; Вуонг, Куанг (1998). «Непараметрическая оценка модели ошибки измерения с использованием нескольких индикаторов». Журнал многомерного анализа . 65 (2): 139–165. doi : 10.1006/jmva.1998.1741 .
^ Ли, Тонг (2002). «Надежная и последовательная оценка нелинейных моделей с ошибками в переменных». Журнал эконометрики . 110 (1): 1–26. doi :10.1016/S0304-4076(02)00120-3.
^ Шеннах, Сюзанна М. (2004). «Оценка нелинейных моделей с погрешностью измерения». Econometrica . 72 (1): 33–75. doi :10.1111/j.1468-0262.2004.00477.x. JSTOR 3598849.
^ Шеннах, Сюзанна М. (2004). «Непараметрическая регрессия при наличии ошибки измерения». Эконометрическая теория . 20 (6): 1046–1093. doi :10.1017/S0266466604206028. S2CID 123036368.
Дальнейшее чтение
Догерти, Кристофер (2011). «Стохастические регрессоры и ошибки измерения». Введение в эконометрику (четвертое изд.). Oxford University Press. стр. 300–330. ISBN 978-0-19-956708-9.
Кмента, Ян (1986). «Оценка с недостающими данными». Элементы эконометрики (второе изд.). Нью-Йорк: Macmillan. С. 346–391. ISBN 978-0-02-365070-3.
Schennach, Susanne (2013). «Ошибка измерения в нелинейных моделях – Обзор». В Acemoglu, Daron; Arellano, Manuel; Dekel, Eddie (ред.). Advances in Economics and Econometrics . Cambridge University Press. стр. 296–337. doi : 10.1017/CBO9781139060035.009. hdl : 10419/79526. ISBN 9781107017214.
Внешние ссылки
Исторический обзор линейной регрессии с ошибками в обеих переменных, JW Gillard 2006
Лекция по эконометрике (тема: Стохастические регрессоры и погрешность измерения) на YouTube от Марка Томы .