stringtranslate.com

Гомоскедастичность и гетероскедастичность

График со случайными данными, показывающий гомоскедастичность: при каждом значении x значение y точек имеет примерно одинаковую дисперсию .
График со случайными данными, показывающий гетероскедастичность: дисперсия значений y точек увеличивается с увеличением значений x .

В статистике последовательность случайных величин является гомоскедастической ( / ˌ h m s k ə ˈ d æ s t ɪ k / ) , если все ее случайные величины имеют одинаковую конечную дисперсию ; это также известно как однородность дисперсии . Дополнительное понятие называется гетероскедастичностью , также известной как гетерогенность дисперсии . Также часто используются варианты написания homos k edasticity и гетероs k edasticity . [1] [2] [3] Предположение, что переменная гомоскедастична, тогда как на самом деле она гетероскедастична ( / ˌ h ɛ t ər s k ə ˈ d æ s t ɪ k / ) приводит к несмещенным, но неэффективным точечным оценкам и к смещенным оценки стандартных ошибок и может привести к переоценке степени соответствия , измеряемой коэффициентом Пирсона .

Существование гетероскедастичности является серьезной проблемой в регрессионном анализе и дисперсионном анализе , поскольку оно делает недействительными статистические тесты значимости , которые предполагают, что все ошибки моделирования имеют одинаковую дисперсию. Хотя обычная оценка методом наименьших квадратов все еще является несмещенной при наличии гетероскедастичности, она неэффективна, а вывод, основанный на предположении о гомоскедастичности, вводит в заблуждение. В этом случае в прошлом часто использовался метод обобщенных наименьших квадратов (GLS). [4] [5] В настоящее время стандартной практикой в ​​эконометрике является включение стандартных ошибок, согласованных с гетероскедастичностью, вместо использования GLS, поскольку GLS может демонстрировать сильное смещение в небольших выборках, если фактическая скедастическая функция неизвестна. [6]

Поскольку гетероскедастичность касается ожиданий второго момента ошибки, ее наличие называется некорректной спецификацией второго порядка. [7]

Эконометрист Роберт Энгл был удостоен Нобелевской премии по экономике 2003 года за исследования регрессионного анализа при наличии гетероскедастичности, которые привели к формулировке метода моделирования авторегрессионной условной гетероскедастичности (ARCH). [8]

Определение

Рассмотрим уравнение линейной регрессии , в котором зависимая случайная переменная равна умноженному коэффициенту детерминированной переменной плюс член случайного возмущения , который имеет нулевое среднее значение. Возмущения гомоскедастичны, если дисперсия постоянна ; в противном случае они гетероскедастичны. В частности, возмущения являются гетероскедастическими, если дисперсия зависит от или от значения . Один из способов, которым они могут быть гетероскедастическими, — это if (пример скедастической функции ), поэтому дисперсия пропорциональна значению .

В более общем смысле, если дисперсионно-ковариационная матрица возмущений имеет непостоянную диагональ, возмущение является гетероскедастическим. [9] Приведенные ниже матрицы представляют собой ковариации, когда во времени имеется всего три наблюдения. Возмущение в матрице A гомоскедастично; это простой случай, когда OLS является лучшим линейным несмещенным оценщиком. Возмущения в матрицах B и C являются гетероскедастическими. В матрице B дисперсия меняется во времени и постоянно увеличивается во времени; в матрице C дисперсия зависит от значения . Нарушение в матрице D является гомоскедастическим, поскольку диагональные дисперсии постоянны, даже несмотря на то, что недиагональные ковариации отличны от нуля, а обычный метод наименьших квадратов неэффективен по другой причине: серийная корреляция.

Примеры

Гетероскедастичность часто возникает, когда существует большая разница в размерах наблюдений.

Классическим примером гетероскедастичности является соотношение доходов и расходов на питание. Богатый человек может иногда есть недорогую еду, а иногда и дорогую. Бедный человек почти всегда будет есть недорогую еду. Таким образом, люди с более высокими доходами демонстрируют большую вариативность расходов на питание.

При запуске ракеты наблюдатель измеряет расстояние, пройденное ракетой, один раз в секунду. В первые пару секунд измерения могут быть точными до ближайшего сантиметра. Через пять минут точность измерений может быть хорошей только до 100 м из-за увеличения расстояния, атмосферных искажений и множества других факторов. Таким образом, измерения расстояний могут проявлять гетероскедастичность.

Последствия

Одним из предположений классической модели линейной регрессии является отсутствие гетероскедастичности. Нарушение этого предположения означает, что теорема Гаусса-Маркова неприменима, а это означает, что оценщики OLS не являются лучшими линейными несмещенными оценщиками (СИНИЙ) , а их дисперсия не является самой низкой среди всех других несмещенных оценщиков. Гетероскедастичность не приводит к смещению оценок обычных коэффициентов наименьших квадратов, хотя она может привести к смещению обычных оценок дисперсии (и, следовательно, стандартных ошибок) коэффициентов по методу наименьших квадратов, возможно, выше или ниже истинной дисперсии генеральной совокупности. Таким образом, регрессионный анализ с использованием гетероскедастических данных по-прежнему обеспечит несмещенную оценку взаимосвязи между переменной-предиктором и результатом, но стандартные ошибки и, следовательно, выводы, полученные в результате анализа данных, являются подозрительными. Смещенные стандартные ошибки приводят к смещенным выводам, поэтому результаты проверки гипотез могут быть неверными. Например, если МНК выполняется на гетероскедастическом наборе данных, что дает смещенную оценку стандартной ошибки, исследователь может не отклонить нулевую гипотезу на заданном уровне значимости , тогда как эта нулевая гипотеза фактически не характерна для реальной популяции (что делает тип II ошибка ).

При определенных предположениях оценка OLS имеет нормальное асимптотическое распределение , если она правильно нормализована и центрирована (даже если данные не получены из нормального распределения ). Этот результат используется для обоснования использования нормального распределения или распределения хи-квадрат (в зависимости от того, как рассчитывается статистика теста ) при проведении проверки гипотезы . Это справедливо даже в условиях гетероскедастичности. Точнее, оценка OLS при наличии гетероскедастичности является асимптотически нормальной, если она правильно нормирована и центрирована, с дисперсионно-ковариационной матрицей , которая отличается от случая гомоскедастичности. В 1980 году Уайт предложил непротиворечивую оценку дисперсионно-ковариационной матрицы асимптотического распределения оценки OLS. [2] Это подтверждает правильность использования проверки гипотез с использованием оценок OLS и оценки дисперсии-ковариации Уайта в условиях гетероскедастичности.

Гетероскедастичность также является важной практической проблемой, возникающей в задачах ANOVA . [10] В некоторых случаях F - тест все еще можно использовать. [11]

Однако было сказано, что студентам, изучающим эконометрику , не следует слишком остро реагировать на гетероскедастичность. [3] Один автор написал: «Неравную дисперсию ошибок стоит исправлять только тогда, когда проблема серьезна». [12] Кроме того, еще одно предостережение заключалось в следующем: «Гетероскедастичность никогда не была причиной отказа от хорошей в других отношениях модели». [3] [13] С появлением гетероскедастичности стандартных ошибок , позволяющих делать выводы без указания условного второго момента ошибки, проверка условной гомоскедастичности не так важна, как в прошлом. [6]

Однако для любой нелинейной модели (например, моделей Logit и Probit ) гетероскедастичность имеет более серьезные последствия: оценки максимального правдоподобия (MLE) параметров обычно будут смещенными, а также противоречивыми (если функция правдоподобия не будет изменена на правильно учесть точный вид гетероскедастичности или распределение является членом линейного экспоненциального семейства и правильно задана условная функция ожидания). [14] [15] Тем не менее, в контексте моделей бинарного выбора ( Logit или Probit ) гетероскедастичность приведет только к положительному эффекту масштабирования на асимптотическом среднем неправильно заданном MLE (т.е. модели, которая игнорирует гетероскедастичность). [16] В результате прогнозы, основанные на неверно заданном MLE, останутся верными. Кроме того, неправильно заданные MLE Probit и Logit будут асимптотически нормально распределены, что позволяет выполнять обычные тесты значимости (с соответствующей дисперсионно-ковариационной матрицей). Однако, что касается общей проверки гипотез, как отметил Грин , «простое вычисление устойчивой ковариационной матрицы для в противном случае противоречивой оценки не дает ее исправления. Следовательно, ценность устойчивой ковариационной матрицы в этих условиях неясна». [17]

Коррекция

Существует несколько распространенных поправок на гетероскедастичность. Они есть:

Тестирование

Абсолютное значение остатков для смоделированных гетероскедастических данных первого порядка

Остатки можно проверить на гомоскедастичность с помощью теста Бреуша-Пэгана [20] , который выполняет вспомогательную регрессию квадратов остатков по независимым переменным. Из этой вспомогательной регрессии сохраняется объясненная сумма квадратов, деленная на два, а затем становится тестовой статистикой для распределения хи-квадрат со степенями свободы, равными числу независимых переменных. [21] Нулевой гипотезой этого теста хи-квадрат является гомоскедастичность, а альтернативная гипотеза будет указывать на гетероскедастичность. Поскольку критерий Бреуша-Пэгана чувствителен к отклонениям от нормальности или небольшому размеру выборки, вместо него обычно используется тест Кенкера-Бассетта или «обобщенный критерий Бреуша-Пэгана». [22] [ необходимы дополнительные ссылки ] Из вспомогательной регрессии она сохраняет значение R-квадрата, которое затем умножается на размер выборки, а затем становится тестовой статистикой для распределения хи-квадрат (и использует те же степени свободы). Хотя это не является необходимым для теста Кенкера-Бассетта, тест Бреуша-Пэгана требует, чтобы квадраты остатков также были разделены на остаточную сумму квадратов, разделенную на размер выборки. [22] Проверка групповой гетероскедастичности может быть выполнена с помощью теста Гольдфельда-Квандта . [23]

Из-за стандартного использования стандартных ошибок, согласованных с гетероскедастичностью, и проблемы предварительного тестирования специалисты по эконометрике в настоящее время редко используют тесты на условную гетероскедастичность. [6]

Список тестов

Хотя тесты на гетероскедастичность между группами формально можно рассматривать как частный случай тестирования в рамках регрессионных моделей, некоторые тесты имеют структуры, специфичные для этого случая.

Обобщения

Гомоскедастические распределения

Два или более нормальных распределения являются гомоскедастическими и не имеют серийной корреляции, если они имеют одинаковые диагонали в своей ковариационной матрице, а их недиагональные элементы равны нулю. Гомоскедастические распределения особенно полезны для построения алгоритмов статистического распознавания образов и машинного обучения . Одним из популярных примеров алгоритма, предполагающего гомоскедастичность, является линейный дискриминантный анализ Фишера . Понятие гомоскедастичности можно применить к распределениям по сферам. [27]

Многомерные данные

Исследование хоумскедастичности и гетероскедастичности было обобщено на многомерный случай, который касается ковариаций векторных наблюдений вместо дисперсии скалярных наблюдений. Один из вариантов — использовать ковариационные матрицы в качестве многомерной меры дисперсии. Некоторые авторы рассматривали тесты в этом контексте как для ситуаций регрессии, так и для ситуаций с сгруппированными данными. [28] [29] Тест Бартлетта на гетероскедастичность между сгруппированными данными, используемый чаще всего в одномерном случае, также был расширен для многомерного случая, но приемлемое решение существует только для двух групп. [30] Аппроксимации существуют для более чем двух групп, и обе они называются М-тестом Бокса .

Смотрите также

Рекомендации

  1. ^ Греческую этимологию этого термина см. McCulloch, J. Huston (1985). «О гетероэластичности». Эконометрика . 53 (2): 483. JSTOR  1911250.
  2. ^ abcd Уайт, Халберт (1980). «Согласованная с гетероскедастичностью ковариационная матрица оценки и прямой тест на гетероскедастичность». Эконометрика . 48 (4): 817–838. CiteSeerX 10.1.1.11.7646 . дои : 10.2307/1912934. JSTOR  1912934.  
  3. ^ abc Гуджарати, DN; Портер, округ Колумбия (2009). Основная эконометрика (Пятое изд.). Бостон: МакГроу-Хилл Ирвин. п. 400. ИСБН  9780073375779.
  4. ^ Голдбергер, Артур С. (1964). Эконометрическая теория . Нью-Йорк: Джон Уайли и сыновья. стр. 238–243. ISBN 9780471311010.
  5. ^ Джонстон, Дж. (1972). Эконометрические методы . Нью-Йорк: МакГроу-Хилл. стр. 214–221.
  6. ^ abc Ангрист, Джошуа Д.; Пишке, Йорн-Штеффен (31 декабря 2009 г.). В основном безобидная эконометрика: спутник эмпирика. Издательство Принстонского университета. дои : 10.1515/9781400829828. ISBN 978-1-4008-2982-8.
  7. ^ Лонг, Дж. Скотт ; Триведи, Правин К. (1993). «Некоторые тесты спецификации модели линейной регрессии». В Боллене, Кеннет А.; Лонг, Дж. Скотт (ред.). Тестирование моделей структурных уравнений . Лондон: Сейдж. стр. 66–110. ISBN 978-0-8039-4506-7.
  8. ^ Энгл, Роберт Ф. (июль 1982 г.). «Авторегрессионная условная гетероскедастичность с оценками дисперсии инфляции Соединенного Королевства». Эконометрика . 50 (4): 987–1007. дои : 10.2307/1912773. ISSN  0012-9682. JSTOR  1912773.
  9. ^ Питер Кеннеди, Руководство по эконометрике , 5-е издание, стр. 137.
  10. ^ Джинадаса, Гамаге; Вираханди, Сэм (1998). «Производительность некоторых тестов в односторонней дисперсии». Коммуникации в статистике – моделирование и вычисления . 27 (3): 625. дои : 10.1080/03610919808813500.
  11. ^ Батке, А (2004). «Тест ANOVA F по-прежнему можно использовать в некоторых сбалансированных планах с неравными дисперсиями и ненормальными данными». Журнал статистического планирования и выводов . 126 (2): 413–422. дои : 10.1016/j.jspi.2003.09.010.
  12. ^ Фокс, Дж. (1997). Прикладной регрессионный анализ, линейные модели и родственные методы . Калифорния: Публикации Sage. п. 306.(Цитируется по Гуджарати и др., 2009 г., стр. 400).
  13. ^ Мэнкью, Н.Г. (1990). «Курс быстрого повышения квалификации по макроэкономике». Журнал экономической литературы . 28 (4): 1645–1660 [с. 1648]. дои : 10.3386/w3256 . JSTOR  2727441.
  14. Джайлз, Дэйв (8 мая 2013 г.). «Надежные стандартные ошибки для нелинейных моделей». Эконометрический бит .
  15. ^ Гурьеро, К.; Монфорт, А.; Троньон, А. (1984). «Методы псевдомаксимального правдоподобия: теория». Эконометрика . 52 (3): 681–700. дои : 10.2307/1913471. ISSN  0012-9682.
  16. ^ Джинкер, Т.; Либерман, О. (2017). «Устойчивость моделей бинарного выбора к условной гетероскедастичности». Письма по экономике . 150 : 130–134. doi :10.1016/j.econlet.2016.11.024.
  17. ^ Грин, Уильям Х. (2012). «Оценка и вывод в моделях двоичного выбора». Эконометрический анализ (Седьмое изд.). Бостон: Pearson Education. стр. 730–755 [с. 733]. ISBN 978-0-273-75356-8.
  18. ^ Тофалис, К. (2008). «Процентная регрессия по методу наименьших квадратов». Журнал современных прикладных статистических методов . 7 : 526–534. дои : 10.2139/ssrn.1406472. ССНН  1406472.
  19. ^ JNK Рао (март 1973 г.). «Об оценке гетероскедастических дисперсий». Биометрия . 29 (1): 11–24. дои : 10.2307/2529672. JSTOR  2529672.
  20. ^ Бреуш, Т.С.; Пэган, Арканзас (1979). «Простой тест на гетероскедастичность и случайное изменение коэффициентов». Эконометрика . 47 (5): 1287–1294. дои : 10.2307/1911963. ISSN  0012-9682. JSTOR  1911963.
  21. ^ Улла, Мухаммад Имдад (26 июля 2012 г.). «Языческий тест Бреуша на гетероскедастичность». Базовая статистика и анализ данных . Проверено 28 ноября 2020 г.
  22. ^ аб Прайс, Гвилим. «Гетероскедастичность: тестирование и исправление в SPSS» (PDF) . стр. 12–18. Архивировано (PDF) из оригинала 27 марта 2017 г. Проверено 26 марта 2017 г.
  23. ^ Баум, Кристофер Ф. (2006). «Совет по статистике 38: Проверка групповой гетероскедастичности». Журнал Stata: Содействие распространению информации по статистике и статистическим данным . 6 (4): 590–592. дои : 10.1177/1536867X0600600412 . ISSN  1536-867X. S2CID  117349246.
  24. ^ RE Парк (1966). «Оценка с использованием гетероскедастических ошибок». Эконометрика . 34 (4): 888. дои : 10.2307/1910108. JSTOR  1910108.
  25. ^ Глейзер, Х. (1969). «Новый тест на гетероскедастичность». Журнал Американской статистической ассоциации . 64 (325): 316–323. дои : 10.1080/01621459.1969.10500976.
  26. ^ Мачадо, Хосе А.Ф.; Сильва, JMC Сантос (2000). «Повторный тест Глейзера». Журнал эконометрики . 97 (1): 189–202. дои : 10.1016/S0304-4076(00)00016-6.
  27. ^ Хамшичи, Онур К.; Мартинес, Алей М. (2007) «Сферически-гомоскедастические распределения: эквивалентность сферических и нормальных распределений в классификации», Журнал исследований машинного обучения , 8, 1583-1623
  28. ^ Хольгерссон, HET; Шукур, Г. (2004). «Тестирование многомерной гетероскедастичности». Журнал статистических вычислений и моделирования . 74 (12): 879. дои : 10.1080/00949650410001646979. hdl : 2077/24416 . S2CID  121576769.
  29. ^ Гупта, АК; Тан, Дж. (1984). «Распределение статистики отношения правдоподобия для проверки равенства ковариационных матриц многомерных гауссовских моделей». Биометрика . 71 (3): 555–559. дои : 10.1093/biomet/71.3.555. JSTOR  2336564.
  30. ^ д'Агостино, РБ; Рассел, Гонконг (2005). «Многомерный тест Бартлетта». Энциклопедия биостатистики . дои : 10.1002/0470011815.b2a13048. ISBN 978-0470849071.

дальнейшее чтение

Большинство учебников по статистике будут включать по крайней мере некоторый материал по гомоскедастичности и гетероскедастичности. Некоторые примеры:

Внешние ссылки