В статистике последовательность случайных величин называется гомоскедастичной ( / ˌ h oʊ m oʊ s k ə ˈ d æ s t ɪ k / ) , если все ее случайные величины имеют одинаковую конечную дисперсию ; это также известно как однородность дисперсии . Дополнительное понятие называется гетероскедастичностью , также известной как неоднородность дисперсии . Также часто используются написания homos k edasticity и heteros k edasticity . «Скедастичность» происходит от древнегреческого слова «skedánnymi», что означает «рассеивать». [1] [2] [3] Предположение, что переменная является гомоскедастической, когда на самом деле она гетероскедастическая ( / ˌ h ɛ t ər oʊ s k ə ˈ d æ s t ɪ k / ), приводит к несмещенным , но неэффективным точечным оценкам и смещенным оценкам стандартных ошибок , а также может привести к переоценке качества подгонки , измеряемой коэффициентом Пирсона .
Существование гетероскедастичности является серьезной проблемой в регрессионном анализе и дисперсионном анализе , поскольку оно делает недействительными статистические тесты значимости , которые предполагают, что все ошибки моделирования имеют одинаковую дисперсию. Хотя обычная оценка наименьших квадратов все еще является несмещенной при наличии гетероскедастичности, она неэффективна, а вывод, основанный на предположении о гомоскедастичности, вводит в заблуждение. В этом случае в прошлом часто использовался обобщенный метод наименьших квадратов (GLS). [4] [5] В настоящее время стандартной практикой в эконометрике является включение согласованных с гетероскедастичностью стандартных ошибок вместо использования GLS, поскольку GLS может демонстрировать сильное смещение в небольших выборках, если фактическая скедастичная функция неизвестна. [6]
Поскольку гетероскедастичность касается ожиданий второго момента ошибок, ее наличие называется ошибкой спецификации второго порядка. [7]
Эконометрист Роберт Энгл был удостоен Нобелевской премии по экономике 2003 года за свои исследования регрессионного анализа в присутствии гетероскедастичности, которые привели к формулировке им метода моделирования авторегрессионной условной гетероскедастичности (ARCH). [8]
Рассмотрим уравнение линейной регрессии , где зависимая случайная величина равна детерминированной переменной , умноженной на коэффициент, плюс случайный член возмущения , который имеет нулевое среднее значение. Возмущения являются гомоскедастическими, если дисперсия является константой ; в противном случае они являются гетероскедастическими. В частности, возмущения являются гетероскедастическими, если дисперсия зависит от или от значения . Один из способов, которым они могут быть гетероскедастическими, — это если (пример скедастической функции ), поэтому дисперсия пропорциональна значению .
В более общем случае, если матрица дисперсии-ковариации возмущения по имеет непостоянную диагональ, возмущение является гетероскедастическим. [9] Матрицы ниже являются ковариациями, когда есть всего три наблюдения во времени. Возмущение в матрице A является гомоскедастическим; это простой случай, когда OLS является лучшей линейной несмещенной оценкой. Возмущения в матрицах B и C являются гетероскедастическими. В матрице B дисперсия является переменной во времени, постоянно увеличиваясь со временем; в матрице C дисперсия зависит от значения . Возмущение в матрице D является гомоскедастическим, поскольку диагональные дисперсии постоянны, даже несмотря на то, что недиагональные ковариации не равны нулю, а обычный метод наименьших квадратов неэффективен по другой причине: последовательная корреляция.
Гетероскедастичность часто возникает, когда существует большая разница между размерами наблюдений.
Классический пример гетероскедастичности — доход против расходов на еду. Богатый человек может иногда есть недорогую еду, а иногда — дорогую. Бедный человек почти всегда будет есть недорогую еду. Поэтому люди с более высокими доходами демонстрируют большую изменчивость в расходах на еду.
При запуске ракеты наблюдатель измеряет расстояние, пройденное ракетой, один раз в секунду. В первые пару секунд измерения могут быть точными до ближайшего сантиметра. Через пять минут точность измерений может быть хорошей только до 100 м из-за увеличенного расстояния, атмосферных искажений и множества других факторов. Поэтому измерения расстояния могут демонстрировать гетероскедастичность.
Одно из предположений классической линейной регрессионной модели заключается в том, что гетероскедастичности нет. Нарушение этого предположения означает, что теорема Гаусса-Маркова неприменима, а это означает, что оценщики OLS не являются наилучшими линейными несмещенными оценщиками (BLUE) , а их дисперсия не является самой низкой из всех других несмещенных оценщиков. Гетероскедастичность не приводит к смещению оценок коэффициентов по методу наименьших квадратов, хотя она может привести к смещению оценок дисперсии (и, таким образом, стандартных ошибок) коэффициентов по методу наименьших квадратов, возможно, выше или ниже истинной дисперсии популяции. Таким образом, регрессионный анализ с использованием гетероскедастичных данных по-прежнему будет предоставлять несмещенную оценку для связи между предикторной переменной и результатом, но стандартные ошибки и, следовательно, выводы, полученные из анализа данных, являются подозрительными. Смещенные стандартные ошибки приводят к смещению вывода, поэтому результаты проверки гипотез, возможно, неверны. Например, если метод наименьших квадратов выполняется на гетероскедастичном наборе данных, что приводит к смещенной оценке стандартной ошибки, исследователь может не отвергнуть нулевую гипотезу на заданном уровне значимости , когда эта нулевая гипотеза на самом деле нехарактерна для фактической популяции (что приводит к ошибке II типа ).
При определенных предположениях оценщик OLS имеет нормальное асимптотическое распределение при правильной нормализации и центрировании (даже когда данные не исходят из нормального распределения ). Этот результат используется для обоснования использования нормального распределения или распределения хи-квадрат (в зависимости от того, как вычисляется статистика теста ) при проведении проверки гипотезы . Это справедливо даже при гетероскедастичности. Точнее, оценщик OLS при наличии гетероскедастичности асимптотически нормален при правильной нормализации и центрировании с матрицей дисперсии-ковариации , которая отличается от случая гомоскедастичности. В 1980 году Уайт предложил последовательную оценку для матрицы дисперсии-ковариации асимптотического распределения оценщика OLS. [2] Это подтверждает использование проверки гипотез с использованием оценщиков OLS и оценщика дисперсии-ковариации Уайта при гетероскедастичности.
Гетероскедастичность также является серьезной практической проблемой, с которой сталкиваются при решении задач дисперсионного анализа . [10] F -тест все еще может использоваться в некоторых обстоятельствах. [11]
Однако было сказано, что студенты, изучающие эконометрику, не должны слишком остро реагировать на гетероскедастичность. [3] Один автор написал: «Неравная дисперсия ошибок имеет смысл корректировать только тогда, когда проблема серьезная». [12] Кроме того, еще одно предостережение было в форме: «Гетероскедастичность никогда не была причиной для отказа от хорошей модели». [3] [13] С появлением гетероскедастичных стандартных ошибок , позволяющих делать выводы без указания условного второго момента ошибки, проверка условной гомоскедастичности не так важна, как в прошлом. [6]
Однако для любой нелинейной модели (например, моделей Logit и Probit ) гетероскедастичность имеет более серьезные последствия: оценки максимального правдоподобия (MLE) параметров обычно будут смещенными, а также непоследовательными (если только функция правдоподобия не изменена для правильного учета точной формы гетероскедастичности или распределение не является членом линейного экспоненциального семейства , а функция условного ожидания не указана правильно). [14] [15] Тем не менее, в контексте моделей бинарного выбора ( Logit или Probit ) гетероскедастичность приведет только к положительному эффекту масштабирования на асимптотическом среднем значении неправильно указанной MLE (т. е. модели, которая игнорирует гетероскедастичность). [16] В результате прогнозы, основанные на неправильно указанной MLE, останутся правильными. Кроме того, неправильно указанные Probit и Logit MLE будут асимптотически нормально распределены, что позволяет выполнять обычные тесты значимости (с соответствующей матрицей дисперсии-ковариации). Однако, что касается общей проверки гипотез, как отметил Грин , «простое вычисление надежной ковариационной матрицы для в противном случае непоследовательной оценки не дает ей искупления. Следовательно, достоинство надежной ковариационной матрицы в этой ситуации неясно». [17]
Существует несколько распространенных поправок на гетероскедастичность. Они следующие:
Остатки можно проверить на гомоскедастичность с помощью теста Бреуша–Пагана [20] , который выполняет вспомогательную регрессию квадратов остатков на независимых переменных. Из этой вспомогательной регрессии сохраняется объясненная сумма квадратов, делится на два и затем становится тестовой статистикой для распределения хи-квадрат со степенями свободы, равными числу независимых переменных. [21] Нулевая гипотеза этого теста хи-квадрат — гомоскедастичность, а альтернативная гипотеза будет указывать на гетероскедастичность. Поскольку тест Бреуша–Пагана чувствителен к отклонениям от нормальности или малым размерам выборки, вместо него обычно используется тест Кенкера–Бассета или «обобщенный тест Бреуша–Пагана». [22] [ необходимы дополнительные ссылки ] Из вспомогательной регрессии сохраняется значение R-квадрат, которое затем умножается на размер выборки, а затем становится тестовой статистикой для распределения хи-квадрат (и использует те же степени свободы). Хотя это не является необходимым для теста Кенкера–Бассета, тест Бреуша–Пагана требует, чтобы квадраты остатков также были разделены на сумму квадратов остатков, деленную на размер выборки. [22] Тестирование на групповую гетероскедастичность можно выполнить с помощью теста Голдфельда–Квандта . [23]
Из-за стандартного использования стандартных ошибок, соответствующих гетероскедастичности , и проблемы предварительного теста эконометристы в настоящее время редко используют тесты на условную гетероскедастичность. [6]
Хотя тесты на гетероскедастичность между группами формально можно рассматривать как частный случай тестирования в рамках регрессионных моделей, некоторые тесты имеют структуры, специфичные для этого случая.
Два или более нормальных распределения являются гомоскедастичными и не имеют последовательной корреляции , если они имеют одни и те же диагонали в своей ковариационной матрице, а их недиагональные элементы равны нулю. Гомоскедастичные распределения особенно полезны для получения статистических алгоритмов распознавания образов и машинного обучения . Одним из популярных примеров алгоритма, который предполагает гомоскедастичность, является линейный дискриминантный анализ Фишера . Концепция гомоскедастичности может быть применена к распределениям на сферах. [27]
Изучение хоумскедастичности и гетероскедастичности было обобщено на многомерный случай, который имеет дело с ковариациями векторных наблюдений вместо дисперсии скалярных наблюдений. Одна из версий этого заключается в использовании ковариационных матриц в качестве многомерной меры дисперсии. Несколько авторов рассматривали тесты в этом контексте как для регрессии, так и для ситуаций с группированными данными. [28] [29] Тест Бартлетта на гетероскедастичность между сгруппированными данными, используемый чаще всего в одномерном случае, также был расширен для многомерного случая, но приемлемое решение существует только для 2 групп. [30] Существуют приближения для более чем двух групп, и оба они называются тестом Бокса M.
Большинство учебников по статистике будут включать по крайней мере некоторые материалы по гомоскедастичности и гетероскедастичности. Вот некоторые примеры: