В статистике однородность и ее противоположность, гетерогенность , возникают при описании свойств набора данных или нескольких наборов данных. Они связаны с обоснованностью часто удобного предположения, что статистические свойства любой части общего набора данных такие же, как и любой другой части. В метаанализе , который объединяет данные из нескольких исследований, гомогенность измеряет различия или сходства между несколькими исследованиями (см. также Гетерогенность исследования ).
Однородность может изучаться на нескольких степенях сложности. Например, соображения гомоскедастичности изучают, насколько сильно изменяется изменчивость значений данных в наборе данных. Однако вопросы однородности применяются ко всем аспектам статистических распределений , включая параметр местоположения . Таким образом, более подробное исследование будет изучать изменения во всем предельном распределении . Исследование промежуточного уровня может перейти от изучения изменчивости к изучению изменений в асимметрии . В дополнение к этому вопросы однородности применяются также к совместным распределениям .
Концепция однородности может применяться различными способами, и для определенных типов статистического анализа она используется для поиска дополнительных свойств, которые, возможно, необходимо будет рассматривать как изменяющиеся в пределах набора данных после того, как будут рассмотрены некоторые начальные типы неоднородности.
В статистике последовательность случайных величин называется гомоскедастичной ( / ˌ h oʊ m oʊ s k ə ˈ d æ s t ɪ k / ) , если все ее случайные величины имеют одинаковую конечную дисперсию ; это также известно как однородность дисперсии. Дополнительное понятие называется гетероскедастичностью, также известной как неоднородность дисперсии. Также часто используются написания homoskedasticity и heteroskedasticity . «Скедастичность» происходит от древнегреческого слова «skedánnymi», что означает «рассеивать». [1] [2] [3] Предположение, что переменная является гомоскедастической, когда на самом деле она гетероскедастическая ( / ˌ h ɛ t ər oʊ s k ə ˈ d æ s t ɪ k / ), приводит к несмещенным , но неэффективным точечным оценкам и смещенным оценкам стандартных ошибок , а также может привести к переоценке качества подгонки , измеряемой коэффициентом Пирсона .
Существование гетероскедастичности является серьезной проблемой в регрессионном анализе и дисперсионном анализе , поскольку оно делает недействительными статистические тесты значимости , которые предполагают, что все ошибки моделирования имеют одинаковую дисперсию. Хотя обычная оценка наименьших квадратов все еще является несмещенной при наличии гетероскедастичности, она неэффективна, а вывод, основанный на предположении о гомоскедастичности, вводит в заблуждение. В этом случае в прошлом часто использовался обобщенный метод наименьших квадратов (GLS). [4] [5] В настоящее время стандартной практикой в эконометрике является включение согласованных с гетероскедастичностью стандартных ошибок вместо использования GLS, поскольку GLS может демонстрировать сильное смещение в небольших выборках, если фактическая скедастичная функция неизвестна. [6]
Поскольку гетероскедастичность касается ожиданий второго момента ошибок, ее наличие называется ошибкой спецификации второго порядка. [7]
Эконометрист Роберт Энгл был удостоен Нобелевской премии по экономике 2003 года за свои исследования регрессионного анализа в присутствии гетероскедастичности, которые привели к формулировке им метода моделирования авторегрессионной условной гетероскедастичности (ARCH). [8]Различия в типичных значениях в наборе данных могут быть изначально обработаны путем построения регрессионной модели с использованием определенных объясняющих переменных для связи вариаций типичного значения с известными величинами. Затем должен быть более поздний этап анализа для изучения того, ведут ли себя ошибки в предсказаниях из регрессии одинаково во всем наборе данных. Таким образом, вопрос становится вопросом однородности распределения остатков по мере изменения объясняющих переменных. См. регрессионный анализ .
Начальные этапы анализа временного ряда могут включать построение графика значений во времени для изучения однородности ряда различными способами: стабильность во времени в отличие от тенденции; стабильность локальных колебаний во времени.
В гидрологии анализируются ряды данных по ряду участков, состоящие из годовых значений годового максимального речного стока в течение года. Распространенная модель заключается в том, что распределения этих значений одинаковы для всех участков, за исключением простого масштабного коэффициента, так что местоположение и масштаб связаны простым образом. Тогда могут возникнуть вопросы по изучению однородности распределения масштабированных значений по участкам.
В метеорологии наборы данных о погоде собираются на протяжении многих лет записей, и, как часть этого, измерения на определенных станциях могут иногда прекращаться, в то время как, примерно в то же время, измерения могут начинаться в соседних местах. Тогда возникают вопросы относительно того, можно ли, если записи объединяются в один более длинный набор записей, считать эти записи однородными с течением времени. Пример проверки однородности данных о скорости и направлении ветра можно найти в Romanić et al ., 2015. [9]
Простые опросы населения могут начинаться с идеи, что ответы будут однородными по всей популяции. Оценка однородности популяции будет включать в себя проверку того, отличаются ли ответы определенных идентифицируемых субпопуляций от ответов других. Например, владельцы автомобилей могут отличаться от тех, у кого нет автомобилей, или могут быть различия между разными возрастными группами.
Тест на однородность, в смысле точной эквивалентности статистических распределений, может быть основан на E-статистике . Тест местоположения проверяет более простую гипотезу о том, что распределения имеют одинаковый параметр местоположения .