В статистике однородность и ее противоположность, неоднородность , возникают при описании свойств набора данных или нескольких наборов данных. Они связаны с обоснованностью зачастую удобного предположения о том, что статистические свойства любой части общего набора данных такие же, как и любой другой части. В метаанализе , который объединяет данные нескольких исследований, однородность измеряет различия или сходства между несколькими исследованиями (см. также «Разнородность исследования» ).
Однородность можно изучать на нескольких степенях сложности. Например, соображения гомоскедастичности исследуют, насколько изменчивость значений данных меняется в наборе данных. Однако вопросы однородности применимы ко всем аспектам статистического распределения , включая параметр местоположения . Таким образом, более детальное исследование позволит изучить изменения во всем предельном распределении . Исследование промежуточного уровня может перейти от рассмотрения изменчивости к изучению изменений асимметрии . Помимо этого, вопросы однородности применимы и к совместному распределению .
Понятие однородности может применяться по-разному, и для определенных типов статистического анализа оно используется для поиска дополнительных свойств, которые, возможно, потребуется рассматривать как изменяющиеся в наборе данных после того, как будут рассмотрены некоторые начальные типы неоднородности. с.
В статистике последовательность случайных величин является гомоскедастической ( / ˌ h oʊ m oʊ s k ə ˈ d æ s t ɪ k / ) , если все ее случайные величины имеют одинаковую конечную дисперсию ; это также известно как однородность дисперсии. Дополнительное понятие называется гетероскедастичностью, также известной как гетерогенность дисперсии. Также часто используются варианты написания гомоскедастичность и гетероскедастичность . Скедастичность происходит от древнегреческого слова skedánnymi, что означает «рассеивать». [1] [2] [3] Предположение, что переменная гомоскедастична, тогда как на самом деле она гетероскедастична ( / ˌ h ɛ t ər oʊ s k ə ˈ d æ s t ɪ k / ) приводит к несмещенным , но неэффективным точечным оценкам и к смещенным оценки стандартных ошибок и может привести к переоценке степени соответствия , измеряемой коэффициентом Пирсона .
Существование гетероскедастичности является серьезной проблемой в регрессионном анализе и дисперсионном анализе , поскольку оно делает недействительными статистические тесты значимости , которые предполагают, что все ошибки моделирования имеют одинаковую дисперсию. Хотя обычная оценка методом наименьших квадратов по-прежнему несмещена при наличии гетероскедастичности, она неэффективна, а вывод, основанный на предположении о гомоскедастичности, вводит в заблуждение. В этом случае в прошлом часто использовался метод обобщенных наименьших квадратов (GLS). [4] [5] В настоящее время стандартной практикой в эконометрике является включение стандартных ошибок, согласованных с гетероскедастичностью, вместо использования GLS, поскольку GLS может демонстрировать сильное смещение в небольших выборках, если фактическая скедастическая функция неизвестна. [6]
Поскольку гетероскедастичность касается ожиданий второго момента ошибки, ее наличие называется некорректной спецификацией второго порядка. [7]
Эконометрист Роберт Энгл был удостоен Нобелевской премии по экономике 2003 года за исследования регрессионного анализа при наличии гетероскедастичности, которые привели к формулировке метода моделирования авторегрессионной условной гетероскедастичности (ARCH) . [8]Различия в типичных значениях в наборе данных первоначально можно устранить путем построения регрессионной модели с использованием определенных независимых переменных, чтобы связать изменения типичного значения с известными величинами. Затем должен быть проведен более поздний этап анализа, чтобы проверить, ведут себя ли ошибки в прогнозах регрессии одинаково во всем наборе данных. Таким образом, возникает вопрос об однородности распределения остатков по мере изменения объясняющих переменных. См. регрессионный анализ .
Начальные этапы анализа временного ряда могут включать построение графика зависимости значений от времени для проверки однородности ряда различными способами: стабильность во времени в отличие от тенденции; устойчивость локальных колебаний во времени.
В гидрологии анализируются ряды данных по ряду участков, состоящие из годовых значений внутригодового максимального годового стока рек. Общая модель заключается в том, что распределения этих значений одинаковы для всех объектов, за исключением простого коэффициента масштабирования, так что местоположение и масштаб связаны простым способом. Тогда могут возникнуть вопросы изучения однородности по местам распределения масштабированных значений.
В метеорологии наборы погодных данных собираются на протяжении многих лет, и в рамках этого измерения на определенных станциях могут время от времени прекращаться, в то время как примерно в то же время измерения могут начинаться в близлежащих местах. Тогда возникают вопросы о том, можно ли считать эти записи однородными с течением времени, если записи объединяются в один более длинный набор записей. Пример проверки однородности данных о скорости и направлении ветра можно найти в Romanić et al ., 2015. [9]
Простые опросы населения могут начинаться с идеи, что ответы будут однородными для всего населения. Оценка однородности населения предполагает изучение того, отличаются ли реакции определенных идентифицируемых субпопуляций от реакций других. Например, владельцы автомобилей могут отличаться от тех, кто не владеет автомобилем, или могут существовать различия между разными возрастными группами.
Проверка однородности в смысле точной эквивалентности статистических распределений может быть основана на E-статистике . Тест местоположения проверяет более простую гипотезу о том, что распределения имеют одинаковый параметр местоположения .