Однородность и неоднородность (статистика)

В статистике однородность и ее противоположность, гетерогенность , возникают при описании свойств набора данных или нескольких наборов данных. Они связаны с обоснованностью часто удобного предположения, что статистические свойства любой части общего набора данных такие же, как и любой другой части. В метаанализе , который объединяет данные из нескольких исследований, гомогенность измеряет различия или сходства между несколькими исследованиями (см. также Гетерогенность исследования ).

Однородность может изучаться на нескольких степенях сложности. Например, соображения гомоскедастичности изучают, насколько сильно изменяется изменчивость значений данных в наборе данных. Однако вопросы однородности применяются ко всем аспектам статистических распределений , включая параметр местоположения . Таким образом, более подробное исследование будет изучать изменения во всем предельном распределении . Исследование промежуточного уровня может перейти от изучения изменчивости к изучению изменений в асимметрии . В дополнение к этому вопросы однородности применяются также к совместным распределениям .

Концепция однородности может применяться различными способами, и для определенных типов статистического анализа она используется для поиска дополнительных свойств, которые, возможно, необходимо будет рассматривать как изменяющиеся в пределах набора данных после того, как будут рассмотрены некоторые начальные типы неоднородности.

дисперсии

График со случайными данными, показывающий гомоскедастичность: при каждом значении x значение y точек имеет примерно одинаковую дисперсию .

График со случайными данными, показывающий гетероскедастичность: дисперсия значений y точек увеличивается с ростом значений x .

В статистике последовательность случайных величин называется гомоскедастичной ( / ˌ h oʊ m oʊ s k ə ˈ d æ s t ɪ k / ) , если все ее случайные величины имеют одинаковую конечную дисперсию ; это также известно как однородность дисперсии. Дополнительное понятие называется гетероскедастичностью, также известной как неоднородность дисперсии. Также часто используются написания homoskedasticity и heteroskedasticity . «Скедастичность» происходит от древнегреческого слова «skedánnymi», что означает «рассеивать». ^[1]^[2]^[3] Предположение, что переменная является гомоскедастической, когда на самом деле она гетероскедастическая ( / ˌ h ɛ t ər oʊ s k ə ˈ d æ s t ɪ k / ), приводит к несмещенным , но неэффективным точечным оценкам и смещенным оценкам стандартных ошибок , а также может привести к переоценке качества подгонки , измеряемой коэффициентом Пирсона .

Существование гетероскедастичности является серьезной проблемой в регрессионном анализе и дисперсионном анализе , поскольку оно делает недействительными статистические тесты значимости , которые предполагают, что все ошибки моделирования имеют одинаковую дисперсию. Хотя обычная оценка наименьших квадратов все еще является несмещенной при наличии гетероскедастичности, она неэффективна, а вывод, основанный на предположении о гомоскедастичности, вводит в заблуждение. В этом случае в прошлом часто использовался обобщенный метод наименьших квадратов (GLS). ^[4]^[5] В настоящее время стандартной практикой в эконометрике является включение согласованных с гетероскедастичностью стандартных ошибок вместо использования GLS, поскольку GLS может демонстрировать сильное смещение в небольших выборках, если фактическая скедастичная функция неизвестна. ^[6]

Поскольку гетероскедастичность касается ожиданий второго момента ошибок, ее наличие называется ошибкой спецификации второго порядка. ^[7]

Эконометрист Роберт Энгл был удостоен Нобелевской премии по экономике 2003 года за свои исследования регрессионного анализа в присутствии гетероскедастичности, которые привели к формулировке им метода моделирования авторегрессионной условной гетероскедастичности (ARCH). ^[8]

Примеры

Регрессия

Различия в типичных значениях в наборе данных могут быть изначально обработаны путем построения регрессионной модели с использованием определенных объясняющих переменных для связи вариаций типичного значения с известными величинами. Затем должен быть более поздний этап анализа для изучения того, ведут ли себя ошибки в предсказаниях из регрессии одинаково во всем наборе данных. Таким образом, вопрос становится вопросом однородности распределения остатков по мере изменения объясняющих переменных. См. регрессионный анализ .

Временной ряд

Начальные этапы анализа временного ряда могут включать построение графика значений во времени для изучения однородности ряда различными способами: стабильность во времени в отличие от тенденции; стабильность локальных колебаний во времени.

Объединение информации с разных сайтов

В гидрологии анализируются ряды данных по ряду участков, состоящие из годовых значений годового максимального речного стока в течение года. Распространенная модель заключается в том, что распределения этих значений одинаковы для всех участков, за исключением простого масштабного коэффициента, так что местоположение и масштаб связаны простым образом. Тогда могут возникнуть вопросы по изучению однородности распределения масштабированных значений по участкам.

Объединение источников информации

В метеорологии наборы данных о погоде собираются на протяжении многих лет записей, и, как часть этого, измерения на определенных станциях могут иногда прекращаться, в то время как, примерно в то же время, измерения могут начинаться в соседних местах. Тогда возникают вопросы относительно того, можно ли, если записи объединяются в один более длинный набор записей, считать эти записи однородными с течением времени. Пример проверки однородности данных о скорости и направлении ветра можно найти в Romanić et al ., 2015. ^[9]

Однородность внутри популяций

Простые опросы населения могут начинаться с идеи, что ответы будут однородными по всей популяции. Оценка однородности популяции будет включать в себя проверку того, отличаются ли ответы определенных идентифицируемых субпопуляций от ответов других. Например, владельцы автомобилей могут отличаться от тех, у кого нет автомобилей, или могут быть различия между разными возрастными группами.

Тесты

Тест на однородность, в смысле точной эквивалентности статистических распределений, может быть основан на E-статистике . Тест местоположения проверяет более простую гипотезу о том, что распределения имеют одинаковый параметр местоположения .

Смотрите также

Ссылки

↑ О греческой этимологии термина см. McCulloch, J. Huston (1985). "On Heteros*edasticity". Econometrica . 53 (2): 483. JSTOR 1911250.
^ Уайт, Халберт (1980). «Согласованная с гетероскедастичностью ковариационная матрица оценки и прямой тест на гетероскедастичность». Econometrica . 48 (4): 817–838. CiteSeerX 10.1.1.11.7646 . doi :10.2307/1912934. JSTOR 1912934.
^ Гуджарати, DN; Портер, DC (2009). Основы эконометрики (Пятое изд.). Бостон: McGraw-Hill Irwin. стр. 400. ISBN 9780073375779.
^ Голдбергер, Артур С. (1964). Эконометрическая теория . Нью-Йорк: John Wiley & Sons. С. 238–243. ISBN 9780471311010.
^ Джонстон, Дж. (1972). Эконометрические методы . Нью-Йорк: McGraw-Hill. С. 214–221.
^ Angrist, Joshua D.; Pischke, Jörn-Steffen (2009-12-31). Mostly Harmless Econometrics: An Empiricist's Companion. Princeton University Press. doi : 10.1515/9781400829828. ISBN 978-1-4008-2982-8.
^ Лонг, Дж. Скотт ; Триведи, Правин К. (1993). «Некоторые тесты спецификации для модели линейной регрессии». В Боллен, Кеннет А.; Лонг, Дж. Скотт (ред.). Тестирование моделей структурных уравнений . Лондон: Sage. стр. 66–110. ISBN 978-0-8039-4506-7.
^ Энгл, Роберт Ф. (июль 1982 г.). «Авторегрессионная условная гетероскедастичность с оценками дисперсии инфляции в Соединенном Королевстве». Econometrica . 50 (4): 987–1007. doi :10.2307/1912773. ISSN 0012-9682. JSTOR 1912773.
^ Романич Д. Чурич М. Йовичич И. Ломпар М. 2015. Долгосрочные тенденции ветра Кошава в период 1949–2010 гг. Международный журнал климатологии 35(2):288-302. DOI: 10.1002/joc.3981.

Дальнейшее чтение

Холл, М.Дж. (2003) Интерпретация неоднородных гидрометеорологических временных рядов на примере. Метеорологические приложения , 10, 61–67. doi :10.1017/S1350482703005061
Крус, DJ и Блэкман, HS (1988). Надежность и однородность тестов с точки зрения теории порядковых тестов. Прикладные измерения в образовании, 1, 79–88 (Запросить перепечатку).
Лёвингер, Дж. (1948). Техника однородных тестов в сравнении с некоторыми аспектами анализа шкалы и факторного анализа. Психологический вестник, 45, 507–529.