stringtranslate.com

Индекс дисперсии

В теории вероятностей и статистике индекс дисперсии , [1] индекс дисперсии, коэффициент дисперсии, относительная дисперсия или отношение дисперсии к среднему (VMR) , как и коэффициент вариации , является нормализованной мерой дисперсии Распределение вероятностей : это мера, используемая для количественной оценки того, является ли набор наблюдаемых явлений кластерным или рассредоточенным по сравнению со стандартной статистической моделью.

Он определяется как отношение дисперсии к среднему значению ,

Он также известен как фактор Фано , хотя этот термин иногда зарезервирован для оконных данных (среднее значение и дисперсия вычисляются по подгруппе), где индекс дисперсии используется в особом случае, когда окно бесконечно. Часто выполняются оконные данные: VMR часто вычисляется для различных интервалов времени или небольших областей в пространстве, которые можно назвать «окнами», а полученная статистика называется фактором Фано.

Оно определяется только тогда, когда среднее значение не равно нулю, и обычно используется только для положительных статистических данных, таких как данные подсчета или время между событиями, или когда предполагается, что базовое распределение является экспоненциальным распределением или распределением Пуассона .

Терминология

В этом контексте набор наблюдаемых данных может состоять из времени возникновения заранее определенных событий, таких как землетрясения в данном регионе с заданной магнитудой, или из мест в географическом пространстве растений данного вида. Детали таких событий сначала преобразуются в количество событий или происшествий в каждом из набора временных или пространственных регионов одинакового размера.

Вышеупомянутое определяет индекс дисперсии для counts . [2] Для индекса дисперсии для интервалов применяется другое определение , [3] где рассматриваемыми величинами являются длины временных интервалов между событиями. Обычно используется термин «индекс дисперсии», который означает индекс дисперсии для подсчетов.

Интерпретация

Некоторые распределения, особенно распределение Пуассона , имеют одинаковую дисперсию и среднее значение, что дает им VMR = 1. Геометрическое распределение и отрицательное биномиальное распределение имеют VMR > 1, тогда как биномиальное распределение имеет VMR < 1, а постоянная случайная величина имеет VMR = 0. В результате получается следующая таблица:

Это можно считать аналогом классификации конических сечений по эксцентриситету ; Подробности см. в разделе «Кумулянты конкретных распределений вероятностей» .

Актуальность индекса дисперсии заключается в том, что он имеет значение 1, когда распределение вероятностей числа появлений в интервале является распределением Пуассона . Таким образом, эту меру можно использовать для оценки возможности моделирования наблюдаемых данных с использованием процесса Пуассона . Когда коэффициент дисперсии меньше 1, набор данных называется «недостаточно дисперсным»: это условие может относиться к закономерностям возникновения, которые являются более регулярными, чем случайность, связанная с процессом Пуассона. Например, регулярные, периодические события будут недостаточно распределены. Если индекс дисперсии больше 1, набор данных называется чрезмерно дисперсным .

Оценка индекса дисперсии на основе выборки может использоваться для построения формальной статистической проверки гипотезы адекватности модели, согласно которой ряд подсчетов соответствует распределению Пуассона. [4] [5] С точки зрения интервального подсчета, чрезмерная дисперсия соответствует большему количеству интервалов с низким количеством и большим количеством интервалов с большим количеством по сравнению с распределением Пуассона: напротив, недостаточная дисперсия характеризуется наличием больше интервалов, имеющих количество, близкое к среднему, по сравнению с распределением Пуассона.

VMR также является хорошим показателем степени случайности данного явления. Например, этот метод обычно используется в управлении валютой.

Пример

Для беспорядочно диффундирующих частиц ( броуновское движение ) распределение числа частиц внутри данного объема является пуассоновским, т.е. VMR=1. Следовательно, чтобы оценить, обусловлена ​​ли данная пространственная структура (при условии, что у вас есть способ ее измерения) исключительно диффузией или же в ней задействовано какое-то взаимодействие между частицами: разделите пространство на участки, квадраты или единицы выборки (SU), посчитайте количество особей в каждом патче или SU и вычислите VMR. VMR значительно выше 1 означает кластерное распределение, где случайного блуждания недостаточно, чтобы подавить потенциал притяжения между частицами.

История

Первым, кто обсудил использование теста для обнаружения отклонений от распределения Пуассона или биномиального распределения, по-видимому, был Лексис в 1877 году. Одним из разработанных им тестов было соотношение Лексиса .

Этот индекс впервые был использован в ботанике Клэпхемом в 1936 году.

Если переменные распределены по Пуассону, то индекс дисперсии распределяется как статистика χ 2 с n - 1 степенями свободы, когда n велико и составляет ц > 3. [6] Для многих представляющих интерес случаев это приближение является точным, и Фишер в В 1950 году был разработан точный тест для этого.

Хоэл изучил первые четыре момента его распространения. [7] Он обнаружил, что аппроксимация статистики χ 2 разумна, если µ > 5.

Асимметричные распределения

Для сильно асимметричных распределений может быть более целесообразным использовать линейную функцию потерь, а не квадратичную. Аналогичным коэффициентом дисперсии в данном случае является отношение среднего абсолютного отклонения от медианы к медиане данных [8] или, выражаясь символами:

где n — размер выборки, m — медиана выборки и сумма, взятая по всей выборке. Айова , Нью-Йорк и Южная Дакота используют этот линейный коэффициент дисперсии для оценки налоговых сборов. [9] [10] [11]

Для теста с двумя выборками, в котором размеры выборки велики, обе выборки имеют одинаковую медиану и различаются дисперсией вокруг нее, доверительный интервал для линейного коэффициента дисперсии ограничен снизу

где t j — среднее абсолютное отклонение j выборки, а z α — длина доверительного интервала для нормального распределения достоверности α (например, для α = 0,05, z α = 1,96). [8]

Смотрите также

Подобные соотношения

Примечания

  1. ^ Кокс и Льюис (1966)
  2. ^ Кокс и Льюис (1966), стр.72
  3. ^ Кокс и Льюис (1966), стр. 71
  4. ^ Кокс и Льюис (1966), стр. 158
  5. ^ Upton & Cook (2006), по индексу дисперсии.
  6. ^ Фром, Эл. (1982). «Алгоритм AS 171: Точный тест Фишера на дисперсию распределения Пуассона». Журнал Королевского статистического общества, серия C. 31 (1): 67–71. дои : 10.2307/2347079. JSTOR  2347079.
  7. ^ Хоэл, ПГ (1943). «Об показателях дисперсии». Анналы математической статистики . 14 (2): 155–162. дои : 10.1214/aoms/1177731457 . JSTOR  2235818.
  8. ^ Аб Бонетт, Д.Г.; Зайер, Э. (2006). «Доверительный интервал для коэффициента дисперсии в ненормальных распределениях». Биометрический журнал . 48 (1): 144–148. дои : 10.1002/bimj.200410148. PMID  16544819. S2CID  33665632.
  9. ^ «Определения статистических расчетов для массовой оценки» (PDF) . Айова.gov . Архивировано из оригинала (PDF) 11 ноября 2010 года. Медианное соотношение: соотношение, расположенное посередине между самым высоким и самым низким соотношением, когда отдельные коэффициенты для класса недвижимости ранжируются в порядке возрастания или убывания. Медианное соотношение чаще всего используется для определения уровня оценки того или иного класса недвижимости.
  10. ^ «Оценочный капитал в Нью-Йорке: результаты исследования рыночной стоимости 2010 года». Архивировано из оригинала 6 ноября 2012 года.
  11. ^ «Краткое описание процесса оценки» (PDF) . state.sd.us . Департамент доходов Южной Дакоты – Отдел налогов на имущество/специальных налогов. Архивировано из оригинала (PDF) 10 мая 2009 года.

Рекомендации