stringtranslate.com

Межквартильный размах

Диаграмма распределения (с межквартильным размахом) и функция плотности вероятности (pdf) нормальной популяции N(0,σ 2 )

В описательной статистике межквартильный размах ( IQR ) является мерой статистической дисперсии , которая представляет собой разброс данных. [1] IQR также может называться средним размахом , средними 50% , четвертым размахом или H-размахом. Он определяется как разница между 75-м и 25-м процентилями данных. [2] [3] [4] Для расчета IQR набор данных делится на квартили или четыре упорядоченные по рангу четные части с помощью линейной интерполяции. [1] Эти квартили обозначаются как Q 1 (также называемый нижним квартилем), Q 2 ( медианой ) и Q 3 (также называемым верхним квартилем). Нижний квартиль соответствует 25-му процентилю, а верхний квартиль соответствует 75-му процентилю, поэтому IQR = Q 3 −   Q 1 [1] .

IQR является примером усеченной оценки , определяемой как усеченный на 25% диапазон , который повышает точность статистики набора данных за счет отбрасывания точек с низким вкладом и выпадающих точек. [5] Он также используется в качестве надежной меры масштаба . [5] Его можно наглядно визуализировать с помощью ящика на диаграмме ящиков . [1]

Использовать

В отличие от общего диапазона , межквартильный диапазон имеет точку разбиения 25% [6] и поэтому часто предпочтительнее общего диапазона.

IQR используется для построения диаграмм размаха — простых графических представлений распределения вероятностей .

IQR используется в бизнесе в качестве маркера уровня дохода .

Для симметричного распределения (где медиана равна середине , среднему значению первого и третьего квартилей) половина межквартильного размаха равна абсолютному отклонению медианы (MAD).

Медиана — это соответствующая мера центральной тенденции .

IQR может использоваться для определения выбросов (см. ниже). IQR также может указывать на асимметрию набора данных. [1]

Квартильное отклонение или полумежквартильный размах определяется как половина межквартильного размаха. [7]

Алгоритм

IQR набора значений рассчитывается как разница между верхним и нижним квартилями, Q 3 и Q 1. Каждый квартиль представляет собой медиану [8], рассчитанную следующим образом.

Дано четное 2n или нечетное 2n+1 число значений

первый квартиль Q 1 = медиана n наименьших значений
третий квартиль Q 3 = медиана n наибольших значений [8]

Второй квартиль Q 2 совпадает с обычной медианой. [8]

Примеры

Набор данных в таблице

Следующая таблица состоит из 13 строк и соответствует правилам для нечетного количества записей.

Для данных в этой таблице межквартильный размах составляет IQR = Q 3 − Q 1 = 119 - 31 = 88.

Набор данных в виде текстового поля

 +−−−−−+−+ * |-----------| | |-----------| +−−−−−+−+ +−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+ Числовая прямая 0 1 2 3 4 5 6 7 8 9 10 11 12

Для набора данных в этой диаграмме :

Это означает, что усы 1,5*IQR могут быть неравномерными по длине. Медиана, минимум, максимум, а также первый и третий квартиль составляют сводку пяти чисел . [9]

Распределения

Межквартильный размах непрерывного распределения можно вычислить путем интегрирования функции плотности вероятности (что дает кумулятивную функцию распределения — любые другие способы вычисления CDF также подойдут). Нижний квартиль, Q 1 , — это число, такое что интеграл PDF от -∞ до Q 1 равен 0,25, тогда как верхний квартиль, Q 3 , — это такое число, что интеграл от -∞ до Q 3 равен 0,75; в терминах CDF квартили можно определить следующим образом:

где CDF −1функция квантиля .

Ниже показаны межквартильный размах и медиана некоторых распространенных распределений.

Тест межквартильного размаха на нормальность распределения

IQR, среднее значение и стандартное отклонение популяции P можно использовать в простом тесте на то, является ли P нормально распределенной или гауссовой. Если P нормально распределена, то стандартная оценка первого квартиля, z 1 , равна −0,67, а стандартная оценка третьего квартиля, z 3 , равна +0,67. Учитывая среднее значение  =  и стандартное отклонение  = σ для P , если P нормально распределена, то первая квартиль

и третий квартиль

Если фактические значения первого или третьего квартилей существенно отличаются [ требуется разъяснение ] от расчетных значений, P не распределено нормально. Однако нормальное распределение можно тривиально возмущенным, чтобы сохранить его оценки Q1 и Q2 std на уровне 0,67 и −0,67 и не быть распределенным нормально (поэтому приведенный выше тест даст ложноположительный результат). Здесь будет указан лучший тест на нормальность, такой как график Q–Q .

Выбросы

Диаграмма ящика с усами с четырьмя умеренными выбросами и одним экстремальным выбросом. На этой диаграмме выбросы определяются как умеренные выше Q3 + 1,5 IQR и экстремальные выше Q3 + 3 IQR.

Интерквартильный размах часто используется для поиска выбросов в данных. Выбросы здесь определяются как наблюдения, которые попадают ниже Q1 − 1,5 IQR или выше Q3 + 1,5 IQR. На диаграмме ящиков наивысшее и наименьшее встречающееся значение в этом пределе обозначены усами ящика (часто с дополнительной полосой в конце уса), а любые выбросы — как отдельные точки.

Смотрите также

Ссылки

  1. ^ abcde Dekking, Фредерик Мишель; Краайкамп, Корнелис; Лопухаа, Хен Пауль; Мистер, Людольф Эрвин (2005). Современное введение в вероятность и статистику. Тексты Спрингера в статистике. Лондон: Спрингер Лондон. дои : 10.1007/1-84628-168-7. ISBN 978-1-85233-896-1.
  2. ^ Аптон, Грэм; Кук, Ян (1996). Понимание статистики. Oxford University Press. стр. 55. ISBN 0-19-914391-9.
  3. ^ Цвиллингер, Д., Кокоска, С. (2000) Стандартные таблицы и формулы вероятности и статистики CRC , CRC Press. ISBN 1-58488-059-7 стр. 18. 
  4. ^ Росс, Шелдон (2010). Вводная статистика . Берлингтон, Массачусетс: Elsevier. С. 103–104. ISBN 978-0-12-374388-6.
  5. ^ аб Кальтенбах, Ханс-Майкл (2012). Краткое руководство по статистике. Гейдельберг: Спрингер. ISBN 978-3-642-23502-3. OCLC  763157853.
  6. ^ Rousseeuw, Peter J.; Croux, Christophe (1992). Y. Dodge (ред.). "Explicit Scale Estimators with High Breakdown Point" (PDF) . L1-Statistical Analysis and Related Methods . Amsterdam: North-Holland. стр. 77–92.
  7. ^ Юл, Г. Удни (1911). Введение в теорию статистики. Charles Griffin and Company. С. 147–148.
  8. ^ abc Bertil., Westergren (1988). Справочник по бета-математике: концепции, теоремы, методы, алгоритмы, формулы, графики, таблицы . Studentlitteratur . стр. 348. ISBN 9144250517. OCLC  18454776.
  9. Деккинг, Краайкамп, Лопухаа и Мистер, стр. 235–237.

Внешние ссылки