В описательной статистике межквартильный размах ( IQR ) является мерой статистической дисперсии , которая представляет собой разброс данных. [1] IQR также может называться средним размахом , средними 50% , четвертым размахом или H-размахом. Он определяется как разница между 75-м и 25-м процентилями данных. [2] [3] [4] Для расчета IQR набор данных делится на квартили или четыре упорядоченные по рангу четные части с помощью линейной интерполяции. [1] Эти квартили обозначаются как Q 1 (также называемый нижним квартилем), Q 2 ( медианой ) и Q 3 (также называемым верхним квартилем). Нижний квартиль соответствует 25-му процентилю, а верхний квартиль соответствует 75-му процентилю, поэтому IQR = Q 3 − Q 1 [1] .
IQR является примером усеченной оценки , определяемой как усеченный на 25% диапазон , который повышает точность статистики набора данных за счет отбрасывания точек с низким вкладом и выпадающих точек. [5] Он также используется в качестве надежной меры масштаба . [5] Его можно наглядно визуализировать с помощью ящика на диаграмме ящиков . [1]
В отличие от общего диапазона , межквартильный диапазон имеет точку разбиения 25% [6] и поэтому часто предпочтительнее общего диапазона.
IQR используется для построения диаграмм размаха — простых графических представлений распределения вероятностей .
IQR используется в бизнесе в качестве маркера уровня дохода .
Для симметричного распределения (где медиана равна середине , среднему значению первого и третьего квартилей) половина межквартильного размаха равна абсолютному отклонению медианы (MAD).
Медиана — это соответствующая мера центральной тенденции .
IQR может использоваться для определения выбросов (см. ниже). IQR также может указывать на асимметрию набора данных. [1]
Квартильное отклонение или полумежквартильный размах определяется как половина межквартильного размаха. [7]
IQR набора значений рассчитывается как разница между верхним и нижним квартилями, Q 3 и Q 1. Каждый квартиль представляет собой медиану [8], рассчитанную следующим образом.
Дано четное 2n или нечетное 2n+1 число значений
Второй квартиль Q 2 совпадает с обычной медианой. [8]
Следующая таблица состоит из 13 строк и соответствует правилам для нечетного количества записей.
Для данных в этой таблице межквартильный размах составляет IQR = Q 3 − Q 1 = 119 - 31 = 88.
+−−−−−+−+ * |-----------| | |-----------| +−−−−−+−+ +−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+ Числовая прямая 0 1 2 3 4 5 6 7 8 9 10 11 12
Для набора данных в этой диаграмме :
Это означает, что усы 1,5*IQR могут быть неравномерными по длине. Медиана, минимум, максимум, а также первый и третий квартиль составляют сводку пяти чисел . [9]
Межквартильный размах непрерывного распределения можно вычислить путем интегрирования функции плотности вероятности (что дает кумулятивную функцию распределения — любые другие способы вычисления CDF также подойдут). Нижний квартиль, Q 1 , — это число, такое что интеграл PDF от -∞ до Q 1 равен 0,25, тогда как верхний квартиль, Q 3 , — это такое число, что интеграл от -∞ до Q 3 равен 0,75; в терминах CDF квартили можно определить следующим образом:
где CDF −1 — функция квантиля .
Ниже показаны межквартильный размах и медиана некоторых распространенных распределений.
IQR, среднее значение и стандартное отклонение популяции P можно использовать в простом тесте на то, является ли P нормально распределенной или гауссовой. Если P нормально распределена, то стандартная оценка первого квартиля, z 1 , равна −0,67, а стандартная оценка третьего квартиля, z 3 , равна +0,67. Учитывая среднее значение = и стандартное отклонение = σ для P , если P нормально распределена, то первая квартиль
и третий квартиль
Если фактические значения первого или третьего квартилей существенно отличаются [ требуется разъяснение ] от расчетных значений, P не распределено нормально. Однако нормальное распределение можно тривиально возмущенным, чтобы сохранить его оценки Q1 и Q2 std на уровне 0,67 и −0,67 и не быть распределенным нормально (поэтому приведенный выше тест даст ложноположительный результат). Здесь будет указан лучший тест на нормальность, такой как график Q–Q .
Интерквартильный размах часто используется для поиска выбросов в данных. Выбросы здесь определяются как наблюдения, которые попадают ниже Q1 − 1,5 IQR или выше Q3 + 1,5 IQR. На диаграмме ящиков наивысшее и наименьшее встречающееся значение в этом пределе обозначены усами ящика (часто с дополнительной полосой в конце уса), а любые выбросы — как отдельные точки.