В описательной статистике межквартильный размах ( IQR ) является мерой статистической дисперсии , которая представляет собой разброс данных. [1] IQR также можно назвать средним спредом , средними 50% , четвертым спредом или H-спредом. Он определяется как разница между 75-м и 25-м процентилями данных. [2] [3] [4] Для расчета IQR набор данных делится на квартили или четыре упорядоченные по рангу четные части посредством линейной интерполяции. [1] Эти квартили обозначаются Q 1 (также называемым нижним квартилем), Q 2 ( медиана ) и Q 3 (также называемым верхним квартилем). Нижний квартиль соответствует 25-му процентилю, а верхний квартиль соответствует 75-му процентилю, поэтому IQR = Q 3 − Q 1 [1] .
IQR — это пример усеченного оценщика , определяемого как усеченный диапазон 25 % , который повышает точность статистики набора данных за счет исключения более низкого вклада, отдаленных точек. [5] Он также используется в качестве надежной меры масштаба. [5] Его можно четко визуализировать с помощью прямоугольника на коробчатой диаграмме . [1]
В отличие от общего размаха , межквартильный размах имеет точку пробоя 25% [6] и поэтому часто предпочтительнее общего размаха.
IQR используется для построения коробчатых диаграмм , простых графических представлений распределения вероятностей .
IQR используется в бизнесе как маркер уровня доходов .
Для симметричного распределения (где медиана равна середине , среднему значению первого и третьего квартилей), половина IQR равна медианному абсолютному отклонению (MAD).
Медиана является соответствующей мерой центральной тенденции .
IQR можно использовать для выявления выбросов (см. ниже). IQR также может указывать на асимметрию набора данных. [1]
Квартильное отклонение или полуинтерквартильный размах определяется как половина IQR. [7]
IQR набора значений рассчитывается как разница между верхним и нижним квартилем Q 3 и Q 1 . Каждый квартиль представляет собой медиану [8], рассчитываемую следующим образом.
Учитывая четное 2n или нечетное 2n+1 количество значений
Второй квартиль Q 2 аналогичен обычной медиане. [8]
Следующая таблица состоит из 13 строк и соответствует правилам для нечетного числа записей.
Для данных этой таблицы межквартильный размах составляет IQR = Q 3 − Q 1 = 119 – 31 = 88.
+-----+-+ * |-----------| | |-----------| +-----+-+ +---+---+---+---+---+---+---+---+---+---+---+---+ число линия 0 1 2 3 4 5 6 7 8 9 10 11 12
Для набора данных в этом коробчатом графике :
Это означает, что усы 1,5*IQR могут быть разной длины. Медиана, минимум, максимум, а также первый и третий квартиль составляют пятизначную сводку . [9]
Межквартильный размах непрерывного распределения можно рассчитать путем интегрирования функции плотности вероятности (которая дает кумулятивную функцию распределения — любые другие способы расчета CDF также подойдут). Нижний квартиль, Q 1 , представляет собой число такое, что интеграл от PDF от -∞ до Q 1 равен 0,25, а верхний квартиль, Q 3 , представляет собой такое число, что интеграл от -∞ до Q 3 равен 0,75; с точки зрения CDF квартили можно определить следующим образом:
где CDF −1 — функция квантиля .
Межквартильный размах и медиана некоторых распространенных распределений показаны ниже.
IQR, среднее значение и стандартное отклонение популяции P можно использовать в простой проверке того, является ли P нормально распределенным или гауссовым. Если P нормально распределено, то стандартная оценка первого квартиля z 1 равна -0,67, а стандартная оценка третьего квартиля z 3 равна +0,67. Учитывая среднее значение = и стандартное отклонение = σ для P , если P нормально распределено, первый квартиль
и третий квартиль
Если фактические значения первого или третьего квартилей существенно отличаются [ необходимы разъяснения ] от расчетных значений, P не распределяется нормально. Однако нормальное распределение можно тривиально нарушить, чтобы сохранить стандартные значения Q1 и Q2. оценки равны 0,67 и -0,67 и не имеют нормального распределения (поэтому приведенный выше тест даст ложноположительный результат). Здесь можно было бы указать лучший критерий нормальности, такой как график Q–Q .
Межквартильный размах часто используется для обнаружения выбросов в данных. Выбросы здесь определяются как наблюдения, которые находятся ниже Q1 - 1,5 IQR или выше Q3 + 1,5 IQR. На коробчатой диаграмме наибольшее и наименьшее значения, встречающиеся в этом пределе, обозначаются усами прямоугольника (часто с дополнительной полосой в конце уса) и любыми выбросами в виде отдельных точек.