stringtranslate.com

Межквартильный размах

Блок-график (с межквартильным диапазоном) и функция плотности вероятности (pdf) нормальной популяции N(0,σ 2 )

В описательной статистике межквартильный размах ( IQR ) является мерой статистической дисперсии , которая представляет собой разброс данных. [1] IQR также можно назвать средним спредом , средними 50% , четвертым спредом или H-спредом. Он определяется как разница между 75-м и 25-м процентилями данных. [2] [3] [4] Для расчета IQR набор данных делится на квартили или четыре упорядоченные по рангу четные части посредством линейной интерполяции. [1] Эти квартили обозначаются Q 1 (также называемым нижним квартилем), Q 2 ( медиана ) и Q 3 (также называемым верхним квартилем). Нижний квартиль соответствует 25-му процентилю, а верхний квартиль соответствует 75-му процентилю, поэтому IQR = Q 3 −   Q 1 [1] .

IQR — это пример усеченного оценщика , определяемого как усеченный диапазон 25 % , который повышает точность статистики набора данных за счет исключения более низкого вклада, отдаленных точек. [5] Он также используется в качестве надежной меры масштаба. [5] Его можно четко визуализировать с помощью прямоугольника на коробчатой ​​диаграмме . [1]

Использовать

В отличие от общего размаха , межквартильный размах имеет точку пробоя 25% [6] и поэтому часто предпочтительнее общего размаха.

IQR используется для построения коробчатых диаграмм , простых графических представлений распределения вероятностей .

IQR используется в бизнесе как маркер уровня доходов .

Для симметричного распределения (где медиана равна середине , среднему значению первого и третьего квартилей), половина IQR равна медианному абсолютному отклонению (MAD).

Медиана является соответствующей мерой центральной тенденции .

IQR можно использовать для выявления выбросов (см. ниже). IQR также может указывать на асимметрию набора данных. [1]

Квартильное отклонение или полуинтерквартильный размах определяется как половина IQR. [7]

Алгоритм

IQR набора значений рассчитывается как разница между верхним и нижним квартилем Q 3 и Q 1 . Каждый квартиль представляет собой медиану [8], рассчитываемую следующим образом.

Учитывая четное 2n или нечетное 2n+1 количество значений

первый квартиль Q 1 = медиана n наименьших значений
третий квартиль Q 3 = медиана n наибольших значений [8]

Второй квартиль Q 2 аналогичен обычной медиане. [8]

Примеры

Набор данных в таблице

Следующая таблица состоит из 13 строк и соответствует правилам для нечетного числа записей.

Для данных этой таблицы межквартильный размах составляет IQR = Q 3 − Q 1 = 119 – 31 = 88.

Набор данных в текстовом поле

  +-----+-+  * |-----------| | |-----------| +-----+-+   +---+---+---+---+---+---+---+---+---+---+---+---+ число линия 0 1 2 3 4 5 6 7 8 9 10 11 12 

Для набора данных в этом коробчатом графике :

Это означает, что усы 1,5*IQR могут быть разной длины. Медиана, минимум, максимум, а также первый и третий квартиль составляют пятизначную сводку . [9]

Распределения

Межквартильный размах непрерывного распределения можно рассчитать путем интегрирования функции плотности вероятности (которая дает кумулятивную функцию распределения — любые другие способы расчета CDF также подойдут). Нижний квартиль, Q 1 , представляет собой число такое, что интеграл от PDF от -∞ до Q 1 равен 0,25, а верхний квартиль, Q 3 , представляет собой такое число, что интеграл от -∞ до Q 3 равен 0,75; с точки зрения CDF квартили можно определить следующим образом:

где CDF −1функция квантиля .

Межквартильный размах и медиана некоторых распространенных распределений показаны ниже.

Тест межквартильного размаха на нормальность распределения

IQR, среднее значение и стандартное отклонение популяции P можно использовать в простой проверке того, является ли P нормально распределенным или гауссовым. Если P нормально распределено, то стандартная оценка первого квартиля z 1 равна -0,67, а стандартная оценка третьего квартиля z 3 равна +0,67. Учитывая среднее значение  =  и стандартное отклонение  = σ для P , если P нормально распределено, первый квартиль

и третий квартиль

Если фактические значения первого или третьего квартилей существенно отличаются [ необходимы разъяснения ] от расчетных значений, P не распределяется нормально. Однако нормальное распределение можно тривиально нарушить, чтобы сохранить стандартные значения Q1 и Q2. оценки равны 0,67 и -0,67 и не имеют нормального распределения (поэтому приведенный выше тест даст ложноположительный результат). Здесь можно было бы указать лучший критерий нормальности, такой как график Q–Q .

Выбросы

Диаграмма «коробка с усами» с четырьмя умеренными выбросами и одним экстремальным выбросом. На этой диаграмме выбросы определяются как умеренные выше Q3 + 1,5 IQR и экстремальные выше Q3 + 3 IQR.

Межквартильный размах часто используется для обнаружения выбросов в данных. Выбросы здесь определяются как наблюдения, которые находятся ниже Q1 - 1,5 IQR или выше Q3 + 1,5 IQR. На коробчатой ​​диаграмме наибольшее и наименьшее значения, встречающиеся в этом пределе, обозначаются усами прямоугольника (часто с дополнительной полосой в конце уса) и любыми выбросами в виде отдельных точек.

Смотрите также

Рекомендации

  1. ^ abcde Dekking, Фредерик Мишель; Краайкамп, Корнелис; Лопухаа, Хен Пауль; Местер, Людольф Эрвин (2005). Современное введение в вероятность и статистику. Тексты Спрингера в статистике. Лондон: Спрингер Лондон. дои : 10.1007/1-84628-168-7. ISBN 978-1-85233-896-1.
  2. ^ Аптон, Грэм; Кук, Ян (1996). Понимание статистики. Издательство Оксфордского университета. п. 55. ИСБН 0-19-914391-9.
  3. ^ Цвиллингер, Д., Кокоска, С. (2000) Таблицы и формулы стандартной вероятности и статистики CRC , CRC Press. ISBN 1-58488-059-7, стр. 18. 
  4. ^ Росс, Шелдон (2010). Вводная статистика . Берлингтон, Массачусетс: Elsevier. стр. 103–104. ISBN 978-0-12-374388-6.
  5. ^ аб Кальтенбах, Ханс-Майкл (2012). Краткое руководство по статистике. Гейдельберг: Спрингер. ISBN 978-3-642-23502-3. OCLC  763157853.
  6. ^ Руссиу, Питер Дж.; Кру, Кристоф (1992). Ю. Додж (ред.). «Явные оценщики масштаба с высокой точкой пробоя» (PDF) . L1-статистический анализ и родственные методы . Амстердам: Северная Голландия. стр. 77–92.
  7. ^ Юл, Г. Удный (1911). Введение в теорию статистики. Чарльз Гриффин и компания. стр. 147–148.
  8. ^ abc Bertil., Вестергрен (1988). Бета[бета]Справочник по математике: понятия, теоремы, методы, алгоритмы, формулы, графики, таблицы . Студенческая литература . п. 348. ИСБН 9144250517. ОСЛК  18454776.
  9. ^ Деккинг, Краайкамп, Лопухаа и Мистер, страницы = 235–237}}

Внешние ссылки