Квартиль

В статистике квартили — это тип квантилей , которые делят количество точек данных на четыре части или четверти более или менее одинакового размера. Для расчета квартилей данные должны быть упорядочены от наименьшего к наибольшему; как таковые, квартили представляют собой форму порядковой статистики . Три квартиля, приводящие к четырем делениям данных, выглядят следующим образом:

Первый квартиль ( Q ₁ ) определяется как 25-й процентиль , где самые низкие 25% данных находятся ниже этой точки. Его также называют нижним квартилем.
Второй квартиль ( Q ₂ ) — это медиана набора данных; таким образом, 50% данных лежат ниже этой точки.
Третий квартиль ( Q ₃ ) — это 75-й процентиль, где самые низкие 75% данных находятся ниже этой точки. Он известен как верхний квартиль, поскольку 75% данных находятся ниже этой точки. ^[1]

Наряду с минимумом и максимумом данных (которые также являются квартилями), три квартиля, описанные выше, представляют собой пятизначную сводку данных. Это резюме важно в статистике, поскольку оно предоставляет информацию как о центре, так и о распространении данных. Знание нижнего и верхнего квартиля дает информацию о том, насколько велик разброс и не смещен ли набор данных в одну сторону. Поскольку квартили делят количество точек данных поровну, диапазон между соседними квартилями обычно неодинаков (т.е. обычно ( Q ₃ - Q ₂ ) ≠ ( Q ₂ - Q ₁ )). Межквартильный размах (IQR) определяется как разница между 75-м и 25-м процентилями или Q ₃ - Q ₁ . Хотя максимум и минимум также показывают разброс данных, верхний и нижний квартиль могут предоставить более подробную информацию о расположении конкретных точек данных, наличии выбросов в данных и разнице в разбросе между средними 50% данные и внешние точки данных. ^[2]

Определения

Вычислительные методы

Дискретные распределения

Для дискретных распределений не существует универсального соглашения о выборе значений квартилей. ^[3]

Способ 1

Используйте медиану , чтобы разделить упорядоченный набор данных на две половины. Медиана становится вторым квартилем.
- Если в исходном упорядоченном наборе данных нечетное количество точек данных, не включайте медиану (центральное значение в упорядоченном списке) ни в одну половину.
- Если в исходном упорядоченном наборе данных четное количество точек данных, разделите этот набор данных ровно пополам.
Значение нижнего квартиля представляет собой медиану нижней половины данных. Значение верхнего квартиля представляет собой медиану верхней половины данных.

Это правило используется коробчатой диаграммой калькулятора TI-83 и функциями «1-Var Stats».

Способ 2

Используйте медиану, чтобы разделить упорядоченный набор данных на две половины. Медиана становится вторым квартилем.
- Если в исходном упорядоченном наборе данных нечетное количество точек данных, включите медиану (центральное значение в упорядоченном списке) в обе половины.
- Если в исходном упорядоченном наборе данных четное количество точек данных, разделите этот набор данных ровно пополам.
Значение нижнего квартиля представляет собой медиану нижней половины данных. Значение верхнего квартиля представляет собой медиану верхней половины данных.

Значения, найденные этим методом, также известны как « петли Тьюки »; ^[4] см. также середину шарнира .

Способ 3

Используйте медиану, чтобы разделить упорядоченный набор данных на две половины. Медиана становится вторым квартилем.
1. Если имеется нечетное количество точек данных, перейдите к следующему шагу.
2. Если имеется четное количество точек данных, то метод 3 начинается так же, как метод 1 или метод 2, описанный выше, и вы можете включить или не включать медиану в качестве новой точки данных. Если вы решите включить медиану в качестве новой точки данных, перейдите к шагу 2 или 3 ниже, поскольку теперь у вас есть нечетное количество точек данных. Если вы не выберете медиану в качестве новой точки данных, продолжайте использовать метод 1 или 2, с которого вы начали.
Если имеется (4 n +1) точек данных, то нижний квартиль составляет 25 % n -го значения данных плюс 75 % ( n +1)-го значения данных; верхний квартиль составляет 75% (3 n +1)-й точки данных плюс 25% (3 n +2)-й точки данных.
Если имеется (4 n +3) точек данных, то нижний квартиль составляет 75 % ( n +1)-го значения данных плюс 25 % ( n +2)-го значения данных; верхний квартиль составляет 25% (3 n +2)-й точки данных плюс 75% (3 n +3)-й точки данных.

Способ 4

Если у нас есть упорядоченный набор данных , мы можем интерполировать между точками данных, чтобы найти эмпирический квантиль , если он находится в квантиле. Если мы обозначим целую часть числа через , то эмпирическая функция квантиля будет равна: $x_{1},x_{2},...,x_{n}$ ${\ displaystyle p}$ $x_{i}$ $я/(n+1)$ $а$ $\lfloor a\rfloor$

$q(p/4)=x_{k}+\alpha (x_{k+1}-x_{k})$ ,

где и . ^[1] $k=\lfloor p(n+1)/4\rfloor$ $\alpha =p(n+1)/4-\lfloor p(n+1)/4\rfloor$

Чтобы найти первый, второй и третий квартиль набора данных, мы должны оценить , и соответственно. ${\ displaystyle q (0,25)}$ ${\ displaystyle q (0,5)}$ ${\ displaystyle q (0,75)}$

Пример 1

Упорядоченный набор данных (из нечетного числа точек данных): 6, 7, 15, 36, 39, 40 , 41, 42, 43, 47, 49.

Жирное число (40) — это медиана, разделяющая набор данных на две половины с одинаковым количеством точек данных.

Пример 2

Упорядоченный набор данных (из четного числа точек данных): 7, 15, 36, 39 , 40, 41.

Цифры, выделенные жирным шрифтом (36, 39), используются для расчета медианы как их среднего значения. Поскольку имеется четное количество точек данных, первые три метода дают одинаковые результаты. (Метод 3 выполняется таким образом, что медиана не выбирается в качестве новой точки данных и запускается метод 1.)

Непрерывные распределения вероятностей

Квартили кумулятивной функции распределения нормального распределения

Если мы определим непрерывное распределение вероятностей как где – случайная величина с действительным значением , ее кумулятивная функция распределения (CDF) будет равна ${\ displaystyle P (X)}$ $X$

$F_{X}(x)=P(X\leq x)$ . ^[1]

CDF дает вероятность того, что случайная величина меньше или равна значению . Следовательно, первый квартиль — это значение When , второй квартиль — это When , а третий квартиль — это When . ^[5] Значения можно найти с помощью функции квантиля , где для первого квартиля, для второго квартиля и для третьего квартиля. Функция квантиля является обратной функцией кумулятивной функции распределения, если кумулятивная функция распределения монотонно возрастает, поскольку сохраняется взаимно однозначное соответствие между входными и выходными данными кумулятивной функции распределения. $X$ $х$ $х$ $F_{X}(x)=0,25$ $х$ $F_{X}(x)=0,5$ $х$ $F_{X}(x)=0,75$ $х$ $Q(p)$ $p=0,25$ $p=0,5$ $p=0,75$

Выбросы

Существуют методы проверки выбросов в области статистики и статистического анализа. Выбросы могут быть результатом изменения местоположения (среднего значения) или масштаба (изменчивости) интересующего процесса. ^[6] Выбросы также могут свидетельствовать о том, что выборочная совокупность имеет ненормальное распределение или о загрязненном наборе данных о совокупности. Следовательно, в соответствии с основной идеей описательной статистики , при обнаружении выброса мы должны объяснить это значение путем дальнейшего анализа причины или происхождения выброса. В случаях экстремальных наблюдений, которые являются нередким явлением, необходимо анализировать типичные значения. Межквартильный размах (IQR), определяемый как разница между верхним и нижним квартилем ( ), может использоваться для характеристики данных, когда могут быть крайности, которые искажают данные; Межквартильный размах представляет собой относительно надежный статистический показатель (также иногда называемый «сопротивлением») по сравнению с размахом и стандартным отклонением . Существует также математический метод проверки выбросов и определения «заборов», верхних и нижних пределов, от которых можно проверять выбросы. ${\textstyle Q_{3}-Q_{1}}$

После определения первого (нижнего) и третьего (верхнего) квартилей ( и соответственно) и межквартильного размаха ( ), как указано выше, заборы рассчитываются по следующей формуле: ${\textstyle Q_{1}}$ ${\textstyle Q_{3}}$ ${\textstyle {\textrm {IQR}}=Q_{3}-Q_{1}}$

{\text{Нижний забор}}=Q_{1}-(1,5\times \mathrm {IQR})

{\text{Верхний забор}}=Q_{3}+(1,5\times \mathrm {IQR})

Нижний предел — это «нижний предел», а верхний — «верхний предел» данных, и любые данные, лежащие за пределами этих определенных границ, могут считаться выбросами. Ограждения служат ориентиром для определения выброса , который можно определить другими способами. Ограждения определяют «диапазон», за пределами которого существует выброс; способ представить это - граница забора. Нижние и верхние границы вместе с выбросами обычно представляются в виде коробчатой диаграммы . Для коробчатой диаграммы, показанной справа, только вертикальная высота соответствует визуализируемому набору данных, тогда как горизонтальная ширина коробки не имеет значения. Выбросы, расположенные за пределами границ на коробчатой диаграмме, можно пометить любым символом, например «x» или «o». Заборы иногда также называют «усами», а весь визуальный сюжет называется сюжетом «коробка с усами».

При обнаружении выброса в наборе данных путем расчета межквартильных размахов и особенностей коробчатой диаграммы можно легко ошибочно рассматривать его как свидетельство того, что популяция ненормальна или что выборка загрязнена. Однако этот метод не должен заменять проверку гипотезы для определения нормальности популяции. Значимость выбросов варьируется в зависимости от размера выборки. Если выборка небольшая, то более вероятно получить нерепрезентативно малые межквартильные размахи, что приведет к более узким границам. Следовательно, с большей вероятностью будут найдены данные, помеченные как выбросы. ^[7]

Компьютерная программа для квартилей

Эксель

Функция Excel КВАРТИЛЬ (массив, кварт) предоставляет желаемое значение квартиля для заданного массива данных, используя метод 3, описанный выше. В функции КВАРТИЛЬ (устаревшая функция из Excel 2007 или более ранней версии, дающая тот же результат, что и функция КВАРТИЛЬ.ВКЛ. ), массив — это анализируемый набор чисел, а кварт — любое из следующих 5 значений в зависимости от того, какой квартиль является рассчитывается. ^[8]

МАТЛАБ

Для расчета квартилей в Matlab можно использовать функцию квантиль ( A , p ). Где A — вектор анализируемых данных, а p — процент, относящийся к квартилям, как указано ниже. ^[9]

Смотрите также

Внешние ссылки

Квартиль – из MathWorld. Включает ссылки и сравнивает различные методы вычисления квартилей.
Квартили – с сайта MathForum.org.
Калькулятор квартилей – простой калькулятор квартилей
Квартили – пример, как их рассчитать
Калькулятор квартилей – онлайн-калькулятор квартилей и межквартильных размахов