В статистике квартили — это тип квантилей , которые делят количество точек данных на четыре части или четверти более или менее одинакового размера. Для расчета квартилей данные должны быть упорядочены от наименьшего к наибольшему; как таковые, квартили представляют собой форму порядковой статистики . Три квартиля, приводящие к четырем делениям данных, выглядят следующим образом:
Наряду с минимумом и максимумом данных (которые также являются квартилями), три квартиля, описанные выше, представляют собой пятизначную сводку данных. Это резюме важно в статистике, поскольку оно предоставляет информацию как о центре, так и о распространении данных. Знание нижнего и верхнего квартиля дает информацию о том, насколько велик разброс и не смещен ли набор данных в одну сторону. Поскольку квартили делят количество точек данных поровну, диапазон между соседними квартилями обычно неодинаков (т.е. обычно ( Q 3 - Q 2 ) ≠ ( Q 2 - Q 1 )). Межквартильный размах (IQR) определяется как разница между 75-м и 25-м процентилями или Q 3 - Q 1 . Хотя максимум и минимум также показывают разброс данных, верхний и нижний квартиль могут предоставить более подробную информацию о расположении конкретных точек данных, наличии выбросов в данных и разнице в разбросе между средними 50% данные и внешние точки данных. [2]
Для дискретных распределений не существует универсального соглашения о выборе значений квартилей. [3]
Это правило используется коробчатой диаграммой калькулятора TI-83 и функциями «1-Var Stats».
Значения, найденные этим методом, также известны как « петли Тьюки »; [4] см. также середину шарнира .
Если у нас есть упорядоченный набор данных , мы можем интерполировать между точками данных, чтобы найти эмпирический квантиль , если он находится в квантиле. Если мы обозначим целую часть числа через , то эмпирическая функция квантиля будет равна:
,
где и . [1]
Чтобы найти первый, второй и третий квартиль набора данных, мы должны оценить , и соответственно.
Упорядоченный набор данных (из нечетного числа точек данных): 6, 7, 15, 36, 39, 40 , 41, 42, 43, 47, 49.
Жирное число (40) — это медиана, разделяющая набор данных на две половины с одинаковым количеством точек данных.
Упорядоченный набор данных (из четного числа точек данных): 7, 15, 36, 39 , 40, 41.
Цифры, выделенные жирным шрифтом (36, 39), используются для расчета медианы как их среднего значения. Поскольку имеется четное количество точек данных, первые три метода дают одинаковые результаты. (Метод 3 выполняется таким образом, что медиана не выбирается в качестве новой точки данных и запускается метод 1.)
Если мы определим непрерывное распределение вероятностей как где – случайная величина с действительным значением , ее кумулятивная функция распределения (CDF) будет равна
. [1]
CDF дает вероятность того, что случайная величина меньше или равна значению . Следовательно, первый квартиль — это значение When , второй квартиль — это When , а третий квартиль — это When . [5] Значения можно найти с помощью функции квантиля , где для первого квартиля, для второго квартиля и для третьего квартиля. Функция квантиля является обратной функцией кумулятивной функции распределения, если кумулятивная функция распределения монотонно возрастает, поскольку сохраняется взаимно однозначное соответствие между входными и выходными данными кумулятивной функции распределения.
Существуют методы проверки выбросов в области статистики и статистического анализа. Выбросы могут быть результатом изменения местоположения (среднего значения) или масштаба (изменчивости) интересующего процесса. [6] Выбросы также могут свидетельствовать о том, что выборочная совокупность имеет ненормальное распределение или о загрязненном наборе данных о совокупности. Следовательно, в соответствии с основной идеей описательной статистики , при обнаружении выброса мы должны объяснить это значение путем дальнейшего анализа причины или происхождения выброса. В случаях экстремальных наблюдений, которые являются нередким явлением, необходимо анализировать типичные значения. Межквартильный размах (IQR), определяемый как разница между верхним и нижним квартилем ( ), может использоваться для характеристики данных, когда могут быть крайности, которые искажают данные; Межквартильный размах — это относительно надежный статистический показатель (также иногда называемый «сопротивлением») по сравнению с размахом и стандартным отклонением . Существует также математический метод проверки выбросов и определения «заборов», верхних и нижних пределов, от которых можно проверять выбросы.
После определения первого (нижнего) и третьего (верхнего) квартилей ( и соответственно) и межквартильного размаха ( ), как указано выше, заборы рассчитываются по следующей формуле:
Нижний предел — это «нижний предел», а верхний — «верхний предел» данных, и любые данные, лежащие за пределами этих определенных границ, могут считаться выбросами. Ограждения служат ориентиром для определения выброса , который можно определить другими способами. Ограждения определяют «диапазон», за пределами которого существует выброс; способ представить это - граница забора. Нижние и верхние границы вместе с выбросами обычно представляются в виде коробчатой диаграммы . Для коробчатой диаграммы, показанной справа, только вертикальная высота соответствует визуализируемому набору данных, тогда как горизонтальная ширина коробки не имеет значения. Выбросы, расположенные за пределами границ на коробчатой диаграмме, можно пометить любым символом, например «x» или «o». Заборы иногда также называют «усами», а весь визуальный сюжет называется сюжетом «коробка с усами».
При обнаружении выброса в наборе данных путем расчета межквартильных размахов и особенностей коробчатой диаграммы можно легко ошибочно рассматривать его как свидетельство того, что популяция ненормальна или что выборка загрязнена. Однако этот метод не должен заменять проверку гипотезы для определения нормальности популяции. Значимость выбросов варьируется в зависимости от размера выборки. Если выборка небольшая, то более вероятно получить нерепрезентативно малые межквартильные размахи, что приведет к более узким границам. Следовательно, с большей вероятностью будут найдены данные, помеченные как выбросы. [7]
Функция Excel КВАРТИЛЬ(массив, кварт) предоставляет желаемое значение квартиля для заданного массива данных, используя метод 3, описанный выше. В функции КВАРТИЛЬ (устаревшая функция из Excel 2007 или более ранней версии, дающая тот же результат, что и функция КВАРТИЛЬ.ВКЛ. ), массив — это анализируемый набор чисел, а кварт — любое из следующих 5 значений в зависимости от того, какой квартиль является рассчитывается. [8]
Для расчета квартилей в Matlab можно использовать функцию квантиль ( A , p ). Где A — вектор анализируемых данных, а p — процент, относящийся к квартилям, как указано ниже. [9]