В описательной статистике ящичная диаграмма или коробчатая диаграмма — это метод графической демонстрации групп локальности, разброса и асимметрии числовых данных через их квартили . [1] Помимо прямоугольника на коробчатом графике могут быть линии (которые называются «усами» ), отходящие от прямоугольника, обозначающие изменчивость за пределами верхнего и нижнего квартилей, таким образом, график еще называют коробчатым графиком. и диаграмма «коробка с усами» . Выбросы , которые значительно отличаются от остального набора данных [2], могут быть отображены в виде отдельных точек за усами на коробчатой диаграмме. Ящичные диаграммы непараметричны : они отображают вариации в выборках статистической совокупности без каких-либо предположений об основном статистическом распределении [3] (хотя ящичковая диаграмма Тьюки предполагает симметрию усов и нормальность их длины). Интервалы в каждом подразделе диаграммы указывают на степень дисперсии (разброса) и асимметрии данных, которые обычно описываются с помощью пятизначной сводки . Кроме того, коробчатая диаграмма позволяет визуально оценить различные L-оценки , в частности, межквартильный размах , средний шарнир , размах , средний диапазон и тримедиан . Ящичные диаграммы можно рисовать как горизонтально, так и вертикально.
Метод диапазона был впервые представлен Мэри Элеонорой Спир в ее книге «Статистика диаграмм» в 1952 году [4] и снова в ее книге «Практические методы построения диаграмм» в 1969 году. [5] Впервые был представлен диаграмма «коробка с усами». в 1970 году Джоном Тьюки , который позже опубликовал эту тему в своей книге «Исследовательский анализ данных» в 1977 году. [6]
Ящичная диаграмма — это стандартизированный способ отображения набора данных на основе пятизначной сводки : минимум, максимум, выборочная медиана, а также первый и третий квартили.
В дополнение к минимальным и максимальным значениям, используемым для построения коробчатой диаграммы, еще одним важным элементом, который также можно использовать для получения коробчатой диаграммы, является межквартильный размах (IQR), как указано ниже:
Ящик-график обычно состоит из двух частей: ящика и набора усов, как показано на рисунке 2.
Рамка нарисована от Q 1 до Q 3 с горизонтальной линией, проведенной внутри нее, чтобы обозначить медиану. Некоторые коробчатые диаграммы включают дополнительный символ, обозначающий среднее значение данных. [8] [9]
Усы должны заканчиваться в наблюдаемой точке данных, но их можно определить различными способами. В самом прямом методе граница нижнего «уса» — это минимальное значение набора данных, а граница верхнего «уса» — максимальное значение набора данных. Из-за этой изменчивости уместно описать соглашение, которое используется для «усов» и выбросов в заголовке коробчатой диаграммы.
Другой популярный выбор границ усов основан на значении IQR 1,5. Сверху верхнего квартиля ( Q 3 ) измеряется расстояние, в 1,5 раза превышающее IQR, и проводится усик до самой большой наблюдаемой точки данных из набора данных, которая попадает в пределах этого расстояния. Аналогичным образом, расстояние, в 1,5 раза превышающее IQR, измеряется ниже нижнего квартиля ( Q 1 ), и черта рисуется до самой низкой наблюдаемой точки данных из набора данных, которая попадает в пределы этого расстояния. Поскольку усы должны заканчиваться в наблюдаемой точке данных, длина усов может выглядеть неодинаковой, хотя 1,5 IQR одинаково для обеих сторон. Все остальные наблюдаемые точки данных за пределами границ усов отображаются как выбросы . [10] Выбросы можно нанести на диаграмму в виде точки, маленького круга, звезды и т. д. (см. пример ниже).
Существуют и другие представления, в которых усы могут обозначать и другие вещи, например:
Редко коробчатый график можно построить без усов. Это может быть целесообразно для конфиденциальной информации, чтобы избежать появления «усов» (и выбросов), раскрывающих фактические наблюдаемые значения. [11]
Необычные процентили 2%, 9%, 91%, 98% иногда используются для штриховки усами и концов усиков, чтобы отобразить сводку из семи цифр . Если данные распределены нормально , местоположения семи меток на коробчатой диаграмме будут расположены на одинаковом расстоянии. На некоторых коробчатых диаграммах перед концом каждого «уса» ставится штриховка.
С тех пор, как математик Джон В. Тьюки впервые популяризировал этот тип отображения визуальных данных в 1969 году, было разработано несколько вариаций классической коробчатой диаграммы, и двумя наиболее часто встречающимися вариациями являются коробчатые диаграммы переменной ширины и коробчатые диаграммы с надрезом, показанные на рисунке. 4.
Диаграммы переменной ширины иллюстрируют размер каждой группы, данные которой отображаются, делая ширину прямоугольника пропорциональной размеру группы. Популярное соглашение заключается в том, чтобы ширина поля была пропорциональна квадратному корню из размера группы. [12]
На диаграммах с вырезом применяется «вырез» или сужение прямоугольника вокруг медианы. Отсечки полезны, поскольку дают приблизительное представление о значимости разницы медиан; если вырезы двух прямоугольников не перекрываются, это будет свидетельствовать о статистически значимой разнице между медианами. [12] Высота насечек пропорциональна межквартильному размаху (IQR) образца и обратно пропорциональна квадратному корню из размера образца. Однако существует неопределенность в отношении наиболее подходящего множителя (поскольку он может варьироваться в зависимости от сходства дисперсий выборок). [12] Ширина выреза выбирается произвольно, чтобы она была визуально приятной и должна быть одинаковой для всех коробчатых диаграмм, отображаемых на одной странице.
Одним из правил получения границ этих вырезов является использование расстояния вокруг медианы. [13]
Скорректированные коробчатые диаграммы предназначены для описания асимметричного распределения и основаны на статистике асимметрии, полученной медпарами . [14] Для значения MC для медицинской пары длины верхних и нижних усов на коробчатой диаграмме соответственно определяются как:
Для симметричного распределения данных медпара будет равна нулю, и это сводит скорректированную коробчатую диаграмму к коробчатой диаграмме Тьюки с одинаковой длиной усов для обоих усов.
Другие виды коробчатых диаграмм , такие как скрипичные диаграммы и бобовые диаграммы, могут показать разницу между одномодальными и мультимодальными распределениями, которую невозможно наблюдать на исходной классической коробчатой диаграмме. [6]
В течение дня измерялась серия почасовых температур в градусах по Фаренгейту. Записанные значения перечислены в следующем порядке (°F): 57, 57, 57, 58, 63, 66, 66, 67, 67, 68, 69, 70, 70, 70, 70, 72, 73, 75, 75, 76, 76, 78, 79, 81.
Ящичковую диаграмму набора данных можно создать, сначала вычислив пять соответствующих значений этого набора данных: минимум, максимум, медиану ( Q 2 ), первый квартиль ( Q 1 ) и третий квартиль ( Q 3 ).
Минимум — это наименьшее число набора данных. В этом случае минимальная зарегистрированная дневная температура составляет 57 °F.
Максимум — это наибольшее число набора данных. В этом случае максимальная зарегистрированная дневная температура составляет 81 °F.
Медиана — это «среднее» число упорядоченного набора данных. Это означает, что ровно 50% элементов меньше медианы и 50% элементов больше медианы. Медиана этого упорядоченного набора данных составляет 70 ° F.
Значение первого квартиля ( Q 1 или 25-й процентиль) — это число, обозначающее одну четверть упорядоченного набора данных. Другими словами, существует ровно 25% элементов, которые меньше первого квартиля, и ровно 75% элементов, которые больше его. Значение первого квартиля можно легко определить, найдя «среднее» число между минимумом и медианой. Для почасовых температур «среднее» число между 57 °F и 70 °F составляет 66 °F.
Значение третьего квартиля ( Q 3 или 75-й процентиль) — это число, обозначающее три четверти упорядоченного набора данных. Другими словами, существует ровно 75% элементов, которые меньше третьего квартиля, и 25% элементов, которые больше его. Значение третьего квартиля можно легко получить, найдя «среднее» число между медианой и максимумом. Для почасовых температур «среднее» число между 70 °F и 81 °F составляет 75 °F.
Межквартильный размах, или IQR, можно рассчитать путем вычитания значения первого квартиля ( Q 1 ) из значения третьего квартиля ( Q 3 ):
Следовательно,
1,5 IQR выше третьего квартиля составляет:
На 1,5 IQR ниже первого квартиля это:
Верхняя граница усов коробчатой диаграммы — это наибольшее значение данных, которое находится в пределах 1,5 IQR выше третьего квартиля. Здесь 1,5 IQR выше третьего квартиля составляет 88,5 °F, а максимум — 81 °F. Поэтому верхний «ус» рисуется при значении максимума, равном 81 °F.
Аналогично, нижняя граница «усов» прямоугольной диаграммы — это наименьшее значение данных, которое находится в пределах 1,5 IQR ниже первого квартиля. Здесь 1,5 IQR ниже первого квартиля составляет 52,5 °F, а минимум — 57 °F. Поэтому нижний ус рисуется при значении минимума, равном 57 °F.
Выше приведен пример без выбросов. Вот последующий пример создания коробчатой диаграммы с выбросами:
Упорядоченный набор регистрируемых температур составляет (°F): 52, 57, 57, 58, 63, 66, 66, 67, 67, 68, 69, 70, 70, 70, 70, 72, 73, 75, 75. , 76, 76, 78, 79, 89.
В этом примере изменяются только первое и последнее число. Медиана, третий и первый квартиль остаются прежними.
В этом случае максимальное значение в этом наборе данных составляет 89 °F, а 1,5 IQR выше третьего квартиля составляет 88,5 °F. Максимум превышает 1,5 IQR плюс третий квартиль, поэтому максимум является выбросом. Таким образом, верхний «ус» рисуется при максимальном значении менее 1,5 IQR выше третьего квартиля, что составляет 79 °F.
Аналогично, минимальное значение в этом наборе данных составляет 52 °F, а 1,5 IQR ниже первого квартиля составляет 52,5 °F. Минимум меньше 1,5 IQR минус первый квартиль, поэтому минимум также является выбросом. Таким образом, нижний «ус» рисуется при наименьшем значении, превышающем 1,5 IQR ниже первого квартиля, что составляет 57 °F.
Дополнительный пример получения коробчатой диаграммы из набора данных, содержащего большое количество точек данных:
Используя приведенный выше пример с 24 точками данных ( n = 24), можно вычислить медиану, первый и третий квартиль математически или визуально.
Медиана :
Первый квартиль :
Третий квартиль :
Хотя коробчатые диаграммы могут показаться более примитивными, чем гистограммы или оценки плотности ядра , они имеют ряд преимуществ. Во-первых, ящичная диаграмма позволяет статистикам провести быстрое графическое исследование одного или нескольких наборов данных. Ящичные диаграммы также занимают меньше места и поэтому особенно полезны для параллельного сравнения распределений между несколькими группами или наборами данных (пример см. на рисунке 1). Наконец, на общую структуру гистограмм и оценку плотности ядра может сильно влиять выбор метода количества и ширины интервалов и выбор полосы пропускания соответственно.
Хотя просмотр статистического распределения более распространен, чем просмотр коробчатой диаграммы, может быть полезно сравнить коробчатую диаграмму с функцией плотности вероятности (теоретической гистограммой) для нормального распределения N(0, σ 2 ) и непосредственно наблюдать их характеристики. (как показано на рисунке 7).
{{cite book}}
: CS1 maint: multiple names: authors list (link)