stringtranslate.com

Коробочный сюжет

Рисунок 1. Ящик с данными эксперимента Майкельсона.

В описательной статистике ящичная диаграмма или коробчатая диаграмма — это метод графической демонстрации групп локальности, разброса и асимметрии числовых данных через их квартили . [1] Помимо прямоугольника на коробчатом графике могут быть линии (которые называются «усами» ), отходящие от прямоугольника, обозначающие изменчивость за пределами верхнего и нижнего квартилей, таким образом, график еще называют коробчатым графиком. и диаграмма «коробка с усами» . Выбросы , которые значительно отличаются от остального набора данных [2], могут быть отображены в виде отдельных точек за усами на коробчатой ​​диаграмме. Ящичные диаграммы непараметричны : они отображают вариации в выборках статистической совокупности без каких-либо предположений об основном статистическом распределении [3] (хотя ящичковая диаграмма Тьюки предполагает симметрию усов и нормальность их длины). Интервалы в каждом подразделе диаграммы указывают на степень дисперсии (разброса) и асимметрии данных, которые обычно описываются с помощью пятизначной сводки . Кроме того, коробчатая диаграмма позволяет визуально оценить различные L-оценки , в частности, межквартильный размах , средний шарнир , размах , средний диапазон и тримедиан . Ящичные диаграммы можно рисовать как горизонтально, так и вертикально.

История

Метод диапазона был впервые представлен Мэри Элеонорой Спир в ее книге «Статистика диаграмм» в 1952 году [4] и снова в ее книге «Практические методы построения диаграмм» в 1969 году. [5] Впервые был представлен диаграмма «коробка с усами». в 1970 году Джоном Тьюки , который позже опубликовал эту тему в своей книге «Исследовательский анализ данных» в 1977 году. [6]

Элементы

Рисунок 2. Ящик с усами от минимума до максимума
Рисунок 3. Тот же коробчатый график с усами, нарисованный в пределах значения IQR 1,5.

Ящичная диаграмма — это стандартизированный способ отображения набора данных на основе пятизначной сводки : минимум, максимум, выборочная медиана, а также первый и третий квартили.

В дополнение к минимальным и максимальным значениям, используемым для построения коробчатой ​​диаграммы, еще одним важным элементом, который также можно использовать для получения коробчатой ​​диаграммы, является межквартильный размах (IQR), как указано ниже:

Ящик-график обычно состоит из двух частей: ящика и набора усов, как показано на рисунке 2.

Коробка

Рамка нарисована от Q 1 до Q 3 с горизонтальной линией, проведенной внутри нее, чтобы обозначить медиану. Некоторые коробчатые диаграммы включают дополнительный символ, обозначающий среднее значение данных. [8] [9]

Бакенбарды

Усы должны заканчиваться в наблюдаемой точке данных, но их можно определить различными способами. В самом прямом методе граница нижнего «уса» — это минимальное значение набора данных, а граница верхнего «уса» — максимальное значение набора данных. Из-за этой изменчивости уместно описать соглашение, которое используется для «усов» и выбросов в заголовке коробчатой ​​диаграммы.

Другой популярный выбор границ усов основан на значении IQR 1,5. Сверху верхнего квартиля ( Q 3 ) измеряется расстояние, в 1,5 раза превышающее IQR, и проводится усик до самой большой наблюдаемой точки данных из набора данных, которая попадает в пределах этого расстояния. Аналогичным образом, расстояние, в 1,5 раза превышающее IQR, измеряется ниже нижнего квартиля ( Q 1 ), и черта рисуется до самой низкой наблюдаемой точки данных из набора данных, которая попадает в пределы этого расстояния. Поскольку усы должны заканчиваться в наблюдаемой точке данных, длина усов может выглядеть неодинаковой, хотя 1,5 IQR одинаково для обеих сторон. Все остальные наблюдаемые точки данных за пределами границ усов отображаются как выбросы . [10] Выбросы можно нанести на диаграмму в виде точки, маленького круга, звезды и т. д. (см. пример ниже).

Существуют и другие представления, в которых усы могут обозначать и другие вещи, например:

Редко коробчатый график можно построить без усов. Это может быть целесообразно для конфиденциальной информации, чтобы избежать появления «усов» (и выбросов), раскрывающих фактические наблюдаемые значения. [11]

Необычные процентили 2%, 9%, 91%, 98% иногда используются для штриховки усами и концов усиков, чтобы отобразить сводку из семи цифр . Если данные распределены нормально , местоположения семи меток на коробчатой ​​диаграмме будут расположены на одинаковом расстоянии. На некоторых коробчатых диаграммах перед концом каждого «уса» ставится штриховка.

Вариации

Рисунок 4. Четыре прямоугольные диаграммы с вырезами и без них и переменной шириной.

С тех пор, как математик Джон В. Тьюки впервые популяризировал этот тип отображения визуальных данных в 1969 году, было разработано несколько вариаций классической коробчатой ​​диаграммы, и двумя наиболее часто встречающимися вариациями являются коробчатые диаграммы переменной ширины и коробчатые диаграммы с надрезом, показанные на рисунке. 4.

Диаграммы переменной ширины иллюстрируют размер каждой группы, данные которой отображаются, делая ширину прямоугольника пропорциональной размеру группы. Популярное соглашение заключается в том, чтобы ширина поля была пропорциональна квадратному корню из размера группы. [12]

На диаграммах с вырезом применяется «вырез» или сужение прямоугольника вокруг медианы. Отсечки полезны, поскольку дают приблизительное представление о значимости разницы медиан; если вырезы двух прямоугольников не перекрываются, это будет свидетельствовать о статистически значимой разнице между медианами. [12] Высота насечек пропорциональна межквартильному размаху (IQR) образца и обратно пропорциональна квадратному корню из размера образца. Однако существует неопределенность в отношении наиболее подходящего множителя (поскольку он может варьироваться в зависимости от сходства дисперсий выборок). [12] Ширина выреза выбирается произвольно, чтобы она была визуально приятной и должна быть одинаковой для всех коробчатых диаграмм, отображаемых на одной странице.

Одним из правил получения границ этих вырезов является использование расстояния вокруг медианы. [13]

Скорректированные коробчатые диаграммы предназначены для описания асимметричного распределения и основаны на статистике асимметрии, полученной медпарами . [14] Для значения MC для медицинской пары длины верхних и нижних усов на коробчатой ​​диаграмме соответственно определяются как:

Для симметричного распределения данных медпара будет равна нулю, и это сводит скорректированную коробчатую диаграмму к коробчатой ​​диаграмме Тьюки с одинаковой длиной усов для обоих усов.

Другие виды коробчатых диаграмм , такие как скрипичные диаграммы и бобовые диаграммы, могут показать разницу между одномодальными и мультимодальными распределениями, которую невозможно наблюдать на исходной классической коробчатой ​​диаграмме. [6]

Примеры

Пример без выбросов

Рисунок 5. Сгенерированная диаграмма примера слева без выбросов.

В течение дня измерялась серия почасовых температур в градусах по Фаренгейту. Записанные значения перечислены в следующем порядке (°F): 57, 57, 57, 58, 63, 66, 66, 67, 67, 68, 69, 70, 70, 70, 70, 72, 73, 75, 75, 76, 76, 78, 79, 81.

Ящичковую диаграмму набора данных можно создать, сначала вычислив пять соответствующих значений этого набора данных: минимум, максимум, медиану ( Q 2 ), первый квартиль ( Q 1 ) и третий квартиль ( Q 3 ).

Минимум — это наименьшее число набора данных. В этом случае минимальная зарегистрированная дневная температура составляет 57 °F.

Максимум — это наибольшее число набора данных. В этом случае максимальная зарегистрированная дневная температура составляет 81 °F.

Медиана — это «среднее» число упорядоченного набора данных. Это означает, что ровно 50% элементов меньше медианы и 50% элементов больше медианы. Медиана этого упорядоченного набора данных составляет 70 ° F.

Значение первого квартиля ( Q 1 или 25-й процентиль) — это число, обозначающее одну четверть упорядоченного набора данных. Другими словами, существует ровно 25% элементов, которые меньше первого квартиля, и ровно 75% элементов, которые больше его. Значение первого квартиля можно легко определить, найдя «среднее» число между минимумом и медианой. Для почасовых температур «среднее» число между 57 °F и 70 °F составляет 66 °F.

Значение третьего квартиля ( Q 3 или 75-й процентиль) — это число, обозначающее три четверти упорядоченного набора данных. Другими словами, существует ровно 75% элементов, которые меньше третьего квартиля, и 25% элементов, которые больше его. Значение третьего квартиля можно легко получить, найдя «среднее» число между медианой и максимумом. Для почасовых температур «среднее» число между 70 °F и 81 °F составляет 75 °F.

Межквартильный размах, или IQR, можно рассчитать путем вычитания значения первого квартиля ( Q 1 ) из значения третьего квартиля ( Q 3 ):

Следовательно,

1,5 IQR выше третьего квартиля составляет:

На 1,5 IQR ниже первого квартиля это:

Верхняя граница усов коробчатой ​​диаграммы — это наибольшее значение данных, которое находится в пределах 1,5 IQR выше третьего квартиля. Здесь 1,5 IQR выше третьего квартиля составляет 88,5 °F, а максимум — 81 °F. Поэтому верхний «ус» рисуется при значении максимума, равном 81 °F.

Аналогично, нижняя граница «усов» прямоугольной диаграммы — это наименьшее значение данных, которое находится в пределах 1,5 IQR ниже первого квартиля. Здесь 1,5 IQR ниже первого квартиля составляет 52,5 °F, а минимум — 57 °F. Поэтому нижний ус рисуется при значении минимума, равном 57 °F.

Пример с выбросами

Рисунок 6. Сгенерированная коробчатая диаграмма примера слева с выбросами.

Выше приведен пример без выбросов. Вот последующий пример создания коробчатой ​​диаграммы с выбросами:

Упорядоченный набор регистрируемых температур составляет (°F): 52, 57, 57, 58, 63, 66, 66, 67, 67, 68, 69, 70, 70, 70, 70, 72, 73, 75, 75. , 76, 76, 78, 79, 89.

В этом примере изменяются только первое и последнее число. Медиана, третий и первый квартиль остаются прежними.

В этом случае максимальное значение в этом наборе данных составляет 89 °F, а 1,5 IQR выше третьего квартиля составляет 88,5 °F. Максимум превышает 1,5 IQR плюс третий квартиль, поэтому максимум является выбросом. Таким образом, верхний «ус» рисуется при максимальном значении менее 1,5 IQR выше третьего квартиля, что составляет 79 °F.

Аналогично, минимальное значение в этом наборе данных составляет 52 °F, а 1,5 IQR ниже первого квартиля составляет 52,5 °F. Минимум меньше 1,5 IQR минус первый квартиль, поэтому минимум также является выбросом. Таким образом, нижний «ус» рисуется при наименьшем значении, превышающем 1,5 IQR ниже первого квартиля, что составляет 57 °F.

В случае больших наборов данных

Дополнительный пример получения коробчатой ​​диаграммы из набора данных, содержащего большое количество точек данных:

Общее уравнение для расчета эмпирических квантилей

Здесь обозначает общий порядок точек данных (т.е. если , то )

Используя приведенный выше пример с 24 точками данных ( n = 24), можно вычислить медиану, первый и третий квартиль математически или визуально.

Медиана  :

Первый квартиль  :

Третий квартиль  :

Визуализация

Рисунок 7. Ящик-диаграмма и функция плотности вероятности (pdf) нормальной популяции N(0,1σ 2 ).

Хотя коробчатые диаграммы могут показаться более примитивными, чем гистограммы или оценки плотности ядра , они имеют ряд преимуществ. Во-первых, ящичная диаграмма позволяет статистикам провести быстрое графическое исследование одного или нескольких наборов данных. Ящичные диаграммы также занимают меньше места и поэтому особенно полезны для параллельного сравнения распределений между несколькими группами или наборами данных (пример см. на рисунке 1). Наконец, на общую структуру гистограмм и оценку плотности ядра может сильно влиять выбор метода количества и ширины интервалов и выбор полосы пропускания соответственно.

Хотя просмотр статистического распределения более распространен, чем просмотр коробчатой ​​диаграммы, может быть полезно сравнить коробчатую диаграмму с функцией плотности вероятности (теоретической гистограммой) для нормального распределения N(0, σ 2 ) и непосредственно наблюдать их характеристики. (как показано на рисунке 7).

Рисунок 8. Ящичковые диаграммы, показывающие асимметрию набора данных.

Смотрите также

Рекомендации

  1. ^ C., Дютуа, SH (2012). Графический разведочный анализ данных. Спрингер. ISBN 978-1-4612-9371-2. ОСЛК  1019645745.{{cite book}}: CS1 maint: multiple names: authors list (link)
  2. ^ Граббс, Фрэнк Э. (февраль 1969 г.). «Процедуры обнаружения посторонних наблюдений в выборках». Технометрика . 11 (1): 1–21. дои : 10.1080/00401706.1969.10490657. ISSN  0040-1706.
  3. ^ Ричард., Бодди (2009). Статистические методы на практике: для ученых и технологов. Джон Уайли и сыновья. ISBN 978-0-470-74664-6. ОКЛК  940679163.
  4. ^ Спир, Мэри Элеонора (1952). График статистики . МакГроу Хилл. п. 166.
  5. ^ Спир, Мэри Элеонора. (1969). Практические методы построения графиков . Нью-Йорк: МакГроу-Хилл. ISBN 0070600104. ОКЛК  924909765.
  6. ^ аб Уикхэм, Хэдли; Стриевский, Лиза. «40 лет коробочных сюжетов» (PDF) . Проверено 24 декабря 2020 г.
  7. ^ Холмс, Александр; Илловски, Барбара; Дин, Сьюзен (31 марта 2015 г.). «Вводная статистика бизнеса». ОпенСтакс . Архивировано из оригинала 27 июля 2020 года . Проверено 29 апреля 2020 г.
  8. ^ Фригг, Майкл; Хоглин, Дэвид К.; Иглевич, Борис (февраль 1989 г.). «Некоторые реализации коробочного сюжета». Американский статистик . 43 (1): 50–54. дои : 10.2307/2685173. JSTOR  2685173.
  9. ^ Мармолехо-Рамос, Ф.; Тиан, С. (2010). «Смещающаяся коробчатая диаграмма. Коробчатая диаграмма, основанная на важной сводной статистике вокруг среднего значения». Международный журнал психологических исследований . 3 (1): 37–46. дои : 10.21500/20112084.823 . hdl : 10819/6492 .
  10. ^ Деккинг, FM (2005). Современное введение в теорию вероятности и статистики . Спрингер. стр. 234–238. ISBN 1-85233-896-2.
  11. ^ Деррик, Бен; Грин, Элизабет; Ричи, Феликс; Уайт, Пол (сентябрь 2022 г.). «Риск раскрытия информации при сообщении широко используемой одномерной статистики». Конфиденциальность в статистических базах данных . 13463 : 119–129. дои : 10.1007/978-3-031-13945-1_9.
  12. ^ abc МакГилл, Роберт; Тьюки, Джон В .; Ларсен, Уэйн А. (февраль 1978 г.). «Вариации коробчатых сюжетов». Американский статистик . 32 (1): 12–16. дои : 10.2307/2683468. JSTOR  2683468.
  13. ^ "R: Статистика коробчатого графика" . Р инструкция . Проверено 26 июня 2011 г.
  14. ^ Хьюберт, М .; Вандервирен, Э. (2008). «Скорректированная коробчатая диаграмма для асимметричного распределения». Вычислительная статистика и анализ данных . 52 (12): 5186–5201. CiteSeerX 10.1.1.90.9812 . дои : 10.1016/j.csda.2007.11.008. 

дальнейшее чтение

Внешние ссылки