Гистограмма — это визуальное представление распределения количественных данных. Для построения гистограммы первым шагом является «бинирование» (или «разбиение на корзины») диапазона значений — разделение всего диапазона значений на ряд интервалов — и затем подсчет количества значений, попадающих в каждый интервал. Бины обычно указываются как последовательные, неперекрывающиеся интервалы переменной. Бины (интервалы) являются смежными и обычно (но не обязательно) имеют одинаковый размер. [1]
Гистограммы дают грубое представление о плотности базового распределения данных и часто используются для оценки плотности : оценки функции плотности вероятности базовой переменной. Общая площадь гистограммы, используемой для плотности вероятности, всегда нормализована до 1. Если длина интервалов на оси x равна 1, то гистограмма идентична графику относительной частоты .
Гистограммы иногда путают с гистограммами . В гистограмме каждый столбец соответствует разному диапазону значений, поэтому в целом гистограмма иллюстрирует распределение значений. Но в гистограмме каждый столбец соответствует разной категории наблюдений (например, каждый столбец может соответствовать разной совокупности), поэтому в целом гистограмму можно использовать для сравнения разных категорий. Некоторые авторы рекомендуют, чтобы в гистограммах всегда были пробелы между столбцами, чтобы было ясно, что они не являются гистограммами. [2] [3]
Термин «гистограмма» впервые был введен Карлом Пирсоном , основателем математической статистики , в лекциях, прочитанных в 1892 году в Университетском колледже Лондона . Иногда неправильно говорят, что термин Пирсона объединяет греческий корень γραμμα (gramma) = «фигура» или «рисунок» с корнем ἱστορία (historia) = «исследование» или «история». В качестве альтернативы также предлагается корень ἱστίον (histion), означающий «паутина» или «ткань» (как в гистологии , изучении биологической ткани). Обе эти этимологии неверны, и на самом деле Пирсон, хорошо знавший древнегреческий язык, вывел термин из другого, хотя и гомофонного греческого корня ἱστός = «что-то поставленное вертикально», имея в виду вертикальные полосы на графике. Новый термин Пирсона был включен в ряд других аналогичных неологизмов , таких как «стигмограмма» и «радиограмма». [4]
Сам Пирсон в 1895 году отметил, что хотя термин «гистограмма» был новым, тип графика, который он обозначал, был «общей формой графического представления». [5] Фактически, метод использования столбчатой диаграммы для представления статистических измерений был разработан шотландским экономистом Уильямом Плейфэром в его Коммерческом и политическом атласе (1786). [4]
Это данные для гистограммы справа с использованием 500 элементов:
Для описания закономерностей в гистограмме используются следующие слова: «симметричный», «смещенный влево» или «вправо», «унимодальный», «бимодальный» или «мультимодальный».
Хорошая идея — построить график данных с использованием нескольких различных значений ширины ячейки, чтобы узнать больше о них. Вот пример чаевых, которые дают в ресторане.
Бюро переписи населения США обнаружило, что 124 миллиона человек работают вне дома. [6] Используя их данные о времени, затрачиваемом на дорогу до работы, в таблице ниже показано, что абсолютное число людей, которые ответили, что время в пути составляет «не менее 30, но менее 35 минут», выше, чем числа для категорий выше и ниже. Это, вероятно, связано с тем, что люди округляют указанное ими время в пути. [ необходима цитата ] Проблема представления значений в виде произвольно округленных чисел является распространенным явлением при сборе данных от людей. [ необходима цитата ]
Эта гистограмма показывает количество случаев на единичный интервал как высоту каждого блока, так что площадь каждого блока равна количеству людей в опросе, которые попадают в его категорию. Площадь под кривой представляет общее количество случаев (124 миллиона). Этот тип гистограммы показывает абсолютные числа, где Q в тысячах.
Эта гистограмма отличается от первой только вертикальной шкалой . Площадь каждого блока — это доля от общей суммы, которую представляет каждая категория, а общая площадь всех столбцов равна 1 (доля означает «все»). Отображаемая кривая — это простая оценка плотности . Эта версия показывает пропорции и также известна как гистограмма единичной площади.
Другими словами, гистограмма представляет распределение частот с помощью прямоугольников, ширина которых представляет интервалы классов, а площадь которых пропорциональна соответствующим частотам: высота каждого из них является средней плотностью частот для интервала. Интервалы размещены вместе, чтобы показать, что данные, представленные гистограммой, хотя и являются исключительными, также являются смежными. (Например, в гистограмме возможно иметь два соединительных интервала 10,5–20,5 и 20,5–33,5, но не два соединительных интервала 10,5–20,5 и 22,5–32,5. Пустые интервалы представлены как пустые и не пропускаются.) [7]
Данные, используемые для построения гистограммы, генерируются с помощью функции m i , которая подсчитывает количество наблюдений, попадающих в каждую из непересекающихся категорий (известных как ячейки ). Таким образом, если мы допустим, что n будет общим количеством наблюдений, а k — общим количеством ячеек, то данные гистограммы m i будут соответствовать следующим условиям:
Гистограмму можно рассматривать как упрощенную оценку плотности ядра , которая использует ядро для сглаживания частот по бинам. Это дает более гладкую функцию плотности вероятности, которая в целом более точно отражает распределение базовой переменной. Оценка плотности может быть построена как альтернатива гистограмме и обычно рисуется как кривая, а не как набор ящиков. Тем не менее, гистограммы предпочтительны в приложениях, когда необходимо моделировать их статистические свойства. Коррелированное изменение оценки плотности ядра очень сложно описать математически, в то время как это просто для гистограммы, где каждый бин изменяется независимо.
Альтернативой ядерной оценке плотности является усредненная смещенная гистограмма [8] , которая быстро вычисляется и дает плавную кривую оценки плотности без использования ядер.
Кумулятивная гистограмма — это отображение, которое подсчитывает кумулятивное число наблюдений во всех ячейках вплоть до указанной ячейки. То есть кумулятивная гистограмма M i гистограммы m j определяется как:
Не существует «лучшего» числа ячеек, и разные размеры ячеек могут раскрывать разные особенности данных. Группировка данных существует по крайней мере столько же лет, сколько работа Граунта в 17 веке, но никаких систематических указаний не было дано [9] до работы Стерджеса в 1926 году. [10]
Использование более широких бинов, где плотность базовых точек данных низкая, снижает шум из-за случайности выборки; использование более узких бинов, где плотность высокая (так что сигнал заглушает шум), обеспечивает большую точность оценки плотности. Таким образом, изменение ширины бина в пределах гистограммы может быть полезным. Тем не менее, бины одинаковой ширины широко используются.
Некоторые теоретики пытались определить оптимальное количество ячеек, но эти методы обычно делают сильные предположения о форме распределения. В зависимости от фактического распределения данных и целей анализа могут быть подходящими разные ширины ячеек, поэтому для определения подходящей ширины обычно требуется эксперимент. Однако существуют различные полезные рекомендации и практические правила. [11]
Количество ячеек k можно назначить напрямую или рассчитать на основе предлагаемой ширины ячейки h следующим образом:
Скобы указывают на функцию потолка .
который берет квадратный корень из числа точек данных в выборке и округляет до следующего целого числа . Это правило предлагается в ряде учебников по элементарной статистике [12] и широко применяется во многих программных пакетах. [13]
Правило Стерджеса [10] выводится из биномиального распределения и неявно предполагает приблизительно нормальное распределение.
Формула Стерджеса неявно основывает размеры бинов на диапазоне данных и может работать плохо, если n < 30 , поскольку количество бинов будет небольшим — менее семи — и вряд ли будет хорошо показывать тенденции в данных. С другой стороны, формула Стерджеса может переоценивать ширину бина для очень больших наборов данных, что приводит к чрезмерно сглаженным гистограммам. [14] Она также может работать плохо, если данные не распределены нормально.
При сравнении с правилом Скотта и правилом Террелла-Скотта, двумя другими широко распространенными формулами для гистограммных интервалов, вывод формулы Стерджеса наиболее близок при n ≈ 100. [ 14]
Правило Райса [15] представлено как простая альтернатива правилу Стерджеса.
Формула Доана [16] представляет собой модификацию формулы Стерджеса, которая пытается улучшить ее эффективность при использовании ненормальных данных.
где - предполагаемая асимметрия 3-го момента распределения и
Ширина ячейки определяется как
где — стандартное отклонение выборки . Нормальное правило Скотта [17] оптимально для случайных выборок нормально распределенных данных в том смысле, что оно минимизирует интегрированную среднеквадратичную ошибку оценки плотности. [9] Это правило по умолчанию, используемое в Microsoft Excel. [18]
Правило Террелла–Скотта [14] [19] не является обычным справочным правилом. Оно дает минимальное количество бинов, необходимых для асимптотически оптимальной гистограммы, где оптимальность измеряется интегрированной среднеквадратической ошибкой. Граница выводится путем нахождения «самой гладкой» возможной плотности, которая оказывается равной . Любая другая плотность потребует больше бинов, поэтому приведенная выше оценка также называется «сверхсглаженным» правилом. Сходство формул и тот факт, что Террелл и Скотт были в Университете Райса, когда это было предложено, предполагает, что это также является источником правила Райса.
Правило Фридмана–Диакониса определяет ширину ячейки следующим образом: [20] [9]
который основан на межквартильном размахе , обозначенном как IQR. Он заменяет 3,5σ правила Скотта на 2 IQR, который менее чувствителен, чем стандартное отклонение, к выбросам в данных.
Этот подход минимизации интегрированной среднеквадратической ошибки по правилу Скотта можно обобщить за пределы нормального распределения, используя перекрестную проверку с исключением одного: [21] [22]
Здесь — количество точек данных в k -м интервале, а выбор значения h , минимизирующего J, минимизирует интегрированную среднеквадратичную ошибку.
Выбор основан на минимизации оценочной функции риска L 2 [23]
где и — среднее значение и смещенная дисперсия гистограммы с шириной ячейки , и .
Вместо того, чтобы выбирать равномерно распределенные ячейки, для некоторых приложений предпочтительнее изменять ширину ячейки. Это позволяет избежать ячеек с низким количеством. Обычным случаем является выбор равновероятных ячеек , где ожидается, что количество образцов в каждой ячейке будет приблизительно равным. Ячейки могут быть выбраны в соответствии с некоторым известным распределением или могут быть выбраны на основе данных, так что в каждой ячейке есть образцы. При построении гистограммы для зависимой оси используется плотность частот . Хотя все ячейки имеют приблизительно одинаковую площадь, высоты гистограммы приближаются к распределению плотности.
Для равновероятных ячеек предлагается следующее правило для количества ячеек: [24]
Этот выбор бинов мотивирован максимизацией мощности критерия хи-квадрат Пирсона , проверяющего, содержат ли бины равное количество образцов. Более конкретно, для заданного доверительного интервала рекомендуется выбирать между 1/2 и 1, умноженными на следующее уравнение: [25]
Где функция пробит . Следуя этому правилу для , получим между и ; коэффициент 2 выбирается как легко запоминающееся значение из этого широкого оптимума.
Весомая причина, по которой число бинов должно быть пропорционально, заключается в следующем: предположим, что данные получены как независимые реализации ограниченного распределения вероятностей с гладкой плотностью. Тогда гистограмма остается одинаково «грубой» при стремлении к бесконечности. Если — «ширина» распределения (например, стандартное отклонение или межквартильное размах), то число единиц в бине (частота) имеет порядок , а относительная стандартная ошибка — порядок . По сравнению со следующим бином относительное изменение частоты имеет порядок при условии, что производная плотности не равна нулю. Эти два имеют один и тот же порядок, если имеет порядок , так что имеет порядок . Этот простой выбор кубического корня также можно применить к бинам с непостоянной шириной. [ необходима цитата ]