stringtranslate.com

Гистограмма

Гистограмма это визуальное представление распределения числовых данных. Этот термин был впервые введен Карлом Пирсоном . [1] Чтобы построить гистограмму, первым шагом является «группировка» (или «группировка») диапазона значений — разделение всего диапазона значений на ряд интервалов — а затем подсчет количества значений, попадающих в каждый интервал. Ячейки обычно указываются как последовательные непересекающиеся интервалы переменной. Бины (интервалы) должны быть смежными и часто (но не обязательно) иметь одинаковый размер. [2]

Ячейки обычно имеют одинаковую ширину, но иногда используются ячейки разных размеров.

Гистограммы дают грубое представление о плотности основного распределения данных и часто для оценки плотности : оценки функции плотности вероятности базовой переменной. Общая площадь гистограммы, используемая для определения плотности вероятности, всегда нормируется на 1. Если все интервалы по оси x равны 1, то гистограмма идентична графику относительной частоты .

Гистограммы иногда путают с гистограммами . Гистограмма используется для количественных данных, где ячейки представляют собой диапазоны значений, а гистограмма представляет собой график категориальных переменных . Некоторые авторы рекомендуют, чтобы гистограммы имели промежутки между прямоугольниками, чтобы прояснить различие. [3] [4]

Гистограмма и гистограмма — два распространенных типа графического представления данных. Хотя они могут выглядеть одинаково, между ними есть некоторые ключевые различия, которые важно понимать.

Гистограмма — это диаграмма, в которой столбцы используются для представления частоты или количества различных категорий данных. Полосы могут быть вертикальными или горизонтальными, и обычно они располагаются горизонтально или вертикально, чтобы облегчить сравнение различных категорий. Гистограммы полезны для отображения данных, которые можно разделить на отдельные категории, например, количество учащихся разных классов в школе.

Гистограмма, с другой стороны, представляет собой график, показывающий распределение числовых данных. Это тип гистограммы, которая показывает частоту или количество наблюдений в различных числовых диапазонах, называемых интервалами. Ячейки обычно указываются как последовательные непересекающиеся интервалы переменной. Гистограмма обеспечивает визуальное представление распределения данных, показывая количество наблюдений, попадающих в каждый интервал. Это может быть полезно для выявления закономерностей и тенденций в данных, а также для сравнения различных наборов данных . [5]

Примеры

Это данные для гистограммы справа, состоящей из 500 элементов:

Для описания закономерностей на гистограмме используются следующие слова: «симметричный», «наклон влево» или «право», «унимодальный», «бимодальный» или «мультимодальный».

Чтобы узнать больше об этом, рекомендуется построить график данных, используя несколько интервалов разной ширины. Вот пример чаевых, данных в ресторане.

Бюро переписи населения США обнаружило, что 124 миллиона человек работают вне дома. [6] Используя их данные о времени, затрачиваемом на дорогу до работы, в таблице ниже показано абсолютное количество людей, которые ответили, что время в пути «не менее 30, но менее 35 минут» выше, чем цифры для категорий выше и ниже. это. Вероятно, это связано с тем, что люди округляют заявленное время в пути. [ нужна цитата ] Проблема представления значений в виде произвольно округленных чисел является распространенным явлением при сборе данных от людей. [ нужна цитата ]

Гистограмма времени в пути (на работу), перепись населения США 2000 года. Площадь под кривой равна общему числу случаев. На этой диаграмме используется Q/ширина из таблицы.

Эта гистограмма показывает количество случаев на единицу интервала как высоту каждого блока, так что площадь каждого блока равна количеству людей в опросе, которые попадают в его категорию. Площадь под кривой представляет общее количество случаев (124 миллиона). Этот тип гистограммы показывает абсолютные числа, где Q выражается в тысячах.

Гистограмма времени в пути (на работу), перепись населения США 2000 года. Площадь под кривой равна 1. На этой диаграмме используются значения Q/total/width (скопление) из таблицы. Высота блока представляет собой скученность, которая определяется как - процент на горизонтальную единицу.

Эта гистограмма отличается от первой только вертикальным масштабом . Площадь каждого блока представляет собой долю от общей суммы, которую представляет каждая категория, а общая площадь всех столбцов равна 1 (доля означает «все»). Отображаемая кривая представляет собой простую оценку плотности . Эта версия показывает пропорции и также известна как гистограмма единичной площади.

Другими словами, гистограмма представляет распределение частот с помощью прямоугольников, ширина которых представляет интервалы классов, а площади пропорциональны соответствующим частотам: высота каждого из них представляет собой среднюю плотность частот для интервала. Интервалы расположены вместе, чтобы показать, что данные, представленные гистограммой, хотя и являются исключительными, но также являются смежными. (Например, на гистограмме можно иметь два соединительных интервала 10,5–20,5 и 20,5–33,5, но не два соединительных интервала 10,5–20,5 и 22,5–32,5. Пустые интервалы представляются пустыми и не пропущенными.) [ 7 ]

Математические определения

Обычная и накопительная гистограмма одних и тех же данных. Показанные данные представляют собой случайную выборку из 10 000 точек нормального распределения со средним значением 0 и стандартным отклонением 1.

Данные, используемые для построения гистограммы, генерируются с помощью функции m i , которая подсчитывает количество наблюдений, попадающих в каждую из непересекающихся категорий (известных как интервалы ). Таким образом, если мы позволим n быть общим количеством наблюдений, а k — общим количеством интервалов, данные гистограммы m i удовлетворяют следующим условиям:

Гистограмму можно рассматривать как упрощенную оценку плотности ядра , которая использует ядро ​​для сглаживания частот по интервалам. Это дает более гладкую функцию плотности вероятности, которая, как правило, более точно отражает распределение базовой переменной. Оценку плотности можно построить как альтернативу гистограмме, и она обычно изображается в виде кривой, а не набора прямоугольников. Тем не менее, гистограммы предпочтительнее в приложениях, когда необходимо моделировать их статистические свойства. Коррелированное изменение оценки плотности ядра очень сложно описать математически, тогда как для гистограммы, где каждый интервал изменяется независимо, это просто.

Альтернативой оценке плотности по ядру является гистограмма со смещением среднего значения [8] , которая быстро вычисляется и дает плавную кривую оценки плотности без использования ядер.

Совокупная гистограмма

Кумулятивная гистограмма — это отображение, которое подсчитывает совокупное количество наблюдений во всех интервалах до указанного интервала. То есть совокупная гистограмма M i гистограммы m j определяется как:

Количество бункеров и ширина

Не существует «лучшего» количества ячеек, а разные размеры ячеек могут выявить разные характеристики данных. Группировка данных по крайней мере так же стара, как и работа Граунта в 17 веке, но никаких систематических указаний не было [9] до работы Стерджеса в 1926 году. [10]

Использование более широких интервалов с низкой плотностью базовых точек данных снижает шум из-за случайности выборки; использование более узких интервалов с высокой плотностью (поэтому сигнал заглушает шум) дает большую точность оценки плотности. Таким образом, изменение ширины интервала внутри гистограммы может быть полезным. Тем не менее, широко используются контейнеры одинаковой ширины.

Некоторые теоретики пытались определить оптимальное количество интервалов, но эти методы обычно делают строгие предположения о форме распределения. В зависимости от фактического распределения данных и целей анализа могут подходить разные ширины интервалов, поэтому для определения подходящей ширины обычно необходимы эксперименты. Однако существуют различные полезные рекомендации и практические правила. [11]

Количество ячеек k может быть назначено напрямую или рассчитано на основе предлагаемой ширины ячейки  h следующим образом:

Данные гистограммы представлены с разной шириной интервала.

Фигурные скобки обозначают функцию потолка .

Выбор квадратного корня

который извлекает квадратный корень из количества точек данных в выборке (используется гистограммами пакета анализа Excel и многими другими) и округляет до следующего целого числа . [12]

Формула Стерджеса

Формула Стерджеса [10] выведена из биномиального распределения и неявно предполагает приблизительно нормальное распределение.

Формула Стерджеса неявно основывает размеры интервалов на диапазоне данных и может работать плохо, если n  < 30 , поскольку количество интервалов будет небольшим — менее семи — и вряд ли сможет хорошо отображать тенденции в данных. С другой стороны, формула Стерджеса может переоценивать ширину интервала для очень больших наборов данных, что приводит к чрезмерно сглаженным гистограммам. [13] Он также может работать плохо, если данные не распределяются нормально.

По сравнению с правилом Скотта и правилом Террелла-Скотта, двумя другими широко распространенными формулами для интервалов гистограммы, результат формулы Стерджеса наиболее близок, когда n ≈ 100 . [13]

Правило риса

Правило Райса [14] представлено как простая альтернатива правилу Стерджеса.

Формула Доана

Формула Доана [15] представляет собой модификацию формулы Стерджеса, которая пытается улучшить ее эффективность при работе с ненормальными данными.

где – расчетная асимметрия распределения по третьему моменту и

Нормальное эталонное правило Скотта

Ширина ячейки определяется выражением

где – выборочное стандартное отклонение . Нормальное эталонное правило Скотта [16] оптимально для случайных выборок нормально распределенных данных в том смысле, что оно минимизирует интегральную среднеквадратическую ошибку оценки плотности. [9]

Выбор Фридмана-Диакониса

Правило Фридмана-Диакониса определяет ширину интервала как: [17] [9]

который основан на межквартильном размахе , обозначаемом IQR. Он заменяет 3,5σ правила Скотта на 2 IQR, что менее чувствительно, чем стандартное отклонение, к выбросам в данных.

Минимизация квадратичной ошибки перекрестной проверки

Этот подход к минимизации интегральной среднеквадратической ошибки по правилу Скотта можно обобщить за пределы нормального распределения, используя перекрестную проверку с исключением одного: [18] [19]

Здесь – количество точек данных в k- м интервале, и выбор значения h , которое минимизирует J , минимизирует интегрированную среднеквадратическую ошибку.

Выбор Симадзаки и Синомото

Выбор основан на минимизации расчетной функции риска L 2 [20]

где и - среднее и смещенное отклонение гистограммы с шириной интервала и .

Переменная ширина бункера

Вместо того, чтобы выбирать равномерно расположенные бункеры, для некоторых применений предпочтительнее варьировать ширину бункеров. Это позволяет избежать ячеек с малым количеством. Распространенным случаем является выбор равновероятных интервалов , при которых ожидается, что количество образцов в каждом интервале будет примерно равным. Ячейки могут быть выбраны в соответствии с некоторым известным распределением или могут быть выбраны на основе данных так, чтобы в каждой ячейке были образцы. При построении гистограммы в качестве зависимой оси используется плотность частот . Хотя все ячейки имеют примерно одинаковую площадь, высота гистограммы приблизительно соответствует распределению плотности.

Для равновероятных бинов предлагается следующее правило количества бинов: [21]

Этот выбор ячеек мотивирован максимизацией эффективности теста хи-квадрат Пирсона, проверяющего, содержат ли ячейки одинаковое количество образцов. Более конкретно, для данного доверительного интервала рекомендуется выбирать от 1/2 до 1 раза следующее уравнение: [22]

Где находится функция пробит . Следуя этому правилу, for даст значение между и ; коэффициент 2 выбран как легко запоминающееся значение из этого широкого оптимума.

Примечание

Веская причина, по которой количество интервалов должно быть пропорционально, заключается в следующем: предположим, что данные получены как независимые реализации ограниченного распределения вероятностей с гладкой плотностью. Тогда гистограмма остается столь же «неровной», стремясь к бесконечности. Если это «ширина» распределения (например, стандартное отклонение или межквартильный диапазон), то количество единиц в интервале (частота) имеет порядок, а относительная стандартная ошибка имеет порядок . По сравнению со следующим интервалом относительное изменение частоты имеет порядок при условии, что производная плотности не равна нулю. Эти два имеют один и тот же порядок, если есть порядок , значит, это порядок . Этот простой выбор кубического корня также можно применить к интервалам непостоянной ширины.

Гистограмма и функция плотности распределения Гамбеля [23]

Приложения

Смотрите также

Рекомендации

  1. ^ Пирсон, К. (1895). «Вклад в математическую теорию эволюции. II. Косые изменения в однородном материале». Философские труды Королевского общества A: Математические, физические и технические науки . 186 : 343–414. Бибкод : 1895RSPTA.186..343P. дои : 10.1098/rsta.1895.0010 .
  2. ^ Ховитт, Д.; Крамер, Д. (2008). Введение в статистику в психологии (Четвертое изд.). Прентис Холл. ISBN 978-0-13-205161-3.
  3. ^ Наоми, Роббинс. «Гистограмма — это НЕ гистограмма». Форбс . Проверено 31 июля 2018 г.
  4. ^ М. Эйлин Магнелло (декабрь 2006 г.). «Карл Пирсон и истоки современной статистики: эластичник становится статистиком». Новозеландский журнал истории и философии науки и техники . 1 том. ОСЛК  682200824.
  5. ^ "Создатель гистограмм". создатель гистограмм .
  6. ^ Перепись США 2000 года.
  7. ^ Дин С. и Илловски Б. (19 февраля 2009 г.). Описательная статистика: гистограмма. Получено с веб-сайта Connexions: http://cnx.org/content/m16298/1.11/.
  8. ^ Дэвид В. Скотт (декабрь 2009 г.). «Усредненная смещенная гистограмма». Междисциплинарные обзоры Wiley: вычислительная статистика . 2 (2): 160–164. дои : 10.1002/wics.54. S2CID  122986682.
  9. ^ abc Скотт, Дэвид В. (1992). Многомерная оценка плотности: теория, практика и визуализация . Нью-Йорк: Джон Уайли.
  10. ^ аб Стерджес, HA (1926). «Выбор классного интервала». Журнал Американской статистической ассоциации . 21 (153): 65–66. дои : 10.1080/01621459.1926.10502161. JSTOR  2965501.
  11. ^ например, § 5.6 «Оценка плотности», В.Н. Венейблс и Б.Д. Рипли, Современная прикладная статистика с S (2002), Springer, 4-е издание. ISBN 0-387-95457-0
  12. ^ «Одномерная программа EXCEL: гистограмма» .
  13. ^ аб Скотт, Дэвид В. (2009). «Правило Стерджеса». ПРОВОДА Вычислительная статистика . 1 (3): 303–306. дои : 10.1002/wics.35. S2CID  197483064.
  14. ^ Онлайн-статистическое образование: мультимедийный курс обучения (http://onlinestatbook.com/). Руководитель проекта: Дэвид М. Лейн, Университет Райса (глава 2 «Графические распределения», раздел «Гистограммы»)
  15. ^ Доан Д. П. (1976) Классификация эстетических частот. Американский статистик, 30: 181–183.
  16. ^ Скотт, Дэвид В. (1979). «Об оптимальных и основанных на данных гистограммах». Биометрика . 66 (3): 605–610. дои : 10.1093/biomet/66.3.605.
  17. ^ Фридман, Дэвид; Диаконис, П. (1981). «О гистограмме как средстве оценки плотности: теория L2» (PDF) . Zeitschrift für Wahrscheinlichkeitstheorie und Verwandte Gebiete . 57 (4): 453–476. CiteSeerX 10.1.1.650.2473 . дои : 10.1007/BF01025868. S2CID  14437088. 
  18. ^ Вассерман, Ларри (2004). Вся статистика . Нью-Йорк: Спрингер. п. 310. ИСБН 978-1-4419-2322-6.
  19. ^ Стоун, Чарльз Дж. (1984). «Асимптотически оптимальное правило выбора гистограммы» (PDF) . Материалы конференции в Беркли в честь Ежи Неймана и Джека Кифера .
  20. ^ Симадзаки, Х.; Синомото, С. (2007). «Метод выбора размера интервала временной гистограммы». Нейронные вычисления . 19 (6): 1503–1527. CiteSeerX 10.1.1.304.6404 . дои : 10.1162/neco.2007.19.6.1503. PMID  17444758. S2CID  7781236. 
  21. ^ Джек Принс; Дон МакКормак; Ди Майкельсон; Карен Хоррелл. «Тест соответствия хи-квадрат». Электронный справочник NIST/SEMATECH по статистическим методам . НИСТ/СЕМАТЕХ. п. 7.2.1.1 . Проверено 29 марта 2019 г.
  22. ^ Мур, Дэвид (1986). «3». В Д'Агостино, Ральф; Стивенс, Майкл (ред.). Методы согласия . Нью-Йорк, штат Нью-Йорк, США: Marcel Dekker Inc., с. 70. ИСБН 0-8247-7487-6.
  23. ^ Калькулятор распределений вероятностей и функций плотности.
  24. ^ Иллюстрация гистограмм и функций плотности вероятности.

дальнейшее чтение

Внешние ссылки