stringtranslate.com

Частота (статистика)

В статистике частота или абсолютная частота события — это число раз , когда наблюдение произошло/было зафиксировано в ходе эксперимента или исследования. [1] : 12–19  Эти частоты часто изображаются графически или в табличной форме.

Типы

Кумулятивная частота — это сумма абсолютных частот всех событий в определенной точке или ниже в упорядоченном списке событий. [1] : 17–19 

Относительная частота ( или эмпирическая вероятность ) события — это абсолютная частота, нормализованная по общему числу событий:

Значения для всех событий можно построить на графике, чтобы получить распределение частот.

В случае, когда наверняка , псевдосчетчики могут быть добавлены.

Изображение частотных распределений

Различные способы изображения частотных распределений

Частотное распределение показывает обобщенную группировку данных, разделенных на взаимоисключающие классы, и количество вхождений в классе. Это способ отображения неорганизованных данных, в частности, для отображения результатов выборов, доходов людей в определенном регионе, продаж продукта в течение определенного периода, сумм студенческих кредитов выпускников и т. д. Некоторые из графиков, которые можно использовать с частотным распределением, — это гистограммы , линейные диаграммы , столбчатые диаграммы и круговые диаграммы . Частотное распределение используется как для качественных, так и для количественных данных.

Строительство

  1. Определите количество классов. Слишком много или слишком мало классов могут не раскрыть основную форму набора данных, также будет трудно интерпретировать такое распределение частот. Идеальное количество классов может быть определено или оценено по формуле: (логарифм по основанию 10) или по формуле выбора квадратного корня , где n — общее количество наблюдений в данных. (Последнее будет слишком большим для больших наборов данных, таких как статистика населения.) Однако эти формулы не являются жестким правилом, и полученное количество классов, определенное по формуле, не всегда может точно соответствовать данным, с которыми ведется работа.
  2. Рассчитайте диапазон данных (диапазон = макс. – ​​мин.), найдя минимальное и максимальное значения данных. Диапазон будет использоваться для определения интервала класса или ширины класса.
  3. Определите ширину классов, обозначим ее через h и получим по формуле (предполагая, что интервалы классов одинаковы для всех классов).

Обычно интервал класса или ширина класса одинаковы для всех классов. Классы, взятые вместе, должны покрывать по крайней мере расстояние от самого низкого значения (минимума) в данных до самого высокого (максимального) значения. Равные интервалы класса предпочтительны в распределении частот, в то время как неравные интервалы класса (например, логарифмические интервалы) могут быть необходимы в определенных ситуациях для получения хорошего разброса наблюдений между классами и избежания большого количества пустых или почти пустых классов. [2]

  1. Определите индивидуальные пределы класса и выберите подходящую начальную точку первого класса, которая является произвольной; она может быть меньше или равна минимальному значению. Обычно она начинается до минимального значения таким образом, чтобы середина (среднее значение нижних и верхних пределов класса первого класса) была правильно [ требуется разъяснение ] размещена.
  2. Возьмите наблюдение и отметьте вертикальную черту (|) для класса, к которому оно принадлежит. Текущий подсчет ведется до последнего наблюдения.
  3. Найдите частоты, относительную частоту, кумулятивную частоту и т. д. по мере необходимости.

Ниже приведены некоторые часто используемые методы изображения частоты: [3]

Гистограммы

Гистограмма — это представление табличных частот, показанных в виде смежных прямоугольников или квадратов (в некоторых ситуациях), возведенных на дискретных интервалах (ячейках), с площадью, пропорциональной частоте наблюдений в интервале. Высота прямоугольника также равна плотности частот интервала, т. е. частоте, деленной на ширину интервала. Общая площадь гистограммы равна количеству данных. Гистограмма также может быть нормализована, отображая относительные частоты. Затем она показывает долю случаев, которые попадают в каждую из нескольких категорий , с общей площадью, равной 1. Категории обычно указываются как последовательные, неперекрывающиеся интервалы переменной. Категории (интервалы) должны быть смежными и часто выбираются одинакового размера. [4] Прямоугольники гистограммы рисуются так, чтобы они касались друг друга, чтобы указать, что исходная переменная является непрерывной. [5]

Гистограммы

Столбчатая диаграмма или столбчатая диаграмма — это диаграмма с прямоугольными полосами, длина которых пропорциональна значениям, которые они представляют. Полосы могут быть нанесены вертикально или горизонтально. Вертикальная столбчатая диаграмма иногда называется столбчатой ​​столбчатой ​​диаграммой.

Таблица распределения частот

Таблица распределения частот представляет собой расположение значений, которые одна или несколько переменных принимают в выборке . Каждая запись в таблице содержит частоту или количество появлений значений в определенной группе или интервале, и таким образом таблица суммирует распределение значений в выборке.

Это пример таблицы частот одномерных (=одна переменная ). Показана частота каждого ответа на вопрос опроса.

Другая схема табуляции объединяет значения в ячейки таким образом, что каждая ячейка охватывает диапазон значений. Например, рост учеников в классе можно организовать в следующую таблицу частот.

Совместные распределения частот

Двумерные совместные распределения частот часто представляются в виде (двусторонних) таблиц сопряженности :

В итоговой строке и итоговом столбце указаны предельные частоты или предельное распределение , а в основной части таблицы указаны совместные частоты. [6]

Интерпретация

При частотной интерпретации вероятности предполагается, что по мере того, как длина серии испытаний неограниченно увеличивается, доля экспериментов, в которых происходит данное событие, будет приближаться к фиксированному значению, известному как предельная относительная частота . [7] [8]

Эта интерпретация часто противопоставляется байесовской вероятности . Фактически, термин «частотник» был впервые использован MG Kendall в 1949 году, чтобы противопоставить байесовцам , которых он называл «нечастотниками». [9] [10] Он заметил

3....мы можем в общих чертах выделить два основных подхода. Один рассматривает вероятность как «степень рациональной веры» или какую-то подобную идею... второй определяет вероятность в терминах частоты возникновения событий или относительных пропорций в «популяциях» или «коллективах»; (стр. 101)
...
12. Можно подумать, что различия между частотниками и нечастотниками (если их можно так назвать) во многом обусловлены различиями областей, которые они якобы охватывают. (стр. 104)
...
Я утверждаю, что это не так ... Главное различие между сторонниками частотности и не сторонниками частотности, как мне кажется, заключается в том, что первые, стремясь избежать всего, что отдает вопросами мнения, стремятся определить вероятность в терминах объективных свойств совокупности, реальной или гипотетической, тогда как вторые этого не делают. [выделено в оригинале]

Приложения

Управление и работа с данными, табулированными по частоте, намного проще, чем работа с необработанными данными. Существуют простые алгоритмы для расчета медианы, среднего значения, стандартного отклонения и т. д. из этих таблиц.

Статистическая проверка гипотез основана на оценке различий и сходств между частотными распределениями. Эта оценка включает в себя меры центральной тенденции или средние значения , такие как среднее значение и медиана , и меры изменчивости или статистической дисперсии , такие как стандартное отклонение или дисперсия .

Частотное распределение считается перекошенным , когда его среднее значение и медиана существенно различаются, или, в более общем смысле, когда оно асимметрично . Эксцесс частотного распределения — это мера доли экстремальных значений (выбросов), которые появляются на обоих концах гистограммы . Если распределение более склонно к выбросам, чем нормальное распределение, оно называется лептокуртиком; если менее склонно к выбросам, оно называется платикуртиком.

Распределение частот букв также используется в частотном анализе для взлома шифров и сравнения относительных частот букв в разных языках, а также в других языках, например, греческом, латыни и т. д.

Смотрите также

Ссылки

  1. ^ ab Kenney, JF; Keeping, ES (1962). Математика статистики, часть 1 (3-е изд.). Princeton, NJ: Van Nostrand Reinhold .
  2. ^ Manikandan, S (1 января 2011 г.). «Распределение частот». Журнал фармакологии и фармакотерапии . 2 (1): 54–55. doi : 10.4103/0976-500X.77120 . ISSN  0976-500X. PMC 3117575. PMID 21701652  . 
  3. ^ Карлсон, К. и Винквист, Дж. (2014) Введение в статистику . SAGE Publications, Inc. Глава 1: Введение в статистику и частотные распределения
  4. ^ Хауитт, Д. и Крамер, Д. (2008) Статистика в психологии . Prentice Hall
  5. ^ Чарльз Стэнгор (2011) «Методы исследования поведенческих наук». Уодсворт, Cengage Learning. ISBN 9780840031976
  6. ^ Stat Trek, Глоссарий статистики и вероятности, sv Совместная частота
  7. ^ фон Мизес, Ричард (1939) Вероятность, статистика и истина (на немецком языке) (перевод на английский язык, 1981: Dover Publications; 2-е исправленное издание. ISBN 0486242145 ) (стр. 14) 
  8. Теория частот, глава 5; обсуждается в работе Дональда Жиля, Философские теории вероятности (2000), Psychology Press. ISBN 9780415182751 , стр. 88. 
  9. ^ Самые ранние известные случаи использования некоторых слов из области вероятности и статистики
  10. ^ Кендалл, Морис Джордж (1949). «О согласовании теорий вероятности». Biometrika . 36 (1/2). Biometrika Trust: 101–116. doi :10.1093/biomet/36.1-2.101. JSTOR  2332534.