В статистике частота или абсолютная частота события — это число раз , когда наблюдение произошло/было зафиксировано в ходе эксперимента или исследования. [1] : 12–19 Эти частоты часто изображаются графически или в табличной форме.
Кумулятивная частота — это сумма абсолютных частот всех событий в определенной точке или ниже в упорядоченном списке событий. [1] : 17–19
Относительная частота ( или эмпирическая вероятность ) события — это абсолютная частота, нормализованная по общему числу событий:
Значения для всех событий можно построить на графике, чтобы получить распределение частот.
В случае, когда наверняка , псевдосчетчики могут быть добавлены.
Частотное распределение показывает обобщенную группировку данных, разделенных на взаимоисключающие классы, и количество вхождений в классе. Это способ отображения неорганизованных данных, в частности, для отображения результатов выборов, доходов людей в определенном регионе, продаж продукта в течение определенного периода, сумм студенческих кредитов выпускников и т. д. Некоторые из графиков, которые можно использовать с частотным распределением, — это гистограммы , линейные диаграммы , столбчатые диаграммы и круговые диаграммы . Частотное распределение используется как для качественных, так и для количественных данных.
Обычно интервал класса или ширина класса одинаковы для всех классов. Классы, взятые вместе, должны покрывать по крайней мере расстояние от самого низкого значения (минимума) в данных до самого высокого (максимального) значения. Равные интервалы класса предпочтительны в распределении частот, в то время как неравные интервалы класса (например, логарифмические интервалы) могут быть необходимы в определенных ситуациях для получения хорошего разброса наблюдений между классами и избежания большого количества пустых или почти пустых классов. [2]
Ниже приведены некоторые часто используемые методы изображения частоты: [3]
Гистограмма — это представление табличных частот, показанных в виде смежных прямоугольников или квадратов (в некоторых ситуациях), возведенных на дискретных интервалах (ячейках), с площадью, пропорциональной частоте наблюдений в интервале. Высота прямоугольника также равна плотности частот интервала, т. е. частоте, деленной на ширину интервала. Общая площадь гистограммы равна количеству данных. Гистограмма также может быть нормализована, отображая относительные частоты. Затем она показывает долю случаев, которые попадают в каждую из нескольких категорий , с общей площадью, равной 1. Категории обычно указываются как последовательные, неперекрывающиеся интервалы переменной. Категории (интервалы) должны быть смежными и часто выбираются одинакового размера. [4] Прямоугольники гистограммы рисуются так, чтобы они касались друг друга, чтобы указать, что исходная переменная является непрерывной. [5]
Столбчатая диаграмма или столбчатая диаграмма — это диаграмма с прямоугольными полосами, длина которых пропорциональна значениям, которые они представляют. Полосы могут быть нанесены вертикально или горизонтально. Вертикальная столбчатая диаграмма иногда называется столбчатой столбчатой диаграммой.
Таблица распределения частот представляет собой расположение значений, которые одна или несколько переменных принимают в выборке . Каждая запись в таблице содержит частоту или количество появлений значений в определенной группе или интервале, и таким образом таблица суммирует распределение значений в выборке.
Это пример таблицы частот одномерных (=одна переменная ). Показана частота каждого ответа на вопрос опроса.
Другая схема табуляции объединяет значения в ячейки таким образом, что каждая ячейка охватывает диапазон значений. Например, рост учеников в классе можно организовать в следующую таблицу частот.
Двумерные совместные распределения частот часто представляются в виде (двусторонних) таблиц сопряженности :
В итоговой строке и итоговом столбце указаны предельные частоты или предельное распределение , а в основной части таблицы указаны совместные частоты. [6]
При частотной интерпретации вероятности предполагается, что по мере того, как длина серии испытаний неограниченно увеличивается, доля экспериментов, в которых происходит данное событие, будет приближаться к фиксированному значению, известному как предельная относительная частота . [7] [8]
Эта интерпретация часто противопоставляется байесовской вероятности . Фактически, термин «частотник» был впервые использован MG Kendall в 1949 году, чтобы противопоставить байесовцам , которых он называл «нечастотниками». [9] [10] Он заметил
Управление и работа с данными, табулированными по частоте, намного проще, чем работа с необработанными данными. Существуют простые алгоритмы для расчета медианы, среднего значения, стандартного отклонения и т. д. из этих таблиц.
Статистическая проверка гипотез основана на оценке различий и сходств между частотными распределениями. Эта оценка включает в себя меры центральной тенденции или средние значения , такие как среднее значение и медиана , и меры изменчивости или статистической дисперсии , такие как стандартное отклонение или дисперсия .
Частотное распределение считается перекошенным , когда его среднее значение и медиана существенно различаются, или, в более общем смысле, когда оно асимметрично . Эксцесс частотного распределения — это мера доли экстремальных значений (выбросов), которые появляются на обоих концах гистограммы . Если распределение более склонно к выбросам, чем нормальное распределение, оно называется лептокуртиком; если менее склонно к выбросам, оно называется платикуртиком.
Распределение частот букв также используется в частотном анализе для взлома шифров и сравнения относительных частот букв в разных языках, а также в других языках, например, греческом, латыни и т. д.