В статистике частота или абсолютная частота события — это количество раз , когда наблюдение происходило/записывалось в эксперименте или исследовании. [1] : 12–19 Эти частоты часто изображают графически или в табличной форме.
Кумулятивная частота — это сумма абсолютных частот всех событий в определенной точке или ниже в упорядоченном списке событий. [1] : 17–19
Относительная частота (или эмпирическая вероятность ) события — это абсолютная частота, нормированная на общее количество событий:
Значения для всех событий можно нанести на график, чтобы получить частотное распределение.
В случае, когда достоверно , можно добавить псевдосчетчики .
Распределение частот показывает обобщенную группировку данных, разделенных на взаимоисключающие классы и количество вхождений в класс. Это способ отображения неорганизованных данных, в частности, для отображения результатов выборов, доходов людей в определенном регионе, продаж продукта за определенный период, сумм студенческих кредитов выпускников и т. д. Некоторые графики, которые можно использовать с Распределения частот представляют собой гистограммы , линейные диаграммы , гистограммы и круговые диаграммы . Распределения частот используются как для качественных, так и для количественных данных.
Обычно интервал между классами или ширина класса одинакова для всех классов. Все классы вместе взятые должны охватывать как минимум расстояние от наименьшего (минимального) значения в данных до самого высокого (максимального) значения. Равные интервалы классов являются предпочтительными при распределении частот, в то время как неравные интервалы классов (например, логарифмические интервалы) могут быть необходимы в определенных ситуациях, чтобы обеспечить хороший разброс наблюдений между классами и избежать большого количества пустых или почти пустых классов. [2]
Ниже приведены некоторые часто используемые методы изображения частоты: [3]
Гистограмма представляет собой представление табулированных частот, показанных в виде соседних прямоугольников или квадратов (в некоторых ситуациях), расположенных на дискретных интервалах (диапазонах), с площадью, пропорциональной частоте наблюдений в интервале. Высота прямоугольника также равна плотности частоты интервала, т. е. частоте, деленной на ширину интервала. Общая площадь гистограммы равна количеству данных. Гистограмму также можно нормализовать , отображая относительные частоты. Затем он показывает долю случаев, попадающих в каждую из нескольких категорий с общей площадью, равной 1. Категории обычно указываются как последовательные, непересекающиеся интервалы переменной. Категории (интервалы) должны быть смежными и часто выбираются одинакового размера. [4] Прямоугольники гистограммы рисуются так, чтобы они касались друг друга, что указывает на то, что исходная переменная является непрерывной. [5]
Гистограмма или гистограмма — это диаграмма с прямоугольными столбцами, длина которых пропорциональна значениям , которые они представляют. Столбцы могут быть построены вертикально или горизонтально. Вертикальную гистограмму иногда называют столбчатой диаграммой.
Таблица распределения частот — это совокупность значений, которые одна или несколько переменных принимают в выборке . Каждая запись в таблице содержит частоту или количество появлений значений в определенной группе или интервале, и, таким образом, таблица суммирует распределение значений в выборке.
Это пример одномерной (= одной переменной ) таблицы частот. Показана частота каждого ответа на вопрос опроса.
Другая схема табуляции объединяет значения в ячейки, так что каждая ячейка охватывает диапазон значений. Например, рост учеников в классе можно свести в следующую таблицу частот.
Двумерные совместные распределения частот часто представляются в виде (двусторонних) таблиц непредвиденных обстоятельств :
В строке итогов и в столбце итогов указаны предельные частоты или предельное распределение , а в основной части таблицы — совместные частоты. [6]
При частотной интерпретации вероятности предполагается, что по мере неограниченного увеличения длины серии испытаний доля экспериментов, в которых происходит данное событие, будет приближаться к фиксированному значению, известному как предельная относительная частота . [7] [8]
Эту интерпретацию часто противопоставляют байесовской вероятности . Фактически, термин «частотный» впервые был использован М.Г. Кендаллом в 1949 году, чтобы противопоставить байесовцам , которых он называл «нечастотными». [9] [10] Он заметил
Управлять данными, представленными в таблицах частот, и работать с ними намного проще, чем с необработанными данными. Существуют простые алгоритмы для расчета медианы, среднего значения, стандартного отклонения и т. д. на основе этих таблиц.
Статистическая проверка гипотез основана на оценке различий и сходств между частотными распределениями. Эта оценка включает в себя измерения центральной тенденции или средних значений , таких как среднее и медиана , а также меры изменчивости или статистической дисперсии , такие как стандартное отклонение или дисперсия .
Распределение частот считается искаженным , когда его среднее значение и медиана значительно различаются или, в более общем смысле, когда оно асимметрично . Эксцесс распределения частот — это мера доли крайних значений (выбросов), которые появляются на обоих концах гистограммы . Если распределение более склонно к выбросам, чем нормальное , его называют лептокуртическим; если он менее склонен к выбросам, его называют платикуртическим.
Распределение частот букв также используется в частотном анализе для взлома шифров и используется для сравнения относительных частот букв в разных языках, а также часто используются другие языки, такие как греческий, латынь и т. Д.