В области статистики и анализа данных прикладное программное обеспечение CumFreq представляет собой инструмент для совокупного частотного анализа одной переменной и подбора распределения вероятностей . [1]
Первоначально метод был разработан для анализа гидрологических измерений пространственно изменяющихся величин (например, гидравлическая проводимость почвы) и величин, изменяющихся во времени (например, количество осадков, речной сток ), чтобы найти периоды их повторяемости . Однако его можно использовать для многих других типов явлений, в том числе тех, которые содержат отрицательные значения.
CumFreq использует метод построения графика для оценки совокупной частоты каждой из наблюдаемых величин в ряду данных переменной. [2]
Компьютерная программа позволяет определить наиболее подходящее распределение вероятностей . В качестве альтернативы пользователю предоставляется возможность выбрать распределение вероятностей для подбора. Включены следующие распределения вероятностей: нормальное , логнормальное , логистическое , логлогистическое , экспоненциальное , Коши , Фреше , Гумбеля , Парето , Вейбулла , обобщенное распределение экстремальных значений , распределение Лапласа , распределение Берра (зеркало Дагума), распределение Дагума (зеркало Берра), Гомпертца распределение , распределение студентов и другие.
Другая особенность CumFreq заключается в том, что он предоставляет возможность использовать два разных распределения вероятностей: одно для нижнего диапазона данных, а другое для верхнего. Диапазоны разделены точкой останова. Использование таких составных (разрывных) распределений вероятностей может оказаться полезным, когда данные изучаемого явления получены в разных условиях. [3]
На этапе ввода пользователь может выбрать количество интервалов, необходимых для определения гистограммы . Он также может определить порог для получения усеченного распределения .
В разделе вывода имеется калькулятор для облегчения интерполяции и экстраполяции .
Кроме того, это дает возможность просмотреть график Q–Q с точки зрения рассчитанных и наблюдаемых совокупных частот.
ILRI [5] приводит примеры применения к таким величинам, как урожайность сельскохозяйственных культур , глубина грунтовых вод , засоленность почвы , гидравлическая проводимость , количество осадков и речной сток .
Программа может производить обобщения нормального, логистического и других распределений путем преобразования данных с использованием показателя степени , оптимизированного для получения наилучшего соответствия .
Эта функция не распространена в другом программном обеспечении для подбора распределения, которое обычно включает только логарифмическое преобразование распределений для получения данных, таких как логнормальное и логлогистическое .
Обобщение симметричных распределений (таких как нормальное и логистическое ) делает их применимыми к данным, подчиняющимся распределению, смещенному вправо (с использованием показателя степени <1), а также к данным, подчиняющимся распределению, смещенному влево (с использованием показателя степени <1). показатель степени >1). Это повышает универсальность симметричных распределений.
Асимметричные распределения можно отразить путем инверсии распределения (см. функцию выживания или дополнительную функцию распределения ), чтобы изменить асимметрию с положительной на отрицательную и наоборот. Это увеличивает количество применимых дистрибутивов и увеличивает вероятность найти более подходящее. CumFreq использует эту возможность.
Когда присутствуют отрицательные данные, которые не поддерживаются распределением вероятностей, модель выполняет сдвиг распределения в положительную сторону, а после подгонки распределение сдвигается обратно.
Программное обеспечение использует биномиальное распределение для определения доверительного пояса соответствующей кумулятивной функции распределения . [2]
Прогноз периода повторяемости , представляющий интерес для временных рядов , также сопровождается доверительным поясом. Построение поясов доверия не встречается в большинстве других программ.
На рисунке справа показано изменение, которое может возникнуть при получении выборок переменной, соответствующей определенному распределению вероятностей. Данные предоставил Бенсон. [6]
Доверительный пояс вокруг экспериментальной кривой совокупной частоты или периода повторяемости дает представление об области, в которой можно найти истинное распределение.
Кроме того, уточняется, что экспериментально найденное наиболее подходящее распределение вероятностей может отклоняться от истинного распределения.
Cumfreq создает список распределений, ранжированных по степени соответствия .
Из кумулятивной функции распределения (CDF) можно получить гистограмму и функцию плотности вероятности (PDF).
Программное обеспечение предлагает возможность использовать калькулятор распределения вероятностей. Совокупная частота и период возврата задаются как функция значения входных данных. Кроме того, показаны доверительные интервалы. И наоборот, значение представляется после указания совокупной частоты или периода повторяемости.