Кумулятивный частотный анализ – это анализ частоты появления значений явления меньше эталонного значения. Это явление может зависеть от времени или пространства. Кумулятивную частоту еще называют частотой непревышения .
Анализ совокупной частоты проводится для получения информации о том, как часто определенное явление (особенность) оказывается ниже определенного значения. Это может помочь в описании или объяснении ситуации, в которой задействовано это явление, или в планировании мероприятий, например, по защите от наводнений. [1]
Этот статистический метод можно использовать, чтобы оценить вероятность повторения такого события, как наводнение, в будущем, исходя из того, как часто оно случалось в прошлом. Его можно адаптировать, чтобы учесть такие факторы, как изменение климата, вызывающее более влажную зиму и более сухое лето.
Частотный анализ [2] — это анализ того, как часто или как часто наблюдаемое явление происходит в определенном диапазоне.
Частотный анализ применяется к записи длины N наблюдаемых данных X 1 , X 2 , X 3 . . . X N о переменном явлении X . Запись может зависеть от времени (например, количество осадков, измеренное в одной точке), от места (например, урожайность сельскохозяйственных культур на определенной территории) или иным образом.
Совокупная частота M Xr опорного значения Xr представляет собой частоту, с которой наблюдаемые значения X меньше или равны Xr .
Относительная совокупная частота Fc может быть рассчитана по формуле:
где N — количество данных
Кратко это выражение можно записать так:
Когда Xr = X min , где X min — уникальное наблюдаемое минимальное значение, обнаруживается, что Fc = 1/ N , поскольку M = 1 . С другой стороны, когда Xr = X max , где X max представляет собой уникальное наблюдаемое максимальное значение, обнаруживается, что Fc = 1 , поскольку M = N . Следовательно, когда Fc = 1, это означает, что Xr представляет собой значение, при котором все данные меньше или равны Xr .
В процентах уравнение выглядит следующим образом:
Кумулятивная вероятность Pc того, что X будет меньше или равна Xr , может быть оценена несколькими способами на основе кумулятивной частоты M.
Один из способов — использовать относительную кумулятивную частоту Fc в качестве оценки.
Другой способ — принять во внимание возможность того, что в редких случаях X может принимать значения, превышающие наблюдаемый максимум X max . Это можно сделать, разделив совокупную частоту M на N +1 вместо N . Тогда оценка будет выглядеть так:
Существуют и другие предложения по знаменателю (см. положения графика ).
Оценку вероятности упрощает ранжирование данных.
Когда наблюдаемые данные X расположены в порядке возрастания ( X 1 ≤ X 2 ≤ X 3 ≤ ⋯ ≤ X N , минимум первым и максимум последним), а Ri - номер ранга наблюдения Xi , где добавление i указывает серийный номер в диапазоне возрастающих данных, тогда кумулятивную вероятность можно оценить по формуле:
С другой стороны, когда наблюдаемые данные из X расположены в порядке убывания : максимум сначала, а минимум последним, а Rj — номер ранга наблюдения Xj , кумулятивную вероятность можно оценить по формуле:
Чтобы представить кумулятивное распределение частот в виде непрерывного математического уравнения, а не дискретного набора данных, можно попытаться подогнать кумулятивное распределение частот к известному кумулятивному распределению вероятностей. [2] [3]
В случае успеха известного уравнения достаточно, чтобы определить распределение частот, и таблица данных не потребуется. Кроме того, уравнение помогает интерполяции и экстраполяции. Однако следует проявлять осторожность при экстраполяции кумулятивного распределения частот, поскольку это может быть источником ошибок. Одна из возможных ошибок заключается в том, что распределение частот больше не соответствует выбранному распределению вероятностей за пределами диапазона наблюдаемых данных.
Любое уравнение, которое дает значение 1 при интегрировании от нижнего предела до верхнего предела, хорошо согласующегося с диапазоном данных, может использоваться в качестве распределения вероятностей для аппроксимации. Примеры вероятностных распределений, которые можно использовать, можно найти в разделе «Распределения вероятностей» .
Распределения вероятностей можно подобрать несколькими методами, [2] например:
Применение обоих типов методов, например,
часто показывает, что ряд распределений хорошо соответствуют данным и не дают существенно различающихся результатов, при этом различия между ними могут быть небольшими по сравнению с шириной доверительного интервала. [2] Это показывает, что может быть сложно определить, какое распределение дает лучшие результаты. Например, примерно нормально распределенные наборы данных могут быть адаптированы к большому количеству различных распределений вероятностей. [4] , в то время как отрицательно асимметричные распределения могут быть аппроксимированы квадратно-нормальным и зеркальным распределениями Гамбеля. [5]
Иногда можно подогнать один тип распределения вероятностей к нижней части диапазона данных, а другой тип — к верхней части, разделенной точкой останова, в результате чего общее соответствие улучшается.
На рисунке приведен пример полезного введения такого прерывистого распределения для данных об осадках на севере Перу, где климат подвержен поведению тихоокеанского течения Эль-Ниньо . Когда Ниньо простирается на юг Эквадора и впадает в океан вдоль побережья Перу, климат Северного Перу становится тропическим и влажным. Когда Ниньо не достигает Перу, климат полузасушливый. По этой причине более высокие осадки имеют другое распределение частоты, чем более низкие. [6]
Когда кумулятивное распределение частот получается на основе набора данных, можно задаться вопросом, можно ли его использовать для прогнозов. [7] Например, учитывая распределение речных расходов за 1950–2000 годы, можно ли это распределение использовать для прогнозирования того, как часто определенный речной расход будет превышен в 2000–2050 годах? Ответ — да, при условии, что условия окружающей среды не изменятся. Если условия окружающей среды меняются, например, изменения в инфраструктуре водосбора реки или в характере осадков из-за климатических изменений, прогноз на основе исторических данных подвержен систематической ошибке . Даже при отсутствии систематической ошибки может иметь место случайная ошибка , поскольку случайно наблюдаемые расходы в период 1950–2000 годов могли быть выше или ниже нормальных, в то время как, с другой стороны, расходы с 2000 по 2050 год случайно могут быть ниже. или выше нормы. Вопросы, связанные с этим, были исследованы в книге «Черный лебедь» .
Теория вероятностей может помочь оценить диапазон, в котором может находиться случайная ошибка. В случае накопительной частоты есть только две возможности: превышено определенное опорное значение X или не превышено. Сумма частоты превышений и совокупной частоты составляет 1 или 100%. Следовательно, биномиальное распределение можно использовать для оценки диапазона случайной ошибки.
Согласно нормальной теории, биномиальное распределение можно аппроксимировать и для больших N стандартного отклонения Sd можно рассчитать следующим образом:
где Pc — совокупная вероятность , а N — количество данных. Видно, что стандартное отклонение Sd уменьшается с увеличением числа наблюдений N.
Для определения доверительного интервала Pc используется критерий Стьюдента ( t ). Значение t зависит от количества данных и уровня достоверности оценки доверительного интервала. Затем нижний ( L ) и верхний ( U ) доверительные пределы Pc в симметричном распределении находятся из:
Это известно как интервал Вальда . [8] Однако биномиальное распределение симметрично только относительно среднего значения, когда Pc = 0,5 , но оно становится асимметричным и все более и более асимметричным, когда Pc приближается к 0 или 1. Следовательно, в приближении Pc и 1− Pc могут использоваться в качестве весов. Факторы отнесения t.Sd к L и U :
откуда видно, что эти выражения для Pc = 0,5 такие же, как и предыдущие.
Кумулятивную вероятность Pc можно также назвать вероятностью непревышения . Вероятность превышения Pe (также называемая функцией выживания ) находится из:
Период повторяемости T определяется как:
и указывает ожидаемое количество наблюдений, которые необходимо провести еще раз, чтобы найти значение изучаемой переменной, превышающее значение, используемое для T .
Верхний ( TU ) и нижний ( TL ) доверительные пределы периодов повторяемости можно найти соответственно как :
Для экстремальных значений исследуемой переменной U близко к 1, а небольшие изменения U вызывают большие изменения T U . Следовательно, расчетный период повторяемости экстремальных значений подвержен большой случайной ошибке. Более того, доверительные интервалы оказались справедливыми для долгосрочного прогноза. Для прогнозов на более короткий срок доверительные интервалы U — L и T U — T L на самом деле могут быть шире. Вместе с ограниченной уверенностью (менее 100%), используемой в t-критерии , это объясняет, почему, например, 100-летнее количество осадков может выпадать дважды за 10 лет.
Строгое понятие периода повторяемости на самом деле имеет смысл только тогда, когда оно касается явления, зависящего от времени, такого как точечные осадки. Тогда период возврата соответствует ожидаемому времени ожидания до тех пор, пока превышение не произойдет снова. Период повторяемости имеет то же измерение, что и время, для которого каждое наблюдение является репрезентативным. Например, когда наблюдения касаются ежедневных осадков, период повторяемости выражается в днях, а для годовых осадков – в годах.
На рисунке показано изменение, которое может возникнуть при получении выборок переменной, соответствующей определенному распределению вероятностей. Данные предоставил Бенсон. [1]
Доверительный пояс вокруг экспериментальной кривой совокупной частоты или периода повторяемости дает представление об области, в которой можно найти истинное распределение.
Кроме того, уточняется, что экспериментально найденное наиболее подходящее распределение вероятностей может отклоняться от истинного распределения.
Наблюдаемые данные могут быть организованы в классы или группы с порядковым номером k . Каждая группа имеет нижний предел ( Lk ) и верхний предел ( Uk ). Когда класс ( k ) содержит данные m k и общее количество данных равно N , тогда относительная частота класса или группы находится из:
или кратко:
или в процентах:
Представление частот всех классов дает распределение частот или гистограмму . Гистограммы, даже если они составлены из одной и той же записи, различаются для разных пределов классов.
Гистограмму также можно получить на основе подобранного кумулятивного распределения вероятностей:
Между Fg k и Pg k может быть разница из-за отклонений наблюдаемых данных от подобранного распределения (см. синий рисунок).
Часто желательно объединить гистограмму с функцией плотности вероятности , как показано на черно-белом рисунке.