Совокупный частотный анализ

Кумулятивное распределение частот, адаптированное кумулятивное распределение вероятностей и доверительные интервалы

Кумулятивный частотный анализ – это анализ частоты появления значений явления меньше эталонного значения. Это явление может зависеть от времени или пространства. Кумулятивную частоту еще называют частотой непревышения .

Анализ совокупной частоты проводится для получения информации о том, как часто определенное явление (особенность) оказывается ниже определенного значения. Это может помочь в описании или объяснении ситуации, в которой задействовано это явление, или в планировании мероприятий, например, по защите от наводнений. ^[1]

Этот статистический метод можно использовать, чтобы оценить вероятность повторения такого события, как наводнение, в будущем, исходя из того, как часто оно случалось в прошлом. Его можно адаптировать, чтобы учесть такие факторы, как изменение климата, вызывающее более влажную зиму и более сухое лето.

Принципы

Определения

Частотный анализ ^[2] — это анализ того, как часто или как часто наблюдаемое явление происходит в определенном диапазоне.

Частотный анализ применяется к записи длины N наблюдаемых данных X ₁ , X ₂ , X ₃ . . . X _N о переменном явлении X . Запись может зависеть от времени (например, количество осадков, измеренное в одной точке), от места (например, урожайность сельскохозяйственных культур на определенной территории) или иным образом.

Совокупная частота $M Xr$ опорного значения $Xr$ представляет собой частоту, с которой наблюдаемые значения $X$ меньше или равны $Xr$ .

Относительная совокупная частота Fc может быть рассчитана по формуле:

Fc = М Хг / N

где N — количество данных

Кратко это выражение можно записать так:

Fc = М / Н

Когда $Xr = X min$ , где $X min$ — уникальное наблюдаемое минимальное значение, обнаруживается, что $Fc = 1/ N$ , поскольку $M = 1$ . С другой стороны, когда $Xr = X max$ , где $X max$ представляет собой уникальное наблюдаемое максимальное значение, обнаруживается, что $Fc = 1$ , поскольку $M = N$ . Следовательно, когда $Fc = 1,$ это означает, что $Xr$ представляет собой значение, при котором все данные меньше или равны $Xr$ .

В процентах уравнение выглядит следующим образом:

Fc (%) = 100 М / Н

Оценка вероятности

От совокупной частоты

Кумулятивная вероятность Pc того, что X будет меньше или равна Xr , может быть оценена несколькими способами на основе кумулятивной частоты M.

Один из способов — использовать относительную кумулятивную частоту Fc в качестве оценки.

Другой способ — принять во внимание возможность того, что в редких случаях X может принимать значения, превышающие наблюдаемый максимум X _max . Это можно сделать, разделив совокупную частоту M на N +1 вместо N . Тогда оценка будет выглядеть так:

ПК = М / (N +1)

Существуют и другие предложения по знаменателю (см. положения графика ).

По методике ранжирования

Ранжированные кумулятивные вероятности

Оценку вероятности упрощает ранжирование данных.

Когда наблюдаемые данные X расположены в порядке возрастания ( $X 1 \leq X 2 \leq X 3 \leq \dots \leq X N$ , минимум первым и максимум последним), а Ri - номер ранга наблюдения Xi , где добавление i указывает серийный номер в диапазоне возрастающих данных, тогда кумулятивную вероятность можно оценить по формуле:

Pc = Ri /(N + 1)

С другой стороны, когда наблюдаемые данные из X расположены в порядке убывания : максимум сначала, а минимум последним, а Rj — номер ранга наблюдения Xj , кумулятивную вероятность можно оценить по формуле:

Pc = 1 - Rj /(N + 1)

Подбор вероятностных распределений

Непрерывные распределения

Чтобы представить кумулятивное распределение частот в виде непрерывного математического уравнения, а не дискретного набора данных, можно попытаться подогнать кумулятивное распределение частот к известному кумулятивному распределению вероятностей. ^[2]^[3]
В случае успеха известного уравнения достаточно, чтобы определить распределение частот, и таблица данных не потребуется. Кроме того, уравнение помогает интерполяции и экстраполяции. Однако следует проявлять осторожность при экстраполяции кумулятивного распределения частот, поскольку это может быть источником ошибок. Одна из возможных ошибок заключается в том, что распределение частот больше не соответствует выбранному распределению вероятностей за пределами диапазона наблюдаемых данных.

Любое уравнение, которое дает значение 1 при интегрировании от нижнего предела до верхнего предела, хорошо согласующегося с диапазоном данных, может использоваться в качестве распределения вероятностей для аппроксимации. Примеры вероятностных распределений, которые можно использовать, можно найти в разделе «Распределения вероятностей» .

Распределения вероятностей можно подобрать несколькими методами, ^[2] например:

параметрический метод, определяющий такие параметры, как среднее и стандартное отклонение, на основе данных X с использованием метода моментов , метода максимального правдоподобия и метода взвешенных по вероятности моментов .
метод регрессии, линеаризация распределения вероятностей посредством преобразования и определение параметров из линейной регрессии преобразованного Pc (полученного в результате ранжирования) на преобразованных данных X.

Применение обоих типов методов, например,

нормальное распределение , логнормальное распределение , логистическое распределение , логлогистическое распределение , экспоненциальное распределение , распределение Фреше , распределение Гамбеля , распределение Парето , распределение Вейбулла и другие

часто показывает, что ряд распределений хорошо соответствуют данным и не дают существенно различающихся результатов, при этом различия между ними могут быть небольшими по сравнению с шириной доверительного интервала. ^[2] Это показывает, что может быть сложно определить, какое распределение дает лучшие результаты. Например, примерно нормально распределенные наборы данных могут быть адаптированы к большому количеству различных распределений вероятностей. ^[4] , в то время как отрицательно асимметричные распределения могут быть аппроксимированы квадратно-нормальным и зеркальным распределениями Гамбеля. ^[5]

Совокупное распределение частот с разрывом

Прерывистые распределения

Иногда можно подогнать один тип распределения вероятностей к нижней части диапазона данных, а другой тип — к верхней части, разделенной точкой останова, в результате чего общее соответствие улучшается.

На рисунке приведен пример полезного введения такого прерывистого распределения для данных об осадках на севере Перу, где климат подвержен поведению тихоокеанского течения Эль-Ниньо . Когда Ниньо простирается на юг Эквадора и впадает в океан вдоль побережья Перу, климат Северного Перу становится тропическим и влажным. Когда Ниньо не достигает Перу, климат полузасушливый. По этой причине более высокие осадки имеют другое распределение частоты, чем более низкие. ^[6]

Прогноз

Неопределенность

Когда кумулятивное распределение частот получается на основе набора данных, можно задаться вопросом, можно ли его использовать для прогнозов. ^[7] Например, учитывая распределение речных расходов за 1950–2000 годы, можно ли это распределение использовать для прогнозирования того, как часто определенный речной расход будет превышен в 2000–2050 годах? Ответ — да, при условии, что условия окружающей среды не изменятся. Если условия окружающей среды меняются, например, изменения в инфраструктуре водосбора реки или в характере осадков из-за климатических изменений, прогноз на основе исторических данных подвержен систематической ошибке . Даже при отсутствии систематической ошибки может иметь место случайная ошибка , поскольку случайно наблюдаемые расходы в период 1950–2000 годов могли быть выше или ниже нормальных, в то время как, с другой стороны, расходы с 2000 по 2050 год случайно могут быть ниже. или выше нормы. Вопросы, связанные с этим, были исследованы в книге «Черный лебедь» .

Доверительные интервалы

Биномиальные распределения для Pc = 0,1 (синий), 0,5 (зеленый) и 0,8 (красный) в выборке размером

N = 20

. Распределение симметрично только при

Pc = 0,5.

90%-ные биномиальные доверительные интервалы по логарифмической шкале.

Теория вероятностей может помочь оценить диапазон, в котором может находиться случайная ошибка. В случае накопительной частоты есть только две возможности: превышено определенное опорное значение $X$ или не превышено. Сумма частоты превышений и совокупной частоты составляет 1 или 100%. Следовательно, биномиальное распределение можно использовать для оценки диапазона случайной ошибки.

Согласно нормальной теории, биномиальное распределение можно аппроксимировать и для больших $N$ стандартного отклонения $Sd$ можно рассчитать следующим образом:

Sd = \sqrt Pc (1 - Pc)/ N

где Pc — совокупная вероятность , а N — количество данных. Видно, что стандартное отклонение Sd уменьшается с увеличением числа наблюдений N.

Для определения доверительного интервала Pc используется критерий Стьюдента ( t ). Значение t зависит от количества данных и уровня достоверности оценки доверительного интервала. Затем нижний ( L ) и верхний ( U ) доверительные пределы Pc в симметричном распределении находятся из:

L = Pc - t \cdot Sd

U = Pc + t \cdot Sd

Это известно как интервал Вальда . ^[8] Однако биномиальное распределение симметрично только относительно среднего значения, когда $Pc = 0,5$ , но оно становится асимметричным и все более и более асимметричным, когда Pc приближается к 0 или 1. Следовательно, в приближении Pc и 1− Pc могут использоваться в качестве весов. Факторы отнесения t.Sd к L и U :

L = Pc - 2\cdot Pc \cdot т \cdot Sd

U = Pc + 2\cdot(1- Pc)\cdot t \cdot Sd

откуда видно, что эти выражения для Pc = 0,5 такие же, как и предыдущие.

Примечания

Известно, что интервал Вальда работает плохо. ^[9]^[10]^[11]
Оценочный интервал Вильсона [ ^12] обеспечивает доверительный интервал для биномиальных распределений на основе оценочных тестов и имеет лучший охват выборки, см. ^[13] и доверительный интервал биномиальной пропорции для более подробного обзора.
Вместо «интервала оценки Уилсона» также можно использовать «интервал Вальда» при условии включения вышеуказанных весовых коэффициентов.

Период возврата

Периоды возврата и пояс уверенности. Кривая периодов доходности увеличивается в геометрической прогрессии.

Кумулятивную вероятность Pc можно также назвать вероятностью непревышения . Вероятность превышения $Pe$ (также называемая функцией выживания ) находится из:

Пе = 1 - ПК

Период повторяемости T определяется как:

Т = 1/ Пе

и указывает ожидаемое количество наблюдений, которые необходимо провести еще раз, чтобы найти значение изучаемой переменной, превышающее значение, используемое для T .
Верхний ( TU ) и нижний ( TL ) доверительные пределы периодов повторяемости _можно найти соответственно как _:

Т U знак равно 1 / (1- U)

Т L знак равно 1 / (1- L)

Для экстремальных значений исследуемой переменной U близко к 1, а небольшие изменения U вызывают большие изменения T _U . Следовательно, расчетный период повторяемости экстремальных значений подвержен большой случайной ошибке. Более того, доверительные интервалы оказались справедливыми для долгосрочного прогноза. Для прогнозов на более короткий срок доверительные интервалы $U — L$ и $T U — T L$ на самом деле могут быть шире. Вместе с ограниченной уверенностью (менее 100%), используемой в t-критерии , это объясняет, почему, например, 100-летнее количество осадков может выпадать дважды за 10 лет.

Девять кривых повторяемости 50-летних выборок из теоретического 1000-летнего периода (базовая линия)

Строгое понятие периода повторяемости на самом деле имеет смысл только тогда, когда оно касается явления, зависящего от времени, такого как точечные осадки. Тогда период возврата соответствует ожидаемому времени ожидания до тех пор, пока превышение не произойдет снова. Период повторяемости имеет то же измерение, что и время, для которого каждое наблюдение является репрезентативным. Например, когда наблюдения касаются ежедневных осадков, период повторяемости выражается в днях, а для годовых осадков – в годах.

Потребность в поясах доверия

На рисунке показано изменение, которое может возникнуть при получении выборок переменной, соответствующей определенному распределению вероятностей. Данные предоставил Бенсон. ^[1]

Доверительный пояс вокруг экспериментальной кривой совокупной частоты или периода повторяемости дает представление об области, в которой можно найти истинное распределение.

Кроме того, уточняется, что экспериментально найденное наиболее подходящее распределение вероятностей может отклоняться от истинного распределения.

Гистограмма

Наблюдаемые данные могут быть организованы в классы или группы с порядковым номером $k$ . $Каждая группа имеет$ нижний предел ( $Lk)$ и верхний предел ( $Uk$ ). Когда класс ( $k$ ) содержит данные $m k$ и общее количество данных равно $N$ , тогда относительная частота класса или группы находится из:

Fg (L k < X \leq U k) знак равно м k / N

или кратко:

Fg k = м / Н

или в процентах:

Fг (%) = 100 м / Н

Представление частот всех классов дает распределение частот или гистограмму . Гистограммы, даже если они составлены из одной и той же записи, различаются для разных пределов классов.

Гистограмму также можно получить на основе подобранного кумулятивного распределения вероятностей:

Pg k знак равно Pc (U k) - Pc (L k)

$Между Fg k$ и $Pg k$ может быть разница из-за отклонений наблюдаемых данных от подобранного распределения (см. синий рисунок).

Часто желательно объединить гистограмму с функцией плотности вероятности , как показано на черно-белом рисунке.