stringtranslate.com

Совокупный частотный анализ

Кумулятивное распределение частот, адаптированное кумулятивное распределение вероятностей и доверительные интервалы

Кумулятивный частотный анализ – это анализ частоты появления значений явления меньше эталонного значения. Это явление может зависеть от времени или пространства. Кумулятивную частоту еще называют частотой непревышения .

Анализ совокупной частоты проводится для получения информации о том, как часто определенное явление (особенность) оказывается ниже определенного значения. Это может помочь в описании или объяснении ситуации, в которой задействовано это явление, или в планировании мероприятий, например, по защите от наводнений. [1]

Этот статистический метод можно использовать, чтобы оценить вероятность повторения такого события, как наводнение, в будущем, исходя из того, как часто оно случалось в прошлом. Его можно адаптировать, чтобы учесть такие факторы, как изменение климата, вызывающее более влажную зиму и более сухое лето.

Принципы

Определения

Частотный анализ [2] — это анализ того, как часто или как часто наблюдаемое явление происходит в определенном диапазоне.

Частотный анализ применяется к записи длины N наблюдаемых данных X 1 , X 2 , X 3 . . . X N о переменном явлении X . Запись может зависеть от времени (например, количество осадков, измеренное в одной точке), от места (например, урожайность сельскохозяйственных культур на определенной территории) или иным образом.

Совокупная частота M Xr опорного значения Xr представляет собой частоту, с которой наблюдаемые значения X меньше или равны Xr .

Относительная совокупная частота Fc может быть рассчитана по формуле:

Fc = М Хг / N

где N — количество данных

Кратко это выражение можно записать так:

Fc = М / Н

Когда Xr = X min , где X min — уникальное наблюдаемое минимальное значение, обнаруживается, что Fc = 1/ N , поскольку M = 1 . С другой стороны, когда Xr = X max , где X max представляет собой уникальное наблюдаемое максимальное значение, обнаруживается, что Fc = 1 , поскольку M = N . Следовательно, когда Fc = 1, это означает, что Xr представляет собой значение, при котором все данные меньше или равны Xr .

В процентах уравнение выглядит следующим образом:

Fc (%) = 100 М / Н

Оценка вероятности

От совокупной частоты

Кумулятивная вероятность Pc того, что X будет меньше или равна Xr , может быть оценена несколькими способами на основе кумулятивной частоты M.

Один из способов — использовать относительную кумулятивную частоту Fc в качестве оценки.

Другой способ — принять во внимание возможность того, что в редких случаях X может принимать значения, превышающие наблюдаемый максимум X max . Это можно сделать, разделив совокупную частоту M на N +1 вместо N . Тогда оценка будет выглядеть так:

ПК = М / ( N +1)

Существуют и другие предложения по знаменателю (см. положения графика ).

По методике ранжирования

Ранжированные кумулятивные вероятности

Оценку вероятности упрощает ранжирование данных.

Когда наблюдаемые данные X расположены в порядке возрастания ( X 1X 2X 3 ≤ ⋯ ≤ X N , минимум первым и максимум последним), а Ri - номер ранга наблюдения Xi , где добавление i указывает серийный номер в диапазоне возрастающих данных, тогда кумулятивную вероятность можно оценить по формуле:

Pc = Ri /( N + 1)

С другой стороны, когда наблюдаемые данные из X расположены в порядке убывания : максимум сначала, а минимум последним, а Rj — номер ранга наблюдения Xj , кумулятивную вероятность можно оценить по формуле:

Pc = 1 − Rj /( N + 1)

Подбор вероятностных распределений

Непрерывные распределения

Различные кумулятивные нормальные распределения вероятностей с их параметрами

Чтобы представить кумулятивное распределение частот в виде непрерывного математического уравнения, а не дискретного набора данных, можно попытаться подогнать кумулятивное распределение частот к известному кумулятивному распределению вероятностей. [2] [3]
В случае успеха известного уравнения достаточно, чтобы определить распределение частот, и таблица данных не потребуется. Кроме того, уравнение помогает интерполяции и экстраполяции. Однако следует проявлять осторожность при экстраполяции кумулятивного распределения частот, поскольку это может быть источником ошибок. Одна из возможных ошибок заключается в том, что распределение частот больше не соответствует выбранному распределению вероятностей за пределами диапазона наблюдаемых данных.

Любое уравнение, которое дает значение 1 при интегрировании от нижнего предела до верхнего предела, хорошо согласующегося с диапазоном данных, может использоваться в качестве распределения вероятностей для аппроксимации. Примеры вероятностных распределений, которые можно использовать, можно найти в разделе «Распределения вероятностей» .

Распределения вероятностей можно подобрать несколькими методами, [2] например:

Применение обоих типов методов, например,

часто показывает, что ряд распределений хорошо соответствуют данным и не дают существенно различающихся результатов, при этом различия между ними могут быть небольшими по сравнению с шириной доверительного интервала. [2] Это показывает, что может быть сложно определить, какое распределение дает лучшие результаты. Например, примерно нормально распределенные наборы данных могут быть адаптированы к большому количеству различных распределений вероятностей. [4] , в то время как отрицательно асимметричные распределения могут быть аппроксимированы квадратно-нормальным и зеркальным распределениями Гамбеля. [5]

Совокупное распределение частот с разрывом

Прерывистые распределения

Иногда можно подогнать один тип распределения вероятностей к нижней части диапазона данных, а другой тип — к верхней части, разделенной точкой останова, в результате чего общее соответствие улучшается.

На рисунке приведен пример полезного введения такого прерывистого распределения для данных об осадках на севере Перу, где климат подвержен поведению тихоокеанского течения Эль-Ниньо . Когда Ниньо простирается на юг Эквадора и впадает в океан вдоль побережья Перу, климат Северного Перу становится тропическим и влажным. Когда Ниньо не достигает Перу, климат полузасушливый. По этой причине более высокие осадки имеют другое распределение частоты, чем более низкие. [6]

Прогноз

Неопределенность

Когда кумулятивное распределение частот получается на основе набора данных, можно задаться вопросом, можно ли его использовать для прогнозов. [7] Например, учитывая распределение речных расходов за 1950–2000 годы, можно ли это распределение использовать для прогнозирования того, как часто определенный речной расход будет превышен в 2000–2050 годах? Ответ — да, при условии, что условия окружающей среды не изменятся. Если условия окружающей среды меняются, например, изменения в инфраструктуре водосбора реки или в характере осадков из-за климатических изменений, прогноз на основе исторических данных подвержен систематической ошибке . Даже при отсутствии систематической ошибки может иметь место случайная ошибка , поскольку случайно наблюдаемые расходы в период 1950–2000 годов могли быть выше или ниже нормальных, в то время как, с другой стороны, расходы с 2000 по 2050 год случайно могут быть ниже. или выше нормы. Вопросы, связанные с этим, были исследованы в книге «Черный лебедь» .

Доверительные интервалы

Биномиальные распределения для Pc = 0,1 (синий), 0,5 (зеленый) и 0,8 (красный) в выборке размером N = 20 . Распределение симметрично только при Pc = 0,5.
90%-ные биномиальные доверительные интервалы по логарифмической шкале.

Теория вероятностей может помочь оценить диапазон, в котором может находиться случайная ошибка. В случае накопительной частоты есть только две возможности: превышено определенное опорное значение X или не превышено. Сумма частоты превышений и совокупной частоты составляет 1 или 100%. Следовательно, биномиальное распределение можно использовать для оценки диапазона случайной ошибки.

Согласно нормальной теории, биномиальное распределение можно аппроксимировать и для больших N стандартного отклонения Sd можно рассчитать следующим образом:

Sd = Pc (1 - Pc )/ N

где Pcсовокупная вероятность , а N — количество данных. Видно, что стандартное отклонение Sd уменьшается с увеличением числа наблюдений N.

Для определения доверительного интервала Pc используется критерий Стьюдента ( t ). Значение t зависит от количества данных и уровня достоверности оценки доверительного интервала. Затем нижний ( L ) и верхний ( U ) доверительные пределы Pc в симметричном распределении находятся из:

L = PctSd
U = Pc + tSd

Это известно как интервал Вальда . [8] Однако биномиальное распределение симметрично только относительно среднего значения, когда Pc = 0,5 , но оно становится асимметричным и все более и более асимметричным, когда Pc приближается к 0 или 1. Следовательно, в приближении Pc и 1− Pc могут использоваться в качестве весов. Факторы отнесения t.Sd к L и U  :

L = Pc - 2⋅ PcтSd
U = Pc + 2⋅(1− Pc )⋅ tSd

откуда видно, что эти выражения для Pc = 0,5 такие же, как и предыдущие.

Примечания

Период возврата

Периоды возврата и пояс уверенности. Кривая периодов доходности увеличивается в геометрической прогрессии.

Кумулятивную вероятность Pc можно также назвать вероятностью непревышения . Вероятность превышения Pe (также называемая функцией выживания ) находится из:

Пе = 1 − ПК

Период повторяемости T определяется как:

Т = 1/ Пе

и указывает ожидаемое количество наблюдений, которые необходимо провести еще раз, чтобы найти значение изучаемой переменной, превышающее значение, используемое для T .
Верхний ( TU ) и нижний ( TL ) доверительные пределы периодов повторяемости можно найти соответственно как :

Т U знак равно 1 / (1− U )
Т L знак равно 1 / (1− L )

Для экстремальных значений исследуемой переменной U близко к 1, а небольшие изменения U вызывают большие изменения T U . Следовательно, расчетный период повторяемости экстремальных значений подвержен большой случайной ошибке. Более того, доверительные интервалы оказались справедливыми для долгосрочного прогноза. Для прогнозов на более короткий срок доверительные интервалы UL и T UT L на самом деле могут быть шире. Вместе с ограниченной уверенностью (менее 100%), используемой в t-критерии , это объясняет, почему, например, 100-летнее количество осадков может выпадать дважды за 10 лет.

Девять кривых повторяемости 50-летних выборок из теоретического 1000-летнего периода (базовая линия)

Строгое понятие периода повторяемости на самом деле имеет смысл только тогда, когда оно касается явления, зависящего от времени, такого как точечные осадки. Тогда период возврата соответствует ожидаемому времени ожидания до тех пор, пока превышение не произойдет снова. Период повторяемости имеет то же измерение, что и время, для которого каждое наблюдение является репрезентативным. Например, когда наблюдения касаются ежедневных осадков, период повторяемости выражается в днях, а для годовых осадков – в годах.

Потребность в поясах доверия

На рисунке показано изменение, которое может возникнуть при получении выборок переменной, соответствующей определенному распределению вероятностей. Данные предоставил Бенсон. [1]

Доверительный пояс вокруг экспериментальной кривой совокупной частоты или периода повторяемости дает представление об области, в которой можно найти истинное распределение.

Кроме того, уточняется, что экспериментально найденное наиболее подходящее распределение вероятностей может отклоняться от истинного распределения.

Гистограмма

Гистограмма, полученная на основе адаптированного распределения кумулятивной вероятности.
Гистограмма и функция плотности вероятности, полученные на основе кумулятивного распределения вероятностей, для логистического распределения .

Наблюдаемые данные могут быть организованы в классы или группы с порядковым номером k . Каждая группа имеет нижний предел ( Lk ) и верхний предел ( Uk ). Когда класс ( k ) содержит данные m k и общее количество данных равно N , тогда относительная частота класса или группы находится из:

Fg ( L k < XU k ) знак равно м k / N

или кратко:

Fg k = м / Н

или в процентах:

(%) = 100 м / Н

Представление частот всех классов дает распределение частот или гистограмму . Гистограммы, даже если они составлены из одной и той же записи, различаются для разных пределов классов.

Гистограмму также можно получить на основе подобранного кумулятивного распределения вероятностей:

Pg k знак равно Pc ( U k ) - Pc ( L k )

Между Fg k и Pg k может быть разница из-за отклонений наблюдаемых данных от подобранного распределения (см. синий рисунок).

Часто желательно объединить гистограмму с функцией плотности вероятности , как показано на черно-белом рисунке.

Смотрите также

Рекомендации

  1. ^ аб Бенсон, Массачусетс, 1960. Характеристики частотных кривых, основанные на теоретических 1000-летних данных. В: Т.Далримпл (ред.), Анализ частоты наводнений. Документ Геологической службы США по водоснабжению 1543-A, стр. 51–71.
  2. ^ abcd Частотный и регрессионный анализ . Глава 6 в: HP Ritzema (изд., 1994), Принципы и применение дренажа , Publ. 16, стр. 175–224, Международный институт мелиорации и улучшения земель (ILRI), Вагенинген, Нидерланды. ISBN  90-70754-33-9 . Бесплатная загрузка с веб-страницы [1] под номером. 12 или напрямую в формате PDF: [2]
  3. ^ Дэвид Вос, Подбор распределений к данным
  4. ^ Пример примерно нормально распределенного набора данных, к которому можно подогнать большое количество различных распределений вероятностей, [3]
  5. ^ Скошенные влево (отрицательно) частотные гистограммы можно подогнать к квадратичным нормальным или зеркальным функциям вероятности Гамбеля. [4]
  6. ^ CumFreq, программа для совокупного частотного анализа с доверительными интервалами, периодами повторяемости и опцией разрыва. Бесплатная загрузка с: [5]
  7. ^ Сильвия Маскиокки, 2012, Статистические методы в физике элементарных частиц, лекция 11, зимний семестр 2012/13, GSI Дармштадт. [6]
  8. ^ Уолд, А.; Дж. Вулфовиц (1939). «Доверительные пределы для непрерывных функций распределения». Анналы математической статистики . 10 (2): 105–118. дои : 10.1214/aoms/1177732209 .
  9. ^ Гош, БК (1979). «Сравнение некоторых приблизительных доверительных интервалов для биномиального параметра». Журнал Американской статистической ассоциации . 74 (368): 894–900. дои : 10.1080/01621459.1979.10481051.
  10. ^ Блит, ЧР; Х.А. Стилл (1983). «Биномиальные доверительные интервалы». Журнал Американской статистической ассоциации . 78 (381): 108–116. дои : 10.1080/01621459.1983.10477938.
  11. ^ Агрести, А.; Б. Каффо (2000). «Простые и эффективные доверительные интервалы для пропорций и различий пропорций получаются в результате сложения двух успехов и двух неудач». Американский статистик . 54 (4): 280–288. дои : 10.1080/00031305.2000.10474560. S2CID  18880883.
  12. ^ Уилсон, Э.Б. (1927). «Вероятный вывод, закон последовательности и статистический вывод». Журнал Американской статистической ассоциации . 22 (158): 209–212. дои : 10.1080/01621459.1927.10502953.
  13. ^ Хогг, Р.В. (2001). Вероятность и статистический вывод (6-е изд.). Прентис-Холл, Нью-Джерси: река Аппер-Седл.