Подгонка распределения вероятностей

Подгонка распределения вероятностей или просто подгонка распределения — это подгонка распределения вероятностей к ряду данных, касающихся повторных измерений переменного явления. Цель подгонки распределения — предсказать вероятность или прогнозировать частоту появления величины явления в определенном интервале.

Существует множество распределений вероятностей (см. список распределений вероятностей ), некоторые из которых могут быть более точно подобраны к наблюдаемой частоте данных, чем другие, в зависимости от характеристик явления и распределения. Распределение, дающее близкое соответствие, должно приводить к хорошим прогнозам. Поэтому при подгонке распределения необходимо выбрать распределение, которое хорошо подходит к данным.

Выбор дистрибуции

Выбор подходящего распределения зависит от наличия или отсутствия симметрии набора данных относительно центральной тенденции .

Симметричное распределение

Когда данные симметрично распределены вокруг среднего значения, а частота появления данных, более удаленных от среднего, уменьшается, можно, например, выбрать нормальное распределение , логистическое распределение или распределение Стьюдента . Первые два очень похожи, тогда как последнее, с одной степенью свободы, имеет «более тяжелые хвосты», что означает, что значения, более удаленные от среднего, встречаются относительно чаще (т. е. эксцесс выше). Распределение Коши также симметрично.

Распределения смещены вправо

Когда большие значения имеют тенденцию быть дальше от среднего, чем меньшие значения, то имеем асимметричное распределение вправо (т. е. имеет место положительная асимметрия ), можно, например, выбрать логнормальное распределение (т. е. логарифмические значения данных распределены нормально ), логлогистическое распределение (т. е. логарифмические значения данных следуют логистическому распределению ), распределение Гумбеля , экспоненциальное распределение , распределение Парето , распределение Вейбулла , распределение Берра или распределение Фреше . Последние четыре распределения ограничены слева.

Распределения смещены влево

Когда меньшие значения, как правило, находятся дальше от среднего, чем большие значения, то имеет место смещение распределения влево (т. е. отрицательная асимметрия). Например, можно выбрать квадратично-нормальное распределение (т. е. нормальное распределение, примененное к квадрату значений данных), ^[1] инвертированное (зеркальное) распределение Гумбеля, ^[1] распределение Дагума (зеркальное распределение Берра) или распределение Гомпертца , которое ограничено слева.

Методы установки

Существуют следующие методы подбора распределения: ^[2]

Параметрические методы , с помощью которых параметры распределения вычисляются из ряда данных. ^[3] Параметрические методы:
- Метод моментов
- Оценка максимального расстояния
- Метод L-моментов ^[4]
- Метод максимального правдоподобия ^[5]

Кумулятивное распределение Гамбеля, подобранное по максимальному количеству осадков за один день в октябре в Суринаме методом регрессии с добавлением **доверительного интервала** с использованием cumfreq

Положение графика плюс регрессионный анализ , использующий преобразование кумулятивной функции распределения , так что между кумулятивной вероятностью и значениями данных, которые также могут нуждаться в преобразовании, в зависимости от выбранного распределения вероятностей, находится линейная связь . В этом методе кумулятивная вероятность должна быть оценена по положению графика ^[6]

Обобщение распределений

Обычно данные преобразуются логарифмически, чтобы подогнать симметричные распределения (например, нормальное и логистическое ) к данным, подчиняющимся распределению, которое имеет положительную асимметрию (т. е. асимметрию вправо, со средним значением > моды и с правым хвостом, который длиннее левого хвоста), см. логнормальное распределение и логлогистическое распределение . Аналогичного эффекта можно добиться, извлекая квадратный корень из данных.

Чтобы подобрать симметричное распределение к данным, подчиняющимся отрицательно скошенному распределению (т.е. скошенным влево, со средним значением < моды и с правым хвостом, который короче левого), можно использовать квадраты значений данных для выполнения подгонки.

В более общем случае можно возвести данные в степень p, чтобы подогнать симметричные распределения к данным, подчиняющимся распределению любой асимметрии, при этом p < 1, когда асимметрия положительная, и p > 1, когда асимметрия отрицательная. Оптимальное значение p должно быть найдено численным методом . Численный метод может состоять из предположения о диапазоне значений p , затем многократного применения процедуры подгонки распределения для всех предполагаемых значений p и, наконец, выбора значения p, для которого сумма квадратов отклонений вычисленных вероятностей от измеренных частот ( хи-квадрат ) минимальна, как это делается в CumFreq .

Обобщение повышает гибкость распределений вероятностей и увеличивает их применимость при подгонке распределений. ^[6]

Универсальность обобщения позволяет, например, подогнать приблизительно нормально распределенные наборы данных под большое количество различных распределений вероятностей ^[7] , в то время как отрицательно скошенные распределения можно подогнать под квадратично-нормальные и зеркальные распределения Гумбеля ^{[8] .}

Инверсия асимметрии

Перекошенные распределения можно инвертировать (или зеркально отобразить), заменив в математическом выражении кумулятивную функцию распределения (F) ее дополнением: F'=1-F, получив дополнительную функцию распределения (также называемую функцией выживания ), которая дает зеркальное изображение. Таким образом, распределение, перекошенное вправо, преобразуется в распределение, перекошенное влево, и наоборот.

Метод инверсии асимметрии увеличивает количество распределений вероятностей, доступных для подгонки распределения, и расширяет возможности подгонки распределения.

Смещение распределений

Некоторые распределения вероятностей, такие как экспоненциальное , не поддерживают отрицательные значения данных ( X ). Тем не менее, когда присутствуют отрицательные данные, такие распределения все еще можно использовать, заменяя X на Y = X - Xm , где Xm - минимальное значение X. Эта замена представляет собой сдвиг распределения вероятностей в положительном направлении, т. е. вправо, поскольку Xm отрицательно. После завершения подгонки распределения Y соответствующие значения X находятся из X = Y + Xm , что представляет собой обратный сдвиг распределения в отрицательном направлении, т. е. влево.
Техника сдвига распределения увеличивает шанс найти правильно подходящее распределение вероятностей.

Композитные распределения

Композитное (прерывистое) распределение с доверительным интервалом ^[9]

Существует возможность использовать два различных распределения вероятностей, одно для нижнего диапазона данных, а другое для верхнего, как, например, распределение Лапласа . Диапазоны разделены точкой разрыва. Использование таких составных (прерывных) распределений вероятностей может быть уместным, когда данные изучаемого явления были получены при двух наборах различных условий. ^[6]

Неопределенность прогноза

Анализ неопределенности с доверительными поясами с использованием биномиального распределения ^[10]

Прогнозы событий, основанные на подобранных распределениях вероятностей, подвержены неопределенности , которая возникает из-за следующих условий:

Истинное распределение вероятностей событий может отличаться от подобранного распределения, поскольку наблюдаемые ряды данных могут не полностью отражать реальную вероятность возникновения явления из-за случайной ошибки.
Возникновение событий в другой ситуации или в будущем может отклоняться от подобранного распределения, поскольку это возникновение также может быть подвержено случайной ошибке.
Изменение условий окружающей среды может привести к изменению вероятности возникновения явления.

Изменения девяти кривых *периодов повторяемости* 50-летних выборок из теоретической 1000-летней записи (базовая линия), данные Бенсона ^[11]

Оценку неопределенности в первом и втором случае можно получить с помощью биномиального распределения вероятностей, используя, например, вероятность превышения Pe (т. е. вероятность того, что событие X больше, чем опорное значение Xr для X ) и вероятность непревышения Pn (т. е. вероятность того, что событие X меньше или равно опорному значению Xr , это также называется кумулятивной вероятностью ). В этом случае есть только две возможности: либо есть превышение, либо есть непревышение. Эта двойственность является причиной того, что биномиальное распределение применимо.

С помощью биномиального распределения можно получить интервал прогнозирования . Такой интервал также оценивает риск неудачи, т.е. вероятность того, что предсказанное событие все еще останется за пределами доверительного интервала. Анализ достоверности или риска может включать период повторяемости T=1/Pe, как это делается в гидрологии .

Дисперсияизбайесовскийподобранные функции вероятности

Байесовский подход может быть использован для подгонки модели , имеющей априорное распределение для параметра . Когда есть выборки , которые независимо взяты из базового распределения, то можно вывести так называемое апостериорное распределение . Это апостериорное распределение может быть использовано для обновления функции массы вероятности для новой выборки с учетом наблюдений , получаем $P(x|\theta )$ $P(\theta)$ $\тета$ $X$ $P(\theta |X)$ $x$ $X$

$P_{\theta }(x|X):=\int d\theta \ P(x|\theta )\ P(\theta |X)$ .

Дисперсия вновь полученной функции массы вероятности также может быть определена. Дисперсия для байесовской функции массы вероятности может быть определена как

$\sigma _{P_{\theta }(x|X)}^{2}:=\int d\theta \ \left[P(x|\theta )-P_{\theta }(x|X)\right]^{2}\ P(\theta |X)$ .

Это выражение для дисперсии можно существенно упростить (предполагая, что выборки взяты независимо). Определение "функции массы собственной вероятности" как

$P_{\theta }(x|\left\{X,x\right\})=\int d\theta \ P(x|\theta )\ P(\theta |\left\{X,x\right\})$ ,

получаем для дисперсии ^[12]

$\sigma _{P_{\theta }(x|X)}^{2}=P_{\theta }(x|X)\left[P_{\theta }(x|\left\{X,x\right\})-P_{\theta }(x|X)\right]$ .

Выражение для дисперсии включает дополнительную подгонку, включающую интересующую выборку. $x$

Список распределений вероятностей, ранжированных по степени соответствия ^[13]

Гистограмма и плотность вероятности набора данных, соответствующих распределению GEV

Качество соответствия

Оценивая степень соответствия различных распределений, можно получить представление о том, какое распределение приемлемо, а какое нет.

Гистограмма и функция плотности

Из кумулятивной функции распределения (CDF) можно вывести гистограмму и функцию плотности вероятности (PDF).

Смотрите также

Ссылки

^ ab Лево (отрицательно) скошенные гистограммы частот можно подогнать под квадратные нормальные или зеркальные функции вероятности Гумбеля. Онлайн: [1]
^ Анализ частоты и регрессии . Глава 6 в: HPRitzema (ред., 1994), Принципы и применение дренажа , Опубл. 16, стр. 175–224, Международный институт мелиорации и улучшения земель (ILRI), Вагенинген, Нидерланды. ISBN 9070754339. Бесплатная загрузка с веб-страницы [2] под номером 12 или напрямую в формате PDF: [3]
^ Х. Крамер, "Математические методы статистики", Princeton Univ. Press (1946)
^ Хоскинг, Дж. Р. М. (1990). «L-моменты: анализ и оценка распределений с использованием линейных комбинаций порядковых статистик». Журнал Королевского статистического общества, Серия B. 52 ( 1): 105–124. JSTOR 2345653.
^ Олдрич, Джон (1997). «RA Fisher и создание максимального правдоподобия 1912–1922». Статистическая наука . 12 (3): 162–176. doi : 10.1214/ss/1030037906 . MR 1617519.
^ abc Software for Generalized and Composite Probability Distributions. Международный журнал математических и вычислительных методов, 4, 1-9 [4] или [5]
^ Пример приблизительно нормально распределенного набора данных, к которому можно подогнать большое количество различных распределений вероятностей, [6]
^ Лево- (отрицательно) скошенные гистограммы частот можно подогнать под квадратные нормальные или зеркальные функции вероятности Гумбеля. [7]
^ Введение в составные распределения вероятностей
^ Прогнозы частоты и их биномиальные доверительные пределы. В: Международная комиссия по ирригации и дренажу, Специальная техническая сессия: Экономические аспекты контроля за наводнениями и неструктурные меры, Дубровник, Югославия, 1988. Онлайн
^ Бенсон, MA 1960. Характеристики кривых частоты, основанные на теоретической 1000-летней записи. В: T.Dalrymple (ред.), Анализ частоты наводнений. Документ Геологической службы США по водоснабжению, 1543-A, стр. 51-71.
^ Пейлман; Линнарц (2023). «Дисперсия правдоподобия данных». Труды SITB 2023 : 34.
^ Программное обеспечение для подгонки распределения вероятностей