stringtranslate.com

Подбор вероятностного распределения

Подбор распределения вероятностей или просто подбор распределения — это подбор распределения вероятностей к ряду данных, касающихся повторных измерений переменного явления. Целью подбора распределения является предсказание вероятности или прогнозирования частоты возникновения величины явления в определенном интервале .

Существует множество распределений вероятностей (см. список распределений вероятностей ), из которых некоторые можно более точно подогнать к наблюдаемой частоте данных, чем другие, в зависимости от характеристик явления и распределения. Предполагается, что распределение, дающее точное соответствие, приведет к хорошим прогнозам. Поэтому при подборе распределения необходимо выбрать распределение, которое хорошо соответствует данным.

Выбор дистрибутива

Различные формы симметричного нормального распределения в зависимости от среднего значения µ и дисперсии σ  2

Выбор подходящего распределения зависит от наличия или отсутствия симметрии набора данных относительно центральной тенденции .

Симметричные распределения

Когда данные симметрично распределены вокруг среднего значения, а частота появления данных дальше от среднего значения уменьшается, можно, например, выбрать нормальное распределение , логистическое распределение или t-распределение Стьюдента . Первые два очень похожи, тогда как последний, с одной степенью свободы, имеет «более тяжелые хвосты», что означает, что значения, находящиеся дальше от среднего значения, встречаются относительно чаще (т.е. эксцесс выше ). Распределение Коши также симметрично.

Скос распределения вправо

Перекос влево и вправо

Когда большие значения имеют тенденцию быть дальше от среднего значения, чем меньшие значения, наблюдается асимметрия распределения вправо (т. е. имеется положительная асимметрия ), можно, например, выбрать логарифмически нормальное распределение (т. е. логарифмические значения данные обычно распределяются ), логарифмически-логистическое распределение (т.е. логарифмические значения данных следуют логистическому распределению ), распределение Гамбеля , экспоненциальное распределение , распределение Парето , распределение Вейбулла , распределение Берра или распределение Фреше . Последние четыре распределения ограничены слева.

Скос распределения влево

Когда меньшие значения имеют тенденцию быть дальше от среднего значения, чем большие значения, наблюдается асимметрия распределения влево (т. е. имеется отрицательная асимметрия), можно, например, выбрать квадратично -нормальное распределение (т. е. нормальное распределение, применяемое к квадрат значений данных), [1] инвертированное (зеркальное) распределение Гамбеля, [1] распределение Дагама ( зеркальное распределение Берра) или распределение Гомпертца , ограниченное слева.

Техники примерки

Существуют следующие методы подбора распределения: [2]

Кумулятивное распределение Гамбеля, аппроксимированное максимальным количеством осадков за октябрь за один день в Суринаме , с помощью метода регрессии с добавленным доверительным интервалом с использованием cumfreq

Обобщение распределений

Обычно данные преобразуются логарифмически, чтобы соответствовать симметричным распределениям (таким как нормальное и логистическое ) к данным, подчиняющимся распределению, которое имеет положительный сдвиг (т. е. сдвиг вправо, со средним > режимом и с правым хвостом, который длиннее, чем левый хвост), см. логнормальное распределение и логлогистическое распределение . Аналогичного эффекта можно добиться, извлекая квадратный корень из данных.

Чтобы подогнать симметричное распределение к данным, подчиняющимся отрицательно перекошенному распределению (т.е. перекошенному влево, со средним < mode и с правым хвостом, который короче левого), можно использовать квадраты значений данных для достижения подходит.

В более общем смысле можно возвести данные в степень p , чтобы подогнать симметричные распределения к данным, подчиняющимся распределению любой асимметрии, при этом p < 1, когда асимметрия положительна, и p > 1, когда асимметрия отрицательна. Оптимальное значение p необходимо найти численным методом . Численный метод может состоять в предположении диапазона значений p , затем многократном применении процедуры подбора распределения для всех предполагаемых значений p и, наконец, выборе значения p , для которого сумма квадратов отклонений рассчитанных вероятностей от измеренных частот ( chi Squared ) минимально, как это сделано в CumFreq .

Обобщение повышает гибкость вероятностных распределений и увеличивает их применимость при подборе распределений. [6]

Универсальность обобщения позволяет, например, согласовать приблизительно нормально распределенные наборы данных с большим количеством различных вероятностных распределений, [7] в то время как отрицательно асимметричные распределения могут быть адаптированы к квадратно-нормальному и зеркальному распределениям Гамбеля. [8]

Инверсия асимметрии

(A) Перекос распределения вероятностей Гамбеля вправо и (B) Зеркальный перекос распределения Гамбеля влево

Перекошенные распределения можно инвертировать (или отзеркалить), заменив в математическом выражении кумулятивную функцию распределения (F) ее дополнением: F'=1-F, получив дополнительную функцию распределения (также называемую функцией выживания ), дающую зеркальное отображение. . Таким образом, распределение, смещенное вправо, преобразуется в распределение, смещенное влево, и наоборот.

Метод инверсии асимметрии увеличивает количество вероятностных распределений, доступных для аппроксимации распределения, и расширяет возможности аппроксимации распределения.

Сдвиг раздач

Некоторые распределения вероятностей, такие как экспоненциальное , не поддерживают отрицательные значения данных ( X ). Тем не менее, при наличии отрицательных данных такие распределения все равно можно использовать, заменяя X на Y = X - Xm , где Xm — минимальное значение X. Эта замена представляет собой сдвиг распределения вероятностей в положительном направлении, т.е. вправо, поскольку Xm отрицательно. После завершения подбора распределения Y соответствующие значения X находятся из X = Y + Xm , что представляет собой обратный сдвиг распределения в отрицательном направлении, т.е. влево.
Техника сдвига распределения увеличивает шанс найти правильно подходящее распределение вероятностей.

Составные дистрибутивы

Составное (разрывное) распределение с доверительным поясом [9]

Существует возможность использовать два разных распределения вероятностей: одно для нижнего диапазона данных, а другое для более высокого, например, распределение Лапласа . Диапазоны разделены точкой останова. Использование таких составных (разрывных) распределений вероятностей может оказаться целесообразным, когда данные изучаемого явления получены при двух наборах различных условий. [6]

Неопределенность прогноза

Анализ неопределенности с помощью доверительных поясов с использованием биномиального распределения [10]

Прогнозы событий, основанные на подобранных распределениях вероятностей, подвержены неопределенности , которая возникает из-за следующих условий:

Вариации девяти кривых периода повторяемости 50-летних выборок от теоретической 1000-летней записи (базовая линия), данные Бенсона [11]

Оценку неопределенности в первом и втором случае можно получить с помощью биномиального распределения вероятностей, используя, например, вероятность превышения Pe (т.е. вероятность того, что событие X превышает эталонное значение Xr для X ) и вероятность невыполнения -превышение Pn (т.е. вероятность того, что событие X меньше или равно эталонному значению Xr , это также называется кумулятивной вероятностью ). В этом случае есть только две возможности: либо превышение, либо непревышение. Эта двойственность является причиной применимости биномиального распределения.

С помощью биномиального распределения можно получить интервал прогнозирования . Такой интервал также оценивает риск неудачи, т.е. вероятность того, что прогнозируемое событие все равно останется за пределами доверительного интервала. Анализ достоверности или риска может включать период повторяемости T=1/Pe , как это делается в гидрологии .

Дисперсия байесовских функций вероятности

Байесовский подход можно использовать для подбора модели, имеющей априорное распределение параметра . Если у вас есть выборки , которые независимо взяты из основного распределения, можно получить так называемое апостериорное распределение . Эту апостериорную функцию можно использовать для обновления функции массы вероятности для новой выборки с учетом наблюдений . Получаем

.

Также можно определить дисперсию вновь полученной функции вероятности. Дисперсия байесовской функции массы вероятности может быть определена как

.

Это выражение для дисперсии можно существенно упростить (при условии, что выборки составлены независимо). Определение «массовой функции самовероятности» как

,

для дисперсии получаем [12]

.

Выражение для дисперсии включает дополнительную подгонку, включающую интересующую выборку.

Список вероятностных распределений, ранжированных по степени соответствия. [13]
Гистограмма и плотность вероятности набора данных, соответствующего распределению GEV

Хорошая посадка

Ранжируя степень соответствия различных распределений, можно получить представление о том, какое распределение приемлемо, а какое нет.

Гистограмма и функция плотности

Из кумулятивной функции распределения (CDF) можно получить гистограмму и функцию плотности вероятности (PDF).

Смотрите также

Рекомендации

  1. ^ ab Скошенные влево (отрицательно) частотные гистограммы можно подогнать к квадратным нормальным или зеркальным функциям вероятности Гамбеля. На линии: [1]
  2. ^ Частотный и регрессионный анализ . Глава 6 в: HPRitzema (изд., 1994), Принципы и применение дренажа , Publ. 16, стр. 175–224, Международный институт мелиорации и улучшения земель (ILRI), Вагенинген, Нидерланды. ISBN  9070754339 . Бесплатная загрузка с веб-страницы [2] под номером. 12 или напрямую в формате PDF: [3]
  3. ^ Х. Крамер, «Математические методы статистики», Princeton Univ. Пресс (1946)
  4. ^ Хоскинг, JRM (1990). «L-моменты: анализ и оценка распределений с использованием линейных комбинаций порядковой статистики». Журнал Королевского статистического общества, серия B. 52 (1): 105–124. JSTOR  2345653.
  5. ^ Олдрич, Джон (1997). «РА Фишер и создание максимальной вероятности 1912–1922». Статистическая наука . 12 (3): 162–176. дои : 10.1214/ss/1030037906 . МР  1617519.
  6. ^ Программное обеспечение abc для обобщенных и составных вероятностных распределений. Международный журнал математических и вычислительных методов, 4, 1–9 [4] или [5]
  7. ^ Пример примерно нормально распределенного набора данных, к которому можно подогнать большое количество различных распределений вероятностей, [6]
  8. ^ Скошенные влево (отрицательно) частотные гистограммы можно подогнать к квадратичным нормальным или зеркальным функциям вероятности Гамбеля. [7]
  9. ^ Введение в составные распределения вероятностей
  10. ^ Прогнозы частоты и их биномиальные доверительные пределы. В: Международная комиссия по ирригации и дренажу, Специальная техническая сессия: Экономические аспекты борьбы с наводнениями и неструктурные меры, Дубровник, Югославия, 1988. Онлайн.
  11. ^ Бенсон, Массачусетс, 1960. Характеристики кривых частоты, основанные на теоретических 1000-летних данных. В: Т.Далримпл (ред.), Анализ частоты наводнений. Документ Геологической службы США по водоснабжению, 1543-A, стр. 51–71.
  12. ^ Пейлман; Линнарц (2023). «Дисперсия правдоподобия данных». Материалы SITB 2023 : 34.
  13. ^ Программное обеспечение для подбора распределения вероятностей.