Подбор распределения вероятностей или просто подбор распределения — это подбор распределения вероятностей к ряду данных, касающихся повторных измерений переменного явления. Целью подбора распределения является предсказание вероятности или прогнозирования частоты возникновения величины явления в определенном интервале .
Существует множество распределений вероятностей (см. список распределений вероятностей ), из которых некоторые можно более точно подогнать к наблюдаемой частоте данных, чем другие, в зависимости от характеристик явления и распределения. Предполагается, что распределение, дающее точное соответствие, приведет к хорошим прогнозам. Поэтому при подборе распределения необходимо выбрать распределение, которое хорошо соответствует данным.
Выбор подходящего распределения зависит от наличия или отсутствия симметрии набора данных относительно центральной тенденции .
Симметричные распределения
Когда данные симметрично распределены вокруг среднего значения, а частота появления данных дальше от среднего значения уменьшается, можно, например, выбрать нормальное распределение , логистическое распределение или t-распределение Стьюдента . Первые два очень похожи, тогда как последний, с одной степенью свободы, имеет «более тяжелые хвосты», что означает, что значения, находящиеся дальше от среднего значения, встречаются относительно чаще (т.е. эксцесс выше ). Распределение Коши также симметрично.
Скос распределения вправо
Когда большие значения имеют тенденцию быть дальше от среднего значения, чем меньшие значения, наблюдается асимметрия распределения вправо (т. е. имеется положительная асимметрия ), можно, например, выбрать логарифмически нормальное распределение (т. е. логарифмические значения данные обычно распределяются ), логарифмически-логистическое распределение (т.е. логарифмические значения данных следуют логистическому распределению ), распределение Гамбеля , экспоненциальное распределение , распределение Парето , распределение Вейбулла , распределение Берра или распределение Фреше . Последние четыре распределения ограничены слева.
Скос распределения влево
Когда меньшие значения имеют тенденцию быть дальше от среднего значения, чем большие значения, наблюдается асимметрия распределения влево (т. е. имеется отрицательная асимметрия), можно, например, выбрать квадратично -нормальное распределение (т. е. нормальное распределение, применяемое к квадрат значений данных), [1] инвертированное (зеркальное) распределение Гамбеля, [1] распределение Дагама ( зеркальное распределение Берра) или распределение Гомпертца , ограниченное слева.
Существуют следующие методы подбора распределения: [2]
Обычно данные преобразуются логарифмически, чтобы соответствовать симметричным распределениям (таким как нормальное и логистическое ) к данным, подчиняющимся распределению, которое имеет положительный сдвиг (т. е. сдвиг вправо, со средним > режимом и с правым хвостом, который длиннее, чем левый хвост), см. логнормальное распределение и логлогистическое распределение . Аналогичного эффекта можно добиться, извлекая квадратный корень из данных.
Чтобы подогнать симметричное распределение к данным, подчиняющимся отрицательно перекошенному распределению (т.е. перекошенному влево, со средним < mode и с правым хвостом, который короче левого), можно использовать квадраты значений данных для достижения подходит.
В более общем смысле можно возвести данные в степень p , чтобы подогнать симметричные распределения к данным, подчиняющимся распределению любой асимметрии, при этом p < 1, когда асимметрия положительна, и p > 1, когда асимметрия отрицательна. Оптимальное значение p необходимо найти численным методом . Численный метод может состоять в предположении диапазона значений p , затем многократном применении процедуры подбора распределения для всех предполагаемых значений p и, наконец, выборе значения p , для которого сумма квадратов отклонений рассчитанных вероятностей от измеренных частот ( chi Squared ) минимально, как это сделано в CumFreq .
Обобщение повышает гибкость вероятностных распределений и увеличивает их применимость при подборе распределений. [6]
Универсальность обобщения позволяет, например, согласовать приблизительно нормально распределенные наборы данных с большим количеством различных вероятностных распределений, [7] в то время как отрицательно асимметричные распределения могут быть адаптированы к квадратно-нормальному и зеркальному распределениям Гамбеля. [8]
Перекошенные распределения можно инвертировать (или отзеркалить), заменив в математическом выражении кумулятивную функцию распределения (F) ее дополнением: F'=1-F, получив дополнительную функцию распределения (также называемую функцией выживания ), дающую зеркальное отображение. . Таким образом, распределение, смещенное вправо, преобразуется в распределение, смещенное влево, и наоборот.
Метод инверсии асимметрии увеличивает количество вероятностных распределений, доступных для аппроксимации распределения, и расширяет возможности аппроксимации распределения.
Некоторые распределения вероятностей, такие как экспоненциальное , не поддерживают отрицательные значения данных ( X ). Тем не менее, при наличии отрицательных данных такие распределения все равно можно использовать, заменяя X на Y = X - Xm , где Xm — минимальное значение X. Эта замена представляет собой сдвиг распределения вероятностей в положительном направлении, т.е. вправо, поскольку Xm отрицательно. После завершения подбора распределения Y соответствующие значения X находятся из X = Y + Xm , что представляет собой обратный сдвиг распределения в отрицательном направлении, т.е. влево.
Техника сдвига распределения увеличивает шанс найти правильно подходящее распределение вероятностей.
Существует возможность использовать два разных распределения вероятностей: одно для нижнего диапазона данных, а другое для более высокого, например, распределение Лапласа . Диапазоны разделены точкой останова. Использование таких составных (разрывных) распределений вероятностей может оказаться целесообразным, когда данные изучаемого явления получены при двух наборах различных условий. [6]
Прогнозы событий, основанные на подобранных распределениях вероятностей, подвержены неопределенности , которая возникает из-за следующих условий:
Оценку неопределенности в первом и втором случае можно получить с помощью биномиального распределения вероятностей, используя, например, вероятность превышения Pe (т.е. вероятность того, что событие X превышает эталонное значение Xr для X ) и вероятность невыполнения -превышение Pn (т.е. вероятность того, что событие X меньше или равно эталонному значению Xr , это также называется кумулятивной вероятностью ). В этом случае есть только две возможности: либо превышение, либо непревышение. Эта двойственность является причиной применимости биномиального распределения.
С помощью биномиального распределения можно получить интервал прогнозирования . Такой интервал также оценивает риск неудачи, т.е. вероятность того, что прогнозируемое событие все равно останется за пределами доверительного интервала. Анализ достоверности или риска может включать период повторяемости T=1/Pe , как это делается в гидрологии .
Байесовский подход можно использовать для подбора модели, имеющей априорное распределение параметра . Если у вас есть выборки , которые независимо взяты из основного распределения, можно получить так называемое апостериорное распределение . Эту апостериорную функцию можно использовать для обновления функции массы вероятности для новой выборки с учетом наблюдений . Получаем
.
Также можно определить дисперсию вновь полученной функции вероятности. Дисперсия байесовской функции массы вероятности может быть определена как
.
Это выражение для дисперсии можно существенно упростить (при условии, что выборки составлены независимо). Определение «массовой функции самовероятности» как
,
для дисперсии получаем [12]
.
Выражение для дисперсии включает дополнительную подгонку, включающую интересующую выборку.
Ранжируя степень соответствия различных распределений, можно получить представление о том, какое распределение приемлемо, а какое нет.
Из кумулятивной функции распределения (CDF) можно получить гистограмму и функцию плотности вероятности (PDF).