Квантильно -параметризованное распределение (КПР) — это распределение вероятностей, которое напрямую параметризуется данными. Они были созданы для удовлетворения потребности в простых в использовании непрерывных распределениях вероятностей, достаточно гибких для представления широкого спектра неопределенностей, таких как те, которые обычно встречаются в бизнесе, экономике, инженерии и науке. Поскольку КПР напрямую параметризуются данными, они имеют практическое преимущество, заключающееся в избежании промежуточного этапа оценки параметров — трудоемкого процесса, который обычно требует нелинейных итерационных методов для оценки параметров распределения вероятностей из данных. Некоторые КПР обладают практически неограниченной гибкостью формы и моментами замкнутой формы.
Разработка квантильно-параметризованных распределений была вдохновлена практической потребностью в гибких непрерывных распределениях вероятностей, которые легко подгоняются под данные. Исторически семейства распределений Пирсона [1] и Джонсона [2] [3] использовались, когда требовалась гибкость формы. Это связано с тем, что оба семейства могут соответствовать первым четырем моментам (среднее, дисперсия, асимметрия и эксцесс) любого набора данных. Однако во многих случаях эти распределения либо трудно подгоняются под данные, либо недостаточно гибки, чтобы подгонять данные должным образом.
Например, бета-распределение — это гибкое распределение Пирсона, которое часто используется для моделирования процентов населения. Однако, если характеристики этого населения таковы, что желаемая кумулятивная функция распределения (CDF) должна проходить через определенные конкретные точки CDF, может не быть бета-распределения, которое удовлетворяло бы этой потребности. Поскольку бета-распределение имеет только два параметра формы, оно не может, в общем случае, соответствовать даже трем указанным точкам CDF. Более того, бета-параметры, которые наилучшим образом соответствуют таким данным, могут быть найдены только нелинейными итеративными методами.
Практики анализа решений , которым нужны распределения, легко параметризуемые тремя или более точками CDF (например, потому что такие точки были указаны в результате процесса выявления экспертов ), изначально изобрели для этой цели квантильно-параметризованные распределения. Килин и Поули (2011) [4] предоставили оригинальное определение. Впоследствии Килин (2016) [5] разработал металог-распределения , семейство квантильно-параметризованных распределений, которое имеет практически неограниченную гибкость формы, простые уравнения и моменты замкнутой формы.
Килин и Поули [4] определяют квантильно-параметризованное распределение как распределение, квантильная функция (обратная CDF) которого может быть записана в виде
где
и функции являются непрерывно дифференцируемыми и линейно независимыми базисными функциями. Здесь, по сути, и являются нижней и верхней границами (если они существуют) случайной величины с функцией квантиля . Эти распределения называются квантильно-параметризованными, потому что для заданного набора пар квантилей , где , и набора базисных функций , коэффициенты могут быть определены путем решения набора линейных уравнений. [4] Если кто-то хочет использовать больше пар квантилей, чем базисных функций, то коэффициенты могут быть выбраны так, чтобы минимизировать сумму квадратов ошибок между указанными квантилями и . Килин и Поули [4] иллюстрируют эту концепцию для конкретного выбора базисных функций, который является обобщением функции квантиля нормального распределения , , для которого среднее значение и стандартное отклонение являются линейными функциями кумулятивной вероятности :
Результатом является распределение с четырьмя параметрами, которое может быть точно подогнано к набору из четырех пар квантиль/вероятность или к любому количеству таких пар с помощью линейного метода наименьших квадратов . Килин и Поули [4] называют это простым Q-нормальным распределением. Некоторые перекошенные и симметричные простые Q-нормальные PDF показаны на рисунках ниже.
QPD, соответствующие определению Килина и Поули, обладают следующими свойствами.
Дифференцирование по отношению к дает . Обратная величина этой величины, , является функцией плотности вероятности (PDF)
где . Обратите внимание, что эта PDF выражена как функция кумулятивной вероятности, а не . Чтобы построить ее, как показано на рисунках, изменяйте параметрически. Постройте график на горизонтальной оси и на вертикальной оси.
Функция вида является допустимым распределением вероятностей тогда и только тогда, когда для всех . [4] Это подразумевает ограничение допустимости на набор коэффициентов :
В практических приложениях осуществимость обычно следует проверять, а не предполагать.
Набор допустимых коэффициентов QPD для всех является выпуклым . Поскольку выпуклая оптимизация требует выпуклых допустимых наборов, это свойство упрощает оптимизационные приложения, включающие QPD.
Коэффициенты могут быть определены из данных с помощью линейных наименьших квадратов . При наличии точек данных , которые предназначены для характеристики CDF QPD, и матрицы , элементы которой состоят из , тогда, при условии, что является обратимым, вектор-столбец коэффициентов может быть определен как , где и вектор-столбец . Если , это уравнение сводится к , где результирующая CDF проходит через все точки данных точно. Альтернативный метод, реализованный как линейная программа, определяет коэффициенты путем минимизации суммы абсолютных расстояний между CDF и данными, подлежащими ограничениям осуществимости. [6]
QPD с членами, где , имеет параметры формы. Таким образом, QPD могут быть гораздо более гибкими, чем распределения Пирсона , которые имеют максимум два параметра формы. Например, было показано, что десятичленные металогарифмические распределения, параметризованные 105 точками CDF из 30 традиционных исходных распределений (включая нормальное, t-распределение Стьюдента, логнормальное, гамма, бета и экстремальное значение), приближают каждое такое исходное распределение в пределах расстояния K–S 0,001 или меньше. [7]
Преобразования QPD управляются общим свойством квантильных функций: для любой квантильной функции и возрастающая функция является квантильной функцией . [8] Например, квантильная функция нормального распределения , , является QPD по определению Килина и Поули. Натуральный логарифм , является возрастающей функцией, поэтому является квантильной функцией логнормального распределения с нижней границей . Важно отметить, что это преобразование преобразует неограниченную QPD в полуограниченную QPD. Аналогично, применение этого логарифмического преобразования к неограниченному распределению металога [9] дает полуограниченное (логарифмическое) распределение металога ; [10] аналогично, применение логит-преобразования , дает ограниченное (логарифмическое) распределение металога [10] с нижней и верхней границами и , соответственно. Более того, рассматривая распределенным , где есть любой QPD, который соответствует определению Килина и Поули, преобразованная переменная сохраняет вышеуказанные свойства осуществимости, выпуклости и соответствия данным. Такие преобразованные QPD имеют большую гибкость формы, чем базовый , который имеет параметры формы; логарифмическое преобразование имеет параметры формы, а логит-преобразование имеет параметры формы. Более того, такие преобразованные QPD имеют тот же набор допустимых коэффициентов, что и базовый непреобразованный QPD. [11]
Момент QPD равен: [4]
Существуют ли такие моменты в замкнутой форме, зависит от выбора базисных функций QPD . Неограниченное металог-распределение и полиномиальные QPD являются примерами QPD, для которых моменты существуют в замкнутой форме как функции коэффициентов .
Поскольку функция квантиля выражается в замкнутой форме, квантовые функции распределения Килина и Поули облегчают моделирование Монте-Карло . Подстановка в равномерно распределенные случайные выборки дает случайные выборки в замкнутой форме, тем самым устраняя необходимость инвертировать CDF, выраженную как .
Следующие распределения вероятностей являются QPD согласно определению Килина и Поули:
Подобно металоговым распределениям SPT, квантильно-параметризованные распределения Джонсона [14] [15] (JQPD) параметризуются тремя квантилями. JQPD не соответствуют определению QPD Килина и Поули, а имеют свои собственные свойства. JQPD возможны для всех наборов параметров SPT, которые согласуются с правилами вероятности .
Первоначально QPD применялись аналитиками решений, желающими удобно преобразовать оцененные экспертами квантили (например, 10-й, 50-й и 90-й квантили) в гладкие непрерывные распределения вероятностей. QPD также использовались для подгонки выходных данных из моделирования с целью представления этих выходных данных (как CDF, так и PDF) в виде непрерывных распределений в замкнутой форме. [16] При таком использовании они обычно более стабильны и гладкие, чем гистограммы. Аналогично, поскольку QPD могут накладывать меньше ограничений на форму, чем традиционные распределения, они использовались для подгонки широкого диапазона эмпирических данных с целью представления этих наборов данных в виде непрерывных распределений (например, отражая бимодальность, которая может существовать в данных, простым способом [17] ). Параметризация квантилей позволяет получить представление QPD в замкнутой форме известных распределений, чьи CDF в противном случае не имеют выражения в замкнутой форме. Килин и др. (2019) [18] применяют это к сумме независимых одинаково распределенных логнормальных распределений, где квантили суммы могут быть определены большим количеством симуляций. Девять таких квантилей используются для параметризации полуограниченного распределения металога, которое проходит через каждый из этих девяти квантилей точно. QPD также применялись для оценки рисков удара астероида, [19] кибербезопасности, [6] [20] смещений в прогнозах добычи нефти по сравнению с наблюдаемой добычей постфактум, [21] и будущих прогнозов населения Канады, основанных на объединении вероятностных взглядов нескольких экспертов. [22] См. распределения металога и Keelin (2016) [5] для дополнительных приложений распределения металога.