stringtranslate.com

Квантильно-параметрическое распределение

Квантильно -параметризованное распределение (QPD) — это распределение вероятностей, которое напрямую параметризуется данными. Они были созданы для удовлетворения потребности в простых в использовании непрерывных распределениях вероятностей, достаточно гибких, чтобы отражать широкий спектр неопределенностей, например, тех, которые обычно встречаются в бизнесе, экономике, технике и науке. Поскольку QPD напрямую параметризуются данными, у них есть практическое преимущество, заключающееся в том, что они позволяют избежать промежуточного этапа оценки параметров — трудоемкого процесса, который обычно требует нелинейных итерационных методов для оценки параметров распределения вероятностей на основе данных. Некоторые QPD обладают практически неограниченной гибкостью формы, а также моментами замкнутой формы.

История

Разработка квантильно-параметризованных распределений была вдохновлена ​​практической потребностью в гибких непрерывных распределениях вероятностей, которые легко адаптировать к данным. Исторически сложилось так, что семейства распределений Пирсона [1] и Джонсона [2] [3] использовались, когда требовалась гибкость формы. Это связано с тем, что оба семейства могут сопоставлять первые четыре момента (среднее значение, дисперсию, асимметрию и эксцесс) любого набора данных. Однако во многих случаях эти распределения либо сложно подогнать под данные, либо они недостаточно гибки, чтобы соответствующим образом подогнать данные.

Например, бета-распределение — это гибкое распределение Пирсона, которое часто используется для моделирования процентной доли населения. Однако, если характеристики этой совокупности таковы, что желаемая кумулятивная функция распределения (CDF) должна проходить через определенные конкретные точки CDF, может не быть бета-распределения, отвечающего этой потребности. Поскольку бета-распределение имеет только два параметра формы, оно, как правило, не может соответствовать даже трем заданным точкам CDF. Более того, бета-параметры, наилучшим образом соответствующие таким данным, можно найти только нелинейными итерационными методами.

Специалисты по анализу решений , нуждающиеся в распределениях, которые можно легко параметризовать тремя или более точками CDF (например, потому, что такие точки были указаны в результате процесса выявления экспертов ), первоначально изобрели для этой цели распределения, параметризованные квантилем. Килин и Паули (2011) [4] предоставили оригинальное определение. Впоследствии Килин (2016) [5] разработал металогические распределения — семейство распределений, параметризованных квантилем, которые имеют практически неограниченную гибкость формы, простые уравнения и моменты замкнутой формы.

Определение

Килин и Паули [4] определяют параметризованное квантилем распределение как распределение, функция квантиля которого (обратная CDF) может быть записана в виде

где

а функции являются непрерывно дифференцируемыми и линейно независимыми базисными функциями. Здесь, по сути, и находятся нижняя и верхняя границы (если они существуют) случайной величины с функцией квантиля . Эти распределения называются квантильно-параметризованными, поскольку для заданного набора пар квантилей , где , и набора базисных функций коэффициенты могут быть определены путем решения набора линейных уравнений. [4] Если кто-то желает использовать больше пар квантилей, чем базисные функции, то коэффициенты могут быть выбраны так, чтобы минимизировать сумму квадратов ошибок между указанными квантилями и . Килин и Паули [4] иллюстрируют эту концепцию для конкретного выбора базисных функций, который является обобщением функции квантиля нормального распределения , для которой среднее и стандартное отклонение являются линейными функциями кумулятивной вероятности :

Результатом является распределение с четырьмя параметрами, которое можно точно подогнать к набору из четырех пар квантиль/вероятность или к любому числу таких пар с помощью линейного метода наименьших квадратов . Килин и Паули [4] называют это простым Q-нормальным распределением. Некоторые перекошенные и симметричные файлы Simple Q-Normal PDF показаны на рисунках ниже.

Простые симметричные Q-нормальные PDF-файлы
Симметричные простые Q-нормальные PDF-файлы
Искаженные простые Q-Normal PDF-файлы

Характеристики

QPD, соответствующие определению Килина и Паули, обладают следующими свойствами.

Функция плотности вероятности

Дифференциация по урожайности . Обратная величина этой величины, представляет собой функцию плотности вероятности (PDF)

где . Обратите внимание, что эта PDF выражается как функция кумулятивной вероятности, а не как функция . Чтобы построить его, как показано на рисунках, измените параметрически. Постройте график по горизонтальной и вертикальной оси.

Технико-экономическое обоснование

Функция вида является допустимым распределением вероятностей тогда и только тогда, когда для всех . [4] Это подразумевает ограничение осуществимости набора коэффициентов :

для всех

В практических приложениях осуществимость обычно следует проверять, а не предполагать.

Выпуклость

Множество допустимых коэффициентов КПД для всех выпукло . Поскольку выпуклая оптимизация требует выпуклых допустимых множеств, это свойство упрощает приложения оптимизации, включающие QPD.

Подгонка к данным

Коэффициенты могут быть определены из данных методом линейных наименьших квадратов . Учитывая точки данных , которые предназначены для характеристики CDF QPD, и матрицу , элементы которой состоят из , тогда, пока она обратима, вектор-столбец коэффициентов может быть определен как , где и вектор-столбец . Если , это уравнение сводится к , где результирующий CDF проходит точно по всем точкам данных. Альтернативный метод, реализованный в виде линейной программы, определяет коэффициенты путем минимизации суммы абсолютных расстояний между CDF и данными, на которые распространяются ограничения осуществимости. [6]

Гибкость формы

КПД с членами, где , имеет параметры формы. Таким образом, КФД могут быть гораздо более гибкими, чем распределения Пирсона , которые имеют не более двух параметров формы. Например, было показано, что десятичленные металогические распределения , параметризованные 105 точками CDF из 30 традиционных исходных распределений (включая нормальное, распределение Стьюдента, логнормальное, гамма, бета и экстремальное значение), аппроксимируют каждое такое исходное распределение в пределах K – S. расстояние 0,001 или меньше. [7]

Преобразования

Преобразования КПД регулируются общим свойством функций квантиля: для любой функции квантиля и возрастающей функции является функция квантиля . [8] Например, функция квантиля нормального распределения , , является КФД по определению Килина и Паули. Натуральный логарифм , является возрастающей функцией, так же как и функция квантиля логнормального распределения с нижней границей . Важно отметить, что это преобразование преобразует неограниченную КФД в полуограниченную КФД. Аналогично, применение этого лог-преобразования к неограниченному металог-распределению [9] дает полуограниченное (логарифмическое) металог-распределение ; [10] аналогичным образом, применяя логит-преобразование, дает ограниченное (логит) металог-распределение [10] с нижними и верхними границами и соответственно. Более того, если считать, что она распределена там, где находится любая QPD, соответствующая определению Килина и Паули, преобразованная переменная сохраняет вышеуказанные свойства осуществимости, выпуклости и соответствия данным. Такие преобразованные QPD имеют большую гибкость формы, чем базовый , который имеет параметры формы; логарифмическое преобразование имеет параметры формы, а логит-преобразование имеет параметры формы. Более того, такие преобразованные QPD имеют тот же набор допустимых коэффициентов, что и базовый непреобразованный QPD. [11]


Моменты

Момент КФД равен: [4]

Существуют ли такие моменты в замкнутой форме, зависит от выбора базисных функций КФД . Неограниченное металогическое распределение и полиномиальные КФД являются примерами КФД, для которых моменты существуют в замкнутой форме как функции коэффициентов .

Моделирование

Поскольку функция квантиля выражается в замкнутой форме, КФД Килина и Паули облегчают моделирование методом Монте-Карло . Подстановка в равномерно распределенные случайные выборки дает случайные выборки в закрытой форме, тем самым устраняя необходимость инвертировать CDF, выраженный как .

Связанные дистрибутивы

Следующие распределения вероятностей являются QPD согласно определению Килина и Паули:

Подобно металогическим распределениям SPT, квантильно-параметризованные распределения Джонсона [14] [15] (JQPD) параметризуются тремя квантилями. JQPD не соответствуют определению QPD Килина и Паули, а имеют свои собственные свойства. JQPD осуществимы для всех наборов параметров SPT, которые соответствуют правилам вероятности .

Приложения

Первоначально QPD применялись аналитиками решений, желающими удобно преобразовать оцененные экспертами квантили (например, 10-й, 50-й и 90-й квантили) в плавные непрерывные распределения вероятностей. QPD также использовались для подбора выходных данных моделирования, чтобы представить эти результаты (как CDF, так и PDF) в виде непрерывных распределений в закрытой форме. [16] При таком использовании они обычно более стабильны и плавны, чем гистограммы. Аналогичным образом, поскольку QPD могут накладывать меньше ограничений по форме, чем традиционные распределения, они использовались для соответствия широкому диапазону эмпирических данных, чтобы представить эти наборы данных как непрерывные распределения (например, прямо отражая бимодальность, которая может существовать в данных). [17] ). Квантильная параметризация позволяет представить QPD в закрытой форме известных распределений, чьи CDF в противном случае не имеют выражения в закрытой форме. Килин и др. (2019) [18] применяют это к сумме независимых одинаково распределенных логнормальных распределений, где квантили суммы могут быть определены с помощью большого количества симуляций. Девять таких квантилей используются для параметризации полуограниченного металогического распределения, которое проходит точно через каждый из этих девяти квантилей. QPD также применялись для оценки рисков воздействия астероидов, [19] кибербезопасности, [6] [20] ошибок в прогнозах добычи нефти на месторождениях по сравнению с наблюдаемой добычей постфактум, [21] и будущих прогнозов численности населения Канады, основанных на на объединении вероятностных взглядов нескольких экспертов. [22] См. металогические распределения и Килин (2016) [5] для дополнительных применений металогического распределения.


Внешние ссылки

Рекомендации

  1. ^ Джонсон Н.Л., Коц С., Балакришнан Н. Непрерывные одномерные распределения, Том 1, второе издание, John Wiley & Sons, Ltd, 1994, стр. 15–25.
  2. ^ Джонсон, Нидерланды (1949). «Системы частотных кривых, генерируемые методами перевода». Биометрика . 36 (1/2): 149–176. дои : 10.2307/2332539. JSTOR  2332539. PMID  18132090.
  3. ^ Тадикамалла, Панду Р.; Джонсон, Норман Л. (1982). «Системы частотных кривых, порожденные преобразованиями логистических переменных». Биометрика . 69 (2): 461–465. дои : 10.1093/biomet/69.2.461. JSTOR  2335422.
  4. ^ abcdefg Килин, Томас В.; Паули, Брэдфорд В. (2011). «Квантильно-параметризованные распределения». Анализ решений . 8 (3): 206–219. дои : 10.1287/дека.1110.0213.
  5. ^ аб Килин, Томас В. (2016). «Распределения металогов». Анализ решений . 13 (4): 243–277. дои : 10.1287/дека.2016.0338.
  6. ^ аб Фабер, Исаак Джастин; Пате-Корнелл, М. Элизабет; Лин, Герберт; Шахтер, Росс Д. (2019). Управление киберрисками: предупреждения об угрозах, генерируемые искусственным интеллектом (Диссертация). Стэндфордский Университет.
  7. ^ Килин, Томас В. (2016). «Распределения металогов». Анализ решений . 13 (4). Таблица 8. doi :10.1287/декабрь.2016.0338.
  8. ^ Гилкрист, В., 2000. Статистическое моделирование с использованием квантильных функций. ЦРК Пресс.
  9. ^ Килин, Томас В. (2016). «Распределения металогов». Анализ решений . 13 (4). Раздел 3, стр. 249–257. дои : 10.1287/дека.2016.0338.
  10. ^ аб Килин, Томас В. (2016). «Распределения металогов». Анализ решений . 13 (4). Раздел 4. doi :10.1287/deca.2016.0338.
  11. ^ Паули, BW (2013). «Методы квантильных функций для анализа решений». Следствие 12, стр. 30. Кандидатская диссертация, Стэнфордский университет.
  12. ^ Килин, Томас В.; Паули, Брэдфорд В. (2011). «Квантильно-параметризованные распределения». Анализ решений . 8 (3). стр. 208–210. дои : 10.1287/дека.1110.0213.
  13. ^ Килин, Томас В. (2016). «Распределения металогов». Анализ решений . 13 (4): 253. doi :10.1287/декабрь.2016.0338.
  14. ^ Хэдлок, Кристофер С.; Бикель, Дж. Эрик (2017). «Квантильно-параметризованные распределения Джонсона». Анализ решений . 14 : 35–64. дои : 10.1287/дека.2016.0343.
  15. ^ Хэдлок, Кристофер С.; Бикель, Дж. Эрик (2019). «Обобщенная квантильно-параметризованная система распределения Джонсона». Анализ решений . 16 : 67–85. дои : 10.1287/дека.2018.0376. S2CID  159339224.
  16. ^ Килин, TW (2016), раздел 6.2.2, стр. 271–274.
  17. ^ Килин, TW (2016), Раздел 6.1.1, Рисунок 10, стр. 266–267.
  18. Мустафи, Н. (18 мая 2020 г.). Металогические распределения и чрезвычайно точные суммы логнормальных чисел в замкнутой форме. Институт инженеров по электротехнике и электронике (IEEE). стр. 3074–3085. ISBN 9781728132839.
  19. ^ Рейнхардт, Джейсон С.; Чен, Си; Лю, Вэньхао; Манчев, Петар; Пате-Корнелл, М. Элизабет (2016). «Оценка астероидного риска: вероятностный подход». Анализ риска . 36 (2): 244–261. Бибкод : 2016РискА..36..244R. дои : 10.1111/risa.12453. PMID  26215051. S2CID  23308354.
  20. ^ Ван, Цзяли; Нил, Мартин; Фентон, Норман (2020). «Байесовский сетевой подход для оценки рисков кибербезопасности, реализация и расширение модели FAIR». Компьютеры и безопасность . 89 : 101659. doi : 10.1016/j.cose.2019.101659. S2CID  209099797.
  21. ^ Братволд, Рейдар Б.; Мохус, Эрленд; Петушниг, Дэвид; Бикель, Эрик (2020). «Прогнозирование производства: оптимистичное и самоуверенное — снова и снова». Spe Оценка и проектирование резервуаров . 23 (3): 0799–0810. дои : 10.2118/195914-PA. S2CID  219661316.
  22. ^ Развитие демографического прогнозирования (PDF) . Серия Springer по демографическим методам и демографическому анализу. Том. 49. 2020. С. 43–62. дои : 10.1007/978-3-030-42472-5. hdl : 20.500.12657/42565. ISBN 978-3-030-42471-8. S2CID  226615299.