Распределение Парето , названное в честь итальянского инженера-строителя , экономиста и социолога Вильфредо Парето , [2] представляет собой степенное распределение вероятностей , которое используется для описания социальных , контрольных , научных , геофизических , актуарных и многих других типов наблюдаемых явлений; принцип изначально применялся для описания распределения богатства в обществе, соответствуя тенденции, согласно которой большая часть богатства принадлежит небольшой части населения. [3] [4] Принцип Парето или «правило 80-20», утверждающее, что 80% результатов обусловлены 20% причин, был назван в честь Парето, но эти концепции различны, и только распределения Парето со значением формы ( α ) log 4 5 ≈ 1,16 точно отражают его. Эмпирические наблюдения показали, что это распределение 80-20 подходит для широкого спектра случаев, включая природные явления [5] и деятельность человека. [6] [7]
Определения
Если X — случайная величина с распределением Парето (тип I) [8], то вероятность того, что X больше некоторого числа x , т.е. функция выживания (также называемая функцией хвоста), определяется как
где x m — (обязательно положительное) минимально возможное значение X , а α — положительный параметр. Распределение Парето типа I характеризуется параметром масштаба x m и параметром формы α , который известен как индекс хвоста . Если это распределение используется для моделирования распределения богатства, то параметр α называется индексом Парето .
При построении на линейных осях распределение принимает знакомую J-образную кривую, которая приближается к каждой из ортогональных осей асимптотически . Все сегменты кривой являются самоподобными (при соблюдении соответствующих масштабных коэффициентов). При построении на логарифмическом графике распределение представляется прямой линией.
Функция генерации момента определяется только для неположительных значений t ≤ 0 как
Таким образом, поскольку математическое ожидание не сходится на открытом интервале, содержащем , мы говорим, что производящая функция моментов не существует.
Характеристическая функция определяется выражением
Параметры могут быть решены с использованием метода моментов . [9]
Условные распределения
Условное распределение вероятностей случайной величины, распределенной по Парето, при условии, что она больше или равна определенному числу, превышающему , является распределением Парето с тем же индексом Парето, но с минимумом вместо :
Это означает, что условное ожидаемое значение (если оно конечно, т.е. ) пропорционально :
В случае случайных величин, описывающих продолжительность жизни объекта, это означает, что продолжительность жизни пропорциональна возрасту и называется эффектом Линди или законом Линди. [10]
Теорема о характеризации
Предположим, что являются независимыми одинаково распределенными случайными величинами , распределение вероятностей которых поддерживается на интервале для некоторых . Предположим, что для всех , две случайные величины и являются независимыми. Тогда общее распределение является распределением Парето. [ необходима цитата ]
Характерное криволинейное распределение « длинного хвоста », нанесенное на линейный масштаб, скрывает простую основу функции, нанесенную на график в двойном логарифмическом масштабе , который затем принимает форму прямой линии с отрицательным градиентом: Из формулы для функции плотности вероятности следует, что для x ≥ x m ,
Поскольку α положительно, градиент −( α + 1) отрицателен.
Связанные дистрибутивы
Обобщенные распределения Парето
Существует иерархия [8] [12] распределений Парето, известная как распределения Парето типа I, II, III, IV и Феллера–Парето. [8] [12] [13] Тип Парето IV содержит типы Парето I–III как особые случаи. Распределение Феллера–Парето [12] [14] обобщает тип Парето IV.
Типы Парето I–IV
Иерархия распределения Парето обобщена в следующей таблице, в которой сравниваются функции выживания (дополнительные функции CDF).
Когда μ = 0, распределение Парето типа II также известно как распределение Ломакса . [15]
В этом разделе символ x m , использовавшийся ранее для обозначения минимального значения x , заменен на σ .
Параметр формы α — индекс хвоста, μ — местоположение, σ — масштаб, γ — параметр неравенства. Некоторые особые случаи типа Парето (IV)
Конечность среднего значения, а также существование и конечность дисперсии зависят от индекса хвоста α (индекса неравенства γ ). В частности, дробные δ -моменты конечны для некоторых δ > 0, как показано в таблице ниже, где δ не обязательно является целым числом.
Распределение Феллера–Парето
Феллер [12] [14] определяет переменную Парето путем преобразования U = Y −1 − 1 бета-случайной величины Y , функция плотности вероятности которой равна
тогда W имеет распределение Феллера–Парето FP( µ , σ , γ , γ 1 , γ 2 ). [8]
Если и являются независимыми гамма-переменными , то другая конструкция переменной Феллера–Парето (FP) имеет вид [16]
и пишем W ~ FP ( μ , σ , γ , δ1 , δ2 ) . Особыми случаями распределения Феллера – Парето являются
Обратное распределение Парето / Распределение мощности
Когда случайная величина следует распределению Парето, то ее обратная величина следует обратному распределению Парето. Обратное распределение Парето эквивалентно степенному распределению [17]
Отношение к экспоненциальному распределению
Распределение Парето связано с экспоненциальным распределением следующим образом. Если X распределено Парето с минимальным x m и индексом α , то
экспоненциально распределено с параметром скорости α . Эквивалентно, если Y экспоненциально распределено с параметром скорости α , то
распределено по Парето с минимальным x m и индексом α .
Это можно показать, используя стандартные методы замены переменной:
Последнее выражение представляет собой кумулятивную функцию распределения экспоненциального распределения со скоростью α .
Распределение Парето можно построить с помощью иерархических экспоненциальных распределений. [18] Пусть и . Тогда имеем и, как следствие, .
В более общем случае, если (параметризация скорости формирования) и , то .
Эквивалентно, если и , то .
Отношение к логнормальному распределению
Распределение Парето и логнормальное распределение являются альтернативными распределениями для описания одних и тех же типов величин. Одна из связей между ними заключается в том, что они оба являются распределениями экспоненты случайных величин, распределенных в соответствии с другими общими распределениями, соответственно экспоненциальным распределением и нормальным распределением . (См. предыдущий раздел.)
Связь с обобщенным распределением Парето
Распределение Парето является частным случаем обобщенного распределения Парето , которое представляет собой семейство распределений схожей формы, но содержащих дополнительный параметр таким образом, что носитель распределения либо ограничен снизу (в переменной точке), либо ограничен и сверху, и снизу (где оба переменны), с распределением Ломакса как частным случаем. Это семейство также содержит как несмещенные, так и смещенные экспоненциальные распределения .
Распределение Парето с масштабом и формой эквивалентно обобщенному распределению Парето с местоположением , масштабом и формой , и наоборот, можно получить распределение Парето из GPD, взяв и , если .
Ограниченное распределение Парето
Ограниченное (или усеченное) распределение Парето имеет три параметра: α , L и H. Как и в стандартном распределении Парето, α определяет форму. L обозначает минимальное значение, а H обозначает максимальное значение.
Целью симметричного и нулевого симметричного распределения Парето является захват некоторого специального статистического распределения с острым пиком вероятности и симметричными длинными хвостами вероятности. Эти два распределения выводятся из распределения Парето. Длинные хвосты вероятности обычно означают, что вероятность медленно убывает, и могут использоваться для подгонки различных наборов данных. Но если распределение имеет симметричную структуру с двумя медленно убывающими хвостами, Парето не может этого сделать. Тогда вместо этого применяется симметричное распределение Парето или нулевой симметричный закон Парето. [20]
Кумулятивная функция распределения (CDF) симметричного распределения Парето определяется следующим образом: [20]
Соответствующая функция плотности вероятности (PDF) имеет вид: [20]
Это распределение имеет два параметра: a и b. Оно симметрично относительно b. Тогда математическое ожидание равно b. Когда, оно имеет следующую дисперсию:
CDF нулевого симметричного распределения Парето (ZSP) определяется следующим образом:
Соответствующий PDF-файл:
Это распределение симметрично относительно нуля. Параметр a связан со скоростью убывания вероятности, а (a/2b) представляет пиковую величину вероятности. [20]
Функция правдоподобия для параметров распределения Парето α и x m , учитывая независимую выборку x = ( x 1 , x 2 , ..., x n ), равна
Следовательно, логарифмическая функция правдоподобия равна
Видно, что монотонно возрастает с x m , то есть чем больше значение x m , тем больше значение функции правдоподобия. Следовательно, поскольку x ≥ x m , заключаем, что
Чтобы найти оценку для α , мы вычисляем соответствующую частную производную и определяем, где она равна нулю:
Малик (1970) [23] дает точное совместное распределение . В частности, и независимы и являются распределением Парето с параметром масштаба x m и параметром формы nα , тогда как имеет обратное гамма-распределение с параметрами формы и масштаба n − 1 и nα соответственно.
Возникновение и применение
Общий
Вильфредо Парето изначально использовал это распределение для описания распределения богатства среди людей, поскольку оно, казалось, довольно хорошо показывало, как большая часть богатства любого общества принадлежит меньшему проценту людей в этом обществе. Он также использовал его для описания распределения доходов. [4] Эта идея иногда выражается более просто как принцип Парето или «правило 80-20», которое гласит, что 20% населения контролируют 80% богатства. [24] Как указывает Майкл Хадсон ( The Collapse of Antiquity [2023] стр. 85 и прим. 7), «математическое следствие [состоит в том], что 10% будут иметь 65% богатства, а 5% будут иметь половину национального богатства». Однако правило 80-20 соответствует определенному значению α , и фактически данные Парето о британских подоходных налогах в его Cours d'économie politique указывают, что около 30% населения имели около 70% дохода. [ требуется ссылка ] График функции плотности вероятности (PDF) в начале этой статьи показывает, что «вероятность» или доля населения, которая владеет небольшим количеством богатства на человека, довольно высока, а затем неуклонно уменьшается по мере увеличения богатства. (Однако распределение Парето нереалистично для богатства для нижнего предела. Фактически, чистая стоимость может быть даже отрицательной.) Это распределение не ограничивается описанием богатства или дохода, но и многими ситуациями, в которых находится равновесие в распределении от «малого» к «большому». Следующие примеры иногда рассматриваются как приблизительно распределенные по Парето:
Все четыре переменные бюджетного ограничения домохозяйства: потребление, трудовой доход, доход от капитала и богатство. [25]
Размеры населенных пунктов (мало городов, много деревень/поселков) [26] [27]
Распределение размеров файлов интернет-трафика, использующего протокол TCP (много файлов меньшего размера, мало больших) [26]
Распределение длин заданий, назначенных суперкомпьютерам (несколько больших, много маленьких) [30]
Стандартизированная доходность по отдельным акциям [26]
Размеры частиц песка [26]
Размер метеоритов
Серьёзность крупных потерь в результате несчастных случаев для определённых направлений бизнеса, таких как страхование гражданской ответственности, коммерческое автотранспортное страхование и компенсация работникам. [31] [32]
Количество времени, которое пользователь Steam будет тратить на различные игры. (В некоторые игры играют много, но в большинство почти никогда.) [2] [ оригинальное исследование? ]
В гидрологии распределение Парето применяется к экстремальным событиям, таким как годовые максимальные однодневные осадки и речные стоки. [33] Синяя картинка иллюстрирует пример подгонки распределения Парето к ранжированным годовым максимальным однодневным осадкам, показывая также 90% доверительный пояс на основе биномиального распределения . Данные об осадках представлены путем построения позиций в рамках кумулятивного частотного анализа .
В области надежности распределения электроэнергии (80% минут прерывания подачи электроэнергии потребителям приходится примерно на 20% дней в году).
Связь с законом Ципфа
Распределение Парето — это непрерывное распределение вероятностей. Закон Ципфа , также иногда называемый дзета-распределением , — это дискретное распределение, разделяющее значения в простой ранжированный вид. Оба закона представляют собой простой степенной закон с отрицательным показателем, масштабированный так, чтобы их кумулятивные распределения равнялись 1. Распределение Ципфа можно вывести из распределения Парето, если значения (доходы) сгруппировать в ранги так, чтобы количество людей в каждой ячейке соответствовало шаблону 1/ранг. Распределение нормализуется путем определения так, что где — обобщенное гармоническое число . Это делает функцию плотности вероятности Ципфа выводимой из распределения Парето.
где и — целое число, представляющее ранг от 1 до N, где N — это самая высокая доходная группа. Таким образом, случайно выбранный человек (или слово, ссылка на веб-сайт или город) из популяции (или языка, интернета или страны) имеет вероятность ранжирования .
Отношение к «принципу Парето»
« Закон 80–20 », согласно которому 20% всех людей получают 80% всех доходов, а 20% самых богатых 20% получают 80% от этих 80% и т. д., выполняется именно тогда, когда индекс Парето равен . Этот результат можно вывести из формулы кривой Лоренца, приведенной ниже. Более того, было показано [34], что следующее является математически эквивалентным:
Доход распределяется по закону Парето с индексом α > 1.
Существует некоторое число 0 ≤ p ≤ 1/2, такое, что 100 p % всех людей получают 100(1 − p )% всего дохода, и аналогично для каждого действительного (не обязательно целого) n > 0, 100 p n % всех людей получают 100(1 − p ) n процентов всего дохода. α и p связаны соотношением
Это относится не только к доходу, но и к богатству, или ко всему остальному, что можно смоделировать с помощью этого распределения.
Это исключает распределения Парето, в которых 0 < α ≤ 1, которые, как отмечено выше, имеют бесконечное ожидаемое значение и поэтому не могут разумно моделировать распределение доходов.
Отношение к закону Прайса
Закон квадратного корня Прайса иногда предлагается как свойство или как аналог распределения Парето. Однако закон выполняется только в случае, когда . Обратите внимание, что в этом случае общая и ожидаемая сумма богатства не определены, и правило применяется только асимптотически к случайным выборкам. Расширенный принцип Парето, упомянутый выше, является гораздо более общим правилом.
Кривая Лоренца и коэффициент Джини
Кривая Лоренца часто используется для характеристики распределения доходов и богатства. Для любого распределения кривая Лоренца L ( F ) записывается в терминах PDF f или CDF F как
где x ( F ) — обратная функция CDF. Для распределения Парето,
и кривая Лоренца рассчитывается как
Так как знаменатель бесконечен, то L = 0. Примеры кривой Лоренца для ряда распределений Парето показаны на графике справа.
По данным Oxfam (2016), самые богатые 62 человека имеют столько же богатства, сколько и самая бедная половина населения мира. [35] Мы можем оценить индекс Парето, который будет применяться в этой ситуации. Приравняв ε к нулю, мы имеем:
или
Решение состоит в том, что α равно примерно 1,15, и около 9% богатства принадлежит каждой из двух групп. Но на самом деле беднейшие 69% взрослого населения мира владеют лишь около 3% богатства. [36]
Коэффициент Джини является мерой отклонения кривой Лоренца от линии равнораспределения, которая является линией, соединяющей [0, 0] и [1, 1], которая показана черным цветом ( α = ∞) на графике Лоренца справа. В частности, коэффициент Джини равен удвоенной площади между кривой Лоренца и линией равнораспределения. Затем вычисляется коэффициент Джини для распределения Парето (для ), который равен
^ ab Нортон, Мэтью; Хохлов, Валентин; Урясев, Стэн (2019). «Расчет CVaR и bPOE для общих распределений вероятностей с применением к оптимизации портфеля и оценке плотности» (PDF) . Annals of Operations Research . 299 (1–2). Springer: 1281–1315. arXiv : 1811.11301 . doi :10.1007/s10479-019-03373-1. S2CID 254231768 . Получено 27.02.2023 .
^ Парето, Вильфредо (1898). «Кур политической экономики». Журнал политической экономии . 6 . дои : 10.1086/250536.
^ ab Pareto, Вильфредо, Cours d'Economie Politique: Nouvelle édition par G.-H. Bousquet et G. Busino , Librairie Droz, Женева, 1964, стр. 299–345. Оригинал книги в архиве
^ VAN MONTFORT, MAJ (1986). «Обобщенное распределение Парето, применяемое к глубинам осадков». Hydrological Sciences Journal . 31 (2): 151–162. Bibcode : 1986HydSJ..31..151V. doi : 10.1080/02626668609491037 .
^ Оанча, Богдан (2017). «Неравенство доходов в Румынии: экспоненциальное распределение Парето». Physica A: Статистическая механика и ее приложения . 469 : 486–498. Bibcode : 2017PhyA..469..486O. doi : 10.1016/j.physa.2016.11.094.
^ abcd Барри К. Арнольд (1983). Распределения Парето . International Co-operative Publishing House. ISBN978-0-89974-012-6.
^ S. Hussain, SH Bhatti (2018). Оценка параметров распределения Парето: некоторые модифицированные оценки моментов. Maejo International Journal of Science and Technology 12(1):11-27.
^ Элиазар, Иддо (ноябрь 2017 г.). «Закон Линди». Physica A: Статистическая механика и ее приложения . 486 : 797–805. Bibcode : 2017PhyA..486..797E. doi : 10.1016/j.physa.2017.05.077. S2CID 125349686.
^ ab Джонсон Н.Л., Коц С., Балакришнан Н. (1994) Непрерывные одномерные распределения. Том 1. Ряды Уайли в теории вероятностей и статистике.
^ abcd Джонсон, Коц и Балакришнан (1994), (20.4).
^ Кристиан Клейбер и Сэмюэль Котц (2003). Статистические распределения размеров в экономике и актуарных науках. Wiley . ISBN978-0-471-15064-0.
^ ab Феллер, В. (1971). Введение в теорию вероятностей и ее приложения . Т. II (2-е изд.). Нью-Йорк: Wiley. С. 50.«Плотности (4.3) иногда называют в честь экономиста Парето . Считалось (довольно наивно с современной статистической точки зрения), что распределение доходов должно иметь хвост с плотностью ~ Ax − α при x → ∞».
^ Ломакс, К. С. (1954). «Бизнес-крахи. Другой пример анализа данных о неудачах». Журнал Американской статистической ассоциации . 49 (268): 847–52. doi :10.1080/01621459.1954.10501239.
^ Chotikapanich, Duangkamon (16 сентября 2008 г.). "Глава 7: Парето и обобщенные распределения Парето". Моделирование распределений доходов и кривых Лоренца . Springer. стр. 121–22. ISBN9780387727967.
^ Даллас, AC «Характеристика распределения Парето и степенного распределения». Анналы Института статистической математики 28.1 (1976): 491-497.
^ Уайт, Джентри (2006). Байесовское полупараметрическое пространственное и совместное пространственно-временное моделирование (диссертация). Университет Миссури-Колумбия.раздел 5.3.1.
^ abcd Хуан, Сяо-дон (2004). «Многомасштабная модель для видеотрафика с переменной скоростью передачи данных MPEG-4». Труды IEEE по вещанию . 50 (3): 323–334. doi :10.1109/TBC.2004.834013.
^ MEJ Newman (2005). «Степень законов, распределения Парето и закон Ципфа». Contemporary Physics . 46 (5): 323–51. arXiv : cond-mat/0412004 . Bibcode : 2005ConPh..46..323N. doi : 10.1080/00107510500052444. S2CID 202719165.
^ HJ Malik (1970). «Оценка параметров распределения Парето». Метрика . 15 : 126–132. doi :10.1007/BF02613565. S2CID 124007966.
^ Для двухквантильной популяции, где примерно 18% населения владеют 82% богатства, индекс Тейла принимает значение 1.
^ Гайяр, Александр; Хеллвиг, Кристиан; Вангнер, Филипп; Веркен, Николас (2023). «Потребление, богатство и неравенство доходов: история о решке». ССНН 4636704.
^ abcde Рид, Уильям Дж.; и др. (2004). «Двойное Парето-логнормальное распределение – новая параметрическая модель для распределений размеров». Communications in Statistics – Theory and Methods . 33 (8): 1733–53. CiteSeerX 10.1.1.70.4555 . doi :10.1081/sta-120037438. S2CID 13906086.
^ Рид, Уильям Дж. (2002). «О распределении рангов и размеров для человеческих поселений». Журнал региональной науки . 42 (1): 1–17. Bibcode : 2002JRegS..42....1R. doi : 10.1111/1467-9787.00247. S2CID 154285730.
^ Шредер, Бьянка ; Дамурас, Сотириос; Гилл, Филлипа (24.02.2010). "Понимание скрытых ошибок сектора и как защититься от них" (PDF) . 8-я конференция Usenix по технологиям хранения файлов и хранения данных (FAST 2010) . Получено 10.09.2010 . Мы экспериментировали с 5 различными распределениями (геометрическим, Вейбулла, Рэлея, Парето и логнормальным), которые обычно используются в контексте надежности системы, и оценивали их соответствие с помощью общих квадратичных разностей между фактическими и предполагаемыми частотами (статистика χ2 ) . Мы последовательно обнаружили во всех моделях, что геометрическое распределение плохо подходит, в то время как распределение Парето обеспечивает наилучшее соответствие.
^ Юджи Иджири; Саймон, Герберт А. (май 1975 г.). «Некоторые распределения, связанные со статистикой Бозе–Эйнштейна». Proc. Natl. Acad. Sci. USA . 72 (5): 1654–57. Bibcode :1975PNAS...72.1654I. doi : 10.1073/pnas.72.5.1654 . PMC 432601 . PMID 16578724.
^ Harchol-Balter, Mor ; Downey, Allen (август 1997 г.). «Использование распределений жизненного цикла процессов для динамической балансировки нагрузки» (PDF) . ACM Transactions on Computer Systems . 15 (3): 253–258. doi :10.1145/263326.263344. S2CID 52861447.
^ Кляйбер и Коц (2003): с. 94.
^ Seal, H. (1980). «Вероятности выживания на основе распределений требований Парето». ASTIN Bulletin . 11 : 61–71. doi : 10.1017/S0515036100006620 .
^ CumFreq, программное обеспечение для кумулятивного частотного анализа и подгонки распределения вероятностей [1]
^ Харди, Майкл (2010). «Закон Парето». Mathematical Intelligencer . 32 (3): 38–43. doi :10.1007/s00283-010-9159-2. S2CID 121797873.
^ «62 человека владеют тем же, что и половина мира, говорится в отчете Oxfam в Давосе». Oxfam. Январь 2016 г.
^ "Global Wealth Report 2013". Credit Suisse. Октябрь 2013. С. 22. Архивировано из оригинала 2015-02-14 . Получено 2016-01-24 .
^ Танизаки, Хисаши (2004). Вычислительные методы в статистике и эконометрике. CRC Press. стр. 133. ISBN9780824750886.
Парето, Вильфредо (1965). Библиотека Дроз (ред.). Ecrits sur la courbe de la repartition de la richesse . Завершенные произведения: Т. III. п. 48. ИСБН 9782600040211.
Парето, Вильфредо (1895). «La legge della domanda». Джорнале дельи Экономисти . 10 : 59–68.
Парето, Вильфредо (1896). «Кур политической экономики». дои : 10.1177/000271629700900314. S2CID 143528002. {{cite journal}}: Цитировать журнал требует |journal=( помощь )
Ааберге, Рольф (май 2005 г.). «Ядерная семья Джини». Международная конференция в честь двух выдающихся ученых-социологов (PDF) .
Crovella, Mark E. ; Bestavros, Azer (декабрь 1997 г.). Self-likeity in World Wide Web Traffic: Evidence and Possible Causes (PDF) . IEEE/ACM Transactions on Networking. Vol. 5. pp. 835–846. Архивировано из оригинала (PDF) 2016-03-04 . Получено 2019-02-25 .
syntraf1.c — это программа на языке C для генерации синтетического пакетного трафика с ограниченным размером пакета Парето и экспоненциальным временем между пакетами.