stringtranslate.com

распределение Пирсона

Диаграмма системы Пирсона, показывающая распределения типов I, III, VI, V и IV в терминах β 1 (квадратичная асимметрия) и β 2 (традиционный эксцесс)

Распределение Пирсона — это семейство непрерывных распределений вероятностей . Впервые оно было опубликовано Карлом Пирсоном в 1895 году и впоследствии расширено им в 1901 и 1916 годах в серии статей по биостатистике .

История

Система Пирсона изначально была разработана в попытке смоделировать явно искаженные наблюдения. В то время было хорошо известно, как настроить теоретическую модель для соответствия первым двум кумулянтам или моментам наблюдаемых данных: Любое распределение вероятностей может быть напрямую расширено для формирования семейства шкалы местоположения . За исключением патологических случаев, семейство шкалы местоположения может быть сделано для соответствия наблюдаемому среднему (первый кумулянт) и дисперсии (второй кумулянт) произвольно хорошо. Однако не было известно, как построить распределения вероятностей, в которых асимметрия (стандартизированный третий кумулянт) и эксцесс (стандартизированный четвертый кумулянт) могли бы быть скорректированы одинаково свободно. Эта потребность стала очевидной при попытке подогнать известные теоретические модели к наблюдаемым данным, которые демонстрировали асимметрию. Примеры Пирсона включают данные о выживаемости, которые обычно асимметричны.

В своей оригинальной статье Пирсон (1895, стр. 360) выделил четыре типа распределений (пронумерованных от I до IV) в дополнение к нормальному распределению (которое изначально было известно как тип V). Классификация зависела от того, поддерживались ли распределения на ограниченном интервале, на полупрямой или на всей действительной прямой ; и были ли они потенциально перекошенными или обязательно симметричными. Вторая статья (Пирсон 1901) исправила два упущения: она переопределила распределение типа V (первоначально просто нормальное распределение , но теперь обратное гамма-распределение ) и ввела распределение типа VI. Вместе первые две статьи охватывают пять основных типов системы Пирсона (I, III, IV, V и VI). В третьей статье Пирсон (1916) ввел дополнительные особые случаи и подтипы (VII по XII).

Райнд (1909, стр. 430–432) разработал простой способ визуализации пространства параметров системы Пирсона, который впоследствии был принят Пирсоном (1916, таблица 1 и стр. 430 и далее, 448 и далее). Типы Пирсона характеризуются двумя величинами, обычно называемыми β 1 и β 2 . Первая — это квадрат асимметрии : β 1 = γ 1 , где γ 1 — асимметрия, или третий стандартизированный момент . Вторым является традиционный эксцесс , или четвертый стандартизированный момент: β 2 = γ 2 + 3. (Современные методы определяют эксцесс γ 2 в терминах кумулянтов, а не моментов, так что для нормального распределения мы имеем γ 2 = 0 и β 2 = 3. Здесь мы следуем историческому прецеденту и используем β 2 .) Диаграмма справа показывает, к какому типу Пирсона относится данное конкретное распределение (идентифицируемое точкой (β 1 , β 2 )).

Многие из асимметричных и/или немезокуртических распределений , знакомых нам сегодня, были еще неизвестны в начале 1890-х годов. То, что сейчас известно как бета-распределение, использовалось Томасом Байесом в качестве апостериорного распределения параметра распределения Бернулли в его работе 1763 года об обратной вероятности . Бета-распределение приобрело известность благодаря своей принадлежности к системе Пирсона и было известно до 1940-х годов как распределение Пирсона типа I. [1] (Распределение Пирсона II типа является частным случаем типа I, но обычно больше не выделяется.) Гамма-распределение возникло из работы Пирсона (Pearson 1893, стр. 331; Pearson 1895, стр. 357, 360, 373–376) и было известно как распределение Пирсона III типа, прежде чем получило свое современное название в 1930-х и 1940-х годах. [2] В статье Пирсона 1895 года было представлено распределение IV типа, которое содержит t -распределение Стьюдента как частный случай, опередив последующее использование Уильямом Сили Госсетом на несколько лет. В его статье 1901 года были представлены обратное гамма-распределение (тип V) и бета-штрих-распределение (тип VI).

Определение

Плотность Пирсона p определяется как любое допустимое решение дифференциального уравнения (ср. Пирсон 1895, стр. 381)

с:

По словам Орда [3] , Пирсон разработал базовую форму уравнения (1) на основе, во-первых, формулы для производной логарифма функции плотности нормального распределения (которая дает линейную функцию) и, во-вторых, из рекуррентного соотношения для значений в функции массы вероятности гипергеометрического распределения (которая дает линейно-деленную на квадратичную структуру).

В уравнении (1) параметр a определяет стационарную точку , а следовательно, при некоторых условиях и моду распределения, поскольку

следует непосредственно из дифференциального уравнения.

Поскольку мы сталкиваемся с линейным дифференциальным уравнением первого порядка с переменными коэффициентами , его решение простое:

Интеграл в этом решении значительно упрощается, если рассмотреть некоторые особые случаи подынтегральной функции. Пирсон (1895, стр. 367) выделил два основных случая, определяемых знаком дискриминанта ( и, следовательно, числом действительных корней ) квадратичной функции

Конкретные типы распространения

Случай 1, отрицательный дискриминант

Распределение Пирсона типа IV

Если дискриминант квадратичной функции (2) отрицателен ( ), то она не имеет действительных корней. Тогда определим

Заметим, что α — это вполне определенное действительное число и α ≠ 0 , поскольку по предположению и, следовательно, b 2 ≠ 0. Применяя эти замены, квадратичная функция (2) преобразуется в

Отсутствие действительных корней очевидно из этой формулировки, поскольку α2 обязательно положительно.

Теперь выразим решение дифференциального уравнения (1) как функцию y :

Пирсон (1895, стр. 362) назвал это «тригонометрическим случаем», потому что интеграл

включает обратную тригонометрическую функцию arctan. Тогда

Наконец, позвольте

Применяя эти замены, получаем параметрическую функцию:

Эта ненормализованная плотность имеет поддержку на всей действительной прямой . Она зависит от параметра масштаба α > 0 и параметров формы m > 1/2 и  ν . Один параметр был потерян, когда мы решили найти решение дифференциального уравнения (1) как функцию y, а не x . Поэтому мы снова вводим четвертый параметр, а именно параметр местоположения λ . Таким образом, мы вывели плотность распределения Пирсона типа IV :

Нормирующая константа включает в себя комплексную функцию Гамма (Γ) и функцию Бета  (B). Обратите внимание, что параметр местоположения λ здесь не совпадает с исходным параметром местоположения, введенным в общей формулировке, но связан через

Распределение Пирсона типа VII

График плотностей Пирсона типа VII с λ = 0, σ = 1 и: γ 2 = ∞ (красный); γ 2 = 4 (синий); и γ 2 = 0 (черный)

Параметр формы ν распределения Пирсона типа IV контролирует его асимметрию . Если мы зафиксируем его значение на нуле, мы получим симметричное трехпараметрическое семейство. Этот особый случай известен как распределение Пирсона типа VII (ср. Pearson 1916, стр. 450). Его плотность равна

где B — бета-функция .

Альтернативная параметризация (и небольшая специализация) распределения типа VII получается, если допустить, что

что требует m > 3/2. Это влечет за собой небольшую потерю общности, но гарантирует, что дисперсия распределения существует и равна σ 2 . Теперь параметр m контролирует только эксцесс распределения. Если m стремится к бесконечности, а λ и σ остаются постоянными, нормальное распределение возникает как частный случай:

Это плотность нормального распределения со средним значением λ и стандартным отклонением σ .

Удобно потребовать, чтобы m > 5/2, и пусть

Это еще одна специализация, и она гарантирует, что существуют первые четыре момента распределения. Более конкретно, распределение Пирсона типа VII, параметризованное в терминах (λ, σ, γ 2 ) , имеет среднее значение λ , стандартное отклонение σ , асимметрию нулевую и положительный избыточный эксцесс γ 2 .

Студенческийт-распределение

Распределение Пирсона типа VII эквивалентно нестандартизированному t -распределению Стьюдента с параметрами ν > 0, μ, σ 2 путем применения следующих подстановок к его исходной параметризации:

Обратите внимание, что ограничение m > 1/2 выполняется.

Результирующая плотность равна

что легко распознается как плотность t -распределения Стьюдента .

Это означает, что распределение Пирсона типа VII включает в себя стандартное t -распределение Стьюдента , а также стандартное распределение Коши . В частности, стандартное t -распределение Стьюдента возникает как подслучай, когда μ = 0 и σ 2 = 1, что эквивалентно следующим подстановкам:

Плотность этого ограниченного однопараметрического семейства представляет собой стандартное t Стьюдента :

Случай 2, неотрицательный дискриминант

Если квадратичная функция (2) имеет неотрицательный дискриминант ( ), то она имеет действительные корни a 1 и a 2 (не обязательно различные):

При наличии действительных корней квадратичную функцию (2) можно записать в виде

и решение дифференциального уравнения, следовательно,

Пирсон (1895, стр. 362) назвал это «логарифмическим случаем», потому что интеграл

включает только функцию логарифма , а не функцию арктангенса, как в предыдущем случае.

Используя замену

получаем следующее решение дифференциального уравнения (1):

Поскольку эта плотность известна только с точностью до скрытой константы пропорциональности, эту константу можно изменить и записать плотность следующим образом:

Распределение Пирсона типа I

Распределение Пирсона типа I (обобщение бета-распределения ) возникает, когда корни квадратного уравнения (2) имеют противоположные знаки, то есть . Тогда решение p поддерживается на интервале . Применим замену

где , что дает решение в терминах y , которое поддерживается на интервале (0, 1):

Можно определить:

Перегруппировав константы и параметры, это упрощается до:

Таким образом, следует a с . Оказывается, что m 1 , m 2 > −1 необходимо и достаточно для того, чтобы p была правильной функцией плотности вероятности.

Распределение Пирсона типа II

Распределение Пирсона типа II является частным случаем семейства распределений Пирсона типа I, ограниченного симметричными распределениями.

Для кривой Пирсона типа II, [4]

где

Ордината, y , является частотой . Распределение Пирсона типа II используется при вычислении таблицы значимых коэффициентов корреляции для коэффициента ранговой корреляции Спирмена , когда количество элементов в ряду меньше 100 (или 30, в зависимости от некоторых источников). После этого распределение имитирует стандартное t-распределение Стьюдента . Для таблицы значений определенные значения используются как константы в предыдущем уравнении:

Моменты x используются

Распределение Пирсона типа III

Определение

Распределение Пирсона типа III — это гамма - распределение или распределение хи-квадрат .

Распределение Пирсона типа V

Определение новых параметров:

следует . Распределение Пирсона типа V представляет собой обратное гамма-распределение .

Распределение Пирсона типа VI

Определение

следует a . Распределение Пирсона типа VI является бета-простым распределением или F -распределением .

Связь с другими дистрибутивами

Семейство Пирсона включает в себя, среди прочего, следующие распределения:

Альтернативами системе распределений Пирсона для подгонки распределений к данным являются квантильно-параметризованные распределения (QPD) и распределения металогов . QPD и металоги могут обеспечить большую гибкость формы и границ, чем система Пирсона. Вместо подгонки моментов QPD обычно подгоняются к эмпирическим CDF или другим данным с помощью линейных наименьших квадратов .

Примерами современных альтернатив диаграмме асимметрии и эксцесса Пирсона являются: (i) https://github.com/SchildCode/PearsonPlot и (ii) «график Каллена и Фрея» в статистическом приложении R.

Приложения

Эти модели используются на финансовых рынках, учитывая их способность параметризоваться таким образом, который имеет интуитивное значение для рыночных трейдеров. В настоящее время используется ряд моделей, которые охватывают стохастическую природу волатильности ставок, акций и т. д., [ какие? ] [ нужна цитата ] и это семейство распределений может оказаться одним из наиболее важных.

В Соединенных Штатах распределение Log-Pearson III является распределением по умолчанию для анализа частоты наводнений. [5]

Недавно были разработаны альтернативы распределению Пирсона, которые более гибкие и их легче подгонять под данные. См. распределения металогов .

Примечания

  1. ^ Миллер, Джефф; и др. (2006-07-09). "Бета-распределение". Самые ранние известные случаи использования некоторых слов математики . Получено 2006-12-09 .
  2. ^ Миллер, Джефф; и др. (2006-12-07). "Гамма-распределение". Самые ранние известные случаи использования некоторых слов из математики . Получено 2006-12-09 .
  3. ^ Ord JK (1972) стр. 2
  4. ^ Рэмси, Филип Х. (1989-09-01). «Критические значения для ранговой корреляции Спирмена». Журнал образовательной статистики . 14 (3): 245–253. JSTOR  1165017.
  5. ^ "Руководство по определению частоты паводков" (PDF) . USGS Water . Март 1982 . Получено 2019-06-14 .

Источники

Первичные источники

Вторичные источники

Ссылки