Система Пирсона изначально была разработана в попытке смоделировать явно искаженные наблюдения. В то время было хорошо известно, как настроить теоретическую модель для соответствия первым двум кумулянтам или моментам наблюдаемых данных: Любое распределение вероятностей может быть напрямую расширено для формирования семейства шкалы местоположения . За исключением патологических случаев, семейство шкалы местоположения может быть сделано для соответствия наблюдаемому среднему (первый кумулянт) и дисперсии (второй кумулянт) произвольно хорошо. Однако не было известно, как построить распределения вероятностей, в которых асимметрия (стандартизированный третий кумулянт) и эксцесс (стандартизированный четвертый кумулянт) могли бы быть скорректированы одинаково свободно. Эта потребность стала очевидной при попытке подогнать известные теоретические модели к наблюдаемым данным, которые демонстрировали асимметрию. Примеры Пирсона включают данные о выживаемости, которые обычно асимметричны.
В своей оригинальной статье Пирсон (1895, стр. 360) выделил четыре типа распределений (пронумерованных от I до IV) в дополнение к нормальному распределению (которое изначально было известно как тип V). Классификация зависела от того, поддерживались ли распределения на ограниченном интервале, на полупрямой или на всей действительной прямой ; и были ли они потенциально перекошенными или обязательно симметричными. Вторая статья (Пирсон 1901) исправила два упущения: она переопределила распределение типа V (первоначально просто нормальное распределение , но теперь обратное гамма-распределение ) и ввела распределение типа VI. Вместе первые две статьи охватывают пять основных типов системы Пирсона (I, III, IV, V и VI). В третьей статье Пирсон (1916) ввел дополнительные особые случаи и подтипы (VII по XII).
Райнд (1909, стр. 430–432) разработал простой способ визуализации пространства параметров системы Пирсона, который впоследствии был принят Пирсоном (1916, таблица 1 и стр. 430 и далее, 448 и далее). Типы Пирсона характеризуются двумя величинами, обычно называемыми β 1 и β 2 . Первая — это квадрат асимметрии : β 1 = γ 1 , где γ 1 — асимметрия, или третий стандартизированный момент . Вторым является традиционный эксцесс , или четвертый стандартизированный момент: β 2 = γ 2 + 3. (Современные методы определяют эксцесс γ 2 в терминах кумулянтов, а не моментов, так что для нормального распределения мы имеем γ 2 = 0 и β 2 = 3. Здесь мы следуем историческому прецеденту и используем β 2 .) Диаграмма справа показывает, к какому типу Пирсона относится данное конкретное распределение (идентифицируемое точкой (β 1 , β 2 )).
Плотность Пирсона p определяется как любое допустимое решение дифференциального уравнения (ср. Пирсон 1895, стр. 381)
с:
По словам Орда [3] , Пирсон разработал базовую форму уравнения (1) на основе, во-первых, формулы для производной логарифма функции плотности нормального распределения (которая дает линейную функцию) и, во-вторых, из рекуррентного соотношения для значений в функции массы вероятности гипергеометрического распределения (которая дает линейно-деленную на квадратичную структуру).
В уравнении (1) параметр a определяет стационарную точку , а следовательно, при некоторых условиях и моду распределения, поскольку
следует непосредственно из дифференциального уравнения.
Интеграл в этом решении значительно упрощается, если рассмотреть некоторые особые случаи подынтегральной функции. Пирсон (1895, стр. 367) выделил два основных случая, определяемых знаком дискриминанта ( и, следовательно, числом действительных корней ) квадратичной функции
Конкретные типы распространения
Случай 1, отрицательный дискриминант
Распределение Пирсона типа IV
Если дискриминант квадратичной функции (2) отрицателен ( ), то она не имеет действительных корней. Тогда определим
Заметим, что α — это вполне определенное действительное число и α ≠ 0 , поскольку по предположению и, следовательно, b 2 ≠ 0. Применяя эти замены, квадратичная функция (2) преобразуется в
Отсутствие действительных корней очевидно из этой формулировки, поскольку α2 обязательно положительно.
Теперь выразим решение дифференциального уравнения (1) как функцию y :
Пирсон (1895, стр. 362) назвал это «тригонометрическим случаем», потому что интеграл
Применяя эти замены, получаем параметрическую функцию:
Эта ненормализованная плотность имеет поддержку на всей действительной прямой . Она зависит от параметра масштаба α > 0 и параметров формы m > 1/2 и ν . Один параметр был потерян, когда мы решили найти решение дифференциального уравнения (1) как функцию y, а не x . Поэтому мы снова вводим четвертый параметр, а именно параметр местоположения λ . Таким образом, мы вывели плотность распределения Пирсона типа IV :
Параметр формы ν распределения Пирсона типа IV контролирует его асимметрию . Если мы зафиксируем его значение на нуле, мы получим симметричное трехпараметрическое семейство. Этот особый случай известен как распределение Пирсона типа VII (ср. Pearson 1916, стр. 450). Его плотность равна
Альтернативная параметризация (и небольшая специализация) распределения типа VII получается, если допустить, что
что требует m > 3/2. Это влечет за собой небольшую потерю общности, но гарантирует, что дисперсия распределения существует и равна σ 2 . Теперь параметр m контролирует только эксцесс распределения. Если m стремится к бесконечности, а λ и σ остаются постоянными, нормальное распределение возникает как частный случай:
Это плотность нормального распределения со средним значением λ и стандартным отклонением σ .
Удобно потребовать, чтобы m > 5/2, и пусть
Это еще одна специализация, и она гарантирует, что существуют первые четыре момента распределения. Более конкретно, распределение Пирсона типа VII, параметризованное в терминах (λ, σ, γ 2 ) , имеет среднее значение λ , стандартное отклонение σ , асимметрию нулевую и положительный избыточный эксцесс γ 2 .
Студенческийт-распределение
Распределение Пирсона типа VII эквивалентно нестандартизированному t -распределению Стьюдента с параметрами ν > 0, μ, σ 2 путем применения следующих подстановок к его исходной параметризации:
Обратите внимание, что ограничение m > 1/2 выполняется.
Результирующая плотность равна
что легко распознается как плотность t -распределения Стьюдента .
Это означает, что распределение Пирсона типа VII включает в себя стандартное t -распределение Стьюдента , а также стандартное распределение Коши . В частности, стандартное t -распределение Стьюдента возникает как подслучай, когда μ = 0 и σ 2 = 1, что эквивалентно следующим подстановкам:
Плотность этого ограниченного однопараметрического семейства представляет собой стандартное t Стьюдента :
Случай 2, неотрицательный дискриминант
Если квадратичная функция (2) имеет неотрицательный дискриминант ( ), то она имеет действительные корни a 1 и a 2 (не обязательно различные):
При наличии действительных корней квадратичную функцию (2) можно записать в виде
и решение дифференциального уравнения, следовательно,
Пирсон (1895, стр. 362) назвал это «логарифмическим случаем», потому что интеграл
включает только функцию логарифма , а не функцию арктангенса, как в предыдущем случае.
Используя замену
получаем следующее решение дифференциального уравнения (1):
Поскольку эта плотность известна только с точностью до скрытой константы пропорциональности, эту константу можно изменить и записать плотность следующим образом:
Распределение Пирсона типа I
Распределение Пирсона типа I (обобщение бета-распределения ) возникает, когда корни квадратного уравнения (2) имеют противоположные знаки, то есть . Тогда решение p поддерживается на интервале . Применим замену
где , что дает решение в терминах y , которое поддерживается на интервале (0, 1):
Можно определить:
Перегруппировав константы и параметры, это упрощается до:
Таким образом, следует a с . Оказывается, что m 1 , m 2 > −1 необходимо и достаточно для того, чтобы p была правильной функцией плотности вероятности.
Распределение Пирсона типа II
Распределение Пирсона типа II является частным случаем семейства распределений Пирсона типа I, ограниченного симметричными распределениями.
Для кривой Пирсона типа II, [4]
где
Ордината, y , является частотой . Распределение Пирсона типа II используется при вычислении таблицы значимых коэффициентов корреляции для коэффициента ранговой корреляции Спирмена , когда количество элементов в ряду меньше 100 (или 30, в зависимости от некоторых источников). После этого распределение имитирует стандартное t-распределение Стьюдента . Для таблицы значений определенные значения используются как константы в предыдущем уравнении:
Примерами современных альтернатив диаграмме асимметрии и эксцесса Пирсона являются: (i) https://github.com/SchildCode/PearsonPlot и (ii) «график Каллена и Фрея» в статистическом приложении R.
Приложения
Эти модели используются на финансовых рынках, учитывая их способность параметризоваться таким образом, который имеет интуитивное значение для рыночных трейдеров. В настоящее время используется ряд моделей, которые охватывают стохастическую природу волатильности ставок, акций и т. д., [ какие? ] [ нужна цитата ] и это семейство распределений может оказаться одним из наиболее важных.
В Соединенных Штатах распределение Log-Pearson III является распределением по умолчанию для анализа частоты наводнений. [5]
Недавно были разработаны альтернативы распределению Пирсона, которые более гибкие и их легче подгонять под данные. См. распределения металогов .
Примечания
^ Миллер, Джефф; и др. (2006-07-09). "Бета-распределение". Самые ранние известные случаи использования некоторых слов математики . Получено 2006-12-09 .
^ Миллер, Джефф; и др. (2006-12-07). "Гамма-распределение". Самые ранние известные случаи использования некоторых слов из математики . Получено 2006-12-09 .
^ Ord JK (1972) стр. 2
^ Рэмси, Филип Х. (1989-09-01). «Критические значения для ранговой корреляции Спирмена». Журнал образовательной статистики . 14 (3): 245–253. JSTOR 1165017.
^ "Руководство по определению частоты паводков" (PDF) . USGS Water . Март 1982 . Получено 2019-06-14 .
Источники
Первичные источники
Пирсон, Карл (1893). «Вклад в математическую теорию эволюции [аннотация]». Труды Королевского общества . 54 (326–330): 329–333. doi : 10.1098/rspl.1893.0079 . JSTOR 115538.
Пирсон, Карл (1895). «Вклад в математическую теорию эволюции, II: Косая вариация в однородном материале» (PDF) . Philosophical Transactions of the Royal Society . 186 : 343–414. Bibcode :1895RSPTA.186..343P. doi : 10.1098/rsta.1895.0010 . JSTOR 90649.
Пирсон, Карл (1901). «Математический вклад в теорию эволюции, X: Дополнение к мемуару о косой вариации». Philosophical Transactions of the Royal Society A . 197 (287–299): 443–459. Bibcode :1901RSPTA.197..443P. doi : 10.1098/rsta.1901.0023 . JSTOR 90841.
Пирсон, Карл (1916). «Математический вклад в теорию эволюции, XIX: Второе дополнение к мемуару о косой вариации». Philosophical Transactions of the Royal Society A . 216 (538–548): 429–457. Bibcode :1916RSPTA.216..429P. doi : 10.1098/rsta.1916.0009 . JSTOR 91092.
Райнд, А. (июль–октябрь 1909 г.). «Таблицы для облегчения вычисления вероятных ошибок главных констант распределений частот с перекосом». Biometrika . 7 (1/2): 127–147. doi :10.1093/biomet/7.1-2.127. JSTOR 2345367.