stringtranslate.com

Куртозис

В теории вероятностей и статистике эксцесс ( от греч . κυρτός , kyrtos или kurtos , что означает «изогнутый, выгибающийся » ) — это мера «хвостости» распределения вероятностей вещественнозначной случайной величины . Как и асимметрия , эксцесс описывает конкретный аспект распределения вероятностей. Существуют разные способы количественного определения эксцесса для теоретического распределения, а также соответствующие способы его оценки с использованием выборки из совокупности. Различные меры эксцесса могут иметь разные интерпретации.

Стандартная мера эксцесса распределения, предложенная Карлом Пирсоном [1] , представляет собой масштабированную версию четвертого момента распределения. Это число связано с хвостами распределения, а не с его пиком; [2] следовательно, иногда встречающаяся характеристика эксцесса как « остроконечности » неверна. Для этой меры более высокий эксцесс соответствует большей предельной величине отклонений (или выбросам ), а не конфигурации данных вблизи среднего значения .

Обычно избыточный эксцесс (определенный ниже) распределения сравнивают с 0. Это значение 0 представляет собой избыточный эксцесс любого одномерного нормального распределения . Распределения с отрицательным эксцессом называются платикуртическими , хотя это не означает, что распределение является «плоским», как иногда утверждают. Скорее, это означает, что распределение дает меньше и/или менее экстремальных выбросов, чем нормальное распределение. Примером платикуртического распределения является равномерное распределение , которое не дает выбросов. Распределения с положительным эксцессом называются лептокуртическими . Примером лептокуртического распределения является распределение Лапласа , хвосты которого асимптотически приближаются к нулю медленнее, чем гауссово, и поэтому производят больше выбросов, чем нормальное распределение. Обычной практикой является использование избыточного эксцесса, который определяется как эксцесс Пирсона минус 3, чтобы обеспечить простое сравнение с нормальным распределением . Некоторые авторы и пакеты программного обеспечения используют термин «эксцесс» отдельно для обозначения избыточного эксцесса. Однако для ясности и общности в этой статье явно указано, где имеется в виду неизбыточный эксцесс.

Альтернативными мерами эксцесса являются: L-эксцесс , который представляет собой масштабированную версию четвертого L-момента ; меры, основанные на четырех квантилях генеральной совокупности или выборки . [3] Они аналогичны альтернативным мерам асимметрии , которые не основаны на обычных моментах. [3]

Моменты Пирсона

Эксцесс – это четвертый стандартизованный момент , определяемый как где μ 4 – четвертый центральный момент , а σстандартное отклонение . В литературе для обозначения эксцесса используется несколько букв. Очень распространенным выбором является κ , и это нормально, если ясно, что оно не относится к кумулянту . Другие варианты включают γ 2 , что аналогично обозначению асимметрии, хотя иногда вместо этого используется избыточный эксцесс.

Эксцесс ограничен снизу квадратом асимметрии плюс 1: [4] :432,  где μ 3 — третий центральный момент . Нижняя оценка реализуется распределением Бернулли . У эксцесса общего распределения вероятностей нет верхнего предела, и он может быть бесконечным.

Причина, по которой некоторые авторы отдают предпочтение избыточному эксцессу, заключается в том, что кумулянты обширны . Формулы, связанные с экстенсивным свойством, более естественно выражать через избыточный эксцесс. Например, пусть X 1 , ..., X n — независимые случайные величины, для которых существует четвертый момент, и пусть Y — случайная величина, определяемая суммой X i . Избыточный эксцесс Y равен стандартному отклонению . В частности, если все X i имеют одинаковую дисперсию, то это упрощается до

Причина, по которой не следует вычитать 3, заключается в том, что голый момент лучше обобщается на многомерные распределения , особенно когда не предполагается независимость. Кокуртозис между парами переменных представляет собой тензор четвертого порядка . Для двумерного нормального распределения тензор кокуртозиса имеет недиагональные члены, которые в целом не равны ни 0, ни 3, поэтому попытка «исправить» избыток становится запутанной. Однако верно, что совместные кумулянты степени больше двух для любого многомерного нормального распределения равны нулю.

Для двух случайных величин X и Y , не обязательно независимых, эксцесс суммы X  +  Y равен Обратите внимание, что в приведенном выше уравнении фигурируют биномиальные коэффициенты четвертой степени (1, 4, 6, 4, 1).

Интерпретация

Точная интерпретация меры эксцесса Пирсона (или избыточного эксцесса) раньше оспаривалась, но теперь решена. Как отмечает Вестфолл в 2014 году [2] : «...его единственная однозначная интерпретация связана с конечной точкой хвоста; т.е. либо существующими выбросами (для эксцесса выборки), либо склонностью производить выбросы (для эксцесса распределения вероятностей). " Логика проста: куртозис — это среднее (или ожидаемое значение ) стандартизированных данных, возведенное в четвертую степень. Стандартизированные значения меньше 1 (т. е. данные в пределах одного стандартного отклонения от среднего значения, где должен находиться «пик») практически не способствуют эксцессу, поскольку возведение числа меньше 1 в четвертую степень приближает его к эксцессу. нуль. Единственные значения данных (наблюдаемые или наблюдаемые), которые каким-либо значимым образом способствуют эксцессу, - это значения за пределами области пика; то есть выбросы. Следовательно, эксцесс измеряет только выбросы; он ничего не измеряет относительно «пика».

Было дано множество неверных интерпретаций эксцесса, включающих понятие остроты. Во-первых, эксцесс измеряет как «остроконечность» распределения, так и тяжесть его хвоста . [5] Были предложены различные другие неправильные интерпретации, такие как «отсутствие плеч» (где «плечо» неопределенно определяется как область между пиком и хвостом или, более конкретно, как область примерно на одно стандартное отклонение от среднего значения). ) или «бимодальность». [6] Баланда и МакГилливрей утверждают, что стандартное определение эксцесса «является плохой мерой эксцесса, остроты или хвостовой массы распределения» [5] : 114  , и вместо этого предлагают «расплывчато определять эксцесс как местоположение и масштаб распределения». -свободное движение вероятностной массы от плеч распределения к его центру и хвостам». [5]

Толкование мавров

В 1986 году Мавр дал интерпретацию эксцесса. [7] Пусть где X — случайная величина, μ — среднее значение, а σ — стандартное отклонение.

Теперь по определению эксцесса и известному тождеству

Эксцесс теперь можно рассматривать как меру отклонения Z 2 от ожидаемого значения. В качестве альтернативы его можно рассматривать как меру дисперсии Z вокруг +1 и -1. κ достигает своего минимального значения в симметричном двухточечном распределении. В терминах исходной переменной X эксцесс является мерой дисперсии X вокруг двух значений μ  ±  σ .

Высокие значения κ возникают в двух случаях:

Максимальная энтропия

Энтропия распределения равна .

Для любого с положительно определенным среди всех распределений вероятностей со средним и ковариацией нормальное распределение имеет наибольшую энтропию.

Поскольку среднее значение и ковариация являются первыми двумя моментами, естественно рассмотреть расширение до более высоких моментов. Фактически, согласно методу множителей Лагранжа , для любых предписанных первых n моментов, если существует некоторое распределение вероятностей формы , имеющей предписанные моменты (если это осуществимо), то это максимальное распределение энтропии при данных ограничениях. [8] [9]

Путем последовательного разложения, поэтому, если случайная величина имеет распределение вероятностей , где - константа нормализации, то ее эксцесс равен . [10]

Избыточный эксцесс

Избыточный эксцесс определяется как эксцесс минус 3. Существует 3 различных режима, описанных ниже.

Мезокуртический

Распределения с нулевым избыточным эксцессом называются мезокуртическими , или мезокуртотическими . Наиболее ярким примером мезокуртического распределения является семейство нормального распределения, независимо от значений его параметров . Несколько других известных распределений могут быть мезокуртическими, в зависимости от значений параметров: например, биномиальное распределение является мезокуртическим для .

Лептокуртический

Распределение с положительным эксцессом называется лептокуртическим , или лептокуртотическим . «Лепто-» означает «стройный». [11] Что касается формы, лептокуртическое распределение имеет более толстые хвосты . Примеры лептокуртических распределений включают t-распределение Стьюдента , распределение Рэлея , распределение Лапласа , экспоненциальное распределение , распределение Пуассона и логистическое распределение . Такие распределения иногда называют супергауссовскими . [12]

Три симметричные все более лептокуртические функции плотности вероятности; их пересечения обозначены вертикальными линиями.

Платикуртик

Подбрасывание монеты — наиболее платикуртное распределение.

Распределение с отрицательным эксцессом называется платикуртическим , или платикуртотическим . «Плати-» означает «широкий». [13] Что касается формы, платикуртическое распределение имеет более тонкие хвосты . Примеры платикуртовых распределений включают непрерывные и дискретные равномерные распределения , а также распределение приподнятого косинуса . Самым платикуртовым распределением из всех является распределение Бернулли с p = 1/2 (например, сколько раз выпадает «орел» при однократном подбрасывании монеты, подбрасывании монеты ), для которого избыточный эксцесс равен -2.

Графические примеры

Семейство Пирсона VII типа.

pdf для распределения Пирсона типа VII с избыточным эксцессом бесконечности (красный); 2 (синий); и 0 (черный)
log-pdf для распределения Пирсона типа VII с избыточным эксцессом бесконечности (красный); 2 (синий); 1, 1/2, 1/4, 1/8 и 1/16 (серый); и 0 (черный)

Эффекты эксцесса иллюстрируются с помощью параметрического семейства распределений, эксцесс которых можно регулировать, в то время как их младшие моменты и кумулянты остаются постоянными. Рассмотрим семейство Пирсона типа VII , которое является частным случаем семейства Пирсона типа IV, ограниченным симметричными плотностями. Функция плотности вероятности определяется следующим образом: где aпараметр масштаба , а mпараметр формы .

Все плотности в этом семействе симметричны. k - й момент существует, если m  > ( k  + 1)/2. Для существования эксцесса необходимо m  > 5/2. Тогда среднее значение и асимметрия существуют и оба тождественно равны нулю. Установка a 2  = 2 m  − 3 делает дисперсию равной единице. Тогда единственным свободным параметром является m , который управляет четвертым моментом (и кумулянтом) и, следовательно, эксцессом. Можно выполнить повторную параметризацию с помощью , где – избыточный эксцесс, определенный выше. Это дает однопараметрическое лептокуртическое семейство с нулевым средним значением, единичной дисперсией, нулевой асимметрией и произвольным неотрицательным избыточным эксцессом. Репараметризованная плотность равна

В пределе получается плотность , которая показана красной кривой на изображениях справа.

В другом направлении получается стандартная нормальная плотность в качестве предельного распределения, показанного черной кривой.

На изображениях справа синяя кривая представляет плотность с избыточным эксцессом, равным 2. Верхнее изображение показывает, что плотность лептокуртов в этом семействе имеет более высокий пик, чем нормальная плотность мезокуртов, хотя этот вывод справедлив только для этого избранного семейства распределения. Сравнительно более толстые хвосты лептокуртических плотностей показаны на втором изображении, на котором изображен натуральный логарифм плотностей Пирсона типа VII: черная кривая — это логарифм стандартной нормальной плотности, которая представляет собой параболу . Можно видеть, что нормальная плотность распределяет небольшую вероятностную массу областям, далеким от среднего значения («имеет тонкие хвосты»), по сравнению с синей кривой лептокуртической плотности Пирсона VII типа с избыточным эксцессом 2. Между синей кривой и черные — другие плотности Пирсона типа VII с γ 2  = 1, 1/2, 1/4, 1/8 и 1/16. Красная кривая снова показывает верхний предел семейства Пирсона VII типа, с (что, строго говоря, означает, что четвертого момента не существует). Красная кривая уменьшается медленнее всего по мере движения наружу от начала координат («имеет толстые хвосты»).

Другие известные дистрибутивы

Функции плотности вероятности для выбранных распределений со средним значением 0, дисперсией 1 и различным избыточным эксцессом
Логарифмы функций плотности вероятности для выбранных распределений со средним значением 0, дисперсией 1 и различным избыточным эксцессом

Здесь сравниваются несколько известных унимодальных и симметричных распределений из разных параметрических семейств. Каждый из них имеет среднее значение и асимметрию, равные нулю. Параметры были выбраны так, чтобы в каждом случае получить дисперсию, равную 1. На изображениях справа показаны кривые для следующих семи плотностей в линейном и логарифмическом масштабе :

Заметим, что в этих случаях платикуртические плотности имеют ограниченную поддержку , тогда как плотности с положительным или нулевым эксцессом поддерживаются на всей действительной прямой .

Нельзя сделать вывод, что распределения с высоким или низким эксцессом обладают характеристиками, указанными в этих примерах. Существуют платикуртические плотности с бесконечной поддержкой,

и существуют лептокуртические плотности с конечным носителем.

Также существуют платикуртные плотности с бесконечной остроконечностью,

существуют лептокуртические плотности, которые кажутся плоскими,

Выборочный эксцесс

Определения

Естественная, но предвзятая оценка

Для выборки из n значений метод оценки моментов избыточного эксцесса генеральной совокупности может быть определен следующим образом: где m 4 — четвертый момент выборки относительно среднего значения , m 2 — второй момент выборки относительно среднего значения (т. е. выборочная дисперсия ), x i — iзначение , а — выборочное среднее .

Эта формула имеет более простое представление, где значения представляют собой стандартизированные значения данных с использованием стандартного отклонения, определенного с использованием n , а не n  - 1 в знаменателе.

Например, предположим, что значения данных: 0, 3, 4, 1, 2, 3, 0, 2, 1, 3, 2, 0, 2, 2, 3, 2, 5, 2, 3, 999.

Тогда значения составляют -0,239, -0,225, -0,221, -0,234, -0,230, -0,225, -0,239, -0,230, -0,234, -0,225, -0,230, -0,239, -0,230, -0,230, -0,225, - 0,230, -0,216, -0,230, -0,225, 4,359

и значения: 0,003, 0,003, 0,002, 0,003, 0,003, 0,003, 0,003, 0,003, 0,003, 0,003, 0,003, 0,003, 0,003, 0,003, 0,003, 0,003, 0,002, 0,003, 0,003, 360,976.

Среднее из этих значений составляет 18,05, а избыточный эксцесс составляет, таким образом, 18,05 - 3 = 15,05. Этот пример проясняет, что данные вблизи «середины» или «пика» распределения не вносят вклад в статистику эксцесса, следовательно, эксцесс не измеряет «остроконечность». Это просто мера выброса, в данном примере 999.

Стандартная несмещенная оценка

Учитывая подмножество выборок из совокупности, приведенный выше избыточный эксцесс выборки является смещенной оценкой избыточного эксцесса совокупности. Альтернативная оценка эксцесса генеральной совокупности, несмещенная в случайных выборках нормального распределения, определяется следующим образом: [3] где k 4 – уникальная симметричная несмещенная оценка четвертого кумулянта , k 2 – несмещенная оценка второй кумулянт (идентичный несмещенной оценке выборочной дисперсии), m 4 — четвертый момент выборки относительно среднего значения, m 2 — второй момент выборки относительно среднего значения, xi — iзначение и выборочное среднее значение . Этот скорректированный стандартизированный коэффициент момента Фишера-Пирсона представляет собой версию, найденную в Excel и нескольких статистических пакетах, включая Minitab , SAS и SPSS . [14]

К сожалению, ненормальные выборки сами по себе обычно предвзяты.

Верхняя граница

Верхняя граница эксцесса выборки для n ( n > 2) действительных чисел равна [15], где – соответствующая асимметрия выборки.

Дисперсия при нормальности

Отклонение выборочного эксцесса выборки размера n от нормального распределения составляет [16]

Другими словами, в предположении, что основная случайная величина имеет нормальное распределение, можно показать, что . [17] : Требуется номер страницы. 

Приложения

Эксцесс выборки является полезным показателем того, существует ли проблема с выбросами в наборе данных. Больший эксцесс указывает на более серьезную проблему выбросов и может побудить исследователя выбрать альтернативные статистические методы.

Критерий K-квадрата Д'Агостино представляет собой критерий согласия нормальности, основанный на сочетании асимметрии выборки и эксцесса выборки, а также критерий Жарка-Бера на нормальность.

Для ненормальных выборок дисперсия выборочной дисперсии зависит от эксцесса; для получения подробной информации см. отклонение .

Определение эксцесса, данное Пирсоном, используется как индикатор перемежаемости турбулентности . [18] Он также используется в магнитно-резонансной томографии для количественной оценки негауссовой диффузии. [19]

Конкретным примером является следующая лемма Хэ, Чжана и Чжана: [20] Предположим, что случайная величина имеет математическое ожидание , дисперсию и эксцесс. Предположим, мы отбираем множество независимых копий. Затем

Это показывает, что из многих образцов мы увидим тот, который превышает ожидаемое с вероятностью не менее . Другими словами: если эксцесс велик, мы можем увидеть множество значений либо ниже, либо выше среднего.

Куртозисная сходимость

При применении полосовых фильтров к цифровым изображениям значения эксцесса имеют тенденцию быть однородными, независимо от диапазона фильтра. Такое поведение, называемое эксцессивной конвергенцией , можно использовать для обнаружения сращивания изображений в судебно-медицинской экспертизе . [21]

Другие меры

Другая мера «эксцесса» достигается за счет использования L-моментов вместо обычных моментов. [22] [23]

Смотрите также

Рекомендации

  1. ^ Пирсон, Карл (1905), «Das Fehlergesetz und seine Verallgemeinerungen durch Fechner und Pearson. Ответ» [Закон ошибок и его обобщения Фехнера и Пирсона. Ответ], Биометрика , 4 (1–2): 169–212, doi : 10.1093/biomet/4.1-2.169, JSTOR  2331536.
  2. ^ ab Westfall, Питер Х. (2014), «Куртозис как пик, 1905–2014. RIP », The American Statistician , 68 (3): 191–195, doi : 10.1080/00031305.2014.917055, PMC 4321753 , PMID  25678714 
  3. ^ abc Джоанс, Деррик Н.; Гилл, Кристин А. (1998), «Сравнение показателей асимметрии выборки и эксцесса», Журнал Королевского статистического общества, серия D , 47 (1): 183–189, номер документа : 10.1111/1467-9884.00122, JSTOR  2988433
  4. ^ Пирсон, Карл (1916), «Математический вклад в теорию эволюции. - XIX. Второе приложение к мемуарам о косой вариации». , Philosophical Transactions of the Royal Society of London A , 216 (546): 429–457, Бибкод : 1916RSPTA.216..429P, doi : 10.1098/rsta.1916.0009 , JSTOR  91092
  5. ^ abc Баланда, Кевин П.; МакГилливрей, Хелен Л. (1988), «Куртозис: критический обзор», The American Statistician , 42 (2): 111–119, doi : 10.2307/2684482, JSTOR  2684482
  6. ^ Дарлингтон, Ричард Б. (1970), «Действительно ли куртозис «остроконечен»?», The American Statistician , 24 (2): 19–22, doi : 10.1080/00031305.1970.10478885, JSTOR  2681925
  7. ^ Мурс, JJA (1986), «Значение эксцесса: пересмотр Дарлингтона», The American Statistician , 40 (4): 283–284, doi : 10.1080/00031305.1986.10475415, JSTOR  2684603
  8. ^ Тальяни, А. (1 декабря 1990 г.). «О существовании распределений максимальной энтропии с четырьмя и более заданными моментами». Вероятностная инженерная механика . 5 (4): 167–170. Бибкод : 1990PEngM...5..167T. дои : 10.1016/0266-8920(90)90017-E. ISSN  0266-8920.
  9. ^ Рокинджер, Майкл; Жондо, Эрик (1 января 2002 г.). «Плотность энтропии с применением авторегрессионной условной асимметрии и эксцесса». Журнал эконометрики . 106 (1): 119–142. дои : 10.1016/S0304-4076(01)00092-6. ISSN  0304-4076.
  10. ^ Брэдд, Серена; Бялек, Уильям (01 мая 2017 г.). «PCA встречает RG». Журнал статистической физики . 167 (3): 462–475. arXiv : 1610.09733 . Бибкод : 2017JSP...167..462B. дои : 10.1007/s10955-017-1770-6. ISSN  1572-9613. ПМК 6054449 . ПМИД  30034029. 
  11. ^ "Лепто-".
  12. ^ Бенвенист, Альберт; Гурса, Морис; Рюже, Габриэль (1980), «Надежная идентификация системы с неминимальной фазой: слепая настройка линейного эквалайзера при передаче данных», IEEE Transactions on Auto Control , 25 (3): 385–399, doi : 10.1109/tac.1980.1102343
  13. ^ «platy-: определение, использование и произношение - YourDictionary.com» . Архивировано из оригинала 20 октября 2007 г.
  14. ^ Доан Д.П., Сьюард Л.Е. (2011) J Stat Educ 19 (2)
  15. ^ Шарма, Раджеш; Бхандари, Раджив К. (2015), «Асимметрия, эксцесс и неравенство Ньютона», Rocky Mountain Journal of Mathematics , 45 (5): 1639–1643, arXiv : 1309.2896 , doi : 10.1216/RMJ-2015-45-5-1639 , S2CID  88513237
  16. ^ Фишер, Рональд А. (1930), «Моменты распределения нормальных выборок мер отклонения от нормальности», Proceedings of the Royal Society A , 130 (812): 16–28, Бибкод : 1930RSPSA.130.. .16F, doi : 10.1098/rspa.1930.0185, hdl : 2440/15205 , JSTOR  95586, S2CID  121520301
  17. ^ Кендалл, Морис Г.; Стюарт, Алан (1969), Передовая теория статистики, Том 1: Теория распределения (3-е изд.), Лондон, Великобритания: Charles Griffin & Company Limited, ISBN 0-85264-141-9
  18. ^ Сэндборн, Вирджил А. (1959), «Измерения прерывистости турбулентного движения в пограничном слое», Журнал механики жидкости , 6 (2): 221–240, Бибкод : 1959JFM.....6..221S, doi : 10.1017/S0022112059000581, S2CID  121838685
  19. ^ Дженсен, Дж.; Хелперн, Дж.; Рамани, А.; Лу, Х.; Качиньский, К. (19 мая 2005 г.). «Диффузионная эксцессная визуализация: количественная оценка негауссовой диффузии воды с помощью магнитно-резонансной томографии». Маг Резон Мед . 53 (6): 1432–1440. дои : 10.1002/мрм.20508. PMID  15906300. S2CID  11865594.
  20. ^ Он, Симай; Чжан, Цзявэй; Чжан, Шучжун (2010). «Ограничивающая вероятность небольшого отклонения: подход четвертого момента». Математика исследования операций . 35 (1): 208–232. дои : 10.1287/moor.1090.0438. S2CID  11298475.
  21. ^ Пан, Сюньюй; Чжан, Син; Лю, Сивэй (2012), «Выявление совмещения изображений с непостоянными локальными отклонениями шума», Международная конференция IEEE по вычислительной фотографии (ICCP) , 2012 г., 28–29 апреля 2012 г.; Сиэтл, Вашингтон, США: IEEE, стр. 1–10, номер документа : 10.1109/ICCPhot.2012.6215223, ISBN. 978-1-4673-1662-0, S2CID  14386924{{citation}}: CS1 maint: location (link)
  22. ^ Хоскинг, Джонатан Р.М. (1992), «Моменты или L моменты? Пример сравнения двух показателей формы распределения», The American Statistician , 46 (3): 186–189, doi : 10.1080/00031305.1992.10475880, JSTOR  2685210
  23. ^ Хоскинг, Джонатан Р.М. (2006), «О характеристике распределений по их L -моментам», Журнал статистического планирования и вывода , 136 (1): 193–198, doi : 10.1016/j.jspi.2004.06.004

дальнейшее чтение

Внешние ссылки