stringtranslate.com

Эксцесс

В теории вероятностей и статистике эксцесс (от греч . κυρτός , kyrtos или kurtos , что означает «изогнутый, выгнутый » ) относится к степени «хвостатости» в распределении вероятностей действительной случайной величины . Подобно асимметрии , эксцесс дает представление о конкретных характеристиках распределения. Существуют различные методы количественной оценки эксцесса в теоретических распределениях, и соответствующие методы позволяют проводить оценку на основе выборочных данных из популяции. Важно отметить, что различные меры эксцесса могут давать различные интерпретации.

Стандартная мера эксцесса распределения, введенная Карлом Пирсоном , [1] представляет собой масштабированную версию четвертого момента распределения. Это число относится к хвостам распределения, а не к его пику; [2] следовательно, иногда встречающаяся характеристика эксцесса как « пикообразности » неверна. Для этой меры более высокий эксцесс соответствует большей экстремальности отклонений (или выбросов ), а не конфигурации данных вблизи среднего .

Избыточный эксцесс, обычно сравниваемый со значением 0, характеризует «хвостость» распределения. Одномерное нормальное распределение имеет избыточный эксцесс, равный 0. Отрицательный избыточный эксцесс указывает на распределение платикурта, которое не обязательно имеет плоскую вершину, но производит меньше или менее экстремальных выбросов, чем нормальное распределение. Например, равномерное распределение является платикуртом. С другой стороны, положительный избыточный эксцесс означает распределение лептокурта. Распределение Лапласа , например, имеет хвосты, которые затухают медленнее, чем гауссово, что приводит к большему количеству выбросов. Для упрощения сравнения с нормальным распределением избыточный эксцесс рассчитывается как эксцесс Пирсона минус 3. Некоторые авторы и программные пакеты используют «эксцесс» для обозначения именно избыточного эксцесса, но в этой статье для ясности проводится различие между ними.

Альтернативными мерами эксцесса являются: L-эксцесс , который является масштабированной версией четвертого L-момента ; меры, основанные на четырех квантилях совокупности или выборки . [3] Они аналогичны альтернативным мерам асимметрии , которые не основаны на обычных моментах. [3]

Пирсон моменты

Эксцесс — это четвертый стандартизированный момент , определяемый как , где μ 4 — четвертый центральный момент , а σстандартное отклонение . В литературе для обозначения эксцесса используется несколько букв. Очень распространенный выбор — κ , что приемлемо, если ясно, что это не относится к кумулянту . Другие варианты включают γ 2 , чтобы быть похожим на обозначение для асимметрии, хотя иногда это вместо этого зарезервировано для избыточного эксцесса.

Эксцесс ограничен снизу квадратом асимметрии плюс 1: [4] : 432  , где μ 3 — третий центральный момент . Нижняя граница реализуется распределением Бернулли . Верхнего предела эксцесса общего распределения вероятностей не существует, и он может быть бесконечным.

Причина, по которой некоторые авторы отдают предпочтение избыточному эксцессу, заключается в том, что кумулянты являются экстенсивными . Формулы, связанные со свойством экстенсивности, более естественно выражаются в терминах избыточного эксцесса. Например, пусть X 1 , ..., X n будут независимыми случайными величинами, для которых существует четвертый момент, и пусть Y будет случайной величиной, определяемой суммой X i . Избыточный эксцесс Y равен , где — стандартное отклонение . В частности, если все X i имеют одинаковую дисперсию, то это упрощается до

Причина, по которой не следует вычитать 3, заключается в том, что голый момент лучше обобщается на многомерные распределения , особенно когда независимость не предполагается. Кокуртозис между парами переменных является тензором четвертого порядка . Для двумерного нормального распределения тензор кокуртозиса имеет недиагональные члены, которые в общем случае не равны ни 0, ни 3, поэтому попытка «исправить» избыток становится запутанной. Однако верно, что совместные кумулянты степени выше двух для любого многомерного нормального распределения равны нулю.

Для двух случайных величин X и Y , не обязательно независимых, эксцесс суммы X  +  Y равен Обратите внимание, что в приведенном выше уравнении присутствуют биномиальные коэффициенты четвертой степени (1, 4, 6, 4, 1).

Интерпретация

Интерпретация меры эксцесса Пирсона (или избыточного эксцесса) когда-то была предметом споров, но теперь она общепризнана. Как отметил Вестфолл в 2014 году [2] , «... его однозначная интерпретация относится к конечности хвоста. В частности, он отражает либо наличие существующих выбросов (для выборочного эксцесса), либо тенденцию к образованию выбросов (для эксцесса распределения вероятностей). Основная логика проста: эксцесс представляет собой среднее (или ожидаемое значение ) стандартизированных данных, возведенных в четвертую степень. Стандартизированные значения меньше 1 — соответствующие данным в пределах одного стандартного отклонения от среднего (где возникает «пик») — вносят минимальный вклад в эксцесс. Это происходит потому, что возведение числа меньше 1 в четвертую степень приближает его к нулю. Значимыми факторами, вносящими вклад в эксцесс, являются значения данных за пределами области пика, т. е. выбросы. Поэтому эксцесс в первую очередь измеряет выбросы и не дает никакой информации о центральном «пике».

Многочисленные заблуждения об эксцессе связаны с понятиями пикообразности. Одно из таких заблуждений заключается в том, что эксцесс измеряет как «пиковость» распределения, так и тяжесть его хвоста . [5] Другие неверные интерпретации включают такие понятия, как «отсутствие плеч» (где «плечо» неопределенно относится к области между пиком и хвостом, или, более конкретно, к области около одного стандартного отклонения от среднего) или «бимодальность». [6] Баланда и Макгилливрей утверждают, что стандартное определение эксцесса «плохо отражает эксцесс, пикообразность или вес хвоста распределения». Вместо этого они предлагают неопределенное определение эксцесса как перемещения массы вероятности без местоположения и масштаба от плеч распределения к его центру и хвостам. [5]

Интерпретация мавров

В 1986 году Мурс дал интерпретацию эксцесса. [7] Пусть где X — случайная величина, μ — среднее значение, а σ — стандартное отклонение.

Теперь по определению эксцесса и по известному тождеству

Эксцесс теперь можно рассматривать как меру дисперсии Z 2 вокруг его ожидания. С другой стороны, его можно рассматривать как меру дисперсии Z вокруг +1 и −1. κ достигает своего минимального значения в симметричном двухточечном распределении. В терминах исходной переменной X эксцесс является мерой дисперсии X вокруг двух значений μ  ±  σ .

Высокие значения κ возникают в двух случаях:

Максимальная энтропия

Энтропия распределения равна .

Для любого с положительной определенностью среди всех распределений вероятностей со средним значением и ковариацией нормальное распределение имеет наибольшую энтропию.

Поскольку среднее значение и ковариация являются первыми двумя моментами, естественно рассмотреть расширение на более высокие моменты. Фактически, по методу множителей Лагранжа , для любых предписанных первых n моментов, если существует некоторое распределение вероятностей формы , которая имеет предписанные моменты (если это осуществимо), то это максимальное распределение энтропии при заданных ограничениях. [8] [9]

Последовательным расширением, если случайная величина имеет распределение вероятностей , где — константа нормализации, то ее эксцесс равен . [10]

Избыточный эксцесс

Избыточный эксцесс определяется как эксцесс минус 3. Существует 3 различных режима, описанных ниже.

Мезокуртик

Распределения с нулевым избыточным эксцессом называются мезокуртическими , или мезокуртотическими . Наиболее ярким примером мезокуртического распределения является семейство нормальных распределений, независимо от значений его параметров . Несколько других известных распределений могут быть мезокуртическими, в зависимости от значений параметров: например, биномиальное распределение является мезокуртическим для .

Лептокуртик

Распределение с положительным избыточным эксцессом называется лептокуртотическим или лептокуртотическим . «Лепто-» означает «тонкий». [11] С точки зрения формы лептокуртотическое распределение имеет более толстые хвосты . Примерами лептокуртотических распределений являются t-распределение Стьюдента , распределение Рэлея , распределение Лапласа , экспоненциальное распределение , распределение Пуассона и логистическое распределение . Такие распределения иногда называют супергауссовыми . [12]

Три симметричные, все более лептокуртические функции плотности вероятности; их пересечения обозначены вертикальными линиями.

Платикуртик

Подбрасывание монеты — самое платикуртическое распределение

Распределение с отрицательным избыточным эксцессом называется платикуртическим , или платикуртотическим . «Плати-» означает «широкий». [13] С точки зрения формы, платикуртическое распределение имеет более тонкие хвосты . Примерами платикуртовых распределений являются непрерывное и дискретное равномерное распределение , а также распределение с приподнятым косинусом . Наиболее платикуртовым распределением из всех является распределение Бернулли с p = 1/2 (например, количество раз, когда человек получает «орел» при однократном подбрасывании монеты, подбрасывание монеты ), для которого избыточный эксцесс равен −2.

Графические примеры

Семейство Пирсона типа VII

pdf для распределения Пирсона типа VII с избыточным эксцессом бесконечности (красный); 2 (синий); и 0 (черный)
log-pdf для распределения Пирсона типа VII с избыточным эксцессом бесконечности (красный); 2 (синий); 1, 1/2, 1/4, 1/8 и 1/16 (серый); и 0 (черный)

Эффекты эксцесса проиллюстрированы с помощью параметрического семейства распределений, эксцесс которых может быть скорректирован, в то время как их моменты и кумулянты низшего порядка остаются постоянными. Рассмотрим семейство Пирсона типа VII , которое является частным случаем семейства Пирсона типа IV, ограниченного симметричными плотностями. Функция плотности вероятности задается как , где aпараметр масштаба , а mпараметр формы .

Все плотности в этом семействе симметричны. k -й момент существует при условии m  > ( k  + 1)/2. Для существования эксцесса нам требуется m  > 5/2. Тогда существуют среднее значение и асимметрия , и оба они тождественно равны нулю. Установка a 2  = 2 m  − 3 делает дисперсию равной единице. Тогда единственным свободным параметром является m , который управляет четвертым моментом (и кумулянтом) и, следовательно, эксцессом. Можно перепараметризовать с помощью , где — избыточный эксцесс, как определено выше. Это дает однопараметрическое лептокуртическое семейство с нулевым средним значением, единичной дисперсией, нулевой асимметрией и произвольным неотрицательным избыточным эксцессом. Перепараметризованная плотность имеет вид

В пределе получаем плотность , показанную красной кривой на рисунках справа.

В обратном направлении получаем стандартную нормальную плотность как предельное распределение, показанное черной кривой.

На изображениях справа синяя кривая представляет плотность с избыточным эксцессом 2. Верхнее изображение показывает, что лептокуртические плотности в этом семействе имеют более высокий пик, чем мезокуртическая нормальная плотность, хотя этот вывод действителен только для этого избранного семейства распределений. Сравнительно более толстые хвосты лептокуртических плотностей показаны на втором изображении, которое отображает натуральный логарифм плотностей Пирсона типа VII: черная кривая — это логарифм стандартной нормальной плотности, которая является параболой . Видно, что нормальная плотность выделяет небольшую вероятностную массу областям, далеким от среднего значения («имеет тонкие хвосты»), по сравнению с синей кривой лептокуртической плотности Пирсона типа VII с избыточным эксцессом 2. Между синей и черной кривой находятся другие плотности Пирсона типа VII с γ 2  = 1, 1/2, 1/4, 1/8 и 1/16. Красная кривая снова показывает верхний предел семейства Пирсона типа VII, с (что, строго говоря, означает, что четвертый момент не существует). Красная кривая убывает медленнее всего по мере удаления от начала координат («имеет толстые хвосты»).

Другие известные дистрибутивы

Функции плотности вероятности для выбранных распределений со средним значением 0, дисперсией 1 и различным избыточным эксцессом
Логарифмы функций плотности вероятности для выбранных распределений со средним значением 0, дисперсией 1 и различным избыточным эксцессом

Здесь сравниваются несколько известных, унимодальных и симметричных распределений из разных параметрических семейств. Каждое из них имеет среднее значение и асимметрию, равные нулю. Параметры были выбраны так, чтобы в каждом случае дисперсия была равна 1. Изображения справа показывают кривые для следующих семи плотностей в линейном и логарифмическом масштабах :

Обратите внимание, что в этих случаях плотности платикурта имеют ограниченную поддержку , тогда как плотности с положительным или нулевым избыточным эксцессом поддерживаются на всей действительной прямой .

Нельзя сделать вывод, что распределения с высоким или низким эксцессом имеют характеристики, указанные в этих примерах. Существуют плотности платикурта с бесконечной поддержкой,

и существуют лептокуртические плотности с конечной поддержкой.

Также существуют платикуртические плотности с бесконечной пикообразностью,

и существуют лептокуртические плотности, которые кажутся плоскими,

Эксцесс выборки

Определения

Естественная, но предвзятая оценка

Для выборки из n значений метод оценки моментов избыточного эксцесса популяции можно определить следующим образом: где m 4 — четвертый момент выборки относительно среднего , m 2 — второй момент выборки относительно среднего (то есть дисперсия выборки ), x ii -е значение , а — среднее выборки .

Эта формула имеет более простое представление, где значения являются стандартизированными значениями данных с использованием стандартного отклонения, определенного с использованием n, а не n  − 1 в знаменателе.

Например, предположим, что значения данных равны 0, 3, 4, 1, 2, 3, 0, 2, 1, 3, 2, 0, 2, 2, 3, 2, 5, 2, 3, 999.

Тогда значения будут −0,239, −0,225, −0,221, −0,234, −0,230, −0,225, −0,239, −0,230, −0,234, −0,225, −0,230, −0,239, −0,230, −0,230, −0,225, −0,230, −0,216, −0,230, −0,225, 4,359

и значения 0,003, 0,003, 0,002, 0,003, 0,003, 0,003, 0,003, 0,003, 0,003, 0,003, 0,003, 0,003, 0,003, 0,003, 0,002, 0,003, 0,003, 360,976.

Среднее значение этих значений равно 18,05, а избыточный эксцесс, таким образом, равен 18,05 − 3 = 15,05. Этот пример ясно показывает, что данные вблизи «середины» или «пика» распределения не вносят вклад в статистику эксцесса, поэтому эксцесс не измеряет «пиковость». Это просто мера выброса, 999 в этом примере.

Стандартная несмещенная оценка

При наличии подмножества выборок из популяции избыточный эксцесс выборки выше является смещенной оценкой избыточного эксцесса популяции. Альтернативная оценка избыточного эксцесса популяции, которая является несмещенной в случайных выборках нормального распределения, определяется следующим образом: [3] где k 4 является уникальной симметричной несмещенной оценкой четвертого кумулянта , k 2 является несмещенной оценкой второго кумулянта (идентичной несмещенной оценке дисперсии выборки), m 4 является четвертым моментом выборки относительно среднего, m 2 является вторым моментом выборки относительно среднего, x i является i значением и является средним значением выборки. Этот скорректированный стандартизированный коэффициент момента Фишера-Пирсона является версией, найденной в Excel и нескольких статистических пакетах, включая Minitab , SAS и SPSS . [14]

К сожалению, в ненормальных выборках само по себе, как правило, предвзято.

Верхняя граница

Верхняя граница для выборочного эксцесса n ( n > 2) действительных чисел равна [15], где — соответствующая выборочная асимметрия.

Отклонение от нормального распределения

Дисперсия выборочного эксцесса выборки размера n от нормального распределения равна [16]

Другими словами, при условии, что базовая случайная величина распределена нормально, можно показать, что . [17] : Необходимый номер страницы 

Приложения

Эксцесс выборки является полезной мерой того, есть ли проблема с выбросами в наборе данных. Больший эксцесс указывает на более серьезную проблему с выбросами и может побудить исследователя выбрать альтернативные статистические методы.

Тест K-квадрат Д'Агостино — это тест на нормальность, основанный на сочетании асимметрии выборки и эксцесса выборки, как и тест Харке–Бера на нормальность.

Для ненормальных выборок дисперсия выборки зависит от эксцесса; подробности см. в разделе дисперсия .

Определение эксцесса Пирсона используется как индикатор прерывистости турбулентности . [18] Оно также используется в магнитно-резонансной томографии для количественной оценки негауссовой диффузии. [19]

Конкретным примером является следующая лемма Хэ, Чжана и Чжана: [20] Предположим, что случайная величина имеет математическое ожидание , дисперсию и эксцесс. Предположим, что мы выбираем много независимых копий. Тогда

Это показывает, что при большом количестве выборок мы увидим одну, которая будет выше ожидаемого с вероятностью не менее . Другими словами: если эксцесс большой, мы можем увидеть много значений, которые либо все ниже, либо все выше среднего.

Эксцесс сходимости

Применяя полосовые фильтры к цифровым изображениям , значения эксцесса, как правило, однородны, независимо от диапазона фильтра. Это поведение, называемое конвергенцией эксцесса , может использоваться для обнаружения сращивания изображений в судебно-медицинском анализе . [21]

Другие меры

Другая мера «эксцесса» обеспечивается путем использования L-моментов вместо обычных моментов. [22] [23]

Смотрите также

Ссылки

  1. ^ Пирсон, Карл (1905), «Das Fehlergesetz und seine Verallgemeinerungen durch Fechner und Pearson. Ответ» [Закон ошибок и его обобщения Фехнера и Пирсона. Ответ], Биометрика , 4 (1–2): 169–212, doi : 10.1093/biomet/4.1-2.169, JSTOR  2331536.
  2. ^ ab Westfall, Peter H. (2014), "Эксцесс как пиковость, 1905 - 2014. Покойся с миром ", The American Statistician , 68 (3): 191–195, doi : 10.1080/00031305.2014.917055, PMC 4321753 , PMID  25678714 
  3. ^ abc Джоанес, Деррик Н.; Гилл, Кристин А. (1998), «Сравнение показателей асимметрии выборки и эксцесса», Журнал Королевского статистического общества, Серия D , 47 (1): 183–189, doi :10.1111/1467-9884.00122, JSTOR  2988433
  4. ^ Пирсон, Карл (1916), «Математический вклад в теорию эволюции. — XIX. Второе дополнение к мемуару о косой вариации», Philosophical Transactions of the Royal Society of London A , 216 (546): 429–457, Bibcode :1916RSPTA.216..429P, doi : 10.1098/rsta.1916.0009 , JSTOR  91092
  5. ^ ab Баланда, Кевин П.; Макгилливрей, Хелен Л. (1988), «Эксцесс: критический обзор», The American Statistician , 42 (2): 111–119, doi : 10.2307/2684482, JSTOR  2684482
  6. ^ Дарлингтон, Ричард Б. (1970), «Действительно ли эксцесс — это «пиковость»?», The American Statistician , 24 (2): 19–22, doi : 10.1080/00031305.1970.10478885, JSTOR  2681925
  7. ^ Мурс, JJA (1986), «Значение эксцесса: пересмотр Дарлингтона», The American Statistician , 40 (4): 283–284, doi : 10.1080/00031305.1986.10475415, JSTOR  2684603
  8. ^ Tagliani, A. (1990-12-01). "О существовании распределений максимальной энтропии с четырьмя и более заданными моментами". Probabilistic Engineering Mechanics . 5 (4): 167–170. Bibcode : 1990PEngM...5..167T. doi : 10.1016/0266-8920(90)90017-E. ISSN  0266-8920.
  9. ^ Рокинджер, Майкл; Жондо, Эрик (2002-01-01). «Плотности энтропии с применением к авторегрессионной условной асимметрии и эксцессу». Журнал эконометрики . 106 (1): 119–142. doi :10.1016/S0304-4076(01)00092-6. ISSN  0304-4076.
  10. ^ Bradde, Serena; Bialek, William (2017-05-01). «PCA встречает RG». Журнал статистической физики . 167 (3): 462–475. arXiv : 1610.09733 . Bibcode : 2017JSP...167..462B. doi : 10.1007/s10955-017-1770-6. ISSN  1572-9613. PMC 6054449. PMID 30034029  . 
  11. ^ "Лепто-".
  12. ^ Бенвенист, Альберт; Гурса, Морис; Рюже, Габриэль (1980), «Надежная идентификация системы с неминимальной фазой: слепая настройка линейного эквалайзера в системах передачи данных», IEEE Transactions on Automatic Control , 25 (3): 385–399, doi :10.1109/tac.1980.1102343
  13. ^ "platy-: определение, использование и произношение - YourDictionary.com". Архивировано из оригинала 20-10-2007.
  14. ^ Доан DP, Сьюард LE (2011) J Stat Educ 19 (2)
  15. ^ Шарма, Раджеш; Бхандари, Раджив К. (2015), «Асимметрия, эксцесс и неравенство Ньютона», Rocky Mountain Journal of Mathematics , 45 (5): 1639–1643, arXiv : 1309.2896 , doi : 10.1216/RMJ-2015-45-5-1639, S2CID  88513237
  16. ^ Фишер, Рональд А. (1930), «Моменты распределения для нормальных выборок мер отклонения от нормальности», Труды Королевского общества A , 130 (812): 16–28, Bibcode : 1930RSPSA.130...16F, doi : 10.1098/rspa.1930.0185, hdl : 2440/15205 , JSTOR  95586, S2CID  121520301
  17. ^ Кендалл, Морис Г.; Стюарт, Алан (1969), Продвинутая теория статистики, Том 1: Теория распределения (3-е изд.), Лондон, Великобритания: Charles Griffin & Company Limited, ISBN 0-85264-141-9
  18. ^ Сэндборн, Вирджил А. (1959), «Измерения прерывистости турбулентного движения в пограничном слое», Журнал механики жидкости , 6 (2): 221–240, Bibcode : 1959JFM.....6..221S, doi : 10.1017/S0022112059000581, S2CID  121838685
  19. ^ Jensen, J.; Helpern, J.; Ramani, A.; Lu, H.; Kaczynski, K. (19 мая 2005 г.). «Диффузионная эксцессивная визуализация: количественная оценка негауссовой диффузии воды с помощью магнитно-резонансной томографии». Magn Reson Med . 53 (6): 1432–1440. doi :10.1002/mrm.20508. PMID  15906300. S2CID  11865594.
  20. ^ Хэ, Симай; Чжан, Цзявэй; Чжан, Шучжун (2010). «Ограничение вероятности малого отклонения: подход четвертого момента». Математика исследования операций . 35 (1): 208–232. doi :10.1287/moor.1090.0438. S2CID  11298475.
  21. ^ Pan, Xunyu; Zhang, Xing; Lyu, Siwei (2012), «Exposing Image Splicing with Inconsistent Local Noise Variances», 2012 IEEE International Conference on Computational Photography (ICCP) , 28-29 апреля 2012 г.; Сиэтл, Вашингтон, США: IEEE, стр. 1–10, doi :10.1109/ICCPhot.2012.6215223, ISBN 978-1-4673-1662-0, S2CID  14386924{{citation}}: CS1 maint: location (link)
  22. ^ Хоскинг, Джонатан Р.М. (1992), «Моменты или L- моменты? Пример сравнения двух мер формы распределения», The American Statistician , 46 (3): 186–189, doi :10.1080/00031305.1992.10475880, JSTOR  2685210
  23. ^ Хоскинг, Джонатан Р.М. (2006), «О характеристике распределений по их L -моментам», Журнал статистического планирования и вывода , 136 (1): 193–198, doi :10.1016/j.jspi.2004.06.004

Дальнейшее чтение

Внешние ссылки