В теории вероятностей и статистике эксцесс (от греч . κυρτός , kyrtos или kurtos , что означает «изогнутый, выгнутый » ) относится к степени «хвостатости» в распределении вероятностей действительной случайной величины . Подобно асимметрии , эксцесс дает представление о конкретных характеристиках распределения. Существуют различные методы количественной оценки эксцесса в теоретических распределениях, и соответствующие методы позволяют проводить оценку на основе выборочных данных из популяции. Важно отметить, что различные меры эксцесса могут давать различные интерпретации.
Стандартная мера эксцесса распределения, введенная Карлом Пирсоном , [1] представляет собой масштабированную версию четвертого момента распределения. Это число относится к хвостам распределения, а не к его пику; [2] следовательно, иногда встречающаяся характеристика эксцесса как « пикообразности » неверна. Для этой меры более высокий эксцесс соответствует большей экстремальности отклонений (или выбросов ), а не конфигурации данных вблизи среднего .
Избыточный эксцесс, обычно сравниваемый со значением 0, характеризует «хвостость» распределения. Одномерное нормальное распределение имеет избыточный эксцесс, равный 0. Отрицательный избыточный эксцесс указывает на распределение платикурта, которое не обязательно имеет плоскую вершину, но производит меньше или менее экстремальных выбросов, чем нормальное распределение. Например, равномерное распределение является платикуртом. С другой стороны, положительный избыточный эксцесс означает распределение лептокурта. Распределение Лапласа , например, имеет хвосты, которые затухают медленнее, чем гауссово, что приводит к большему количеству выбросов. Для упрощения сравнения с нормальным распределением избыточный эксцесс рассчитывается как эксцесс Пирсона минус 3. Некоторые авторы и программные пакеты используют «эксцесс» для обозначения именно избыточного эксцесса, но в этой статье для ясности проводится различие между ними.
Альтернативными мерами эксцесса являются: L-эксцесс , который является масштабированной версией четвертого L-момента ; меры, основанные на четырех квантилях совокупности или выборки . [3] Они аналогичны альтернативным мерам асимметрии , которые не основаны на обычных моментах. [3]
Эксцесс — это четвертый стандартизированный момент , определяемый как , где μ 4 — четвертый центральный момент , а σ — стандартное отклонение . В литературе для обозначения эксцесса используется несколько букв. Очень распространенный выбор — κ , что приемлемо, если ясно, что это не относится к кумулянту . Другие варианты включают γ 2 , чтобы быть похожим на обозначение для асимметрии, хотя иногда это вместо этого зарезервировано для избыточного эксцесса.
Эксцесс ограничен снизу квадратом асимметрии плюс 1: [4] : 432 , где μ 3 — третий центральный момент . Нижняя граница реализуется распределением Бернулли . Верхнего предела эксцесса общего распределения вероятностей не существует, и он может быть бесконечным.
Причина, по которой некоторые авторы отдают предпочтение избыточному эксцессу, заключается в том, что кумулянты являются экстенсивными . Формулы, связанные со свойством экстенсивности, более естественно выражаются в терминах избыточного эксцесса. Например, пусть X 1 , ..., X n будут независимыми случайными величинами, для которых существует четвертый момент, и пусть Y будет случайной величиной, определяемой суммой X i . Избыточный эксцесс Y равен , где — стандартное отклонение . В частности, если все X i имеют одинаковую дисперсию, то это упрощается до
Причина, по которой не следует вычитать 3, заключается в том, что голый момент лучше обобщается на многомерные распределения , особенно когда независимость не предполагается. Кокуртозис между парами переменных является тензором четвертого порядка . Для двумерного нормального распределения тензор кокуртозиса имеет недиагональные члены, которые в общем случае не равны ни 0, ни 3, поэтому попытка «исправить» избыток становится запутанной. Однако верно, что совместные кумулянты степени выше двух для любого многомерного нормального распределения равны нулю.
Для двух случайных величин X и Y , не обязательно независимых, эксцесс суммы X + Y равен Обратите внимание, что в приведенном выше уравнении присутствуют биномиальные коэффициенты четвертой степени (1, 4, 6, 4, 1).
Интерпретация меры эксцесса Пирсона (или избыточного эксцесса) когда-то была предметом споров, но теперь она общепризнана. Как отметил Вестфолл в 2014 году [2] , «... его однозначная интерпретация относится к конечности хвоста. В частности, он отражает либо наличие существующих выбросов (для выборочного эксцесса), либо тенденцию к образованию выбросов (для эксцесса распределения вероятностей). Основная логика проста: эксцесс представляет собой среднее (или ожидаемое значение ) стандартизированных данных, возведенных в четвертую степень. Стандартизированные значения меньше 1 — соответствующие данным в пределах одного стандартного отклонения от среднего (где возникает «пик») — вносят минимальный вклад в эксцесс. Это происходит потому, что возведение числа меньше 1 в четвертую степень приближает его к нулю. Значимыми факторами, вносящими вклад в эксцесс, являются значения данных за пределами области пика, т. е. выбросы. Поэтому эксцесс в первую очередь измеряет выбросы и не дает никакой информации о центральном «пике».
Многочисленные заблуждения об эксцессе связаны с понятиями пикообразности. Одно из таких заблуждений заключается в том, что эксцесс измеряет как «пиковость» распределения, так и тяжесть его хвоста . [5] Другие неверные интерпретации включают такие понятия, как «отсутствие плеч» (где «плечо» неопределенно относится к области между пиком и хвостом, или, более конкретно, к области около одного стандартного отклонения от среднего) или «бимодальность». [6] Баланда и Макгилливрей утверждают, что стандартное определение эксцесса «плохо отражает эксцесс, пикообразность или вес хвоста распределения». Вместо этого они предлагают неопределенное определение эксцесса как перемещения массы вероятности без местоположения и масштаба от плеч распределения к его центру и хвостам. [5]
В 1986 году Мурс дал интерпретацию эксцесса. [7] Пусть где X — случайная величина, μ — среднее значение, а σ — стандартное отклонение.
Теперь по определению эксцесса и по известному тождеству
Эксцесс теперь можно рассматривать как меру дисперсии Z 2 вокруг его ожидания. С другой стороны, его можно рассматривать как меру дисперсии Z вокруг +1 и −1. κ достигает своего минимального значения в симметричном двухточечном распределении. В терминах исходной переменной X эксцесс является мерой дисперсии X вокруг двух значений μ ± σ .
Высокие значения κ возникают в двух случаях:
Энтропия распределения равна .
Для любого с положительной определенностью среди всех распределений вероятностей со средним значением и ковариацией нормальное распределение имеет наибольшую энтропию.
Поскольку среднее значение и ковариация являются первыми двумя моментами, естественно рассмотреть расширение на более высокие моменты. Фактически, по методу множителей Лагранжа , для любых предписанных первых n моментов, если существует некоторое распределение вероятностей формы , которая имеет предписанные моменты (если это осуществимо), то это максимальное распределение энтропии при заданных ограничениях. [8] [9]
Последовательным расширением, если случайная величина имеет распределение вероятностей , где — константа нормализации, то ее эксцесс равен . [10]
Избыточный эксцесс определяется как эксцесс минус 3. Существует 3 различных режима, описанных ниже.
Распределения с нулевым избыточным эксцессом называются мезокуртическими , или мезокуртотическими . Наиболее ярким примером мезокуртического распределения является семейство нормальных распределений, независимо от значений его параметров . Несколько других известных распределений могут быть мезокуртическими, в зависимости от значений параметров: например, биномиальное распределение является мезокуртическим для .
Распределение с положительным избыточным эксцессом называется лептокуртотическим или лептокуртотическим . «Лепто-» означает «тонкий». [11] С точки зрения формы лептокуртотическое распределение имеет более толстые хвосты . Примерами лептокуртотических распределений являются t-распределение Стьюдента , распределение Рэлея , распределение Лапласа , экспоненциальное распределение , распределение Пуассона и логистическое распределение . Такие распределения иногда называют супергауссовыми . [12]
Распределение с отрицательным избыточным эксцессом называется платикуртическим , или платикуртотическим . «Плати-» означает «широкий». [13] С точки зрения формы, платикуртическое распределение имеет более тонкие хвосты . Примерами платикуртовых распределений являются непрерывное и дискретное равномерное распределение , а также распределение с приподнятым косинусом . Наиболее платикуртовым распределением из всех является распределение Бернулли с p = 1/2 (например, количество раз, когда человек получает «орел» при однократном подбрасывании монеты, подбрасывание монеты ), для которого избыточный эксцесс равен −2.
Эффекты эксцесса проиллюстрированы с помощью параметрического семейства распределений, эксцесс которых может быть скорректирован, в то время как их моменты и кумулянты низшего порядка остаются постоянными. Рассмотрим семейство Пирсона типа VII , которое является частным случаем семейства Пирсона типа IV, ограниченного симметричными плотностями. Функция плотности вероятности задается как , где a — параметр масштаба , а m — параметр формы .
Все плотности в этом семействе симметричны. k -й момент существует при условии m > ( k + 1)/2. Для существования эксцесса нам требуется m > 5/2. Тогда существуют среднее значение и асимметрия , и оба они тождественно равны нулю. Установка a 2 = 2 m − 3 делает дисперсию равной единице. Тогда единственным свободным параметром является m , который управляет четвертым моментом (и кумулянтом) и, следовательно, эксцессом. Можно перепараметризовать с помощью , где — избыточный эксцесс, как определено выше. Это дает однопараметрическое лептокуртическое семейство с нулевым средним значением, единичной дисперсией, нулевой асимметрией и произвольным неотрицательным избыточным эксцессом. Перепараметризованная плотность имеет вид
В пределе получаем плотность , показанную красной кривой на рисунках справа.
В обратном направлении получаем стандартную нормальную плотность как предельное распределение, показанное черной кривой.
На изображениях справа синяя кривая представляет плотность с избыточным эксцессом 2. Верхнее изображение показывает, что лептокуртические плотности в этом семействе имеют более высокий пик, чем мезокуртическая нормальная плотность, хотя этот вывод действителен только для этого избранного семейства распределений. Сравнительно более толстые хвосты лептокуртических плотностей показаны на втором изображении, которое отображает натуральный логарифм плотностей Пирсона типа VII: черная кривая — это логарифм стандартной нормальной плотности, которая является параболой . Видно, что нормальная плотность выделяет небольшую вероятностную массу областям, далеким от среднего значения («имеет тонкие хвосты»), по сравнению с синей кривой лептокуртической плотности Пирсона типа VII с избыточным эксцессом 2. Между синей и черной кривой находятся другие плотности Пирсона типа VII с γ 2 = 1, 1/2, 1/4, 1/8 и 1/16. Красная кривая снова показывает верхний предел семейства Пирсона типа VII, с (что, строго говоря, означает, что четвертый момент не существует). Красная кривая убывает медленнее всего по мере удаления от начала координат («имеет толстые хвосты»).
Здесь сравниваются несколько известных, унимодальных и симметричных распределений из разных параметрических семейств. Каждое из них имеет среднее значение и асимметрию, равные нулю. Параметры были выбраны так, чтобы в каждом случае дисперсия была равна 1. На изображениях справа показаны кривые для следующих семи плотностей в линейном и логарифмическом масштабах :
Обратите внимание, что в этих случаях плотности платикурта имеют ограниченную поддержку , тогда как плотности с положительным или нулевым избыточным эксцессом поддерживаются на всей действительной прямой .
Нельзя сделать вывод, что распределения с высоким или низким эксцессом имеют характеристики, указанные в этих примерах. Существуют плотности платикурта с бесконечной поддержкой,
и существуют лептокуртические плотности с конечной поддержкой.
Также существуют платикуртические плотности с бесконечной пикообразностью,
и существуют лептокуртические плотности, которые кажутся плоскими,
Для выборки из n значений метод оценки моментов избыточного эксцесса популяции можно определить следующим образом: где m 4 — четвертый момент выборки относительно среднего , m 2 — второй момент выборки относительно среднего (то есть дисперсия выборки ), x i — i -е значение , а — среднее выборки .
Эта формула имеет более простое представление, где значения являются стандартизированными значениями данных с использованием стандартного отклонения, определенного с использованием n, а не n − 1 в знаменателе.
Например, предположим, что значения данных равны 0, 3, 4, 1, 2, 3, 0, 2, 1, 3, 2, 0, 2, 2, 3, 2, 5, 2, 3, 999.
Тогда значения будут −0,239, −0,225, −0,221, −0,234, −0,230, −0,225, −0,239, −0,230, −0,234, −0,225, −0,230, −0,239, −0,230, −0,230, −0,225, −0,230, −0,216, −0,230, −0,225, 4,359
и значения 0,003, 0,003, 0,002, 0,003, 0,003, 0,003, 0,003, 0,003, 0,003, 0,003, 0,003, 0,003, 0,003, 0,003, 0,002, 0,003, 0,003, 360,976.
Среднее значение этих значений равно 18,05, а избыточный эксцесс, таким образом, равен 18,05 − 3 = 15,05. Этот пример ясно показывает, что данные вблизи «середины» или «пика» распределения не вносят вклад в статистику эксцесса, поэтому эксцесс не измеряет «пиковость». Это просто мера выброса, 999 в этом примере.
При наличии подмножества выборок из популяции избыточный эксцесс выборки выше является смещенной оценкой избыточного эксцесса популяции. Альтернативная оценка избыточного эксцесса популяции, которая является несмещенной в случайных выборках нормального распределения, определяется следующим образом: [3] где k 4 является уникальной симметричной несмещенной оценкой четвертого кумулянта , k 2 является несмещенной оценкой второго кумулянта (идентичной несмещенной оценке дисперсии выборки), m 4 является четвертым моментом выборки относительно среднего, m 2 является вторым моментом выборки относительно среднего, x i является i -м значением и является средним значением выборки. Этот скорректированный стандартизированный коэффициент момента Фишера-Пирсона является версией, найденной в Excel и нескольких статистических пакетах, включая Minitab , SAS и SPSS . [14]
К сожалению, в ненормальных выборках само по себе, как правило, предвзято.
Верхняя граница для выборочного эксцесса n ( n > 2) действительных чисел равна [15], где — соответствующая выборочная асимметрия.
Дисперсия выборочного эксцесса выборки размера n от нормального распределения равна [16]
Другими словами, при условии, что базовая случайная величина распределена нормально, можно показать, что . [17] : Необходимый номер страницы
Эксцесс выборки является полезной мерой того, есть ли проблема с выбросами в наборе данных. Больший эксцесс указывает на более серьезную проблему с выбросами и может привести исследователя к выбору альтернативных статистических методов.
Тест K-квадрат Д'Агостино — это тест на нормальность, основанный на сочетании асимметрии выборки и эксцесса выборки, как и тест Харке–Бера на нормальность.
Для ненормальных выборок дисперсия выборки зависит от эксцесса; подробности см. в разделе дисперсия .
Определение эксцесса Пирсона используется как индикатор прерывистости турбулентности . [18] Оно также используется в магнитно-резонансной томографии для количественной оценки негауссовой диффузии. [19]
Конкретным примером является следующая лемма Хэ, Чжана и Чжана: [20] Предположим, что случайная величина имеет математическое ожидание , дисперсию и эксцесс. Предположим, что мы выбираем много независимых копий. Тогда
Это показывает, что при большом количестве выборок мы увидим одну, которая будет выше ожидаемого с вероятностью не менее . Другими словами: если эксцесс большой, мы можем увидеть много значений, которые либо все ниже, либо все выше среднего.
Применяя полосовые фильтры к цифровым изображениям , значения эксцесса имеют тенденцию быть однородными, независимо от диапазона фильтра. Это поведение, называемое конвергенцией эксцесса , может быть использовано для обнаружения сращивания изображений в судебно-медицинском анализе . [21]
Эксцесс может использоваться в геофизике для различения различных типов сейсмических сигналов . Он особенно эффективен для дифференциации сейсмических сигналов, генерируемых человеческими шагами, от других сигналов. [22] Это полезно в системах безопасности и наблюдения, которые полагаются на сейсмическое обнаружение.
В метеорологии эксцесс используется для анализа распределений погодных данных. Он помогает предсказывать экстремальные погодные явления, оценивая вероятность выбросов значений в исторических данных, [23] что ценно для долгосрочных климатических исследований и краткосрочного прогнозирования погоды.
Другая мера «эксцесса» обеспечивается путем использования L-моментов вместо обычных моментов. [24] [25]
{{citation}}
: CS1 maint: location (link)