В теории вероятностей и статистике асимметрия — это мера асимметрии распределения вероятностей действительной случайной величины относительно ее среднего значения . Значение асимметрии может быть положительным, нулевым, отрицательным или неопределенным.
Для унимодального распределения (распределения с одним пиком) отрицательная асимметрия обычно указывает на то, что хвост находится на левой стороне распределения, а положительная асимметрия указывает на то, что хвост находится справа. В тех случаях, когда один хвост длинный, а другой толстый, асимметрия не подчиняется простому правилу. Например, нулевое значение асимметрии означает, что хвосты по обе стороны от среднего в целом уравновешиваются; это справедливо для симметричного распределения, но может быть справедливо и для асимметричного распределения, где один хвост длинный и тонкий, а другой короткий, но толстый. Таким образом, суждение о симметрии данного распределения, исходя только из его асимметрии, рискованно; необходимо учитывать форму распределения.
Рассмотрим два распределения на рисунке чуть ниже. На каждом графике значения в правой части распределения сужаются по-разному от значений в левой части. Эти сужающиеся стороны называются хвостами и позволяют визуально определить, какой из двух видов асимметрии имеет распределение:
Асимметрию ряда данных иногда можно наблюдать не только графически, но и путем простой проверки значений. Например, рассмотрим числовую последовательность (49, 50, 51), значения которой равномерно распределены вокруг центрального значения 50. Мы можем преобразовать эту последовательность в отрицательно искаженное распределение, добавив значение намного ниже среднего, что, вероятно, является отрицательный выброс , например (40, 49, 50, 51). Следовательно, среднее значение последовательности становится 47,5, а медиана — 49,5. На основе формулы непараметрического перекоса , определяемого как перекос, отрицательный. Аналогичным образом мы можем сделать последовательность положительно искаженной, добавив значение, намного превышающее среднее значение, которое, вероятно, является положительным выбросом, например (49, 50, 51, 60), где среднее значение равно 52,5, а медиана равна 50,5.
Как упоминалось ранее, унимодальное распределение с нулевым значением асимметрии не означает, что это распределение обязательно симметрично. Однако симметричное унимодальное или мультимодальное распределение всегда имеет нулевую асимметрию.
Асимметрия не связана напрямую с взаимосвязью между средним значением и медианой: распределение с отрицательной асимметрией может иметь среднее значение больше или меньше медианы, как и для положительной асимметрии. [2]
В старом понятии непараметрической асимметрии , определяемой как где - среднее значение , - медиана и - стандартное отклонение , асимметрия определяется в терминах этого отношения: положительный/правый непараметрический асимметр означает, что среднее значение больше (вправо). из) медианы, тогда как отрицательный/непараметрический сдвиг влево означает, что среднее значение меньше медианы (слева от нее). Однако современное определение асимметрии и традиционное непараметрическое определение не всегда имеют один и тот же знак: хотя для некоторых семейств распределений они совпадают, в некоторых случаях они различаются, и их объединение вводит в заблуждение.
Если распределение симметрично , то среднее значение равно медиане, а распределение имеет нулевую асимметрию. [3] Если распределение является одновременно симметричным и унимодальным , то среднее = медиана = мода . Это случай подбрасывания монеты или серии 1,2,3,4,... Однако обратите внимание, что обратное неверно в общем случае, т.е. нулевая асимметрия (определенная ниже) не означает, что среднее значение равно к медиане.
В журнальной статье 2005 года отмечается: [2]
Во многих учебниках преподается эмпирическое правило, согласно которому среднее значение находится справа от медианы при сдвиге вправо и слева от медианы при сдвиге влево. Это правило нарушается с удивительной частотой. Он может потерпеть неудачу в мультимодальных распределениях или в распределениях, где один хвост длинный , а другой тяжелый . Однако чаще всего правило не работает в дискретных распределениях, где площади слева и справа от медианы не равны. Такие распределения не только противоречат учебниковой взаимосвязи между средним значением, медианой и асимметрией, но и противоречат учебниковой интерпретации медианы.
Например, в распределении взрослых жителей по домохозяйствам США перекос вправо. Однако, поскольку в большинстве случаев мода меньше или равна моде, которая также является медианой, среднее значение находится в более тяжелом левом хвосте. В результате эмпирическое правило, согласно которому среднее значение находится справа от медианы при правом перекосе, не удалось. [2]
Асимметрия случайной величины X — это третий стандартизированный момент , определяемый как: [4] [5]
где µ — среднее значение, σ — стандартное отклонение , E — оператор ожидания , µ 3 — третий центральный момент , а κ t — t -ые кумулянты . Его иногда называют моментным коэффициентом асимметрии Пирсона [5] или просто моментным коэффициентом асимметрии [ 4] , но его не следует путать с другой статистикой асимметрии Пирсона (см. ниже). Последнее равенство выражает асимметрию в терминах отношения третьего кумулянта κ 3 к 1,5-й степени второго кумулянта κ 2 . Это аналогично определению эксцесса как четвертого кумулянта, нормированного на квадрат второго кумулянта. Асимметрию также иногда обозначают Skew[ X ].
Если σ конечно и µ тоже конечно, то асимметрию можно выразить через нецентральный момент E[ X 3 ], расширив предыдущую формулу:
Асимметрия может быть бесконечной, например, когда
где третьи кумулянты бесконечны, или как когда
где третий кумулянт не определен.
Примеры распределений с конечной асимметрией включают следующее.
Для выборки из n значений две естественные оценки асимметрии генеральной совокупности: [6]
и
где – выборочное среднее , s – стандартное отклонение выборки , m 2 – (смещенный) второй центральный момент выборки , а m 3 – (смещенный) третий центральный момент выборки. [6] представляет собой метод оценки моментов .
Другое распространенное определение асимметрии выборки : [ 6] [7]
где – уникальная симметричная несмещенная оценка третьего кумулянта , а – симметричная несмещенная оценка второго кумулянта (т. е. выборочная дисперсия ). Этот скорректированный стандартизированный коэффициент момента Фишера-Пирсона представляет собой версию, найденную в Excel и нескольких статистических пакетах, включая Minitab , SAS и SPSS . [7]
При предположении, что основная случайная величина нормально распределена, можно показать, что все три отношения и являются несмещенными и непротиворечивыми оценками асимметрии генеральной совокупности с , т. е. их распределения сходятся к нормальному распределению со средним значением 0 и дисперсией 6 ( Фишер , 1930). [6] Таким образом, дисперсия асимметрии выборки является приблизительной для достаточно больших выборок. Точнее, в случайной выборке размера n из нормального распределения [8] [9]
В нормальных выборках имеет меньшую дисперсию трех оценок: [6]
Для ненормальных распределений и обычно являются смещенными оценками асимметрии генеральной совокупности ; их ожидаемые значения могут даже иметь знак, противоположный истинной асимметрии. Например, смешанное распределение, состоящее из очень тонких гауссианов с центрами -99, 0,5 и 2 и весами 0,01, 0,66 и 0,33, имеет асимметрию около -9,77, но в выборке из 3 ожидаемое значение составляет около 0,32. поскольку обычно все три выборки находятся в положительной части распределения, которая смещена в другую сторону.
Асимметрия — это описательная статистика, которую можно использовать в сочетании с гистограммой и нормальным графиком квантилей для характеристики данных или распределения.
Асимметрия указывает направление и относительную величину отклонения распределения от нормального распределения.
При выраженной асимметрии стандартные статистические процедуры вывода, такие как доверительный интервал для среднего значения, будут не только неправильными в том смысле, что истинный уровень охвата будет отличаться от номинального (например, 95%) уровня, но они также приведут к неравным результатам. вероятность ошибки с каждой стороны.
Асимметрию можно использовать для получения приблизительных вероятностей и квантилей распределений (например, стоимости подверженного риску в финансах) с помощью расширения Корниша-Фишера .
Многие модели предполагают нормальное распределение; т. е. данные симметричны относительно среднего значения. Нормальное распределение имеет асимметрию, равную нулю. Но на самом деле точки данных могут быть не совсем симметричными. Таким образом, понимание асимметрии набора данных показывает, будут ли отклонения от среднего значения положительными или отрицательными.
Критерий К-квадрата Д'Агостино представляет собой критерий согласия нормальности , основанный на асимметрии выборки и эксцессе выборки.
Использовались и другие меры асимметрии, в том числе более простые расчеты, предложенные Карлом Пирсоном [10] (не путать с моментным коэффициентом асимметрии Пирсона, см. выше). Эти другие меры таковы:
Асимметрия моды Пирсона, [11] или первый коэффициент асимметрии, определяется как
Медианная асимметрия Пирсона, или второй коэффициент асимметрии, [12] [13] определяется как
Это простое кратное непараметрическому перекосу .
Мера асимметрии Боули (с 1901 г.), [14] [15] , также называемая коэффициентом Юла (с 1912 г.) [16] [17], определяется как:
где Q — функция квантиля (т. е. обратная кумулятивной функции распределения ). Числитель – это разница между средним значением верхнего и нижнего квартилей (показатель местоположения) и медианой (еще один показатель местоположения), а знаменатель – это полуинтерквартильный диапазон , который для симметричных распределений является мерой дисперсии MAD .
Другими названиями этой меры являются мера асимметрии Гальтона [18] , индекс Юла–Кендалла [19] и квартильная асимметрия [20].
Аналогично, мера асимметрии Келли определяется как [21]
Более общая формулировка функции асимметрии была описана Гроенвельдом Р.А. и Миденом Г. (1984): [22] [23] [24]
Функция γ ( u ) удовлетворяет условию −1 ⩽ γ ( u ) ⩽ 1 и корректно определена, не требуя существования каких-либо моментов распределения. [22] Мерой асимметрии Боули является γ( u ), оцениваемой при u = 3/4, тогда как мерой асимметрии Келли является γ( u ), оцениваемая при u = 9/10. Это определение приводит к соответствующей общей мере асимметрии [23] , определяемой как верхняя граница этой величины в диапазоне 1/2 ≤ u < 1. Другую меру можно получить путем интегрирования числителя и знаменателя этого выражения. [22]
Измерения асимметрии, основанные на квантилях, на первый взгляд легко интерпретировать, но они часто показывают значительно большие вариации выборки, чем методы, основанные на моментах. Это означает, что часто выборки из симметричного распределения (например, равномерного распределения) случайно имеют большую асимметрию, основанную на квантиле.
Гроеневелд и Миден предложили в качестве альтернативной меры асимметрии [22]
где µ — среднее значение, ν — медиана, |...| — абсолютное значение , а E () — оператор ожидания. По форме это тесно связано со вторым коэффициентом асимметрии Пирсона.
Использование L-моментов вместо моментов обеспечивает меру асимметрии, известную как L-асимметрия. [25]
Значение асимметрии, равное нулю, не означает, что распределение вероятностей симметрично. Таким образом, существует потребность в другой мере асимметрии, обладающей этим свойством: такая мера была введена в 2000 году. [26] Она называется асимметрией расстояния и обозначается dSkew. Если X — случайная величина, принимающая значения в d -мерном евклидовом пространстве, X имеет конечное математическое ожидание, X ’ — независимая одинаково распределенная копия X и обозначает норму в евклидовом пространстве, то простая мера асимметрии относительно параметр местоположения θ
и dSkew( X ) := 0 для X = θ (с вероятностью 1). Асимметрия расстояний всегда находится в диапазоне от 0 до 1, равна 0 тогда и только тогда, когда X диагонально симметрична относительно θ ( X и 2θ− X имеют одинаковое распределение вероятностей) и равна 1 тогда и только тогда, когда X является константой c ( ) с вероятность одна. [27] Таким образом, существует простой последовательный статистический тест диагональной симметрии, основанный на асимметрии расстояний выборки :
Медпара — это масштабно-инвариантная робастная мера асимметрии с точкой пробоя 25%. [28] Это медиана значений ядерной функции.
взято по всем парам таким образом, что , где – медиана выборки . Его можно рассматривать как медиану всех возможных показателей квантильной асимметрии.
{{cite web}}
: CS1 maint: archived copy as title (link)