В теории вероятностей и статистике асимметрия — это мера асимметрии распределения вероятностей действительной случайной величины относительно ее среднего значения. Значение асимметрии может быть положительным, нулевым, отрицательным или неопределенным.
Для унимодального распределения (распределения с одним пиком) отрицательный перекос обычно указывает на то, что хвост находится на левой стороне распределения, а положительный перекос указывает на то, что хвост находится на правой стороне. В случаях, когда один хвост длинный, а другой толстый, перекос не подчиняется простому правилу. Например, нулевое значение перекоса означает, что хвосты по обе стороны от среднего в целом уравновешиваются; это касается симметричного распределения, но может быть верно и для асимметричного распределения, где один хвост длинный и тонкий, а другой короткий, но толстый. Таким образом, суждение о симметрии данного распределения, используя только его перекос, является рискованным; необходимо учитывать форму распределения.
Рассмотрим два распределения на рисунке ниже. В каждом графике значения на правой стороне распределения сужаются иначе, чем значения на левой стороне. Эти сужающиеся стороны называются хвостами , и они предоставляют визуальные средства для определения того, какой из двух видов асимметрии имеет распределение:
Асимметрию в ряду данных иногда можно наблюдать не только графически, но и путем простого осмотра значений. Например, рассмотрим числовую последовательность (49, 50, 51), значения которой равномерно распределены вокруг центрального значения 50. Мы можем преобразовать эту последовательность в отрицательно асимметричное распределение, добавив значение намного ниже среднего, которое, вероятно, является отрицательным выбросом , например (40, 49, 50, 51). Таким образом, среднее значение последовательности становится 47,5, а медиана — 49,5. На основе формулы непараметрического асимметрии , определяемой как отрицательная асимметрия. Аналогично мы можем сделать последовательность положительно асимметрической, добавив значение намного выше среднего, которое, вероятно, является положительным выбросом, например (49, 50, 51, 60), где среднее значение равно 52,5, а медиана — 50,5.
Как упоминалось ранее, унимодальное распределение с нулевым значением асимметрии не означает, что это распределение обязательно симметрично. Однако симметричное унимодальное или мультимодальное распределение всегда имеет нулевую асимметрию.
Асимметрия не связана напрямую с соотношением между средним значением и медианой: распределение с отрицательной асимметрией может иметь среднее значение больше или меньше медианы, то же самое касается и положительной асимметрии. [2]
В более старом понятии непараметрического перекоса , определяемого как где — среднее значение , — медиана , а — стандартное отклонение , перекос определяется в терминах этого отношения: положительный/правый непараметрический перекос означает, что среднее значение больше (справа от) медианы, в то время как отрицательный/левый непараметрический перекос означает, что среднее значение меньше (слева от) медианы. Однако современное определение перекоса и традиционное непараметрическое определение не всегда имеют одинаковый знак: хотя они совпадают для некоторых семейств распределений, в некоторых случаях они различаются, и их объединение вводит в заблуждение.
Если распределение симметрично , то среднее равно медиане, а распределение имеет нулевую асимметрию. [3] Если распределение одновременно симметрично и унимодально , то среднее = медиана = мода . Это случай подбрасывания монеты или ряда 1,2,3,4,... Однако следует отметить, что обратное утверждение в общем случае неверно, т. е. нулевая асимметрия (определенная ниже) не означает, что среднее равно медиане.
В журнальной статье 2005 года отмечается: [2]
Во многих учебниках преподается правило большого пальца, гласящее, что среднее значение находится справа от медианы при правом скосе и слева от медианы при левом скосе. Это правило на удивление часто не выполняется. Оно может не выполняться в мультимодальных распределениях или в распределениях, где один хвост длинный , а другой тяжелый . Однако чаще всего правило не выполняется в дискретных распределениях, где области слева и справа от медианы не равны. Такие распределения не только противоречат учебнику по соотношению между средним значением, медианой и скосом, но и противоречат учебнику по интерпретации медианы.
Например, в распределении взрослых жителей по домохозяйствам США перекос вправо. Однако, поскольку большинство случаев меньше или равно моде, которая также является медианой, среднее значение находится в более тяжелом левом хвосте. В результате правило большого пальца, согласно которому среднее значение находится справа от медианы при правом перекосе, не сработало. [2]
Асимметрия случайной величины X — это третий стандартизированный момент , определяемый как: [4] [5]
где μ — среднее значение, σ — стандартное отклонение , E — оператор ожидания , μ 3 — третий центральный момент , а κ t — t -е кумулянты . Иногда его называют моментным коэффициентом асимметрии Пирсона [5] или просто моментным коэффициентом асимметрии [4] , но его не следует путать с другими статистиками асимметрии Пирсона (см. ниже). Последнее равенство выражает асимметрию в терминах отношения третьего кумулянта κ 3 к 1,5-й степени второго кумулянта κ 2 . Это аналогично определению эксцесса как четвертого кумулянта, нормализованного квадратом второго кумулянта. Асимметрию также иногда обозначают как Skew[ X ].
Если σ конечно и μ также конечно, то асимметрию можно выразить через нецентральный момент E[ X 3 ], расширив предыдущую формулу:
Асимметрия может быть бесконечной, как в случае
где третьи кумулянты бесконечны, или как когда
где третий кумулянт не определен.
Примеры распределений с конечной асимметрией включают в себя следующее.
Для выборки из n значений две естественные оценки асимметрии популяции следующие [6]
и
где — выборочное среднее , s — выборочное стандартное отклонение , m 2 — (смещенный) выборочный второй центральный момент , а m 3 — (смещенный) выборочный третий центральный момент. [6] — метод оценки моментов .
Другое распространенное определение асимметрии выборки : [6] [7]
где — уникальная симметричная несмещенная оценка третьего кумулянта , а — симметричная несмещенная оценка второго кумулянта (т.е. выборочная дисперсия ). Этот скорректированный стандартизированный коэффициент момента Фишера-Пирсона — это версия, найденная в Excel и нескольких статистических пакетах, включая Minitab , SAS и SPSS . [7]
При предположении, что базовая случайная величина распределена нормально, можно показать, что все три отношения , и являются несмещенными и последовательными оценками асимметрии совокупности , с , т.е. их распределения сходятся к нормальному распределению со средним значением 0 и дисперсией 6 ( Фишер , 1930). [6] Таким образом, дисперсия асимметрии выборки приблизительно равна для достаточно больших выборок. Точнее, в случайной выборке размера n из нормального распределения, [8] [9]
В нормальных выборках имеет меньшую дисперсию из трех оценок, при этом [6]
Для ненормальных распределений, и обычно являются смещенными оценками асимметрии популяции ; их ожидаемые значения могут даже иметь противоположный знак от истинной асимметрии. Например, смешанное распределение, состоящее из очень тонких гауссианов с центрами в −99, 0,5 и 2 с весами 0,01, 0,66 и 0,33, имеет асимметрию около −9,77, но в выборке из 3 имеет ожидаемое значение около 0,32, поскольку обычно все три выборки находятся в положительной части распределения, которая асимметрична в другую сторону.
Асимметрия — это описательная статистика, которую можно использовать вместе с гистограммой и графиком нормальных квантилей для характеристики данных или распределения.
Асимметрия указывает направление и относительную величину отклонения распределения от нормального распределения.
При выраженной асимметрии стандартные процедуры статистического вывода, такие как доверительный интервал для среднего значения, будут не только неверными в том смысле, что истинный уровень покрытия будет отличаться от номинального (например, 95%) уровня, но и приведут к неравным вероятностям ошибок с каждой стороны.
Асимметрию можно использовать для получения приблизительных вероятностей и квантилей распределений (например, стоимости, подверженной риску в финансах) с помощью расширения Корниша-Фишера .
Многие модели предполагают нормальное распределение; т. е. данные симметричны относительно среднего значения. Нормальное распределение имеет асимметрию, равную нулю. Но в реальности точки данных могут быть не идеально симметричными. Таким образом, понимание асимметрии набора данных указывает, будут ли отклонения от среднего значения положительными или отрицательными.
Тест К-квадрат Д'Агостино — это тест на соответствие нормальному распределению, основанный на асимметрии и эксцессе выборки.
Использовались и другие меры асимметрии, включая более простые расчеты, предложенные Карлом Пирсоном [10] (не путать с моментным коэффициентом асимметрии Пирсона, см. выше). Этими другими мерами являются:
Асимметрия моды Пирсона [11] или первый коэффициент асимметрии определяется как
Медианный коэффициент асимметрии Пирсона, или второй коэффициент асимметрии, [12] [13] определяется как
Что является простым множителем непараметрического перекоса .
Мера асимметрии Боули (с 1901 г.) [14] [15] , также называемая коэффициентом Юла (с 1912 г.) [16] [17], определяется как:
где Q — функция квантиля (т. е. обратная кумулятивной функции распределения ). Числитель — это разница между средним значением верхнего и нижнего квартилей (мера местоположения) и медианой (еще одна мера местоположения), а знаменатель — это полумежквартильным размахом , который для симметричных распределений равен среднеквадратичному отклонению дисперсии . [ требуется ссылка ]
Другие названия этой меры – мера асимметрии Гальтона [18] , индекс Юла–Кендалла [19] и квартиль асимметрии [20].
Аналогично, мера асимметрии Келли определяется как [21]
Более общая формулировка функции асимметрии была описана Гроеневельдом, Р.А. и Миденом, Г. (1984): [22] [23] [24]
Функция γ ( u ) удовлетворяет −1 ≤ γ ( u ) ≤ 1 и хорошо определена без необходимости существования каких-либо моментов распределения. [22] Мера асимметрии Боули — это γ( u ), оцененная при u = 3/4, в то время как мера асимметрии Келли — это γ( u ), оцененная при u = 9/10. Это определение приводит к соответствующей общей мере асимметрии [23], определяемой как супремум этого в диапазоне 1/2 ≤ u < 1. Другая мера может быть получена путем интегрирования числителя и знаменателя этого выражения. [22]
Меры асимметрии на основе квантилей на первый взгляд легко интерпретировать, но они часто показывают значительно большие вариации выборки, чем методы на основе моментов. Это означает, что часто выборки из симметричного распределения (например, равномерного распределения) имеют большую асимметрию на основе квантилей, просто случайно.
Гроенвельд и Миден предложили в качестве альтернативной меры асимметрии [22]
где μ — среднее значение, ν — медиана, |...| — абсолютное значение , а E() — оператор ожидания. Это тесно связано по форме со вторым коэффициентом асимметрии Пирсона.
Использование L-моментов вместо моментов обеспечивает меру асимметрии, известную как L-асимметрия. [25]
Значение асимметрии, равное нулю, не означает, что распределение вероятностей симметрично. Таким образом, существует необходимость в другой мере асимметрии, которая обладает этим свойством: такая мера была введена в 2000 году. [26] Она называется асимметрией расстояния и обозначается dSkew. Если X — случайная величина, принимающая значения в d -мерном евклидовом пространстве, X имеет конечное ожидание, X ' — независимая одинаково распределенная копия X , а обозначает норму в евклидовом пространстве, то простая мера асимметрии относительно параметра местоположения θ — это
и dSkew( X ) := 0 для X = θ (с вероятностью 1). Асимметрия расстояния всегда находится между 0 и 1, равна 0 тогда и только тогда, когда X диагонально симметричен относительно θ ( X и 2θ− X имеют одинаковое распределение вероятностей) и равна 1 тогда и только тогда, когда X является константой c ( ) с вероятностью один. [27] Таким образом, существует простой последовательный статистический тест диагональной симметрии, основанный на асимметрии расстояния выборки :
Медпара — это масштабно-инвариантная надежная мера асимметрии с точкой развала 25%. [28] Это медиана значений функции ядра .
взятый по всем парам таким образом , что , где — медиана выборки . Ее можно рассматривать как медиану всех возможных мер квантильной асимметрии.
{{cite web}}
: CS1 maint: archived copy as title (link)