stringtranslate.com

асимметрия

Пример распределения с положительной асимметрией. Эти данные взяты из экспериментов по росту пырея.

В теории вероятностей и статистике асимметрияэто мера асимметрии распределения вероятностей действительной случайной величины относительно ее среднего значения . Значение асимметрии может быть положительным, нулевым, отрицательным или неопределенным.

Для унимодального распределения (распределения с одним пиком) отрицательная асимметрия обычно указывает на то, что хвост находится на левой стороне распределения, а положительная асимметрия указывает на то, что хвост находится справа. В тех случаях, когда один хвост длинный, а другой толстый, асимметрия не подчиняется простому правилу. Например, нулевое значение асимметрии означает, что хвосты по обе стороны от среднего в целом уравновешиваются; это справедливо для симметричного распределения, но может быть справедливо и для асимметричного распределения, где один хвост длинный и тонкий, а другой короткий, но толстый. Таким образом, суждение о симметрии данного распределения, исходя только из его асимметрии, рискованно; необходимо учитывать форму распределения.

Введение

Рассмотрим два распределения на рисунке чуть ниже. На каждом графике значения в правой части распределения сужаются по-разному от значений в левой части. Эти сужающиеся стороны называются хвостами и позволяют визуально определить, какой из двух видов асимметрии имеет распределение:

  1. отрицательный перекос : левый хвост длиннее; масса распределения сосредоточена в правой части рисунка. Говорят, что распределениесмещено влево,левостороннеилисмещено влево, несмотря на то, что сама кривая кажется перекошенной или наклоненной вправо; Вместо этого «слева»означает вытягивание левого хвоста и, часто, среднее значение, смещенное влево от типичного центра данных. Скошенное влево распределение обычно выглядит как, наклоненная вправо. [1]
  2. положительный перекос : правый хвост длиннее; масса распределения сосредоточена в левой части рисунка. Говорят, что распределение искаженовправо,вправоиливправо, несмотря на то, что сама кривая кажется перекошенной или наклоненной влево; Вместо этого «правый»означает вытягивание правого хвоста и, часто, среднее значение, смещенное вправо от типичного центра данных. Скошенное вправо распределение обычно выглядит какнаклоненная влевокривая. [1]

Асимметрию ряда данных иногда можно наблюдать не только графически, но и путем простой проверки значений. Например, рассмотрим числовую последовательность (49, 50, 51), значения которой равномерно распределены вокруг центрального значения 50. Мы можем преобразовать эту последовательность в отрицательно искаженное распределение, добавив значение намного ниже среднего, что, вероятно, является отрицательный выброс , например (40, 49, 50, 51). Следовательно, среднее значение последовательности становится 47,5, а медиана — 49,5. На основе формулы непараметрического перекоса , определяемого как перекос, отрицательный. Аналогичным образом мы можем сделать последовательность положительно искаженной, добавив значение, намного превышающее среднее значение, которое, вероятно, является положительным выбросом, например (49, 50, 51, 60), где среднее значение равно 52,5, а медиана равна 50,5.

Как упоминалось ранее, унимодальное распределение с нулевым значением асимметрии не означает, что это распределение обязательно симметрично. Однако симметричное унимодальное или мультимодальное распределение всегда имеет нулевую асимметрию.

Пример асимметричного распределения с нулевой асимметрией. Этот рисунок служит контрпримером того, что нулевая асимметрия не обязательно подразумевает симметричное распределение. (Асимметрия рассчитывалась по моментному коэффициенту асимметрии Пирсона.)

Отношения среднего и медианы

Асимметрия не связана напрямую с взаимосвязью между средним значением и медианой: распределение с отрицательной асимметрией может иметь среднее значение больше или меньше медианы, как и для положительной асимметрии. [2]

Общая взаимосвязь среднего и медианы при различном искажении унимодального распределения.

В старом понятии непараметрической асимметрии , определяемой как где - среднее значение , - медиана и - стандартное отклонение , асимметрия определяется в терминах этого отношения: положительный/правый непараметрический асимметр означает, что среднее значение больше (вправо). из) медианы, тогда как отрицательный/непараметрический сдвиг влево означает, что среднее значение меньше медианы (слева от нее). Однако современное определение асимметрии и традиционное непараметрическое определение не всегда имеют один и тот же знак: хотя для некоторых семейств распределений они совпадают, в некоторых случаях они различаются, и их объединение вводит в заблуждение.

Если распределение симметрично , то среднее значение равно медиане, а распределение имеет нулевую асимметрию. [3] Если распределение является одновременно симметричным и унимодальным , то среднее = медиана = мода . Это случай подбрасывания монеты или серии 1,2,3,4,... Однако обратите внимание, что обратное неверно в общем случае, т.е. нулевая асимметрия (определенная ниже) не означает, что среднее значение равно к медиане.

В журнальной статье 2005 года отмечается: [2]

Во многих учебниках преподается эмпирическое правило, согласно которому среднее значение находится справа от медианы при сдвиге вправо и слева от медианы при сдвиге влево. Это правило нарушается с удивительной частотой. Он может потерпеть неудачу в мультимодальных распределениях или в распределениях, где один хвост длинный , а другой тяжелый . Однако чаще всего правило не работает в дискретных распределениях, где площади слева и справа от медианы не равны. Такие распределения не только противоречат учебниковой взаимосвязи между средним значением, медианой и асимметрией, но и противоречат учебниковой интерпретации медианы.

Распределение взрослых жителей по домохозяйствам США

Например, в распределении взрослых жителей по домохозяйствам США перекос вправо. Однако, поскольку в большинстве случаев мода меньше или равна моде, которая также является медианой, среднее значение находится в более тяжелом левом хвосте. В результате эмпирическое правило, согласно которому среднее значение находится справа от медианы при правом перекосе, не удалось. [2]

Определение

Коэффициент асимметрии момента Фишера

Асимметрия случайной величины X — это третий стандартизированный момент , определяемый как: [4] [5]

где µ — среднее значение, σстандартное отклонение , E — оператор ожидания , µ 3 — третий центральный момент , а κ tt -ые кумулянты . Его иногда называют моментным коэффициентом асимметрии Пирсона [5] или просто моментным коэффициентом асимметрии [ 4] , но его не следует путать с другой статистикой асимметрии Пирсона (см. ниже). Последнее равенство выражает асимметрию в терминах отношения третьего кумулянта κ 3 к 1,5-й степени второго кумулянта κ 2 . Это аналогично определению эксцесса как четвертого кумулянта, нормированного на квадрат второго кумулянта. Асимметрию также иногда обозначают Skew[ X ].

Если σ конечно и µ тоже конечно, то асимметрию можно выразить через нецентральный момент E[ X 3 ], расширив предыдущую формулу:

Примеры

Асимметрия может быть бесконечной, например, когда

где третьи кумулянты бесконечны, или как когда

где третий кумулянт не определен.

Примеры распределений с конечной асимметрией включают следующее.

Пример асимметрии

Для выборки из n значений две естественные оценки асимметрии генеральной совокупности: [6]

и

где – выборочное среднее , sстандартное отклонение выборки , m 2 – (смещенный) второй центральный момент выборки , а m 3 – (смещенный) третий центральный момент выборки. [6] представляет собой метод оценки моментов .

Другое распространенное определение асимметрии выборки : [ 6] [7]

где – уникальная симметричная несмещенная оценка третьего кумулянта , а – симметричная несмещенная оценка второго кумулянта (т. е. выборочная дисперсия ). Этот скорректированный стандартизированный коэффициент момента Фишера-Пирсона представляет собой версию, найденную в Excel и нескольких статистических пакетах, включая Minitab , SAS и SPSS . [7]

При предположении, что основная случайная величина нормально распределена, можно показать, что все три отношения и являются несмещенными и непротиворечивыми оценками асимметрии генеральной совокупности с , т. е. их распределения сходятся к нормальному распределению со средним значением 0 и дисперсией 6 ( Фишер , 1930). [6] Таким образом, дисперсия асимметрии выборки является приблизительной для достаточно больших выборок. Точнее, в случайной выборке размера n из нормального распределения [8] [9]

В нормальных выборках имеет меньшую дисперсию трех оценок: [6]

Для ненормальных распределений и обычно являются смещенными оценками асимметрии генеральной совокупности ; их ожидаемые значения могут даже иметь знак, противоположный истинной асимметрии. Например, смешанное распределение, состоящее из очень тонких гауссианов с центрами -99, 0,5 и 2 и весами 0,01, 0,66 и 0,33, имеет асимметрию около -9,77, но в выборке из 3 ожидаемое значение составляет около 0,32. поскольку обычно все три выборки находятся в положительной части распределения, которая смещена в другую сторону.

Приложения

Асимметрия — это описательная статистика, которую можно использовать в сочетании с гистограммой и нормальным графиком квантилей для характеристики данных или распределения.

Асимметрия указывает направление и относительную величину отклонения распределения от нормального распределения.

При выраженной асимметрии стандартные статистические процедуры вывода, такие как доверительный интервал для среднего значения, будут не только неправильными в том смысле, что истинный уровень охвата будет отличаться от номинального (например, 95%) уровня, но они также приведут к неравным результатам. вероятность ошибки с каждой стороны.

Асимметрию можно использовать для получения приблизительных вероятностей и квантилей распределений (например, стоимости подверженного риску в финансах) с помощью расширения Корниша-Фишера .

Многие модели предполагают нормальное распределение; т. е. данные симметричны относительно среднего значения. Нормальное распределение имеет асимметрию, равную нулю. Но на самом деле точки данных могут быть не совсем симметричными. Таким образом, понимание асимметрии набора данных показывает, будут ли отклонения от среднего значения положительными или отрицательными.

Критерий К-квадрата Д'Агостино представляет собой критерий согласия нормальности , основанный на асимметрии выборки и эксцессе выборки.

Другие меры асимметрии

Сравнение среднего значения , медианы и моды двух логарифмически нормальных распределений с одинаковыми медианами и разной асимметрией.

Использовались и другие меры асимметрии, в том числе более простые расчеты, предложенные Карлом Пирсоном [10] (не путать с моментным коэффициентом асимметрии Пирсона, см. выше). Эти другие меры таковы:

Первый коэффициент асимметрии Пирсона (асимметрия моды)

Асимметрия моды Пирсона, [11] или первый коэффициент асимметрии, определяется как

среднеережим/среднеквадратичное отклонение.

Второй коэффициент асимметрии Пирсона (средняя асимметрия)

Медианная асимметрия Пирсона, или второй коэффициент асимметрии, [12] [13] определяется как

3 ( среднеемедиана )/среднеквадратичное отклонение.

Это простое кратное непараметрическому перекосу .

Квантильные меры

Мера асимметрии Боули (с 1901 г.), [14] [15] , также называемая коэффициентом Юла (с 1912 г.) [16] [17], определяется как:

где Qфункция квантиля (т. е. обратная кумулятивной функции распределения ). Числитель – это разница между средним значением верхнего и нижнего квартилей (показатель местоположения) и медианой (еще один показатель местоположения), а знаменатель – это полуинтерквартильный диапазон , который для симметричных распределений является мерой дисперсии MAD .

Другими названиями этой меры являются мера асимметрии Гальтона [18] , индекс Юла–Кендалла [19] и квартильная асимметрия [20].

Аналогично, мера асимметрии Келли определяется как [21]

Более общая формулировка функции асимметрии была описана Гроенвельдом Р.А. и Миденом Г. (1984): [22] [23] [24]

Функция γ ( u ) удовлетворяет условию −1 ⩽  γ ( u ) ⩽ 1 и корректно определена, не требуя существования каких-либо моментов распределения. [22] Мерой асимметрии Боули является γ( u ), оцениваемой при u  = 3/4, тогда как мерой асимметрии Келли является γ( u ), оцениваемая при u  = 9/10. Это определение приводит к соответствующей общей мере асимметрии [23] , определяемой как верхняя граница этой величины в диапазоне 1/2 ≤  u  < 1. Другую меру можно получить путем интегрирования числителя и знаменателя этого выражения. [22]

Измерения асимметрии, основанные на квантилях, на первый взгляд легко интерпретировать, но они часто показывают значительно большие вариации выборки, чем методы, основанные на моментах. Это означает, что часто выборки из симметричного распределения (например, равномерного распределения) случайно имеют большую асимметрию, основанную на квантиле.

Коэффициент Грюневельда и Мидена

Гроеневелд и Миден предложили в качестве альтернативной меры асимметрии [22]

где µ — среднее значение, ν — медиана, |...| — абсолютное значение , а E () — оператор ожидания. По форме это тесно связано со вторым коэффициентом асимметрии Пирсона.

L-моменты

Использование L-моментов вместо моментов обеспечивает меру асимметрии, известную как L-асимметрия. [25]

Асимметрия расстояний

Значение асимметрии, равное нулю, не означает, что распределение вероятностей симметрично. Таким образом, существует потребность в другой мере асимметрии, обладающей этим свойством: такая мера была введена в 2000 году. [26] Она называется асимметрией расстояния и обозначается dSkew. Если X — случайная величина, принимающая значения в d -мерном евклидовом пространстве, X имеет конечное математическое ожидание, X — независимая одинаково распределенная копия X и обозначает норму в евклидовом пространстве, то простая мера асимметрии относительно параметр местоположения θ

и dSkew( X ) := 0 для X  = θ (с вероятностью 1). Асимметрия расстояний всегда находится в диапазоне от 0 до 1, равна 0 тогда и только тогда, когда X диагонально симметрична относительно θ ( X и 2θ− X имеют одинаковое распределение вероятностей) и равна 1 тогда и только тогда, когда X является константой c ( ) с вероятность одна. [27] Таким образом, существует простой последовательный статистический тест диагональной симметрии, основанный на асимметрии расстояний выборки :

Медпара

Медпара — это масштабно-инвариантная робастная мера асимметрии с точкой пробоя 25%. [28] Это медиана значений ядерной функции.

взято по всем парам таким образом, что , где – медиана выборки . Его можно рассматривать как медиану всех возможных показателей квантильной асимметрии.

Смотрите также

Рекомендации

Цитаты

  1. ^ аб Илловски, Барбара; Дин, Сьюзен (27 марта 2020 г.). «2.6 Асимметрия, среднее, медиана и мода - Статистика». ОпенСтакс . Проверено 21 декабря 2022 г.
  2. ^ abc фон Хиппель, Пол Т. (2005). «Среднее, медиана и перекос: исправление правила из учебника». Журнал статистического образования . 13 (2). Архивировано из оригинала 20 февраля 2016 года.
  3. ^ «1.3.5.11. Меры асимметрии и эксцесса». НИСТ . Проверено 18 марта 2012 г.
  4. ^ ab «Показатели формы: асимметрия и эксцесс», 2008–2016, Стэн Браун, Oak Road Systems
  5. ^ Моментный коэффициент асимметрии Пирсона, FXSolver.com
  6. ^ abcde Джоанес, DN; Гилл, Калифорния (1998). «Сравнение показателей асимметрии выборки и эксцесса». Журнал Королевского статистического общества, серия D. 47 (1): 183–189. дои : 10.1111/1467-9884.00122.
  7. ^ аб Доан, Дэвид П. и Лори Э. Сьюард. «Измерение асимметрии: забытая статистика». Журнал статистического образования 19.2 (2011): 1-18. (Страница 7)
  8. ^ Дункан Крамер (1997) Фундаментальная статистика социальных исследований. Рутледж. ISBN 9780415172042 (стр. 85) 
  9. ^ Кендалл, МГ; Стюарт, А. (1969) Передовая теория статистики, Том 1: Теория распределения, 3-е издание , Гриффин. ISBN 0-85264-141-9 (Пример 12.9) 
  10. ^ «Архивная копия» (PDF) . Архивировано из оригинала (PDF) 5 июля 2010 года . Проверено 9 апреля 2010 г.{{cite web}}: CS1 maint: archived copy as title (link)
  11. ^ Вайсштейн, Эрик В. «Асимметрия в режиме Пирсона». Математический мир .
  12. ^ Вайсштейн, Эрик В. «Коэффициенты асимметрии Пирсона». Математический мир .
  13. ^ Доан, Дэвид П.; Сьюард, Лори Э. (2011). «Измерение асимметрии: забытая статистика?» (PDF) . Журнал статистического образования . 19 (2): 1–18. дои : 10.1080/10691898.2011.11889611 .
  14. ^ Боули, Алабама (1901). Элементы статистики, PS King & Son, Лаондон. Или в более позднем издании: БОУЛИ, А.Л. «Элементы статистики, 4-е изд. (Нью-Йорк, Чарльз Скрибнер)» (1920).
  15. ^ Кенни Дж. Ф. и Keeping ES (1962) Математика статистики, Pt. 1, 3-е изд. , Ван Ностранд, (стр. 102).
  16. ^ Юл, Джордж Удни. Введение в теорию статистики. C. Griffin, Limited, 1912 г.
  17. ^ Гроеневелд, Ричард А. (1991). «Подход с использованием функции влияния к описанию асимметрии распределения». Американский статистик . 45 (2): 97–102. дои : 10.2307/2684367. JSTOR  2684367.
  18. ^ Джонсон, Н.Л., Коц, С. и Балакришнан, Н. (1994), с. 3 и с. 40
  19. ^ Уилкс Д.С. (1995) Статистические методы в науках об атмосфере , стр. 27. Academic Press. ISBN 0-12-751965-3 
  20. ^ Вайсштейн, Эрик В. «Асимметрия». mathworld.wolfram.com . Проверено 21 ноября 2019 г.
  21. ^ AWL Пубуду Тилан. «Прикладная статистика I: Глава 5: Меры асимметрии» (PDF) . Университет Рухуна . п. 21.
  22. ^ abcd Груневельд, РА; Миден, Г. (1984). «Измерение асимметрии и эксцесса». Статистик . 33 (4): 391–399. дои : 10.2307/2987742. JSTOR  2987742.
  23. ^ Аб МакГилливрей (1992)
  24. ^ Хинкли Д.В. (1975) «О степенных преобразованиях к симметрии», Биометрика , 62, 101–111.
  25. ^ Хоскинг, JRM (1992). «Моменты или L моменты? Пример сравнения двух показателей формы распределения». Американский статистик . 46 (3): 186–189. дои : 10.2307/2685210. JSTOR  2685210.
  26. ^ Секели, GJ (2000). «Допредельные и постпредельные теоремы для статистики», В: Статистика 21 века (ред. Ч.Р. Рао и Г.Дж. Секели), Деккер, Нью-Йорк, стр. 411–422.
  27. ^ Секели, Дж. Дж. и Мори, Т. Ф. (2001) «Характерная мера асимметрии и ее применение для проверки диагональной симметрии», Коммуникации в статистике – теория и методы 30/8 и 9, 1633–1639.
  28. ^ Г. Брис; М. Юбер ; А. Стройф (ноябрь 2004 г.). «Надежная мера асимметрии». Журнал вычислительной и графической статистики . 13 (4): 996–1017. дои : 10.1198/106186004X12632. S2CID  120919149.

Источники

Внешние ссылки