stringtranslate.com

Асимметрия

Пример распределения с положительной асимметрией. Эти данные получены в ходе экспериментов по росту ростков пшеницы.

В теории вероятностей и статистике асимметрия — это мера асимметрии распределения вероятностей действительной случайной величины относительно ее среднего значения. Значение асимметрии может быть положительным, нулевым, отрицательным или неопределенным.

Для унимодального распределения (распределения с одним пиком) отрицательный перекос обычно указывает на то, что хвост находится на левой стороне распределения, а положительный перекос указывает на то, что хвост находится на правой стороне. В случаях, когда один хвост длинный, а другой толстый, перекос не подчиняется простому правилу. Например, нулевое значение перекоса означает, что хвосты по обе стороны от среднего в целом уравновешиваются; это касается симметричного распределения, но может быть верно и для асимметричного распределения, где один хвост длинный и тонкий, а другой короткий, но толстый. Таким образом, суждение о симметрии данного распределения, используя только его перекос, является рискованным; необходимо учитывать форму распределения.

Введение

Рассмотрим два распределения на рисунке ниже. В каждом графике значения на правой стороне распределения сужаются иначе, чем значения на левой стороне. Эти сужающиеся стороны называются хвостами , и они предоставляют визуальные средства для определения того, какой из двух видов асимметрии имеет распределение:

  1. отрицательный перекос : левый хвост длиннее; масса распределения сосредоточена в правой части рисунка. Распределение называется перекошеннымвлево,левохвостовымилиперекошенным влево, несмотря на то, что сама кривая кажется перекошенной или наклоненной вправо;«левый»относится к вытянутому левому хвосту и, часто, к среднему, перекошенному влево от типичного центра данных. Распределение с перекосом влево обычно выглядит какс наклоном вправо.[1]
  2. положительный перекос : правый хвост длиннее; масса распределения сосредоточена в левой части рисунка. Распределение называетсяперекошенным вправо,правохвостымилиперекошенным вправо, несмотря на то, что сама кривая кажется перекошенной или наклоненной влево;«правый»относится к вытянутому правому хвосту и, часто, к среднему, перекошенному вправо от типичного центра данных. Распределение с перекосом вправо обычно выглядит какс наклоном влево.[1]

Асимметрию в ряду данных иногда можно наблюдать не только графически, но и путем простого осмотра значений. Например, рассмотрим числовую последовательность (49, 50, 51), значения которой равномерно распределены вокруг центрального значения 50. Мы можем преобразовать эту последовательность в отрицательно асимметричное распределение, добавив значение намного ниже среднего, которое, вероятно, является отрицательным выбросом , например (40, 49, 50, 51). Таким образом, среднее значение последовательности становится 47,5, а медиана — 49,5. На основе формулы непараметрического асимметрии , определяемой как отрицательная асимметрия. Аналогично мы можем сделать последовательность положительно асимметрической, добавив значение намного выше среднего, которое, вероятно, является положительным выбросом, например (49, 50, 51, 60), где среднее значение равно 52,5, а медиана — 50,5.

Как упоминалось ранее, унимодальное распределение с нулевым значением асимметрии не означает, что это распределение обязательно симметрично. Однако симметричное унимодальное или мультимодальное распределение всегда имеет нулевую асимметрию.

Пример асимметричного распределения с нулевой асимметрией. Этот рисунок служит контрпримером того, что нулевая асимметрия не обязательно подразумевает симметричное распределение. (Асимметрия была рассчитана с помощью коэффициента момента асимметрии Пирсона.)

Соотношение среднего и медианы

Асимметрия не связана напрямую с соотношением между средним значением и медианой: распределение с отрицательной асимметрией может иметь среднее значение больше или меньше медианы, то же самое касается и положительной асимметрии. [2]

Общее соотношение среднего значения и медианы при по-разному скошенном одномодальном распределении.

В более старом понятии непараметрического перекоса , определяемого как где — среднее значение , — медиана , а — стандартное отклонение , перекос определяется в терминах этого отношения: положительный/правый непараметрический перекос означает, что среднее значение больше (справа от) медианы, в то время как отрицательный/левый непараметрический перекос означает, что среднее значение меньше (слева от) медианы. Однако современное определение перекоса и традиционное непараметрическое определение не всегда имеют одинаковый знак: хотя они совпадают для некоторых семейств распределений, в некоторых случаях они различаются, и их объединение вводит в заблуждение.

Если распределение симметрично , то среднее равно медиане, а распределение имеет нулевую асимметрию. [3] Если распределение одновременно симметрично и унимодально , то среднее = медиана = мода . Это случай подбрасывания монеты или ряда 1,2,3,4,... Однако следует отметить, что обратное утверждение в общем случае неверно, т. е. нулевая асимметрия (определенная ниже) не означает, что среднее равно медиане.

В журнальной статье 2005 года отмечается: [2]

Во многих учебниках преподается правило большого пальца, гласящее, что среднее значение находится справа от медианы при правом скосе и слева от медианы при левом скосе. Это правило на удивление часто не выполняется. Оно может не выполняться в мультимодальных распределениях или в распределениях, где один хвост длинный , а другой тяжелый . Однако чаще всего правило не выполняется в дискретных распределениях, где области слева и справа от медианы не равны. Такие распределения не только противоречат учебнику по соотношению между средним значением, медианой и скосом, но и противоречат учебнику по интерпретации медианы.

Распределение взрослых жителей по домохозяйствам США

Например, в распределении взрослых жителей по домохозяйствам США перекос вправо. Однако, поскольку большинство случаев меньше или равно моде, которая также является медианой, среднее значение находится в более тяжелом левом хвосте. В результате правило большого пальца, согласно которому среднее значение находится справа от медианы при правом перекосе, не сработало. [2]

Определение

Коэффициент асимметрии момента Фишера

Асимметрия случайной величины X — это третий стандартизированный момент , определяемый как: [4] [5]

где μ — среднее значение, σстандартное отклонение , E — оператор ожидания , μ 3 — третий центральный момент , а κ ttкумулянты . Иногда его называют моментным коэффициентом асимметрии Пирсона [5] или просто моментным коэффициентом асимметрии [4] , но его не следует путать с другими статистиками асимметрии Пирсона (см. ниже). Последнее равенство выражает асимметрию в терминах отношения третьего кумулянта κ 3 к 1,5-й степени второго кумулянта κ 2 . Это аналогично определению эксцесса как четвертого кумулянта, нормализованного квадратом второго кумулянта. Асимметрию также иногда обозначают как Skew[ X ].

Если σ конечно и μ также конечно, то асимметрию можно выразить через нецентральный момент E[ X 3 ], расширив предыдущую формулу:

Примеры

Асимметрия может быть бесконечной, как в случае

где третьи кумулянты бесконечны, или как когда

где третий кумулянт не определен.

Примеры распределений с конечной асимметрией включают в себя следующее.

Асимметрия выборки

Для выборки из n значений две естественные оценки асимметрии популяции следующие [6]

и

где — выборочное среднее , sвыборочное стандартное отклонение , m 2 — (смещенный) выборочный второй центральный момент , а m 3 — (смещенный) выборочный третий центральный момент. [6]метод оценки моментов .

Другое распространенное определение асимметрии выборки : [6] [7]

где — уникальная симметричная несмещенная оценка третьего кумулянта , а — симметричная несмещенная оценка второго кумулянта (т.е. выборочная дисперсия ). Этот скорректированный стандартизированный коэффициент момента Фишера-Пирсона — это версия, найденная в Excel и нескольких статистических пакетах, включая Minitab , SAS и SPSS . [7]

При предположении, что базовая случайная величина распределена нормально, можно показать, что все три отношения , и являются несмещенными и последовательными оценками асимметрии совокупности , с , т.е. их распределения сходятся к нормальному распределению со средним значением 0 и дисперсией 6 ( Фишер , 1930). [6] Таким образом, дисперсия асимметрии выборки приблизительно равна для достаточно больших выборок. Точнее, в случайной выборке размера n из нормального распределения, [8] [9]

В нормальных выборках имеет меньшую дисперсию из трех оценок, при этом [6]

Для ненормальных распределений, и обычно являются смещенными оценками асимметрии популяции ; их ожидаемые значения могут даже иметь противоположный знак от истинной асимметрии. Например, смешанное распределение, состоящее из очень тонких гауссианов с центрами в −99, 0,5 и 2 с весами 0,01, 0,66 и 0,33, имеет асимметрию около −9,77, но в выборке из 3 имеет ожидаемое значение около 0,32, поскольку обычно все три выборки находятся в положительной части распределения, которая асимметрична в другую сторону.

Приложения

Асимметрия — это описательная статистика, которую можно использовать вместе с гистограммой и графиком нормальных квантилей для характеристики данных или распределения.

Асимметрия указывает направление и относительную величину отклонения распределения от нормального распределения.

При выраженной асимметрии стандартные процедуры статистического вывода, такие как доверительный интервал для среднего значения, будут не только неверными в том смысле, что истинный уровень покрытия будет отличаться от номинального (например, 95%) уровня, но и приведут к неравным вероятностям ошибок с каждой стороны.

Асимметрию можно использовать для получения приблизительных вероятностей и квантилей распределений (например, стоимости, подверженной риску в финансах) с помощью расширения Корниша-Фишера .

Многие модели предполагают нормальное распределение; т. е. данные симметричны относительно среднего значения. Нормальное распределение имеет асимметрию, равную нулю. Но в реальности точки данных могут быть не идеально симметричными. Таким образом, понимание асимметрии набора данных указывает, будут ли отклонения от среднего значения положительными или отрицательными.

Тест К-квадрат Д'Агостино — это тест на соответствие нормальному распределению, основанный на асимметрии и эксцессе выборки.

Другие меры асимметрии

Сравнение среднего значения , медианы и моды двух логнормальных распределений с одинаковыми медианами и разными коэффициентами асимметрии.

Использовались и другие меры асимметрии, включая более простые расчеты, предложенные Карлом Пирсоном [10] (не путать с моментным коэффициентом асимметрии Пирсона, см. выше). Этими другими мерами являются:

Первый коэффициент асимметрии Пирсона (модовая асимметрия)

Асимметрия моды Пирсона [11] или первый коэффициент асимметрии определяется как

среднее − мода/стандартное отклонение .

Второй коэффициент асимметрии Пирсона (медианная асимметрия)

Медианный коэффициент асимметрии Пирсона, или второй коэффициент асимметрии, [12] [13] определяется как

3 ( среднеемедиана )/стандартное отклонение .

Что является простым множителем непараметрического перекоса .

Меры, основанные на квантилях

Мера асимметрии Боули (с 1901 г.) [14] [15] , также называемая коэффициентом Юла (с 1912 г.) [16] [17], определяется как:

где Qфункция квантиля (т. е. обратная кумулятивной функции распределения ). Числитель — это разница между средним значением верхнего и нижнего квартилей (мера местоположения) и медианой (еще одна мера местоположения), а знаменатель — это полумежквартильным размахом , который для симметричных распределений равен среднеквадратичному отклонению дисперсии . [ требуется ссылка ]

Другие названия этой меры – мера асимметрии Гальтона [18] , индекс Юла–Кендалла [19] и квартиль асимметрии [20].

Аналогично, мера асимметрии Келли определяется как [21]

Более общая формулировка функции асимметрии была описана Гроеневельдом, Р.А. и Миденом, Г. (1984): [22] [23] [24]

Функция γ ( u ) удовлетворяет −1 ≤  γ ( u ) ≤ 1 и хорошо определена без необходимости существования каких-либо моментов распределения. [22] Мера асимметрии Боули — это γ( u ), оцененная при u  = 3/4, в то время как мера асимметрии Келли — это γ( u ), оцененная при u  = 9/10. Это определение приводит к соответствующей общей мере асимметрии [23], определяемой как супремум этого в диапазоне 1/2 ≤  u  < 1. Другая мера может быть получена путем интегрирования числителя и знаменателя этого выражения. [22]

Меры асимметрии на основе квантилей на первый взгляд легко интерпретировать, но они часто показывают значительно большие вариации выборки, чем методы на основе моментов. Это означает, что часто выборки из симметричного распределения (например, равномерного распределения) имеют большую асимметрию на основе квантилей, просто случайно.

Коэффициент Грюневельда и Мидена

Гроенвельд и Миден предложили в качестве альтернативной меры асимметрии [22]

где μ — среднее значение, ν — медиана, |...| — абсолютное значение , а E() — оператор ожидания. Это тесно связано по форме со вторым коэффициентом асимметрии Пирсона.

L-моменты

Использование L-моментов вместо моментов обеспечивает меру асимметрии, известную как L-асимметрия. [25]

Асимметрия расстояния

Значение асимметрии, равное нулю, не означает, что распределение вероятностей симметрично. Таким образом, существует необходимость в другой мере асимметрии, которая обладает этим свойством: такая мера была введена в 2000 году. [26] Она называется асимметрией расстояния и обозначается dSkew. Если X — случайная величина, принимающая значения в d -мерном евклидовом пространстве, X имеет конечное ожидание, X ' — независимая одинаково распределенная копия X , а обозначает норму в евклидовом пространстве, то простая мера асимметрии относительно параметра местоположения θ — это

и dSkew( X ) := 0 для X  = θ (с вероятностью 1). Асимметрия расстояния всегда находится между 0 и 1, равна 0 тогда и только тогда, когда X диагонально симметричен относительно θ ( X и 2θ− X имеют одинаковое распределение вероятностей) и равна 1 тогда и только тогда, когда X является константой c ( ) с вероятностью один. [27] Таким образом, существует простой последовательный статистический тест диагональной симметрии, основанный на асимметрии расстояния выборки :

Медпара

Медпара — это масштабно-инвариантная надежная мера асимметрии с точкой развала 25%. [28] Это медиана значений функции ядра .

взятый по всем парам таким образом , что , где — медиана выборки . Ее можно рассматривать как медиану всех возможных мер квантильной асимметрии.

Смотрите также

Ссылки

Цитаты

  1. ^ ab Illowsky, Barbara; Dean, Susan (27 марта 2020 г.). "2.6 Асимметрия и среднее значение, медиана и мода – статистика". OpenStax . Получено 21 декабря 2022 г. .
  2. ^ abc von Hippel, Paul T. (2005). "Mean, Median, and Skew: Correcting a Textbook Rule". Journal of Statistics Education . 13 (2). Архивировано из оригинала 20 февраля 2016 г.
  3. ^ "1.3.5.11. Меры асимметрии и эксцесса". NIST . Получено 18 марта 2012 г.
  4. ^ ab «Меры формы: асимметрия и эксцесс», 2008–2016 Стэн Браун, Oak Road Systems
  5. ^ ab Коэффициент перекоса момента Пирсона, FXSolver.com
  6. ^ abcde Joanes, DN; Gill, CA (1998). «Сравнение мер асимметрии выборки и эксцесса». Журнал Королевского статистического общества, Серия D. 47 ( 1): 183–189. doi :10.1111/1467-9884.00122.
  7. ^ ab Doane, Дэвид П. и Лори Э. Сьюард. «Измерение асимметрии: забытая статистика». Журнал статистического образования 19.2 (2011): 1-18. (Страница 7)
  8. ^ Дункан Крамер (1997) Фундаментальная статистика для социальных исследований. Routledge. ISBN 9780415172042 (стр. 85) 
  9. ^ Кендалл, MG; Стюарт, A. (1969) Продвинутая теория статистики, том 1: Теория распределения, 3-е издание , Гриффин. ISBN 0-85264-141-9 (Ex 12.9) 
  10. ^ "Архивная копия" (PDF) . Архивировано из оригинала (PDF) 5 июля 2010 . Получено 9 апреля 2010 .{{cite web}}: CS1 maint: archived copy as title (link)
  11. ^ Вайсштейн, Эрик В. «Перекос моды Пирсона». MathWorld .
  12. ^ Вайсштейн, Эрик В. «Коэффициенты асимметрии Пирсона». MathWorld .
  13. ^ Доан, Дэвид П.; Сьюард, Лори Э. (2011). «Измерение асимметрии: забытая статистика?» (PDF) . Журнал статистического образования . 19 (2): 1–18. doi : 10.1080/10691898.2011.11889611 .
  14. ^ Боули, АЛ (1901). Элементы статистики, PS King & Son, Laondon. Или в более позднем издании: БОУЛИ, АЛ. "Элементы статистики, 4-е изд. (Нью-Йорк, Чарльз Скрибнер)". (1920).
  15. ^ Кенни Дж. Ф. и Киппинг Э. С. (1962) Математика статистики, ч. 1, 3-е изд. , Ван Ностранд, (стр. 102).
  16. ^ Юл, Джордж Удни. Введение в теорию статистики. C. Griffin, ограниченное издание, 1912.
  17. ^ Гроеневельд, Ричард А. (1991). «Подход с использованием функции влияния к описанию асимметрии распределения». The American Statistician . 45 (2): 97–102. doi :10.2307/2684367. JSTOR  2684367.
  18. ^ Джонсон, Н. Л., Коц, С. и Балакришнан, Н. (1994) стр. 3 и стр. 40
  19. ^ Уилкс Д.С. (1995) Статистические методы в атмосферных науках , стр. 27. Academic Press. ISBN 0-12-751965-3 
  20. ^ Weisstein, Eric W. "Skewness". mathworld.wolfram.com . Получено 21 ноября 2019 г. .
  21. ^ AWL Pubudu Thilan. "Прикладная статистика I: Глава 5: Меры асимметрии" (PDF) . Университет Рухуны . стр. 21.
  22. ^ abcd Гроенвельд, РА; Миден, Г. (1984). «Измерение асимметрии и эксцесса». The Statistician . 33 (4): 391–399. doi :10.2307/2987742. JSTOR  2987742.
  23. ^ ab MacGillivray (1992)
  24. ^ Хинкли Д.В. (1975) «О степенных преобразованиях симметрии», Биометрика , 62, 101–111
  25. ^ Хоскинг, Дж. Р. М. (1992). «Моменты или L-моменты? Пример сравнения двух мер формы распределения». The American Statistician . 46 (3): 186–189. doi :10.2307/2685210. JSTOR  2685210.
  26. ^ Szekely, GJ (2000). «Предпредельные и постпредельные теоремы для статистики», в: Статистика для 21-го века (ред. CR Rao и GJ Szekely), Dekker, Нью-Йорк, стр. 411–422.
  27. ^ Секей, Г. Дж. и Мори, Т. Ф. (2001) «Характерная мера асимметрии и ее применение для проверки диагональной симметрии», Communications in Statistics – Theory and Methods 30/8&9, 1633–1639.
  28. ^ G. Brys; M. Hubert ; A. Struyf (ноябрь 2004 г.). «Надежная мера асимметрии». Журнал вычислительной и графической статистики . 13 (4): 996–1017. doi :10.1198/106186004X12632. S2CID  120919149.

Источники

Внешние ссылки