stringtranslate.com

Квантиль

Плотность вероятности нормального распределения с показанными квартилями. Площадь под красной кривой одинакова в интервалах (−∞, Q 1 ) , ( Q 1 , Q 2 ) , ( Q 2 , Q 3 ) и ( Q 3 ,+∞) .

В статистике и вероятности квантили — это точки разреза, делящие диапазон распределения вероятностей на непрерывные интервалы с равными вероятностями или разделяющие наблюдения в выборке таким же образом. На один квантиль меньше, чем количество созданных групп. Общие квантили имеют специальные названия, такие как квартили (четыре группы), децили (десять групп) и процентили (100 групп). Созданные группы называются половинками, третями, четвертями и т. д., хотя иногда термины квантиля используются для созданных групп, а не для точек отсечения.

q - квантили — это значения, которые делят конечное множество значений на q подмножеств (почти) равных размеров. Существует q - 1 разделов q -квантилей, по одному для каждого целого числа k, удовлетворяющего условию 0 < k < q . В некоторых случаях значение квантиля не может быть определено однозначно, как это может быть в случае медианы (2-квантиля) равномерного распределения вероятностей на наборе четного размера. Квантили также можно применять к непрерывным распределениям, предоставляя возможность обобщить ранговую статистику на непрерывные переменные (см. процентильный ранг ). Когдаизвестна кумулятивная функция распределения случайной величины , q -квантили представляют собой применение функции квантиля ( обратной функции кумулятивной функции распределения ) к значениям {1/ q , 2/ q , …, ( q − 1)/ q }.

Квантили популяции

Как и при вычислении, например, стандартного отклонения , оценка квантиля зависит от того, оперируете ли вы со статистической совокупностью или с выборкой, взятой из нее. Для популяции с дискретными значениями или для непрерывной плотности населения kq -квантиль представляет собой значение данных, при котором кумулятивная функция распределения пересекает k / q . То есть x является kq -квантилем переменной X , если

Pr[ X < x ] ≤ k / q или, что то же самое, Pr[ Xx ] ≥ 1 − k / q

и

Pr[ ИксИкс ] ≥ k / q .

Для конечной популяции из N равновероятных значений, пронумерованных 1, …, N от наименьшего к наибольшему, kq -квантиль этой совокупности может быть эквивалентно вычислен через значение I p = N k / q . Если I p не является целым числом, округляем до следующего целого числа, чтобы получить соответствующий индекс; соответствующее значение данных представляет собой kq -квантиль. С другой стороны, если I p — целое число, то любое число от значения данных в этом индексе до значения данных следующего индекса может быть принято в качестве квантиля, и общепринято (хотя и произвольно) брать среднее значение этих чисел. два значения (см. Оценка квантилей по выборке).

Если вместо использования целых чисел k и q « p -квантиль» основан на действительном числе p с 0 < p <1, тогда p заменяет k / q в приведенных выше формулах. Эта более широкая терминология используется, когда квантили используются для параметризации непрерывных распределений вероятностей . Более того, некоторые программы (включая Microsoft Excel ) рассматривают минимум и максимум как 0-й и 100-й процентиль соответственно. Однако эта более широкая терминология выходит за рамки традиционных статистических определений.

Примеры

В следующих двух примерах используется определение квантиля ближайшего ранга с округлением. Объяснение этого определения см. в разделе «Процентили» .

Равномерное население

Рассмотрим упорядоченную совокупность из 10 значений данных [3, 6, 7, 8, 8, 10, 13, 15, 16, 20]. Каковы 4-квантили («квартили») этого набора данных?

Таким образом, первый, второй и третий 4-квантиль («квартили») набора данных [3, 6, 7, 8, 8, 10, 13, 15, 16, 20] равны [7, 9, 15]. Если также необходимо, нулевой квартиль равен 3, а четвертый квартиль — 20.

Население странного размера

Рассмотрим упорядоченную совокупность из 11 значений данных [3, 6, 7, 8, 8, 9, 10, 13, 15, 16, 20]. Каковы 4-квантили («квартили») этого набора данных?

Таким образом, первый, второй и третий 4-квантили («квартили») набора данных [3, 6, 7, 8, 8, 9, 10, 13, 15, 16, 20] равны [7, 9, 15] . Если также необходимо, нулевой квартиль равен 3, а четвертый квартиль — 20.

Отношение к среднему значению

Для любого распределения вероятностей совокупности для конечного числа значений и, как правило, для любого распределения вероятностей со средним значением и дисперсией, это тот случай, когда

Q(p)p0 < p <1kqp = k / qμ — среднее арифметическоеσстандартное отклонение[1]( p = k / q = 1/2)

Приведенную выше формулу можно использовать для оценки значения μ + в квантилях. Когда z ≥ 0 , значение, которое на z стандартных отклонений выше среднего, имеет нижнюю границу.

z = 1Q ( p = 0,5)z = 2Q ( p = 0,8)

Когда z ≤ 0 , вместо этого существует верхняя граница

µ + z = −3Q ( p = 0,1)

Оценка квантилей по выборке

Одной из часто возникающих проблем является оценка квантиля (очень большой или бесконечной) популяции на основе конечной выборки размера N.

Современные статистические пакеты используют ряд методов оценки квантилей .

Гайндман и Фан составили таксономию девяти алгоритмов [2] , используемых в различных пакетах программного обеспечения. Все методы вычисляют Q p , оценку p -квантиля ( k -го q -квантиля, где p = k / q ) из выборки размера N путем вычисления вещественного индекса h . Когда h является целым числом, h -ое наименьшее из N значений x h является оценкой квантиля. В противном случае для вычисления квантильной оценки по h , x h и x h используется схема округления или интерполяции . (Обозначения см. в разделе «Функции пола и потолка »).

Первые три являются кусочно-постоянными и резко изменяются в каждой точке данных, а последние шесть используют линейную интерполяцию между точками данных и отличаются только тем, как выбирается индекс h , используемый для выбора точки на кривой кусочно-линейной интерполяции.

Языки программирования Mathematica , [3] Matlab , [4] R [5] и GNU Octave [6] поддерживают все девять примеров квантильных методов. SAS включает пять выборочных квантильных методов, SciPy [7] и Maple [8] включают восемь, EViews [9] и Julia [10] включают шесть кусочно-линейных функций, Stata [11] включает две, Python [12] включает две, и Microsoft Excel включает два. Mathematica, SciPy и Julia поддерживают произвольные параметры для методов, которые допускают использование других, нестандартных методов.

Используемые типы оценок и схемы интерполяции включают:

Примечания:

Из методов Гайндман и Фан рекомендуют R-8, но большинство пакетов статистического программного обеспечения в качестве метода по умолчанию выбирают R-6 или R-7. [13]

Стандартную ошибку квантильной оценки, как правило, можно оценить с помощью бутстрапа . Также можно использовать метод Марица-Джаррета. [14]

Асимптотическое распределение выборочной медианы

Медиана выборки является наиболее изученной среди квантилей и является альтернативой оценке параметра местоположения, когда ожидаемое значение распределения не существует, и, следовательно, выборочное среднее не является значимой оценкой характеристики совокупности. Более того, выборочная медиана является более надежной оценкой, чем выборочное среднее.

Одной из особенностей выборочной медианы является ее асимптотическое распределение: когда выборка имеет непрерывное распределение, тогда выборочная медиана имеет ожидаемое нормальное асимптотическое распределение:

Это распространяется и на другие квантили,

где f ( x p ) — значение плотности распределения в p -ом квантиле населения ( ). [15]

Но когда распределение дискретное, тогда распределение выборочной медианы и других квантилей не может быть нормальным (см. примеры в https://stats.stackexchange.com/a/86638/28746).

Решением этой проблемы является использование альтернативного определения квантилей выборки с помощью концепции функции «среднего распределения», которая определяется как

Определение выборочных квантилей с помощью концепции функции среднего распределения можно рассматривать как обобщение, которое может охватывать в качестве особых случаев непрерывные распределения. Для дискретных распределений выборочная медиана, определенная с помощью этой концепции, имеет асимптотически нормальное распределение, см. Ma, Y., Genton, MG и Parzen, E. (2011). Асимптотические свойства выборочных квантилей дискретных распределений. Анналы Института статистической математики, 63 (2), 227–243.

Приблизительные квантили из потока

Вычисление приблизительных квантилей на основе данных, поступающих из потока, может быть эффективно выполнено с использованием сжатых структур данных. Наиболее популярными методами являются t-digest [16] и KLL. [17] Эти методы считывают поток значений непрерывно, и в любой момент можно запросить приблизительное значение указанного квантиля.

Оба алгоритма основаны на схожей идее: сжатии потока значений путем суммирования идентичных или похожих значений с весом. Если поток состоит из повторений 100 раз v1 и 100 раз v2, нет смысла хранить отсортированный список из 200 элементов, достаточно сохранить два элемента и два счетчика, чтобы иметь возможность восстановить квантили. При большем количестве значений эти алгоритмы поддерживают компромисс между количеством хранимых уникальных значений и точностью результирующих квантилей. Некоторые значения могут быть исключены из потока и добавлены к весу соседнего значения без слишком сильного изменения результатов квантиля. T-дайджест поддерживает структуру данных ограниченного размера, используя подход, основанный на кластеризации k-средних для группировки схожих значений. Алгоритм KLL использует более сложный метод «компактора», который приводит к лучшему контролю границ ошибок за счет требования неограниченного размера, если ошибки должны быть ограничены относительно p .

Оба метода принадлежат к семейству эскизов данных , которые являются подмножествами алгоритмов потоковой передачи с полезными свойствами: эскизы t-digest или KLL можно комбинировать. Вычисление эскиза для очень большого вектора значений можно разделить на тривиально параллельные процессы, в которых эскизы вычисляются для разделов вектора параллельно и позже объединяются.

Обсуждение

Например, результаты стандартизированных тестов обычно указываются как баллы учащихся «в 80-м процентиле». Здесь используется альтернативное значение слова «процентиль» как интервал между (в данном случае) 80-м и 81-м скалярным процентилем. [18] Это отдельное значение процентиля также используется в рецензируемых научных статьях. [19] Используемое значение может быть получено из контекста.

Если распределение симметрично, то медиана — это среднее значение (при условии, что последнее существует). Но в целом медиана и среднее значение могут различаться. Например, для случайной величины, имеющей экспоненциальное распределение , любая конкретная выборка этой случайной величины будет иметь примерно 63% вероятность оказаться меньше среднего значения. Это связано с тем, что экспоненциальное распределение имеет длинный хвост для положительных значений и равен нулю для отрицательных чисел.

Квантили являются полезными мерами, поскольку они менее восприимчивы, чем средние значения, к распределениям с длинным хвостом и выбросам. Эмпирически, если анализируемые данные на самом деле не распределены в соответствии с предполагаемым распределением или если существуют другие потенциальные источники выбросов, которые далеки от среднего значения, то квантили могут быть более полезной описательной статистикой, чем средние значения и другие статистические данные, связанные с моментами. .

Тесно связан вопрос наименьших абсолютных отклонений , метод регрессии, который более устойчив к выбросам, чем метод наименьших квадратов, в котором вместо квадрата ошибки используется сумма абсолютных значений наблюдаемых ошибок. Связь заключается в том, что среднее значение — это единственная оценка распределения, которая минимизирует ожидаемую квадратичную ошибку, в то время как медиана минимизирует ожидаемую абсолютную ошибку. Наименьшие абсолютные отклонения обладают способностью быть относительно нечувствительными к большим отклонениям в отдаленных наблюдениях, хотя доступны еще более эффективные методы устойчивой регрессии .

Квантили случайной величины сохраняются при возрастающих преобразованиях в том смысле, что, например, если m — медиана случайной величины X , то 2 m — медиана 2 X , если только не был сделан произвольный выбор из диапазон значений для указания конкретного квантиля. (Примеры такой интерполяции см. выше в квантильной оценке.) Квантили также можно использовать в тех случаях, когда доступны только порядковые данные.

Другие количественные оценки

Значения, которые делят отсортированные данные на равные подмножества, отличные от четырех, имеют разные имена.

Смотрите также

Рекомендации

  1. ^ Баги, С.; Бхаумик, Д. (2004). «Взгляд на неравенства в вероятности и статистике» (PDF) . Международный журнал статистических наук . 3 :9–15. ISSN  1683-5603.
  2. ^ Гайндман, Роб Дж .; Фан, Янан (ноябрь 1996 г.). «Выборочные квантили в статистических пакетах». Американский статистик . Американская статистическая ассоциация. 50 (4): 361–365. дои : 10.2307/2684934. JSTOR  2684934.
  3. ^ Документация Mathematica. См. раздел «Подробности».
  4. ^ «Квантильный расчет». uk.mathworks.com .
  5. ^ Фрон, Иван; Гайндман, Роб Дж. (2009). Образец квантилей. Р-проект. ISBN 978-3-900051-07-5.
  6. ^ «Справочник по функциям: квантиль — Octave-Forge — SourceForge» . Проверено 6 сентября 2013 г.
  7. ^ «scipy.stats.mstats.mquantiles — Справочное руководство SciPy v1.4.1» . docs.scipy.org .
  8. ^ «Статистика — Помощь по программированию Maple» . www.maplesoft.com .
  9. ^ "Справка по EViews 9" . Архивировано из оригинала 16 апреля 2016 года . Проверено 4 апреля 2016 г.
  10. ^ «Статистика — Документация Джулии» . Проверено 17 июня 2023 г.
  11. ^ Документация по Stata для команд pctile и xtile. См. раздел «Методы и формулы».
  12. ^ «Статистика — Функции математической статистики — Документация Python 3.8.3rc1» . docs.python.org .
  13. Гайндман, Роб Дж. (28 марта 2016 г.). «Выборочные квантили 20 лет спустя». Блог Hyndsignt . Проверено 30 ноября 2020 г.
  14. ^ Уилкокс, Рэнд Р. (2010). Введение в робастную оценку и проверку гипотез . ISBN 978-0-12-751542-7.
  15. ^ Стюарт, Алан; Орд, Кейт (1994). Продвинутая теория статистики Кендалла . Лондон: Арнольд. ISBN 0340614307.
  16. ^ Даннинг, Тед; Эртль, Отмар (февраль 2019 г.). «Вычисление чрезвычайно точных квантилей с использованием t-дайджестов». arXiv : 1902.04023 [stat.CO].
  17. ^ Зохар Карнин; Кевин Лэнг; Эдо Либерти (2016). «Оптимальное квантильное приближение в потоках». arXiv : 1603.05346 [cs.DS].
  18. ^ «Процентиль». Оксфордский справочник . Проверено 17 августа 2020 г.
  19. ^ Крюгер, Дж.; Даннинг, Д. (декабрь 1999 г.). «Неквалифицированный и неосведомленный: как трудности с признанием собственной некомпетентности приводят к завышенной самооценке». Журнал личности и социальной психологии . 77 (6): 1121–1134. дои : 10.1037/0022-3514.77.6.1121. ISSN  0022-3514. ПМИД  10626367.
  20. ^ Уокер, Хелен Мэри; Лев, Джозеф (1969). Элементарные статистические методы. Холт, Райнхарт и Уинстон. ISBN 978-0-03-081130-2.
  21. ^ Стивен Б. Вардеман (1992). «А как насчет других интервалов?». Американский статистик . 46 (3): 193–197. дои : 10.2307/2685212. JSTOR  2685212.

дальнейшее чтение

Внешние ссылки