stringtranslate.com

Квантиль

Плотность вероятности нормального распределения с указанием квантилей. Площадь под красной кривой одинакова в интервалах (−∞, Q 1 ) , ( Q 1 , Q 2 ) , ( Q 2 , Q 3 ) и ( Q 3 ,+∞) .

В статистике и вероятности квантили — это точки отсечения, разделяющие диапазон распределения вероятностей на непрерывные интервалы с равными вероятностями или разделяющие наблюдения в выборке таким же образом. Существует на один квантиль меньше, чем количество созданных групп. Обычные квантили имеют специальные названия, такие как квартили (четыре группы), децили (десять групп) и процентили (100 групп). Созданные группы называются половинами, третями, четвертями и т. д., хотя иногда термины для квантиля используются для созданных групп, а не для точек отсечения.

q - квантили - это значения, которые разбивают конечный набор значенийна q подмножеств (почти) равных размеров. Существует q − 1 разбиений q -квантилей, по одному для каждого целого числа k, удовлетворяющего условию 0 < k < q . В некоторых случаях значение квантиля может быть определено не однозначно, как это может быть в случае медианы (2-квантиля) равномерного распределения вероятностей на наборе четного размера. Квантили также можно применять к непрерывным распределениям, предоставляя способ обобщения ранговой статистики на непрерывные переменные (см. процентильный ранг ). Когдаизвестна кумулятивная функция распределения случайной величины , q -квантиль является применением функции квантиля ( обратной функции кумулятивной функции распределения ) к значениям {1/ q , 2/ q , …, ( q − 1)/ q }.

Квантили населения

Как и при вычислении, например, стандартного отклонения , оценка квантиля зависит от того, работаем ли мы со статистической совокупностью или с выборкой, взятой из нее. Для совокупности, дискретных значений или для непрерывной плотности популяции, kq -квантиль является значением данных, где кумулятивная функция распределения пересекает k / q . То есть, x является kq -квантилем для переменной X , если

Pr[ X < x ] ≤ k / q или, что эквивалентно, Pr[ Xx ] ≥ 1 − k / q

и

Pr[ Xx ] ≥ k / q .

Для конечной совокупности из N равновероятных значений, проиндексированных 1, …, N от наименьшего к наибольшему, kq -квантиль этой совокупности может быть эквивалентно вычислен через значение I p = N k / q . Если I p не является целым числом, то округлите до следующего целого числа, чтобы получить соответствующий индекс; соответствующее значение данных является kq -квантилем. С другой стороны, если I p является целым числом, то любое число от значения данных в этом индексе до значения данных следующего индекса может быть взято в качестве квантиля, и общепринято (хотя и произвольно) брать среднее из этих двух значений (см. Оценка квантилей по выборке).

Если вместо использования целых чисел k и q " p -квантиль" основан на действительном числе p с 0 < p < 1, то p заменяет k / q в приведенных выше формулах. Эта более широкая терминология используется, когда квантили используются для параметризации непрерывных распределений вероятностей . Более того, некоторые программы (включая Microsoft Excel ) рассматривают минимум и максимум как 0-й и 100-й процентиль соответственно. Однако эта более широкая терминология является расширением за пределы традиционных определений статистики.

Примеры

В следующих двух примерах используется определение квантиля Nearest Rank с округлением. Для объяснения этого определения см. процентили .

Равномерное население

Рассмотрим упорядоченную совокупность из 10 значений данных [3, 6, 7, 8, 8, 10, 13, 15, 16, 20]. Каковы 4-квантили («квартили») этого набора данных?

Итак, первый, второй и третий 4-квантиль («квартили») набора данных [3, 6, 7, 8, 8, 10, 13, 15, 16, 20] — это [7, 9, 15]. Если также требуется, нулевой квартиль — это 3, а четвертый квартиль — это 20.

Нестандартная численность населения

Рассмотрим упорядоченную совокупность из 11 значений данных [3, 6, 7, 8, 8, 9, 10, 13, 15, 16, 20]. Каковы 4-квантили («квартили») этого набора данных?

Итак, первый, второй и третий 4-квантиль («квартили») набора данных [3, 6, 7, 8, 8, 9, 10, 13, 15, 16, 20] — это [7, 9, 15]. Если также требуется, нулевой квартиль — это 3, а четвертый квартиль — это 20.

Отношение к среднему значению

Для любого распределения вероятностей совокупности конечного числа значений и, в общем случае, для любого распределения вероятностей со средним значением и дисперсией имеет место следующее: где Q(p) — значение p -квантиля для 0 < p < 1 (или, что эквивалентно, kq -квантиль для p = k / q ), где μ — среднее арифметическое распределения , а σ — стандартное отклонение распределения . [1] В частности, медиана ( p = k / q = 1/2) никогда не превышает одного стандартного отклонения от среднего значения.

Вышеприведенную формулу можно использовать для ограничения значения μ + в терминах квантилей. Когда z ≥ 0 , значение, которое на z стандартных отклонений выше среднего, имеет нижнюю границу. Например, значение, которое на z = 1 стандартное отклонение выше среднего, всегда больше или равно Q ( p = 0,5) , медиане, а значение, которое на z = 2 стандартных отклонения выше среднего, всегда больше или равно Q ( p = 0,8) , четвертому квинтилю.

Если z ≤ 0 , то вместо этого существует верхняя граница. Например, значение μ + для z = −3 никогда не превысит Q ( p = 0,1) , первый дециль.

Оценка квантилей по выборке

Одной из часто возникающих проблем является оценка квантиля (очень большой или бесконечной) популяции на основе конечной выборки размера N.

Современные статистические пакеты используют ряд методов для оценки квантилей.

Хайндман и Фан составили таксономию из девяти алгоритмов [2], используемых различными программными пакетами. Все методы вычисляют Q p , оценку p -квантиля ( k -го q -квантиля, где p = k / q ) из выборки размера N путем вычисления действительного индекса h . Когда h является целым числом, h -е наименьшее из N значений, x h , является оценкой квантиля. В противном случае используется схема округления или интерполяции для вычисления оценки квантиля из h , x h и x h . (Для обозначения см. функции пола и потолка ).

Первые три являются кусочно-постоянными, резко меняющимися в каждой точке данных, в то время как последние шесть используют линейную интерполяцию между точками данных и отличаются только тем, как выбирается индекс h, используемый для выбора точки вдоль кривой кусочно-линейной интерполяции.

Языки программирования Mathematica , [3] Matlab , [4] R [5] и GNU Octave [6] поддерживают все девять методов квантилей выборок. SAS включает пять методов квантилей выборок, SciPy [7] и Maple [8] оба включают восемь, EViews [9] и Julia [10] включают шесть кусочно-линейных функций, Stata [11] включает две, Python [12] включает две, а Microsoft Excel включает две. Mathematica, SciPy и Julia поддерживают произвольные параметры для методов, которые допускают другие, нестандартные методы.

Используемые типы оценок и схемы интерполяции включают:

Примечания:

Из методов Хайндман и Фэн рекомендуют R-8, но большинство статистических программных пакетов выбирают R-6 или R-7 по умолчанию. [13]

Стандартную ошибку квантильной оценки можно в общем случае оценить с помощью бутстрапа . Также можно использовать метод Марица–Джарретта. [14]

Асимптотическое распределение медианы выборки

Выборочная медиана является наиболее изученной среди квантилей, являясь альтернативой для оценки параметра местоположения, когда ожидаемое значение распределения не существует, и, следовательно, выборочное среднее не является значимым оценщиком характеристики популяции. Более того, выборочная медиана является более надежной оценкой, чем выборочное среднее.

Одной из особенностей выборочной медианы является ее асимптотическое распределение: когда выборка происходит из непрерывного распределения, то выборочная медиана имеет ожидаемое нормальное асимптотическое распределение,

Это распространяется и на другие квантили,

где f ( x p ) — значение плотности распределения в p -м квантиле популяции ( ). [15]

Но когда распределение дискретное, то распределение медианы выборки и других квантилей не является нормальным (см. примеры в https://stats.stackexchange.com/a/86638/28746).

Решением этой проблемы является использование альтернативного определения выборочных квантилей через концепцию функции «середины распределения», которая определяется как

Определение выборочных квантилей через концепцию функции среднего распределения можно рассматривать как обобщение, которое может охватывать как частные случаи непрерывные распределения. Для дискретных распределений выборочная медиана, определенная через эту концепцию, имеет асимптотически нормальное распределение, см. Ma, Y., Genton, MG, & Parzen, E. (2011). Асимптотические свойства выборочных квантилей дискретных распределений. Annals of the Institute of Statistical Mathematics, 63(2), 227–243.

Приблизительные квантили из потока

Вычисление приблизительных квантилей из данных, поступающих из потока, может быть эффективно выполнено с использованием сжатых структур данных. Наиболее популярными методами являются t-digest [16] и KLL. [17] Эти методы считывают поток значений непрерывно и могут в любое время быть запрошены о приблизительном значении указанного квантиля.

Оба алгоритма основаны на схожей идее: сжатие потока значений путем суммирования идентичных или похожих значений с весом. Если поток состоит из повторения 100 раз v1 и 100 раз v2, нет смысла хранить отсортированный список из 200 элементов, достаточно сохранить два элемента и два счетчика, чтобы иметь возможность восстановить квантили. При большем количестве значений эти алгоритмы поддерживают компромисс между количеством сохраненных уникальных значений и точностью полученных квантилей. Некоторые значения могут быть отброшены из потока и способствовать весу соседнего значения без слишком сильного изменения результатов квантилей. t-дайджест поддерживает структуру данных ограниченного размера, используя подход, мотивированный кластеризацией k -средних для группировки похожих значений. Алгоритм KLL использует более сложный метод «компактора», который приводит к лучшему контролю границ ошибок за счет требования неограниченного размера, если ошибки должны быть ограничены относительно p .

Оба метода принадлежат к семейству набросков данных , которые являются подмножествами потоковых алгоритмов с полезными свойствами: наброски t-digest или KLL могут быть объединены. Вычисление наброска для очень большого вектора значений может быть разделено на тривиально параллельные процессы, где наброски вычисляются для разделов вектора параллельно и объединяются позже.

Описанные до сих пор алгоритмы напрямую приближают эмпирические квантили без каких-либо конкретных предположений о данных, по сути, данные являются просто числами или, в более общем смысле, набором элементов, которые можно упорядочить. Эти алгоритмы являются методами, полученными из компьютерной науки. Существует другой класс алгоритмов, которые предполагают, что данные являются реализациями случайного процесса. Это методы, полученные из статистики, в частности, последовательные непараметрические алгоритмы оценки. Существует ряд таких алгоритмов, например, основанные на стохастической аппроксимации [18] [19] или оценщиках рядов Эрмита. [20]

Эти основанные на статистике алгоритмы обычно имеют постоянное время обновления и сложность пространства, но имеют другие гарантии предела ошибок по сравнению с методами типа компьютерной науки и делают больше предположений. Основанные на статистике алгоритмы, однако, представляют определенные преимущества, особенно в нестационарной потоковой настройке, т.е. изменяющихся во времени данных. Алгоритмы обоих классов, а также некоторые соответствующие преимущества и недостатки были недавно рассмотрены. [21]

Обсуждение

Стандартизированные результаты тестов обычно сообщаются как результат студента, набравшего «80-й процентиль», например. Это использует альтернативное значение слова процентиль как интервал между (в данном случае) 80-м и 81-м скалярным процентилем. [22] Это отдельное значение процентиля также используется в рецензируемых научных исследовательских статьях. [23] Используемое значение может быть получено из его контекста.

Если распределение симметрично, то медиана является средним значением (при условии, что последнее существует). Но, в общем случае, медиана и среднее значение могут различаться. Например, для случайной величины, которая имеет экспоненциальное распределение , любая конкретная выборка этой случайной величины будет иметь примерно 63% вероятность быть меньше среднего. Это происходит потому, что экспоненциальное распределение имеет длинный хвост для положительных значений, но равно нулю для отрицательных чисел.

Квантили являются полезными мерами, поскольку они менее восприимчивы, чем средние значения, к длиннохвостым распределениям и выбросам. Эмпирически, если анализируемые данные фактически не распределены в соответствии с предполагаемым распределением или если существуют другие потенциальные источники выбросов, которые далеки от среднего значения, то квантили могут быть более полезной описательной статистикой, чем средние значения и другие статистики, связанные с моментами.

Тесно связана тема наименьших абсолютных отклонений , метода регрессии, который более устойчив к выбросам, чем наименьшие квадраты, в котором сумма абсолютного значения наблюдаемых ошибок используется вместо квадрата ошибки. Связь заключается в том, что среднее значение является единственной оценкой распределения, которая минимизирует ожидаемую квадратичную ошибку, в то время как медиана минимизирует ожидаемую абсолютную ошибку. Наименьшие абсолютные отклонения разделяют способность быть относительно нечувствительными к большим отклонениям в выпадающих наблюдениях, хотя доступны даже лучшие методы надежной регрессии .

Квантили случайной величины сохраняются при возрастающих преобразованиях в том смысле, что, например, если m — медиана случайной величины X , то 2 m — медиана 2 X , если только не был сделан произвольный выбор из диапазона значений для указания конкретного квантиля. (См. выше оценку квантиля для примеров такой интерполяции.) Квантили также можно использовать в случаях, когда доступны только порядковые данные.

Другие количественные оценки

Значения, которые делят отсортированные данные на равные подмножества, отличные от четырех, имеют разные названия.

Смотрите также

Ссылки

  1. ^ Багуи, С.; Бхаумик, Д. (2004). «Взгляды на неравенства в вероятности и статистике» (PDF) . Международный журнал статистических наук . 3 : 9–15. ISSN  1683-5603. Архивировано из оригинала (PDF) 2021-08-12 . Получено 2021-08-12 .
  2. ^ Хайндман, Роб Дж .; Фань, Янан (ноябрь 1996 г.). «Выборочные квантили в статистических пакетах». Американский статистик . 50 (4). Американская статистическая ассоциация: 361–365. doi :10.2307/2684934. JSTOR  2684934.
  3. ^ Документация Mathematica См. раздел «Подробности».
  4. ^ "Расчет квантилей". uk.mathworks.com .
  5. ^ Фроне, Иван; Хайндман, Роб Дж. (2009). Примеры квантилей. Проект R. ISBN 978-3-900051-07-5.
  6. ^ "Справочник функций: квантиль – Octave-Forge – SourceForge" . Получено 6 сентября 2013 г. .
  7. ^ "scipy.stats.mstats.mquantiles — Справочное руководство SciPy v1.4.1". docs.scipy.org .
  8. ^ «Статистика – Справка по программированию Maple». www.maplesoft.com .
  9. ^ "EViews 9 Help". Архивировано из оригинала 16 апреля 2016 г. Получено 4 апреля 2016 г.
  10. ^ "Статистика – Документация Julia" . Получено 17 июня 2023 г. .
  11. ^ Документация Stata для команд pctile и xtile. См. раздел «Методы и формулы».
  12. ^ "статистика — Функции математической статистики — Документация Python 3.8.3rc1". docs.python.org .
  13. ^ Хайндман, Роб Дж. (28 марта 2016 г.). «Выборочные квантили 20 лет спустя». Блог Hyndsignt . Получено 30 ноября 2020 г.
  14. ^ Уилкокс, Рэнд Р. (2010). Введение в надежную оценку и проверку гипотез . Academic Press. ISBN 978-0-12-751542-7.
  15. ^ Стюарт, Алан; Орд, Кейт (1994). Продвинутая теория статистики Кендалла . Лондон: Арнольд. ISBN 0340614307.
  16. ^ Даннинг, Тед; Эртл, Отмар (февраль 2019 г.). «Вычисление чрезвычайно точных квантилей с использованием t-дайджестов». arXiv : 1902.04023 [stat.CO].
  17. ^ Зохар Карнин; Кевин Лэнг; Эдо Либерти (2016). «Оптимальная квантильная аппроксимация в потоках». arXiv : 1603.05346 [cs.DS].
  18. ^ Тирни, Люк (1983). «Эффективная по пространству рекурсивная процедура для оценки квантиля неизвестного распределения». Журнал SIAM по научным и статистическим вычислениям . 4 (4): 706-711. doi :10.1137/0904048.
  19. ^ Чен, Фэй; Ламберт, Диана; Пинейро, Хосе (2000). «Оценка инкрементального квантиля для массового отслеживания». Труды шестой международной конференции ACM SIGKDD по обнаружению знаний и добыче данных : 516-522. doi :10.1145/347090.347195.
  20. ^ Стефану, Майкл; Варугез, Мелвин; Макдональд, Иэн (2017). «Последовательные квантили с помощью оценки плотности ряда Эрмита». Электронный журнал статистики . 11 (1): 570-607. arXiv : 1507.05073 . doi : 10.1214/17-EJS1245.
  21. ^ Стефану, М. и Варугез, М (2023). "Hermiter: R-пакет для последовательной непараметрической оценки". Computational Statistics . arXiv : 2111.14091 . doi :10.1007/s00180-023-01382-0. S2CID  244715035.{{cite journal}}: CS1 maint: multiple names: authors list (link)
  22. ^ "процентиль". Oxford Reference . Получено 2020-08-17 .
  23. ^ Кругер, Дж.; Даннинг, Д. (декабрь 1999 г.). «Неквалифицированный и не осознающий этого: как трудности в признании собственной некомпетентности приводят к завышенной самооценке». Журнал личности и социальной психологии . 77 (6): 1121–1134. doi :10.1037/0022-3514.77.6.1121. ISSN  0022-3514. PMID  10626367. S2CID  2109278.
  24. ^ Уокер, Хелен Мэри; Лев, Джозеф (1969). Элементарные статистические методы. Холт, Райнхарт и Уинстон. ISBN 978-0-03-081130-2.
  25. ^ Стивен Б. Вардеман (1992). «Что насчет других интервалов?». The American Statistician . 46 (3): 193–197. doi :10.2307/2685212. JSTOR  2685212.

Дальнейшее чтение

Внешние ссылки