В статистике и вероятности квантили — это точки отсечения, разделяющие диапазон распределения вероятностей на непрерывные интервалы с равными вероятностями или разделяющие наблюдения в выборке таким же образом. Существует на один квантиль меньше, чем количество созданных групп. Обычные квантили имеют специальные названия, такие как квартили (четыре группы), децили (десять групп) и процентили (100 групп). Созданные группы называются половинами, третями, четвертями и т. д., хотя иногда термины для квантиля используются для созданных групп, а не для точек отсечения.
q - квантили - это значения, которые разбивают конечный набор значенийна q подмножеств (почти) равных размеров. Существует q − 1 разбиений q -квантилей, по одному для каждого целого числа k, удовлетворяющего условию 0 < k < q . В некоторых случаях значение квантиля может быть определено не однозначно, как это может быть в случае медианы (2-квантиля) равномерного распределения вероятностей на наборе четного размера. Квантили также можно применять к непрерывным распределениям, предоставляя способ обобщения ранговой статистики на непрерывные переменные (см. процентильный ранг ). Когдаизвестна кумулятивная функция распределения случайной величины , q -квантиль является применением функции квантиля ( обратной функции кумулятивной функции распределения ) к значениям {1/ q , 2/ q , …, ( q − 1)/ q }.
Как и при вычислении, например, стандартного отклонения , оценка квантиля зависит от того, работаем ли мы со статистической совокупностью или с выборкой, взятой из нее. Для совокупности, дискретных значений или для непрерывной плотности популяции, k -й q -квантиль является значением данных, где кумулятивная функция распределения пересекает k / q . То есть, x является k -м q -квантилем для переменной X , если
и
Для конечной совокупности из N равновероятных значений, проиндексированных 1, …, N от наименьшего к наибольшему, k -й q -квантиль этой совокупности может быть эквивалентно вычислен через значение I p = N k / q . Если I p не является целым числом, то округлите до следующего целого числа, чтобы получить соответствующий индекс; соответствующее значение данных является k -м q -квантилем. С другой стороны, если I p является целым числом, то любое число от значения данных в этом индексе до значения данных следующего индекса может быть взято в качестве квантиля, и общепринято (хотя и произвольно) брать среднее из этих двух значений (см. Оценка квантилей по выборке).
Если вместо использования целых чисел k и q " p -квантиль" основан на действительном числе p с 0 < p < 1, то p заменяет k / q в приведенных выше формулах. Эта более широкая терминология используется, когда квантили используются для параметризации непрерывных распределений вероятностей . Более того, некоторые программы (включая Microsoft Excel ) рассматривают минимум и максимум как 0-й и 100-й процентиль соответственно. Однако эта более широкая терминология является расширением за пределы традиционных определений статистики.
В следующих двух примерах используется определение квантиля Nearest Rank с округлением. Для объяснения этого определения см. процентили .
Рассмотрим упорядоченную совокупность из 10 значений данных [3, 6, 7, 8, 8, 10, 13, 15, 16, 20]. Каковы 4-квантили («квартили») этого набора данных?
Итак, первый, второй и третий 4-квантиль («квартили») набора данных [3, 6, 7, 8, 8, 10, 13, 15, 16, 20] — это [7, 9, 15]. Если также требуется, нулевой квартиль — это 3, а четвертый квартиль — это 20.
Рассмотрим упорядоченную совокупность из 11 значений данных [3, 6, 7, 8, 8, 9, 10, 13, 15, 16, 20]. Каковы 4-квантили («квартили») этого набора данных?
Итак, первый, второй и третий 4-квантиль («квартили») набора данных [3, 6, 7, 8, 8, 9, 10, 13, 15, 16, 20] — это [7, 9, 15]. Если также требуется, нулевой квартиль — это 3, а четвертый квартиль — это 20.
Для любого распределения вероятностей совокупности конечного числа значений и, в общем случае, для любого распределения вероятностей со средним значением и дисперсией имеет место следующее: где Q(p) — значение p -квантиля для 0 < p < 1 (или, что эквивалентно, k -й q -квантиль для p = k / q ), где μ — среднее арифметическое распределения , а σ — стандартное отклонение распределения . [1] В частности, медиана ( p = k / q = 1/2) никогда не превышает одного стандартного отклонения от среднего.
Вышеприведенную формулу можно использовать для ограничения значения μ + zσ в терминах квантилей. Когда z ≥ 0 , значение, которое на z стандартных отклонений выше среднего, имеет нижнюю границу. Например, значение, которое на z = 1 стандартное отклонение выше среднего, всегда больше или равно Q ( p = 0,5) , медиане, а значение, которое на z = 2 стандартных отклонения выше среднего, всегда больше или равно Q ( p = 0,8) , четвертому квинтилю.
Если z ≤ 0 , то вместо этого существует верхняя граница. Например, значение μ + zσ для z = −3 никогда не превысит Q ( p = 0,1) , первый дециль.
Одной из часто возникающих проблем является оценка квантиля (очень большой или бесконечной) популяции на основе конечной выборки размера N.
Современные статистические пакеты используют ряд методов для оценки квантилей.
Хайндман и Фан составили таксономию из девяти алгоритмов [2], используемых различными программными пакетами. Все методы вычисляют Q p , оценку p -квантиля ( k -го q -квантиля, где p = k / q ) из выборки размера N путем вычисления действительного индекса h . Когда h является целым числом, h -е наименьшее из N значений, x h , является оценкой квантиля. В противном случае используется схема округления или интерполяции для вычисления оценки квантиля из h , x ⌊ h ⌋ и x ⌈ h ⌉ . (Для обозначения см. функции пола и потолка ).
Первые три являются кусочно-постоянными, резко меняющимися в каждой точке данных, в то время как последние шесть используют линейную интерполяцию между точками данных и отличаются только тем, как выбирается индекс h, используемый для выбора точки вдоль кривой кусочно-линейной интерполяции.
Языки программирования Mathematica , [3] Matlab , [4] R [5] и GNU Octave [6] поддерживают все девять методов квантилей выборок. SAS включает пять методов квантилей выборок, SciPy [7] и Maple [8] оба включают восемь, EViews [9] и Julia [10] включают шесть кусочно-линейных функций, Stata [11] включает две, Python [12] включает две, а Microsoft Excel включает две. Mathematica, SciPy и Julia поддерживают произвольные параметры для методов, которые допускают другие, нестандартные методы.
Используемые типы оценок и схемы интерполяции включают:
Примечания:
Из методов Хайндман и Фэн рекомендуют R-8, но большинство статистических программных пакетов выбирают R-6 или R-7 по умолчанию. [13]
Стандартную ошибку квантильной оценки можно в общем случае оценить с помощью бутстрапа . Также можно использовать метод Марица–Джарретта. [14]
Выборочная медиана является наиболее изученной среди квантилей, являясь альтернативой для оценки параметра местоположения, когда ожидаемое значение распределения не существует, и, следовательно, выборочное среднее не является значимым оценщиком характеристики популяции. Более того, выборочная медиана является более надежной оценкой, чем выборочное среднее.
Одной из особенностей выборочной медианы является ее асимптотическое распределение: когда выборка происходит из непрерывного распределения, то выборочная медиана имеет ожидаемое нормальное асимптотическое распределение,
Это распространяется и на другие квантили,
где f ( x p ) — значение плотности распределения в p -м квантиле популяции ( ). [15]
Но когда распределение дискретное, то распределение медианы выборки и других квантилей не является нормальным (см. примеры в https://stats.stackexchange.com/a/86638/28746).
Решением этой проблемы является использование альтернативного определения выборочных квантилей через концепцию функции «середины распределения», которая определяется как
Определение выборочных квантилей через концепцию функции среднего распределения можно рассматривать как обобщение, которое может охватывать как частные случаи непрерывные распределения. Для дискретных распределений выборочная медиана, определенная через эту концепцию, имеет асимптотически нормальное распределение, см. Ma, Y., Genton, MG, & Parzen, E. (2011). Асимптотические свойства выборочных квантилей дискретных распределений. Annals of the Institute of Statistical Mathematics, 63(2), 227–243.
Вычисление приблизительных квантилей из данных, поступающих из потока, может быть эффективно выполнено с использованием сжатых структур данных. Наиболее популярными методами являются t-digest [16] и KLL. [17] Эти методы считывают поток значений непрерывно и могут в любое время быть запрошены о приблизительном значении указанного квантиля.
Оба алгоритма основаны на схожей идее: сжатие потока значений путем суммирования идентичных или похожих значений с весом. Если поток состоит из повторения 100 раз v1 и 100 раз v2, нет смысла хранить отсортированный список из 200 элементов, достаточно сохранить два элемента и два счетчика, чтобы иметь возможность восстановить квантили. При большем количестве значений эти алгоритмы поддерживают компромисс между количеством сохраненных уникальных значений и точностью полученных квантилей. Некоторые значения могут быть отброшены из потока и способствовать весу соседнего значения без слишком сильного изменения результатов квантилей. t-дайджест поддерживает структуру данных ограниченного размера, используя подход, мотивированный кластеризацией k -средних для группировки похожих значений. Алгоритм KLL использует более сложный метод «компактора», который приводит к лучшему контролю границ ошибок за счет требования неограниченного размера, если ошибки должны быть ограничены относительно p .
Оба метода принадлежат к семейству набросков данных , которые являются подмножествами потоковых алгоритмов с полезными свойствами: наброски t-digest или KLL могут быть объединены. Вычисление наброска для очень большого вектора значений может быть разделено на тривиально параллельные процессы, где наброски вычисляются для разделов вектора параллельно и объединяются позже.
Описанные до сих пор алгоритмы напрямую аппроксимируют эмпирические квантили без каких-либо конкретных предположений о данных, по сути, данные являются просто числами или, в более общем смысле, набором элементов, которые можно упорядочить. Эти алгоритмы являются методами, полученными из компьютерной науки. Существует другой класс алгоритмов, которые предполагают, что данные являются реализациями случайного процесса. Это методы, полученные из статистики, в частности, последовательные непараметрические алгоритмы оценки. Существует ряд таких алгоритмов, например, основанные на стохастической аппроксимации [18] [19] или оценщиках рядов Эрмита. [20]
Эти статистические алгоритмы обычно имеют постоянное время обновления и сложность пространства, но имеют другие гарантии предела ошибок по сравнению с методами типа компьютерной науки и делают больше предположений. Однако статистические алгоритмы действительно представляют определенные преимущества, особенно в нестационарной потоковой настройке, т.е. для изменяющихся во времени данных. Недавно были рассмотрены алгоритмы обоих классов, а также некоторые соответствующие преимущества и недостатки. [21]
Стандартизированные результаты тестов обычно сообщаются как результат студента, набравшего «80-й процентиль», например. Это использует альтернативное значение слова процентиль как интервал между (в данном случае) 80-м и 81-м скалярным процентилем. [22] Это отдельное значение процентиля также используется в рецензируемых научных исследовательских статьях. [23] Используемое значение может быть получено из его контекста.
Если распределение симметрично, то медиана является средним значением (при условии, что последнее существует). Но, в общем случае, медиана и среднее значение могут различаться. Например, для случайной величины, которая имеет экспоненциальное распределение , любая конкретная выборка этой случайной величины будет иметь примерно 63% шанс быть меньше среднего. Это происходит потому, что экспоненциальное распределение имеет длинный хвост для положительных значений, но равно нулю для отрицательных чисел.
Квантили являются полезными мерами, поскольку они менее восприимчивы, чем средние значения, к длиннохвостым распределениям и выбросам. Эмпирически, если анализируемые данные на самом деле не распределены в соответствии с предполагаемым распределением или если существуют другие потенциальные источники выбросов, которые далеки от среднего значения, то квантили могут быть более полезной описательной статистикой, чем средние значения и другие статистики, связанные с моментами.
Тесно связана тема наименьших абсолютных отклонений , метода регрессии, который более устойчив к выбросам, чем наименьшие квадраты, в котором сумма абсолютного значения наблюдаемых ошибок используется вместо квадрата ошибки. Связь заключается в том, что среднее значение является единственной оценкой распределения, которая минимизирует ожидаемую квадратичную ошибку, в то время как медиана минимизирует ожидаемую абсолютную ошибку. Наименьшие абсолютные отклонения разделяют способность быть относительно нечувствительными к большим отклонениям в выпадающих наблюдениях, хотя доступны даже лучшие методы надежной регрессии .
Квантили случайной величины сохраняются при возрастающих преобразованиях в том смысле, что, например, если m — медиана случайной величины X , то 2 m — медиана 2 X , если только не был сделан произвольный выбор из диапазона значений для указания конкретного квантиля. (См. выше оценку квантиля для примеров такой интерполяции.) Квантили также можно использовать в случаях, когда доступны только порядковые данные.
Значения, которые делят отсортированные данные на равные подмножества, отличные от четырех, имеют разные названия.
{{cite journal}}
: CS1 maint: multiple names: authors list (link)