В статистике k -й процентиль , также известный как процентильный балл или центиль , — это балл , ниже которого падает заданный процент k баллов в его частотном распределении (« исключительное » определение), или балл, на который или ниже которого падает заданный процент (« включительное » определение). Процентили выражаются в той же единице измерения , что и входные баллы, а не в процентах ; например, если баллы относятся к весу человека , соответствующие процентили будут выражены в килограммах или фунтах. В пределе бесконечного размера выборки процентиль аппроксимирует процентильную функцию , обратную кумулятивной функции распределения .
Процентили — это тип квантилей , получаемых путем деления на 100 групп. 25-й процентиль также известен как первый квартиль ( Q 1 ), 50-й процентиль — как медиана или второй квартиль ( Q 2 ), а 75-й процентиль — как третий квартиль ( Q 3 ). Например, 50-й процентиль (медиана) — это оценка ниже (или на уровне или ниже , в зависимости от определения), которой соответствуют 50% оценок в распределении.
Связанная величина — это процентильный ранг оценки, выраженный в процентах , который представляет собой долю оценок в его распределении, которые меньше его, исключительное определение. Процентильные баллы и процентильные ранги часто используются при сообщении результатов тестов , относящихся к норме , но, как только что было отмечено, они не одно и то же. Для процентильных рангов дается балл и вычисляется процент. Процентильные ранги являются исключительными: если процентильный ранг для указанной оценки составляет 90%, то 90% оценок были ниже. Напротив, для процентилей дается процент и определяется соответствующая оценка, которая может быть как исключающей, так и инклюзивной. Оценка для указанного процента (например, 90-й) указывает оценку, ниже которой (исключающее определение) или на уровне или ниже которой (включающее определение) находятся другие оценки в распределении.
Стандартного определения процентиля не существует; [1] [2] [3] однако все определения дают схожие результаты, когда число наблюдений очень велико, а распределение вероятностей непрерывно. [4] В пределе, когда размер выборки стремится к бесконечности, 100 -й процентиль p (0< p <1) приближается к обратной величине кумулятивной функции распределения (CDF), сформированной таким образом, оцененной при p , поскольку p приближается к CDF. Это можно рассматривать как следствие теоремы Гливенко–Кантелли . Некоторые методы расчета процентилей приведены ниже.
Методы, приведенные в разделе методов расчета (ниже), являются приближениями для использования в статистике малых выборок. В общих чертах, для очень больших популяций, следующих нормальному распределению , процентили часто могут быть представлены ссылкой на график нормальной кривой. Нормальное распределение строится вдоль оси, масштабированной до стандартных отклонений , или единиц сигма ( ). Математически нормальное распределение простирается до отрицательной бесконечности слева и положительной бесконечности справа. Обратите внимание, однако, что только очень небольшая доля людей в популяции будет выходить за пределы диапазона от −3 σ до +3 σ . Например, при росте человека очень немногие люди выше уровня роста +3 σ .
Процентили представляют собой площадь под нормальной кривой, увеличиваясь слева направо. Каждое стандартное отклонение представляет собой фиксированный процентиль. Таким образом, округляя до двух знаков после запятой, −3 σ — это 0,13-й процентиль, −2 σ — 2,28-й процентиль, −1 σ — 15,87-й процентиль, 0 σ — 50-й процентиль (как среднее, так и медиана распределения), +1 σ — 84,13-й процентиль, +2 σ — 97,72-й процентиль и +3 σ — 99,87-й процентиль. Это связано с правилом 68–95–99,7 или правилом трех сигм. Обратите внимание, что теоретически 0-й процентиль приходится на отрицательную бесконечность, а 100-й процентиль — на положительную бесконечность, хотя во многих практических приложениях, таких как результаты испытаний, применяются естественные нижние и/или верхние пределы.
Когда интернет-провайдеры выставляют счет за «взрывную» пропускную способность интернета , 95-й или 98-й процентиль обычно отсекает верхние 5% или 2% пиков пропускной способности в каждом месяце, а затем выставляет счет по ближайшему тарифу. Таким образом, нечастые пики игнорируются, и клиент платит более справедливо. Причина, по которой эта статистика так полезна для измерения пропускной способности данных, заключается в том, что она дает очень точную картину стоимости пропускной способности. 95-й процентиль говорит, что 95% времени использование ниже этой суммы: поэтому оставшиеся 5% времени использование выше этой суммы.
Врачи часто используют вес и рост младенцев и детей для оценки их развития в сравнении со средними показателями по стране и процентилями, указанными в диаграммах роста .
85-й процентиль скорости движения на дороге часто используется в качестве ориентира при установлении ограничений скорости и оценке того, является ли такое ограничение слишком высоким или низким. [5] [6]
В финансах стоимость под риском — это стандартная мера оценки (в зависимости от модели) величины, ниже которой стоимость портфеля, как ожидается, не упадет в течение определенного периода времени и с учетом доверительного значения.
Существует множество формул или алгоритмов [7] для процентильного балла. Хайндман и Фэн [1] выделили девять, и большинство статистических и табличных программ используют один из описанных ими методов. [8] Алгоритмы либо возвращают значение балла, существующего в наборе баллов (методы ближайшего ранга), либо интерполируют между существующими баллами и являются либо исключающими, либо инклюзивными.
Рисунок показывает распределение с 10 баллами, иллюстрирует процентильные баллы, которые получаются из этих различных алгоритмов, и служит введением к примерам, приведенным далее. Простейшими являются методы ближайшего ранга, которые возвращают балл из распределения, хотя по сравнению с методами интерполяции результаты могут быть немного грубыми. Таблица методов ближайшего ранга показывает вычислительные шаги для исключающих и инклюзивных методов.
Методы интерполяции, как следует из названия, могут возвращать оценку, которая находится между оценками в распределении. Алгоритмы, используемые статистическими программами, обычно используют методы интерполяции, например, функции percentile.exc и percentile.inc в Microsoft Excel. Таблица Interpolated Methods показывает вычислительные шаги.
Одно из определений процентиля, часто приводимое в текстах, заключается в том, что P -й процентиль списка из N упорядоченных значений (отсортированных от наименьшего к наибольшему) является наименьшим значением в списке, таким, что не более P процентов данных строго меньше значения и по крайней мере P процентов данных меньше или равны этому значению. Это получается путем первого вычисления порядкового ранга, а затем взятия значения из упорядоченного списка, соответствующего этому рангу. Порядковый ранг n вычисляется с использованием этой формулы
Альтернативой округлению, используемому во многих приложениях, является использование линейной интерполяции между соседними рангами.
Все следующие варианты имеют следующее общее. Учитывая статистику заказов
мы ищем линейную интерполяционную функцию, проходящую через точки . Это просто достигается путем
где использует функцию floor для представления целой части положительного x , тогда как использует функцию mod для представления его дробной части (остаток после деления на 1). (Обратите внимание, что, хотя в конечной точке , не определено, это не обязательно так, поскольку оно умножается на .) Как мы видим, x является непрерывной версией индекса i , линейно интерполирующей v между соседними узлами.
Есть два способа, которыми различаются варианты подходов. Первый заключается в линейной зависимости между рангом x , процентным рангом и константой, которая является функцией размера выборки N :
Существует дополнительное требование, чтобы средняя точка диапазона , соответствующая медиане , находилась в :
и наша пересмотренная функция теперь имеет только одну степень свободы и выглядит следующим образом:
Второй способ, которым варианты различаются, заключается в определении функции вблизи границ диапазона p : должна производить или быть вынуждена производить результат в диапазоне , что может означать отсутствие однозначного соответствия в более широкой области. Один автор предложил выбор , где ξ — форма обобщенного распределения экстремальных значений , которое является пределом экстремальных значений выборочного распределения.
(Источники: функция Matlab "prctile", [9] [10] )
где
Кроме того, пусть
Обратная зависимость ограничена более узкой областью:
[Источник: Некоторые программные пакеты, включая NumPy [11] и Microsoft Excel [3] (до версии 2013 включительно с помощью функции PERCENTILE.INC). Отмечено как альтернатива NIST . [8] ]
Обратите внимание, что связь является один-к-одному для , единственного из трех вариантов с этим свойством; отсюда суффикс «INC» ( включительно ) в функции Excel.
(Основной вариант, рекомендованный NIST . [8] Принят в Microsoft Excel с 2010 года посредством функции PERCENTIL.EXC. Однако, как указывает суффикс «EXC», версия Excel исключает обе конечные точки диапазона p , т. е. , тогда как версия «INC», второй вариант, этого не делает; фактически, любое число, меньшее , также исключается и приведет к ошибке.)
Обратное уравнение ограничено более узкой областью:
В дополнение к функции процентиля, есть также взвешенный процентиль , где вместо общего числа подсчитывается процент в общем весе. Стандартной функции для взвешенного процентиля не существует. Один метод естественным образом расширяет вышеуказанный подход.
Предположим, что у нас есть положительные веса , связанные, соответственно, с нашими N отсортированными выборочными значениями. Пусть
сумма весов. Затем формулы выше обобщаются, принимая
или
и
50%-ный взвешенный процентиль известен как взвешенная медиана .