stringtranslate.com

процентиль

В статистике k процентиль , также известный как процентиль или центиль , представляет собой балл , ниже которого падает заданный процент k баллов в его частотном распределении (« исключительное » определение), или балл , на котором или ниже падает данный процент. (« инклюзивное » определение). Процентили выражаются в тех же единицах измерения , что и входные оценки, а не в процентах ; например, если баллы относятся к весу человека , соответствующие процентили будут выражены в килограммах или фунтах. В пределе бесконечного размера выборки процентиль аппроксимирует процентильную функцию , обратную кумулятивной функции распределения .

Процентили — это разновидность квантилей , получаемых путем разделения на 100 групп. 25-й процентиль также известен как первый квартиль ( Q 1 ), 50-й процентиль как медиана или второй квартиль ( Q 2 ), а 75-й процентиль как третий квартиль ( Q 3 ). Например, 50-й процентиль (медиана) — это оценка ниже (или на уровне или ниже , в зависимости от определения), которой соответствует 50% оценок в распределении.

Соответствующей величиной является процентильный ранг оценки, выраженный в процентах , который представляет собой долю оценок в его распределении, меньших ее (исключительное определение). Процентильные оценки и процентильные ранги часто используются при составлении отчетов о результатах тестов , соответствующих нормам , но, как только что было отмечено, это не одно и то же. Для процентильных рангов дается балл и вычисляется процент. Процентильные ранги являются исключительными: если процентильный ранг для определенного балла составляет 90%, то 90% баллов были ниже. Напротив, для процентилей указывается процент и определяется соответствующая оценка, которая может быть как исключающей, так и инклюзивной. Оценка для определенного процента (например, 90-е место) указывает оценку, ниже которой (исключительное определение) или на уровне или ниже которого (инклюзивное определение) находятся другие оценки в распределении.

Определения

Стандартного определения процентиля не существует; [1] [2] [3] однако все определения дают схожие результаты, когда количество наблюдений очень велико и распределение вероятностей непрерывно. [4] В пределе, когда размер выборки приближается к бесконечности, 100 p процентиль (0< p <1) аппроксимирует обратную величину сформированной таким образом кумулятивной функции распределения (CDF), оцениваемой при p , поскольку p аппроксимирует CDF. Это можно рассматривать как следствие теоремы Гливенко – Кантелли . Некоторые методы расчета процентилей приведены ниже.

Нормальное распределение и процентили

Представление правила трех сигм . Темно-синяя зона представляет наблюдения в пределах одного стандартного отклонения (σ) по обе стороны от среднего значения (μ), что составляет около 68,3% населения. Два стандартных отклонения от среднего значения (темно- и средне-синий) составляют около 95,4%, а три стандартных отклонения (темно-средний и светло-синий) — около 99,7%.

Методы, приведенные в разделе «Методы расчета» (ниже), представляют собой приближения для использования в статистике малой выборки. В общих чертах, для очень больших групп населения, имеющих нормальное распределение , процентили часто могут быть представлены с помощью графика нормальной кривой. Нормальное распределение строится по оси, масштабированной до стандартных отклонений или единиц сигмы ( ). Математически нормальное распределение простирается до отрицательной бесконечности слева и положительной бесконечности справа. Однако обратите внимание, что лишь очень небольшая часть особей в популяции выходит за пределы диапазона от -3 σ до +3 σ . Например, при росте человека очень немногие люди имеют высоту выше +3 σ .

Процентили представляют собой площадь под нормальной кривой, увеличивающуюся слева направо. Каждое стандартное отклонение представляет собой фиксированный процентиль. Таким образом, округляя до двух десятичных знаков, -3 σ соответствует 0,13-му процентилю, -2 σ - 2,28-му процентилю, -1 σ - 15,87-му процентилю, 0 σ - 50-му процентилю (как среднее, так и медиане распределения), + 1 σ — 84,13-й процентиль, +2 σ — 97,72-й процентиль и +3 σ — 99,87-й процентиль. Это связано с правилом 68–95–99,7 или правилом трех сигм. Обратите внимание, что теоретически 0-й процентиль приходится на отрицательную бесконечность, а 100-й процентиль на положительную бесконечность, хотя во многих практических приложениях, таких как результаты испытаний, применяются естественные нижние и/или верхние пределы.

Приложения

Когда интернет-провайдеры выставляют счета за «повышенную» пропускную способность Интернета , 95-й или 98-й процентиль обычно отсекают верхние 5% или 2% пиковой пропускной способности каждого месяца, а затем выставляют счета по ближайшему тарифу. Таким образом, нечастые пики игнорируются, и с клиента взимается более справедливая плата. Причина, по которой эта статистика настолько полезна при измерении пропускной способности данных, заключается в том, что она дает очень точную картину стоимости полосы пропускания. 95-й процентиль говорит, что в 95 % случаев использование ниже этого значения: следовательно, в оставшиеся 5 % времени использование превышает это значение.

Врачи часто используют вес и рост младенцев и детей для оценки их роста по сравнению со средними показателями по стране и процентилями, которые можно найти в диаграммах роста .

Скорость движения на дороге, составляющая 85-й процентиль, часто используется в качестве ориентира при установлении ограничений скорости и оценке того, является ли такой предел слишком высоким или низким. [5] [6]

В финансах стоимость под риском — это стандартная мера для оценки (в зависимости от модели) величины, ниже которой ожидается, что стоимость портфеля не упадет в течение заданного периода времени и с учетом доверительного значения.

Методы расчета

Интерполированные и ближайшего ранга, эксклюзивные и инклюзивные, процентили для распределения по 10 баллам
Интерполированные и ближайшего ранга, эксклюзивные и инклюзивные, процентили для распределения по 10 баллам

Существует множество формул или алгоритмов [7] для расчета процентиля. Хиндман и Фан [1] выделили девять, и большинство статистических программ и программ для работы с электронными таблицами используют один из описанных ими методов. [8] Алгоритмы либо возвращают значение оценки, которая существует в наборе оценок (методы ближайшего ранга), либо интерполируют между существующими оценками и являются либо исключающими, либо инклюзивными.

На рисунке показано распределение по 10 баллам, иллюстрируются процентильные оценки, полученные в результате этих различных алгоритмов, и служит введением к примерам, приведенным далее. Самыми простыми являются методы ближайшего ранга, которые возвращают оценку из распределения, хотя по сравнению с методами интерполяции результаты могут быть немного грубыми. В таблице «Методы ближайшего ранга» показаны этапы вычислений для исключающих и инклюзивных методов.

Методы интерполяции, как следует из названия, могут возвращать оценку, находящуюся между оценками в распределении. Алгоритмы, используемые статистическими программами, обычно используют методы интерполяции, например функции Percentile.exc и Percentile.inc в Microsoft Excel. В таблице «Интерполированные методы» показаны этапы вычислений.

Метод ближайшего ранга

Значения процентиля для упорядоченного списка {15, 20, 35, 40, 50}

Одно из определений процентиля, часто даваемое в текстах, состоит в том, что P -й процентиль списка из N упорядоченных значений (отсортированных от наименьшего к наибольшему) — это наименьшее значение в списке, такое, что строго не более P процентов данных меньше значения и по крайней мере P процентов данных меньше или равно этому значению. Это получается путем сначала вычисления порядкового ранга, а затем взятия значения из упорядоченного списка, соответствующего этому рангу. Порядковый ранг n рассчитывается по этой формуле

Метод линейной интерполяции между ближайшими рангами

Альтернативой округлению, используемому во многих приложениях, является использование линейной интерполяции между соседними рангами.

Все следующие варианты имеют следующее общее. Учитывая статистику заказов

мы ищем линейную интерполяционную функцию, проходящую через точки . Это достигается просто

где использует функцию пола для представления целой части положительного x , тогда как использует функцию mod для представления его дробной части (остатка после деления на 1). (Обратите внимание, что, хотя в конечной точке значение не определено , это не обязательно, поскольку оно умножается на .) Как мы видим, x — это непрерывная версия индекса i , линейно интерполирующая v между соседними узлами.

Вариантные подходы различаются двумя способами. Первый заключается в линейной зависимости между рангом x , процентным рангом и константой, которая является функцией размера выборки N :

Существует дополнительное требование, чтобы середина диапазона , соответствующая медиане , находилась в точке :

и наша пересмотренная функция теперь имеет только одну степень свободы и выглядит так:

Второй способ различия вариантов заключается в определении функции вблизи границ диапазона p : должна выдавать или быть вынуждена выдавать результат в диапазоне , что может означать отсутствие однозначного результата. одна переписка в более широком регионе. Один автор предложил выбрать вариант, где ξ — это форма обобщенного распределения экстремальных значений , которое является пределом экстремальных значений выборочного распределения.

Первый вариант, С = 1/2

Результат использования каждого из трех вариантов в упорядоченном списке {15, 20, 35, 40, 50}

(Источники: функция «prctile» Matlab, [9] [10] )

где

Кроме того, пусть

Обратная зависимость ограничена более узкой областью:

Второй вариант, C = 1

[Источник: некоторые пакеты программного обеспечения, включая NumPy [11] и Microsoft Excel [3] (до версии 2013 включительно с помощью функции PERCENTILE.INC). Отмечен как альтернатива NIST . [8] ]

Обратите внимание, что связь является взаимно однозначной для единственного из трех вариантов с этим свойством; отсюда и суффикс «INC», обозначающий «включительно» , в функции Excel.

Третий вариант, С = 0

(Основной вариант, рекомендованный NIST . [8] Принят Microsoft Excel с 2010 года с помощью функции PERCENTIL.EXC. Однако, как указывает суффикс «EXC», версия Excel исключает обе конечные точки диапазона p , т.е. тогда как версия «INC», второй вариант, этого не делает; фактически, любое число меньшее также исключается и приведет к ошибке.)

Обратное ограничено более узкой областью:

Метод взвешенного процентиля

Помимо функции процентиля, существует еще взвешенный процентиль , где вместо общего числа подсчитывается процент от общего веса. Стандартной функции для взвешенного процентиля не существует. Один метод естественным образом расширяет описанный выше подход.

Предположим, у нас есть положительные веса, связанные, соответственно, с нашими N отсортированными значениями выборки. Позволять

сумма весов. Тогда приведенные выше формулы обобщаются, взяв

когда ,

или

для общего ,

и

Взвешенный процентиль 50% известен как взвешенная медиана .

Смотрите также

Рекомендации

  1. ^ Аб Хиндман, Роб Дж .; Фан, Янан (ноябрь 1996 г.). «Выборочные квантили в статистических пакетах». Американский статистик . Американская статистическая ассоциация. 50 (4): 361–365. дои : 10.2307/2684934. JSTOR  2684934.
  2. ^ Лейн, Дэвид. «Процентили» . Проверено 15 сентября 2007 г.
  3. ^ Аб Поттель, Ганс. «Статистические ошибки в Excel» (PDF) . Архивировано из оригинала (PDF) 4 июня 2013 г. Проверено 25 марта 2013 г.
  4. ^ Шунджанс Ф, Де Баккер Д, Шмид П (2011). «Оценка процентилей населения». Эпидемиология . 22 (5): 750–751. doi : 10.1097/EDE.0b013e318225c1de. ПМК 3171208 . ПМИД  21811118. 
  5. ^ Джонсон, Роберт; Куби, Патриция (2007), «Прикладной пример 2.15, Ограничение скорости 85-го процентиля: движение с 85% потока», Элементарная статистика (10-е изд.), Cengage Learning, стр. 102, ISBN 9781111802493.
  6. ^ «Рациональные ограничения скорости и скорость 85-го процентиля» (PDF) . lsp.org . Полиция штата Луизиана. Архивировано из оригинала (PDF) 23 сентября 2018 года . Проверено 28 октября 2018 г.
  7. ^ Весса, П. (2021). «Процентили в бесплатном статистическом программном обеспечении». Управление по развитию исследований и образования . Проверено 13 ноября 2021 г.
  8. ^ abc «Справочник по инженерной статистике: процентиль». НИСТ . Проверено 18 февраля 2009 г.
  9. ^ "Панель инструментов статистики Matlab - Процентили" . Проверено 15 сентября 2006 г., Это эквивалентно методу 5, обсуждаемому здесь.
  10. ^ Лэнгфорд, Э. (2006). «Квартили в элементарной статистике». Журнал статистического образования . 14 (3). дои : 10.1080/10691898.2006.11910589 .
  11. ^ «Документация NumPy 1.12» . SciPy . Проверено 19 марта 2017 г.