В статистике статистика порядка k статистической выборки равна ее наименьшему значению порядка k . [ 1] Вместе с ранговой статистикой порядковая статистика является одним из самых фундаментальных инструментов в непараметрической статистике и выводе .
Важными частными случаями порядковой статистики являются минимальное и максимальное значение выборки, а также (с некоторыми оговорками, которые обсуждаются ниже) медиана выборки и другие квантили выборки .
При использовании теории вероятностей для анализа порядковых статистик случайных выборок из непрерывного распределения кумулятивная функция распределения используется для сведения анализа к случаю порядковых статистик равномерного распределения .
Например, предположим, что наблюдаются или регистрируются четыре числа, в результате чего получается выборка размером 4. Если значения выборки равны
статистика заказа будет обозначена
где нижний индекс ( i ), заключенный в скобки, указывает на статистику i -го порядка выборки.
Статистика первого порядка (или статистика наименьшего порядка ) всегда является минимумом выборки, то есть,
где, следуя общепринятому соглашению, мы используем заглавные буквы для обозначения случайных величин, а строчные буквы (как выше) — для обозначения их фактических наблюдаемых значений.
Аналогично, для выборки размера n статистика n- го порядка (или статистика наибольшего порядка ) является максимальной , то есть,
Диапазон выборки — это разница между максимумом и минимумом. Это функция статистики порядка:
Аналогичная важная статистика в разведочном анализе данных , которая просто связана с порядковой статистикой, — это выборочный межквартильный размах .
Выборочная медиана может быть или не быть порядковой статистикой, поскольку существует единственное среднее значение только тогда, когда число наблюдений n нечетно . Точнее, если n = 2 m +1 для некоторого целого числа m, то выборочная медиана равна и, следовательно, является порядковой статистикой. С другой стороны, когда n четно, n = 2 m и есть два средних значения , и , и выборочная медиана является некоторой функцией этих двух (обычно средним) и, следовательно, не является порядковой статистикой. Аналогичные замечания применимы ко всем выборочным квантилям.
Для любых случайных величин X 1 , X 2 , ..., X n порядковые статистики X (1) , X (2) , ..., X ( n ) также являются случайными величинами, определяемыми путем сортировки значений ( реализаций ) X 1 , ..., X n в порядке возрастания.
Когда случайные величины X 1 , X 2 , ..., X n образуют выборку , они независимы и одинаково распределены . Этот случай рассматривается ниже. В общем случае случайные величины X 1 , ..., X n могут возникать при выборке из более чем одной популяции. Тогда они независимы , но не обязательно одинаково распределены, и их совместное распределение вероятностей задается теоремой Бапата–Бега .
С этого момента мы будем предполагать, что рассматриваемые случайные величины непрерывны и, где это удобно, будем также предполагать, что они имеют функцию плотности вероятности (PDF), то есть они абсолютно непрерывны . Особенности анализа распределений, присваивающих масса точкам (в частности, дискретных распределений ), обсуждаются в конце.
Для случайной выборки, как указано выше, с кумулятивным распределением , порядковые статистики для этой выборки имеют следующие кумулятивные распределения [2] (где r указывает, какая порядковая статистика):
соответствующая функция плотности вероятности может быть получена из этого результата и оказывается равной
Более того, существуют два особых случая, для которых функции распределения вероятности легко вычислить.
Который можно вывести путем тщательного рассмотрения вероятностей.
В этом разделе мы показываем, что порядковые статистики равномерного распределения на единичном интервале имеют маргинальные распределения, принадлежащие семейству бета-распределений . Мы также даем простой метод вывода совместного распределения любого количества порядковых статистик и, наконец, переводим эти результаты в произвольные непрерывные распределения с помощью cdf .
В этом разделе мы предполагаем, что случайная выборка взята из непрерывного распределения с cdf . Обозначая , мы получаем соответствующую случайную выборку из стандартного равномерного распределения . Обратите внимание, что порядковые статистики также удовлетворяют .
Функция плотности вероятности порядковой статистики равна [3]
то есть, статистика порядка k равномерного распределения является бета-распределенной случайной величиной. [3] [4]
Доказательство этих утверждений следующее. Для того, чтобы быть между u и u + du , необходимо, чтобы ровно k − 1 элементов выборки были меньше u , и чтобы по крайней мере один находился между u и u + d u . Вероятность того, что более одного находится в этом последнем интервале, уже равна , поэтому мы должны вычислить вероятность того, что ровно k − 1, 1 и n − k наблюдений попадут в интервалы , и соответственно. Это равно (см. мультиномиальное распределение для получения подробной информации)
и вот результат.
Среднее значение этого распределения равно k / ( n + 1).
Аналогично, для i < j можно показать , что совместная функция плотности вероятности двух порядковых статистик U ( i ) < U ( j ) имеет вид
что представляет собой (с точностью до членов более высокого порядка, чем ) вероятность того, что i − 1, 1, j − 1 − i , 1 и n − j элементов выборки попадают в интервалы , , , , соответственно.
Можно рассуждать совершенно аналогичным образом, чтобы вывести совместные распределения более высокого порядка. Возможно, это удивительно, но совместная плотность статистик порядка n оказывается постоянной :
Один из способов понять это состоит в том, что неупорядоченная выборка имеет постоянную плотность, равную 1, и что существует n ! различных перестановок выборки, соответствующих одной и той же последовательности порядковых статистик. Это связано с тем фактом, что 1/ n ! — это объем области . Это также связано с другой особенностью порядковых статистик равномерных случайных величин: из неравенства BRS следует , что максимальное ожидаемое число равномерных случайных величин U(0,1], которые можно выбрать из выборки размера n с суммой, не превышающей , ограничено сверху величиной , которая, таким образом, инвариантна на множестве всех с постоянным произведением .
Используя приведенные выше формулы , можно вывести распределение диапазона порядковых статистик, то есть распределение , т.е. максимум минус минимум. В более общем смысле, для также имеет бета-распределение: Из этих формул мы можем вывести ковариацию между двумя порядковыми статистиками: Формула следует из того, что и сравнения с , где , что является фактическим распределением разности.
Для случайной выборки размера n из экспоненциального распределения с параметром λ порядковые статистики X ( i ) для i = 1,2,3, ..., n имеют распределение
где Z j — это стандартные экспоненциальные случайные величины (т.е. с параметром скорости 1). Этот результат был впервые опубликован Альфредом Реньи . [5] [6]
Преобразование Лапласа порядковой статистики может быть выбрано из распределения Эрланга с помощью метода подсчета путей [ необходимо разъяснение ] . [7]
Если F X абсолютно непрерывен , то он имеет плотность такую, что , и мы можем использовать подстановки
и
вывести следующие функции плотности вероятности для порядковых статистик выборки размера n, взятой из распределения X :
Интересный вопрос заключается в том, насколько хорошо порядковые статистики выполняют функцию оценки квантилей базового распределения.
Самый простой случай, который следует рассмотреть, — насколько хорошо медиана выборки оценивает медиану совокупности.
В качестве примера рассмотрим случайную выборку размером 6. В этом случае медиана выборки обычно определяется как середина интервала, ограниченного статистиками 3-го и 4-го порядка. Однако из предыдущего обсуждения мы знаем, что вероятность того, что этот интервал фактически содержит медиану популяции, равна [ необходимо разъяснение ]
Хотя медиана выборки, вероятно, относится к лучшим независимым от распределения точечным оценкам медианы популяции, этот пример иллюстрирует, что она не особенно хороша в абсолютных значениях. В этом конкретном случае лучшим доверительным интервалом для медианы является тот, который ограничен статистиками 2-го и 5-го порядка, которые содержат медиану популяции с вероятностью
При таком малом размере выборки, если требуется по крайней мере 95% достоверности, приходится говорить, что медиана находится между минимумом и максимумом из 6 наблюдений с вероятностью 31/32 или приблизительно 97%. Размер 6 — это, по сути, наименьший размер выборки, такой, что интервал, определяемый минимумом и максимумом, составляет по крайней мере 95% доверительный интервал для медианы популяции.
Для равномерного распределения, когда n стремится к бесконечности, p- й квантиль выборки асимптотически нормально распределен , поскольку он аппроксимируется выражением
Для общего распределения F с непрерывной ненулевой плотностью в точке F −1 ( p ) применима аналогичная асимптотическая нормальность:
где f — функция плотности , а F −1 — функция квантиля, связанная с F. Одним из первых, кто упомянул и доказал этот результат, был Фредерик Мостеллер в своей основополагающей статье в 1946 году. [8] Дальнейшие исследования привели в 1960-х годах к представлению Бахадура , которое предоставляет информацию о границах ошибок. Сходимость к нормальному распределению также имеет место в более сильном смысле, например, сходимость относительной энтропии или дивергенция KL . [9]
Интересное наблюдение можно сделать в случае, когда распределение симметрично, а медиана совокупности равна среднему значению совокупности. В этом случае среднее значение выборки , по центральной предельной теореме , также асимптотически нормально распределено, но с дисперсией σ 2 /n . Этот асимптотический анализ предполагает, что среднее значение превосходит медиану в случаях низкого эксцесса , и наоборот. Например, медиана достигает лучших доверительных интервалов для распределения Лапласа , в то время как среднее значение лучше для X , которые распределены нормально.
Можно показать, что
где
где Z i — независимые одинаково распределенные экспоненциальные случайные величины со скоростью 1. Поскольку X / n и Y / n асимптотически нормально распределены по ЦПТ, наши результаты получаются путем применения дельта-метода .
Моменты распределения для статистики первого порядка можно использовать для разработки непараметрической оценки плотности. [10] Предположим, мы хотим оценить плотность в точке . Рассмотрим случайные величины , которые являются iid с функцией распределения . В частности, .
Ожидаемое значение статистики первого порядка, полученное на основе выборки всех наблюдений, составляет:
где — квантильная функция, связанная с распределением , и . Это уравнение в сочетании с методом складывания становится основой для следующего алгоритма оценки плотности,
Вход: Выборка наблюдений. Точки оценки плотности. Параметр настройки (обычно 1/3). Выходные данные: расчетная плотность в точках оценки.
1: Набор 2: Набор 3: Создать матрицу , которая содержит подмножества с наблюдениями в каждом. 4: Создайте вектор для хранения оценок плотности. 5: for do 6: for do 7: Найти ближайшее расстояние до текущей точки в пределах th подмножества 8: конец для 9: вычисление среднего значения подмножества расстояний до 10: вычисление оценки плотности в 11: конец для 12: возврат
В отличие от параметров настройки на основе полосы пропускания/длины для подходов на основе гистограммы и ядра , параметром настройки для оценки плотности на основе порядковой статистики является размер подмножеств выборки. Такая оценка более надежна, чем подходы на основе гистограммы и ядра, например, плотности, такие как распределение Коши (которое не имеет конечных моментов), могут быть выведены без необходимости специализированных модификаций, таких как полосы пропускания на основе IQR . Это связано с тем, что первый момент порядковой статистики всегда существует, если существует ожидаемое значение базового распределения, но обратное не обязательно верно. [11]
Предположим, что есть случайные величины iid из дискретного распределения с кумулятивной функцией распределения и функцией массы вероятности . Чтобы найти вероятности порядковых статистик, сначала нужны три значения, а именно
Кумулятивную функцию распределения порядковой статистики можно вычислить, заметив, что
Аналогично, дается выражением
Обратите внимание, что функция массы вероятности представляет собой просто разность этих значений, то есть
Проблема вычисления k- го наименьшего (или наибольшего) элемента списка называется проблемой выбора и решается алгоритмом выбора. Хотя эта проблема сложна для очень больших списков, были созданы сложные алгоритмы выбора, которые могут решить эту проблему за время, пропорциональное количеству элементов в списке, даже если список полностью неупорядочен. Если данные хранятся в определенных специализированных структурах данных, это время можно сократить до O(log n ). Во многих приложениях требуются все упорядоченные статистики, в этом случае можно использовать алгоритм сортировки , и время составит O( n log n ).
Порядковая статистика имеет множество приложений в таких областях, как теория надежности, финансовая математика, анализ выживаемости, эпидемиология, спорт, контроль качества, актуарный риск и т. д. Существует обширная литература, посвященная исследованиям по применению порядковой статистики в этих областях.
Например, недавнее применение в актуарном риске можно найти в [12] , где приводятся некоторые принципы взвешенной премии с точки зрения рекордных претензий и k-х рекордных претензий.
Как известно, бета-распределение — это распределение статистики порядка
m
из случайной выборки размера
n
из равномерного распределения (на (0,1)).