В статистике статистика k -го порядка статистической выборки равна ее k -му наименьшему значению. [1] Вместе со статистикой рангов статистика порядков является одним из наиболее фундаментальных инструментов непараметрической статистики и вывода .
Важными особыми случаями порядковой статистики являются минимальное и максимальное значение выборки, а также (с некоторыми оговорками, обсуждаемыми ниже) медиана выборки и другие квантили выборки .
При использовании теории вероятностей для анализа статистики порядка случайных выборок из непрерывного распределения используется кумулятивная функция распределения , чтобы свести анализ к случаю статистики порядка равномерного распределения .
Например, предположим, что наблюдаются или записываются четыре числа, в результате чего получается выборка размером 4. Если значения выборки равны
статистика заказов будет обозначаться
где индекс ( i ) , заключенный в круглые скобки, указывает статистику i-го порядка выборки.
Статистика первого порядка (или статистика наименьшего порядка ) всегда является минимумом выборки, то есть
где, следуя общепринятому соглашению, мы используем прописные буквы для обозначения случайных величин и строчные буквы (как указано выше) для обозначения их фактических наблюдаемых значений.
Аналогично, для выборки размера n статистика n - го порядка (или статистика наибольшего порядка ) является максимальной , то есть
Диапазон выборки — это разница между максимальным и минимальным значением. Это функция статистики заказов:
Аналогичная важная статистика в исследовательском анализе данных , которая просто связана со статистикой порядка, — это выборочный межквартильный размах .
Выборочная медиана может быть или не быть порядковой статистикой, поскольку единственное среднее значение существует только тогда, когда число n наблюдений нечетно . Точнее, если n = 2 m +1 для некоторого целого числа m , то выборочная медиана является порядковой статистикой. С другой стороны, когда n четно , n = 2 m и имеются два средних значения и , а медиана выборки является некоторой функцией от этих двух (обычно среднего) и, следовательно, не является порядковой статистикой. Подобные замечания применимы ко всем квантилям выборки.
Учитывая любые случайные величины X 1 , X 2 ..., X n , статистика порядка X (1) , X (2) , ..., X ( n ) также является случайными величинами, определяемыми путем сортировки значений ( реализаций ) X 1 , ..., X n в порядке возрастания.
Когда случайные величины X 1 , X 2 ..., X n образуют выборку , они независимы и одинаково распределены . Именно этот случай рассматривается ниже. В общем, случайные величины X 1 , ..., X n могут возникнуть в результате выборки из более чем одной совокупности. Тогда они независимы , но не обязательно одинаково распределены, а их совместное распределение вероятностей задается теоремой Бапата-Бега .
В дальнейшем мы будем считать, что рассматриваемые случайные величины непрерывны , а там, где это удобно, будем также предполагать, что они имеют функцию плотности вероятности (PDF), то есть абсолютно непрерывны . В конце обсуждаются особенности анализа распределений, присваивающих массу точкам (в частности, дискретных распределений ).
Для случайной выборки, как указано выше, с кумулятивным распределением , статистика порядка для этой выборки имеет кумулятивное распределение следующим образом [2] (где r указывает, какая статистика порядка):
соответствующая функция плотности вероятности может быть получена из этого результата и оказывается равной
Более того, есть два особых случая, в которых CDF легко вычислить.
Это можно получить путем тщательного рассмотрения вероятностей.
В этом разделе мы показываем, что порядковая статистика равномерного распределения на единичном интервале имеет маргинальные распределения , принадлежащие семейству бета-распределений . Мы также даем простой метод получения совместного распределения любого количества статистик порядка и, наконец, переводим эти результаты в произвольные непрерывные распределения с помощью cdf .
В этом разделе мы предполагаем, что это случайная выборка , полученная из непрерывного распределения с помощью cdf . Обозначив, мы получаем соответствующую случайную выборку из стандартного равномерного распределения . Обратите внимание, что статистика заказов также удовлетворяет требованиям .
Функция плотности вероятности статистики порядка равна [3]
то есть статистика k- го порядка равномерного распределения представляет собой случайную величину с бета-распределением . [3] [4]
Доказательство этих утверждений состоит в следующем. Чтобы находиться между u и u + du , необходимо, чтобы ровно k − 1 элементов выборки были меньше u и чтобы хотя бы один находился между u и u + d u . Вероятность того, что в этом последнем интервале окажется более одного, уже равна , поэтому нам нужно вычислить вероятность того, что ровно k - 1, 1 и n - k наблюдений попадают в интервалы , и соответственно. Это равно ( подробнее см. Полиномиальное распределение )
и результат следующий.
Среднее значение этого распределения равно k /( n + 1).
Аналогично, для i < j можно показать, что совместная функция плотности вероятности статистики двух порядков U ( i ) < U ( j ) равна
что представляет собой (с точностью до членов более высокого порядка, чем ) вероятность того, что i - 1, 1, j - 1 - i , 1 и n - j элементов выборки попадают в интервалы , , , соответственно .
Совершенно аналогичным образом можно рассуждать и о выводе совместных распределений более высокого порядка. Возможно, это удивительно, но совместная плотность статистики n- го порядка оказывается постоянной :
Один из способов понять это состоит в том, что неупорядоченный образец действительно имеет постоянную плотность, равную 1, и что существует n ! разные перестановки выборки, соответствующие одной и той же последовательности статистики порядка. Это связано с тем, что 1/ n ! - объем региона . Это связано также с другой особенностью порядковой статистики однородных случайных величин: из BRS -неравенства следует , что максимальное ожидаемое число однородных U(0,1] случайных величин, которое можно выбрать из выборки размера n с суммой не превышающее ограничено сверху , что, таким образом, инвариантно на множестве всех с постоянным произведением .
Используя приведенные выше формулы, можно получить распределение диапазона статистики порядка, то есть распределение , то есть максимум минус минимум. В более общем смысле , для также имеет бета-распределение:
Для случайной выборки размера n из экспоненциального распределения с параметром λ статистика порядка X ( i ) для i = 1,2,3,..., n имеет распределение
где Z j — стандартные экспоненциальные случайные величины iid (т.е. с параметром скорости 1). Этот результат был впервые опубликован Альфредом Реньи . [5] [6]
Преобразование Лапласа статистики порядка может быть выбрано из распределения Эрланга с помощью метода подсчета путей [ необходимы пояснения ] . [7]
Если F X абсолютно непрерывен , то он имеет такую плотность , что и мы можем использовать замены
и
чтобы получить следующие функции плотности вероятности для статистики порядка выборки размера n , взятой из распределения X :
Интересный вопрос заключается в том, насколько хорошо статистика порядка выполняет функцию оценки квантилей основного распределения.
Самый простой случай, который следует рассмотреть, — насколько хорошо медиана выборки оценивает медиану совокупности.
В качестве примера рассмотрим случайную выборку размером 6. В этом случае медиана выборки обычно определяется как середина интервала, ограниченного статистикой 3-го и 4-го порядка. Однако из предыдущего обсуждения мы знаем, что вероятность того, что этот интервал действительно содержит медиану совокупности, равна [ необходимы пояснения ]
Хотя выборочная медиана, вероятно, является одной из лучших точечных оценок медианы совокупности, не зависящих от распределения, этот пример иллюстрирует то, что она не особенно хороша в абсолютном выражении. В этом конкретном случае лучшим доверительным интервалом для медианы является интервал, ограниченный статистикой 2-го и 5-го порядка, который содержит медиану совокупности с вероятностью
При таком небольшом размере выборки, если кто-то хочет иметь уверенность не менее 95%, приходится говорить, что медиана находится между минимумом и максимумом из 6 наблюдений с вероятностью 31/32 или примерно 97%. Размер 6 фактически представляет собой наименьший размер выборки, при котором интервал, определяемый минимумом и максимумом, составляет как минимум 95% доверительный интервал для медианы генеральной совокупности.
Для равномерного распределения, когда n стремится к бесконечности, p- й квантиль выборки асимптотически нормально распределен , поскольку он аппроксимируется выражением
Для общего распределения F с непрерывной ненулевой плотностью в F −1 ( p ) применяется аналогичная асимптотическая нормальность:
где f — функция плотности , а F −1 — функция квантиля , связанная с F. Одним из первых, кто упомянул и доказал этот результат, был Фредерик Мостеллер в своей основополагающей статье в 1946 году. [8] Дальнейшие исследования привели в 1960-х годах к представлению Бахадура , которое предоставляет информацию о границах ошибок. Сходимость к нормальному распределению также имеет место в более сильном смысле, например, сходимость по относительной энтропии или КЛ-дивергенция . [9]
Интересное наблюдение можно сделать в случае, когда распределение симметрично, а медиана населения равна среднему значению населения. В этом случае выборочное среднее согласно центральной предельной теореме также асимптотически нормально распределено, но вместо этого с дисперсией σ 2 /n . Этот асимптотический анализ предполагает, что среднее значение превосходит медиану в случаях низкого эксцесса , и наоборот. Например, медиана обеспечивает лучшие доверительные интервалы для распределения Лапласа , в то время как среднее работает лучше для X , которые имеют нормальное распределение.
Можно показать, что
где
где Z i являются независимыми одинаково распределенными экспоненциальными случайными величинами с частотой 1. Поскольку X / n и Y / n асимптотически нормально распределяются с помощью CLT, наши результаты получены на основе применения дельта-метода .
Моменты распределения статистики первого порядка можно использовать для разработки непараметрической оценки плотности. [10] Предположим, мы хотим оценить плотность в точке . Рассмотрим случайные величины , которые имеют функцию распределения . В частности, .
Ожидаемое значение статистики первого порядка с учетом выборки общего количества наблюдений дает:
где – функция квантиля, связанная с распределением , и . Это уравнение в сочетании с методом складного ножа становится основой для следующего алгоритма оценки плотности:
Входные данные: выборка наблюдений. точки оценки плотности. Параметр настройки (обычно 1/3). Выход: расчетная плотность в точках оценки.
1: Набор 2: Набор 3: Создайте матрицу , содержащую подмножества с наблюдениями в каждом. 4: Создайте вектор для хранения оценок плотности. 5: для действия 6: для действия 7: Найти ближайшее расстояние до текущей точки в пределах th подмножества 8: конец для 9: вычислить среднее подмножество расстояний до 10: вычислить оценку плотности в 11: конец для 12: возврат
В отличие от параметров настройки на основе ширины полосы/длины для подходов на основе гистограммы и ядра , параметром настройки для оценки плотности на основе статистики порядка является размер подмножеств выборки. Такая оценка более надежна, чем подходы, основанные на гистограмме и ядре, например, такие плотности, как распределение Коши (в котором отсутствуют конечные моменты), можно вывести без необходимости специальных модификаций, таких как пропускная способность на основе IQR . Это связано с тем, что первый момент статистики порядка всегда существует, если существует ожидаемое значение основного распределения, но обратное не обязательно верно. [11]
Предположим , что это iid случайные величины из дискретного распределения с кумулятивной функцией распределения и функцией массы вероятности . Чтобы найти вероятности статистики заказов, сначала необходимы три значения, а именно:
Кумулятивную функцию распределения статистики порядка можно вычислить, заметив, что
Аналогично, дается
Обратите внимание, что функция массы вероятности представляет собой просто разность этих значений, то есть
Задача вычисления k- го наименьшего (или наибольшего) элемента списка называется проблемой выбора и решается с помощью алгоритма выбора. Хотя эта проблема сложна для очень больших списков, были созданы сложные алгоритмы выбора, которые могут решить эту проблему за время, пропорциональное количеству элементов в списке, даже если список совершенно неупорядочен. Если данные хранятся в определенных специализированных структурах данных, это время можно сократить до O(log n ). Во многих приложениях требуется вся статистика по порядку, и в этом случае можно использовать алгоритм сортировки , а затрачиваемое на это время составляет O( n log n ).
Как и хорошо Как известно, бета-распределение — это распределение статистики
m
-го порядка из случайной выборки размера
n
из равномерного распределения (по (0,1)).