stringtranslate.com

Статистика заказов

Функции плотности вероятности статистики порядка для выборки объемом n  = 5 из экспоненциального распределения с параметром единичного масштаба

В статистике статистика k -го порядка статистической выборки равна ее k -му наименьшему значению. [1] Вместе со статистикой рангов статистика порядков является одним из наиболее фундаментальных инструментов непараметрической статистики и вывода .

Важными особыми случаями порядковой статистики являются минимальное и максимальное значение выборки, а также (с некоторыми оговорками, обсуждаемыми ниже) медиана выборки и другие квантили выборки .

При использовании теории вероятностей для анализа статистики порядка случайных выборок из непрерывного распределения используется кумулятивная функция распределения , чтобы свести анализ к случаю статистики порядка равномерного распределения .

Обозначения и примеры

Например, предположим, что наблюдаются или записываются четыре числа, в результате чего получается выборка размером 4. Если значения выборки равны

6, 9, 3, 8,

статистика заказов будет обозначаться

где индекс ( i ) , заключенный в круглые скобки, указывает статистику i-го порядка выборки.

Статистика первого порядка (или статистика наименьшего порядка ) всегда является минимумом выборки, то есть

где, следуя общепринятому соглашению, мы используем прописные буквы для обозначения случайных величин и строчные буквы (как указано выше) для обозначения их фактических наблюдаемых значений.

Аналогично, для выборки размера n статистика n - го порядка (или статистика наибольшего порядка ) является максимальной , то есть

Диапазон выборки — это разница между максимальным и минимальным значением. Это функция статистики заказов:

Аналогичная важная статистика в исследовательском анализе данных , которая просто связана со статистикой порядка, — это выборочный межквартильный размах .

Выборочная медиана может быть или не быть порядковой статистикой, поскольку единственное среднее значение существует только тогда, когда число n наблюдений нечетно . Точнее, если n = 2 m +1 для некоторого целого числа m , то выборочная медиана является порядковой статистикой. С другой стороны, когда n четно , n = 2 m и имеются два средних значения и , а медиана выборки является некоторой функцией от этих двух (обычно среднего) и, следовательно, не является порядковой статистикой. Подобные замечания применимы ко всем квантилям выборки.

Вероятностный анализ

Учитывая любые случайные величины X 1 , X 2 ..., X n , статистика порядка X (1) , X (2) , ..., X ( n ) также является случайными величинами, определяемыми путем сортировки значений ( реализаций ) X 1 , ..., X n в порядке возрастания.

Когда случайные величины X 1 , X 2 ..., X n образуют выборку , они независимы и одинаково распределены . Именно этот случай рассматривается ниже. В общем, случайные величины X 1 , ..., X n могут возникнуть в результате выборки из более чем одной совокупности. Тогда они независимы , но не обязательно одинаково распределены, а их совместное распределение вероятностей задается теоремой Бапата-Бега .

В дальнейшем мы будем считать, что рассматриваемые случайные величины непрерывны , а там, где это удобно, будем также предполагать, что они имеют функцию плотности вероятности (PDF), то есть абсолютно непрерывны . В конце обсуждаются особенности анализа распределений, присваивающих массу точкам (в частности, дискретных распределений ).

Кумулятивная функция распределения статистики заказов

Для случайной выборки, как указано выше, с кумулятивным распределением , статистика порядка для этой выборки имеет кумулятивное распределение следующим образом [2] (где r указывает, какая статистика порядка):

соответствующая функция плотности вероятности может быть получена из этого результата и оказывается равной

Более того, есть два особых случая, в которых CDF легко вычислить.

Это можно получить путем тщательного рассмотрения вероятностей.

Распределения вероятностей статистики заказов

Статистика заказов, выбранная из равномерного распределения

В этом разделе мы показываем, что порядковая статистика равномерного распределения на единичном интервале имеет маргинальные распределения , принадлежащие семейству бета-распределений . Мы также даем простой метод получения совместного распределения любого количества статистик порядка и, наконец, переводим эти результаты в произвольные непрерывные распределения с помощью cdf .

В этом разделе мы предполагаем, что это случайная выборка , полученная из непрерывного распределения с помощью cdf . Обозначив, мы получаем соответствующую случайную выборку из стандартного равномерного распределения . Обратите внимание, что статистика заказов также удовлетворяет требованиям .

Функция плотности вероятности статистики порядка равна [3]

то есть статистика k- го порядка равномерного распределения представляет собой случайную величину с бета-распределением . [3] [4]

Доказательство этих утверждений состоит в следующем. Чтобы находиться между u и u  +  du , необходимо, чтобы ровно k  − 1 элементов выборки были меньше u и чтобы хотя бы один находился между u и u  + d u . Вероятность того, что в этом последнем интервале окажется более одного, уже равна , поэтому нам нужно вычислить вероятность того, что ровно k  - 1, 1 и n  -  k наблюдений попадают в интервалы , и соответственно. Это равно ( подробнее см. Полиномиальное распределение )

и результат следующий.

Среднее значение этого распределения равно k /( n + 1).

Совместное распределение статистики заказов равномерного распределения

Аналогично, для i  <  j можно показать, что совместная функция плотности вероятности статистики двух порядков U ( i )  <  U ( j ) равна

что представляет собой (с точностью до членов более высокого порядка, чем ) вероятность того, что i  - 1, 1, j  - 1 -  i , 1 и n  -  j элементов выборки попадают в интервалы , , , соответственно .

Совершенно аналогичным образом можно рассуждать и о выводе совместных распределений более высокого порядка. Возможно, это удивительно, но совместная плотность статистики n- го порядка оказывается постоянной :

Один из способов понять это состоит в том, что неупорядоченный образец действительно имеет постоянную плотность, равную 1, и что существует n ! разные перестановки выборки, соответствующие одной и той же последовательности статистики порядка. Это связано с тем, что 1/ n ! - объем региона . Это связано также с другой особенностью порядковой статистики однородных случайных величин: из BRS -неравенства следует , что максимальное ожидаемое число однородных U(0,1] случайных величин, которое можно выбрать из выборки размера n с суммой не превышающее ограничено сверху , что, таким образом, инвариантно на множестве всех с постоянным произведением .

Используя приведенные выше формулы, можно получить распределение диапазона статистики порядка, то есть распределение , то есть максимум минус минимум. В более общем смысле , для также имеет бета-распределение:

Статистика заказов, полученная из экспоненциального распределения

Для случайной выборки размера n из экспоненциального распределения с параметром λ статистика порядка X ( i ) для i = 1,2,3,..., n имеет распределение

где Z j — стандартные экспоненциальные случайные величины iid (т.е. с параметром скорости 1). Этот результат был впервые опубликован Альфредом Реньи . [5] [6]

Статистика заказов, взятая из распределения Erlang

Преобразование Лапласа статистики порядка может быть выбрано из распределения Эрланга с помощью метода подсчета путей [ необходимы пояснения ] . [7]

Совместное распределение статистики заказов абсолютно непрерывного распределения

Если F X абсолютно непрерывен , то он имеет такую ​​плотность , что и мы можем использовать замены

и

чтобы получить следующие функции плотности вероятности для статистики порядка выборки размера n , взятой из распределения X :

где
где

Приложение: доверительные интервалы для квантилей.

Интересный вопрос заключается в том, насколько хорошо статистика порядка выполняет функцию оценки квантилей основного распределения.

Пример небольшого размера выборки

Самый простой случай, который следует рассмотреть, — насколько хорошо медиана выборки оценивает медиану совокупности.

В качестве примера рассмотрим случайную выборку размером 6. В этом случае медиана выборки обычно определяется как середина интервала, ограниченного статистикой 3-го и 4-го порядка. Однако из предыдущего обсуждения мы знаем, что вероятность того, что этот интервал действительно содержит медиану совокупности, равна [ необходимы пояснения ]

Хотя выборочная медиана, вероятно, является одной из лучших точечных оценок медианы совокупности, не зависящих от распределения, этот пример иллюстрирует то, что она не особенно хороша в абсолютном выражении. В этом конкретном случае лучшим доверительным интервалом для медианы является интервал, ограниченный статистикой 2-го и 5-го порядка, который содержит медиану совокупности с вероятностью

При таком небольшом размере выборки, если кто-то хочет иметь уверенность не менее 95%, приходится говорить, что медиана находится между минимумом и максимумом из 6 наблюдений с вероятностью 31/32 или примерно 97%. Размер 6 фактически представляет собой наименьший размер выборки, при котором интервал, определяемый минимумом и максимумом, составляет как минимум 95% доверительный интервал для медианы генеральной совокупности.

Большие размеры выборки

Для равномерного распределения, когда n стремится к бесконечности, p- й квантиль выборки асимптотически нормально распределен , поскольку он аппроксимируется выражением

Для общего распределения F с непрерывной ненулевой плотностью в F  −1 ( p ) применяется аналогичная асимптотическая нормальность:

где fфункция плотности , а F  −1функция квантиля , связанная с F. Одним из первых, кто упомянул и доказал этот результат, был Фредерик Мостеллер в своей основополагающей статье в 1946 году. [8] Дальнейшие исследования привели в 1960-х годах к представлению Бахадура , которое предоставляет информацию о границах ошибок. Сходимость к нормальному распределению также имеет место в более сильном смысле, например, сходимость по относительной энтропии или КЛ-дивергенция . [9]

Интересное наблюдение можно сделать в случае, когда распределение симметрично, а медиана населения равна среднему значению населения. В этом случае выборочное среднее согласно центральной предельной теореме также асимптотически нормально распределено, но вместо этого с дисперсией σ 2 /n . Этот асимптотический анализ предполагает, что среднее значение превосходит медиану в случаях низкого эксцесса , и наоборот. Например, медиана обеспечивает лучшие доверительные интервалы для распределения Лапласа , в то время как среднее работает лучше для X , которые имеют нормальное распределение.

Доказательство

Можно показать, что

где

где Z i являются независимыми одинаково распределенными экспоненциальными случайными величинами с частотой 1. Поскольку X / n и Y / n асимптотически нормально распределяются с помощью CLT, наши результаты получены на основе применения дельта-метода .

Приложение: Непараметрическая оценка плотности.

Моменты распределения статистики первого порядка можно использовать для разработки непараметрической оценки плотности. [10] Предположим, мы хотим оценить плотность в точке . Рассмотрим случайные величины , которые имеют функцию распределения . В частности, .

Ожидаемое значение статистики первого порядка с учетом выборки общего количества наблюдений дает:

где – функция квантиля, связанная с распределением , и . Это уравнение в сочетании с методом складного ножа становится основой для следующего алгоритма оценки плотности:

 Входные данные: выборка наблюдений. точки оценки плотности. Параметр настройки (обычно 1/3). Выход: расчетная плотность в точках оценки.
 1: Набор 2: Набор 3: Создайте матрицу , содержащую подмножества с наблюдениями в каждом. 4: Создайте вектор для хранения оценок плотности. 5: для  действия 6: для действия 7: Найти ближайшее расстояние до текущей точки в пределах th подмножества    8: конец для 9: вычислить среднее подмножество расстояний до 10: вычислить оценку плотности в 11: конец для 12: возврат 

В отличие от параметров настройки на основе ширины полосы/длины для подходов на основе гистограммы и ядра , параметром настройки для оценки плотности на основе статистики порядка является размер подмножеств выборки. Такая оценка более надежна, чем подходы, основанные на гистограмме и ядре, например, такие плотности, как распределение Коши (в котором отсутствуют конечные моменты), можно вывести без необходимости специальных модификаций, таких как пропускная способность на основе IQR . Это связано с тем, что первый момент статистики порядка всегда существует, если существует ожидаемое значение основного распределения, но обратное не обязательно верно. [11]

Работа с дискретными переменными

Предположим , что это iid случайные величины из дискретного распределения с кумулятивной функцией распределения и функцией массы вероятности . Чтобы найти вероятности статистики заказов, сначала необходимы три значения, а именно:

Кумулятивную функцию распределения статистики порядка можно вычислить, заметив, что

Аналогично, дается

Обратите внимание, что функция массы вероятности представляет собой просто разность этих значений, то есть

Вычисление статистики заказов

Задача вычисления k- го наименьшего (или наибольшего) элемента списка называется проблемой выбора и решается с помощью алгоритма выбора. Хотя эта проблема сложна для очень больших списков, были созданы сложные алгоритмы выбора, которые могут решить эту проблему за время, пропорциональное количеству элементов в списке, даже если список совершенно неупорядочен. Если данные хранятся в определенных специализированных структурах данных, это время можно сократить до O(log n ). Во многих приложениях требуется вся статистика по порядку, и в этом случае можно использовать алгоритм сортировки , а затрачиваемое на это время составляет O( n log n ).

Смотрите также

Примеры статистики заказов

Рекомендации

  1. ^ Дэвид, HA; Нагараджа, Х.Н. (2003). Статистика заказов . Ряд Уайли по вероятности и статистике. дои : 10.1002/0471722162. ISBN 9780471722168.
  2. ^ Казелла, Джордж; Бергер, Роджер (2002). Статистический вывод (2-е изд.). Cengage Обучение. п. 229. ИСБН 9788131503942.
  3. ^ ab Джентл, Джеймс Э. (2009), Вычислительная статистика, Springer, стр. 63, ISBN 9780387981444.
  4. ^ Джонс, MC (2009), «Распределение Кумарасвами: распределение бета-типа с некоторыми преимуществами управляемости», Статистическая методология , 6 (1): 70–81, doi : 10.1016/j.stamet.2008.04.001, Как и хорошо Как известно, бета-распределение — это распределение статистики m -го порядка из случайной выборки размера n из равномерного распределения (по (0,1)).
  5. ^ Дэвид, HA; Нагараджа, Х.Н. (2003), «Глава 2. Основная теория распределения», Статистика порядков , Ряды Вили по вероятности и статистике, стр. 9, дои : 10.1002/0471722162.ch2, ISBN 9780471722168
  6. ^ Реньи, Альфред (1953). «К теории порядковой статистики». Acta Mathematica Hungarica . 4 (3): 191–231. дои : 10.1007/BF02127580 .
  7. ^ Глинка, М.; Брилл, штат Пенсильвания; Хорн, В. (2010). «Метод получения преобразований Лапласа порядковой статистики случайных величин Эрланга». Статистика и вероятностные буквы . 80 : 9–18. дои : 10.1016/j.spl.2009.09.006.
  8. ^ Мостеллер, Фредерик (1946). «О некоторых полезных «неэффективных» статистических данных». Анналы математической статистики . 17 (4): 377–408. дои : 10.1214/aoms/1177730881 . Проверено 26 февраля 2015 г.
  9. ^ М. Кардоне, А. Дитсо и К. Раш, «Энтропийная центральная предельная теорема для статистики заказов», в IEEE Transactions on Information Theory, vol. 69, нет. 4, стр. 2193–2205, апрель 2023 г., doi: 10.1109/TIT.2022.3219344.
  10. ^ Гарг, Викрам В.; Тенорио, Луис; Уиллкокс, Карен (2017). «Оценка минимальной локальной плотности расстояний». Коммуникации в статистике - теория и методы . 46 (1): 148–164. arXiv : 1412.2851 . дои : 10.1080/03610926.2014.988260. S2CID  14334678.
  11. ^ Дэвид, HA; Нагараджа, Х.Н. (2003), «Глава 3. Ожидаемые значения и моменты», Статистика заказов , Ряды Вили в вероятности и статистике, стр. 34, дои : 10.1002/0471722162.ch3, ISBN 9780471722168

Внешние ссылки