stringtranslate.com

Статистика заказов

Плотность распределения вероятностей порядковых статистик для выборки размера n  = 5 из экспоненциального распределения с единичным параметром масштаба

В статистике статистика порядка k статистической выборки равна ее наименьшему значению порядка k . [ 1] Вместе с ранговой статистикой порядковая статистика является одним из самых фундаментальных инструментов в непараметрической статистике и выводе .

Важными частными случаями порядковой статистики являются минимальное и максимальное значение выборки, а также (с некоторыми оговорками, которые обсуждаются ниже) медиана выборки и другие квантили выборки .

При использовании теории вероятностей для анализа порядковых статистик случайных выборок из непрерывного распределения кумулятивная функция распределения используется для сведения анализа к случаю порядковых статистик равномерного распределения .

Обозначения и примеры

Например, предположим, что наблюдаются или регистрируются четыре числа, в результате чего получается выборка размером 4. Если значения выборки равны

6, 9, 3, 7,

статистика заказа будет обозначена

где нижний индекс ( i ), заключенный в скобки, указывает на статистику i -го порядка выборки.

Статистика первого порядка (или статистика наименьшего порядка ) всегда является минимумом выборки, то есть,

где, следуя общепринятому соглашению, мы используем заглавные буквы для обозначения случайных величин, а строчные буквы (как выше) — для обозначения их фактических наблюдаемых значений.

Аналогично, для выборки размера n статистика n- го порядка (или статистика наибольшего порядка ) является максимальной , то есть,

Диапазон выборки — это разница между максимумом и минимумом. Это функция статистики порядка:

Аналогичная важная статистика в разведочном анализе данных , которая просто связана с порядковой статистикой, — это выборочный межквартильный размах .

Выборочная медиана может быть или не быть порядковой статистикой, поскольку существует единственное среднее значение только тогда, когда число наблюдений n нечетно . Точнее, если n = 2 m +1 для некоторого целого числа m, то выборочная медиана равна и, следовательно, является порядковой статистикой. С другой стороны, когда n четно, n = 2 m и есть два средних значения , и , и выборочная медиана является некоторой функцией этих двух (обычно средним) и, следовательно, не является порядковой статистикой. Аналогичные замечания применимы ко всем выборочным квантилям.

Вероятностный анализ

Для любых случайных величин X 1 , X 2 , ..., X n порядковые статистики X (1) , X (2) , ..., X ( n ) также являются случайными величинами, определяемыми путем сортировки значений ( реализаций ) X 1 , ..., X n в порядке возрастания.

Когда случайные величины X 1 , X 2 , ..., X n образуют выборку , они независимы и одинаково распределены . Этот случай рассматривается ниже. В общем случае случайные величины X 1 , ..., X n могут возникать при выборке из более чем одной популяции. Тогда они независимы , но не обязательно одинаково распределены, и их совместное распределение вероятностей задается теоремой Бапата–Бега .

С этого момента мы будем предполагать, что рассматриваемые случайные величины непрерывны и, где это удобно, будем также предполагать, что они имеют функцию плотности вероятности (PDF), то есть они абсолютно непрерывны . Особенности анализа распределений, присваивающих масса точкам (в частности, дискретных распределений ), обсуждаются в конце.

Кумулятивная функция распределения статистики заказов

Для случайной выборки, как указано выше, с кумулятивным распределением , порядковые статистики для этой выборки имеют следующие кумулятивные распределения [2] (где r указывает, какая порядковая статистика):

соответствующая функция плотности вероятности может быть получена из этого результата и оказывается равной

Более того, существуют два особых случая, для которых функции распределения вероятности легко вычислить.

Который можно вывести путем тщательного рассмотрения вероятностей.

Распределение вероятностей порядковых статистик

Статистика заказов, выбранная из равномерного распределения

В этом разделе мы показываем, что порядковые статистики равномерного распределения на единичном интервале имеют маргинальные распределения, принадлежащие семейству бета-распределений . Мы также даем простой метод вывода совместного распределения любого количества порядковых статистик и, наконец, переводим эти результаты в произвольные непрерывные распределения с помощью cdf .

В этом разделе мы предполагаем, что случайная выборка взята из непрерывного распределения с cdf . Обозначая , мы получаем соответствующую случайную выборку из стандартного равномерного распределения . Обратите внимание, что порядковые статистики также удовлетворяют .

Функция плотности вероятности порядковой статистики равна [3]

то есть, статистика порядка k равномерного распределения является бета-распределенной случайной величиной. [3] [4]

Доказательство этих утверждений следующее. Для того, чтобы быть между u и u  +  du , необходимо, чтобы ровно k  − 1 элементов выборки были меньше u , и чтобы по крайней мере один находился между u и u  + d u . Вероятность того, что более одного находится в этом последнем интервале, уже равна , поэтому мы должны вычислить вероятность того, что ровно k  − 1, 1 и n  −  k наблюдений попадут в интервалы , и соответственно. Это равно (см. мультиномиальное распределение для получения подробной информации)

и вот результат.

Среднее значение этого распределения равно k / ( n + 1).

Совместное распределение порядковых статистик равномерного распределения

Аналогично, для i  <  j можно показать , что совместная функция плотности вероятности двух порядковых статистик U ( i )  <  U ( j ) имеет вид

что представляет собой (с точностью до членов более высокого порядка, чем ) вероятность того, что i  − 1, 1, j  − 1 −  i , 1 и n  −  j элементов выборки попадают в интервалы , , , , соответственно.

Можно рассуждать совершенно аналогичным образом, чтобы вывести совместные распределения более высокого порядка. Возможно, это удивительно, но совместная плотность статистик порядка n оказывается постоянной :

Один из способов понять это состоит в том, что неупорядоченная выборка имеет постоянную плотность, равную 1, и что существует n ! различных перестановок выборки, соответствующих одной и той же последовательности порядковых статистик. Это связано с тем фактом, что 1/ n ! — это объем области . Это также связано с другой особенностью порядковых статистик равномерных случайных величин: из неравенства BRS следует , что максимальное ожидаемое число равномерных случайных величин U(0,1], которые можно выбрать из выборки размера n с суммой, не превышающей , ограничено сверху величиной , которая, таким образом, инвариантна на множестве всех с постоянным произведением .

Используя приведенные выше формулы , можно вывести распределение диапазона порядковых статистик, то есть распределение , т.е. максимум минус минимум. В более общем смысле, для также имеет бета-распределение: Из этих формул мы можем вывести ковариацию между двумя порядковыми статистиками: Формула следует из того, что и сравнения с , где , что является фактическим распределением разности.

Статистика заказов, выбранная из экспоненциального распределения

Для случайной выборки размера n из экспоненциального распределения с параметром λ порядковые статистики X ( i ) для i = 1,2,3, ..., n имеют распределение

где Z j — это стандартные экспоненциальные случайные величины (т.е. с параметром скорости 1). Этот результат был впервые опубликован Альфредом Реньи . [5] [6]

Статистика заказов, взятая из распределения Эрланга

Преобразование Лапласа порядковой статистики может быть выбрано из распределения Эрланга с помощью метода подсчета путей [ необходимо разъяснение ] . [7]

Совместное распределение порядковых статистик абсолютно непрерывного распределения

Если F X абсолютно непрерывен , то он имеет плотность такую, что , и мы можем использовать подстановки

и

вывести следующие функции плотности вероятности для порядковых статистик выборки размера n, взятой из распределения X :

где
где

Применение: доверительные интервалы для квантилей

Интересный вопрос заключается в том, насколько хорошо порядковые статистики выполняют функцию оценки квантилей базового распределения.

Пример небольшой выборки

Самый простой случай, который следует рассмотреть, — насколько хорошо медиана выборки оценивает медиану совокупности.

В качестве примера рассмотрим случайную выборку размером 6. В этом случае медиана выборки обычно определяется как середина интервала, ограниченного статистиками 3-го и 4-го порядка. Однако из предыдущего обсуждения мы знаем, что вероятность того, что этот интервал фактически содержит медиану популяции, равна [ необходимо разъяснение ]

Хотя медиана выборки, вероятно, относится к лучшим независимым от распределения точечным оценкам медианы популяции, этот пример иллюстрирует, что она не особенно хороша в абсолютных значениях. В этом конкретном случае лучшим доверительным интервалом для медианы является тот, который ограничен статистиками 2-го и 5-го порядка, которые содержат медиану популяции с вероятностью

При таком малом размере выборки, если требуется по крайней мере 95% достоверности, приходится говорить, что медиана находится между минимумом и максимумом из 6 наблюдений с вероятностью 31/32 или приблизительно 97%. Размер 6 — это, по сути, наименьший размер выборки, такой, что интервал, определяемый минимумом и максимумом, составляет по крайней мере 95% доверительный интервал для медианы популяции.

Большие размеры выборки

Для равномерного распределения, когда n стремится к бесконечности, p- й квантиль выборки асимптотически нормально распределен , поскольку он аппроксимируется выражением

Для общего распределения F с непрерывной ненулевой плотностью в точке F  −1 ( p ) применима аналогичная асимптотическая нормальность:

где fфункция плотности , а F  −1функция квантиля, связанная с F. Одним из первых, кто упомянул и доказал этот результат, был Фредерик Мостеллер в своей основополагающей статье в 1946 году. [8] Дальнейшие исследования привели в 1960-х годах к представлению Бахадура , которое предоставляет информацию о границах ошибок. Сходимость к нормальному распределению также имеет место в более сильном смысле, например, сходимость относительной энтропии или дивергенция KL . [9]

Интересное наблюдение можно сделать в случае, когда распределение симметрично, а медиана совокупности равна среднему значению совокупности. В этом случае среднее значение выборки , по центральной предельной теореме , также асимптотически нормально распределено, но с дисперсией σ 2 /n . Этот асимптотический анализ предполагает, что среднее значение превосходит медиану в случаях низкого эксцесса , и наоборот. Например, медиана достигает лучших доверительных интервалов для распределения Лапласа , в то время как среднее значение лучше для X , которые распределены нормально.

Доказательство

Можно показать, что

где

где Z i — независимые одинаково распределенные экспоненциальные случайные величины со скоростью 1. Поскольку X / n и Y / n асимптотически нормально распределены по ЦПТ, наши результаты получаются путем применения дельта-метода .

Применение: Непараметрическая оценка плотности

Моменты распределения для статистики первого порядка можно использовать для разработки непараметрической оценки плотности. [10] Предположим, мы хотим оценить плотность в точке . Рассмотрим случайные величины , которые являются iid с функцией распределения . В частности, .

Ожидаемое значение статистики первого порядка, полученное на основе выборки всех наблюдений, составляет:

где — квантильная функция, связанная с распределением , и . Это уравнение в сочетании с методом складывания становится основой для следующего алгоритма оценки плотности,

 Вход: Выборка наблюдений. Точки оценки плотности. Параметр настройки (обычно 1/3). Выходные данные: расчетная плотность в точках оценки.
 1: Набор 2: Набор 3: Создать матрицу , которая содержит подмножества с наблюдениями в каждом. 4: Создайте вектор для хранения оценок плотности. 5: for  do 6: for do 7: Найти ближайшее расстояние до текущей точки в пределах th подмножества    8: конец для 9: вычисление среднего значения подмножества расстояний до 10: вычисление оценки плотности в 11: конец для 12: возврат 

В отличие от параметров настройки на основе полосы пропускания/длины для подходов на основе гистограммы и ядра , параметром настройки для оценки плотности на основе порядковой статистики является размер подмножеств выборки. Такая оценка более надежна, чем подходы на основе гистограммы и ядра, например, плотности, такие как распределение Коши (которое не имеет конечных моментов), могут быть выведены без необходимости специализированных модификаций, таких как полосы пропускания на основе IQR . Это связано с тем, что первый момент порядковой статистики всегда существует, если существует ожидаемое значение базового распределения, но обратное не обязательно верно. [11]

Работа с дискретными переменными

Предположим, что есть случайные величины iid из дискретного распределения с кумулятивной функцией распределения и функцией массы вероятности . Чтобы найти вероятности порядковых статистик, сначала нужны три значения, а именно

Кумулятивную функцию распределения порядковой статистики можно вычислить, заметив, что

Аналогично, дается выражением

Обратите внимание, что функция массы вероятности представляет собой просто разность этих значений, то есть

Вычисление статистики заказов

Проблема вычисления k- го наименьшего (или наибольшего) элемента списка называется проблемой выбора и решается алгоритмом выбора. Хотя эта проблема сложна для очень больших списков, были созданы сложные алгоритмы выбора, которые могут решить эту проблему за время, пропорциональное количеству элементов в списке, даже если список полностью неупорядочен. Если данные хранятся в определенных специализированных структурах данных, это время можно сократить до O(log n ). Во многих приложениях требуются все упорядоченные статистики, в этом случае можно использовать алгоритм сортировки , и время составит O( n log n ).

Смотрите также

Примеры статистики заказов

Приложения

Порядковая статистика имеет множество приложений в таких областях, как теория надежности, финансовая математика, анализ выживаемости, эпидемиология, спорт, контроль качества, актуарный риск и т. д. Существует обширная литература, посвященная исследованиям по применению порядковой статистики в этих областях.

Например, недавнее применение в актуарном риске можно найти в [12] , где приводятся некоторые принципы взвешенной премии с точки зрения рекордных претензий и k-х рекордных претензий.

Ссылки

  1. ^ Дэвид, HA; Нагараджа, Х.Н. (2003). Статистика заказов . Ряд Уайли по вероятности и статистике. дои : 10.1002/0471722162. ISBN 9780471722168.
  2. ^ Казелла, Джордж; Бергер, Роджер (2002). Статистический вывод (2-е изд.). Cengage Learning. стр. 229. ISBN 9788131503942.
  3. ^ ab Gentle, James E. (2009), Computational Statistics, Springer, стр. 63, ISBN 9780387981444.
  4. ^ Джонс, М. К. (2009), «Распределение Кумарасвами: распределение бета-типа с некоторыми преимуществами в плане управляемости», Статистическая методология , 6 (1): 70–81, doi :10.1016/j.stamet.2008.04.001, Как известно, бета-распределение — это распределение статистики порядка m из случайной выборки размера n из равномерного распределения (на (0,1)).
  5. ^ Дэвид, HA; Нагараджа, Х.Н. (2003), «Глава 2. Основная теория распределения», Статистика порядков , Ряды Вили по вероятности и статистике, стр. 9, дои : 10.1002/0471722162.ch2, ISBN 9780471722168
  6. ^ Реньи, Альфред (1953). «К теории порядковой статистики». Acta Mathematica Hungarica . 4 (3): 191–231. дои : 10.1007/BF02127580 .
  7. ^ Hlynka, M.; Brill, PH; Horn, W. (2010). «Метод получения преобразований Лапласа порядковых статистик случайных величин Эрланга». Statistics & Probability Letters . 80 : 9–18. doi :10.1016/j.spl.2009.09.006.
  8. ^ Мостеллер, Фредерик (1946). «О некоторых полезных «неэффективных» статистиках». Annals of Mathematical Statistics . 17 (4): 377–408. doi : 10.1214/aoms/1177730881 . Получено 26 февраля 2015 г.
  9. ^ М. Кардоне, А. Дитсо и К. Раш, «Энтропийная центральная предельная теорема для порядковых статистик», в IEEE Transactions on Information Theory, т. 69, № 4, стр. 2193-2205, апрель 2023 г., doi: 10.1109/TIT.2022.3219344.
  10. ^ Гарг, Викрам В.; Тенорио, Луис; Уиллкокс, Карен (2017). «Оценка минимальной локальной плотности расстояний». Communications in Statistics - Theory and Methods . 46 (1): 148–164. arXiv : 1412.2851 . doi : 10.1080/03610926.2014.988260. S2CID  14334678.
  11. ^ Дэвид, HA; Нагараджа, HN (2003), "Глава 3. Ожидаемые значения и моменты", Order Statistics , Wiley Series in Probability and Statistics, стр. 34, doi :10.1002/0471722162.ch3, ISBN 9780471722168
  12. ^ Кастаньо-Мартинес, А.; Лопес-Бласкес, Ф.; Пигейрас, Г.; Сордо, М.А. (2020). «Метод построения и интерпретации некоторых принципов взвешенных премий». Бюллетень ASTIN: Журнал IAA . 50(3): 1037–1064. doi :10.1017/asb.2020.15.

Внешние ссылки