stringtranslate.com

Эмпирическая функция распределения

В статистике эмпирическая функция распределения (обычно также называемая эмпирической кумулятивной функцией распределения , eCDF ) — это функция распределения , связанная с эмпирической мерой выборки . [1] Эта кумулятивная функция распределения — это ступенчатая функция , которая подпрыгивает на 1/ n в каждой из n точек данных. Ее значение при любом указанном значении измеряемой переменной — это доля наблюдений измеряемой переменной, которые меньше или равны указанному значению.

Эмпирическая функция распределения является оценкой кумулятивной функции распределения, которая сгенерировала точки в выборке. Она сходится с вероятностью 1 к этому базовому распределению, согласно теореме Гливенко–Кантелли . Существует ряд результатов для количественной оценки скорости сходимости эмпирической функции распределения к базовой кумулятивной функции распределения.

Определение

Пусть ( X 1 , …, X n )независимые, одинаково распределенные действительные случайные величины с общей кумулятивной функцией распределения F ( t ) . Тогда эмпирическая функция распределения определяется как [2]

где — индикатор события A. Для фиксированного t индикатор — это случайная величина Бернулли с параметром p = F ( t ) ; следовательно, — биномиальная случайная величина со средним значением nF ( t ) и дисперсией nF ( t )(1 − F ( t )) . Это означает, что — несмещенная оценка для F ( t ) .

Однако в некоторых учебниках определение дается как

[3] [4]

Асимптотические свойства

Поскольку отношение ( n  + 1)/ n стремится к 1, когда n стремится к бесконечности, асимптотические свойства двух приведенных выше определений одинаковы.

По усиленному закону больших чисел оценка сходится к F ( t ) при n  → ∞ почти наверняка для каждого значения t : [2]

таким образом, оценка является последовательной . Это выражение утверждает поточечную сходимость эмпирической функции распределения к истинной кумулятивной функции распределения. Существует более сильный результат, называемый теоремой Гливенко–Кантелли , который утверждает, что сходимость на самом деле происходит равномерно по t : [5]

Норма sup в этом выражении называется статистикой Колмогорова–Смирнова для проверки соответствия между эмпирическим распределением и предполагаемой истинной кумулятивной функцией распределения F. Другие функции нормы могут быть разумно использованы здесь вместо нормы sup. Например, норма L 2 приводит к статистике Крамера–фон Мизеса .

Асимптотическое распределение может быть далее охарактеризовано несколькими различными способами. Во-первых, центральная предельная теорема утверждает, что поточечно , имеет асимптотически нормальное распределение со стандартной скоростью сходимости: [2]

Этот результат расширен теоремой Донскера , которая утверждает, что эмпирический процесс , рассматриваемый как функция, индексированная , сходится по распределению в пространстве Скорохода к гауссовскому процессу со средним значением ноль , где B — стандартный броуновский мост . [5] Ковариационная структура этого гауссовского процесса имеет вид

Равномерная скорость сходимости в теореме Донскера может быть количественно определена с помощью результата, известного как венгерское вложение : [6]

В качестве альтернативы, скорость сходимости также может быть количественно определена в терминах асимптотического поведения sup-нормы этого выражения. Существует ряд результатов в этой области, например, неравенство Дворецкого–Кифера–Вольфовица дает ограничение на хвостовые вероятности : [6]

Фактически, Колмогоров показал, что если кумулятивная функция распределения F непрерывна, то выражение сходится по распределению к , которое имеет распределение Колмогорова , не зависящее от вида F .

Другой результат, вытекающий из закона повторного логарифма , состоит в том, что [6]

и

Доверительные интервалы

Эмпирические графики CDF, CDF и доверительных интервалов для различных размеров выборок нормального распределения
Эмпирические графики CDF, CDF и доверительных интервалов для различных размеров выборки распределения Коши
Эмпирические графики CDF, CDF и доверительных интервалов для различных размеров выборки треугольного распределения

Согласно неравенству Дворецкого–Кифера–Вольфовица интервал, содержащий истинную функцию распределения вероятностей, с вероятностью определяется как

В соответствии с указанными выше границами мы можем построить эмпирическую функцию распределения, функцию распределения и доверительные интервалы для различных распределений, используя любую из статистических реализаций.

Статистическая реализация

Неполный список программных реализаций функции эмпирического распределения включает:

Смотрите также

Ссылки

  1. ^ Современное введение в вероятность и статистику: Понимание почему и как. Мишель Деккинг. Лондон: Springer. 2005. стр. 219. ISBN 978-1-85233-896-1. OCLC  262680588.{{cite book}}: CS1 maint: другие ( ссылка )
  2. ^ abc van der Vaart, AW (1998). Асимптотическая статистика . Cambridge University Press. стр. 265. ISBN  0-521-78450-6.
  3. ^ Коулз, С. (2001) Введение в статистическое моделирование экстремальных значений . Springer, стр. 36, Определение 2.4. ISBN 978-1-4471-3675-0
  4. ^ Madsen, HO, Krenk, S., Lind, SC (2006) Методы структурной безопасности . Dover Publications. стр. 148-149. ISBN 0486445976 
  5. ^ ab van der Vaart, AW (1998). Асимптотическая статистика . Cambridge University Press. стр. 266. ISBN 0-521-78450-6.
  6. ^ abc van der Vaart, AW (1998). Асимптотическая статистика . Cambridge University Press. стр. 268. ISBN 0-521-78450-6.
  7. ^ «Что нового в Matplotlib 3.8.0 (13 сентября 2023 г.) — Документация Matplotlib 3.8.3».

Дальнейшее чтение

Внешние ссылки