Функция распределения, связанная с эмпирической мерой выборки
В статистике эмпирическая функция распределения (обычно также называемая эмпирической кумулятивной функцией распределения , eCDF ) — это функция распределения , связанная с эмпирической мерой выборки . [1] Эта кумулятивная функция распределения — это ступенчатая функция , которая подпрыгивает на 1/ n в каждой из n точек данных. Ее значение при любом указанном значении измеряемой переменной — это доля наблюдений измеряемой переменной, которые меньше или равны указанному значению.
Эмпирическая функция распределения является оценкой кумулятивной функции распределения, которая сгенерировала точки в выборке. Она сходится с вероятностью 1 к этому базовому распределению, согласно теореме Гливенко–Кантелли . Существует ряд результатов для количественной оценки скорости сходимости эмпирической функции распределения к базовой кумулятивной функции распределения.
Однако в некоторых учебниках определение дается как
[3] [4]
Асимптотические свойства
Поскольку отношение ( n + 1)/ n стремится к 1, когда n стремится к бесконечности, асимптотические свойства двух приведенных выше определений одинаковы.
таким образом, оценка является последовательной . Это выражение утверждает поточечную сходимость эмпирической функции распределения к истинной кумулятивной функции распределения. Существует более сильный результат, называемый теоремой Гливенко–Кантелли , который утверждает, что сходимость на самом деле происходит равномерно по t : [5]
Норма sup в этом выражении называется статистикой Колмогорова–Смирнова для проверки соответствия между эмпирическим распределением и предполагаемой истинной кумулятивной функцией распределения F. Другие функции нормы могут быть разумно использованы здесь вместо нормы sup. Например, норма L 2 приводит к статистике Крамера–фон Мизеса .
Асимптотическое распределение может быть далее охарактеризовано несколькими различными способами. Во-первых, центральная предельная теорема утверждает, что поточечно , имеет асимптотически нормальное распределение со стандартной скоростью сходимости: [2]
Равномерная скорость сходимости в теореме Донскера может быть количественно определена с помощью результата, известного как венгерское вложение : [6]
В качестве альтернативы, скорость сходимости также может быть количественно определена в терминах асимптотического поведения sup-нормы этого выражения. Существует ряд результатов в этой области, например, неравенство Дворецкого–Кифера–Вольфовица дает ограничение на хвостовые вероятности : [6]
Фактически, Колмогоров показал, что если кумулятивная функция распределения F непрерывна, то выражение сходится по распределению к , которое имеет распределение Колмогорова , не зависящее от вида F .
В соответствии с указанными выше границами мы можем построить эмпирическую функцию распределения, функцию распределения и доверительные интервалы для различных распределений, используя любую из статистических реализаций.
Статистическая реализация
Неполный список программных реализаций функции эмпирического распределения включает:
В программном обеспечении R мы вычисляем эмпирическую кумулятивную функцию распределения, используя несколько методов построения графика, печати и вычислений с использованием такого объекта «ecdf».
В MATLAB мы можем использовать график эмпирической кумулятивной функции распределения (cdf)
jmp из SAS, график CDF создает график эмпирической кумулятивной функции распределения.
Minitab, создание эмпирической CDF
Mathwave, мы можем подогнать распределение вероятностей под наши данные
Dataplot, мы можем построить график эмпирической функции распределения
Scipy, мы можем использовать scipy.stats.ecdf
Statsmodels, мы можем использовать statsmodels.distributions.empirical_distribution.ECDF
Matplotlib, использующая функцию matplotlib.pyplot.ecdf (новая в версии 3.8.0) [7]
Сиборн, с использованием функции seaborn.ecdfplot
Plotly, используя функцию plotly.express.ecdf
Excel, мы можем построить график эмпирической функции распределения
^ Современное введение в вероятность и статистику: Понимание почему и как. Мишель Деккинг. Лондон: Springer. 2005. стр. 219. ISBN 978-1-85233-896-1. OCLC 262680588.{{cite book}}: CS1 maint: другие ( ссылка )
^ abc ван дер Ваарт, AW (1998). Асимптотическая статистика . Издательство Кембриджского университета. п. 265. ИСБН0-521-78450-6.
^ Коулз, С. (2001) Введение в статистическое моделирование экстремальных значений . Springer, стр. 36, Определение 2.4. ISBN 978-1-4471-3675-0 .
^ Madsen, HO, Krenk, S., Lind, SC (2006) Методы структурной безопасности . Dover Publications. стр. 148-149. ISBN 0486445976
^ Аб ван дер Ваарт, AW (1998). Асимптотическая статистика . Издательство Кембриджского университета. п. 266. ИСБН0-521-78450-6.
^ abc ван дер Ваарт, AW (1998). Асимптотическая статистика . Издательство Кембриджского университета. п. 268. ИСБН0-521-78450-6.
^ «Что нового в Matplotlib 3.8.0 (13 сентября 2023 г.) — Документация Matplotlib 3.8.3».