stringtranslate.com

Кумулятивная функция распределения

Кумулятивная функция распределения для экспоненциального распределения
Кумулятивная функция распределения для нормального распределения

В теории вероятностей и статистике кумулятивная функция распределения ( CDF ) вещественной случайной величины или просто функция распределения , оцененная при , представляет собой вероятность , которая примет значение меньше или равное . [1]

Каждое распределение вероятностей, поддерживаемое действительными числами, дискретными или «смешанными», а также непрерывными , однозначно идентифицируется непрерывной справа монотонно возрастающей функцией ( функцией càdlàg ), удовлетворяющей и .

В случае скалярного непрерывного распределения это дает площадь под функцией плотности вероятности от отрицательной бесконечности до . Кумулятивные функции распределения также используются для определения распределения многомерных случайных величин .

Определение

Кумулятивная функция распределения вещественной случайной величины — это функция, заданная формулой [2] : с. 77 

где правая часть представляет вероятность того, что случайная величина примет значение меньше или равное .

Таким образом , вероятность, лежащая в полузамкнутом интервале , где , равна [2] : p. 84 

В приведенном выше определении знак «меньше или равно», «≤», является соглашением, а не общепринятым (например, в венгерской литературе используется «<»), но это различие важно для дискретных распределений. Правильное использование таблиц биномиального распределения и распределения Пуассона зависит от этого соглашения. Более того, важные формулы, такие как формула обращения Поля Леви для характеристической функции, также основаны на формулировке «меньше или равно».

При обработке нескольких случайных величин и т. д. соответствующие буквы используются в качестве индексов, а при обработке только одной индекс обычно опускается. Обычно для кумулятивной функции распределения используют капитал, в отличие от строчных букв, используемых для функций плотности вероятности и функций массы вероятности . Это применимо при обсуждении общих распределений: некоторые конкретные распределения имеют свои собственные общепринятые обозначения, например, нормальное распределение использует и вместо и соответственно.

Функция плотности вероятности непрерывной случайной величины может быть определена из кумулятивной функции распределения путем дифференцирования [3] с использованием Фундаментальной теоремы исчисления ; то есть дано ,

CDF непрерывной случайной величины можно выразить как интеграл от ее функции плотности вероятности следующим образом: [2] : с. 86 

В случае случайной величины , распределение которой имеет дискретную составляющую при значении ,

Если непрерывно при , то это равно нулю и дискретная составляющая при отсутствует .

Характеристики

Сверху вниз: кумулятивная функция распределения дискретного распределения вероятностей, непрерывного распределения вероятностей и распределения, которое имеет как непрерывную, так и дискретную часть.
Пример кумулятивной функции распределения со счетным множеством разрывов.

Всякая кумулятивная функция распределения неубывающая [2] : с . 78  и непрерывной справа , [2] : с. 79  , что делает ее функцией càdlàg . Более того,

Каждая функция с этими четырьмя свойствами представляет собой CDF, т. е. для каждой такой функции можно определить случайную величину , которая будет кумулятивной функцией распределения этой случайной величины.

Если – чисто дискретная случайная величина , то она с вероятностью принимает значения , и ВРУ будет разрывной в точках :

Если CDF вещественной случайной величины непрерывен , то это непрерывная случайная величина ; если, кроме того , абсолютно непрерывна , то существует интегрируемая по Лебегу функция такая, что

производной почти всюдувероятности

Если имеет конечную L1-норму , то есть математическое ожидание конечно, то математическое ожидание задается интегралом Римана – Стилтьеса

График CDF с двумя красными прямоугольниками, иллюстрирующими и .

В частности, у нас есть

Примеры

В качестве примера предположим, что равномерно распределено на единичном интервале .

Тогда CDF определяется выражением

Предположим, что вместо этого он принимает только дискретные значения 0 и 1 с равной вероятностью.

Тогда CDF определяется выражением

Предположим , что распределено экспоненциально . Тогда CDF определяется выражением

Здесь λ > 0 — параметр распределения, часто называемый параметром скорости.

Предположим, что это нормальное распределение . Тогда CDF определяется выражением

Здесь параметром является среднее или математическое ожидание распределения; и является его стандартным отклонением.

Таблица CDF стандартного нормального распределения часто используется в статистических приложениях, где ее называют стандартной нормальной таблицей , единичной нормальной таблицей или Z-таблицей .

Предположим , что распределено биномиально . Тогда CDF определяется выражением

Здесь – вероятность успеха, а функция обозначает дискретное распределение вероятностей числа успехов в последовательности независимых экспериментов и является «полом» под , т.е. наибольшим целым числом, меньшим или равным .

Производные функции

Дополнительная кумулятивная функция распределения (хвостовое распределение)

Иногда полезно изучить противоположный вопрос и спросить, как часто случайная величина находится выше определенного уровня. Это называетсядополнительная кумулятивная функция распределения (ccdf ) или простораспределение хвоста илипревышение и определяется как

Это имеет применение, например, при проверке статистических гипотез , поскольку одностороннее значение p представляет собой вероятность наблюдения тестовой статистики, по крайней мере , столь же экстремальной, как и наблюдаемая. Таким образом, при условии, что тестовая статистика T имеет непрерывное распределение, одностороннее значение p просто задается ccdf: для наблюдаемого значения тестовой статистики

В анализе выживания она называется функцией выживания и обозначается , тогда как термин функция надежности распространен в технике .

Характеристики

Свернутое кумулятивное распределение

Пример свернутого кумулятивного распределения для функции нормального распределения с ожидаемым значением 0 и стандартным отклонением 1.

Хотя график кумулятивного распределения часто имеет S-образную форму, альтернативной иллюстрацией является свернутое кумулятивное распределение или горный график , который сгибает верхнюю половину графика, [5] [6] то есть

где обозначает индикаторную функцию , а второе слагаемое — функцию выживаемости , таким образом используются две шкалы: одна для подъема, другая для спада. Эта форма иллюстрации подчеркивает медиану , дисперсию (в частности, среднее абсолютное отклонение от медианы [7] ) и асимметрию распределения или эмпирических результатов.

Обратная функция распределения (функция квантиля)

Если CDF F строго возрастает и непрерывен, то это единственное действительное число такое, что . Это определяет обратную функцию распределения или функцию квантиля .

Некоторые распределения не имеют уникального обратного значения (например, если для всех , что приводит к константе). В этом случае можно использовать обобщенную обратную функцию распределения , которая определяется как

Некоторые полезные свойства обратной функции распределения (которые также сохраняются в определении обобщенной обратной функции распределения):

  1. не убывает [8]
  2. если и только если
  3. Если имеет распределение, то распространяется как . Это используется при генерации случайных чисел с использованием метода выборки обратного преобразования .
  4. Если это набор независимых -распределенных случайных величин, определенных в одном и том же выборочном пространстве, то существуют такие случайные величины, которые распределены как и с вероятностью 1 для всех . [ нужна цитата ]

Обратный cdf можно использовать для перевода результатов, полученных для равномерного распределения, в другие распределения.

Эмпирическая функция распределения

Эмпирическая функция распределения — это оценка кумулятивной функции распределения, которая сформировала точки в выборке. Оно сходится с вероятностью 1 к этому основному распределению. Существует ряд результатов для количественной оценки скорости сходимости эмпирической функции распределения к базовой кумулятивной функции распределения. [9]

Многомерный случай

Определение двух случайных величин

При одновременной работе с более чем одной случайной величиной также можно определить совместную кумулятивную функцию распределения . Например, для пары случайных величин совместная CDF определяется как [2] : p. 89 

где правая часть представляет вероятность того, что случайная величина примет значение меньше или равное, а также значение , меньшее или равное .

Пример совместной кумулятивной функции распределения:

Для двух непрерывных переменных X и Y :

Для двух дискретных случайных величин полезно создать таблицу вероятностей и определить кумулятивную вероятность для каждого потенциального диапазона X и Y , и вот пример: [10]

учитывая совместную функцию массы вероятности в табличной форме, определите совместную кумулятивную функцию распределения.

Решение: используя приведенную таблицу вероятностей для каждого потенциального диапазона X и Y , можно построить совместную кумулятивную функцию распределения в табличной форме:

Определение для более чем двух случайных величин

Для случайных величин совместный CDF определяется выражением

Интерпретация случайных величин как случайного вектора дает более короткие обозначения:

Характеристики

Каждый многомерный CDF – это:

  1. Монотонно неубывающая для каждой из своих переменных,
  2. Непрерывен справа по каждой из своих переменных,

Не каждая функция, удовлетворяющая четырем вышеперечисленным свойствам, является многомерной CDF, в отличие от одномерного случая. Например, пусть за или или и пусть иначе. Легко видеть, что вышеуказанные условия соблюдены, но это не CDF, поскольку если бы это было так, то, как поясняется ниже.

Вероятность принадлежности точки гиперпрямоугольнику аналогична одномерному случаю: [11]

Сложный случай

Сложная случайная величина

Обобщение кумулятивной функции распределения от вещественных случайных величин к комплексным неочевидно, поскольку выражения вида не имеют смысла. Однако выражения формы имеют смысл. Поэтому мы определяем кумулятивное распределение комплексных случайных величин через совместное распределение их действительной и мнимой частей:

Комплексный случайный вектор

Обобщение уравнения 4 дает

Использование в статистическом анализе

Концепция кумулятивной функции распределения явно проявляется в статистическом анализе двумя (похожими) способами. Кумулятивный частотный анализ – это анализ частоты появления значений явления меньше эталонного значения. Эмпирическая функция распределения представляет собой формальную прямую оценку кумулятивной функции распределения, для которой можно вывести простые статистические свойства и которая может лечь в основу различных проверок статистических гипотез . Такие тесты позволяют оценить, имеются ли доказательства против выборки данных, полученных из данного распределения, или доказательства против двух выборок данных, полученных из одного и того же (неизвестного) распределения населения.

Тесты Колмогорова–Смирнова и тесты Койпера.

Тест Колмогорова-Смирнова основан на кумулятивных функциях распределения и может использоваться для проверки того, различны ли два эмпирических распределения или отличается ли эмпирическое распределение от идеального. Тесно связанный тест Койпера полезен, если область распределения циклична, как в случае дней недели. Например, тест Койпера можно использовать, чтобы увидеть, меняется ли количество торнадо в течение года или меняются ли продажи продукта в зависимости от дня недели или дня месяца.

Смотрите также

Рекомендации

  1. ^ Дейзенрот, Марк Питер; Фейсал, А. Альдо; Онг, Ченг Сун (2020). Математика для машинного обучения. Издательство Кембриджского университета. п. 181. ИСБН 9781108455145.
  2. ^ abcdef Парк, Кун Иль (2018). Основы теории вероятности и случайных процессов с приложениями к средствам связи . Спрингер. ISBN 978-3-319-68074-3.
  3. ^ Монтгомери, Дуглас С.; Рангер, Джордж К. (2003). Прикладная статистика и вероятность для инженеров (PDF) . John Wiley & Sons, Inc. с. 104. ИСБН 0-471-20454-4. Архивировано (PDF) из оригинала 30 июля 2012 г.
  4. ^ Цвиллингер, Дэниел; Кокоска, Стивен (2010). Таблицы и формулы стандартной вероятности и статистики CRC . ЦРК Пресс. п. 49. ИСБН 978-1-58488-059-2.
  5. ^ Нежный, JE (2009). Вычислительная статистика. Спрингер . ISBN 978-0-387-98145-1. Проверено 6 августа 2010 г.[ нужна страница ]
  6. ^ Монти, КЛ (1995). «Сложенные кривые эмпирической функции распределения (горные графики)». Американский статистик . 49 (4): 342–345. дои : 10.2307/2684570. JSTOR  2684570.
  7. ^ Сюэ, Дж. Х.; Титтерингтон, DM (2011). «Кумулятивная функция распределения в p-складке и среднее абсолютное отклонение от p-квантиля» (PDF) . Статистика и вероятностные буквы . 81 (8): 1179–1182. дои : 10.1016/j.spl.2011.03.014.
  8. ^ Чан, Стэнли Х. (2021). Введение в вероятность в науке о данных. Мичиганское издательство. п. 18. ISBN 978-1-60785-746-4.
  9. ^ Гессен, К. (1990). «Скорость сходимости эмпирической функции распределения и эмпирической характеристической функции широкого класса линейных процессов». Журнал многомерного анализа . 35 (2): 186–202. дои : 10.1016/0047-259X(90)90024-C.
  10. ^ «Совместная кумулятивная функция распределения (CDF)» . math.info . Проверено 11 декабря 2019 г.
  11. ^ «Архивная копия» (PDF) . www.math.wustl.edu . Архивировано из оригинала (PDF) 22 февраля 2016 года . Проверено 13 января 2022 г.{{cite web}}: CS1 maint: archived copy as title (link)
  12. ^ Сунь, Цзинчао; Конг, Майинг; Пал, Субхадип (22 июня 2021 г.). «Модифицированное полунормальное распределение: свойства и эффективная схема выборки». Коммуникации в статистике - теория и методы . 52 (5): 1591–1613. дои : 10.1080/03610926.2021.1934700. ISSN  0361-0926. S2CID  237919587.

Внешние ссылки