stringtranslate.com

Кумулятивная функция распределения

Кумулятивная функция распределения для экспоненциального распределения
Кумулятивная функция распределения для нормального распределения

В теории вероятностей и статистике кумулятивная функция распределения ( CDF ) действительной случайной величины , или просто функция распределения , оцененная при , представляет собой вероятность того, что значение будет меньше или равно . [1]

Каждое распределение вероятностей, поддерживаемое действительными числами, дискретными или «смешанными», а также непрерывными , однозначно идентифицируется непрерывной справа монотонно возрастающей функцией ( функцией càdlàg ), удовлетворяющей и .

В случае скалярного непрерывного распределения это дает площадь под функцией плотности вероятности от отрицательной бесконечности до . Кумулятивные функции распределения также используются для задания распределения многомерных случайных величин .

Определение

Кумулятивная функция распределения действительной случайной величины — это функция, заданная формулой [2] : стр. 77 

где правая часть представляет собой вероятность того, что случайная величина примет значение, меньшее или равное .

Вероятность того, что находится в полузакрытом интервале , где , равна [2] : стр. 84 

В определении выше знак «меньше или равно», «≤», является условностью, а не общепринятым (например, в венгерской литературе используется «<»), но это различие важно для дискретных распределений. Правильное использование таблиц биномиального и пуассоновского распределений зависит от этой условности. Более того, важные формулы, такие как формула обращения Поля Леви для характеристической функции, также опираются на формулировку «меньше или равно».

При обработке нескольких случайных величин и т. д. соответствующие буквы используются как нижние индексы, а при обработке только одной, нижний индекс обычно опускается. Принято использовать заглавную букву для кумулятивной функции распределения, в отличие от строчной буквы, используемой для функций плотности вероятности и функций массы вероятности . Это применимо при обсуждении общих распределений: некоторые конкретные распределения имеют свои собственные общепринятые обозначения, например, нормальное распределение использует и вместо и , соответственно.

Функция плотности вероятности непрерывной случайной величины может быть определена из кумулятивной функции распределения путем дифференцирования [3] с использованием основной теоремы исчисления ; т.е. задана , пока существует производная.

CDF непрерывной случайной величины может быть выражена как интеграл ее функции плотности вероятности следующим образом: [2] : стр. 86 

В случае случайной величины , которая имеет распределение, имеющее дискретную составляющую при значении ,

Если непрерывна при , то она равна нулю и дискретная составляющая при отсутствует .

Характеристики

Сверху вниз: кумулятивная функция распределения дискретного распределения вероятностей, непрерывного распределения вероятностей и распределения, имеющего как непрерывную часть, так и дискретную часть.
Пример кумулятивной функции распределения со счетно бесконечным множеством точек разрыва.

Каждая кумулятивная функция распределения является неубывающей [2] : стр. 78  и непрерывна справа , [2] : стр. 79,  что делает ее функцией càdlàg . Кроме того,

Каждая функция с этими тремя свойствами является функцией распределения, т.е. для каждой такой функции можно определить случайную величину таким образом, что функция будет кумулятивной функцией распределения этой случайной величины.

Если — чисто дискретная случайная величина , то она достигает значений с вероятностью , а функция распределения будет разрывной в точках :

Если функция распределения действительной случайной величины непрерывна , то является непрерывной случайной величиной ; если же она еще и абсолютно непрерывна , то существует интегрируемая по Лебегу функция такая, что для всех действительных чисел и . Функция равна производной от почти всюду и называется функцией плотности вероятности распределения .

Если имеет конечную L1-норму , то есть математическое ожидание конечно, то математическое ожидание задается интегралом Римана–Стилтьеса

График CDF с двумя красными прямоугольниками, иллюстрирующий два неравенства

и для любого , а также как показано на диаграмме (рассмотрите площади двух красных прямоугольников и их расширения вправо или влево до графика ). В частности, мы имеем Кроме того, (конечное) ожидаемое значение действительной случайной величины может быть определено на графике ее кумулятивной функции распределения, как показано на рисунке в определении ожидаемого значения для произвольных действительных случайных величин .

Примеры

В качестве примера предположим, что равномерно распределено на единичном интервале .

Тогда CDF определяется как

Предположим вместо этого, что принимает только дискретные значения 0 и 1 с равной вероятностью.

Тогда CDF определяется как

Предположим, что имеет экспоненциальное распределение . Тогда CDF для задается как

Здесь λ > 0 — параметр распределения, часто называемый параметром скорости.

Предположим , что распределено нормально . Тогда CDF для задается как

Здесь параметр — это среднее или математическое ожидание распределения, а — его стандартное отклонение.

Таблица CDF стандартного нормального распределения часто используется в статистических приложениях, где ее называют стандартной нормальной таблицей , единичной нормальной таблицей или Z-таблицей .

Предположим , что распределено биномиально . Тогда CDF для задается как

Здесь — вероятность успеха, а функция обозначает дискретное распределение вероятностей числа успехов в последовательности независимых экспериментов, а — «пол» под , т.е. наибольшее целое число, меньшее или равное .

Производные функции

Дополнительная кумулятивная функция распределения (хвостовое распределение)

Иногда полезно изучить противоположный вопрос и спросить, как часто случайная величина превышает определенный уровень. Это называетсядополнительная кумулятивная функция распределения (ccdf ) или простораспределение хвоста илипревышение и определяется как

Это имеет применение в статистическом тестировании гипотез , например, потому что одностороннее p-значение является вероятностью наблюдения тестовой статистики, по крайней мере, такой же экстремальной, как и наблюдаемая. Таким образом, при условии, что тестовая статистика , T , имеет непрерывное распределение, одностороннее p-значение просто задается ccdf: для наблюдаемого значения тестовой статистики

В анализе выживаемости функция называется функцией выживаемости и обозначается , тогда как в технике распространен термин функция надежности .

Характеристики

Сложенное кумулятивное распределение

Пример сложенного кумулятивного распределения для функции нормального распределения с ожидаемым значением 0 и стандартным отклонением 1.

Хотя график кумулятивного распределения часто имеет S-образную форму, альтернативной иллюстрацией является сложенный график кумулятивного распределения или горный график , который сгибает верхнюю половину графика, [5] [6], то есть

где обозначает индикаторную функцию , а второе слагаемое — функцию выживших , таким образом, используя две шкалы, одну для восходящего и другую для нисходящего наклона. Эта форма иллюстрации подчеркивает медиану , дисперсию (в частности, среднее абсолютное отклонение от медианы [7] ) и асимметрию распределения или эмпирических результатов.

Обратная функция распределения (функция квантиля)

Если CDF F строго возрастает и непрерывна, то является единственным действительным числом, таким что . Это определяет обратную функцию распределения или функцию квантиля .

Некоторые распределения не имеют единственной обратной функции (например, если для всех , что приводит к константе). В этом случае можно использовать обобщенную обратную функцию распределения , которая определяется как

Некоторые полезные свойства обратной функции распределения (которые также сохраняются в определении обобщенной обратной функции распределения):

  1. не убывает [8]
  2. если и только если
  3. Если имеет распределение, то распределяется как . Это используется при генерации случайных чисел с использованием метода выборки обратного преобразования .
  4. Если — набор независимых -распределенных случайных величин, определенных на одном и том же пространстве выборок, то существуют случайные величины, такие что распределены как и с вероятностью 1 для всех . [ необходима цитата ]

Обратную функцию распределения можно использовать для перевода результатов, полученных для равномерного распределения, в другие распределения.

Эмпирическая функция распределения

Эмпирическая функция распределения является оценкой кумулятивной функции распределения, которая сгенерировала точки в выборке. Она сходится с вероятностью 1 к этому базовому распределению. Существует ряд результатов для количественной оценки скорости сходимости эмпирической функции распределения к базовой кумулятивной функции распределения. [9]

Многомерный случай

Определение для двух случайных величин

При одновременной работе с более чем одной случайной величиной также может быть определена совместная кумулятивная функция распределения . Например, для пары случайных величин совместная функция распределения CDF задается как [2] : стр. 89 

где правая часть представляет собой вероятность того, что случайная величина примет значение, меньшее или равное , и что случайная величина примет значение, меньшее или равное .

Пример совместной кумулятивной функции распределения:

Для двух непрерывных переменных X и Y :

Для двух дискретных случайных величин полезно составить таблицу вероятностей и рассмотреть кумулятивную вероятность для каждого потенциального диапазона X и Y , и вот пример: [10]

Задав совместную функцию распределения вероятностей в табличной форме, определите совместную кумулятивную функцию распределения.

Решение: используя заданную таблицу вероятностей для каждого потенциального диапазона X и Y , можно построить совместную кумулятивную функцию распределения в табличной форме:

Определение для более чем двух случайных величин

Для случайных величин совместная функция CDF определяется как

Интерпретация случайных величин как случайного вектора дает более короткую запись:

Характеристики

Каждая многомерная CDF-функция:

  1. Монотонно не убывающая для каждой из своих переменных,
  2. Непрерывна справа по каждой из своих переменных,

Не каждая функция, удовлетворяющая четырем вышеприведенным свойствам, является многомерной CDF, в отличие от случая с одним измерением. Например, пусть для или или и пусть в противном случае. Легко видеть, что вышеуказанные условия выполнены, и все же это не CDF, поскольку если бы она была, то, как объясняется ниже.

Вероятность того, что точка принадлежит гиперпрямоугольнику , аналогична одномерному случаю: [11]

Сложный случай

Сложная случайная величина

Обобщение кумулятивной функции распределения с действительных на комплексные случайные величины неочевидно, поскольку выражения вида не имеют смысла. Однако выражения вида имеют смысл. Поэтому мы определяем кумулятивное распределение комплексной случайной величины через совместное распределение их действительных и мнимых частей:

Комплексный случайный вектор

Обобщение уравнения 4 дает определение для CDS сложного случайного вектора .

Использование в статистическом анализе

Концепция кумулятивной функции распределения явно проявляется в статистическом анализе двумя (похожими) способами. Кумулятивный частотный анализ — это анализ частоты появления значений явления, меньших контрольного значения. Эмпирическая функция распределения — это формальная прямая оценка кумулятивной функции распределения, для которой можно вывести простые статистические свойства и которая может лечь в основу различных статистических проверок гипотез . Такие проверки могут оценить, есть ли доказательства против выборки данных, возникших из заданного распределения, или доказательства против двух выборок данных, возникших из одного и того же (неизвестного) распределения популяции.

Тесты Колмогорова–Смирнова и Койпера

Тест Колмогорова–Смирнова основан на кумулятивных функциях распределения и может использоваться для проверки того, различаются ли два эмпирических распределения или отличается ли эмпирическое распределение от идеального распределения. Тесно связанный тест Кейпера полезен, если область распределения циклична, как в случае дня недели. Например, тест Кейпера может использоваться для проверки того, меняется ли количество торнадо в течение года или меняются ли продажи продукта в зависимости от дня недели или дня месяца.

Смотрите также

Ссылки

  1. ^ Дейзенрот, Марк Питер; Фейсал, А. Альдо; Онг, Ченг Сун (2020). Математика для машинного обучения. Cambridge University Press. стр. 181. ISBN 9781108455145.
  2. ^ abcdef Park, Kun Il (2018). Основы вероятности и стохастических процессов с приложениями к коммуникациям . Springer. ISBN 978-3-319-68074-3.
  3. ^ Монтгомери, Дуглас С.; Рангер, Джордж С. (2003). Прикладная статистика и вероятность для инженеров (PDF) . John Wiley & Sons, Inc. стр. 104. ISBN 0-471-20454-4. Архивировано (PDF) из оригинала 2012-07-30.
  4. ^ Цвиллингер, Дэниел; Кокоска, Стивен (2010). CRC Standard Probability and Statistics Tables and Formulae . CRC Press. стр. 49. ISBN 978-1-58488-059-2.
  5. ^ Gentle, JE (2009). Вычислительная статистика. Springer . ISBN 978-0-387-98145-1. Получено 2010-08-06 .[ нужна страница ]
  6. ^ Монти, К. Л. (1995). «Сложенные эмпирические кривые функции распределения (горные графики)». Американский статистик . 49 (4): 342–345. doi :10.2307/2684570. JSTOR  2684570.
  7. ^ Сюэ, Дж. Х.; Титтерингтон, Д. М. (2011). «P-кратная кумулятивная функция распределения и среднее абсолютное отклонение от p-квантиля» (PDF) . Statistics & Probability Letters . 81 (8): 1179–1182. doi :10.1016/j.spl.2011.03.014.
  8. ^ Чан, Стэнли Х. (2021). Введение в вероятность для науки о данных. Michigan Publishing. стр. 18. ISBN 978-1-60785-746-4.
  9. ^ Гессе, К. (1990). «Скорости сходимости для эмпирической функции распределения и эмпирической характеристической функции широкого класса линейных процессов». Журнал многомерного анализа . 35 (2): 186–202. doi :10.1016/0047-259X(90)90024-C.
  10. ^ "Совместная кумулятивная функция распределения (CDF)". math.info . Получено 2019-12-11 .
  11. ^ "Архивная копия" (PDF) . www.math.wustl.edu . Архивировано из оригинала (PDF) 22 февраля 2016 года . Получено 13 января 2022 года .{{cite web}}: CS1 maint: archived copy as title (link)
  12. ^ Сан, Цзинчао; Конг, Майин; Пал, Субхадип (22 июня 2021 г.). «Модифицированное полунормальное распределение: свойства и эффективная схема выборки». Communications in Statistics - Theory and Methods . 52 (5): 1591–1613. doi :10.1080/03610926.2021.1934700. ISSN  0361-0926. S2CID  237919587.

Внешние ссылки