Вероятность того, что случайная величина X меньше или равна x
В теории вероятностей и статистике кумулятивная функция распределения ( CDF ) действительной случайной величины , или просто функция распределения , оцененная при , представляет собой вероятность того, что значение будет меньше или равно . [1]
Кумулятивная функция распределения действительной случайной величины — это функция, заданная формулой [2] : стр. 77
где правая часть представляет собой вероятность того, что случайная величина примет значение, меньшее или равное .
Вероятность того, что находится в полузамкнутом интервале , где , равна [2] : стр. 84
В определении выше знак «меньше или равно», «≤», является условностью, а не общепринятой (например, в венгерской литературе используется «<»), но это различие важно для дискретных распределений. Правильное использование таблиц биномиального и пуассоновского распределений зависит от этой условности. Более того, важные формулы, такие как формула обращения Поля Леви для характеристической функции, также опираются на формулировку «меньше или равно».
При обработке нескольких случайных величин и т. д. соответствующие буквы используются как нижние индексы, а при обработке только одной, нижний индекс обычно опускается. Принято использовать заглавную букву для кумулятивной функции распределения, в отличие от строчной буквы, используемой для функций плотности вероятности и функций массы вероятности . Это применимо при обсуждении общих распределений: некоторые конкретные распределения имеют свои собственные общепринятые обозначения, например, нормальное распределение использует и вместо и , соответственно.
Функция плотности вероятности непрерывной случайной величины может быть определена из кумулятивной функции распределения путем дифференцирования [3] с использованием основной теоремы исчисления ; т.е. задана ,
пока существует производная.
CDF непрерывной случайной величины может быть выражена как интеграл ее функции плотности вероятности следующим образом: [2] : стр. 86
В случае случайной величины , которая имеет распределение, имеющее дискретную составляющую при значении ,
Если непрерывна при , то она равна нулю и дискретная составляющая при отсутствует .
Характеристики
Каждая кумулятивная функция распределения является неубывающей [2] : стр. 78 и непрерывна справа , [2] : стр. 79, что делает ее функцией càdlàg . Кроме того,
Каждая функция с этими тремя свойствами является функцией распределения, т.е. для каждой такой функции можно определить случайную величину таким образом, что функция будет кумулятивной функцией распределения этой случайной величины.
и для любого ,
а также
как показано на диаграмме (рассмотрите площади двух красных прямоугольников и их расширения вправо или влево до графика ). В частности, мы имеем
Кроме того, (конечное) ожидаемое значение действительной случайной величины может быть определено на графике ее кумулятивной функции распределения, как показано на рисунке в определении ожидаемого значения для произвольных действительных случайных величин .
Здесь параметр — это среднее или математическое ожидание распределения, а — его стандартное отклонение.
Таблица CDF стандартного нормального распределения часто используется в статистических приложениях, где ее называют стандартной нормальной таблицей , единичной нормальной таблицей или Z-таблицей .
Здесь — вероятность успеха, а функция обозначает дискретное распределение вероятностей числа успехов в последовательности независимых экспериментов, а — «пол» под , т.е. наибольшее целое число, меньшее или равное .
Производные функции
Дополнительная кумулятивная функция распределения (хвостовое распределение)
Иногда полезно изучить противоположный вопрос и спросить, как часто случайная величина превышает определенный уровень. Это называетсядополнительная кумулятивная функция распределения (ccdf ) или простораспределение хвоста илипревышение и определяется как
Это имеет применение в статистическом тестировании гипотез , например, потому что одностороннее p-значение является вероятностью наблюдения тестовой статистики, по крайней мере, такой же экстремальной, как и наблюдаемая. Таким образом, при условии, что тестовая статистика , T , имеет непрерывное распределение, одностороннее p-значение просто задается ccdf: для наблюдаемого значения тестовой статистики
Для неотрицательной непрерывной случайной величины, имеющей математическое ожидание, неравенство Маркова утверждает, что [4]
Как и фактически при условии, что конечно. Доказательство: [ требуется ссылка ] Предполагая, что имеет функцию плотности , для любого Тогда, при распознавании и перестановке членов, как и утверждалось.
Для случайной величины, имеющей математическое ожидание, и для неотрицательной случайной величины второй член равен 0. Если случайная величина может принимать только неотрицательные целые значения, это эквивалентно
Сложенное кумулятивное распределение
Хотя график кумулятивного распределения часто имеет S-образную форму, альтернативной иллюстрацией является сложенный график кумулятивного распределения или горный график , который сгибает верхнюю половину графика, [5] [6], то есть
Если CDF F строго возрастает и непрерывна, то является единственным действительным числом, таким что . Это определяет обратную функцию распределения или функцию квантиля .
Некоторые распределения не имеют единственной обратной функции (например, если для всех , что приводит к константе). В этом случае можно использовать обобщенную обратную функцию распределения , которая определяется как
Пример 1: Медиана равна .
Пример 2: Положим . Затем вызовем 95-й процентиль.
Некоторые полезные свойства обратной функции распределения (которые также сохраняются в определении обобщенной обратной функции распределения):
Если — набор независимых -распределенных случайных величин, определенных на одном и том же пространстве выборок, то существуют случайные величины, такие что распределены как и с вероятностью 1 для всех . [ необходима ссылка ]
Обратную функцию распределения можно использовать для перевода результатов, полученных для равномерного распределения, в другие распределения.
Эмпирическая функция распределения
Эмпирическая функция распределения является оценкой кумулятивной функции распределения, которая сгенерировала точки в выборке. Она сходится с вероятностью 1 к этому базовому распределению. Существует ряд результатов для количественной оценки скорости сходимости эмпирической функции распределения к базовой кумулятивной функции распределения. [9]
Многомерный случай
Определение для двух случайных величин
При одновременной работе с более чем одной случайной величиной можно также определить совместную кумулятивную функцию распределения . Например, для пары случайных величин совместная функция распределения CDF задается как [2] : стр. 89
где правая часть представляет собой вероятность того, что случайная величина примет значение, меньшее или равное , и что случайная величина примет значение, меньшее или равное .
Пример совместной кумулятивной функции распределения:
Для двух непрерывных переменных X и Y :
Для двух дискретных случайных величин полезно составить таблицу вероятностей и рассмотреть кумулятивную вероятность для каждого потенциального диапазона X и Y , и вот пример: [10]
Решение: используя заданную таблицу вероятностей для каждого потенциального диапазона X и Y , можно построить совместную кумулятивную функцию распределения в табличной форме:
Определение для более чем двух случайных величин
Для случайных величин совместная функция CDF определяется как
Интерпретация случайных величин как случайного вектора дает более короткую запись:
Характеристики
Каждая многомерная CDF-функция:
Монотонно не убывающая для каждой из своих переменных,
Непрерывна справа по каждой из своих переменных,
Не каждая функция, удовлетворяющая четырем вышеприведенным свойствам, является многомерной CDF, в отличие от случая с одним измерением. Например, пусть для или или и пусть в противном случае. Легко видеть, что вышеуказанные условия выполнены, и все же это не CDF, поскольку если бы она была, то, как объясняется ниже.
Вероятность того, что точка принадлежит гиперпрямоугольнику , аналогична одномерному случаю: [11]
Сложный случай
Комплексная случайная величина
Обобщение кумулятивной функции распределения с действительных на комплексные случайные величины неочевидно, поскольку выражения вида не имеют смысла. Однако выражения вида имеют смысл. Поэтому мы определяем кумулятивное распределение комплексной случайной величины через совместное распределение их действительных и мнимых частей:
Комплексный случайный вектор
Обобщение уравнения 4 дает
определение для CDS комплексного случайного вектора .
Использование в статистическом анализе
Концепция кумулятивной функции распределения явно появляется в статистическом анализе двумя (похожими) способами. Кумулятивный частотный анализ — это анализ частоты появления значений явления, меньших контрольного значения. Эмпирическая функция распределения — это формальная прямая оценка кумулятивной функции распределения, для которой можно вывести простые статистические свойства и которая может лечь в основу различных статистических проверок гипотез . Такие проверки могут оценить, есть ли доказательства против того, что выборка данных возникла из заданного распределения, или доказательства против того, что две выборки данных произошли из одного и того же (неизвестного) распределения популяции.
Тесты Колмогорова–Смирнова и Койпера
Тест Колмогорова–Смирнова основан на кумулятивных функциях распределения и может использоваться для проверки того, различаются ли два эмпирических распределения или отличается ли эмпирическое распределение от идеального распределения. Тесно связанный тест Кейпера полезен, если область распределения циклична, как в случае дня недели. Например, тест Кейпера может использоваться для проверки того, меняется ли количество торнадо в течение года или меняются ли продажи продукта в зависимости от дня недели или дня месяца.
^ Дейзенрот, Марк Питер; Фейсал, А. Альдо; Онг, Ченг Сун (2020). Математика для машинного обучения. Cambridge University Press. стр. 181. ISBN 9781108455145.
^ abcdef Park, Kun Il (2018). Основы вероятности и стохастических процессов с приложениями к коммуникациям . Springer. ISBN978-3-319-68074-3.
^ Монтгомери, Дуглас С.; Рангер, Джордж С. (2003). Прикладная статистика и вероятность для инженеров (PDF) . John Wiley & Sons, Inc. стр. 104. ISBN0-471-20454-4. Архивировано (PDF) из оригинала 2012-07-30.
^ Цвиллингер, Дэниел; Кокоска, Стивен (2010). CRC Standard Probability and Statistics Tables and Formulae . CRC Press. стр. 49. ISBN978-1-58488-059-2.
^ Монти, К. Л. (1995). «Сложенные эмпирические кривые функции распределения (горные графики)». Американский статистик . 49 (4): 342–345. doi :10.2307/2684570. JSTOR 2684570.
^ Сюэ, Дж. Х.; Титтерингтон, Д. М. (2011). «P-кратная кумулятивная функция распределения и среднее абсолютное отклонение от p-квантиля» (PDF) . Statistics & Probability Letters . 81 (8): 1179–1182. doi :10.1016/j.spl.2011.03.014.
^ Чан, Стэнли Х. (2021). Введение в вероятность для науки о данных. Michigan Publishing. стр. 18. ISBN978-1-60785-746-4.
^ Гессе, К. (1990). «Скорости сходимости для эмпирической функции распределения и эмпирической характеристической функции широкого класса линейных процессов». Журнал многомерного анализа . 35 (2): 186–202. doi :10.1016/0047-259X(90)90024-C.
^ "Архивная копия" (PDF) . www.math.wustl.edu . Архивировано из оригинала (PDF) 22 февраля 2016 года . Получено 13 января 2022 года .{{cite web}}: CS1 maint: archived copy as title (link)
^ Сан, Цзинчао; Конг, Майин; Пал, Субхадип (22 июня 2021 г.). «Модифицированное полунормальное распределение: свойства и эффективная схема выборки». Communications in Statistics - Theory and Methods . 52 (5): 1591–1613. doi :10.1080/03610926.2021.1934700. ISSN 0361-0926. S2CID 237919587.
Внешние ссылки
Медиафайлы по теме Кумулятивные функции распределения на Wikimedia Commons