При наличии двух случайных величин , определенных на одном и том же вероятностном пространстве , [1] совместное распределение вероятностей является соответствующим распределением вероятностей для всех возможных пар выходов. Совместное распределение может быть рассмотрено для любого заданного числа случайных величин. Совместное распределение кодирует маргинальные распределения , т. е. распределения каждой из отдельных случайных величин и условные распределения вероятностей , которые имеют дело с тем, как распределяются выходы одной случайной величины, когда дана информация о выходах другой случайной величины(ей).
В формальной математической установке теории меры совместное распределение задается прямой мерой , картой, полученной путем объединения вместе заданных случайных величин, вероятностной меры выборочного пространства .
В случае действительных случайных величин совместное распределение, как частное многомерное распределение, может быть выражено многомерной кумулятивной функцией распределения или многомерной функцией плотности вероятности вместе с многомерной функцией массы вероятности . В частном случае непрерывных случайных величин достаточно рассмотреть функции плотности вероятности, а в случае дискретных случайных величин достаточно рассмотреть функции массы вероятности.
Каждая из двух урн содержит в два раза больше красных шаров, чем синих, и никаких других, и один шар случайным образом выбирается из каждой урны, причем два вытягивания независимы друг от друга. Пусть и будут дискретными случайными величинами, связанными с результатами вытягивания из первой и второй урн соответственно. Вероятность вытягивания красного шара из любой из урн составляет 2/3, а вероятность вытягивания синего шара составляет 1/3. Совместное распределение вероятностей представлено в следующей таблице:
Каждая из четырех внутренних ячеек показывает вероятность определенной комбинации результатов двух розыгрышей; эти вероятности являются совместным распределением. В любой ячейке вероятность возникновения определенной комбинации равна (поскольку розыгрыши независимы) произведению вероятности указанного результата для A и вероятности указанного результата для B. Вероятности в этих четырех ячейках в сумме дают 1, как и во всех распределениях вероятностей.
Более того, последняя строка и последний столбец дают предельное распределение вероятностей для A и предельное распределение вероятностей для B соответственно. Например, для A первая из этих ячеек дает сумму вероятностей для A быть красным, независимо от того, какая возможность для B в столбце над ячейкой имеет место, как 2/3. Таким образом, предельное распределение вероятностей для дает вероятности , безусловные для , на полях таблицы.
Рассмотрим подбрасывание двух честных монет ; пусть и будут дискретными случайными величинами, связанными с результатами первого и второго подбрасывания монеты соответственно. Каждое подбрасывание монеты является испытанием Бернулли и имеет распределение Бернулли . Если монета показывает «орел», то соответствующая случайная величина принимает значение 1, и принимает значение 0 в противном случае. Вероятность каждого из этих результатов равна 1/2, поэтому предельные (безусловные) функции плотности распределения имеют вид
Совместная функция вероятности массы и определяет вероятности для каждой пары результатов. Все возможные результаты
Поскольку каждый результат равновероятен, совместная функция массы вероятности становится
Поскольку подбрасывания монеты независимы, совместная функция вероятностной массы представляет собой произведение маргинальных значений:
Рассмотрим бросок честной кости и пусть , если число четное (т. е. 2, 4 или 6) и в противном случае. Кроме того, пусть , если число простое (т. е. 2, 3 или 5) и в противном случае.
Тогда совместное распределение и , выраженное как функция массы вероятности, равно
Сумма этих вероятностей обязательно равна 1, поскольку вероятность возникновения некоторой комбинации и равна 1.
Если в случайном эксперименте определено более одной случайной величины, важно различать совместное распределение вероятностей X и Y и распределение вероятностей каждой переменной по отдельности. Индивидуальное распределение вероятностей случайной величины называется ее предельным распределением вероятностей. В общем случае предельное распределение вероятностей X можно определить из совместного распределения вероятностей X и других случайных величин.
Если совместная функция плотности вероятности случайных величин X и Y равна , то предельная функция плотности вероятности X и Y, которая определяет предельное распределение , определяется как:
где первый интеграл берется по всем точкам в диапазоне (X,Y), для которых X=x, а второй интеграл берется по всем точкам в диапазоне (X,Y), для которых Y=y. [2]
Для пары случайных величин совместная кумулятивная функция распределения (CDF) определяется по формуле [3] : стр. 89
где правая часть представляет собой вероятность того, что случайная величина примет значение, меньшее или равное , и что случайная величина примет значение, меньшее или равное .
Для случайных величин совместная функция CDF определяется как
Интерпретация случайных величин как случайного вектора дает более короткую запись:
Совместная функция вероятностной массы двух дискретных случайных величин имеет вид:
или записано в терминах условных распределений
где вероятность того , что .
Обобщением предыдущего случая с двумя переменными является совместное распределение вероятностей дискретных случайных величин, которое имеет вид:
или эквивалентно
Это тождество известно как цепное правило вероятности .
Поскольку это вероятности, в случае двух переменных
что обобщает для дискретных случайных величин
Совместная функция плотности вероятности для двух непрерывных случайных величин определяется как производная совместной кумулятивной функции распределения (см. уравнение 1 ):
Это равно:
где и — условные распределения данных и данных соответственно, а и — предельные распределения для и соответственно.
Определение естественным образом распространяется на более чем две случайные величины:
Опять же, поскольку это распределения вероятностей, то
соответственно
«Смешанная совместная плотность» может быть определена, когда одна или несколько случайных величин являются непрерывными, а другие случайные величины являются дискретными. С одной переменной каждого типа
Один пример ситуации, в которой может потребоваться найти кумулятивное распределение одной случайной величины, которая является непрерывной, и другой случайной величины, которая является дискретной, возникает, когда требуется использовать логистическую регрессию для прогнозирования вероятности бинарного результата Y, обусловленного значением непрерывно распределенного результата . Необходимо использовать «смешанную» совместную плотность при нахождении кумулятивного распределения этого бинарного результата, поскольку входные переменные изначально были определены таким образом, что нельзя было совместно назначить им либо функцию плотности вероятности, либо функцию массы вероятности. Формально, является функцией плотности вероятности относительно меры произведения на соответствующих носителях и . Любое из этих двух разложений затем может быть использовано для восстановления совместной кумулятивной функции распределения:
Определение обобщается на смесь произвольного числа дискретных и непрерывных случайных величин.
В общем случае две случайные величины и независимы тогда и только тогда , когда совместная кумулятивная функция распределения удовлетворяет условию
Две дискретные случайные величины и являются независимыми тогда и только тогда, когда совместная функция вероятностной массы удовлетворяет условию
для всех и .
В то время как число независимых случайных событий растет, связанное с ними значение совместной вероятности быстро уменьшается до нуля по отрицательному экспоненциальному закону.
Аналогично, две абсолютно непрерывные случайные величины независимы тогда и только тогда, когда
для всех и . Это означает, что получение любой информации о значении одной или нескольких случайных величин приводит к условному распределению любой другой переменной, которое идентично ее безусловному (предельному) распределению; таким образом, ни одна переменная не предоставляет никакой информации о какой-либо другой переменной.
Если подмножество переменных условно зависимо от другого подмножества этих переменных, то функция массы вероятности совместного распределения равна . равна . Следовательно, ее можно эффективно представить с помощью распределений вероятности меньшей размерности и . Такие условные отношения независимости можно представить с помощью байесовской сети или копула-функций .
Когда две или более случайных переменных определены в вероятностном пространстве, полезно описать, как они изменяются вместе; то есть полезно измерить связь между переменными. Общей мерой связи между двумя случайными переменными является ковариация. Ковариация является мерой линейной связи между случайными переменными. Если связь между случайными переменными нелинейна, ковариация может быть нечувствительна к связи, что означает, что она не связывает корреляцию между двумя переменными.
Ковариация между случайными величинами X и Y, обозначаемая как cov(X,Y), равна:
[4]
Существует еще одна мера взаимосвязи между двумя случайными величинами, которую часто легче интерпретировать, чем ковариацию.
Корреляция просто масштабирует ковариацию на произведение стандартного отклонения каждой переменной. Следовательно, корреляция является безразмерной величиной, которую можно использовать для сравнения линейных отношений между парами переменных в разных единицах. Если точки в совместном распределении вероятностей X и Y, которые получают положительную вероятность, имеют тенденцию попадать вдоль линии положительного (или отрицательного) наклона, ρ XY близко к +1 (или −1). Если ρ XY равно +1 или −1, можно показать, что точки в совместном распределении вероятностей, которые получают положительную вероятность, попадают точно вдоль прямой линии. Две случайные величины с ненулевой корреляцией называются коррелированными. Подобно ковариации, корреляция является мерой линейной связи между случайными величинами.
Корреляция между случайными величинами X и Y, обозначаемая как
Названные совместные распределения, которые часто встречаются в статистике, включают многомерное нормальное распределение , многомерное устойчивое распределение , полиномиальное распределение , отрицательное полиномиальное распределение , многомерное гипергеометрическое распределение и эллиптическое распределение .
{{cite book}}
: CS1 maint: location missing publisher (link){{cite book}}
: CS1 maint: location missing publisher (link)