В теории вероятностей и статистике предельное распределение подмножества набора случайных величин — это распределение вероятностей переменных, содержащихся в подмножестве. Оно дает вероятности различных значений переменных в подмножестве без ссылки на значения других переменных. Это контрастирует с условным распределением , которое дает вероятности , зависящие от значений других переменных.
Маргинальные переменные — это те переменные в подмножестве сохраняемых переменных. Эти концепции являются «маргинальными», потому что их можно найти, суммируя значения в таблице по строкам или столбцам и записывая сумму на полях таблицы. [1] Распределение маргинальных переменных (маргинальное распределение) получается путем маргинализации (то есть сосредоточения на суммах на полях) по распределению отбрасываемых переменных, и отбрасываемые переменные называются маргинализированными .
Контекст здесь в том, что теоретические исследования, которые проводятся, или анализ данных , который проводится, включают более широкий набор случайных величин, но что внимание ограничивается сокращенным числом этих переменных. Во многих приложениях анализ может начинаться с заданного набора случайных величин, затем сначала расширять набор, определяя новые (например, сумму исходных случайных величин), и, наконец, сокращать число, уделяя внимание предельному распределению подмножества (например, суммы). Можно провести несколько различных анализов, каждый из которых рассматривает другое подмножество переменных как предельное распределение.
При известном совместном распределении двух дискретных случайных величин , скажем, X и Y , предельное распределение любой из переменных — например , X — является распределением вероятностей X, когда значения Y не принимаются во внимание. Это можно вычислить, суммируя совместное распределение вероятностей по всем значениям Y. Естественно, обратное также верно: предельное распределение можно получить для Y , суммируя по отдельным значениям X.
Предельную вероятность всегда можно записать как ожидаемое значение :
Интуитивно, предельная вероятность X вычисляется путем изучения условной вероятности X при заданном значении Y , а затем усреднения этой условной вероятности по распределению всех значений Y.
Это следует из определения ожидаемого значения (после применения закона бессознательного статистика )
Таким образом, маргинализация обеспечивает правило преобразования распределения вероятностей случайной величины Y и другой случайной величины X = g ( Y ) :
Если даны две непрерывные случайные величины X и Y , совместное распределение которых известно, то функция предельной плотности вероятности может быть получена путем интегрирования совместного распределения вероятности f по Y и наоборот. То есть
где , и .
Найти предельную кумулятивную функцию распределения из совместной кумулятивной функции распределения легко. Напомним, что:
Если X и Y совместно принимают значения на [ a , b ] × [ c , d ], то
Если d равно ∞, то это становится пределом . Аналогично для .
Пограничная вероятность — это вероятность наступления одного события, независимо от других событий. Условная вероятность , с другой стороны, — это вероятность того, что событие произойдет при условии, что другое определенное событие уже произошло. Это означает, что расчет одной переменной зависит от другой переменной. [2]
Условное распределение переменной при наличии другой переменной — это совместное распределение обеих переменных, деленное на предельное распределение другой переменной. [3] То есть,
Предположим, что имеются данные по классу из 200 учеников о количестве времени, затраченного на изучение ( X ), и проценте правильных ответов ( Y ). [4] Предполагая, что X и Y являются дискретными случайными величинами, совместное распределение X и Y можно описать, перечислив все возможные значения p ( x i , y j ), как показано в Таблице 3.
Маргинальное распределение можно использовать для определения количества учащихся, набравших 20 баллов или ниже: , то есть 10 учащихся или 5%.
Условное распределение можно использовать для определения вероятности того, что студент, который учился 60 минут или более, получит оценку 20 или ниже: , то есть вероятность получить оценку 20 после того, как он учился не менее 60 минут, составляет около 11%.
Предположим, что нужно вычислить вероятность того, что пешеход будет собит автомобилем, переходя дорогу по пешеходному переходу, не обращая внимания на светофор. Пусть H — дискретная случайная величина, принимающая одно значение из {Hit, Not Hit}. Пусть L (для светофора) — дискретная случайная величина, принимающая одно значение из {Red, Yellow, Green}.
Реалистично, H будет зависеть от L. То есть, P(H = Hit) будет принимать разные значения в зависимости от того, является ли L красным, желтым или зеленым (и аналогично для P(H = Not Hit)). Например, человек имеет гораздо больше шансов быть сбитым автомобилем при попытке перейти дорогу, когда светофор для перпендикулярного движения зеленый, чем если бы он был красный. Другими словами, для любой заданной возможной пары значений для H и L необходимо рассмотреть совместное распределение вероятностей H и L, чтобы найти вероятность того, что эта пара событий произойдет вместе, если пешеход проигнорирует состояние светофора.
Однако при попытке рассчитать предельную вероятность P(H = Hit) ищут вероятность того, что H = Hit в ситуации, в которой конкретное значение L неизвестно и в которой пешеход игнорирует состояние светофора. В общем случае пешеход может быть сбит, если свет красный ИЛИ если свет желтый ИЛИ если свет зеленый. Таким образом, ответ для предельной вероятности можно найти, суммируя P(H | L) для всех возможных значений L, причем каждое значение L взвешивается по вероятности его появления.
Ниже представлена таблица, показывающая условные вероятности попадания в цель в зависимости от состояния светофора. (Обратите внимание, что сумма столбцов в этой таблице должна составлять 1, поскольку вероятность попадания или непопадания составляет 1 независимо от состояния светофора.)
Чтобы найти совместное распределение вероятностей, требуется больше данных. Например, предположим, что P(L = красный) = 0,2, P(L = желтый) = 0,1 и P(L = зеленый) = 0,7. Умножение каждого столбца в условном распределении на вероятность появления этого столбца приводит к совместному распределению вероятностей H и L, заданному в центральном блоке записей 2×3. (Обратите внимание, что ячейки в этом блоке 2×3 в сумме дают 1).
Предельная вероятность P(H = Hit) — это сумма 0,572 по строке H = Hit этой таблицы совместного распределения, поскольку это вероятность быть сбитым, когда свет красный ИЛИ желтый ИЛИ зеленый. Аналогично, предельная вероятность того, что P(H = Not Hit) — это сумма по строке H = Not Hit.
Для многомерных распределений применяются формулы, аналогичные приведенным выше, с символами X и/или Y , интерпретируемыми как векторы. В частности, каждое суммирование или интегрирование будет по всем переменным, за исключением тех, которые содержатся в X. [ 5]
Это означает, что если X 1 , X 2 ,…, X n являются дискретными случайными величинами , то функция предельной вероятности распределения должна быть равна, если X 1 , X 2 ,…, X n являются непрерывными случайными величинами , то функция предельной вероятности распределения должна быть равна
{{cite book}}
: CS1 maint: others (link)