Усеченное распространение

В статистике усеченное распределение — это условное распределение , возникающее в результате ограничения области действия некоторого другого распределения вероятностей . Усеченные распределения возникают в практической статистике в тех случаях, когда возможность фиксировать события или даже знать о них ограничивается значениями, которые лежат выше или ниже заданного порога или внутри определенного диапазона. Например, если проверяются даты рождения детей в школе, они, как правило, подлежат усечению по сравнению с датами рождения всех детей в этом районе, учитывая, что в конкретную дату школа принимает только детей определенного возрастного диапазона. Не было бы никакой информации о том, сколько детей в данной местности родились до или после дат закрытия школы, если бы для получения информации использовался только прямой подход к школе.

Если выборка предназначена для сохранения знаний об элементах, выходящих за пределы требуемого диапазона, без регистрации фактических значений, это называется цензурированием , в отличие от усечения , описанного здесь. ^[1]

Определение

Следующее обсуждение ведется с точки зрения случайной величины, имеющей непрерывное распределение, хотя те же идеи применимы и к дискретным распределениям . Аналогично, в обсуждении предполагается, что усечение производится до полуоткрытого интервала y ∈ ( a,b ], но другие возможности можно реализовать напрямую.

Предположим, у нас есть случайная величина, которая распределена в соответствии с некоторой функцией плотности вероятности с кумулятивной функцией распределения, обе из которых имеют бесконечную поддержку . Предположим, мы хотим узнать плотность вероятности случайной величины после ограничения поддержки между двумя константами, чтобы поддержка . То есть предположим, что мы хотим знать, как распределяется данное . $X$ ${\ displaystyle f (x)}$ ${\ displaystyle F (х)}$ $y=(a,b]$ $X$ $a<X\leq b$

f(x|a<X\leq b)={\frac {g(x)}{F(b)-F(a)}} = {\frac {f(x)\cdot I(\ {a<x\leq b\})}{F(b)-F(a)}}\propto _{x}f(x)\cdot I(\{a<x\leq b\})

где для всех и везде. То есть где тут индикаторная функция. Обратите внимание, что знаменатель усеченного распределения постоянен по отношению к . ${\ displaystyle g (x) = f (x)}$ $a<x\leq b$ ${\ displaystyle g (x) = 0}$ $g(x)=f(x)\cdot I(\{a<x\leq b\})$ $I$ $х$

Обратите внимание, что на самом деле это плотность: $f(x|a<X\leq b)$

\int _{a}^{b}f(x|a<X\leq b)dx={\frac {1}{F(b)-F(a)}}\int _{a} ^{b}g(x)dx=1

В усеченных дистрибутивах не обязательно удалять части сверху и снизу. Усеченное распределение, в котором удалена только нижняя часть распределения, выглядит следующим образом:

f(x|X>y)={\frac {g(x)}{1-F(y)}}

где для всех и везде, и – кумулятивная функция распределения . ${\ displaystyle g (x) = f (x)}$ $y<x$ ${\ displaystyle g (x) = 0}$ ${\ displaystyle F (х)}$

Усеченное распределение, в котором удалена верхняя часть распределения, выглядит следующим образом:

f(x|X\leq y)={\frac {g(x)}{F(y)}}

где для всех и везде, и – кумулятивная функция распределения . ${\ displaystyle g (x) = f (x)}$ $x\leq y$ ${\ displaystyle g (x) = 0}$ ${\ displaystyle F (х)}$

Ожидание усеченной случайной величины

Предположим, мы хотим найти ожидаемое значение случайной величины, распределенной в соответствии с плотностью и кумулятивным распределением при условии, что случайная величина больше некоторого известного значения . Таким образом, математическое ожидание усеченной случайной величины равно: ${\ displaystyle f (x)}$ ${\ displaystyle F (х)}$ $X$ $y$

E(X|X>y)={\frac {\int _{y}^{\infty }xg(x)dx}{1-F(y)}}

где снова для всех и везде. ${\ displaystyle g (x)}$ ${\ displaystyle g (x) = f (x)}$ $x>y$ ${\ displaystyle g (x) = 0}$

Полагая и соответственно нижним и верхним пределами поддержки исходной функции плотности (которая, как мы предполагаем, является непрерывной), свойства , где – некоторая непрерывная функция с непрерывной производной, включают: $а$ $б$ $е$ ${\ displaystyle E (u (X) | X> y)}$ $и$

${\ displaystyle \ lim _ {y \ to a} E (u (X) | X> y) = E (u (X))}$
${\ displaystyle \ lim _ {y \ to b} E (u (X) | X> y) = u (b)}$
${\frac {\partial }{\partial y}}[E(u(X)|X>y)]={\frac {f(y)}{1-F(y)}}[E (u(X)|X>y)-u(y)]$

{\frac {\partial }{\partial y}}[E(u(X)|X<y)]={\frac {f(y)}{F(y)}}[-E(u(X)|X<y)+u(y)]

$\lim _{y\to a}{\frac {\partial }{\partial y}}[E(u(X)|X>y)]=f(a)[E(u(X))-u(a)]$
$\lim _{y\to b}{\frac {\partial }{\partial y}}[E(u(X)|X>y)]={\frac {1}{2}}u'(b)$

При условии, что ограничения существуют, то есть: , и где представляет либо или . $\lim _{y\to c}u'(y)=u'(c)$ $\lim _{y\to c}u(y)=u(c)$ $\lim _{y\to c}f(y)=f(c)$ $c$ $a$ $b$

Примеры

Усеченное нормальное распределение является важным примером. ^[2]

Модель Тобита использует усеченные распределения. Другие примеры включают усеченный бином при x=0 и усеченный пуассон при x=0.

Случайное усечение

Предположим, у нас есть следующая настройка: значение усечения , выбирается случайным образом из плотности , но это значение не наблюдается. Затем значение , выбирается случайным образом из усеченного распределения . Предположим, мы наблюдаем и хотим обновить наше мнение о плотности данного наблюдения. $t$ $g(t)$ $x$ $f(x|t)=Tr(x)$ $x$ $t$

Во-первых, по определению:

f(x)=\int _{x}^{\infty }f(x|t)g(t)dt

, и

F(a)=\int _{x}^{a}\left[\int _{-\infty }^{\infty }f(x|t)g(t)dt\right]dx.

Обратите внимание, что оно должно быть больше , следовательно, когда мы интегрируем по , мы устанавливаем нижнюю границу . Функции и представляют собой безусловную плотность и безусловную кумулятивную функцию распределения соответственно. $t$ $x$ $t$ $x$ $f(x)$ $F(x)$

По правилу Байеса ,

g(t|x)={\frac {f(x|t)g(t)}{f(x)}},

который расширяется до

g(t|x)={\frac {f(x|t)g(t)}{\int _{x}^{\infty }f(x|t)g(t)dt}}.

Два равномерных распределения (пример)

Предположим, мы знаем, что t равномерно распределено из [0, T ] и x | t распределено равномерно на [0, t ]. Пусть g ( t ) и f ( x | t ) — плотности, которые описывают t и x соответственно. Предположим, мы наблюдаем значение x и хотим знать распределение t при этом значении x .

g(t|x)={\frac {f(x|t)g(t)}{f(x)}}={\frac {1}{t(\ln(T)-\ln(x))}}\quad {\text{for all }}t>x.

Смотрите также

Усеченное среднее