Выборка обратного преобразования

Выборка с обратным преобразованием (также известная как инверсионная выборка , обратное преобразование интеграла вероятности , метод обратного преобразования , преобразование Смирнова или золотое правило ^[1] ) — это основной метод выборки псевдослучайных чисел , т. е. для генерации чисел выборки в случайное из любого распределения вероятностей с учетом его кумулятивной функции распределения .

Выборка с обратным преобразованием берет однородные выборки чисел от 0 до 1, интерпретируемых как вероятность, а затем возвращает наименьшее число, соответствующее кумулятивной функции распределения случайной величины. Например, представьте, что это стандартное нормальное распределение с нулевым средним значением и единицей стандартного отклонения. В таблице ниже показаны выборки, взятые из равномерного распределения, и их представление в стандартном нормальном распределении. $и$ $x\in \mathbb {R}$ ${\ displaystyle F (x) \ geq u}$ $F$ $F$

Мы случайным образом выбираем долю площади под кривой и возвращаем число в области определения так, чтобы именно эта доля площади находилась слева от этого числа. Интуитивно мы вряд ли выберем число в дальнем конце хвостов, потому что в них очень маленькая область, которая потребует выбора числа, очень близкого к нулю или единице.

В вычислительном отношении этот метод включает в себя вычисление функции квантиля распределения — другими словами, вычисление кумулятивной функции распределения (CDF) распределения (которая сопоставляет число в области значений с вероятностью от 0 до 1), а затем инвертирование этой функции. Это источник термина «инверсия» или «инверсия» в большинстве названий этого метода. Обратите внимание, что для дискретного распределения вычисление CDF, как правило, не слишком сложно: мы просто складываем отдельные вероятности для различных точек распределения. Однако для непрерывного распределения нам необходимо интегрировать функцию плотности вероятности (PDF) распределения, что невозможно сделать аналитически для большинства распределений (включая нормальное распределение ). В результате этот метод может оказаться неэффективным в вычислительном отношении для многих распределений, и другие методы являются предпочтительными; тем не менее, это полезный метод для создания более широко применимых пробоотборников, например, основанных на браковочной выборке .

Для нормального распределения отсутствие аналитического выражения для соответствующей функции квантиля означает, что другие методы (например, преобразование Бокса-Мюллера ) могут быть предпочтительными в вычислительном отношении. Часто даже для простых распределений метод выборки с обратным преобразованием можно улучшить: ^[2] см., например, алгоритм зиккурата и выборку с отклонением . С другой стороны, можно очень точно аппроксимировать функцию квантиля нормального распределения, используя полиномы умеренной степени, и на самом деле метод сделать это достаточно быстрый, поэтому инверсионная выборка теперь является методом по умолчанию для выборки из нормального распределения. в статистическом пакете R. ^[3]

Официальное заявление

Для любой случайной величины случайная величина имеет то же распределение , что и , где – обобщенная обратная функция кумулятивного распределения и равномерна на . ^[4] $X\in \mathbb {R}$ $F_{X}^{-1}(U)$ $X$ $F_{X}^{-1}$ $F_{X}$ $X$ $U$ $[0,1]$

Для непрерывных случайных величин обратное преобразование интеграла вероятности действительно является обратным преобразованию интеграла вероятности , которое утверждает, что для непрерывной случайной величины с кумулятивной функцией распределения случайная величина является однородной . $X$ $F_{X}$ $U=F_{X}(X)$ $[0,1]$

График метода инверсии от до . Справа внизу мы видим обычную функцию, а слева вверху — ее инверсию. $х$ ${\ displaystyle F (х)}$

Интуиция

Из мы хотим сгенерировать с помощью CDF. Мы предполагаем , что это непрерывная, строго возрастающая функция, что обеспечивает хорошую интуицию. $U\sim \mathrm {Unif} [0,1]$ $X$ $F_{X}(x).$ $F_{X}(x)$

Мы хотим посмотреть, сможем ли мы найти какое-нибудь строго монотонное преобразование , такое, что . Мы будем иметь $T:[0,1]\mapsto \mathbb {R}$ $T(U){\overset {d}{=}}X$

$F_{X}(x)=\Pr(X\leq x)=\Pr(T(U)\leq x)=\Pr(U\leq T^{-1}(x))=T ^{-1}(x),{\text{ for }}x\in \mathbb {R},$

где последний шаг использовал это, когда равномерно на . $\Pr(U\leq y)=y$ $U$ $[0,1]$

Итак, мы должны быть обратной функцией , или, что то же самое, $F_{X}$ $Т$ $T(u)=F_{X}^{- 1}(u),u\in [0,1].$

Следовательно, мы можем генерировать из $X$ $F_{X}^{-1}(U).$

Метод

Анимация того, как выборка с обратным преобразованием генерирует нормально распределенные случайные значения из равномерно распределенных случайных значений.

Проблема, которую решает метод выборки обратного преобразования, заключается в следующем:

Пусть — случайная величина , распределение которой можно описать кумулятивной функцией распределения . $X$ $F_{X}$
Мы хотим генерировать значения, которые распределяются согласно этому распределению. $X$

Метод выборки обратного преобразования работает следующим образом:

Сгенерируйте случайное число из стандартного равномерного распределения в интервале , т.е. из $и$ $[0,1]$ $U\sim \mathrm {Unif} [0,1].$
Найдите обобщенную обратную величину искомого CDF, т.е. $F_{X}^{-1}(u)$
Вычислить . Вычисленная случайная величина имеет распределение и, следовательно, тот же закон, что и . $X'(u)=F_{X}^{-1}(u)$ $X'(U)$ $F_{X}$ $X$

Другими словами, при наличии кумулятивной функции распределения и однородной переменной случайная величина имеет распределение . ^[4] $F_{X}$ $U\in [0,1]$ $X=F_{X}^{-1}(U)$ $F_{X}$

В непрерывном случае можно рассматривать такие обратные функции как объекты, удовлетворяющие дифференциальным уравнениям. ^[5] Некоторые такие дифференциальные уравнения допускают явные решения в виде степенных рядов , несмотря на их нелинейность. ^[6]

Примеры

В качестве примера предположим, что у нас есть случайная величина и кумулятивная функция распределения. $U\sim \mathrm {Unif} (0,1)$

{\begin{aligned}F(x)=1-\exp(-{\sqrt {x}})\end{aligned}}

Чтобы выполнить инверсию, нам нужно найти

F(F^{-1}(u))=u

{\begin{aligned}F(F^{-1}(u))&=u\\1-\exp \left(-{\sqrt {F^{-1}(u)}}\ right)&=u\\F^{-1}(u)&=(-\log(1-u))^{2}\\&=(\log(1-u))^{2}\ конец {выровнено}}

Отсюда мы выполним шаги первый, второй и третий.

В качестве другого примера мы используем экспоненциальное распределение при x ≥ 0 (и 0 в противном случае). Решая y=F(x), мы получаем обратную функцию $F_{X}(x)=1-e^{-\lambda x}$

x=F^{-1}(y)=- {\frac {1}{\lambda }}\ln(1-y).

Это означает, что если мы возьмем некоторое значение из a и вычислим, оно будет иметь экспоненциальное распределение.

y_{0}

U\sim \mathrm {Unif} (0,1)

x_{0}=F_{X}^{-1}(y_{0})=- {\frac {1}{\lambda }}\ln(1-y_{0}),

x_{0}

Идея иллюстрируется следующим графиком:

Обратите внимание, что распределение не изменится, если мы начнем с 1-y вместо y. Поэтому для вычислительных целей достаточно сгенерировать случайные числа y в [0, 1], а затем просто вычислить

x=F^{-1}(y)=-{\frac {1}{\lambda }}\ln(y).

Доказательство правильности

Пусть – кумулятивная функция распределения , и пусть – ее обобщенная обратная функция (с использованием нижней границы , поскольку CDF слабо монотонны и непрерывны справа ): ^[7] $F$ $F^{-1}$

F^{-1}(u)=\inf \;\{x\mid F(x)\geq u\}\qquad (0<u<1).

Утверждение: если является однородной случайной величиной, то ее CDF является ее CDF. $U$ $[0,1]$ $F^{-1}(U)$ $F$

Доказательство:

{\begin{aligned}&\Pr(F^{-1}(U)\leq x)\\&{}=\Pr(U\leq F(x))\quad &(F{\text{ is right-continuous, so }}\{u:F^{-1}(u)\leq x\}=\{u:u\leq F(x)\})\\&{}=F(x)\quad &({\text{because }}\Pr(U\leq u)=u,{\text{ when }}U{\text{ is uniform on }}[0,1])\\\end{aligned}}

Усеченное распространение

Выборку с обратным преобразованием можно просто расширить на случаи усеченных распределений на интервале без затрат на отбраковку выборки: можно следовать тому же алгоритму, но вместо генерации случайного числа, равномерно распределенного между 0 и 1, генерировать равномерно распределенную между и , и потом снова возьми . $(a,b]$ $u$ $u$ $F(a)$ $F(b)$ $F^{-1}(u)$

Уменьшение количества инверсий

Чтобы получить большое количество выборок, необходимо выполнить такое же количество инверсий распределения. Одним из возможных способов уменьшить количество инверсий при получении большого количества выборок является применение так называемого сэмплера стохастической коллокации Монте-Карло (семплера SCMC) в рамках структуры полиномиального расширения хаоса. Это позволяет нам генерировать любое количество выборок Монте-Карло всего лишь с несколькими инверсиями исходного распределения с независимыми выборками переменной, для которой инверсии доступны аналитически, например, стандартной нормальной переменной. ^[8]

Смотрите также

Интегральное преобразование вероятности
Копула , определяемая посредством преобразования интеграла вероятности.
Функция квантиля для явного построения обратных CDF.
Обратная функция распределения для точного математического определения распределений с дискретными компонентами.