Модель урны Пойя

В статистике модель урн Полиа (также известная как схема урн Полиа или просто как урна Полиа ), названная в честь Джорджа Полиа , представляет собой семейство моделей урн , которые можно использовать для интерпретации многих часто используемых статистических моделей .

Модель представляет интересующие объекты (такие как атомы, люди, автомобили и т. д.) как цветные шары в урне . В базовой модели урны Пойя экспериментатор кладет x белых и y черных шаров в урну. На каждом шаге один шар вытаскивается из урны случайным образом и определяется его цвет; затем он возвращается в урну, а в урну добавляется дополнительный шар того же цвета.

Если по случайности в первых нескольких розыгрышах вытащатся больше черных шаров, чем белых, то вероятность того, что черных шаров будет вытащено больше позже, будет выше. Аналогично и для белых шаров. Таким образом, урна обладает самоусиливающимся свойством (« богатые становятся богаче »). Это противоположно выборке без замены , где каждый раз, когда наблюдается определенное значение, вероятность того, что оно будет наблюдаться снова, меньше, тогда как в модели урны Пойа наблюдаемое значение с большей вероятностью будет наблюдаться снова. В модели урны Пойа последовательные акты измерения с течением времени оказывают все меньшее и меньшее влияние на будущие измерения, тогда как в выборке без замены верно обратное: после определенного количества измерений определенного значения это значение больше никогда не будет наблюдаться.

Это также отличается от выборки с заменой, где шар возвращается в урну, но без добавления новых шаров. В этом случае нет ни самоусиления, ни антисамоусиления.

Основные результаты

Интерес представляют вопросы эволюции заполнения урн и последовательности цветов вынимаемых шаров.

После розыгрышей вероятность того, что урна содержит белые и черные шары (для ), равна , где черта сверху обозначает возрастающий факториал . Это можно доказать, нарисовав треугольник Паскаля всех возможных конфигураций. $n$ $(x+n_{1})$ $(y+n_{2})$ $0\leq n_{1},n_{2}\leq n\,\,,n_{1}+n_{2}=n$ ${\binom {n}{n_{1}}}{\frac {x^{{\bar {n}}_{1}}y^{{\bar {n}}_{2}} }{(x+y)^{\bar {n}}}}$

В частности, если начать с одного белого и одного черного шара (т.е. ), вероятность того, что после розыгрыша в урне окажется любое количество белых шаров, одинакова, . $х=у=1$ $1\leq n_{1}+1\leq n+1$ $n$ ${\frac {1}{n+1}}$

В более общем случае, если урна изначально содержит шары цвета , при этом , то после розыгрышей вероятность того, что урна содержит шары цвета , равна , где мы используем мультиномиальный коэффициент . $a_{i}$ $я$ $i=1,2,...,k$ $n$ $(a_{i}+n_{i})$ $я$ ${\binom {n}{n_{1},\cdots ,n_{k}}}{\frac {\prod _{i=1}^{k}a_{i}^{{\bar {n}}_{i}}}{(\sum _{i}a_{i})^{\bar {n}}}}$

При условии, что после розыгрышей в урне окажутся цветные шары , существуют различные траектории, которые могли бы привести к такому конечному состоянию. Условная вероятность каждой траектории одинакова: . $(a_{i}+n_{i})$ $я$ $n$ ${\binom {n}{n_{1},\cdots ,n_{k}}}$ ${\binom {n}{n_{1},\cdots ,n_{k}}}^{-1}$

Интерпретация

Одна из причин интереса к этой конкретной довольно сложной модели урны (т. е. с дублированием и последующей заменой каждого вытащенного шара) заключается в том, что она дает пример, в котором количество (первоначально x черных и y белых) шаров в урне не скрывается, что позволяет аппроксимировать правильное обновление субъективных вероятностей, соответствующих другому случаю, в котором исходное содержимое урны скрывается, в то время как проводится обычная выборка с заменой (без дублирования шаров Пойя). Из-за простой схемы «выборка с заменой» в этом втором случае содержимое урны теперь статично , но эта большая простота компенсируется предположением, что содержимое урны теперь неизвестно наблюдателю. Байесовский анализ неопределенности наблюдателя относительно начального содержимого урны может быть выполнен с использованием конкретного выбора (сопряженного) априорного распределения. В частности, предположим, что наблюдатель знает, что урна содержит только идентичные шары, каждый из которых окрашен либо в черный, либо в белый цвет, но он не знает абсолютного числа присутствующих шаров, ни пропорции каждого цвета. Предположим, что у него есть априорные убеждения относительно этих неизвестных: для него распределение вероятностей содержимого урны хорошо аппроксимируется некоторым априорным распределением для общего числа шаров в урне и априорным бета-распределением с параметрами (x,y) для начальной доли тех, которые являются черными, причем эта пропорция (для него) считается приблизительно независимой от общего числа. Тогда процесс результатов последовательности извлечений из урны (с заменой, но без дублирования) имеет примерно тот же закон вероятности, что и вышеприведенная схема Пойа, в которой фактическое содержимое урны не было скрыто от него. Ошибка аппроксимации здесь связана с тем фактом, что урна, содержащая известное конечное число m шаров, конечно, не может иметь точно бета-распределенную неизвестную пропорцию черных шаров, поскольку область возможных значений для этой пропорции ограничена кратностью , а не имеет полной свободы принимать любое значение в непрерывном единичном интервале, как это было бы в случае точно бета-распределенной пропорции. Этот немного неформальный отчет предоставляется по причине мотивации и может быть сделан более математически точным. $1/m$

Эта базовая модель урны Пойя была обобщена во многих отношениях.

Распределения, связанные с урной Пойя

бета-биномиальное распределение : распределение числа успешных извлечений (попыток), например, числа извлечений белого шара, при данных извлечениях из урны Пойя. $n$
Бета-отрицательное биномиальное распределение : распределение количества наблюдаемых белых шаров до тех пор, пока не будет обнаружено фиксированное количество черных шаров.
Распределение Дирихле-полиномиальное (также известное как многомерное распределение Пойа ): распределение по количеству шаров каждого цвета, взятых из урны Пойа, в которой находятся шары разных цветов, а не только двух. $n$ $k$
Отрицательное мультиномиальное распределение Дирихле : распределение по числу шаров каждого цвета до тех пор, пока не будет обнаружено фиксированное число остановившихся цветных шаров.
Мартингалы , бета-биномиальное распределение и бета-распределение : Пусть w и b — число белых и черных шаров в урне изначально, а также число белых шаров в урне в настоящее время после n розыгрышей. Тогда последовательность значений для — это нормализованная версия бета -биномиального распределения . Это мартингал , который сходится к бета-распределению при n → ∞. $w+n_{w}$ ${\frac {w+n_{w}}{w+b+n}}$ $n=1,2,3,\dots$
Процесс Дирихле , процесс китайского ресторана , урна Хоппе : Представьте себе модифицированную схему урны Полиа следующим образом. Мы начинаем с урны с черными шарами. При вытягивании шара из урны, если мы вытаскиваем черный шар, кладем шар обратно вместе с новым шаром нового нечерного цвета, случайно сгенерированным из равномерного распределения по бесконечному набору доступных цветов, и считаем вновь сгенерированный цвет «значением» розыгрыша. В противном случае кладем шар обратно вместе с другим шаром того же цвета, как для стандартной схемы урны Полиа. Цвета бесконечной последовательности розыгрышей из этой модифицированной схемы урны Полиа следуют процессу китайского ресторана . Если вместо генерации нового цвета мы вытягиваем случайное значение из заданного базового распределения и используем это значение для маркировки шара, метки бесконечной последовательности розыгрышей следуют процессу Дирихле . ^[1] $\alpha$
Модель Морана : модель урны, используемая для моделирования генетического дрейфа в теоретической популяционной генетике . Она очень похожа на модель урны Пойа, за исключением того, что в дополнение к добавлению нового шара того же цвета из урны извлекается случайно выбранный шар. Таким образом, количество шаров в урне остается постоянным. Затем непрерывная выборка в конечном итоге приводит к урне со всеми шарами одного цвета, причем вероятность каждого цвета является долей этого цвета в исходной урне. Существуют варианты модели Морана, которые настаивают на том, чтобы шар, извлекаемый из урны, отличался от шара, изначально отобранного на этом этапе, и варианты, которые извлекают шар сразу после того, как новый шар помещается в урну, так что новый шар является одним из шаров, доступных для извлечения. Это вносит небольшую разницу во время, необходимое для достижения состояния, в котором все шары имеют один цвет. Процесс Морана моделирует генетический дрейф в популяции с перекрывающимися поколениями.

Взаимозаменяемость

Урна Полии — типичный пример обменного процесса .

Предположим, у нас есть урна, содержащая белые и черные шары. Мы начинаем вытаскивать шары из урны случайным образом. На -м вытягивании мы определяем случайную величину, , по , если шар черный, и в противном случае. Затем мы возвращаем шар в урну с дополнительным шаром того же цвета. Для заданного , если у нас есть это для многих , то более вероятно, что , поскольку в урну было добавлено больше черных шаров. Следовательно, эти переменные не являются независимыми друг от друга. $\gamma$ $\alpha$ $i$ $X_{i}$ $X_{i}=1$ $X_{i}=0$ $i$ $X_{j}=1$ $j<i$ $X_{i}=1$

Однако последовательность проявляет более слабое свойство взаимозаменяемости. ^[2] Напомним, что (конечная или бесконечная) последовательность случайных величин называется взаимозаменяемой, если ее совместное распределение инвариантно относительно перестановок индексов. $X_{1},X_{2},X_{3},\dots$

Чтобы показать взаимозаменяемость последовательности , предположим, что из урны вынимаются шары, и среди них есть черные и белые. При первом извлечении количество шаров в урне равно ; при втором извлечении оно равно и так далее. При -ом извлечении количество шаров будет равно . Вероятность того, что сначала будут вынуты все черные шары, а затем все белые шары, определяется по формуле $X_{1},X_{2},X_{3},\dots$ $n$ $n$ $k$ $n-k$ $\gamma +\alpha$ $\gamma +\alpha +1$ $i$ $\gamma +\alpha +i-1$ $k$ $n-k$

$\mathbb {P} \left(X_{1}=1,\dots ,X_{k}=1,X_{k+1}=0,\dots ,X_{n}=0\right)$ $={\frac {\alpha }{\gamma +\alpha }}\times {\frac {\alpha +1}{\gamma +\alpha +1}}\times \cdots \times {\frac {\alpha +k-1}{\gamma +\alpha +k-1}}\times {\frac {\gamma }{\gamma +\alpha +k}}\times {\frac {\gamma +1}{\gamma +\alpha +k+1}}\times \cdots \times {\frac {\gamma +n-k-1}{\gamma +\alpha +n-1}}$

Теперь мы должны показать, что если порядок черных и белых шаров переставить, вероятность не изменится. Как и в выражении выше, даже после перестановки розыгрышей знаменатель th всегда будет , поскольку это количество шаров в урне в этом раунде. $i$ $\gamma +\alpha +i-1$

Если мы увидим -й черный шар в раунде , вероятность будет равна , т.е. числитель будет равен . С тем же аргументом мы можем вычислить вероятность для белых шаров. Таким образом, для любой последовательности , в которой встречается раз и встречается раз (т.е. последовательности с черными шарами и белыми шарами, вытащенными в некотором порядке), окончательная вероятность будет равна следующему выражению, где мы воспользовались коммутативностью умножения в числителе: Эта вероятность не связана с порядком появления черных и белых шаров и зависит только от общего количества белых шаров и общего количества черных шаров. ^[2] $j$ $t$ $X_{t}=1$ ${\frac {\alpha +j-1}{\gamma +\alpha +t-1}}$ $\alpha +j-1$ $x_{1},x_{2},x_{3},\dots$ $1$ $k$ $0$ $n-k$ $k$ $n-k$ ${\begin{aligned}\mathbb {P} (X_{1}=x_{1},X_{2}=x_{2},...,X_{n}=x_{n})&={\frac {\prod _{i=1}^{k}\left(\alpha +i-1\right)\times \prod _{i=1}^{n-k}\left(\gamma +i-1\right)}{\prod _{i=1}^{n}\left(\gamma +\alpha +i-1\right)}}\\&={\frac {\left(\alpha +k-1\right)!\times \left(\gamma +n-k-1\right)!\times \left(\alpha +\gamma -1\right)!}{\left(\alpha -1\right)!\times \left(\gamma -1\right)!\left(\alpha +\gamma +n-1\right)!}}\end{aligned}}$

Согласно теореме Де Финетти , должно существовать уникальное априорное распределение, такое, что совместное распределение наблюдения последовательности является байесовской смесью вероятностей Бернулли. Можно показать, что это априорное распределение является бета-распределением с параметрами . В теореме Де Финетти, если мы заменим на , то получим предыдущее уравнение: ^[2] В этом уравнении . $\beta \left(\cdot ;\,\alpha ,\,\gamma \right)$ $\pi (\cdot )$ $\beta \left(\cdot ;\,\alpha ,\,\gamma \right)$ ${\begin{aligned}p(X_{1}=x_{1},X_{2}=x_{2},...,X_{n}=x_{n})&=\int \theta ^{\left({\sum _{i=1}^{n}x_{i}}\right)}\times \left(1-\theta \right)^{\left(n-{\sum _{i=1}^{n}x_{i}}\right)}\,\beta \left(\theta ;\alpha ,\,\gamma \right)d\left(\theta \right)\\&=\int \theta ^{\left({\sum _{i=1}^{n}x_{i}}\right)}\times \left(1-\theta \right)^{\left(n-{\sum _{i=1}^{n}x_{i}}\right)}\,{\dfrac {(\alpha +\gamma -1)!}{(\alpha -1)!\,(\gamma -1)!}}\theta ^{\alpha -1}(1-\theta )^{\gamma -1}d\left(\theta \right)\\&=\int \theta ^{\left({\alpha -1+\sum _{i=1}^{n}x_{i}}\right)}\times \left(1-\theta \right)^{\left(n+\gamma -1-{\sum _{i=1}^{n}x_{i}}\right)}\,{\dfrac {(\alpha +\gamma -1)!}{(\alpha -1)!\,(\gamma -1)!}}d\left(\theta \right)\\&=\int \theta ^{\left({\alpha +k-1}\right)}\times \left(1-\theta \right)^{\left(n-k-1+\gamma \right)}\,{\dfrac {(\alpha +\gamma -1)!}{(\alpha -1)!\,(\gamma -1)!}}d\left(\theta \right)\\&={\dfrac {(\alpha +\gamma -1)!}{(\alpha -1)!\,(\gamma -1)!}}\int \theta ^{\left({\alpha +k-1}\right)}\times \left(1-\theta \right)^{\left(n-k+\gamma -1\right)}\,d\left(\theta \right)\\&={\dfrac {(\alpha +\gamma -1)!}{(\alpha -1)!\,(\gamma -1)!}}{\dfrac {\Gamma (\gamma +n-k)\Gamma (\alpha +k)}{\Gamma (\alpha +\gamma +n)}}\\&={\dfrac {\left(\alpha +k-1\right)!\times \left(\gamma +n-k-1\right)!\times \left(\alpha +\gamma -1\right)!}{\left(\alpha -1\right)!\times \left(\gamma -1\right)!\left(\alpha +\gamma +n-1\right)!}}\end{aligned}}$ $k=\sum _{i=1}^{n}x_{i}$

Смотрите также

Ссылки

^ Хоппе, Фред (1984). «Подобные Полиа урны и формула выборки Эвенса». Журнал математической биологии . 20 : 91. doi : 10.1007/BF00275863. hdl : 2027.42/46944 . S2CID 122994288.
^ abc Hoppe, Fred M (1984). «Полиаподобные урны и формула выборки Юэнса». Журнал математической биологии . 20 (1): 91–94. doi : 10.1007/bf00275863. hdl : 2027.42/46944 . ISSN 0303-6812. S2CID 122994288.^{[ мертвая ссылка ]}

Дальнейшее чтение

Эггенбергер, Ф.; Поля, Г. (1923). «Über die Statistik verketetteter Vorgänge». З. Энджью. Математика. Мех . 3 (4): 2379–289. дои : 10.1002/zamm.19230030407.
Аладжаджи, Ф.; Фуджа, Т. (1994). «Канал связи, смоделированный на основе заражения». Труды IEEE по теории информации . 40 : 2035–2041. doi : 10.1109/18.340476. hdl : 1903/5422 .
Баннерджи, А.; Бурлина, П.; Аладжаджи, Ф. (1999). «Сегментация и маркировка изображений с использованием модели урн Полиа». Труды IEEE по обработке изображений . 8 (9): 1243–1253. doi :10.1109/83.784436.

Библиография

Н. Л. Джонсон и С. Котц, (1977) «Модели урн и их применение». Джон Уайли.
Хосам Махмуд, (2008) «Модели урн Полиа». Chapman and Hall/CRC. ISBN 978-1420059830 .