Полиномиальное распределение

В теории вероятностей полиномиальное распределение является обобщением биномиального распределения . Например, он моделирует вероятность выпадения очков для каждой стороны k -сторонней игральной кости, брошенной n раз. Для n независимых испытаний, каждое из которых приводит к успеху ровно одной из k категорий, причем каждая категория имеет заданную фиксированную вероятность успеха, полиномиальное распределение дает вероятность любой конкретной комбинации чисел успехов для различных категорий.

Когда k равно 2, а n равно 1, полиномиальное распределение является распределением Бернулли . Когда k равно 2, а n больше 1, это биномиальное распределение . Когда k больше 2 и n равно 1, это категориальное распределение . Термин «мультинолли» иногда используется для категориального распределения, чтобы подчеркнуть эту четырехстороннюю связь (так n определяет суффикс, а k - префикс).

Распределение Бернулли моделирует результат одного испытания Бернулли . Другими словами, он моделирует, приведет ли подбрасывание монеты (возможно, необъективной ) один раз к успеху (получение орла) или неудаче (получение решки). Биномиальное распределение обобщает это на количество решек в результате выполнения n независимых подбросов (испытаний Бернулли) одной и той же монеты. Полиномиальное распределение моделирует результат n экспериментов, где результат каждого испытания имеет категориальное распределение , например, бросок k -сторонней игральной кости n раз.

Пусть k — фиксированное конечное число. Математически у нас есть k возможных взаимоисключающих результатов с соответствующими вероятностями p ₁ , ..., p _k и n независимых испытаний. Поскольку k исходов являются взаимоисключающими и один из них должен произойти, мы имеем p _i ≥ 0 для i = 1, ..., k и . Тогда, если случайные величины X _i указывают, сколько раз результат номер i наблюдался в n испытаниях, вектор X = ( X ₁ , ..., X _k ) следует полиномиальному распределению с параметрами n и p , где p = ( п ₁ , ..., п _к ). Хотя испытания независимы, их результаты X _i зависимы, поскольку их необходимо просуммировать до n. $\sum _{i=1}^{k}p_{i}=1$

Определения

Функция массы вероятности

Предположим, кто-то проводит эксперимент по извлечению из мешка n шаров k разных цветов, заменяя извлеченные шары после каждого розыгрыша. Шары одного цвета эквивалентны. Обозначим переменную, которая представляет собой количество извлеченных шаров цвета i ( i = 1, ..., k ), как X _i , и обозначим как _pi вероятность того, что данное извлечение будет цвета i . Функция массы вероятности этого полиномиального распределения:

{\begin{aligned}f(x_{1},\ldots ,x_{k};n,p_{1},\ldots ,p_{k})&{}=\Pr(X_{1}=x_{1}{\text{ and }}\dots {\text{ and }}X_{k}=x_{k})\\&{}={\begin{cases}{\displaystyle {n! \over x_{1}!\cdots x_{k}!}p_{1}^{x_{1}}\times \cdots \times p_{k}^{x_{k}}},\quad &{\text{when }}\sum _{i=1}^{k}x_{i}=n\\\\0&{\text{otherwise,}}\end{cases}}\end{aligned}}

для неотрицательных целых чисел x ₁ , ..., x _k .

Массовую функцию вероятности можно выразить с помощью гамма-функции как:

f(x_{1},\dots ,x_{k};p_{1},\ldots ,p_{k})={\frac {\Gamma (\sum _{i}x_{i}+1)}{\prod _{i}\Gamma (x_{i}+1)}}\prod _{i=1}^{k}p_{i}^{x_{i}}.

Эта форма показывает свое сходство с распределением Дирихле , которое является его сопряженным априором .

Пример

Предположим, что на трехсторонних выборах в большой стране кандидат А получил 20% голосов, кандидат Б — 30% голосов, а кандидат С — 50% голосов. Если шесть избирателей выбраны случайным образом, какова вероятность того, что в выборке окажется ровно один сторонник кандидата А, два сторонника кандидата В и три сторонника кандидата С?

Примечание. Поскольку мы предполагаем, что голосующее население велико, разумно и допустимо считать вероятности неизменными после того, как избиратель выбран для выборки. Технически говоря, это выборка без замещения, поэтому правильным распределением является многомерное гипергеометрическое распределение , но распределения сходятся по мере того, как популяция становится больше по сравнению с фиксированным размером выборки ^[1].

\Pr(A=1,B=2,C=3)={\frac {6!}{1!2!3!}}(0.2^{1})(0.3^{2})(0.5^{3})=0.135

Характеристики

Ожидаемое значение и дисперсия

Ожидаемое количество раз , когда результат i наблюдался в n испытаниях, равно

\operatorname {E} (X_{i})=np_{i}.\,

Ковариационная матрица выглядит следующим образом. Каждый диагональный элемент представляет собой дисперсию биномиально распределенной случайной величины и, следовательно,

\operatorname {Var} (X_{i})=np_{i}(1-p_{i}).\,

Внедиагональные записи представляют собой ковариации :

\operatorname {Cov} (X_{i},X_{j})=-np_{i}p_{j}\,

для i , j различны.

Все ковариации отрицательны, поскольку при фиксированном n увеличение одного компонента полиномиального вектора требует уменьшения другого компонента.

Когда эти выражения объединяются в матрицу с элементами i , j, результатом является положительно-полуопределенная ковариационная матрица размера k × k ранга k - 1. В особом случае, когда k = n и все p _i равны, ковариация матрица – это центрирующая матрица . $\operatorname {cov} (X_{i},X_{j}),$

Элементы соответствующей корреляционной матрицы :

\rho (X_{i},X_{i})=1.

\rho (X_{i},X_{j})={\frac {\operatorname {Cov} (X_{i},X_{j})}{\sqrt {\operatorname {Var} (X_{i})\operatorname {Var} (X_{j})}}}={\frac {-p_{i}p_{j}}{\sqrt {p_{i}(1-p_{i})p_{j}(1-p_{j})}}}=-{\sqrt {\frac {p_{i}p_{j}}{(1-p_{i})(1-p_{j})}}}.

Обратите внимание, что количество испытаний n не входит в это выражение.

Каждый из k компонентов в _{отдельности} имеет биномиальное распределение с параметрами n и pi для соответствующего значения индекса i .

Носителем полиномиального распределения является множество

\{(n_{1},\dots ,n_{k})\in \mathbb {N} ^{k}\mid n_{1}+\cdots +n_{k}=n\}.\,

Число его элементов равно

{n+k-1 \choose k-1}.

Матричное обозначение

В матричной записи

\operatorname {E} (\mathbf {X} )=n\mathbf {p} ,\,

\operatorname {Var} (\mathbf {X} )=n\lbrace \operatorname {diag} (\mathbf {p} )-\mathbf {p} \mathbf {p} ^{\rm {T}}\rbrace ,\,

где $p T$ = вектор-строка, транспонированная вектор-столбцу $p$ .

Визуализация

Как срезы обобщенного треугольника Паскаля.

Точно так же, как можно интерпретировать биномиальное распределение как (нормализованные) одномерные (1D) срезы треугольника Паскаля , так же можно интерпретировать полиномиальное распределение как 2D (треугольные) срезы пирамиды Паскаля или 3D/4D/+ (пирамидально- образные) срезы многомерных аналогов треугольника Паскаля. Это открывает интерпретацию диапазона распределения : дискретизированные равносторонние «пирамиды» в произвольном измерении, то есть симплекс с сеткой. ^{[ нужна цитата ]}

В качестве полиномиальных коэффициентов

Точно так же, как можно интерпретировать биномиальное распределение как полиномиальные коэффициенты при расширении, можно интерпретировать полиномиальное распределение как коэффициенты при расширении, отметив, что сумма только коэффициентов должна составлять 1. $(p+q)^{n}$ $(p_{1}+p_{2}+p_{3}+\cdots +p_{k})^{n}$

Теория больших отклонений

Асимптотика

По формуле Стирлинга в пределе имеем $N,x_{1},...,x_{n}\to \infty$

\ln {\binom {N}{x_{1},\cdots x_{n}}}+\sum _{i=1}^{n}x_{i}\ln p_{i}=-ND_{KL}({\hat {p}}\|p)-{\frac {n-1}{2}}\ln(2\pi N)-{\frac {1}{2}}\sum _{i=1}^{n}\ln({\hat {p}}_{i})+o(1)

расхождение Кульбака – Лейблера

{\hat {p}}_{i}=x_{i}/N

{\hat {p}}

D_{KL}

Эту формулу можно интерпретировать следующим образом.

Рассмотрим пространство всех возможных распределений по категориям . Это симплекс . После независимых выборок из категориального распределения (именно так мы строим полиномиальное распределение) мы получаем эмпирическое распределение . $\Delta _{n}$ $\{1,2,...,n\}$ $N$ $p$ ${\hat {p}}$

По асимптотической формуле вероятность отклонения эмпирического распределения от фактического распределения убывает экспоненциально со скоростью . Чем больше экспериментов и чем больше отличается от , тем меньше вероятность увидеть такое эмпирическое распределение. ${\hat {p}}$ $p$ $ND_{KL}({\hat {p}}\|p)$ ${\hat {p}}$ $p$

Если — замкнутое подмножество , то, разделив на части и рассуждая о скорости роста на каждой части , мы получаем теорему Санова , которая утверждает, что $A$ $\Delta _{n}$ $A$ $Pr({\hat {p}}\in A_{\epsilon })$ $A_{\epsilon }$

\lim _{N\to \infty }{\frac {1}{N}}\ln Pr({\hat {p}}\in A)=-\inf _{{\hat {p}}\in A}D_{KL}({\hat {p}}\|p)

Концентрация в целом N

Из-за экспоненциального затухания при больших почти вся вероятностная масса концентрируется в малой окрестности . В этой небольшой окрестности мы можем взять первый ненулевой член в разложении Тейлора , чтобы получить $N$ $p$ $D_{KL}$

\ln {\binom {N}{x_{1},\cdots x_{n}}}p_{1}^{x_{1}}\cdots p_{n}^{x_{n}}\approx -{\frac {N}{2}}\sum _{i}{\frac {({\hat {p}}_{i}-p_{i})^{2}}{p_{i}}}=-{\frac {1}{2}}\sum _{i}{\frac {(x_{i}-Np_{i})^{2}}{Np_{i}}}

Теорема. В пределе сходится по распределению к распределению хи-квадрат . $N\to \infty$ $N\sum _{i}{\frac {({\hat {p}}_{i}-p_{i})^{2}}{p_{i}}}=\sum _{i}{\frac {(x_{i}-Np_{i})^{2}}{Np_{i}}}$ $\chi ^{2}(n-1)$

Если мы произведем выборку из полиномиального распределения и построим тепловую карту выборок в пределах 2-мерного симплекса (здесь показано в виде черного треугольника), мы заметим, что при , распределение сходится к гауссову вокруг точки с контурами, сходящимися в форму эллипса с радиусами, сходящимися как . Между тем, расстояние между дискретными точками сходится при , и поэтому дискретное полиномиальное распределение сходится к непрерывному гауссову распределению.

\mathrm {Multinomial} (N;0.2,0.3,0.5)

N\to \infty

(0.2,0.3,0.5)

1/{\sqrt {N}}

1/N

Доказательство. Пространство всех распределений по категориям представляет собой симплекс : , а множество всех возможных эмпирических распределений после экспериментов является подмножеством симплекса: . То есть это пересечение между и решетка . $\{1,2,\ldots ,n\}$ $\Delta _{n}=\left\{(y_{1},\ldots ,y_{n})\colon y_{1},\ldots ,y_{n}\geq 0,\sum _{i}y_{i}=1\right\}$ $N$ $\Delta _{n,N}=\left\{(x_{1}/N,\ldots ,x_{n}/N)\colon x_{1},\ldots ,x_{n}\in \mathbb {N} ,\sum _{i}x_{i}=N\right\}$ $\Delta _{n}$ $(\mathbb {Z} ^{n})/N$

По мере увеличения большая часть вероятностной массы концентрируется в подмножестве close и распределение вероятностей close становится хорошо аппроксимируемым $N$ $\Delta _{n,N}$ $p$ $p$

{\binom {N}{x_{1},\cdots x_{n}}}p_{1}^{x_{1}}\cdots p_{n}^{x_{n}}\approx e^{-{\frac {N}{2}}\sum _{i}{\frac {({\hat {p}}_{i}-p_{i})^{2}}{p_{i}}}}

1/{\sqrt {N}}

1/N

N

\Delta _{n,N}

\Delta _{n}

\rho ({\hat {p}})=Ce^{-{\frac {N}{2}}\sum _{i}{\frac {({\hat {p}}_{i}-p_{i})^{2}}{p_{i}}}}

C

Наконец, поскольку симплекс находится не весь из , а только внутри -мерной плоскости, мы получаем искомый результат. $\Delta _{n}$ $\mathbb {R} ^{n}$ $(n-1)$

Условная концентрация при больших N

Вышеописанное явление концентрации можно легко обобщить на случай, когда мы ставим условия на линейные ограничения. Это теоретическое обоснование критерия хи-квадрат Пирсона .

Теорема. Учитывая частоты , наблюдаемые в наборе данных с точками, мы налагаем независимые линейные ограничения. $x_{i}\in \mathbb {N}$ $N$ $k+1$

{\begin{cases}\sum _{i}{\hat {p}}_{i}=1,\\\sum _{i}a_{1i}{\hat {p}}_{i}=b_{1},\\\sum _{i}a_{2i}{\hat {p}}_{i}=b_{2},\\\cdots ,\\\sum _{i}a_{ki}{\hat {p}}_{i}=b_{k}\end{cases}}

обусловленногосходится по распределению распределению хи-квадрат

{\hat {p}}_{i}=x_{i}/N

q

I

p

N\to \infty

N{\hat {p}}_{i}

2ND_{KL}({\hat {p}}\vert \vert q)\approx N\sum _{i}{\frac {({\hat {p}}_{i}-q_{i})^{2}}{q_{i}}}

\chi ^{2}(n-1-k)

Доказательство. Аналогичное доказательство применяется в этой диофантовой задаче о связанных линейных уравнениях со счетными переменными ^[2] , но на этот раз это пересечение гиперплоскостей с и , все они линейно независимы, поэтому плотность вероятности ограничена -мерной плоскостью. В частности, расширение дивергенции KL вокруг ее минимума ( -проекции on ) в ограниченной задаче гарантирует, согласно теореме Пифагора для -дивергенции, что любой постоянный и линейный член в подсчетах исчезает из условной вероятности для многонациональной выборки этих подсчетов. $N{\hat {p}}_{i}$ $\Delta _{n,N}$ $(\mathbb {Z} ^{n})/N$ $\Delta _{n}$ $k$ $\rho ({\hat {p}})$ $(n-k-1)$ $D_{KL}({\hat {p}}\vert \vert p)$ $q$ $I$ $p$ $\Delta _{n,N}$ $I$ $N{\hat {p}}_{i}$

Обратите внимание, что по определению каждое из должно быть рациональным числом, тогда как может быть выбрано из любого действительного числа и не обязательно удовлетворять диофантовой системе уравнений. Только асимптотически , поскольку , можно рассматривать как вероятности более . Вдали от эмпирически наблюдаемых ограничений (таких как моменты или преобладания) теорему можно обобщить: ${\hat {p}}_{1},{\hat {p}}_{2},...,{\hat {p}}_{n}$ $p_{1},p_{2},...,p_{n}$ $[0,1]$ $N\rightarrow \infty$ ${\hat {p}}_{i}$ $[0,1]$ $b_{1},\ldots ,b_{k}$

Теорема.

Даны функции , такие, что они непрерывно дифференцируемы в окрестности , а векторы линейно независимы; $f_{1},...,f_{k}$ $p$ $(1,1,...,1),\nabla f_{1}(p),...,\nabla f_{k}(p)$
заданы последовательности , такие что асимптотически для каждой ; $\epsilon _{1}(N),...,\epsilon _{n}(N)$ ${\frac {1}{N}}\ll \epsilon _{k}(N)\ll {\frac {1}{\sqrt {N}}}$ $k\in \{1,...,n\}$
тогда для полиномиального распределения, обусловленного ограничениями , мы имеем величину , сходящуюся по распределению к пределу . $f_{1}({\hat {p}})\in [f_{1}(p)-\epsilon _{1}(N),f_{1}(p)+\epsilon _{1}(N)],...,f_{n}({\hat {p}})\in [f_{n}(p)-\epsilon _{n}(N),f_{n}(p)+\epsilon _{n}(N)]$ $N\sum _{i}{\frac {({\hat {p}}_{i}-p_{i})^{2}}{p_{i}}}=\sum _{i}{\frac {(x_{i}-Np_{i})^{2}}{Np_{i}}}$ $\chi ^{2}(n-1-k)$ $N\to \infty$

В случае, когда все равны, теорема сводится к концентрации энтропии вокруг максимальной энтропии. ^[3]^[4] ${\hat {p}}_{i}$

Связанные дистрибутивы

В некоторых областях, таких как обработка естественного языка , категориальные и полиномиальные распределения являются синонимами, и принято говорить о полиномиальном распределении, когда на самом деле имеется в виду категориальное распределение . Это связано с тем, что иногда удобно выразить результат категориального распределения как вектор «1 из K» (вектор, в котором один элемент содержит 1, а все остальные элементы содержат 0), а не как целое число. В диапазоне ; в этой форме категориальное распределение эквивалентно полиномиальному распределению по одному испытанию. $1\dots K$

Когда k = 2, полиномиальное распределение является биномиальным распределением .
Категориальное распределение , распределение каждого испытания; для k = 2 это распределение Бернулли .
Распределение Дирихле является априорным выражением многочлена в байесовской статистике .
Дирихле-мультиномиальное распределение .
Бета-биномиальное распределение .
Отрицательное полиномиальное распределение
Принцип Харди – Вайнберга (это триномиальное распределение с вероятностями ) $(\theta ^{2},2\theta (1-\theta ),(1-\theta )^{2})$

Статистические выводы

Тесты эквивалентности для полиномиальных распределений

Целью проверки эквивалентности является установление соответствия между теоретическим полиномиальным распределением и наблюдаемыми частотами счета. Теоретическое распределение может быть полностью заданным полиномиальным распределением или параметрическим семейством полиномиальных распределений.

Пусть обозначает теоретическое полиномиальное распределение и пусть это истинное базовое распределение. Распределения и считаются эквивалентными, если для расстояния и параметра допуска . Проблема проверки эквивалентности заключается в сравнении . Истинное основное распределение неизвестно. Вместо этого наблюдаются частоты счета , где – размер выборки. Тест на эквивалентность используется для отклонения . Если можно отклонить, то эквивалентность между и отображается на данном уровне значимости. Критерий эквивалентности евклидова расстояния можно найти в учебнике Веллека (2010). ^[5] Тест эквивалентности для общего вариационного расстояния разработан Островским (2017). ^[6] Точный тест эквивалентности для конкретного совокупного расстояния предложен Фреем (2009). ^[7] $q$ $p$ $p$ $q$ $d(p,q)<\varepsilon$ $d$ $\varepsilon >0$ $H_{0}=\{d(p,q)\geq \varepsilon \}$ $H_{1}=\{d(p,q)<\varepsilon \}$ $p$ $p_{n}$ $n$ $p_{n}$ $H_{0}$ $H_{0}$ $p$ $q$

Расстояние между истинным базовым распределением и семейством полиномиальных распределений определяется как . Тогда задача проверки эквивалентности определяется как и . Расстояние обычно вычисляется с помощью численной оптимизации. Тесты для этого случая недавно разработаны Островским (2018). ^[8] $p$ ${\mathcal {M}}$ $d(p,{\mathcal {M}})=\min _{h\in {\mathcal {M}}}d(p,h)$ $H_{0}=\{d(p,{\mathcal {M}})\geq \varepsilon \}$ $H_{1}=\{d(p,{\mathcal {M}})<\varepsilon \}$ $d(p,{\mathcal {M}})$

Генерация случайной переменной

Во-первых, измените порядок параметров так, чтобы они были отсортированы по убыванию (это сделано только для ускорения вычислений и не является строго необходимым). Теперь для каждого испытания нарисуйте вспомогательную переменную X из равномерного (0, 1) распределения. Результирующим результатом является компонент $p_{1},\ldots ,p_{k}$

j=\min \left\{j'\in \{1,\dots ,k\}\colon \left(\sum _{i=1}^{j'}p_{i}\right)-X\geq 0\right\}.

{ X _j = 1, X _k = 0 для k ≠ j } — это одно наблюдение из полиномиального распределения с и n = 1. Сумма независимых повторений этого эксперимента представляет собой наблюдение из полиномиального распределения с n , равным числу такие повторы. $p_{1},\ldots ,p_{k}$

Выборка с использованием повторяющихся условных биномиальных выборок

Учитывая параметры и общее количество выборки, такое , что можно последовательно производить выборку для числа в произвольном состоянии , разделяя пространство состояний на и не- , при условии, что любые предыдущие выборки, уже взятые, неоднократно. $p_{1},p_{2},\ldots ,p_{k}$ $N$ $\sum _{i=1}^{k}X_{i}=N$ $X_{i}$ $i$ $i$

Алгоритм: Последовательная условная биномиальная выборка.

S = N rho = 1 для i в [ 1 ,k-1 ] : если rho ! = 0 : X [ i ] ~ Binom ( S,p [ i ] /rho ) else X [ i ] = 0 S = S - X [ i ] rho = rho - p [ i ]
X [ k ] = S

С эвристической точки зрения каждое применение биномиальной выборки уменьшает доступное число для выборки, а условные вероятности также обновляются для обеспечения логической согласованности. ^[9]