Категориальное распределение

В теории вероятностей и статистике категориальное распределение (также называемое обобщенным распределением Бернулли , распределением Мультинулли ^[1] ) — это дискретное распределение вероятностей , которое описывает возможные результаты случайной величины, которая может принимать одну из K возможных категорий, с вероятностью каждой категории указывается отдельно. Не существует изначального порядка этих результатов, но для удобства описания распределения часто прикрепляются числовые метки (например, от 1 до K ). K - мерное категориальное распределение является наиболее общим распределением K -мерного события; любое другое дискретное распределение в выборочном пространстве размера K является особым случаем. Параметры, определяющие вероятности каждого возможного результата, ограничены только тем фактом, что каждый из них должен находиться в диапазоне от 0 до 1, а сумма всех результатов должна быть равна 1.

Категориальное распределение является обобщением распределения Бернулли для категориальной случайной величины, т.е. для дискретной переменной с более чем двумя возможными результатами, например, броском игральной кости . С другой стороны, категориальное распределение является частным случаем полиномиального распределения , поскольку оно дает вероятности потенциальных результатов одного рисунка, а не нескольких рисунков.

Терминология

Иногда категориальное распределение называют «дискретным распределением». Однако это, собственно, относится не к одному конкретному семейству распределений, а к общему классу распределений .

В некоторых областях, таких как машинное обучение и обработка естественного языка , категориальное и полиномиальное распределения объединяются, и принято говорить о «мультиномиальном распределении», тогда как «категорическое распределение» было бы более точным. ^[2] Такое неточное использование связано с тем, что иногда удобно выразить результат категориального распределения как вектор «1 из K » (вектор, в котором один элемент содержит 1, а все остальные элементы содержат 0). а не как целое число в диапазоне от 1 до K ; в этой форме категориальное распределение эквивалентно полиномиальному распределению для одного наблюдения (см. ниже).

Однако объединение категориального и полиномиального распределений может привести к проблемам. Например, в мультиномиальном распределении Дирихле , которое обычно возникает в моделях обработки естественного языка (хотя обычно не имеет такого названия) в результате свернутой выборки Гиббса, когда распределения Дирихле схлопываются из иерархической байесовской модели , очень важно отличать категориальное от многочленного. Совместное распределение одних и тех же переменных с одним и тем же мультиномиальным распределением Дирихле имеет две разные формы в зависимости от того, характеризуется ли оно как распределение, областью действия которого являются отдельные категориальные узлы или полиномиальное количество узлов в каждой конкретной категории (аналогично различие между набором узлов с распределением Бернулли и одним узлом с биномиальным распределением ). Обе формы имеют очень похожие функции вероятностной массы (PMF), которые обе относятся к подсчету узлов в категории в полиномиальном стиле. Однако PMF полиномиального стиля имеет дополнительный коэффициент, полиномиальный коэффициент , который является константой, равной 1 в PMF категориального стиля. Путаница этих двух факторов может легко привести к неправильным результатам в условиях, когда этот дополнительный фактор не является постоянным по отношению к интересующим распределениям. Коэффициент часто является постоянным в полных условных выражениях, используемых в выборке Гиббса, и в оптимальных распределениях в вариационных методах .

Формулирование распределений

Категориальное распределение — это дискретное распределение вероятностей , выборочное пространство которого представляет собой набор из k индивидуально идентифицированных элементов. Это обобщение распределения Бернулли для категориальной случайной величины.

В одной из формулировок распределения выборочное пространство рассматривается как конечная последовательность целых чисел. Точные целые числа, используемые в качестве меток, не имеют значения; они могут быть {0, 1, ..., k - 1} или {1, 2, ..., k } или любым другим произвольным набором значений. В следующих описаниях мы используем {1, 2, ..., k } для удобства, хотя это противоречит соглашению о распределении Бернулли , которое использует {0, 1}. В этом случае функция массы вероятности f равна:

f(x=i\mid {\boldsymbol {p}})=p_{i},

где представляет вероятность увидеть элементы i и . ${\boldsymbol {p}}=(p_{1},\ldots,p_{k})$ $p_{i}$ $\textstyle {\sum _{i=1}^{k}p_{i}=1}$

Другая формулировка, которая кажется более сложной, но облегчает математические манипуляции, с использованием скобки Айверсона выглядит следующим образом : ^[3]

f(x\mid {\boldsymbol {p}})=\prod _{i=1}^{k}p_{i}^{[x=i]},

где оценивается как 1, если , и 0 в противном случае. Данная формулировка имеет различные преимущества, например: $[x=i]$ $х = я$

Проще выписать функцию правдоподобия набора независимых одинаково распределенных категориальных переменных.
Он связывает категориальное распределение с соответствующим полиномиальным распределением .
Он показывает, почему распределение Дирихле является сопряженным априорным по отношению к категориальному распределению, и позволяет рассчитать апостериорное распределение параметров.

Еще одна формулировка явно проясняет связь между категориальным и полиномиальным распределениями , рассматривая категориальное распределение как частный случай полиномиального распределения, в котором параметр полиномиального распределения n (количество элементов выборки) фиксирован на уровне 1. В этой формулировке , выборочное пространство можно рассматривать как набор случайных векторов x , закодированных ^[4] 1 из K , имеющих свойство, заключающееся в том, что ровно один элемент имеет значение 1, а остальные имеют значение 0. Конкретный элемент, имеющий значение 1 указывает, какая категория была выбрана. Функция массы вероятности f в этой формулировке равна:

f(\mathbf {x} \mid {\boldsymbol {p}})=\prod _ {i = 1} ^ {k} p_ {i} ^ {x_ {i}},

где представляет вероятность увидеть элементы i и . Эту формулировку принял Бишоп . ^[4]^{[примечание 1]} $p_{i}$ $\textstyle {\sum _{i}p_{i}=1}$

Характеристики

Возможные вероятности категориального распределения с — это 2-симплекс , встроенный в 3-пространство. $k=3$ $p_{1}+p_{2}+p_{3}=1$

Распределение полностью задается вероятностями, связанными с каждым числом i : , i = 1,..., k , где . Возможные наборы вероятностей в точности те же, что и в стандартном -мерном симплексе ; для k = 2 это сводится к возможным вероятностям того, что распределение Бернулли является 1-симплексом, ${\ displaystyle p_ {i} = P (X = i)}$ $\textstyle {\sum _{i}p_{i}=1}$ $(k-1)$ $p_{1}+p_{2}=1,0\leq p_{1},p_{2}\leq 1.$
Распределение представляет собой частный случай «многомерного распределения Бернулли» ^[5] , в котором ровно одна из k 0-1 переменных принимает значение единицы.
$\operatorname {E} \left[\mathbf {x} \right]={\boldsymbol {p}}$
Пусть – реализация из категориального распределения. Определите случайный вектор Y как состоящий из элементов: ${\boldsymbol {X}}$

Y_{i}=I({\boldsymbol {X}}=i),

где I – индикаторная функция . Тогда Y имеет распределение, которое является частным случаем полиномиального распределения с параметром . Сумма независимых и одинаково распределенных таких случайных величин Y , построенных на основе категориального распределения с параметром, полиномиально распределена с параметрами и

n=1

n

{\boldsymbol {p}}

n

{\boldsymbol {p}}.

Сопряженное априорное распределение категориального распределения является распределением Дирихле . ^[2] Дополнительную информацию см. в разделе ниже.
Достаточной статистикой из n независимых наблюдений является набор подсчетов (или, что то же самое, доля) наблюдений в каждой категории, где общее количество испытаний (= n ) фиксировано.
Индикаторная функция наблюдения, имеющего значение i , эквивалентная функции скобки Айверсона или дельта -функции Кронекера , распределена по Бернулли с параметром $[x=i]$ $\delta _{xi},$ $p_{i}.$

Байесовский вывод с использованием сопряженного априора

В байесовской статистике распределение Дирихле является сопряженным априорным распределением категориального распределения (а также полиномиального распределения ). Это означает, что в модели, состоящей из точки данных, имеющей категориальное распределение с неизвестным вектором параметров p , и (в стандартном байесовском стиле) мы решили рассматривать этот параметр как случайную величину и дать ему априорное распределение , определенное с помощью распределения Дирихле , тогда апостериорное распределение параметра после включения знаний, полученных из наблюдаемых данных, также является Дирихле. Интуитивно понятно, что в таком случае, начиная с того, что известно о параметре до наблюдения точки данных, знания затем могут быть обновлены на основе точки данных, что дает новое распределение той же формы, что и старое. Таким образом, знания о параметре можно последовательно обновлять путем включения новых наблюдений по одному, не сталкиваясь с математическими трудностями.

Формально это можно выразить следующим образом. Учитывая модель

{\begin{array}{lclcl}{\boldsymbol {\alpha }}&=&(\alpha _{1},\ldots ,\alpha _{K})&=&{\text{concentration hyperparameter}}\\\mathbf {p} \mid {\boldsymbol {\alpha }}&=&(p_{1},\ldots ,p_{K})&\sim &\operatorname {Dir} (K,{\boldsymbol {\alpha }})\\\mathbb {X} \mid \mathbf {p} &=&(x_{1},\ldots ,x_{N})&\sim &\operatorname {Cat} (K,\mathbf {p} )\end{array}}

то имеет место следующее: ^[2]

{\begin{array}{lclcl}\mathbf {c} &=&(c_{1},\ldots ,c_{K})&=&{\text{number of occurrences of category }}i,{\text{ so that }}c_{i}=\sum _{j=1}^{N}[x_{j}=i]\\\mathbf {p} \mid \mathbb {X} ,{\boldsymbol {\alpha }}&\sim &\operatorname {Dir} (K,\mathbf {c} +{\boldsymbol {\alpha }})&=&\operatorname {Dir} (K,c_{1}+\alpha _{1},\ldots ,c_{K}+\alpha _{K})\end{array}}

Это соотношение используется в байесовской статистике для оценки основного параметра p категориального распределения по набору из N выборок. Интуитивно мы можем рассматривать гиперприорный вектор α как псевдосчетчики , то есть как представляющие количество наблюдений в каждой категории, которые мы уже видели. Затем мы просто добавляем значения всех новых наблюдений (вектор c ), чтобы получить апостериорное распределение.

Дальнейшая интуиция исходит из ожидаемого значения апостериорного распределения (см. статью о распределении Дирихле ):

\operatorname {E} [p_{i}\mid \mathbb {X} ,{\boldsymbol {\alpha }}]={\frac {c_{i}+\alpha _{i}}{N+\sum _{k}\alpha _{k}}}

Это говорит о том, что ожидаемая вероятность увидеть категорию i среди различных дискретных распределений, сгенерированных апостериорным распределением, просто равна доле вхождений этой категории, фактически наблюдаемых в данных, включая псевдосчета в априорном распределении. Это имеет большой интуитивный смысл: если, например, существуют три возможные категории и категория 1 наблюдается в наблюдаемых данных в 40% случаев, то можно было бы ожидать, что в среднем категорию 1 можно будет увидеть в 40% случаев. заднее распределение также.

(Эта интуиция игнорирует эффект априорного распределения. Более того, апостериорное распределение представляет собой распределение по распределениям . Апостериорное распределение в целом описывает рассматриваемый параметр, и в этом случае сам параметр представляет собой дискретное распределение вероятностей , т.е. фактическое категориальное распределение. Например, если в наблюдаемых данных присутствуют 3 категории в соотношении 40:5:55, то, игнорируя влияние предыдущего распределения, истинный параметр – то есть истинное, лежащее в основе распределение, которое сгенерировало наши наблюдаемые данные. - ожидается, что среднее значение будет (0,40,0,05,0,55), что действительно и показывает апостериорный график. Однако истинное распределение на самом деле может быть (0,35,0,07,0,58) или (0,42,0,04,0,54) или различные другие близлежащие возможности. Величина неопределенности здесь определяется дисперсией апостериорного показателя , которая контролируется общим количеством наблюдений – чем больше данных наблюдается, тем меньше неопределенности в отношении истинного параметра.)

(Технически априорный параметр на самом деле следует рассматривать как представляющий предыдущие наблюдения категории . Тогда обновленный апостериорный параметр представляет апостериорные наблюдения. Это отражает тот факт, что распределение Дирихле с имеет совершенно плоскую форму — по сути, равномерное распределение по симплексу возможных значений p . Логически, плоское распределение такого типа представляет собой полное невежество, соответствующее отсутствию каких-либо наблюдений. Однако математическое обновление апостериорной функции работает нормально, если мы игнорируем этот термин и просто думаем о векторе α как о непосредственном представляющий набор псевдосчетчиков. Кроме того, это позволяет избежать проблемы интерпретации значений меньше 1.) $\alpha _{i}$ $\alpha _{i}-1$ $i$ $c_{i}+\alpha _{i}$ $c_{i}+\alpha _{i}-1$ ${\boldsymbol {\alpha }}=(1,1,\ldots )$ $\cdots -1$ $\alpha _{i}$

оценка MAP

Максимальная апостериорная оценка параметра p в приведенной выше модели представляет собой просто моду апостериорного распределения Дирихле , т.е. ^[2]

\operatorname {arg\,max} \limits _{\mathbf {p} }p(\mathbf {p} \mid \mathbb {X} )={\frac {\alpha _{i}+c_{i}-1}{\sum _{i}(\alpha _{i}+c_{i}-1)}},\qquad \forall i\;\alpha _{i}+c_{i}>1

Во многих практических приложениях единственный способ гарантировать выполнение условия — установить его для всех i . $\forall i\;\alpha _{i}+c_{i}>1$ $\alpha _{i}>1$

Предельная вероятность

В приведенной выше модели предельное правдоподобие наблюдений (т.е. совместное распределение наблюдений с исключенным априорным параметром ) представляет собой мультиномиальное распределение Дирихле : ^[2]

{\begin{aligned}p(\mathbb {X} \mid {\boldsymbol {\alpha }})&=\int _{\mathbf {p} }p(\mathbb {X} \mid \mathbf {p} )p(\mathbf {p} \mid {\boldsymbol {\alpha }}){\textrm {d}}\mathbf {p} \\&={\frac {\Gamma \left(\sum _{k}\alpha _{k}\right)}{\Gamma \left(N+\sum _{k}\alpha _{k}\right)}}\prod _{k=1}^{K}{\frac {\Gamma (c_{k}+\alpha _{k})}{\Gamma (\alpha _{k})}}\end{aligned}}

Это распределение играет важную роль в иерархических байесовских моделях , поскольку при выполнении выводов по таким моделям с использованием таких методов, как выборка Гиббса или вариационный Байес , априорные распределения Дирихле часто игнорируются. Более подробную информацию можно найти в статье об этом дистрибутиве .

Апостериорное прогнозируемое распределение

Апостериорное прогнозируемое распределение нового наблюдения в приведенной выше модели — это распределение, которое новое наблюдение приняло бы с учетом набора из N категориальных наблюдений. Как показано в статье о полиномиальном распределении Дирихле , оно имеет очень простую форму: ^[2] ${\tilde {x}}$ $\mathbb {X}$

{\begin{aligned}p({\tilde {x}}=i\mid \mathbb {X} ,{\boldsymbol {\alpha }})&=\int _{\mathbf {p} }p({\tilde {x}}=i\mid \mathbf {p} )\,p(\mathbf {p} \mid \mathbb {X} ,{\boldsymbol {\alpha }})\,{\textrm {d}}\mathbf {p} \\&=\,{\frac {c_{i}+\alpha _{i}}{N+\sum _{k}\alpha _{k}}}\\&=\,\mathbb {E} [p_{i}\mid \mathbb {X} ,{\boldsymbol {\alpha }}]\\&\propto \,c_{i}+\alpha _{i}.\\\end{aligned}}

Между этой формулой и предыдущими существуют различные соотношения:

Апостериорная прогностическая вероятность увидеть определенную категорию такая же, как и относительная доля предыдущих наблюдений в этой категории (включая псевдонаблюдения предшествующей категории). Это имеет логический смысл — интуитивно мы ожидаем увидеть определенную категорию в соответствии с уже наблюдаемой частотой этой категории.
Апостериорная прогностическая вероятность такая же, как и ожидаемое значение апостериорного распределения. Это объясняется более подробно ниже.
В результате эту формулу можно выразить просто как «апостериорная прогнозируемая вероятность увидеть категорию пропорциональна общему наблюдаемому количеству этой категории» или как «ожидаемое количество категории такое же, как общее наблюдаемое количество категория», где «количество наблюдаемых» включает в себя псевдонаблюдения предшествующего периода.

Причина эквивалентности между апостериорной прогнозируемой вероятностью и ожидаемым значением апостериорного распределения p становится очевидной при повторном рассмотрении приведенной выше формулы. Как поясняется в статье о апостериорном прогнозирующем распределении , формула апостериорной прогнозируемой вероятности имеет форму ожидаемого значения, взятого относительно апостериорного распределения:

{\begin{aligned}p({\tilde {x}}=i\mid \mathbb {X} ,{\boldsymbol {\alpha }})&=\int _{\mathbf {p} }p({\tilde {x}}=i\mid \mathbf {p} )\,p(\mathbf {p} \mid \mathbb {X} ,{\boldsymbol {\alpha }})\,{\textrm {d}}\mathbf {p} \\&=\,\operatorname {E} _{\mathbf {p} \mid \mathbb {X} ,{\boldsymbol {\alpha }}}\left[p({\tilde {x}}=i\mid \mathbf {p} )\right]\\&=\,\operatorname {E} _{\mathbf {p} \mid \mathbb {X} ,{\boldsymbol {\alpha }}}\left[p_{i}\right]\\&=\,\operatorname {E} [p_{i}\mid \mathbb {X} ,{\boldsymbol {\alpha }}].\end{aligned}}

Важнейшая строка выше — третья. Второе следует непосредственно из определения ожидаемой стоимости. Третья строка характерна для категориального распределения и следует из того факта, что, в частности, в категориальном распределении ожидаемое значение наблюдения конкретного значения i напрямую задается связанным параметром p _i . Четвертая строка — это просто переписывание третьей в другой записи с использованием записи, расположенной выше, для математического ожидания, принятого в отношении апостериорного распределения параметров.

Наблюдайте за точками данных одну за другой и каждый раз рассматривайте их прогнозирующую вероятность, прежде чем наблюдать за точкой данных и обновлять апостериорные данные. Для любой заданной точки данных вероятность того, что эта точка попадет в данную категорию, зависит от количества точек данных, уже входящих в эту категорию. В этом сценарии, если категория имеет высокую частоту появления, то новые точки данных с большей вероятностью присоединятся к этой категории, что еще больше обогащает ту же категорию. Этот тип сценария часто называют моделью преференциальной привязанности (или «богатые становятся богаче»). Это моделирует многие реальные процессы, и в таких случаях выбор, сделанный на основе первых нескольких точек данных, оказывает огромное влияние на остальные точки данных.

Апостериорное условное распределение

При выборке Гиббса обычно необходимо использовать условные распределения в сетях Байеса с несколькими переменными , где каждая переменная обусловлена всеми остальными. В сетях, которые включают категориальные переменные с априорами Дирихле (например, модели смеси и модели, включающие компоненты смеси), распределения Дирихле часто «схлопываются» ( маргинализируются ) из сети, что вводит зависимости между различными категориальными узлами, зависящими от заданного априора. (в частности, их совместное распределение представляет собой полиномиальное распределение Дирихле ). Одна из причин для этого заключается в том, что в таком случае распределение одного категориального узла с учетом других является в точности апостериорным прогнозируемым распределением остальных узлов.

То есть для набора узлов , если рассматриваемый узел обозначается как , а остаток как , то $\mathbb {X}$ $x_{n}$ $\mathbb {X} ^{(-n)}$

{\begin{aligned}p(x_{n}=i\mid \mathbb {X} ^{(-n)},{\boldsymbol {\alpha }})&=\,{\frac {c_{i}^{(-n)}+\alpha _{i}}{N-1+\sum _{i}\alpha _{i}}}&\propto \,c_{i}^{(-n)}+\alpha _{i}\end{aligned}}

где — количество узлов, имеющих категорию i, среди узлов, отличных от узла n . $c_{i}^{(-n)}$

Выборка

Существует несколько методов , но наиболее распространенный способ выборки из категориального распределения использует тип выборки с обратным преобразованием :

Предположим, что распределение выражается как «пропорциональное» некоторому выражению с неизвестной константой нормализации . Прежде чем брать какие-либо образцы, подготавливаются некоторые значения следующим образом:

Вычислите ненормализованное значение распределения для каждой категории.
Суммируйте их и разделите каждое значение на эту сумму, чтобы их нормализовать .
Наведите порядок в категориях (например, с помощью индекса от 1 до k , где k — количество категорий).
Преобразуйте значения в кумулятивную функцию распределения (CDF), заменив каждое значение суммой всех предыдущих значений. Это можно сделать за время O(k) . Результирующее значение для первой категории будет 0.

Затем каждый раз необходимо сэмплировать значение:

Выберите равномерно распределенное число от 0 до 1.
Найдите наибольшее число в CDF, значение которого меньше или равно только что выбранному числу. Это можно сделать за время O(log(k)) с помощью двоичного поиска .
Верните категорию, соответствующую этому значению CDF.

Если необходимо получить много значений из одного и того же категориального распределения, более эффективен следующий подход. Он рисует n выборок за время O(n) (при условии, что для извлечения значений из биномиального распределения используется приближение O(1) ^[6] ).

function draw_categorical(n) // где n — количество выборок из категориального распределения р = 1 с = 0 для i от 1 до k // где k — количество категорий v = извлечь из биномиального (n, p[i]/r) распределения // где p[i] — вероятность категории i для j от 1 до v z[s++] = i // где z — массив, в котором хранятся результаты п = п - v г = г - р[я] перетасовать (произвольно изменить порядок) элементы в z вернуть z

Выборка через дистрибутив Gumbel

В машинном обучении типично параметризовать категориальное распределение через неограниченное представление в , компоненты которого задаются следующим образом: $p_{1},\ldots ,p_{k}$ $\mathbb {R} ^{k}$

\gamma _{i}=\log p_{i}+\alpha

где любая действительная константа. Учитывая это представление, его можно восстановить с помощью функции softmax , которую затем можно выполнить с помощью методов, описанных выше. Однако существует более прямой метод выборки, в котором используются выборки из распределения Гамбеля . ^[7] Пусть k независимых выборок из стандартного распределения Гамбеля, тогда $\alpha$ $p_{1},\ldots ,p_{k}$ $g_{1},\ldots ,g_{k}$

c=\operatorname {arg\,max} \limits _{i}\left(\gamma _{i}+g_{i}\right)

будет выборкой из желаемого категориального распределения. (Если это образец из стандартного равномерного распределения , то это образец из стандартного распределения Гамбеля.) $u_{i}$ $g_{i}=-\log(-\log u_{i})$

Смотрите также

Категориальная переменная

Связанные дистрибутивы

Примечания

^ Однако Бишоп явно не использует термин категориальное распределение.