В теории вероятностей и статистике , Дирихле-мультиномиальное распределение представляет собой семейство дискретных многомерных распределений вероятностей на конечном носителе неотрицательных целых чисел. Его также называют составным многочленным распределением Дирихле ( DCM ) или многомерным распределением Полиа (в честь Джорджа Полиа ). Это составное распределение вероятностей , где вектор вероятности p извлекается из распределения Дирихле с вектором параметров , а наблюдение извлекается из многочленного распределения с вектором вероятности p и числом испытаний n . Вектор параметров Дирихле фиксирует априорное убеждение о ситуации и может рассматриваться как псевдосчет: наблюдения каждого результата, которые происходят до того, как собираются фактические данные. Составление соответствует схеме урн Полиа . Оно часто встречается в байесовской статистике , машинном обучении , эмпирических байесовских методах и классической статистике как сверхдисперсное многочленное распределение .
Он сводится к категориальному распределению как частному случаю при n = 1. Он также аппроксимирует полиномиальное распределение произвольно хорошо для больших α . Полиномиальное распределение Дирихле является многомерным расширением бета-биномиального распределения , поскольку полиномиальное распределение и распределение Дирихле являются многомерными версиями биномиального распределения и бета-распределения соответственно.
Распределение Дирихле является сопряженным распределением к полиномиальному распределению. Этот факт приводит к аналитически трактуемому составному распределению . Для случайного вектора количества категорий , распределенного в соответствии с полиномиальным распределением , предельное распределение получается путем интегрирования по распределению для p , которое можно рассматривать как случайный вектор, следующий распределению Дирихле:
что приводит к следующей явной формуле:
где определяется как сумма . Другая форма для этого же составного распределения, записанная более компактно в терминах бета-функции , B , выглядит следующим образом:
Последняя форма подчеркивает тот факт, что категории с нулевым количеством можно игнорировать при расчетах — полезный факт, когда количество категорий очень велико и разрежено (например, количество слов в документах).
Обратите внимание, что pdf является бета-биномиальным распределением, когда . Можно также показать, что оно приближается к полиномиальному распределению, когда приближается к бесконечности. Параметр управляет степенью сверхдисперсии или всплесков относительно полиномиального. Альтернативные варианты обозначения, найденные в литературе, — S и A.
Распределение Дирихле-полиномиальное также может быть мотивировано с помощью модели урны для положительных целочисленных значений вектора , известной как модель урны Пойа . В частности, представьте себе урну, содержащую шары цветов, пронумерованных для цвета i, где производятся случайные жеребьевки. Когда шар случайным образом вытаскивается и наблюдается, то два шара того же цвета возвращаются в урну. Если это выполняется раз, то вероятность наблюдения случайного вектора количества цветов является полиномиальным распределением Дирихле с параметрами и . Если случайные жеребьевки производятся с простой заменой (никакие шары сверх наблюдаемого шара не добавляются в урну), то распределение следует полиномиальному распределению, а если случайные жеребьевки производятся без замены, то распределение следует многомерному гипергеометрическому распределению .
Еще раз, пусть и пусть , тогда ожидаемое количество раз, когда результат i наблюдался в течение n испытаний, равно
Матрица ковариации выглядит следующим образом. Каждый диагональный элемент представляет собой дисперсию бета-биномиально распределенной случайной величины, и поэтому
Недиагональные элементы — это ковариации :
для i , j различны.
Все ковариации отрицательны, поскольку при фиксированном n увеличение одного компонента вектора-мультиномиала Дирихле требует уменьшения другого компонента.
Это положительно-полуопределенная матрица размера K × K ранга K − 1.
Записи соответствующей корреляционной матрицы :
Размер выборки из этого выражения выпадает.
Каждый из k компонентов в отдельности имеет бета-биномиальное распределение.
Носителем полиномиального распределения Дирихле является множество
Число его элементов равно
В матричной записи,
и
где p T = вектор-строка, транспонированный к вектору-столбцу p . Пусть
Параметр известен как «внутриклассовая» или «внутрикластерная» корреляция. Именно эта положительная корреляция приводит к сверхдисперсии относительно мультиномиального распределения.
Если
тогда, если случайные величины с индексами i и j удалить из вектора и заменить их суммой [ требуется ссылка ] ,
Это свойство агрегации может быть использовано для получения предельного распределения .
Концептуально мы делаем N независимых выборок из категориального распределения с K категориями. Давайте представим независимые выборки как случайные категориальные переменные для . Давайте обозначим количество раз, когда конкретная категория была замечена (для ) среди всех категориальных переменных, как , и . Тогда у нас есть два отдельных взгляда на эту проблему:
Первый случай представляет собой набор случайных величин, определяющих каждый отдельный результат, тогда как последний случай представляет собой переменную, определяющую количество результатов каждой из категорий K. Различие важно, поскольку два случая имеют соответственно разные распределения вероятностей.
Параметр категориального распределения — это , где — вероятность получить значение ; также является параметром полиномиального распределения . Вместо того, чтобы указывать его напрямую, мы даем ему сопряженное априорное распределение , и, следовательно, оно выводится из распределения Дирихле с вектором параметров .
Интегрируя out , мы получаем составное распределение. Однако форма распределения различается в зависимости от того, какую точку зрения мы принимаем.
Для категориальных переменных предельное совместное распределение получается путем интегрирования :
что приводит к следующей явной формуле:
где гамма -функция , с
Обратите внимание на отсутствие мультиномиального коэффициента, поскольку формула касается вероятности последовательности категориальных переменных, а не вероятности значений внутри каждой категории.
Хотя переменные не появляются явно в приведенной выше формуле, они входят через значения. [ необходимо разъяснение ]
Другая полезная формула, особенно в контексте выборки Гиббса , спрашивает, какова условная плотность данной переменной , обусловленная всеми другими переменными (которые мы обозначим ). Оказывается, она имеет чрезвычайно простую форму:
где указывает количество подсчетов категории, обнаруженных во всех переменных, кроме .
Может быть полезно показать, как вывести эту формулу. В общем случае условные распределения пропорциональны соответствующим совместным распределениям , поэтому мы просто начинаем с приведенной выше формулы для совместного распределения всех значений , а затем исключаем любые факторы, не зависящие от рассматриваемого частного . Для этого мы используем обозначение, определенное выше, и
Мы также используем тот факт, что
Затем:
В общем случае не нужно беспокоиться о нормализующей константе во время вывода уравнений для условных распределений. Нормализующая константа будет определена как часть алгоритма выборки из распределения (см. Категориальное распределение#Выборка ). Однако, когда условное распределение записано в простой форме выше, оказывается, что нормализующая константа принимает простую форму:
Следовательно
Эта формула тесно связана с процессом в китайском ресторане , который получается путем принятия предела как .
В более крупной байесовской сети , в которой категориальные (или так называемые «мультиномиальные») распределения происходят с априорными распределениями Дирихле как частью более крупной сети, все априорные распределения Дирихле могут быть свернуты при условии, что единственными узлами, зависящими от них, являются категориальные распределения. Сворачивание происходит для каждого узла распределения Дирихле отдельно от других и происходит независимо от любых других узлов, которые могут зависеть от категориальных распределений. Это также происходит независимо от того, зависят ли категориальные распределения от узлов, дополнительных к априорным распределениям Дирихле (хотя в таком случае эти другие узлы должны оставаться дополнительными факторами обуславливания). По сути, все категориальные распределения, зависящие от данного узла распределения Дирихле, становятся связанными в единое совместное распределение Дирихле-мультиномиальное, определяемое приведенной выше формулой. Совместное распределение, определенное таким образом, будет зависеть от родителя(ей) интегрированных априорных узлов Дирихле, а также от любого родителя(ей) категориальных узлов, отличных от самих априорных узлов Дирихле.
В следующих разделах мы обсудим различные конфигурации, которые обычно встречаются в байесовских сетях. Мы повторяем плотность вероятности, указанную выше, и определяем ее с помощью символа :
Представьте себе, что у нас есть следующая иерархическая модель:
В таких случаях у нас есть несколько априорных вероятностей Дирихле, каждая из которых генерирует некоторое количество категориальных наблюдений (возможно, разное количество для каждой априорной вероятности). Тот факт, что все они зависят от одного и того же гипераприорного значения, даже если это случайная величина, как указано выше, не имеет значения. Эффект интегрирования априорного значения Дирихле связывает категориальные переменные, прикрепленные к этому априорному значению, совместное распределение которых просто наследует любые факторы обусловливания априорного значения Дирихле. Тот факт, что несколько априорных вероятностей могут совместно использовать гипераприорное значение, не имеет значения:
где — это просто набор категориальных переменных, зависящих от априорного d .
Соответственно, условное распределение вероятностей можно записать следующим образом:
где конкретно означает количество переменных среди набора , исключая его самого, которые имеют значение .
Необходимо подсчитать только те переменные, имеющие значение k , которые связаны с рассматриваемой переменной посредством наличия того же априора. Мы не хотим подсчитывать никакие другие переменные, также имеющие значение k .
Теперь представьте себе немного более сложную иерархическую модель, как показано ниже:
Эта модель такая же, как и выше, но в дополнение к этому каждая из категориальных переменных имеет зависимую от нее дочернюю переменную. Это типично для смешанной модели .
Опять же, в совместном распределении только категориальные переменные, зависящие от одного и того же априорного распределения, связаны в один полином Дирихле:
Условное распределение категориальных переменных, зависящих только от их родителей и предков, имело бы идентичную форму, как указано выше, в более простом случае. Однако в выборке Гиббса необходимо определить условное распределение данного узла, зависящее не только от и предков, таких как , но и от всех других параметров.
Упрощенное выражение для условного распределения выводится выше просто путем переписывания выражения для совместной вероятности и удаления постоянных факторов. Следовательно, то же самое упрощение будет применяться в большем выражении для совместной вероятности, таком как в этой модели, составленной из полиномиальных плотностей Дирихле плюс факторы для многих других случайных величин, зависящих от значений категориальных переменных.
Это дает следующее:
Здесь плотность вероятности появляется напрямую. Чтобы сделать случайную выборку по , мы бы вычислили ненормализованные вероятности для всех возможностей K с использованием приведенной выше формулы, затем нормализовали бы их и продолжили бы как обычно, используя алгоритм, описанный в статье о категориальном распределении .
Корректно говоря, дополнительный фактор, который появляется в условном распределении, выводится не из спецификации модели, а напрямую из совместного распределения. Это различие важно при рассмотрении моделей, где заданный узел с родителем Дирихле-априор имеет несколько зависимых потомков, особенно когда эти потомки зависят друг от друга (например, если они разделяют родителя, который сворачивается). Это обсуждается подробнее ниже.
Теперь представьте, что у нас есть следующая иерархическая модель:
Здесь мы имеем сложную ситуацию, когда у нас есть несколько априорных значений Дирихле, как и раньше, и набор зависимых категориальных переменных, но связь между априорными значениями и зависимыми переменными не фиксирована, в отличие от предыдущего. Вместо этого выбор того, какое из них использовать, зависит от другой случайной категориальной переменной. Это происходит, например, в тематических моделях, и действительно, имена переменных выше должны соответствовать именам в скрытом распределении Дирихле . В этом случае набор представляет собой набор слов, каждое из которых взято из одной из возможных тем, где каждая тема является априорным значением Дирихле по словарю возможных слов, определяя частоту различных слов в теме. Однако принадлежность к теме данного слова не фиксирована; скорее, она определяется из набора скрытых переменных . На каждое слово приходится одна скрытая переменная, -мерная категориальная переменная, определяющая тему, к которой принадлежит слово.
В этом случае все переменные, зависящие от заданного априора, связаны вместе (т. е. коррелированы ) в группе, как и раньше — в частности, все слова, принадлежащие заданной теме, связаны. Однако в этом случае членство в группе меняется, поскольку слова не привязаны к заданной теме, а тема зависит от значения скрытой переменной, связанной со словом. Однако определение полиномиальной плотности Дирихле на самом деле не зависит от количества категориальных переменных в группе (т. е. количества слов в документе, сгенерированном из заданной темы), а только от количества переменных в группе, имеющих заданное значение (т. е. среди всех токенов слов, сгенерированных из заданной темы, сколько из них являются заданным словом). Следовательно, мы все еще можем написать явную формулу для совместного распределения:
Здесь мы используем обозначение для обозначения количества словесных токенов, значение которых равно словесному символу v и которые относятся к теме k .
Условное распределение по-прежнему имеет тот же вид:
Здесь снова связаны только категориальные переменные для слов, принадлежащих данной теме (хотя эта связь будет зависеть от назначений скрытых переменных), и, следовательно, количество слов должно быть только по словам, сгенерированным данной темой. Отсюда символ , который является количеством токенов слов, имеющих символ слова v , но только среди тех, которые сгенерированы темой k , и исключая само слово, распределение которого описывается.
(Причина, по которой необходимо исключить само слово, и почему это вообще имеет смысл, заключается в том, что в контексте выборки Гиббса мы многократно повторно выбираем значения каждой случайной величины после того, как прошли и выбирали все предыдущие переменные. Следовательно, переменная уже будет иметь значение, и нам нужно исключить это существующее значение из различных подсчетов, которые мы используем.)
Теперь мы покажем, как объединить некоторые из вышеприведенных сценариев, чтобы продемонстрировать, как использовать выборку Гиббса для реальной модели, в частности, для сглаженной скрытой тематической модели распределения Дирихле (LDA) .
Модель выглядит следующим образом:
По сути, мы объединяем предыдущие три сценария: у нас есть категориальные переменные, зависящие от нескольких априорных значений, разделяющих гипераприор; у нас есть категориальные переменные с зависимыми потомками ( скрытые переменные тематических идентичностей); и у нас есть категориальные переменные со смещающимся членством в нескольких априорных значениях, разделяющих гипераприор. В стандартной модели LDA слова полностью наблюдаются, и, следовательно, нам никогда не нужно их повторно выбирать. (Однако выборка Гиббса была бы в равной степени возможна, если бы наблюдались только некоторые слова или ни одного из них. В таком случае мы хотели бы инициализировать распределение по словам каким-то разумным образом — например, из выходных данных некоторого процесса, который генерирует предложения, такого как модель машинного перевода — для того, чтобы результирующие апостериорные распределения скрытых переменных имели какой-то смысл.)
Используя приведенные выше формулы, мы можем напрямую записать условные вероятности:
Здесь мы более подробно определили количество, чтобы четко разделить количество слов и количество тем:
Как и в сценарии выше с категориальными переменными с зависимыми детьми, условная вероятность этих зависимых детей появляется в определении условной вероятности родителя. В этом случае каждая скрытая переменная имеет только одно зависимое дочернее слово, поэтому появляется только один такой термин. (Если бы было несколько зависимых детей, все они должны были бы появиться в условной вероятности родителя, независимо от того, было ли перекрытие между разными родителями и теми же детьми, т. е. независимо от того, есть ли у зависимых детей данного родителя также другие родители. В случае, когда у ребенка несколько родителей, условная вероятность для этого ребенка появляется в определении условной вероятности каждого из его родителей.)
Определение выше указывает только ненормализованную условную вероятность слов, в то время как условная вероятность темы требует фактической (т.е. нормализованной) вероятности. Следовательно, мы должны нормализовать, суммируя по всем символам слова:
где
Также стоит остановиться подробнее на другом моменте, который касается второго фактора выше в условной вероятности. Помните, что условное распределение в целом выводится из совместного распределения и упрощается путем удаления членов, не зависящих от области условного (часть слева от вертикальной черты). Когда у узла есть зависимые потомки, в совместном распределении будет один или несколько факторов , которые зависят от . Обычно для каждого зависимого узла есть один фактор, и он имеет ту же функцию плотности, что и распределение, появляющееся в математическом определении. Однако, если у зависимого узла есть еще один родитель (сородитель), и этот сородитель свернут, то узел станет зависимым от всех других узлов, разделяющих этого сородителя, и вместо нескольких членов для каждого такого узла совместное распределение будет иметь только один совместный член. Здесь мы имеем именно такую ситуацию. Несмотря на то, что имеет только одного потомка , у этого потомка есть сородитель Дирихле, которого мы свернули, что индуцирует полином Дирихле по всему набору узлов .
В этом случае эта проблема не вызывает серьезных проблем, именно из-за однозначного отношения между и . Мы можем переписать совместное распределение следующим образом:
где в наборе (т.е. наборе узлов, исключая ), ни один из узлов не имеет в качестве родителя. Следовательно, его можно исключить как фактор обусловливания (строка 2), что означает, что весь фактор можно исключить из условного распределения (строка 3).
Вот еще одна модель с другим набором проблем. Это реализация неконтролируемой наивной байесовской модели для кластеризации документов. То есть, мы хотели бы классифицировать документы по нескольким категориям (например, « спам » или «не спам», или «статья в научном журнале», «газетная статья о финансах», «газетная статья о политике», «любовное письмо») на основе текстового содержания. Однако мы еще не знаем правильную категорию каких-либо документов; вместо этого мы хотим кластеризовать их на основе взаимного сходства. (Например, набор научных статей будет, как правило, похож друг на друга по использованию слов, но сильно отличаться от набора любовных писем.) Это тип неконтролируемого обучения . (Та же техника может использоваться для выполнения полуконтролируемого обучения , то есть, когда мы знаем правильную категорию некоторой части документов и хотели бы использовать эти знания для кластеризации оставшихся документов.)
Модель выглядит следующим образом:
Во многих отношениях эта модель очень похожа на тематическую модель LDA , описанную выше, но она предполагает одну тему на документ, а не одну тему на слово, при этом документ состоит из смеси тем. Это можно ясно увидеть в приведенной выше модели, которая идентична модели LDA, за исключением того, что на документ приходится только одна скрытая переменная вместо одной на слово. Еще раз, мы предполагаем, что мы сворачиваем все априорные распределения Дирихле.
Условная вероятность для данного слова почти идентична случаю LDA. Опять же, все слова, сгенерированные одним и тем же априором Дирихле, взаимозависимы. В этом случае это означает слова всех документов, имеющих данную метку — опять же, это может меняться в зависимости от назначений меток, но все, что нас волнует, — это общее количество. Следовательно:
где
Однако существует критическое различие в условном распределении скрытых переменных для назначений меток, которое заключается в том, что заданная переменная метки имеет несколько дочерних узлов вместо одного — в частности, узлы для всех слов в документе метки. Это тесно связано с обсуждением выше о факторе, который вытекает из совместного распределения. В этом случае совместное распределение должно быть принято по всем словам во всех документах, содержащих назначение метки, равное значению , и имеет значение распределения Дирихле-мультиномиала. Более того, мы не можем свести это совместное распределение к условному распределению по одному слову. Вместо этого мы можем свести его только к меньшему совместному условному распределению по словам в документе для рассматриваемой метки, и, следовательно, мы не можем упростить его, используя трюк выше, который дает простую сумму ожидаемого количества и априорного значения. Хотя на самом деле можно переписать его как произведение таких отдельных сумм, число факторов очень велико и явно не более эффективно, чем прямое вычисление вероятности распределения Дирихле-мультиномиала.
Одномерная версия полиномиального распределения Дирихле известна как бета-биномиальное распределение .
Полиномиальное распределение Дирихле имеет связь с отрицательным биномиальным распределением, аналогичную связи полиномиального распределения с распределением Пуассона . [2]
Полиномиальное распределение Дирихле используется в автоматизированной классификации и кластеризации документов , генетике , экономике , моделировании боевых действий и количественном маркетинге.