stringtranslate.com

Полиномиальное распределение Дирихле

В теории вероятностей и статистике мультиномиальное распределение Дирихле представляет собой семейство дискретных многомерных вероятностных распределений на конечном носителе неотрицательных целых чисел. Его также называют составным полиномиальным распределением Дирихле ( DCM ) или многомерным распределением Полиа (в честь Джорджа Полиа ). Это составное распределение вероятностей , где вектор вероятности p получается из распределения Дирихле с вектором параметров , а наблюдение — из полиномиального распределения с вектором вероятности p и количеством испытаний n . Вектор параметров Дирихле отражает априорное мнение о ситуации и может рассматриваться как псевдосчет: наблюдения за каждым результатом, которые происходят до того, как будут собраны фактические данные. Рецептура соответствует схеме урны Полиа . Оно часто встречается в байесовской статистике , машинном обучении , эмпирических методах Байеса и классической статистике как сверхдисперсное полиномиальное распределение .

Оно сводится к категориальному распределению как частному случаю, когда n  = 1. Оно также сколь угодно хорошо аппроксимирует полиномиальное распределение для больших α . Мультиномиальное распределение Дирихле является многомерным расширением бета-биномиального распределения , поскольку полиномиальное распределение и распределение Дирихле являются многомерными версиями биномиального распределения и бета-распределения соответственно.

Спецификация

Мультином Дирихле как составное распределение

Распределение Дирихле является сопряженным распределением полиномиальному распределению. Этот факт приводит к аналитически определяемому распределению соединений . Для случайного вектора количества категорий , распределенного в соответствии с полиномиальным распределением , предельное распределение получается путем интегрирования распределения для p , которое можно рассматривать как случайный вектор, следующий за распределением Дирихле:

что приводит к следующей явной формуле:

где определяется как сумма . Другая форма этого же составного распределения, более компактно записанная через бета - функцию B , выглядит следующим образом:

Последняя форма подчеркивает тот факт, что категории с нулевым подсчетом можно игнорировать при расчете - полезный факт, когда количество категорий очень велико и редко (например, подсчет слов в документах).

Обратите внимание, что PDF представляет собой бета-биномиальное распределение, когда . Также можно показать, что оно приближается к полиномиальному распределению при приближении к бесконечности. Параметр управляет степенью избыточной дисперсии или пульсации относительно полинома. Альтернативные варианты обозначения, найденные в литературе, - это S и A.

Мультином Дирихле как модель урны

Мультиномиальное распределение Дирихле также можно мотивировать с помощью модели урны для положительных целочисленных значений вектора α, известной как модель урны Полиа . В частности, представьте себе урну, содержащую шары K цветов с нумерацией i-го цвета, в которой производятся случайные розыгрыши. Когда шар случайно вытягивается и наблюдается, то в урну возвращаются два шара одного цвета. Если это выполняется n раз, то вероятность наблюдения случайного вектора количества цветов представляет собой мультином Дирихле с параметрами n и α. Если случайные розыгрыши производятся с простой заменой (в урну не добавляются шары сверх наблюдаемого шара), то распределение следует полиномиальному распределению, а если случайные розыгрыши производятся без замены, распределение следует многомерному гипергеометрическому распределению .

Характеристики

Моменты

Еще раз, пусть и пусть , тогда ожидаемое количество раз, когда результат i наблюдался в n испытаниях, равно

Ковариационная матрица выглядит следующим образом. Каждый диагональный элемент представляет собой дисперсию случайной величины с бета-биномиальным распределением и, следовательно,

Внедиагональные записи представляют собой ковариации :

для i , j различны.

Все ковариации отрицательны, поскольку при фиксированном n увеличение одного компонента мультиномиального вектора Дирихле требует уменьшения другого компонента.

Это положительно-полуопределенная матрица размера K × K ранга K  − 1.

Элементы соответствующей корреляционной матрицы :

Размер выборки не входит в это выражение.

Каждая из k компонент в отдельности имеет бета-биномиальное распределение.

Носителем полиномиального распределения Дирихле является множество

Число его элементов равно

Матричное обозначение

В матричной записи

и

где p T = вектор-строка, транспонированная вектор-столбцу p . Сдача в аренду

, мы можем написать альтернативно

Этот параметр известен как «внутриклассовая» или «внутрикластерная» корреляция. Именно эта положительная корреляция приводит к чрезмерной дисперсии относительно полиномиального распределения.

Агрегация

Если

затем, если случайные величины с индексами i и j исключить из вектора и заменить их суммой [ нужна цитация ] ,

Это свойство агрегирования можно использовать для получения предельного распределения .

Функция правдоподобия

Концептуально мы делаем N независимых выборок из категориального распределения с K категориями. Представим независимые розыгрыши как случайные категориальные переменные для . Обозначим количество раз, когда определенная категория была замечена (для ) среди всех категориальных переменных как , и . Далее, у нас есть два разных взгляда на эту проблему:

  1. Набор категориальных переменных .
  2. Одна векторная переменная , распределенная в соответствии с полиномиальным распределением .

Первый случай представляет собой набор случайных величин, определяющих каждый отдельный результат, а второй — переменную, определяющую количество результатов каждой из K категорий. Это различие важно, поскольку оба случая имеют соответственно разные распределения вероятностей.

Параметр категориального распределения — где вероятность получить значение ; также является параметром полиномиального распределения . Вместо того, чтобы указывать его напрямую, мы даем ему сопряженное априорное распределение , и, следовательно, оно извлекается из распределения Дирихле с вектором параметров .

Интегрируя , мы получаем сложное распределение. Однако форма распределения различна в зависимости от того, какую точку зрения мы придерживаемся.

Для набора индивидуальных результатов

Совместное распространение

Для категориальных переменных предельное совместное распределение получается путем интегрирования :

что приводит к следующей явной формуле:

где гамма - функция , при этом

Обратите внимание на отсутствие полиномиального коэффициента, поскольку в формуле речь идет о вероятности последовательности категориальных переменных, а не о вероятности отсчетов внутри каждой категории.

Хотя переменные не фигурируют в приведенной выше формуле явно, они вводятся через значения. [ нужны разъяснения ]

Условное распределение

Другая полезная формула, особенно в контексте выборки Гиббса , спрашивает, какова условная плотность данной переменной , обусловленная всеми другими переменными (которые мы будем обозначать ). Оказывается, он имеет предельно простую форму:

где указывает количество счетчиков категории, наблюдаемых во всех переменных, кроме .

Возможно, будет полезно показать, как вывести эту формулу. В общем, условные распределения пропорциональны соответствующим совместным распределениям , поэтому мы просто начинаем с приведенной выше формулы совместного распределения всех значений, а затем исключаем любые факторы, не зависящие от рассматриваемой детали. Для этого воспользуемся обозначениями, определенными выше, и

Мы также используем тот факт, что

Затем:

В общем, не стоит беспокоиться о нормировочной константе при выводе уравнений условных распределений. Нормализующая константа будет определена как часть алгоритма выборки из распределения (см. Категориальное распределение#Sampling ). Однако когда условное распределение записано в простой форме, приведенной выше, оказывается, что нормировочная константа принимает простую форму:

Следовательно

Эта формула тесно связана с процессом в китайском ресторане , который возникает в результате принятия предела как .

В байесовской сети

В более крупной байесовской сети , в которой категориальные (или так называемые «мультиномиальные») распределения встречаются с априорами распределения Дирихле как частью более крупной сети, все априоры Дирихле могут быть свернуты при условии, что единственные узлы, зависящие от них, являются категориальными распределениями. Схлопывание происходит для каждого узла распределения Дирихле отдельно от других и происходит независимо от любых других узлов, которые могут зависеть от категориальных распределений. Это также происходит независимо от того, зависят ли категориальные распределения от узлов, дополнительных к априорам Дирихле (хотя в таком случае эти другие узлы должны оставаться в качестве дополнительных обуславливающих факторов). По сути, все категориальные распределения, зависящие от данного узла распределения Дирихле, становятся связанными в одно мультиномиальное совместное распределение Дирихле, определенное приведенной выше формулой. Совместное распределение, определенное таким образом, будет зависеть от родителя(ей) интегрированных априорных узлов Дирише, а также от любого родителя(ей) категориальных узлов, отличных от самих априорных узлов Дирихле.

В следующих разделах мы обсудим различные конфигурации, обычно встречающиеся в байесовских сетях. Повторяем плотность вероятности сверху и определяем ее с помощью символа :

Множественные априоры Дирихле с одним и тем же гиперприором

Представьте, что у нас есть следующая иерархическая модель:

В подобных случаях у нас есть несколько априорных значений Дирише, каждый из которых генерирует некоторое количество категориальных наблюдений (возможно, разное количество для каждого априорного). Тот факт, что все они зависят от одного и того же гиперприора, даже если это случайная величина, как указано выше, не имеет никакого значения. Эффект интеграции априора Дирихле связывает категориальные переменные, прикрепленные к этому априору, совместное распределение которых просто наследует любые обусловливающие факторы априора Дирихле. Тот факт, что несколько априорных значений могут иметь общий гиперприорный уровень, не имеет значения:

где — это просто набор категориальных переменных, зависящих от предшествующего значения d .

Соответственно, условное распределение вероятностей можно записать следующим образом:

где конкретно означает количество переменных среди множества , исключая себя, которые имеют значение .

Необходимо учитывать только те переменные, имеющие значение k , которые связаны с рассматриваемой переменной тем, что имеют одинаковый априор. Мы не хотим учитывать какие-либо другие переменные, также имеющие значение k .

Множественные априоры Дирихле с одним и тем же гиперприором, с зависимыми детьми

Теперь представьте себе немного более сложную иерархическую модель:

Эта модель такая же, как и выше, но кроме того, каждая из категориальных переменных имеет зависимую от нее дочернюю переменную. Это типично для смешанной модели .

Опять же, в совместном распределении только категориальные переменные, зависящие от одного и того же априора, связаны в один мультином Дирихле:

Условное распределение категориальных переменных, зависящих только от их родителей и предков, в более простом случае будет иметь ту же форму, что и выше. Однако при выборке Гиббса необходимо определить условное распределение данного узла, зависящее не только от и предков типа , но и от всех остальных параметров.

Упрощенное выражение для условного распределения получено выше путем простого переписывания выражения для совместной вероятности и удаления постоянных факторов. Следовательно, то же упрощение применимо и к более крупному выражению совместной вероятности, такому как выражение в этой модели, состоящее из мультиномиальных плотностей Дирихле плюс коэффициенты для многих других случайных величин, зависящих от значений категориальных переменных.

Это дает следующее:

Здесь непосредственно проявляется плотность вероятности . Чтобы выполнить случайную выборку по , мы должны вычислить ненормализованные вероятности для всех K возможностей использования приведенной выше формулы, затем нормализовать их и продолжить работу как обычно, используя алгоритм, описанный в статье о категориальном распределении .

Правильно говоря, дополнительный коэффициент, который появляется в условном распределении, выводится не из спецификации модели, а непосредственно из совместного распределения. Это различие важно при рассмотрении моделей, в которых данный узел с родителем, предшествующим Дирихле, имеет несколько зависимых дочерних узлов, особенно когда эти дочерние элементы зависят друг от друга (например, если у них общий родительский узел, который свернут). Это обсуждается подробнее ниже.

Множественные приоры Дирихле со сменой предыдущего членства

Теперь представьте, что у нас есть следующая иерархическая модель:

Здесь мы имеем сложную ситуацию, когда у нас есть несколько априорных значений Дирихле, как и раньше, и набор зависимых категориальных переменных, но связь между априорными и зависимыми переменными не фиксирована, в отличие от предыдущего. Вместо этого выбор того, какой из них перед использованием, зависит от другой случайной категориальной переменной. Это происходит, например, в тематических моделях, и действительно, имена переменных выше должны соответствовать именам в скрытом распределении Дирихле . В этом случае набор представляет собой набор слов, каждое из которых взято из одной из возможных тем, где каждая тема представляет собой априор Дирихле над словарем возможных слов, определяющий частоту различных слов в теме. Однако принадлежность данного слова к теме не фиксирована; скорее, оно определяется набором скрытых переменных . Для каждого слова существует одна скрытая переменная, -мерная категориальная переменная, определяющая тему, к которой принадлежит слово.

В этом случае все переменные, зависящие от заданного априора, связаны (т.е. коррелированы ) в группу, как и раньше — а именно, связаны все слова, принадлежащие данной теме. В этом случае, однако, членство в группе меняется, поскольку слова не привязаны к данной теме, а тема зависит от значения скрытой переменной, связанной со словом. Однако определение мультиномиальной плотности Дирихле на самом деле зависит не от количества категориальных переменных в группе (т. е. от количества слов в документе, сгенерированном по заданной теме), а только от количества переменных в группе. группа имеет заданное значение (т. е. сколько из всех токенов слов, сгенерированных по данной теме, являются данным словом). Следовательно, мы все еще можем написать явную формулу совместного распределения:

Здесь мы используем обозначение для обозначения количества токенов слов, значением которых является символ слова v и которые принадлежат теме k .

Условное распределение по-прежнему имеет тот же вид:

Здесь снова связываются только категориальные переменные для слов, принадлежащих данной теме (хотя это связывание будет зависеть от назначений скрытых переменных), и, следовательно, количество слов должно соответствовать только словам, созданным по данной теме. Следовательно, символ представляет собой количество токенов слов, имеющих символ слова v , но только среди тех, которые сгенерированы темой k , и исключая само слово, распределение которого описывается.

(Причина, по которой исключение самого слова необходимо и почему это вообще имеет смысл, заключается в том, что в контексте выборки Гиббса мы неоднократно пересчитываем значения каждой случайной величины после того, как просмотрели и выбрали все предыдущие переменные. Отсюда переменная уже будет иметь значение, и нам нужно исключить это существующее значение из различных счетчиков, которые мы используем.)

Комбинированный пример: тематические модели LDA

Теперь мы покажем, как объединить некоторые из вышеперечисленных сценариев, чтобы продемонстрировать, как Гиббс выбирает реальную модель, в частности, тематическую модель сглаженного латентного распределения Дирихле (LDA) .

Модель следующая:

По сути, мы объединяем предыдущие три сценария: у нас есть категориальные переменные, зависящие от нескольких априорных значений, разделяющих один гиперприорный; у нас есть категориальные переменные с зависимыми дочерними элементами ( скрытые идентичности тем переменных ); и у нас есть категориальные переменные с меняющимся членством в нескольких априорах, имеющих общий гиперприор. В стандартной модели LDA слова полностью соблюдаются, и, следовательно, нам никогда не требуется их повторная выборка. (Однако выборка Гиббса была бы в равной степени возможна, если бы наблюдались только некоторые слова или ни одно из них. В таком случае мы хотели бы инициализировать распределение по словам каким-то разумным способом - например, на основе результатов некоторого процесса, который генерирует предложения. , например, модель машинного перевода — для того, чтобы результирующие апостериорные распределения скрытых переменных имели какой-либо смысл.)

Используя приведенные выше формулы, мы можем записать условные вероятности напрямую:

Здесь мы определили подсчеты более явно, чтобы четко разделить количество слов и количество тем:

Как и в приведенном выше сценарии с категориальными переменными с зависимыми дочерними элементами, условная вероятность этих зависимых дочерних элементов появляется в определении условной вероятности родителя. В этом случае каждая скрытая переменная имеет только одно зависимое дочернее слово, поэтому появляется только один такой термин. (Если бы было несколько детей-иждивенцев, все они должны были бы появиться в условной вероятности родителя, независимо от того, было ли перекрытие между разными родителями и одними и теми же детьми, т.е. независимо от того, есть ли у детей-иждивенцев данного родителя также другие родители. В случае, когда у ребенка несколько родителей, условная вероятность для этого ребенка появляется в определении условной вероятности каждого из его родителей.)

Приведенное выше определение определяет только ненормализованную условную вероятность слов, в то время как условная вероятность темы требует фактической (т. е. нормализованной) вероятности. Следовательно, нам нужно нормализовать путем суммирования по всем символам слова:

где

Также стоит подробно остановиться на еще одном моменте, который касается второго фактора условной вероятности, упомянутого выше. Помните, что условное распределение в целом является производным от совместного распределения и упрощается за счет удаления терминов, не зависящих от области условного распределения (часть слева от вертикальной черты). Если у узла есть зависимые дочерние элементы, в совместном распределении будет один или несколько факторов , которые зависят от . Обычно для каждого зависимого узла имеется один фактор, и он имеет ту же функцию плотности, что и распределение, имеющее математическое определение. Однако, если у зависимого узла есть еще один родительский элемент (сородительский), и этот сородительский узел свернут, тогда узел станет зависимым от всех других узлов, разделяющих этого сородительского узла, и вместо нескольких терминов для В каждом таком узле совместное распределение будет иметь только один общий член. У нас тут именно такая ситуация. Несмотря на то, что у него только один дочерний элемент , у этого дочернего элемента есть сородитель Дирихле, который мы схлопнули, что приводит к мультиному Дирихле по всему набору узлов .

В этом случае этот вопрос не вызывает серьезных проблем именно из-за взаимно однозначного отношения между и . Мы можем переписать совместное распределение следующим образом:

где в наборе (т.е. наборе узлов, исключая ) ни один из узлов не является родительским. Следовательно, его можно исключить как обуславливающий фактор (строка 2), а это означает, что весь фактор можно исключить из условного распределения (строка 3).

Второй пример: наивная байесовская кластеризация документов.

Вот еще одна модель с другим набором проблем. Это реализация неконтролируемой модели Наивного Байеса для кластеризации документов. То есть мы хотели бы классифицировать документы по нескольким категориям (например, « спам » или «не-спам», или «статья в научном журнале», «газетная статья о финансах», «газетная статья о политике», «любовное письмо»). на основе текстового содержания. Однако мы еще не знаем правильную категорию каких-либо документов; вместо этого мы хотим сгруппировать их на основе взаимного сходства. (Например, наборы научных статей, как правило, похожи друг на друга по использованию слов, но сильно отличаются от набора любовных писем.) Это тип обучения без присмотра . (Тот же метод можно использовать для полуконтролируемого обучения , т. е. когда мы знаем правильную категорию некоторой части документов и хотели бы использовать эти знания для кластеризации оставшихся документов.)

Модель следующая:

Во многих отношениях эта модель очень похожа на описанную выше тематическую модель LDA , но она предполагает одну тему на документ, а не одну тему на слово, при этом документ состоит из смеси тем. Это хорошо видно на приведенной выше модели, которая идентична модели LDA, за исключением того, что в каждом документе имеется только одна скрытая переменная , а не одна в каждом слове. Мы еще раз предполагаем, что мы сжимаем все априоры Дирихле.

Условная вероятность для данного слова почти идентична случаю LDA. Еще раз: все слова, порожденные одним и тем же приором Дирихле, взаимозависимы. В данном случае это означает слова всех документов, имеющих данную метку — опять же, это может варьироваться в зависимости от назначений меток, но все, что нас волнует, — это общее количество. Следовательно:

где

Однако существует критическая разница в условном распределении скрытых переменных для присвоений меток, заключающаяся в том, что данная переменная метки имеет несколько дочерних узлов вместо одного — в частности, узлы для всех слов в документе метки. Это тесно связано с приведенным выше обсуждением фактора , обусловленного совместным распределением. В этом случае совместное распределение должно охватывать все слова во всех документах, содержащих присвоение метки, равное значению и имеющее значение мультиномиального распределения Дирихле. Более того, мы не можем свести это совместное распределение к условному распределению по одному слову. Скорее, мы можем свести его только к меньшему совместному условному распределению по словам в документе для рассматриваемой метки, и, следовательно, мы не можем упростить его, используя описанный выше трюк, который дает простую сумму ожидаемого количества и априора. Хотя на самом деле его можно переписать как произведение таких отдельных сумм, число факторов очень велико, и это явно не более эффективно, чем непосредственное вычисление вероятности мультиномиального распределения Дирихле.

Связанные дистрибутивы

Одномерная версия мультиномиального распределения Дирихле известна как бета-биномиальное распределение .

Полиномиальное распределение Дирихле имеет связь с отрицательным биномиальным распределением, аналогичную связи полиномиального распределения с распределением Пуассона . [2]

Использование

Мультиномиальное распределение Дирихле используется в автоматизированной классификации и кластеризации документов , генетике , экономике , боевом моделировании и количественном маркетинге.

Смотрите также

Рекомендации

Цитаты

  1. ^ abcd Глюзенкамп, Т. (2018). «Вероятностная обработка неопределенности конечного размера взвешенных данных Монте-Карло». ЭПЖ Плюс . 133 (6): 218. arXiv : 1712.01293 . Бибкод : 2018EPJP..133..218G. doi : 10.1140/epjp/i2018-12042-x. S2CID  125665629.
  2. ^ Теорема 1 Чжоу, М. (2018). «Непараметрический байесовский отрицательный биномиальный факторный анализ». Байесовский анализ . 13 (4): 1065–1093. arXiv : 1604.07464 . дои : 10.1214/17-BA1070 .

Источники