stringtranslate.com

Распределение Дирихле

В теории вероятности и статистике распределение Дирихле (в честь Питера Густава Лежена Дирихле ), часто обозначаемое , представляет собой семейство непрерывных многомерных распределений вероятностей , параметризованных вектором положительных действительных чисел . Это многомерное обобщение бета -распределения [1] , отсюда и его альтернативное название многомерного бета-распределения (MBD) . [2] Распределения Дирихле обычно используются в качестве априорных распределений в байесовской статистике , и фактически распределение Дирихле является сопряженным априорным из категориального распределения и полиномиального распределения .

Бесконечномерным обобщением распределения Дирихле является процесс Дирихле .

Определения

Функция плотности вероятности

Иллюстрация того, как изменяется логарифм функции плотности при K  = 3, когда мы меняем вектор α с α  = (0,3, 0,3, 0,3) на (2,0, 2,0, 2,0), сохраняя при этом все отдельные значения равными друг другу.

Распределение Дирихле порядка K  ≥ 2 с параметрами α 1 , ..., α K > 0 имеет функцию плотности вероятности относительно меры Лебега на евклидовом пространстве R K-1, определяемую выражением

где принадлежат стандартному симплексу , или другими словами:

Нормализующая константа — это многомерная бета-функция , которую можно выразить через гамма-функцию :

Поддерживать

Носителем распределения Дирихле является набор K -мерных векторов , элементами которых являются действительные числа в интервале [0,1] такие, что , т.е. сумма координат равна 1. Их можно рассматривать как вероятности К -образное категориальное событие. Другой способ выразить это состоит в том, что область распределения Дирихле сама по себе является набором вероятностных распределений , в частности набором K -мерных дискретных распределений . Техническим термином для множества точек, поддерживающих K -мерное распределение Дирихле, является открытый стандартный ( K  − 1)-симплекс [3] , который является обобщением треугольника , вложенного в следующее более высокое измерение. Например, при K  = 3 опора представляет собой равносторонний треугольник , вставленный под углом вниз в трехмерное пространство с вершинами в точках (1,0,0), (0,1,0) и (0,0). ,1), т.е. касаясь каждой из осей координат в точке, удаленной на 1 единицу от начала координат.

Особые случаи

Распространенным частным случаем является симметричное распределение Дирихле , где все элементы, составляющие вектор параметров, имеют одинаковое значение. Симметричный случай может быть полезен, например, когда требуется априорное преимущество Дирихле над компонентами, но нет предварительных знаний, отдающих предпочтение одному компоненту перед другим. Поскольку все элементы вектора параметров имеют одинаковое значение, симметричное распределение Дирихле может быть параметризовано одним скалярным значением α , называемым параметром концентрации . В терминах α функция плотности имеет вид

При α =1 [1] симметричное распределение Дирихле эквивалентно равномерному распределению над открытым стандартным ( K  − 1)-симплексом , т. е. оно равномерно по всем точкам своего носителя . Это конкретное распределение известно как плоское распределение Дирихле . Значения параметра концентрации выше 1 отдают предпочтение вариантам с плотным и равномерно распределенным распределением, т. е. все значения в пределах одной выборки подобны друг другу. Значения параметра концентрации ниже 1 отдают предпочтение разреженным распределениям, т.е. большинство значений в пределах одного образца будут близки к 0, а подавляющее большинство массы будет сосредоточено в нескольких значениях.

В более общем смысле вектор параметров иногда записывается как произведение ( скалярного ) параметра концентрации α и ( векторной ) базовой меры , где находится внутри ( K  - 1)-симплекса (т.е. сумма его координат равна единице). Параметр концентрации в этом случае в К раз больше параметра концентрации для описанного выше симметричного распределения Дирихле. Эта конструкция связана с концепцией базовой меры при обсуждении процессов Дирихле и часто используется в литературе по тематическому моделированию.

^ Если мы определим параметр концентрации как сумму параметров Дирихле для каждого измерения, распределение Дирихле с параметром концентрации K , размерностью распределения, будет равномерным распределением на ( K  - 1)-симплексе.

Характеристики

Моменты

Позволять .

Позволять

Тогда [4] [5]

Кроме того, если

Таким образом, матрица является сингулярной .

В более общем смысле моменты случайных величин, распределенных Дирихле, можно выразить как [6]

Режим

Модой распределения является [7] вектор ( x 1 , ..., x K ) с

Маржинальные распределения

Маргинальные распределения являются бета-распределениями : [8]

Сопряжено с категориальным или полиномиальным

Распределение Дирихле представляет собой сопряженное априорное распределение категориального распределения (общее дискретное распределение вероятностей с заданным количеством возможных результатов) и полиномиального распределения (распределение по наблюдаемым значениям каждой возможной категории в наборе категориально распределенных наблюдений). Это означает, что если точка данных имеет категориальное или полиномиальное распределение, а априорное распределение параметра распределения (вектор вероятностей, который генерирует точку данных) распределяется как Дирихле, то апостериорное распределение параметра также является Дирихле. Интуитивно понятно, что в таком случае, начиная с того, что мы знаем о параметре до наблюдения за точкой данных, мы затем можем обновить наши знания на основе точки данных и в конечном итоге получить новое распределение той же формы, что и старое. Это означает, что мы можем последовательно обновлять наши знания о параметре, включая новые наблюдения по одному, не сталкиваясь с математическими трудностями.

Формально это можно выразить следующим образом. Учитывая модель

тогда имеет место следующее:

Это соотношение используется в байесовской статистике для оценки основного параметра p категориального распределения по набору из N выборок. Интуитивно мы можем рассматривать гиперприорный вектор α как псевдосчетчики , то есть как представляющие количество наблюдений в каждой категории, которые мы уже видели. Затем мы просто добавляем значения всех новых наблюдений (вектор c ), чтобы получить апостериорное распределение.

В моделях байесовской смеси и других иерархических байесовских моделях с компонентами смеси распределения Дирихле обычно используются в качестве априорных распределений для категориальных переменных, появляющихся в моделях. Дополнительную информацию см. в разделе о приложениях ниже.

Связь с полиномиальным распределением Дирихле

В модели, где априорное распределение Дирихле размещается над набором наблюдений с категориальными значениями , предельное совместное распределение наблюдений (т. е. совместное распределение наблюдений с исключенным априорным параметром ) представляет собой полиномиальное распределение Дирихле . Это распределение играет важную роль в иерархических байесовских моделях , поскольку при выполнении выводов по таким моделям с использованием таких методов, как выборка Гиббса или вариационный Байес , априорные распределения Дирихле часто игнорируются. Более подробную информацию можно найти в статье об этом дистрибутиве .

Энтропия

Если X является случайной величиной, дифференциальная энтропия X (в натуральных единицах ) равна [9]

где - дигамма-функция .

Следующая формула для может быть использована для получения приведенной выше дифференциальной энтропии . Поскольку функции представляют собой достаточную статистику распределения Дирихле, дифференциальные тождества экспоненциального семейства можно использовать для получения аналитического выражения для ожидания (см. уравнение (2.62) в [10] ) и связанной с ним ковариационной матрицы:

и

где – дигамма-функция , – тригамма-функция , – дельта Кронекера .

Спектр информации Реньи для значений, отличных от приведен в [11]

а информационная энтропия является пределом, равным 1.

Другой связанной с этим интересной мерой является энтропия дискретного категориального (один из K двоичного) вектора с распределением вероятностной массы , т.е. Условная информационная энтропия , задана

Эта функция является скалярной случайной величиной. Если имеет симметричное распределение Дирихле со всеми , ожидаемое значение энтропии (в единицах nat ) равно [12]

Агрегация

Если

тогда, если случайные величины с индексами i и j исключить из вектора и заменить их суммой,

Это свойство агрегации можно использовать для получения упомянутого выше предельного распределения .

Нейтралитет

Если , то вектор  X называется нейтральным [ 13] в том смысле, что X K не зависит от [3] где

и аналогично для удаления любого из . Обратите внимание, что любая перестановка X также нейтральна (свойство, которым не обладают выборки, взятые из обобщенного распределения Дирихле ). [14]

Из этого следует, что X j + ... + X K не зависит от . Фактически, кроме того, для распределения Дирихле верно, что для пара и два вектора и , рассматриваемые как тройка нормализованных случайных векторов, являются взаимно независимыми . Аналогичный результат верен для разбиения индексов {1,2,..., K } на любую другую пару неодноэлементных подмножеств.

Характеристическая функция

Характеристическая функция распределения Дирихле представляет собой конфлюэнтную форму гипергеометрического ряда Лауричеллы . Филлипс дает это значение как [15]

где

Сумма ведется по неотрицательным целым числам и . Филлипс далее заявляет, что эта форма «неудобна для численных расчетов», и предлагает альтернативу в виде комплексного интеграла по путям :

где L обозначает любой путь в комплексной плоскости, начинающийся в , охватывающий в положительном направлении все особенности подынтегрального выражения и возвращающийся в .

Неравенство

Функция плотности вероятности играет ключевую роль в многофункциональном неравенстве, которое подразумевает различные оценки распределения Дирихле. [16]

Связанные дистрибутивы

Для K независимо распределенных гамма-распределений :

имеем: [17] : 402 

Хотя X не являются независимыми друг от друга, можно видеть, что они генерируются из набора K независимых гамма- случайных величин. [17] : 594  К сожалению, поскольку сумма V теряется при формировании X (фактически можно показать, что V стохастически не зависит от X ), невозможно восстановить исходные гамма-случайные величины только по этим значениям. Тем не менее, поскольку с независимыми случайными величинами проще работать, эта перепараметризация все равно может быть полезна для доказательства свойств распределения Дирихле.

Сопряженный априор распределения Дирихле

Поскольку распределение Дирихле является экспоненциальным семейным распределением, оно имеет сопряженный априор. Сопряженный априор имеет вид: [18]

Здесь – K -мерный вещественный вектор и – скалярный параметр. Область ограничена набором параметров, для которых указанная выше ненормированная функция плотности может быть нормализована. Условием (необходимым и достаточным) является: [19]

Свойство сопряжения можно выразить как

если [ предшествующее : ] и [ наблюдение : ] то [ заднее : ].

В опубликованной литературе нет практического алгоритма эффективного создания выборок из .

Возникновение и применение

Байесовские модели

Распределения Дирихле чаще всего используются в качестве априорного распределения категориальных переменных или полиномиальных переменных в моделях байесовских смесей и других иерархических байесовских моделях . (Во многих областях, например, в обработке естественного языка , категориальные переменные часто неточно называют «мультиномиальными переменными». Такое использование вряд ли вызовет путаницу, так же, как обычно объединяют распределения Бернулли и биномиальные распределения .)

Вывод по иерархическим байесовским моделям часто делается с использованием выборки Гиббса , и в таком случае случаи распределения Дирихле обычно исключаются из модели путем интегрирования случайной величины Дирихле . Это приводит к тому, что различные категориальные переменные, полученные из одной и той же случайной величины Дирихле, становятся коррелированными, и совместное распределение по ним принимает мультиномиальное распределение Дирихле , обусловленное гиперпараметрами распределения Дирихле ( параметрами концентрации ). Одна из причин этого заключается в том, что выборка Гиббса мультиномиального распределения Дирихле чрезвычайно проста; см. эту статью для получения дополнительной информации.


Интуитивная интерпретация параметров

Параметр концентрации

Распределения Дирихле очень часто используются в качестве априорных распределений в байесовском выводе . Самый простой и, возможно, наиболее распространенный тип априорного распределения Дирихле — это симметричное распределение Дирихле, где все параметры равны. Это соответствует случаю, когда у вас нет предварительной информации, позволяющей отдать предпочтение одному компоненту перед любым другим. Как описано выше, единственное значение α , которому установлены все параметры, называется параметром концентрации . Если пространство выборки распределения Дирихле интерпретировать как дискретное распределение вероятностей , то интуитивно параметр концентрации можно рассматривать как определяющий, насколько «концентрирована» вероятностная масса распределения Дирихле в его центре, что приводит к выборкам с массой, распределенной почти одинаково. среди всех компонентов, т. е. при значении много меньше 1 масса будет сильно сконцентрирована в нескольких компонентах, а все остальные почти не будут иметь массы, а при значении много больше 1 масса будет рассеяна почти поровну между всеми компонентами. См. статью о параметре концентрации для дальнейшего обсуждения.

Резка струн

Одним из примеров использования распределения Дирихле является случай, когда кто-то хочет разрезать струны (каждая из начальной длины 1,0) на K частей разной длины, где каждая часть имеет назначенную среднюю длину, но допускает некоторые изменения в относительных размерах частей. Напомним, что значения определяют средние длины отрезанных кусков струны, полученные в результате распределения. Дисперсия вокруг этого среднего значения изменяется обратно пропорционально .

Пример распределения Дирихле (1/2,1/3,1/6)

урна Полии

Рассмотрим урну, содержащую шарики K разных цветов. Изначально в урне находится α 1 шаров цвета 1, α 2 шаров цвета 2 и так далее. Теперь выполните N розыгрышей из урны, где после каждого розыгрыша шар помещается обратно в урну с дополнительным шаром того же цвета. В пределе, когда N стремится к бесконечности, пропорции шаров разного цвета в урне будут распределяться как Dir( α 1 ,..., α K ). [20]

Для формального доказательства обратите внимание, что пропорции разноцветных шаров образуют ограниченный [0,1] K -значный мартингал , следовательно, по теореме о сходимости мартингала эти пропорции почти наверняка и в среднем сходятся к предельному случайному вектору. Чтобы убедиться, что этот предельный вектор имеет указанное выше распределение Дирихле, проверьте, что все смешанные моменты совпадают.

Каждый вытягивание из урны изменяет вероятность вытягивания из урны шара любого цвета в будущем. Эта модификация уменьшается с увеличением количества розыгрышей, поскольку относительный эффект добавления нового шара в урну уменьшается по мере того, как урна накапливает все большее количество шаров.


Генерация случайной переменной

Из гамма-распределения

Имея источник случайных величин, распределенных по гамма-распределению, можно легко выбрать случайный вектор из K -мерного распределения Дирихле с параметрами . Сначала возьмите K независимых случайных выборок из гамма-распределений, каждая с плотностью

а затем установить

[Доказательство]

Совместное распределение независимо выбранных гамма-вариантов , определяется произведением:

Далее используют замену переменных, параметризуя через и , и производят замену переменных из таких, что . Каждая из переменных и аналогично . Затем необходимо использовать формулу замены переменных, в которой происходит преобразование Якобиана. Записывая y явно как функцию от x, получаем, что якобиан теперь выглядит так:

Определитель можно вычислить, заметив, что он остается неизменным, если к другой строке добавляются кратные строки, и добавляя каждую из первых строк K-1 к нижней строке, чтобы получить

который можно разложить вокруг нижней строки, чтобы получить значение определителя . Подставив x в совместный PDF-файл и включив определитель Якобиана, получим:

где . Правую часть можно определить как произведение PDF-файла Дирихле для и гамма-PDF для . Форма произведения показывает, что переменные Дирихле и гамма независимы, поэтому последнюю можно проинтегрировать, просто опустив ее, чтобы получить:

Что эквивалентно

при поддержке

Ниже приведен пример кода Python для рисования образца:

параметры  =  [ a1 ,  a2 ,  ... ,  ak ] образец  =  [ random . гаммапеременная ( a ,  1 )  для  a  в  параметрах ] образец  =  [ v  /  сумма ( выборка )  для  v  в  образце ]

Эта формулировка верна независимо от того, как параметризованы гамма-распределения (форма/масштаб или форма/скорость), поскольку они эквивалентны, когда масштаб и скорость равны 1,0.

Из маргинальных бета-распределений

Менее эффективный алгоритм [21] основан на том, что одномерные маргинальные и условные распределения являются бета-версиями, и действует следующим образом. Имитировать из

Затем смоделируйте по порядку следующим образом. Для моделирования из

и разреши

Наконец, установите

Эта итерационная процедура близко соответствует интуиции «перерезания струны», описанной выше.

Ниже приведен пример кода Python для рисования образца:

параметры  =  [ a1 ,  a2 ,  ... ,  ak ] xs  =  [ random . betavariate ( params [ 0 ],  sum ( params [ 1 :]))] для  j  в  диапазоне ( 1 ,  len ( params )  -  1 ):  phi  =  random . бета-переменная ( params [ j ],  sum ( params [ j  +  1  :]))  xs . добавить (( 1  -  сумма ( xs ))  *  фи ) xs . добавить ( 1  -  сумма ( xs ))

Когда каждая альфа равна 1

Когда α 1 = ... = α K = 1 , выборку из распределения можно найти, случайным образом вытянув набор значений K − 1 независимо и равномерно из интервала [0, 1] , добавив значения 0 и 1 к набор, чтобы он имел значения K + 1 , сортировку набора и вычисление разницы между каждой парой соседних по порядку значений, чтобы получить x 1 , ..., x K .

Когда каждая альфа равна 1/2 и отношение к гиперсфере

Когда α 1 = ... = α K = 1/2 , выборку из распределения можно найти, случайным образом выбрав значения K независимо от стандартного нормального распределения, возведя эти значения в квадрат и нормализовав их путем деления на их сумму, чтобы получить х 1 , ..., х К .

Точку ( x 1 , ..., x K ) можно равномерно случайным образом нарисовать из ( K − 1 )-мерной гиперсферы (которая является поверхностью K -мерного гипершара ) с помощью аналогичной процедуры. Случайным образом нарисуйте значения K независимо от стандартного нормального распределения и нормализуйте эти значения координат, разделив каждое из них на константу, которая является квадратным корнем из суммы их квадратов.

Смотрите также

Рекомендации

  1. ^ С. Коц; Н. Балакришнан; Н.Л. Джонсон (2000). Непрерывные многомерные распределения. Том 1: Модели и приложения . Нью-Йорк: Уайли. ISBN 978-0-471-18387-7.(Глава 49: Дирихле и обращенные распределения Дирихле)
  2. ^ Олкин, Ингрэм; Рубин, Герман (1964). «Многомерные бета-распределения и свойства независимости распределения Уишарта». Анналы математической статистики . 35 (1): 261–269. дои : 10.1214/aoms/1177703748 . JSTOR  2238036.
  3. ^ аб Бела А. Фриджик; Амол Капила; Майя Р. Гупта (2010). «Введение в распределение Дирихле и связанные с ним процессы» (PDF) . Факультет электротехники Вашингтонского университета. Архивировано из оригинала (Технический отчет UWEETR-2010-006) 19 февраля 2015 г.
  4. ^ Уравнение. (49.9) на странице 488 книги Коц, Балакришнан и Джонсон (2000). Непрерывные многомерные распределения. Том 1: Модели и приложения. Нью-Йорк: Уайли.
  5. ^ БалакришВ. Б. (2005). «Глава 27. Распределение Дирихле»». Букварь по статистическим распределениям . Хобокен, Нью-Джерси: John Wiley & Sons, Inc., с. 274. ИСБН 978-0-471-42798-8.
  6. ^ Хоффманн, Тилль. «Моменты распределения Дирихле». Архивировано из оригинала 14 февраля 2016 г. Проверено 14 февраля 2016 г.
  7. Кристофер М. Бишоп (17 августа 2006 г.). Распознавание образов и машинное обучение. Спрингер. ISBN 978-0-387-31073-2.
  8. ^ Фэрроу, Малькольм. «Байесова статистика MAS3301» (PDF) . Университет Ньюкасла . Проверено 10 апреля 2013 г.
  9. ^ Линь, Цзяю (2016). О распределении Дирихле (PDF) . Кингстон, Канада: Королевский университет. п. п. 2.4.9.
  10. ^ Нгуен, Дуй. «ГЛУБОКОЕ ВВЕДЕНИЕ В ВАРИАЦИОННОЕ ЗАМЕЧАНИЕ». ССНР  4541076 . Проверено 15 августа 2023 г.
  11. ^ Сонг, Кай-Шэн (2001). «Информация Реньи, логарифмическое правдоподобие и внутренняя мера распределения». Журнал статистического планирования и выводов . Эльзевир. 93 (325): 51–69. дои : 10.1016/S0378-3758(00)00169-5.
  12. ^ Неменман, Илья; Шафи, Фариэль; Бялек, Уильям (2002). Энтропия и вывод, еще раз (PDF) . НИПС 14., экв. 8
  13. ^ Коннор, Роберт Дж.; Мосиманн, Джеймс Э. (1969). «Концепции независимости пропорций с обобщением распределения Дирихле». Журнал Американской статистической ассоциации . Американская статистическая ассоциация. 64 (325): 194–206. дои : 10.2307/2283728. JSTOR  2283728.
  14. ^ См. Коц, Балакришнан и Джонсон (2000), раздел 8.5, «Обобщение Коннора и Мосиманна», стр. 519–521.
  15. ^ Филлипс, PCB (1988). «Характеристическая функция распределения Дирихле и многомерного F-распределения» (PDF) . Документ для обсуждения Фонда Коулза 865 .
  16. ^ Гриншпан, Аризона (2017). «Неравенство для множественных сверток относительно вероятностной меры Дирихле». Достижения прикладной математики . 82 (1): 102–119. дои : 10.1016/j.aam.2016.08.001 .
  17. ^ Аб Деврой, Люк (1986). Генерация неоднородной случайной переменной. Спрингер-Верлаг. ISBN 0-387-96305-7.
  18. ^ Лефкиммиатис, Стаматиос; Марагос, Петрос; Папандреу, Джордж (2009). «Байесовский вывод на многомасштабных моделях для оценки пуассоновской интенсивности: приложения к шумоподавлению изображений с ограничением фотонов». Транзакции IEEE при обработке изображений . 18 (8): 1724–1741. Бибкод : 2009ITIP...18.1724L. дои : 10.1109/TIP.2009.2022008. PMID  19414285. S2CID  859561.
  19. ^ Андреоли, Жан-Марк (2018). «Сопряженный априор распределения Дирихле». arXiv : 1811.05266 [cs.LG].
  20. ^ Блэквелл, Дэвид; МакКуин, Джеймс Б. (1973). «Распределения Фергюсона через схемы урн Пойа». Анна. Стат . 1 (2): 353–355. дои : 10.1214/aos/1176342372 .
  21. ^ А. Гельман; Дж. Б. Карлин; Х.С. Штерн; Д.Б. Рубин (2003). Байесовский анализ данных (2-е изд.). Чепмен и Холл/CRC. стр. 582. ISBN. 1-58488-388-Х.

Внешние ссылки