Носитель распределения Дирихле — это набор K -мерных векторов , элементы которых являются действительными числами в интервале [0,1], такими что , т.е. сумма координат равна 1. Их можно рассматривать как вероятности K -мерного категориального события. Другой способ выразить это состоит в том, что область распределения Дирихле сама по себе является набором распределений вероятностей , в частности набором K -мерных дискретных распределений . Техническим термином для набора точек в носителе K -мерного распределения Дирихле является открытый стандартный ( K − 1)-симплекс , [3] , который является обобщением треугольника , встроенного в следующее более высокое измерение. Например, при K = 3 опора представляет собой равносторонний треугольник, вложенный углом вниз в трехмерное пространство, с вершинами в точках (1,0,0), (0,1,0) и (0,0,1), т.е. касающийся каждой из осей координат в точке, отстоящей на 1 единицу от начала координат.
Особые случаи
Распространенным частным случаем является симметричное распределение Дирихле , где все элементы, составляющие вектор параметров, имеют одинаковое значение. Симметричный случай может быть полезен, например, когда требуется предварительное распределение Дирихле по компонентам, но нет никаких предварительных знаний, отдающих предпочтение одному компоненту перед другим. Поскольку все элементы вектора параметров имеют одинаковое значение, симметричное распределение Дирихле может быть параметризовано одним скалярным значением α , называемым параметром концентрации . В терминах α функция плотности имеет вид
Когда α = 1 [1] , симметричное распределение Дирихле эквивалентно равномерному распределению по открытому стандартному ( K − 1)-симплексу , т. е. оно равномерно по всем точкам своего носителя . Это конкретное распределение известно как плоское распределение Дирихле . Значения параметра концентрации выше 1 предпочитают переменные , которые являются плотными, равномерно распределенными распределениями, т. е. все значения в пределах одного образца похожи друг на друга. Значения параметра концентрации ниже 1 предпочитают разреженные распределения, т. е. большинство значений в пределах одного образца будут близки к 0, и подавляющее большинство массы будет сосредоточено в нескольких значениях.
В более общем смысле вектор параметров иногда записывается как произведение ( скалярного ) параметра концентрации α и ( векторной ) базовой меры , где лежит в пределах ( K − 1)-симплекса (т. е. его координаты в сумме дают единицу). Параметр концентрации в этом случае больше на коэффициент K, чем параметр концентрации для симметричного распределения Дирихле, описанного выше. Эта конструкция связана с концепцией базовой меры при обсуждении процессов Дирихле и часто используется в литературе по моделированию тем.
^ Если мы определим параметр концентрации как сумму параметров Дирихле для каждого измерения, то распределение Дирихле с параметром концентрации K , размерностью распределения, будет равномерным распределением на ( K − 1)-симплексе.
В более общем виде моменты случайных величин, распределенных по Дирихле, можно выразить следующим образом. Для обозначим через -ю степень Адамара . Тогда [6]
где сумма берется по неотрицательным целым числам с , а — полином индекса цикла симметрической группы степени .
Многомерный аналог для векторов может быть выражен [7] в терминах цветового узора показателей степеней в смысле теоремы Полиа о перечислении .
Частные случаи включают простое вычисление [8]
Режим
Мода распределения — это [ 9] вектор ( x 1 , ..., x K ) с
Распределение Дирихле — это сопряженное априорное распределение категориального распределения (общее дискретное распределение вероятностей с заданным числом возможных результатов) и мультиномиального распределения (распределение по наблюдаемым подсчетам каждой возможной категории в наборе категориально распределенных наблюдений). Это означает, что если точка данных имеет категориальное или мультиномиальное распределение, а априорное распределение параметра распределения (вектор вероятностей, который генерирует точку данных) распределено как Дирихле, то апостериорное распределение параметра также является Дирихле. Интуитивно понятно, что в таком случае, начиная с того, что мы знаем о параметре до наблюдения точки данных, мы затем можем обновить наши знания на основе точки данных и в итоге получить новое распределение той же формы, что и старое. Это означает, что мы можем последовательно обновлять наши знания о параметре, включая новые наблюдения по одному за раз, не сталкиваясь с математическими трудностями.
Формально это можно выразить следующим образом. Дана модель
то справедливо следующее:
Это отношение используется в байесовской статистике для оценки базового параметра p категориального распределения , заданного набором из N образцов. Интуитивно мы можем рассматривать гиперприорный вектор α как псевдосчетчики , т.е. как представляющий количество наблюдений в каждой категории, которые мы уже видели. Затем мы просто добавляем счетчики для всех новых наблюдений (вектор c ), чтобы вывести апостериорное распределение.
Следующая формула для может быть использована для вывода дифференциальной энтропии выше. Поскольку функции являются достаточной статистикой распределения Дирихле, дифференциальные тождества экспоненциального семейства могут быть использованы для получения аналитического выражения для ожидания (см. уравнение (2.62) в [12] ) и его связанной ковариационной матрицы:
Спектр информации Реньи для значений, отличных от , определяется выражением [13]
а информационная энтропия — это предел, стремящийся к 1.
Другая связанная интересная мера — энтропия дискретного категориального (один из K двоичных) вектора с распределением вероятностной массы , т.е. . Условная информационная энтропия , заданная как
Эта функция является скалярной случайной величиной. Если имеет симметричное распределение Дирихле со всеми , то ожидаемое значение энтропии (в нац. единицах ) равно [14]
Агрегация
Если
тогда, если случайные величины с индексами i и j исключить из вектора и заменить их суммой,
Это свойство агрегации может быть использовано для получения предельного распределения, упомянутого выше.
Нейтральность
Если , то вектор X называется нейтральным [15] в том смысле, что X K не зависит от [3] , где
и аналогично для удаления любого из . Заметим, что любая перестановка X также нейтральна (свойство, которым не обладают выборки, взятые из обобщенного распределения Дирихле ). [16]
Объединяя это со свойством агрегации, следует, что X j + ... + X K не зависит от . Фактически, для распределения Дирихле верно, что для , пара , и два вектора и , рассматриваемые как тройка нормализованных случайных векторов, являются взаимно независимыми . Аналогичный результат верен для разбиения индексов {1,2,..., K } на любую другую пару несинглетонных подмножеств.
Сумма берется по неотрицательным целым числам и . Филлипс далее утверждает, что эта форма «неудобна для численных вычислений» и дает альтернативу в терминах комплексного интеграла по траектории :
где L обозначает любой путь в комплексной плоскости, начинающийся в , охватывающий в положительном направлении все особенности подынтегральной функции и возвращающийся в .
Неравенство
Функция плотности вероятности играет ключевую роль в многофункциональном неравенстве, которое подразумевает различные границы для распределения Дирихле. [18]
Хотя X i не являются независимыми друг от друга, можно увидеть, что они генерируются из набора K независимых гамма- случайных величин. [19] : 594 К сожалению, поскольку сумма V теряется при формировании X (на самом деле можно показать, что V стохастически независима от X ), невозможно восстановить исходные гамма-случайные величины только из этих значений. Тем не менее, поскольку с независимыми случайными величинами работать проще, эта перепараметризация все еще может быть полезна для доказательств свойств распределения Дирихле.
Сопряженное априорное распределение Дирихле
Поскольку распределение Дирихле является экспоненциальным распределением семейства, оно имеет сопряженное априорное распределение. Сопряженное априорное распределение имеет вид: [20]
Здесь — K -мерный вещественный вектор, а — скалярный параметр. Область определения ограничена набором параметров, для которых указанная выше ненормализованная функция плотности может быть нормализована. (Необходимое и достаточное) условие: [21]
Свойство сопряжения можно выразить как
если [ априорное : ] и [ наблюдение : ], то [ апостериорное : ].
В опубликованной литературе не представлено практического алгоритма для эффективного создания выборок из .
Вывод по иерархическим байесовским моделям часто делается с использованием выборки Гиббса , и в таком случае примеры распределения Дирихле обычно маргинализируются из модели путем интегрирования случайной величины Дирихле . Это приводит к тому, что различные категориальные переменные, извлеченные из одной и той же случайной величины Дирихле, становятся коррелированными, и совместное распределение по ним предполагает распределение Дирихле-мультиномиала , обусловленное гиперпараметрами распределения Дирихле ( параметрами концентрации ). Одна из причин для этого заключается в том, что выборка Гиббса распределения Дирихле-мультиномиала чрезвычайно проста; см. эту статью для получения дополнительной информации.
Интуитивные интерпретации параметров
Параметр концентрации
Распределения Дирихле очень часто используются в качестве априорных распределений в байесовском выводе . Простейшим и, возможно, наиболее распространенным типом априорного распределения Дирихле является симметричное распределение Дирихле, где все параметры равны. Это соответствует случаю, когда у вас нет априорной информации, чтобы отдать предпочтение одному компоненту перед любым другим. Как описано выше, единственное значение α , которому задаются все параметры, называется параметром концентрации . Если выборочное пространство распределения Дирихле интерпретировать как дискретное распределение вероятностей , то интуитивно параметр концентрации можно рассматривать как определение того, насколько «концентрирована» масса вероятности распределения Дирихле к его центру, что приводит к образцам с массой, распределенной почти равномерно среди всех компонентов, т. е. при значении, намного меньшем 1, масса будет сильно сконцентрирована в нескольких компонентах, а все остальные будут иметь почти нулевую массу, а при значении, намного большем 1, масса будет распределена почти равномерно среди всех компонентов. Для дальнейшего обсуждения см. статью о параметре концентрации .
Резка струны
Одним из примеров использования распределения Дирихле является случай, когда требуется разрезать строки (каждая с начальной длиной 1,0) на K частей разной длины, где каждая часть имеет определенную среднюю длину, но допускает некоторую вариацию в относительных размерах частей. Напомним, что Значения определяют средние длины разрезанных частей строки, полученных в результате распределения. Дисперсия вокруг этого среднего обратно пропорциональна .
Рассмотрим урну, содержащую шары K разных цветов. Первоначально урна содержит α 1 шаров цвета 1, α 2 шаров цвета 2 и т. д. Теперь выполним N извлечений из урны, где после каждого извлечения шар помещается обратно в урну с дополнительным шаром того же цвета. В пределе, когда N стремится к бесконечности, доли разноцветных шаров в урне будут распределены как Dir( α 1 ,..., α K ). [22]
Для формального доказательства отметим, что пропорции разноцветных шаров образуют ограниченный [0,1] K -значный мартингал , следовательно, по теореме о сходимости мартингала эти пропорции сходятся почти наверняка и в среднем к предельному случайному вектору. Чтобы увидеть, что этот предельный вектор имеет указанное выше распределение Дирихле, проверьте, что все смешанные моменты совпадают.
Каждое вытягивание из урны изменяет вероятность вытягивания шара любого цвета из урны в будущем. Это изменение уменьшается с числом вытягиваний, поскольку относительный эффект добавления нового шара в урну уменьшается по мере того, как урна накапливает все большее число шаров.
Генерация случайных величин
Из гамма-распределения
Имея источник гамма-распределенных случайных величин, можно легко выбрать случайный вектор из K -мерного распределения Дирихле с параметрами . Сначала выберем K независимых случайных выборок из гамма-распределений, каждая из которых имеет плотность
а затем установить
[Доказательство]
Совместное распределение независимо выбранных гамма-переменных, , определяется произведением:
Далее используется замена переменных, параметризуемая в терминах и , и выполняется замена переменных из таким образом, что . Каждая из переменных и аналогично . Затем необходимо использовать формулу замены переменных, в которой есть якобиан преобразования. Записывая y явно как функцию x, получаем
Якобиан теперь выглядит как
Определитель можно оценить, заметив, что он остается неизменным, если кратные одной строке добавляются к другой строке, и добавив каждую из первых K-1 строк к нижней строке, чтобы получить
который можно разложить по нижней строке, чтобы получить значение определителя . Подставляя x в совместную функцию PDF и включая определитель Якоби, получаем:
где . Правую часть можно распознать как произведение функции распределения плотности вероятности Дирихле для и функции распределения плотности вероятности гамма-распределения для . Форма произведения показывает, что переменные Дирихле и гамма-распределения независимы, поэтому последнюю можно проинтегрировать, просто опустив ее, чтобы получить:
Что эквивалентно
с поддержкой
Ниже приведен пример кода Python для рисования образца:
параметры = [ a1 , a2 , ... , ak ] выборка = [ случайная.гаммавариация ( a , 1 ) для a в параметрах ] выборка = [ v / сумма ( выборка ) для v в выборке ]
Эта формулировка верна независимо от того, как параметризованы гамма-распределения (форма/масштаб или форма/скорость), поскольку они эквивалентны, когда масштаб и скорость равны 1,0.
Из предельных бета-распределений
Менее эффективный алгоритм [23] основан на том, что одномерные маргинальные и условные распределения являются бета-распределениями, и действует следующим образом. Моделирование из
Затем моделируйте в следующем порядке. Для моделируйте из
и пусть
Наконец, установите
Эта итеративная процедура тесно связана с интуицией «разрезания струны», описанной выше.
Ниже приведен пример кода Python для рисования образца:
Когда α 1 = ... = α K = 1 , выборку из распределения можно найти, случайным образом выбрав набор из K − 1 значений независимо и равномерно из интервала [0, 1] , добавив значения 0 и 1 к набору, чтобы получить K + 1 значений, отсортировав набор и вычислив разницу между каждой парой соседних по порядку значений, чтобы получить x 1 , ..., x K .
Когда каждая альфа равна 1/2 и отношение к гиперсфере
Когда α 1 = ... = α K = 1/2 , выборку из распределения можно найти, случайным образом выбрав значения K независимо от стандартного нормального распределения, возведя эти значения в квадрат и нормализуя их путем деления на их сумму, чтобы получить x 1 , ..., x K .
Точка ( x 1 , ..., x K ) может быть равномерно наугад нарисована на ( K −1 )-мерной гиперсфере (которая является поверхностью K -мерного гипершара ) с помощью аналогичной процедуры. Случайно нарисуйте значения K независимо от стандартного нормального распределения и нормализуйте эти значения координат, разделив каждое на константу, которая является квадратным корнем из суммы их квадратов.
^ S. Kotz; N. Balakrishnan; NL Johnson (2000). Непрерывные многомерные распределения. Том 1: Модели и приложения . Нью-Йорк: Wiley. ISBN 978-0-471-18387-7.(Глава 49: Распределение Дирихле и обратное распределение Дирихле)
^ Олкин, Ингрэм; Рубин, Герман (1964). «Многомерные бета-распределения и независимые свойства распределения Уишарта». Анналы математической статистики . 35 (1): 261–269. doi : 10.1214/aoms/1177703748 . JSTOR 2238036.
^ ab Bela A. Frigyik; Amol Kapila; Maya R. Gupta (2010). "Введение в распределение Дирихле и связанные с ним процессы" (PDF) . Кафедра электротехники Вашингтонского университета. Архивировано из оригинала (Технический отчет UWEETR-2010-006) 19 февраля 2015 г.
^ Уравнение (49.9) на стр. 488 Kotz, Balakrishnan & Johnson (2000). Непрерывные многомерные распределения. Том 1: Модели и приложения. Нью-Йорк: Wiley.
^ Балакриш В. Б. (2005). ""Глава 27. Распределение Дирихле"". Учебник статистических распределений . Хобокен, Нью-Джерси: John Wiley & Sons, Inc. стр. 274. ISBN978-0-471-42798-8.
^ Делло Скьяво, Лоренцо (2019). «Характерные функционалы мер Дирихле». Electron. J. Probab . 24 : 1–38. arXiv : 1810.09790 . doi : 10.1214/19-EJP371 – через Project Euclid.
^ Делло Скьяво, Лоренцо; Кватрокки, Филиппо (2023). «Многомерные моменты Дирихле и полихроматическая формула выборки Юэнса». arXiv : 2309.11292 [мат.PR].
^ Хоффман, Тилл. "Моменты распределения Дирихле". Архивировано из оригинала 2016-02-14 . Получено 14 февраля 2016 .
↑ Кристофер М. Бишоп (17 августа 2006 г.). Распознавание образов и машинное обучение. Springer. ISBN978-0-387-31073-2.
^ Фэрроу, Малкольм. "MAS3301 Bayesian Statistics" (PDF) . Newcastle University . Получено 10 апреля 2013 г. .
^ Линь, Цзяюй (2016). О распределении Дирихле (PDF) . Кингстон, Канада: Университет Квинс. С. § 2.4.9.
^ Нгуен, Дуй. "УГЛУБЛЕННОЕ ВВЕДЕНИЕ В ВАРИАЦИОННУЮ ЗАМЕТКУ БАЙЕСА". SSRN 4541076. Получено 15 августа 2023 г.
^ Сонг, Кай-Шэн (2001). «Информация Реньи, логарифмическая правдоподобность и внутренняя мера распределения». Журнал статистического планирования и вывода . 93 (325). Elsevier: 51–69. doi :10.1016/S0378-3758(00)00169-5.
^ Неменман, Илья; Шафи, Фариэль; Биалек, Уильям (2002). Энтропия и вывод, пересмотр (PDF) . NIPS 14., ур. 8
^ Коннор, Роберт Дж.; Мосиманн, Джеймс Э. (1969). «Концепции независимости для пропорций с обобщением распределения Дирихле». Журнал Американской статистической ассоциации . 64 (325). Американская статистическая ассоциация: 194–206. doi :10.2307/2283728. JSTOR 2283728.
↑ См. Kotz, Balakrishnan & Johnson (2000), раздел 8.5, «Обобщение Коннора и Мосиманна», стр. 519–521.
^ Филлипс, ПЦБ (1988). "Характерная функция Дирихле и многомерное F-распределение" (PDF) . Дискуссионный документ Cowles Foundation 865 .
^ Гриншпан, AZ (2017). «Неравенство для множественных сверток относительно меры вероятности Дирихле». Успехи в прикладной математике . 82 (1): 102–119. doi : 10.1016/j.aam.2016.08.001 .
^ Lefkimmiatis, Stamatios; Maragos, Petros; Papandreou, George (2009). «Байесовский вывод на основе многомасштабных моделей для оценки интенсивности Пуассона: применение к ограниченному фотонами шумоподавлению изображений». Труды IEEE по обработке изображений . 18 (8): 1724–1741. Bibcode : 2009ITIP...18.1724L. doi : 10.1109/TIP.2009.2022008. PMID 19414285. S2CID 859561.
^ Блэквелл, Дэвид; Маккуин, Джеймс Б. (1973). «Распределения Фергюсона через схемы урн Полиа». Ann. Stat . 1 (2): 353–355. doi : 10.1214/aos/1176342372 .
^ A. Gelman; JB Carlin; HS Stern; DB Rubin (2003). Байесовский анализ данных (2-е изд.). Chapman & Hall/CRC. стр. 582. ISBN1-58488-388-X.