В теории вероятностей процессы Дирихле (по названию распределения, связанного с Петером Густавом Леженом Дирихле ) представляют собой семейство стохастических процессов , реализациями которых являются распределения вероятностей . Другими словами, процесс Дирихле представляет собой распределение вероятностей, диапазон которого сам по себе является набором распределений вероятностей. Он часто используется в байесовском выводе для описания априорных знаний о распределении случайных величин — насколько вероятно, что случайные величины распределены в соответствии с тем или иным конкретным распределением.
Например, мешок из 100 реальных игральных костей — это случайная функция массы вероятности (случайная pmf) — чтобы получить эту случайную pmf, вы кладете руку в мешок и вытаскиваете кость, то есть вы вытягиваете pmf. Мешок игральных костей, изготовленный с использованием грубого процесса 100 лет назад, скорее всего, будет иметь вероятности, которые сильно отклоняются от равномерной pmf, тогда как мешок современных игральных костей, используемых казино Лас-Вегаса, может иметь едва заметные недостатки. Мы можем смоделировать случайность pmf с помощью распределения Дирихле. [1]
Процесс Дирихле задается базовым распределением и положительным действительным числом , называемым параметром концентрации (также известным как параметр масштабирования). Базовое распределение является ожидаемым значением процесса, т. е. процесс Дирихле рисует распределения «вокруг» базового распределения так же, как нормальное распределение рисует действительные числа вокруг своего среднего значения. Однако даже если базовое распределение непрерывно , распределения, полученные из процесса Дирихле, почти наверняка являются дискретными . Параметр масштабирования определяет, насколько сильна эта дискретизация: в пределе все реализации концентрируются в одном значении, в то время как в пределе реализации становятся непрерывными. Между двумя крайностями реализации являются дискретными распределениями с все меньшей и меньшей концентрацией по мере увеличения.
Процесс Дирихле можно также рассматривать как бесконечномерное обобщение распределения Дирихле . Точно так же, как распределение Дирихле является сопряженным априорным распределением для категориального распределения , процесс Дирихле является сопряженным априорным распределением для бесконечных непараметрических дискретных распределений. Особенно важным применением процессов Дирихле является априорное распределение вероятностей в моделях бесконечной смеси .
Процесс Дирихле был официально представлен Томасом С. Фергюсоном в 1973 году. [2] С тех пор он применяется в интеллектуальном анализе данных и машинном обучении , в том числе для обработки естественного языка , компьютерного зрения и биоинформатики .
Процессы Дирихле обычно используются при моделировании данных, которые имеют тенденцию повторять предыдущие значения в так называемой манере "богатые становятся богаче". В частности, предположим, что генерация значений может быть смоделирована следующим алгоритмом.
а) С вероятностью вытягивания из .
б) При заданной вероятности , где — число предыдущих наблюдений .
(Формально, где обозначает количество элементов в наборе.)
В то же время, другая общая модель для данных заключается в том, что наблюдения предполагаются независимыми и одинаково распределенными (iid) в соответствии с некоторым (случайным) распределением . Целью введения процессов Дирихле является возможность описать процедуру, описанную выше в этой модели iid.
Наблюдения в алгоритме не являются независимыми , поскольку мы должны учитывать предыдущие результаты при генерации следующего значения. Однако они взаимозаменяемы . Этот факт можно показать, вычислив совместное распределение вероятностей наблюдений и заметив, что полученная формула зависит только от того, какие значения встречаются среди наблюдений и сколько повторений у каждого из них. Из-за этой взаимозаменяемости применяется теорема представления де Финетти , и она подразумевает, что наблюдения условно независимы при заданном (скрытом) распределении . Это сама случайная величина и имеет распределение. Это распределение (по распределениям) называется процессом Дирихле ( ). Подводя итог, это означает, что мы получаем эквивалентную процедуру для приведенного выше алгоритма:
Однако на практике нарисовать конкретное распределение невозможно, поскольку его спецификация требует бесконечного количества информации. Это распространенное явление в контексте байесовской непараметрической статистики , где типичной задачей является изучение распределений на функциональных пространствах, которые фактически включают бесконечно много параметров. Ключевое понимание заключается в том, что во многих приложениях бесконечномерные распределения появляются только как промежуточное вычислительное устройство и не требуются ни для начальной спецификации предшествующих убеждений, ни для утверждения окончательного вывода.
При наличии измеримого множества S , базового распределения вероятностей H и положительного действительного числа процесс Дирихле является стохастическим процессом, выборочный путь которого (или реализация , т.е. бесконечная последовательность случайных величин, взятых из процесса) является распределением вероятностей на S , таким образом, что выполняется следующее. Для любого измеримого конечного разбиения S , обозначаемого ,
где обозначает распределение Дирихле , а обозначение означает, что случайная величина имеет распределение .
Существует несколько эквивалентных представлений о процессе Дирихле. Помимо формального определения выше, процесс Дирихле может быть определен неявно через теорему де Финетти, как описано в первом разделе; это часто называют процессом китайского ресторана . Третьей альтернативой является процесс ломания палки , который определяет процесс Дирихле конструктивно, записывая распределение, выбранное из процесса, как , где — выборки из базового распределения , — индикаторная функция, центрированная на (ноль везде, кроме ), а определяются рекурсивной схемой, которая многократно делает выборки из бета-распределения .
Широко используемая метафора для процесса Дирихле основана на так называемом процессе китайского ресторана . Метафора выглядит следующим образом:
Представьте себе китайский ресторан, в который заходят клиенты. Новый клиент садится за столик с вероятностью, пропорциональной количеству уже сидящих там клиентов. Кроме того, клиент открывает новый столик с вероятностью, пропорциональной параметру масштабирования . После того, как вошло бесконечно много клиентов, мы получаем распределение вероятностей по бесконечно большому количеству столов, которые нужно выбрать. Это распределение вероятностей по столам представляет собой случайную выборку вероятностей наблюдений, взятых из процесса Дирихле с параметром масштабирования .
Если сопоставить выборки из базовой меры с каждой таблицей, то результирующее распределение по выборочному пространству будет случайной выборкой процесса Дирихле. Процесс китайского ресторана связан со схемой выборки урн Полиа , которая дает выборки из конечных распределений Дирихле.
Поскольку вероятность того, что клиенты садятся за стол, пропорциональна числу уже сидящих за столом клиентов, можно вывести два свойства DP:
Третий подход к процессу Дирихле — это так называемый взгляд на процесс ломки палки. Концептуально это подразумевает многократное ломку и отбрасывание случайной фракции (выбранной из бета-распределения) «палки», которая изначально имеет длину 1. Помните, что вытягивания из процесса Дирихле являются распределениями по множеству . Как отмечалось ранее, вытягиваемое распределение является дискретным с вероятностью 1. В представлении на процесс ломки палки мы явно используем дискретность и задаем функцию массы вероятности этого (случайного) дискретного распределения как:
где — индикаторная функция , которая везде равна нулю, за исключением . Поскольку это распределение само по себе случайно, его массовая функция параметризуется двумя наборами случайных величин: местоположениями и соответствующими вероятностями . Далее мы представим без доказательства, что представляют собой эти случайные величины.
Места независимы и одинаково распределены согласно , базовому распределению процесса Дирихле. Вероятности задаются процедурой, напоминающей ломку палки единичной длины (отсюда и название):
где — независимые случайные величины с бета-распределением . Сходство с «ломкой палки» можно увидеть, если рассматривать как длину куска палки. Мы начинаем с палки единичной длины и на каждом шаге отламываем часть оставшейся палки в соответствии с и присваиваем эту отломанную часть . Формулу можно понять, заметив, что после того, как первым k − 1 значениям назначены их части, длина остатка палки равна и эта часть ломается в соответствии и присваивается .
Чем меньше , тем меньшая часть палки останется для последующих значений (в среднем), что даст более концентрированные распределения.
Процесс расщепления аналогичен построению, где последовательно отбираются выборки из предельных бета-распределений для того, чтобы сгенерировать выборку из распределения Дирихле . [4]
Еще один способ визуализировать процесс Дирихле и процесс китайского ресторана — это модифицированная схема урн Полиа, иногда называемая схемой выборки Блэквелла–Маккуина . Представьте, что мы начинаем с урны, заполненной черными шарами. Затем мы действуем следующим образом:
Результирующее распределение по цветам такое же, как распределение по столам в процессе китайского ресторана. Более того, если, когда мы вытаскиваем черный шар, вместо генерации нового цвета, мы вместо этого выбираем случайное значение из базового распределения и используем это значение для маркировки нового шара, результирующее распределение по меткам будет таким же, как распределение по значениям в процессе Дирихле.
Процесс Дирихле может быть использован в качестве априорного распределения для оценки распределения вероятностей, которое генерирует данные. В этом разделе мы рассмотрим модель
Распределение процесса Дирихле удовлетворяет априорной сопряженности , апостериорной согласованности и теореме Бернштейна-фон Мизеса . [5]
В этой модели апостериорное распределение снова является процессом Дирихле. Это означает, что процесс Дирихле является сопряженным априорным для этой модели. Апостериорное распределение задается как
где определено ниже.
Если мы примем частотный взгляд на вероятность, мы считаем, что существует истинное распределение вероятностей , которое сгенерировало данные. Тогда оказывается, что процесс Дирихле является последовательным в слабой топологии , что означает, что для каждой слабой окрестности , апостериорная вероятность сходится к .
Для того, чтобы интерпретировать правдоподобные множества как доверительные множества, необходима теорема Бернштейна–фон Мизеса . В случае процесса Дирихле мы сравниваем апостериорное распределение с эмпирическим процессом . Предположим, что это класс -Донскера, т.е.
для некоторого Броуновского моста . Предположим также, что существует функция такая, что такая, что , тогда, почти наверняка
Это подразумевает, что построенные вами достоверные множества являются асимптотическими доверительными множествами, а байесовский вывод, основанный на процессе Дирихле, также является асимптотически допустимым частотным выводом.
Чтобы понять, что такое процессы Дирихле и какую проблему они решают, рассмотрим пример кластеризации данных . Распространенной является ситуация, когда предполагается, что точки данных распределены иерархически, где каждая точка данных принадлежит (случайно выбранному) кластеру, а члены кластера далее случайным образом распределяются внутри этого кластера.
Например, нас может интересовать, как люди будут голосовать по ряду вопросов на предстоящих выборах. Разумной моделью для этой ситуации может быть классификация каждого избирателя как либерала, консерватора или умеренного, а затем моделирование события, когда избиратель говорит «Да» на любой конкретный вопрос, как случайной величины Бернулли с вероятностью, зависящей от того, к какому политическому кластеру он принадлежит. Рассматривая, как голоса были поданы в предыдущие годы по аналогичным законодательным актам, можно подогнать прогностическую модель с помощью простого алгоритма кластеризации, такого как k -средних . Однако этот алгоритм требует предварительного знания количества кластеров, которые сгенерировали данные. Во многих ситуациях невозможно определить это заранее, и даже когда мы можем обоснованно предположить количество кластеров, мы все равно хотели бы иметь возможность проверить это предположение. Например, в приведенном выше примере голосования разделение на либерала, консерватора и умеренного может быть недостаточно точно настроено; такие атрибуты, как религия, класс или раса, также могут иметь решающее значение для моделирования поведения избирателей, что приводит к большему количеству кластеров в модели.
В качестве другого примера, нам может быть интересно моделирование скоростей галактик с использованием простой модели, предполагающей, что скорости кластеризованы, например, предполагая, что каждая скорость распределена в соответствии с нормальным распределением , где th-е наблюдение принадлежит th-му кластеру галактик с общей ожидаемой скоростью. В этом случае далеко не очевидно, как определить априори, сколько кластеров (с общими скоростями) должно быть, и любая модель для этого будет весьма подозрительной и должна быть проверена по данным. Используя априорный процесс Дирихле для распределения кластерных средних, мы обходим необходимость явно указывать заранее, сколько кластеров есть, хотя параметр концентрации все еще контролирует это неявно.
Рассмотрим этот пример более подробно. Первая наивная модель предполагает, что существуют кластеры нормально распределенных скоростей с общей известной фиксированной дисперсией . Обозначая событие, что th-е наблюдение находится в th-м кластере, как мы можем записать эту модель как:
То есть, мы предполагаем, что данные принадлежат различным кластерам со средними значениями , и это (неизвестная) априорная вероятность принадлежности точки данных к th-му кластеру. Мы предполагаем, что у нас нет начальной информации, различающей кластеры, которая фиксируется симметричным априорным распределением . Здесь обозначает распределение Дирихле , а обозначает вектор длины , где каждый элемент равен 1. Далее мы назначаем независимые и идентичные априорные распределения каждому из средних значений кластера, где может быть любое параметрическое распределение с параметрами, обозначенными как . Гиперпараметры и считаются известными фиксированными константами, выбранными для отражения наших априорных представлений о системе. Чтобы понять связь с априорными значениями процесса Дирихле, мы переписываем эту модель в эквивалентной, но более наглядную форму:
Вместо того, чтобы представлять, что каждая точка данных сначала назначается кластеру, а затем извлекается из распределения, связанного с этим кластером, мы теперь думаем, что каждое наблюдение связано с параметром, взятым из некоторого дискретного распределения с поддержкой средних . То есть, теперь мы рассматриваем как взятые из случайного распределения , и наша предварительная информация включается в модель распределением по распределениям .
Теперь мы хотели бы расширить эту модель, чтобы она работала без предварительного указания фиксированного числа кластеров . Математически это означает, что мы хотели бы выбрать случайное априорное распределение , где значения средних кластеров снова распределены независимо в соответствии с и распределение по симметрично по бесконечному набору кластеров. Это именно то, что достигается моделью:
Имея это в руках, мы можем лучше понять вычислительные достоинства процесса Дирихле. Предположим, что мы хотим извлечь наблюдения из наивной модели с точно кластерами. Простым алгоритмом для этого будет извлечение значений из , распределение из , а затем для каждого наблюдения независимо выборка кластера с вероятностью и значением наблюдения в соответствии с . Легко видеть, что этот алгоритм не работает в случае, когда мы допускаем бесконечные кластеры, поскольку это потребовало бы выборки бесконечного размерного параметра . Однако все еще возможно выборка наблюдений . Например, можно использовать представление китайского ресторана, описанное ниже, и вычислить вероятность для используемых кластеров и нового кластера, который будет создан. Это позволяет избежать необходимости явно указывать . Другие решения основаны на усечении кластеров: вводится (высокая) верхняя граница для истинного числа кластеров, и номера кластеров выше нижней границы рассматриваются как один кластер.
Подгонка модели, описанной выше, на основе наблюдаемых данных означает нахождение апостериорного распределения по вероятностям кластеров и их связанным с ними средним значениям. В бесконечномерном случае, очевидно, невозможно явно записать апостериор. Однако возможно извлечь выборки из этого апостериора с помощью модифицированного сэмплера Гиббса . [6] Это критический факт, который делает априорный процесс Дирихле полезным для вывода .
Процессы Дирихле часто используются в байесовской непараметрической статистике . «Непараметрический» здесь не означает модель без параметров, а модель, в которой представления растут по мере наблюдения большего количества данных. Байесовские непараметрические модели приобрели значительную популярность в области машинного обучения из-за вышеупомянутой гибкости, особенно в неконтролируемом обучении . В байесовской непараметрической модели априорное и апостериорное распределения являются не параметрическими распределениями, а стохастическими процессами. [7] Тот факт, что распределение Дирихле является распределением вероятностей на симплексе наборов неотрицательных чисел, которые в сумме дают единицу, делает его хорошим кандидатом для моделирования распределений по распределениям или распределений по функциям. Кроме того, непараметрическая природа этой модели делает ее идеальным кандидатом для задач кластеризации, где заранее неизвестно определенное количество кластеров. Кроме того, процесс Дирихле также использовался для разработки смеси экспертных моделей в контексте контролируемых алгоритмов обучения (настройки регрессии или классификации). Например, смеси экспертов гауссовского процесса, где количество требуемых экспертов должно быть выведено из данных. [8] [9]
Поскольку выборки из процесса Дирихле являются дискретными, важным применением является априорная вероятность в моделях бесконечной смеси . В этом случае, это параметрический набор распределений компонентов. Генеративный процесс, таким образом, заключается в том, что выборка извлекается из процесса Дирихле, и для каждой точки данных, в свою очередь, извлекается значение из этого распределения выборки и используется в качестве распределения компонентов для этой точки данных. Тот факт, что нет предела количеству отдельных компонентов, которые могут быть сгенерированы, делает этот тип модели подходящим для случая, когда количество компонентов смеси заранее не определено. Например, модель бесконечной смеси гауссианов, [10], а также связанные с ней модели регрессии смеси, например, [11]
Бесконечная природа этих моделей также позволяет использовать их в приложениях обработки естественного языка , где часто желательно рассматривать словарь как бесконечный, дискретный набор.
Процесс Дирихле также может быть использован для непараметрической проверки гипотез, т. е. для разработки байесовских непараметрических версий классических непараметрических тестов гипотез, например , критерия знаков , критерия суммы рангов Вилкоксона , критерия знаковых рангов Вилкоксона и т. д. Например, байесовские непараметрические версии критерия суммы рангов Вилкоксона и критерия знаковых рангов Вилкоксона были разработаны с использованием неточного процесса Дирихле , процесса Дирихле с априорным незнанием. [ необходима ссылка ]