В теории вероятностей процессы Дирихле (по названию распределения, связанного с Питером Густавом Леженом Дирихле ) — семейство случайных процессов , реализациями которых являются вероятностные распределения . Другими словами, процесс Дирихле — это распределение вероятностей, диапазон которого сам по себе является набором распределений вероятностей. Он часто используется в байесовском выводе для описания априорных знаний о распределении случайных величин — насколько вероятно, что случайные величины распределяются в соответствии с тем или иным конкретным распределением.
Например, мешок из 100 реальных игральных костей представляет собой случайную функцию вероятностной массы (случайная PMF) — чтобы выбрать эту случайную PMF, вы кладете руку в мешок и вытаскиваете игральную кость, то есть вы рисуете PMF. Мешок с игральными костями, изготовленный с использованием грубого процесса 100 лет назад, скорее всего, будет иметь вероятности, сильно отклоняющиеся от единообразного PMF, тогда как мешок с современными игральными костями, используемый в казино Лас-Вегаса, может иметь едва заметные недостатки. Мы можем смоделировать случайность pmfs с помощью распределения Дирихле. [1]
Процесс Дирихле задается базовым распределением и положительным действительным числом , называемым параметром концентрации (также известным как параметр масштабирования). Базовое распределение — это ожидаемое значение процесса, т. е. процесс Дирихле рисует распределения «вокруг» базового распределения так же, как нормальное распределение рисует действительные числа вокруг своего среднего значения. Однако даже если базовое распределение является непрерывным , распределения, полученные из процесса Дирихле, почти наверняка дискретны . Параметр масштабирования определяет, насколько сильной является эта дискретизация: в пределе все реализации концентрируются на одном значении, а в пределе реализации становятся непрерывными. Между двумя крайностями реализации представляют собой дискретные распределения со все меньшей и меньшей концентрацией по мере увеличения.
Процесс Дирихле также можно рассматривать как бесконечномерное обобщение распределения Дирихле . Точно так же, как распределение Дирихле является сопряженным априорным для категориального распределения , процесс Дирихле является сопряженным априорным для бесконечных непараметрических дискретных распределений. Особенно важным применением процессов Дирихле является априорное распределение вероятностей в моделях бесконечной смеси .
Процесс Дирихле был официально представлен Томасом С. Фергюсоном в 1973 году. [2] С тех пор он применяется в интеллектуальном анализе данных и машинном обучении , в том числе для обработки естественного языка , компьютерного зрения и биоинформатики .
Процессы Дирихле обычно используются при моделировании данных, которые имеют тенденцию повторять предыдущие значения, по так называемому принципу «богатые становятся богаче». В частности, предположим, что генерацию значений можно смоделировать с помощью следующего алгоритма.
а) С вероятностью извлеките из .
б) С набором вероятностей , где – количество предыдущих наблюдений .
(Формально, где обозначает количество элементов в наборе.)
В то же время другая распространенная модель данных заключается в том, что наблюдения предполагаются независимыми и одинаково распределенными (iid) в соответствии с некоторым (случайным) распределением . Целью введения процессов Дирихле является возможность описать описанную выше процедуру в этой модели iid.
Наблюдения в алгоритме не являются независимыми , поскольку нам приходится учитывать предыдущие результаты при генерации следующего значения. Однако они взаимозаменяемы . Этот факт можно продемонстрировать, рассчитав совместное распределение вероятностей наблюдений и заметив, что результирующая формула зависит только от того, какие значения встречаются среди наблюдений и сколько повторений каждое из них имеет. Из-за этой взаимозаменяемости применяется теорема о представлении де Финетти , которая подразумевает, что наблюдения условно независимы при условии (скрытого) распределения . Это сама случайная величина, имеющая распределение. Это распределение (по распределениям) называется процессом Дирихле ( ). Вкратце, это означает, что мы получаем процедуру, эквивалентную приведенному выше алгоритму:
Однако на практике нарисовать конкретное распределение невозможно, поскольку для его спецификации требуется бесконечное количество информации. Это распространенное явление в контексте байесовской непараметрической статистики, где типичной задачей является изучение распределений в функциональных пространствах, которые фактически включают бесконечное количество параметров. Ключевой вывод заключается в том, что во многих приложениях бесконечномерные распределения появляются только как промежуточное вычислительное устройство и не требуются ни для первоначальной спецификации предшествующих убеждений, ни для формулировки окончательного вывода.
При наличии измеримого набора S , базового распределения вероятностей H и положительного действительного числа процесс Дирихле представляет собой случайный процесс , путь выборки которого (или реализация , т. е. бесконечная последовательность случайных величин , взятых из процесса) представляет собой распределение вероятностей по S , такое, что имеет место следующее. Для любого измеримого конечного разбиения S , обозначаемого ,
где обозначает распределение Дирихле , а обозначение означает, что случайная величина имеет распределение .
Существует несколько эквивалентных взглядов на процесс Дирихле. Помимо формального определения, приведенного выше, процесс Дирихле можно определить неявно с помощью теоремы де Финетти, как описано в первом разделе; это часто называют процессом китайского ресторана . Третьей альтернативой является процесс разрушения палки , который конструктивно определяет процесс Дирихле, записывая распределение, выбранное из процесса, как , где - выборки из базового распределения , - индикаторная функция с центром (ноль везде, кроме ) и определяются по рекурсивной схеме, которая неоднократно производит выборку из бета-распределения .
Широко используемая метафора процесса Дирихле основана на так называемом китайском ресторанном процессе . Метафора следующая:
Представьте себе китайский ресторан, в который входят посетители. Новый клиент сядет за стол с вероятностью, пропорциональной количеству уже сидящих за ним клиентов. Дополнительно клиент открывает новую таблицу с вероятностью, пропорциональной параметру масштабирования . После того как поступило бесконечное количество клиентов, можно получить распределение вероятностей по бесконечному числу таблиц, которые необходимо выбрать. Это распределение вероятностей по таблицам представляет собой случайную выборку вероятностей наблюдений, взятых из процесса Дирихле с параметром масштабирования .
Если с каждой таблицей связать выборку из базовой меры , результирующее распределение по выборочному пространству представляет собой случайную выборку процесса Дирихле. Процесс китайского ресторана связан со схемой отбора проб из урн Полиа , которая дает выборки из конечных распределений Дирихле.
Поскольку клиенты садятся за стол с вероятностью, пропорциональной количеству клиентов, уже сидящих за столом, можно вывести два свойства DP:
Третий подход к процессу Дирихле — это так называемый взгляд на процесс разрушения палки. Концептуально это предполагает многократное отрывание и отбрасывание случайной части (выбранной из бета-распределения) «палки», изначально имеющей длину 1. Помните, что выборки из процесса Дирихле представляют собой распределения по множеству . Как отмечалось ранее, нарисованное распределение является дискретным с вероятностью 1. С точки зрения процесса разрушения палки мы явно используем дискретность и задаем массовую функцию вероятности этого (случайного) дискретного распределения как:
где – индикаторная функция , которая везде, кроме , равна нулю . Поскольку это распределение само по себе является случайным, его функция масс параметризуется двумя наборами случайных величин: местоположениями и соответствующими вероятностями . Ниже мы без доказательства представим, что представляют собой эти случайные величины.
Положения независимы и одинаково распределены в соответствии с базовым распределением процесса Дирихле. Вероятности определяются с помощью процедуры, напоминающей сломание палки единичной длины (отсюда и название):
где – независимые случайные величины с бета-распределением . Сходство со «ломкой палки» можно увидеть, если принять во внимание длину куска палки. Начнем с палочки единичной длины и на каждом шаге отламываем часть оставшейся палки в соответствии с и присваиваем этот отломанный кусок . Формулу можно понять, заметив, что после того, как первым значениям k - 1 были присвоены свои части, длина оставшейся части палочки равна, и эта часть разбивается в соответствии с и присваивается .
Чем меньше значение, тем меньше палочки останется для последующих значений (в среднем), что приведет к более концентрированному распределению.
Процесс разрушения палки аналогичен конструкции, при которой производится последовательная выборка из маргинальных бета-распределений , чтобы получить выборку из распределения Дирихле . [4]
Еще один способ визуализировать процесс Дирихле и процесс китайского ресторана — это использовать модифицированную схему урн Полиа, которую иногда называют схемой выборки Блэквелла – МакКуина . Представьте, что мы начинаем с урны, наполненной черными шарами. Дальше действуем следующим образом:
Результирующее распределение по цветам такое же, как распределение по столам в китайском ресторане. Более того, если, когда мы рисуем черный шар, вместо генерации нового цвета мы выбираем случайное значение из базового распределения и используем это значение для маркировки нового шара, результирующее распределение по меткам будет таким же, как распределение по значения в процессе Дирихле.
Процесс Дирихле можно использовать в качестве априорного распределения для оценки распределения вероятностей, генерирующего данные. В этом разделе мы рассматриваем модель
Распределение процесса Дирихле удовлетворяет априорной сопряженности , апостериорной согласованности и теореме Бернштейна-фон Мизеса . [5]
В этой модели апостериорное распределение снова представляет собой процесс Дирихле. Это означает, что процесс Дирихле является сопряженным априором для этой модели. Заднее распределение определяется выражением
где определено ниже.
Если мы примем частотный взгляд на вероятность, мы считаем, что существует истинное распределение вероятностей , которое привело к созданию данных. Тогда оказывается, что процесс Дирихле непротиворечив в слабой топологии , а это означает, что для каждой слабой окрестности апостериорная вероятность сходится к .
Чтобы интерпретировать достоверные множества как доверительные множества, необходима теорема Бернштейна – фон Мизеса . В случае процесса Дирихле мы сравниваем апостериорное распределение с эмпирическим процессом . Пусть — класс -Донскера, т.е.
для какого-нибудь Броуновского моста . Предположим также, что существует функция такая, что такая , что тогда почти наверняка
Это означает, что построенные вами достоверные множества являются асимптотическими доверительными наборами, а байесовский вывод, основанный на процессе Дирихле, также является асимптотически действительным частотным выводом.
Чтобы понять, что такое процессы Дирихле и какую задачу они решают, рассмотрим пример кластеризации данных . Обычно предполагается, что точки данных распределены иерархическим образом, где каждая точка данных принадлежит (случайно выбранному) кластеру, а члены кластера далее распределяются случайным образом внутри этого кластера.
Например, нас может интересовать, как люди будут голосовать по ряду вопросов на предстоящих выборах. Разумной моделью для этой ситуации может быть классификация каждого избирателя как либерала, консерватора или умеренного, а затем смоделировать событие, когда избиратель говорит «да» на любой конкретный вопрос, как случайную величину Бернулли с вероятностью, зависящей от того, какой политический кластер они принадлежат. Глядя на то, как в предыдущие годы отдавались голоса по аналогичным законодательным актам, можно построить прогнозную модель, используя простой алгоритм кластеризации, такой как k -means . Однако этот алгоритм требует заранее знать количество кластеров, сгенерировавших данные. Во многих ситуациях невозможно определить это заранее, и даже если мы можем разумно предположить наличие нескольких кластеров, нам все равно хотелось бы иметь возможность проверить это предположение. Например, в приведенном выше примере голосования разделение на либералов, консерваторов и умеренных может быть недостаточно четко настроено; такие атрибуты, как религия, класс или раса, также могут иметь решающее значение для моделирования поведения избирателей, что приводит к увеличению количества кластеров в модели.
В качестве другого примера нас может заинтересовать моделирование скоростей галактик с использованием простой модели, предполагающей, что скорости сгруппированы, например, предполагая, что каждая скорость распределена в соответствии с нормальным распределением , где th наблюдение принадлежит th скоплению галактик. с общей ожидаемой скоростью. В этом случае далеко не очевидно, как априори определить, сколько кластеров (общих скоростей) должно быть, и любая модель для этого будет весьма подозрительной и должна быть проверена на основе данных. Используя априорный процесс Дирихле для распределения кластерных средних, мы избегаем необходимости заранее явно указывать количество кластеров, хотя параметр концентрации по-прежнему контролирует его неявно.
Рассмотрим этот пример более подробно. Первая наивная модель предполагает, что существуют кластеры нормально распределенных скоростей с общеизвестной фиксированной дисперсией . Обозначая событие, что th наблюдение находится в th кластере, мы можем записать эту модель как:
То есть мы предполагаем, что данные принадлежат разным кластерам со средними значениями , и это (неизвестная) априорная вероятность того, что точка данных принадлежит этому кластеру. Мы предполагаем, что у нас нет исходной информации, различающей кластеры, которая фиксируется симметричным априором . Здесь обозначается распределение Дирихле и обозначается вектор длины , где каждый элемент равен 1. Далее мы присваиваем независимые и идентичные априорные распределения каждому из кластерных средних, где может быть любое параметрическое распределение с параметрами, обозначенными как . Гиперпараметры и считаются известными фиксированными константами, выбранными так, чтобы отражать наши предыдущие представления о системе. Чтобы понять связь с априорами процесса Дирихле, мы перепишем эту модель в эквивалентной, но более наводящей на размышления форме:
Вместо того, чтобы воображать, что каждой точке данных сначала присваивается кластер, а затем извлекается из распределения, связанного с этим кластером, мы теперь думаем, что каждое наблюдение связано с параметром, полученным из некоторого дискретного распределения с опорой на средние значения. То есть теперь мы рассматриваем как полученное из случайного распределения , а наша априорная информация включена в модель посредством распределения по распределениям .
Теперь мы хотели бы расширить эту модель, чтобы она работала без предварительного указания фиксированного количества кластеров . Математически это означает, что мы хотели бы выбрать случайное априорное распределение , в котором значения средних кластеров снова независимо распределяются в соответствии с , а распределение симметрично относительно бесконечного набора кластеров. Именно это и достигается моделью:
Имея это в виду, мы можем лучше понять вычислительные преимущества процесса Дирихле. Предположим, что мы хотим получить наблюдения из наивной модели именно с кластерами. Простой алгоритм для этого состоит в том, чтобы нарисовать значения from , распределение from , а затем для каждого наблюдения независимо выбрать кластер с вероятностью и значением наблюдения в соответствии с . Легко видеть, что этот алгоритм не работает в случае, когда мы допускаем бесконечные кластеры, поскольку это потребует выборки бесконечномерного параметра . Однако выборку наблюдений все же возможно . Можно, например, использовать представление китайского ресторана, описанное ниже, и вычислить вероятность создания использованных кластеров и создания нового кластера. Это позволяет избежать необходимости явно указывать . Другие решения основаны на усечении кластеров: вводится (высокая) верхняя граница истинного количества кластеров, а номера кластеров, превышающие нижнюю границу, рассматриваются как один кластер.
Подбор модели, описанной выше, на основе наблюдаемых данных означает нахождение апостериорного распределения вероятностей кластеров и связанных с ними средних значений. В бесконечномерном случае апостериор явно записать невозможно. Однако можно взять образцы из этой задней части, используя модифицированный пробоотборник Гиббса . [6] Это решающий факт, который делает процесс Дирихле полезным для вывода .
Процессы Дирихле часто используются в байесовской непараметрической статистике . «Непараметрический» здесь означает не модель без параметров, а скорее модель, в которой представления растут по мере наблюдения большего количества данных. Байесовские непараметрические модели завоевали значительную популярность в области машинного обучения из-за упомянутой выше гибкости, особенно при обучении без учителя . В байесовской непараметрической модели априорное и апостериорное распределения являются не параметрическими распределениями, а случайными процессами. [7] Тот факт, что распределение Дирихле представляет собой распределение вероятностей на симплексе наборов неотрицательных чисел, сумма которых равна единице, делает его хорошим кандидатом для моделирования распределений по распределениям или распределений по функциям. Кроме того, непараметрическая природа этой модели делает ее идеальным кандидатом для задач кластеризации, где определенное количество кластеров заранее неизвестно. Кроме того, процесс Дирихле также использовался для разработки смеси экспертных моделей в контексте алгоритмов обучения с учителем (настройки регрессии или классификации). Например, смесь экспертов гауссовского процесса, где количество необходимых экспертов должно быть выведено из данных. [8] [9]
Поскольку результаты процесса Дирихле дискретны, его важно использовать в качестве априорной вероятности в моделях бесконечной смеси . В данном случае – параметрический набор распределений компонентов. Таким образом, генеративный процесс заключается в том, что выборка извлекается из процесса Дирихле, и для каждой точки данных, в свою очередь, значение извлекается из этого распределения выборки и используется в качестве распределения компонентов для этой точки данных. Тот факт, что нет ограничений на количество различных компонентов, которые могут быть сгенерированы, делает этот тип модели подходящим для случая, когда количество компонентов смеси не определено заранее. Например, модель бесконечной смеси гауссиан, [10] , а также связанные модели регрессии смеси, например, [11]
Бесконечная природа этих моделей также позволяет использовать их в приложениях обработки естественного языка , где часто желательно рассматривать словарь как бесконечный дискретный набор.
Процесс Дирихле также можно использовать для непараметрической проверки гипотез, т. е. для разработки байесовских непараметрических версий классических непараметрических тестов гипотез, например, знакового критерия , критерия суммы рангов Уилкоксона , критерия знакового ранга Вилкоксона и т. д. Например, байесовские непараметрические версии Критерий суммы рангов Уилкоксона и критерий знакового ранга Уилкоксона были разработаны с использованием неточного процесса Дирихле , процесса Дирихле предварительного незнания. [ нужна цитата ]