stringtranslate.com

Процесс Дирихле

Рисует процесс Дирихле . В четырех строках используются разные альфа-каналы (сверху вниз: 1, 10, 100 и 1000), и каждая строка содержит три повторения одного и того же эксперимента. Как видно из графиков, результаты процесса Дирихле представляют собой дискретные распределения, и они становятся менее концентрированными (более разбросанными) с увеличением . Графики были построены с использованием представления процесса разрушения палочки процесса Дирихле.

В теории вероятностей процессы Дирихле (по названию распределения, связанного с Питером Густавом Леженом Дирихле ) — семейство случайных процессов , реализациями которых являются вероятностные распределения . Другими словами, процесс Дирихле — это распределение вероятностей, диапазон которого сам по себе является набором распределений вероятностей. Он часто используется в байесовском выводе для описания априорных знаний о распределении случайных величин — насколько вероятно, что случайные величины распределяются в соответствии с тем или иным конкретным распределением.

Например, мешок из 100 реальных игральных костей представляет собой случайную функцию вероятностной массы (случайная PMF) — чтобы выбрать эту случайную PMF, вы кладете руку в мешок и вытаскиваете игральную кость, то есть вы рисуете PMF. Мешок с игральными костями, изготовленный с использованием грубого процесса 100 лет назад, скорее всего, будет иметь вероятности, сильно отклоняющиеся от единообразного PMF, тогда как мешок с современными игральными костями, используемый в казино Лас-Вегаса, может иметь едва заметные недостатки. Мы можем смоделировать случайность pmfs с помощью распределения Дирихле. [1]

Процесс Дирихле задается базовым распределением и положительным действительным числом , называемым параметром концентрации (также известным как параметр масштабирования). Базовое распределение — это ожидаемое значение процесса, т. е. процесс Дирихле рисует распределения «вокруг» базового распределения так же, как нормальное распределение рисует действительные числа вокруг своего среднего значения. Однако даже если базовое распределение является непрерывным , распределения, полученные из процесса Дирихле, почти наверняка дискретны . Параметр масштабирования определяет, насколько сильной является эта дискретизация: в пределе все реализации концентрируются на одном значении, а в пределе реализации становятся непрерывными. Между двумя крайностями реализации представляют собой дискретные распределения со все меньшей и меньшей концентрацией по мере увеличения.

Процесс Дирихле также можно рассматривать как бесконечномерное обобщение распределения Дирихле . Точно так же, как распределение Дирихле является сопряженным априорным для категориального распределения , процесс Дирихле является сопряженным априорным для бесконечных непараметрических дискретных распределений. Особенно важным применением процессов Дирихле является априорное распределение вероятностей в моделях бесконечной смеси .

Процесс Дирихле был официально представлен Томасом С. Фергюсоном в 1973 году. [2] С тех пор он применяется в интеллектуальном анализе данных и машинном обучении , в том числе для обработки естественного языка , компьютерного зрения и биоинформатики .

Введение

Процессы Дирихле обычно используются при моделировании данных, которые имеют тенденцию повторять предыдущие значения, по так называемому принципу «богатые становятся богаче». В частности, предположим, что генерацию значений можно смоделировать с помощью следующего алгоритма.

Входные данные: (распределение вероятностей, называемое базовым распределением), (положительное действительное число, называемое параметром масштабирования )
Для :

а) С вероятностью извлеките из .

б) С набором вероятностей , где – количество предыдущих наблюдений .
(Формально, где обозначает количество элементов в наборе.)

В то же время другая распространенная модель данных заключается в том, что наблюдения предполагаются независимыми и одинаково распределенными (iid) в соответствии с некоторым (случайным) распределением . Целью введения процессов Дирихле является возможность описать описанную выше процедуру в этой модели iid.

Наблюдения в алгоритме не являются независимыми , поскольку нам приходится учитывать предыдущие результаты при генерации следующего значения. Однако они взаимозаменяемы . Этот факт можно продемонстрировать, рассчитав совместное распределение вероятностей наблюдений и заметив, что результирующая формула зависит только от того, какие значения встречаются среди наблюдений и сколько повторений каждое из них имеет. Из-за этой взаимозаменяемости применяется теорема о представлении де Финетти , которая подразумевает, что наблюдения условно независимы при условии (скрытого) распределения . Это сама случайная величина, имеющая распределение. Это распределение (по распределениям) называется процессом Дирихле ( ). Вкратце, это означает, что мы получаем процедуру, эквивалентную приведенному выше алгоритму:

  1. Нарисуйте распределение из
  2. Проводите наблюдения независимо от .

Однако на практике нарисовать конкретное распределение невозможно, поскольку для его спецификации требуется бесконечное количество информации. Это распространенное явление в контексте байесовской непараметрической статистики, где типичной задачей является изучение распределений в функциональных пространствах, которые фактически включают бесконечное количество параметров. Ключевой вывод заключается в том, что во многих приложениях бесконечномерные распределения появляются только как промежуточное вычислительное устройство и не требуются ни для первоначальной спецификации предшествующих убеждений, ни для формулировки окончательного вывода.

Формальное определение

При наличии измеримого набора S , базового распределения вероятностей H и положительного действительного числа процесс Дирихле представляет собой случайный процесс , путь выборки которого (или реализация , т. е. бесконечная последовательность случайных величин , взятых из процесса) представляет собой распределение вероятностей по S , такое, что имеет место следующее. Для любого измеримого конечного разбиения S , обозначаемого ,

где обозначает распределение Дирихле , а обозначение означает, что случайная величина имеет распределение .

Альтернативные взгляды

Существует несколько эквивалентных взглядов на процесс Дирихле. Помимо формального определения, приведенного выше, процесс Дирихле можно определить неявно с помощью теоремы де Финетти, как описано в первом разделе; это часто называют процессом китайского ресторана . Третьей альтернативой является процесс разрушения палки , который конструктивно определяет процесс Дирихле, записывая распределение, выбранное из процесса, как , где - выборки из базового распределения , - индикаторная функция с центром (ноль везде, кроме ) и определяются по рекурсивной схеме, которая неоднократно производит выборку из бета-распределения .

Процесс в китайском ресторане

Анимация процесса работы китайского ресторана с параметром масштабирования . Таблицы скрываются, если клиенты таблицы больше не могут отображаться; однако за каждым столом бесконечно много мест. (Запись интерактивной анимации. [3] )

Широко используемая метафора процесса Дирихле основана на так называемом китайском ресторанном процессе . Метафора следующая:

Представьте себе китайский ресторан, в который входят посетители. Новый клиент сядет за стол с вероятностью, пропорциональной количеству уже сидящих за ним клиентов. Дополнительно клиент открывает новую таблицу с вероятностью, пропорциональной параметру масштабирования . После того как поступило бесконечное количество клиентов, можно получить распределение вероятностей по бесконечному числу таблиц, которые необходимо выбрать. Это распределение вероятностей по таблицам представляет собой случайную выборку вероятностей наблюдений, взятых из процесса Дирихле с параметром масштабирования .

Если с каждой таблицей связать выборку из базовой меры , результирующее распределение по выборочному пространству представляет собой случайную выборку процесса Дирихле. Процесс китайского ресторана связан со схемой отбора проб из урн Полиа , которая дает выборки из конечных распределений Дирихле.

Поскольку клиенты садятся за стол с вероятностью, пропорциональной количеству клиентов, уже сидящих за столом, можно вывести два свойства DP:

  1. Процесс Дирихле обладает самоусиливающимся свойством: чем чаще данное значение выбиралось в прошлом, тем больше вероятность того, что оно будет выбрано снова.
  2. Даже если это распределение по несчетному множеству , существует ненулевая вероятность того, что две выборки будут иметь одно и то же значение, поскольку масса вероятности будет сосредоточена на небольшом количестве таблиц.

Процесс разрушения палки

Третий подход к процессу Дирихле — это так называемый взгляд на процесс разрушения палки. Концептуально это предполагает многократное отрывание и отбрасывание случайной части (выбранной из бета-распределения) «палки», изначально имеющей длину 1. Помните, что выборки из процесса Дирихле представляют собой распределения по множеству . Как отмечалось ранее, нарисованное распределение является дискретным с вероятностью 1. С точки зрения процесса разрушения палки мы явно используем дискретность и задаем массовую функцию вероятности этого (случайного) дискретного распределения как:

где – индикаторная функция , которая везде, кроме , равна нулю . Поскольку это распределение само по себе является случайным, его функция масс параметризуется двумя наборами случайных величин: местоположениями и соответствующими вероятностями . Ниже мы без доказательства представим, что представляют собой эти случайные величины.

Положения независимы и одинаково распределены в соответствии с базовым распределением процесса Дирихле. Вероятности определяются с помощью процедуры, напоминающей сломание палки единичной длины (отсюда и название):

где – независимые случайные величины с бета-распределением . Сходство со «ломкой палки» можно увидеть, если принять во внимание длину куска палки. Начнем с палочки единичной длины и на каждом шаге отламываем часть оставшейся палки в соответствии с и присваиваем этот отломанный кусок . Формулу можно понять, заметив, что после того, как первым значениям k  - 1 были присвоены свои части, длина оставшейся части палочки равна, и эта часть разбивается в соответствии с и присваивается .

Чем меньше значение, тем меньше палочки останется для последующих значений (в среднем), что приведет к более концентрированному распределению.

Процесс разрушения палки аналогичен конструкции, при которой производится последовательная выборка из маргинальных бета-распределений , чтобы получить выборку из распределения Дирихле . [4]

Схема урны Полиа

Еще один способ визуализировать процесс Дирихле и процесс китайского ресторана — это использовать модифицированную схему урн Полиа, которую иногда называют схемой выборки Блэквелла – МакКуина . Представьте, что мы начинаем с урны, наполненной черными шарами. Дальше действуем следующим образом:

  1. Каждый раз, когда нам нужно наблюдение, мы достаём из урны шарик.
  2. Если шар черный, мы равномерно генерируем новый (не черный) цвет, маркируем новый шар этим цветом, бросаем новый шар в урну вместе с нарисованным нами шаром и возвращаем сгенерированный нами цвет.
  3. В противном случае пометьте новый шар цветом нарисованного нами шара, бросьте новый шар в урну вместе с нарисованным нами шаром и верните наблюдаемый нами цвет.

Результирующее распределение по цветам такое же, как распределение по столам в китайском ресторане. Более того, если, когда мы рисуем черный шар, вместо генерации нового цвета мы выбираем случайное значение из базового распределения и используем это значение для маркировки нового шара, результирующее распределение по меткам будет таким же, как распределение по значения в процессе Дирихле.

Использовать в качестве предварительного дистрибутива

Процесс Дирихле можно использовать в качестве априорного распределения для оценки распределения вероятностей, генерирующего данные. В этом разделе мы рассматриваем модель

Распределение процесса Дирихле удовлетворяет априорной сопряженности , апостериорной согласованности и теореме Бернштейна-фон Мизеса . [5]

Предварительное сопряжение

В этой модели апостериорное распределение снова представляет собой процесс Дирихле. Это означает, что процесс Дирихле является сопряженным априором для этой модели. Заднее распределение определяется выражением

где определено ниже.

Задняя консистенция

Если мы примем частотный взгляд на вероятность, мы считаем, что существует истинное распределение вероятностей , которое привело к созданию данных. Тогда оказывается, что процесс Дирихле непротиворечив в слабой топологии , а это означает, что для каждой слабой окрестности апостериорная вероятность сходится к .

Теорема Бернштейна – фон Мизеса

Чтобы интерпретировать достоверные множества как доверительные множества, необходима теорема Бернштейна – фон Мизеса . В случае процесса Дирихле мы сравниваем апостериорное распределение с эмпирическим процессом . Пусть — класс -Донскера, т.е.

для какого-нибудь Броуновского моста . Предположим также, что существует функция такая, что такая , что тогда почти наверняка

Это означает, что построенные вами достоверные множества являются асимптотическими доверительными наборами, а байесовский вывод, основанный на процессе Дирихле, также является асимптотически действительным частотным выводом.

Использование в моделях смеси Дирихле.

Моделирование 1000 наблюдений, взятых из модели смеси Дирихле. Каждое наблюдение внутри кластера строится независимо от многомерного нормального распределения . Кластерные средние значения взяты из распределения G, которое в свою очередь получено из процесса Дирихле с параметром концентрации и базовым распределением . Каждая строка представляет собой новую симуляцию.

Чтобы понять, что такое процессы Дирихле и какую задачу они решают, рассмотрим пример кластеризации данных . Обычно предполагается, что точки данных распределены иерархическим образом, где каждая точка данных принадлежит (случайно выбранному) кластеру, а члены кластера далее распределяются случайным образом внутри этого кластера.

Пример 1

Например, нас может интересовать, как люди будут голосовать по ряду вопросов на предстоящих выборах. Разумной моделью для этой ситуации может быть классификация каждого избирателя как либерала, консерватора или умеренного, а затем смоделировать событие, когда избиратель говорит «да» на любой конкретный вопрос, как случайную величину Бернулли с вероятностью, зависящей от того, какой политический кластер они принадлежат. Глядя на то, как в предыдущие годы отдавались голоса по аналогичным законодательным актам, можно построить прогнозную модель, используя простой алгоритм кластеризации, такой как k -means . Однако этот алгоритм требует заранее знать количество кластеров, сгенерировавших данные. Во многих ситуациях невозможно определить это заранее, и даже если мы можем разумно предположить наличие нескольких кластеров, нам все равно хотелось бы иметь возможность проверить это предположение. Например, в приведенном выше примере голосования разделение на либералов, консерваторов и умеренных может быть недостаточно четко настроено; такие атрибуты, как религия, класс или раса, также могут иметь решающее значение для моделирования поведения избирателей, что приводит к увеличению количества кластеров в модели.

Пример 2

В качестве другого примера нас может заинтересовать моделирование скоростей галактик с использованием простой модели, предполагающей, что скорости сгруппированы, например, предполагая, что каждая скорость распределена в соответствии с нормальным распределением , где th наблюдение принадлежит th скоплению галактик. с общей ожидаемой скоростью. В этом случае далеко не очевидно, как априори определить, сколько кластеров (общих скоростей) должно быть, и любая модель для этого будет весьма подозрительной и должна быть проверена на основе данных. Используя априорный процесс Дирихле для распределения кластерных средних, мы избегаем необходимости заранее явно указывать количество кластеров, хотя параметр концентрации по-прежнему контролирует его неявно.

Рассмотрим этот пример более подробно. Первая наивная модель предполагает, что существуют кластеры нормально распределенных скоростей с общеизвестной фиксированной дисперсией . Обозначая событие, что th наблюдение находится в th кластере, мы можем записать эту модель как:

То есть мы предполагаем, что данные принадлежат разным кластерам со средними значениями , и это (неизвестная) априорная вероятность того, что точка данных принадлежит этому кластеру. Мы предполагаем, что у нас нет исходной информации, различающей кластеры, которая фиксируется симметричным априором . Здесь обозначается распределение Дирихле и обозначается вектор длины , где каждый элемент равен 1. Далее мы присваиваем независимые и идентичные априорные распределения каждому из кластерных средних, где может быть любое параметрическое распределение с параметрами, обозначенными как . Гиперпараметры и считаются известными фиксированными константами, выбранными так, чтобы отражать наши предыдущие представления о системе. Чтобы понять связь с априорами процесса Дирихле, мы перепишем эту модель в эквивалентной, но более наводящей на размышления форме:

Вместо того, чтобы воображать, что каждой точке данных сначала присваивается кластер, а затем извлекается из распределения, связанного с этим кластером, мы теперь думаем, что каждое наблюдение связано с параметром, полученным из некоторого дискретного распределения с опорой на средние значения. То есть теперь мы рассматриваем как полученное из случайного распределения , а наша априорная информация включена в модель посредством распределения по распределениям .

Анимация процесса кластеризации одномерных данных с использованием гауссовских распределений, полученных из процесса Дирихле. Гистограммы кластеров показаны разными цветами. В процессе оценки параметров создаются и растут новые кластеры на основе данных. В легенде показаны цвета кластеров и количество точек данных, назначенных каждому кластеру.

Теперь мы хотели бы расширить эту модель, чтобы она работала без предварительного указания фиксированного количества кластеров . Математически это означает, что мы хотели бы выбрать случайное априорное распределение , в котором значения средних кластеров снова независимо распределяются в соответствии с , а распределение симметрично относительно бесконечного набора кластеров. Именно это и достигается моделью:

Имея это в виду, мы можем лучше понять вычислительные преимущества процесса Дирихле. Предположим, что мы хотим получить наблюдения из наивной модели именно с кластерами. Простой алгоритм для этого состоит в том, чтобы нарисовать значения from , распределение from , а затем для каждого наблюдения независимо выбрать кластер с вероятностью и значением наблюдения в соответствии с . Легко видеть, что этот алгоритм не работает в случае, когда мы допускаем бесконечные кластеры, поскольку это потребует выборки бесконечномерного параметра . Однако выборку наблюдений все же возможно . Можно, например, использовать представление китайского ресторана, описанное ниже, и вычислить вероятность создания использованных кластеров и создания нового кластера. Это позволяет избежать необходимости явно указывать . Другие решения основаны на усечении кластеров: вводится (высокая) верхняя граница истинного количества кластеров, а номера кластеров, превышающие нижнюю границу, рассматриваются как один кластер.

Подбор модели, описанной выше, на основе наблюдаемых данных означает нахождение апостериорного распределения вероятностей кластеров и связанных с ними средних значений. В бесконечномерном случае апостериор явно записать невозможно. Однако можно взять образцы из этой задней части, используя модифицированный пробоотборник Гиббса . [6] Это решающий факт, который делает процесс Дирихле полезным для вывода .

Применение процесса Дирихле

Процессы Дирихле часто используются в байесовской непараметрической статистике . «Непараметрический» здесь означает не модель без параметров, а скорее модель, в которой представления растут по мере наблюдения большего количества данных. Байесовские непараметрические модели завоевали значительную популярность в области машинного обучения из-за упомянутой выше гибкости, особенно при обучении без учителя . В байесовской непараметрической модели априорное и апостериорное распределения являются не параметрическими распределениями, а случайными процессами. [7] Тот факт, что распределение Дирихле представляет собой распределение вероятностей на симплексе наборов неотрицательных чисел, сумма которых равна единице, делает его хорошим кандидатом для моделирования распределений по распределениям или распределений по функциям. Кроме того, непараметрическая природа этой модели делает ее идеальным кандидатом для задач кластеризации, где определенное количество кластеров заранее неизвестно. Кроме того, процесс Дирихле также использовался для разработки смеси экспертных моделей в контексте алгоритмов обучения с учителем (настройки регрессии или классификации). Например, смесь экспертов гауссовского процесса, где количество необходимых экспертов должно быть выведено из данных. [8] [9]

Поскольку результаты процесса Дирихле дискретны, его важно использовать в качестве априорной вероятности в моделях бесконечной смеси . В данном случае – параметрический набор распределений компонентов. Таким образом, генеративный процесс заключается в том, что выборка извлекается из процесса Дирихле, и для каждой точки данных, в свою очередь, значение извлекается из этого распределения выборки и используется в качестве распределения компонентов для этой точки данных. Тот факт, что нет ограничений на количество различных компонентов, которые могут быть сгенерированы, делает этот тип модели подходящим для случая, когда количество компонентов смеси не определено заранее. Например, модель бесконечной смеси гауссиан, [10] , а также связанные модели регрессии смеси, например, [11]

Бесконечная природа этих моделей также позволяет использовать их в приложениях обработки естественного языка , где часто желательно рассматривать словарь как бесконечный дискретный набор.

Процесс Дирихле также можно использовать для непараметрической проверки гипотез, т. е. для разработки байесовских непараметрических версий классических непараметрических тестов гипотез, например, знакового критерия , критерия суммы рангов Уилкоксона , критерия знакового ранга Вилкоксона и т. д. Например, байесовские непараметрические версии Критерий суммы рангов Уилкоксона и критерий знакового ранга Уилкоксона были разработаны с использованием неточного процесса Дирихле , процесса Дирихле предварительного незнания. [ нужна цитата ]

Связанные дистрибутивы

Рекомендации

  1. ^ Фриджиик, Бела А.; Капила, Амол; Гупта, Майя Р. «Введение в распределение Дирихле и связанные с ним процессы» (PDF) . Проверено 2 сентября 2021 г.
  2. ^ Фергюсон, Томас (1973). «Байесовский анализ некоторых непараметрических задач». Анналы статистики . 1 (2): 209–230. дои : 10.1214/aos/1176342360 . МР  0350949.
  3. ^ «Процесс Дирихле и распределение Дирихле - схема ресторана Polya и процесс китайского ресторана» .
  4. ^ Доказательство см. Пейсли, Джон (август 2010 г.). «Простое доказательство потрясающей конструкции процесса Дирихле» (PDF) . Колумбийский университет . Архивировано из оригинала (PDF) 22 января 2015 г.
  5. ^ Аад ван дер Ваарт , Субхашис Госал (2017). Основы байесовского непараметрического вывода . Издательство Кембриджского университета. ISBN 978-0-521-87826-5.
  6. ^ Саддерт, Эрик (2006). Графические модели для визуального распознавания и отслеживания объектов (PDF) (доктор философии). МТИ Пресс.
  7. ^ Нильс Лид Хьорт ; Крис Холмс, Питер Мюллер; Стивен Г. Уокер (2010). Байесовские непараметрики . Издательство Кембриджского университета. ISBN 978-0-521-51346-3.
  8. ^ Сотириос П. Чацис, «Модель гауссовского процесса со скрытой переменной с априорными процессами Питмана-Йора для многоклассовой классификации», Neurocomputing, vol. 120, стр. 482–489, ноябрь 2013 г. doi :10.1016/j.neucom.2013.04.029.
  9. ^ Сотириос П. Чацис, Яннис Демирис, «Непараметрические смеси гауссовских процессов со степенным поведением», Транзакции IEEE в нейронных сетях и системах обучения, том. 23, нет. 12, стр. 1862–1871, декабрь 2012 г. doi : 10.1109/TNNLS.2012.2217986.
  10. ^ Расмуссен, Карл (2000). «Модель бесконечной гауссовой смеси» (PDF) . Достижения в области нейронных систем обработки информации . 12 : 554–560.
  11. ^ Сотириос П. Чацис, Димитриос Коркиноф и Яннис Демирис, «Непараметрический байесовский подход к обучению роботов путем демонстрации», Robotics and Autonomous Systems, vol. 60, нет. 6, стр. 789–802, июнь 2012 г. doi :10.1016/j.robot.2012.02.005

Внешние ссылки