В теории вероятностей процесс китайского ресторана является дискретным по времени стохастическим процессом , аналогичным рассадке клиентов за столы в ресторане. Представьте себе ресторан с бесконечным количеством круглых столов, каждый из которых имеет бесконечную вместимость. Клиент 1 сидит за первым столом. Следующий клиент сидит либо за тем же столом, что и клиент 1, либо за следующим столом. Это продолжается, причем каждый клиент выбирает либо сесть за занятый стол с вероятностью, пропорциональной количеству уже находящихся там клиентов (т. е. они с большей вероятностью сядут за стол с большим количеством клиентов, чем с небольшим), либо за свободный стол. В момент времени n клиенты были разделены между m ≤ n столами (или блоками разбиения). Результаты этого процесса являются взаимозаменяемыми , то есть порядок, в котором сидят клиенты , не влияет на вероятность окончательного распределения . Это свойство значительно упрощает ряд задач в популяционной генетике , лингвистическом анализе и распознавании изображений .
Аналогия с рестораном впервые появилась в статье Дэвида Олдоса 1985 года [1] , где она была приписана Джиму Питману (который также приписывает авторство Лестеру Дубинсу [2] ).
Эквивалентный процесс разбиения был опубликован годом ранее Фредом Хоппе [3], использующим «схему урн», родственную урне Полиа . По сравнению с моделью урн Хоппе, процесс китайского ресторана имеет то преимущество, что он естественным образом подходит для описания случайных перестановок через их циклическую структуру, в дополнение к описанию случайных разбиений.
Формальное определение
Для любого положительного целого числа обозначим множество всех разбиений множества . Процесс китайского ресторана принимает значения в бесконечном декартовом произведении .
Значение процесса в момент времени представляет собой разбиение множества , распределение вероятностей которого определяется следующим образом. В момент времени получается тривиальное разбиение (с вероятностью единица). В момент времени элемент " " либо:
добавляется к одному из блоков раздела , где каждый блок выбирается с вероятностью , где - размер блока (т.е. количество элементов), или
добавляется к разделу как новый одноэлементный блок с вероятностью .
Случайное разбиение, сгенерированное таким образом, имеет некоторые особые свойства. Оно является взаимозаменяемым в том смысле, что перемаркировка не меняет распределение разбиения, и оно является последовательным в том смысле, что закон разбиения , полученного путем удаления элемента из случайного разбиения, совпадает с законом случайного разбиения .
Вероятность, присвоенная любой конкретной секции (без учета порядка, в котором клиенты сидят за конкретным столом), равна
где — блок в разделе , — размер .
Определение можно обобщить, введя параметр , который изменяет вероятность того, что новый клиент сядет за новый стол, на и соответственно изменяет вероятность того, что он сядет за стол размером на . Ванильный процесс, представленный выше, можно восстановить, установив . Интуитивно можно интерпретировать как эффективное количество клиентов, сидящих за первым пустым столом.
Альтернативное определение
Эквивалентный, но немного отличающийся способ определения процесса в китайском ресторане — позволить новым клиентам выбирать себе компанию, а не столы. [4] Клиент выбирает сесть за тот же стол, что и любой из сидящих клиентов с вероятностью , или выбирает сесть за новый, незанятый стол с вероятностью . Обратите внимание, что в этой формулировке клиент выбирает стол, не подсчитывая занятость столов — нам не нужно .
Распределение количества столов
Распределение столов в китайском ресторане ( CRT ) — это распределение вероятностей по количеству столов в процессе работы китайского ресторана. [5] Его можно понимать как сумму независимых случайных величин Бернулли , каждая из которых имеет свой параметр:
Вероятностная массовая функция определяется выражением [6]
Эту конструкцию можно обобщить до модели с двумя параметрами, & , [2] [7] обычно называемыми параметрами силы (или концентрации ) и скидки соответственно. В момент времени следующий пришедший клиент обнаруживает занятые столы и решает сесть за пустой стол с вероятностью
или за занятым столом размером с вероятностью
Для того чтобы конструкция определяла действительную меру вероятности , необходимо предположить, что либо и для некоторого ; либо что и .
В рамках этой модели вероятность, присвоенная любому конкретному разбиению , может быть выражена в общем случае (для любых значений , удовлетворяющих вышеупомянутым ограничениям) в терминах k-символа Похгаммера , как
где k-символ Похгаммера определяется следующим образом: по соглашению, , и для
где — восходящий факториал , а — нисходящий факториал . Стоит отметить, что для параметра, устанавливающего где и , тогда , который оценивается как ноль, когда , так что — верхняя граница количества блоков в разделе; для получения более подробной информации см. подраздел о категориальной модели Дирихле ниже.
Для случая, когда и , вероятность разбиения можно переписать в терминах гамма-функции как
В однопараметрическом случае, где равно нулю, и это упрощается до
Или, когда равно нулю, и
Как и прежде, вероятность, назначенная любому конкретному разделу, зависит только от размеров блоков, поэтому, как и прежде, случайный раздел является заменяемым в смысле, описанном выше. Свойство согласованности по-прежнему сохраняется, как и прежде, по построению.
Вот один из способов вывести эту вероятность разбиения. Пусть будет случайным блоком, в который добавляется число , для . Тогда
Вероятность того, что является любым конкретным разделом множества, является произведением этих вероятностей, как пробегает от до . Теперь рассмотрим размер блока : он увеличивается на единицу каждый раз, когда мы добавляем в него один элемент. Когда последний элемент в блоке должен быть добавлен, размер блока равен . Например, рассмотрим эту последовательность выборов: (сгенерировать новый блок )(объединить )(объединить )(объединить ). В конце концов, блок имеет 4 элемента, и произведение числителей в приведенном выше уравнении становится . Следуя этой логике, мы получаем, как указано выше.
Ожидаемое количество таблиц
Для случая с одним параметром, с и , количество столов распределено в соответствии с распределением столов китайского ресторана . Ожидаемое значение этой случайной величины, учитывая, что есть сидящие клиенты, равно [9]
где — дигамма-функция . Для двухпараметрического случая при ожидаемое число занятых таблиц равно [7]
где — возрастающий факториал (как определено выше).
Дирихле-категориальная модель
Для выбора параметра и , где , двухпараметрический процесс китайского ресторана эквивалентен категориальной модели Дирихле , которая является иерархической моделью, которая может быть определена следующим образом. Обратите внимание, что для этой настройки параметра вероятность занятия нового стола, когда уже есть занятые столы, равна нулю; так что количество занятых столов ограничено сверху . Если мы решим идентифицировать таблицы с метками , которые принимают значения в , то для генерации случайного разбиения набора иерархическая модель сначала вытягивает категориальное распределение меток , из симметричного распределения Дирихле , с параметром концентрации . Затем, независимо для каждого из клиентов, метка таблицы вытягивается из категориального . Поскольку распределение Дирихле сопряжено с категориальным, скрытая переменная может быть исключена для получения апостериорного предсказательного распределения для следующего состояния метки, , учитывая предыдущие метки
где — количество клиентов, которые уже сидят за столом . При и это согласуется с приведенной выше общей формулой, , для вероятности сидеть за занятым столом, когда . Вероятность сидеть за любым из незанятых столов также согласуется с общей формулой и определяется как
Предельная вероятность для меток определяется как
где и — восходящий факториал . В общем случае, однако, существует несколько состояний меток, которые соответствуют одному и тому же разделу. Для заданного раздела, , имеющего блоки, число состояний меток, которые соответствуют этому разделу, задается нисходящим факториалом , . Принимая это во внимание, вероятность для раздела равна
что можно проверить, чтобы согласовать с общей версией вероятности разделения, которая дана выше в терминах k-символа Похгаммера. Обратите внимание еще раз, что если находится вне поддержки, то есть , падающий факториал оценивается как ноль, как и должно быть. (Практические реализации, которые оценивают логарифмическую вероятность для разделов через , вернут , всякий раз , когда , как требуется.)
Связь между категориальным Дирихле и однопараметрическим CRP
Рассмотрим, с одной стороны, однопараметрический процесс китайского ресторана с и , который мы обозначим ; а с другой стороны, категориальную модель Дирихле с положительным целым числом и , где мы выбираем , что, как показано выше, эквивалентно . Это показывает, что категориальную модель Дирихле можно сделать произвольно близкой к , сделав большой.
Процесс ломки палочек
Двухпараметрический процесс китайского ресторана может быть эквивалентно определен в терминах процесса ломки палки . [10] Для случая, когда и , процесс ломки палки можно описать как иерархическую модель, во многом похожую на приведенную выше модель Дирихле-категориальную, за исключением того, что существует бесконечное количество состояний меток. Метки таблицы рисуются независимо из бесконечного категориального распределения , компоненты которого выбираются с помощью ломки палки : начинают с палки длиной 1 и случайным образом ломают ее надвое, длина левой половины равна , а правая половина снова рекурсивно ломается, чтобы получить . Точнее, левая часть, , -го ломка выбирается из бета-распределения :
Категориальные вероятности:
Для настроек параметров и , где — положительное целое число, а категориальное — конечно: , мы можем сделать выборку из обычного распределения Диркхле, как описано выше, но ее также можно сделать с помощью усеченного рецепта дробления палочек, где формула для выборки дробей изменяется следующим образом:
и .
Процесс индийского шведского стола
Можно адаптировать модель таким образом, чтобы каждая точка данных больше не была однозначно связана с классом (т. е. мы больше не строим раздел), а могла быть связана с любой комбинацией классов. Это напрягает аналогию со столами в ресторане и поэтому вместо этого сравнивается с процессом, в котором ряд посетителей пробуют из некоторого подмножества бесконечного выбора блюд, предлагаемых в буфете. Вероятность того, что конкретный посетитель пробует конкретное блюдо, пропорциональна популярности блюда среди посетителей до сих пор, и, кроме того, посетитель может пробовать из непроверенных блюд. Это было названо процессом индийского буфета
и может использоваться для выведения скрытых признаков в данных. [11]
^ Олдос, ди-джей (1985). «Обмениваемость и смежные темы». Школа вероятностей Сен-Флера XIII — 1983 год . Конспект лекций по математике. Том. 1117. стр. 1–198. дои : 10.1007/BFb0099421. ISBN 978-3-540-15203-3. Процесс работы ресторана описан на странице 92.
^ ab Pitman, Jim (1995). «Заменяемые и частично заменяемые случайные разбиения». Теория вероятностей и смежные области . 102 (2): 145–158. doi : 10.1007/BF01213386 . MR 1337249. S2CID 16849229.
^ Хоппе, Фред М. (1984). «Подобные Полиа урны и формула выборки Эвенса». Журнал математической биологии . 20 : 91–94.
^ Блей, Дэвид М.; Фрейзер, Питер И. (2011). «Зависящие от расстояния процессы в китайских ресторанах» (PDF) . Журнал исследований машинного обучения . 12 : 2461–2488.
^ Чжоу, Минюань; Карин, Лоуренс (2012). «Отрицательное биномиальное число процессов и моделирование смесей». Труды IEEE по анализу шаблонов и машинному интеллекту . 37 (2): 307–20. arXiv : 1209.3442 . Bibcode : 2012arXiv1209.3442Z. doi : 10.1109/TPAMI.2013.211. PMID 26353243. S2CID 1937045.
^ Антониак, Чарльз Э. (1974). «Смеси процессов Дирихле с приложениями к байесовским непараметрическим задачам». Анналы статистики . 2 (6): 1152–1174. doi : 10.1214/aos/1176342871 .
^ ab Pitman, Jim (2006). Комбинаторные стохастические процессы. Т. 1875. Берлин: Springer-Verlag. ISBN9783540309901. Архивировано из оригинала 2012-09-25 . Получено 2011-05-11 .
^ «Процесс Дирихле и распределение Дирихле — схема ресторана Полиа и процесс китайского ресторана».
^ Синьхуа Чжан, «Очень деликатное замечание о построении процесса Дирихле», сентябрь 2008 г., Австралийский национальный университет, Канберра. Онлайн: http://users.cecs.anu.edu.au/~xzhang/pubDoc/notes/dirichlet_process.pdf Архивировано 11 апреля 2011 г. на Wayback Machine
^ Хемант Ишваран и Ланселот Ф. Джеймс (2001), «Методы выборки Гиббса для определения априорных значений расщепления палочек», Журнал Американской статистической ассоциации, т. 96, № 543, март 2001 г. Онлайн: https://www.jstor.org/stable/2670356
^ Гриффитс, Т. Л. и Гахрамани, З. (2005) Модели бесконечных скрытых признаков и индийский процесс «шведского стола» Архивировано 31 октября 2008 г. в Wayback Machine . Технический отчет Gatsby Unit GCNU-TR-2005-001.
^ Цинь, Чжаохуэй С. (2006). «Кластеризация данных экспрессии генов микрочипов с использованием процесса взвешенного китайского ресторана». Биоинформатика . 22 (16): 1988–1997. doi :10.1093/bioinformatics/btl284. PMID 16766561.
^ Уайт, Дж. Т.; Госал, С. (2011). «Байесовское сглаживание ограниченных по фотонам изображений с применением в астрономии» (PDF) . Журнал Королевского статистического общества, серия B (статистическая методология) . 73 (4): 579–599. CiteSeerX 10.1.1.308.7922 . doi :10.1111/j.1467-9868.2011.00776.x. S2CID 2342134.
^ Ли, М.; Госал, С. (2014). «Байесовское многомасштабное сглаживание гауссовых зашумленных изображений». Байесовский анализ . 9 (3): 733–758. doi : 10.1214/14-ba871 .
Внешние ссылки
Введение в распределение Дирихле и связанные с ним процессы Фридьика, Капилы и Гупты