stringtranslate.com

Распределение патинко

В машинном обучении и обработке естественного языка модель распределения патинко (PAM) является тематической моделью . Тематические модели представляют собой набор алгоритмов для выявления скрытой тематической структуры коллекции документов. [1] Алгоритм улучшает более ранние тематические модели, такие как скрытое распределение Дирихле (LDA), моделируя корреляции между темами в дополнение к корреляциям слов, которые составляют темы. PAM обеспечивает большую гибкость и большую выразительную силу, чем скрытое распределение Дирихле. [2] Хотя впервые описанный и реализованный в контексте обработки естественного языка, алгоритм может иметь применение в других областях, таких как биоинформатика . Модель названа в честь автоматов патинко — популярной в Японии игры, в которой металлические шарики подпрыгивают вокруг сложного набора булавок, пока не приземляются в различных ячейках на дне. [3]

История

Распределение патинко было впервые описано Вэй Ли и Эндрю МакКаллумом в 2006 году. [3] Идея была расширена иерархическим распределением патинко Ли, МакКаллумом и Дэвидом Мимно в 2007 году. [4] В 2007 году МакКаллум и его коллеги предложили непараметрическое байесовское априорное распределение для PAM на основе варианта иерархического процесса Дирихле (HDP). [2] Алгоритм был реализован в программном пакете MALLET , опубликованном группой МакКаллума в Массачусетском университете в Амхерсте .

Модель

PAM соединяет слова в V и темы в T с помощью произвольного направленного ациклического графа (DAG), где узлы тем занимают внутренние уровни, а листья — это слова.

Вероятность создания целого корпуса является произведением вероятностей для каждого документа: [3]

Смотрите также

Ссылки

  1. ^ Блей, Дэвид. "Моделирование тем". Архивировано из оригинала 2 октября 2012 г. Получено 4 октября 2012 г.
  2. ^ ab Ли, Вэй; Блей, Дэвид; МакКаллум, Эндрю (2007). «Непараметрическое распределение байесовских патинко». arXiv : 1206.5270 . {{cite journal}}: Цитировать журнал требует |journal=( помощь )
  3. ^ abc Li, Wei; McCallum, Andrew (2006). "Распределение Pachinko: модели DAG-структурированной смеси тематических корреляций" (PDF) . Труды 23-й международной конференции по машинному обучению - ICML '06 . стр. 577–584. doi :10.1145/1143844.1143917. ISBN 1595933832. S2CID  13160178.
  4. ^ Мимно, Дэвид; Ли, Вэй; МакКаллум, Эндрю (2007). «Смеси иерархических тем с распределением Пачинко» (PDF) . Труды 24-й международной конференции по машинному обучению . стр. 633–640. doi :10.1145/1273496.1273576. ISBN 9781595937933. S2CID  6045658.
  5. ^ Хофманн, Томас (1999). "Вероятностное латентное семантическое индексирование" (PDF) . Труды двадцать второй ежегодной международной конференции SIGIR по исследованиям и разработкам в области информационного поиска . Архивировано из оригинала (PDF) 14 декабря 2010 г.
  6. ^ Blei, David M.; Ng, Andrew Y.; Jordan, Michael I ; Lafferty, John (январь 2003 г.). «Скрытое распределение Дирихле». Journal of Machine Learning Research . 3 : стр. 993–1022. Архивировано из оригинала 1 мая 2012 г. Получено 19 июля 2010 г.

Внешние ссылки