В машинном обучении и обработке естественного языка модель распределения патинко (PAM) является тематической моделью . Тематические модели представляют собой набор алгоритмов для выявления скрытой тематической структуры коллекции документов. [1] Алгоритм улучшает более ранние тематические модели, такие как скрытое распределение Дирихле (LDA), моделируя корреляции между темами в дополнение к корреляциям слов, которые составляют темы. PAM обеспечивает большую гибкость и большую выразительную силу, чем скрытое распределение Дирихле. [2] Хотя впервые описанный и реализованный в контексте обработки естественного языка, алгоритм может иметь применение в других областях, таких как биоинформатика . Модель названа в честь автоматов патинко — популярной в Японии игры, в которой металлические шарики подпрыгивают вокруг сложного набора булавок, пока не приземляются в различных ячейках на дне. [3]
Распределение патинко было впервые описано Вэй Ли и Эндрю МакКаллумом в 2006 году. [3] Идея была расширена иерархическим распределением патинко Ли, МакКаллумом и Дэвидом Мимно в 2007 году. [4] В 2007 году МакКаллум и его коллеги предложили непараметрическое байесовское априорное распределение для PAM на основе варианта иерархического процесса Дирихле (HDP). [2] Алгоритм был реализован в программном пакете MALLET , опубликованном группой МакКаллума в Массачусетском университете в Амхерсте .
PAM соединяет слова в V и темы в T с помощью произвольного направленного ациклического графа (DAG), где узлы тем занимают внутренние уровни, а листья — это слова.
Вероятность создания целого корпуса является произведением вероятностей для каждого документа: [3]
{{cite journal}}
: Цитировать журнал требует |journal=
( помощь )