В статистике модель латентного класса ( LCM ) — это модель кластеризации многомерных дискретных данных. Она предполагает, что данные возникают из смеси дискретных распределений, в каждом из которых переменные независимы. Она называется моделью латентного класса, потому что класс, к которому принадлежит каждая точка данных, ненаблюдаем или скрыт.
Анализ латентных классов ( LCA ) — это подмножество моделирования структурных уравнений , используемое для поиска групп или подтипов случаев в многомерных категориальных данных . Эти подтипы называются «латентными классами». [1] [2]
Столкнувшись со следующей ситуацией, исследователь может выбрать метод LCA для понимания данных: представьте, что симптомы ad были измерены у ряда пациентов с заболеваниями X, Y и Z, и что заболевание X связано с наличием симптомов a, b и c, заболевание Y — с симптомами b, c, d, а заболевание Z — с симптомами a, c и d.
LCA попытается обнаружить наличие скрытых классов (сущностей болезни), создавая модели ассоциации в симптомах. Как и в факторном анализе , LCA также может быть использован для классификации случаев в соответствии с их максимальным правдоподобием принадлежности к классу. [1] [3]
Поскольку критерием решения LCA является достижение латентных классов, в пределах которых больше нет никакой связи одного симптома с другим (потому что класс — это заболевание, вызывающее их связь), а набор заболеваний у пациента (или класс, к которому относится случай) вызывает ассоциацию симптомов, симптомы будут «условно независимыми», т. е., в зависимости от принадлежности к классу, они больше не связаны. [1]
Внутри каждого латентного класса наблюдаемые переменные статистически независимы . Это важный аспект. Обычно наблюдаемые переменные статистически зависимы. Введением латентной переменной независимость восстанавливается в том смысле, что внутри классов переменные независимы ( локальная независимость ). Тогда мы говорим, что связь между наблюдаемыми переменными объясняется классами латентной переменной (McCutcheon, 1987).
В одной из форм модель латентного класса записывается как
где — число скрытых классов, а — так называемые вероятности набора или безусловные вероятности, которые в сумме должны давать единицу. — предельные или условные вероятности.
Для двухсторонней модели скрытого класса форма имеет вид
Эта двухфакторная модель связана с вероятностным латентным семантическим анализом и неотрицательной матричной факторизацией .
Модель вероятности, используемая в LCA, тесно связана с наивным байесовским классификатором . Главное отличие состоит в том, что в LCA принадлежность индивида к классу является скрытой переменной, тогда как в наивных байесовских классификаторах принадлежность к классу является наблюдаемой меткой.
Существует ряд методов с различными названиями и применениями, которые имеют общие отношения. Кластерный анализ , как и LCA, используется для обнаружения таксоноподобных групп случаев в данных. Оценка многомерной смеси (MME) применима к непрерывным данным и предполагает, что такие данные возникают из смеси распределений: представьте себе набор высот, возникающих из смеси мужчин и женщин. Если оценка многомерной смеси ограничена таким образом, что меры должны быть некоррелированными в пределах каждого распределения, это называется анализом латентного профиля . Модифицированный для обработки дискретных данных, этот ограниченный анализ известен как LCA. Дискретные модели латентных признаков дополнительно ограничивают классы, формируя их из сегментов одного измерения: по сути, распределяя членов по классам по этому измерению: примером может служить распределение случаев по социальным классам по измерению способностей или заслуг.
В качестве практического примера переменные могут быть пунктами с множественным выбором политического опросника. Данные в этом случае состоят из N-сторонней таблицы сопряженности с ответами на пункты для ряда респондентов. В этом примере скрытая переменная относится к политическим взглядам, а скрытые классы — к политическим группам. Учитывая членство в группе, условные вероятности указывают шанс выбора определенных ответов.
LCA может использоваться во многих областях, таких как: коллаборативная фильтрация , [4] генетика поведения [5] и оценка диагностических тестов. [6]
{{cite journal}}
: CS1 maint: multiple names: authors list (link){{cite journal}}
: CS1 maint: multiple names: authors list (link)