stringtranslate.com

Модель латентного класса

В статистике модель латентного класса ( LCM ) — это модель кластеризации многомерных дискретных данных. Она предполагает, что данные возникают из смеси дискретных распределений, в каждом из которых переменные независимы. Она называется моделью латентного класса, потому что класс, к которому принадлежит каждая точка данных, ненаблюдаем или скрыт.

Анализ латентных классов ( LCA ) — это подмножество моделирования структурных уравнений , используемое для поиска групп или подтипов случаев в многомерных категориальных данных . Эти подтипы называются «латентными классами». [1] [2]

Столкнувшись со следующей ситуацией, исследователь может выбрать метод LCA для понимания данных: представьте, что симптомы ad были измерены у ряда пациентов с заболеваниями X, Y и Z, и что заболевание X связано с наличием симптомов a, b и c, заболевание Y — с симптомами b, c, d, а заболевание Z — с симптомами a, c и d.

LCA попытается обнаружить наличие скрытых классов (сущностей болезни), создавая модели ассоциации в симптомах. Как и в факторном анализе , LCA также может быть использован для классификации случаев в соответствии с их максимальным правдоподобием принадлежности к классу. [1] [3]

Поскольку критерием решения LCA является достижение латентных классов, в пределах которых больше нет никакой связи одного симптома с другим (потому что класс — это заболевание, вызывающее их связь), а набор заболеваний у пациента (или класс, к которому относится случай) вызывает ассоциацию симптомов, симптомы будут «условно независимыми», т. е., в зависимости от принадлежности к классу, они больше не связаны. [1]

Модель

Внутри каждого латентного класса наблюдаемые переменные статистически независимы . Это важный аспект. Обычно наблюдаемые переменные статистически зависимы. Введением латентной переменной независимость восстанавливается в том смысле, что внутри классов переменные независимы ( локальная независимость ). Тогда мы говорим, что связь между наблюдаемыми переменными объясняется классами латентной переменной (McCutcheon, 1987).

В одной из форм модель латентного класса записывается как

где — число скрытых классов, а — так называемые вероятности набора или безусловные вероятности, которые в сумме должны давать единицу. — предельные или условные вероятности.

Для двухсторонней модели скрытого класса форма имеет вид

Эта двухфакторная модель связана с вероятностным латентным семантическим анализом и неотрицательной матричной факторизацией .

Модель вероятности, используемая в LCA, тесно связана с наивным байесовским классификатором . Главное отличие состоит в том, что в LCA принадлежность индивида к классу является скрытой переменной, тогда как в наивных байесовских классификаторах принадлежность к классу является наблюдаемой меткой.

Связанные методы

Существует ряд методов с различными названиями и применениями, которые имеют общие отношения. Кластерный анализ , как и LCA, используется для обнаружения таксоноподобных групп случаев в данных. Оценка многомерной смеси (MME) применима к непрерывным данным и предполагает, что такие данные возникают из смеси распределений: представьте себе набор высот, возникающих из смеси мужчин и женщин. Если оценка многомерной смеси ограничена таким образом, что меры должны быть некоррелированными в пределах каждого распределения, это называется анализом латентного профиля . Модифицированный для обработки дискретных данных, этот ограниченный анализ известен как LCA. Дискретные модели латентных признаков дополнительно ограничивают классы, формируя их из сегментов одного измерения: по сути, распределяя членов по классам по этому измерению: примером может служить распределение случаев по социальным классам по измерению способностей или заслуг.

В качестве практического примера переменные могут быть пунктами с множественным выбором политического опросника. Данные в этом случае состоят из N-сторонней таблицы сопряженности с ответами на пункты для ряда респондентов. В этом примере скрытая переменная относится к политическим взглядам, а скрытые классы — к политическим группам. Учитывая членство в группе, условные вероятности указывают шанс выбора определенных ответов.

Приложение

LCA может использоваться во многих областях, таких как: коллаборативная фильтрация , [4] генетика поведения [5] и оценка диагностических тестов. [6]

Ссылки

  1. ^ abc Лазарсфельд, П.Ф. и Генри, Н.В. (1968) Анализ латентной структуры . Бостон: Houghton Mifflin
  2. ^ Форманн , АК (1984). Анализ скрытых классов: Einführung in die Theorie und Anwendung [Анализ скрытых классов: Введение в теорию и применение] . Вайнхайм: Бельц.
  3. ^ Тайхерт, Торстен (2000). «Das Latent-Ciass Verfahren zur Segmentierung von wahlbasierten Conjoint-Daten. Befunde einer empirischen Anwendung». Маркетинг ZFP . 22 (3): 227–240. дои : 10.15358/0344-1369-2000-3-227. ISSN  0344-1369.
  4. ^ Cheung, Kwok-Wai; Tsui, Kwok-Ching; Liu, Jiming (2004). «Расширенные модели скрытых классов для совместных рекомендаций». Труды IEEE по системам, человеку и кибернетике — Часть A: Системы и люди . 34 (1): 143–148. CiteSeerX 10.1.1.6.2234 . doi :10.1109/TSMCA.2003.818877. S2CID  11628144. 
  5. ^ Eaves, LJ, Silberg, JL, Hewitt, JK, Rutter, M., Meyer, JM, Neale, MC, & Pickles, A (1993). «Анализ сходства близнецов в многосимптомных данных: генетические приложения модели латентного класса для симптомов расстройства поведения у несовершеннолетних мальчиков». Behavior Genetics . 23 (1): 5–19. doi :10.1007/bf01067550. PMID  8476390. S2CID  40678009.{{cite journal}}: CS1 maint: multiple names: authors list (link)
  6. ^ Bermingham, ML, Handel, IG, Glass, EJ, Woolliams, JA, de Clare Bronsvoort, BM, McBride, SH, Skuce, RA, Allen, A. R., McDowell, SWJ, & Bishop, SC (2015). "Модель латентного класса Хуэй и Уолтера, расширенная для оценки свойств диагностических тестов из данных наблюдения: латентная модель для латентных данных". Scientific Reports . 5 : 11861. Bibcode : 2015NatSR...511861B. doi : 10.1038/srep11861. PMC 4493568. PMID  26148538 . {{cite journal}}: CS1 maint: multiple names: authors list (link)

Внешние ссылки