stringtranslate.com

Групповое распределение Дирихле

В статистике групповое распределение Дирихле (GDD) является многомерным обобщением распределения Дирихле. Впервые оно было описано Нг и др. в 2008 г. [1] Групповое распределение Дирихле возникает при анализе категориальных данных , где некоторые наблюдения могут попадать в любую из набора других «четких» категорий. Например, можно иметь набор данных, состоящий из случаев и контролей при двух различных условиях. При полных данных перекрестная классификация статуса заболевания образует таблицу 2(случай/контроль)-x-(состояние/отсутствие состояния) с вероятностями ячеек

Однако, если данные включают, скажем, нереспондентов, которые известны как контрольные или случаи, то перекрестная классификация статуса заболевания образует таблицу 2-x-3. Вероятность последнего столбца является суммой вероятностей первых двух столбцов в каждой строке, например

GDD позволяет полностью оценить вероятности клеток в таких условиях агрегации. [1]

Распределение вероятностей

Рассмотрим замкнутый симплексный набор и . Записывая для первых элементов члена , распределение для двух разделов имеет функцию плотности, заданную как

где — многомерная бета-функция .

Нг и др. [1] продолжили определять распределение Дирихле, сгруппированное по m разделам, с плотностью, заданной формулой

где — вектор целых чисел с . Нормирующая константа задается формулой

Авторы продолжили использовать эти распределения в контексте трех различных приложений в медицинской науке.

Ссылки

  1. ^ abc Ng, Kai Wang (2008). «Групповое распределение Дирихле: новый инструмент для анализа неполных категориальных данных». Журнал многомерного анализа . 99 : 490–509.