В статистике групповое распределение Дирихле (GDD) является многомерным обобщением распределения Дирихле. Впервые оно было описано Нг и др. в 2008 г. [1] Групповое распределение Дирихле возникает при анализе категориальных данных , где некоторые наблюдения могут попадать в любую из набора других «четких» категорий. Например, можно иметь набор данных, состоящий из случаев и контролей при двух различных условиях. При полных данных перекрестная классификация статуса заболевания образует таблицу 2(случай/контроль)-x-(состояние/отсутствие состояния) с вероятностями ячеек
Однако, если данные включают, скажем, нереспондентов, которые известны как контрольные или случаи, то перекрестная классификация статуса заболевания образует таблицу 2-x-3. Вероятность последнего столбца является суммой вероятностей первых двух столбцов в каждой строке, например
GDD позволяет полностью оценить вероятности клеток в таких условиях агрегации. [1]
Распределение вероятностей
Рассмотрим замкнутый симплексный набор и . Записывая для первых элементов члена , распределение для двух разделов имеет функцию плотности, заданную как
где — многомерная бета-функция .
Нг и др. [1] продолжили определять распределение Дирихле, сгруппированное по m разделам, с плотностью, заданной формулой
где — вектор целых чисел с . Нормирующая константа задается формулой
Авторы продолжили использовать эти распределения в контексте трех различных приложений в медицинской науке.
Ссылки
- ^ abc Ng, Kai Wang (2008). «Групповое распределение Дирихле: новый инструмент для анализа неполных категориальных данных». Журнал многомерного анализа . 99 : 490–509.