stringtranslate.com

Бета-биномиальное распределение

В теории вероятностей и статистике бета -биномиальное распределение — это семейство дискретных распределений вероятностей на конечном носителе неотрицательных целых чисел, возникающих, когда вероятность успеха в каждом из фиксированного или известного числа испытаний Бернулли либо неизвестна, либо случайна. Бета-биномиальное распределение — это биномиальное распределение , в котором вероятность успеха в каждом из n испытаний не фиксирована, а случайным образом выбирается из бета-распределения . Оно часто используется в байесовской статистике , эмпирических байесовских методах и классической статистике для захвата избыточной дисперсии в распределенных данных биномиального типа.

Бета-биномиальное распределение является одномерной версией полиномиального распределения Дирихле , поскольку биномиальное и бета-распределения являются одномерными версиями полиномиального и распределения Дирихле соответственно. Особый случай, когда α и β являются целыми числами, также известен как отрицательное гипергеометрическое распределение .

Мотивация и происхождение

Как составное распределение

Бета- распределение является сопряженным распределением биномиального распределения . Этот факт приводит к аналитически трактуемому составному распределению , где можно считать, что параметр в биномиальном распределении случайно выбирается из бета-распределения. Предположим, что мы заинтересованы в прогнозировании количества голов в будущих испытаниях. Это задается как

Используя свойства бета-функции , это можно записать иначе:

Как модель урны

Бета-биномиальное распределение также может быть мотивировано с помощью модели урны для положительных целых значений α и β , известной как модель урны Пойа . В частности, представьте себе урну, содержащую α красных шаров и β черных шаров, где производятся случайные жеребьевки. Если наблюдается красный шар, то два красных шара возвращаются в урну. Аналогично, если вытаскивается черный шар, то два черных шара возвращаются в урну. Если это повторяется n раз, то вероятность наблюдения x красных шаров следует бета-биномиальному распределению с параметрами n , α и  β .

Напротив, если случайные выборки производятся с простой заменой (в урну не добавляются шары сверх наблюдаемого шара), то распределение следует биномиальному распределению, а если случайные выборки производятся без замены, то распределение следует гипергеометрическому распределению .

Моменты и свойства

Первые три сырых момента - это

и эксцесс равен

Заметим , что среднее значение можно записать как

и дисперсия как

где . Параметр известен как «внутриклассовая» или «внутрикластерная» корреляция. Именно эта положительная корреляция приводит к избыточной дисперсии. Обратите внимание, что когда , нет информации, позволяющей различить бета- и биномиальную вариацию, и обе модели имеют равные дисперсии.

Факториальные моменты

Факториальный момент r бета-биномиальной случайной величины X равен

.

Точечные оценки

Метод моментов

Метод оценок моментов можно получить, отметив первый и второй моменты бета-биномиала и установив их равными выборочным моментам и . Находим

Эти оценки могут быть бессмысленно отрицательными, что свидетельствует о том, что данные либо недисперсны, либо недостаточно дисперсны относительно биномиального распределения. В этом случае биномиальное распределение и гипергеометрическое распределение являются альтернативными кандидатами соответственно.

Оценка максимального правдоподобия

Хотя оценки максимального правдоподобия в закрытой форме непрактичны, учитывая, что pdf состоит из общих функций (гамма-функция и/или бета-функции), их можно легко найти с помощью прямой численной оптимизации. Оценки максимального правдоподобия из эмпирических данных можно вычислить с помощью общих методов подгонки полиномиальных распределений Полиа, методы для которых описаны в (Minka 2003). Пакет R VGAM через функцию vglm, через максимальное правдоподобие, облегчает подгонку моделей типа glm с ответами, распределенными в соответствии с бета-биномиальным распределением. Нет требования, чтобы n было фиксированным на протяжении наблюдений.

Пример: Неоднородность соотношения полов

Следующие данные показывают количество детей мужского пола среди первых 12 детей в семье размером 13 в 6115 семьях, взятых из больничных записей в Саксонии 19 века (Sokal и Rohlf, стр. 59 из Lindsey). 13-й ребенок игнорируется, чтобы смягчить эффект неслучайной остановки семей при достижении желаемого пола.

Первые два примера моментов:

и поэтому метод моментных оценок

Оценки максимального правдоподобия можно найти численно

и максимизированное логарифмическое правдоподобие равно

из которого мы находим AIC

AIC для конкурирующей биномиальной модели равен AIC = 25070,34, и, таким образом, мы видим, что бета-биномиальная модель обеспечивает лучшее соответствие данным, т.е. есть доказательства сверхдисперсии. Триверс и Уиллард постулируют теоретическое обоснование гетерогенности в гендерной предрасположенности среди потомства млекопитающих .

Превосходная посадка особенно заметна среди хвостов.

Роль в байесовской статистике

Бета-биномиальное распределение играет важную роль в байесовской оценке вероятности успеха Бернулли , которую мы хотим оценить на основе данных. Пусть будет выборкой независимых и одинаково распределенных случайных величин Бернулли . Предположим, что наше знание - в байесовском стиле - неопределенно и моделируется априорным распределением . Если затем посредством компаундирования априорное предсказательное распределение

.

После наблюдения мы замечаем, что апостериорное распределение для

где — нормирующая константа. Мы распознаем апостериорное распределение как .

Таким образом, снова посредством компаундирования, мы обнаруживаем, что апостериорное предсказательное распределение суммы будущей выборки размера случайных величин равно

.

Генерация случайных величин

Чтобы нарисовать бета-биномиальную случайную величину, просто нарисуйте , а затем нарисуйте .

Связанные дистрибутивы

Смотрите также

Ссылки

Внешние ссылки