Дискретное распределение вероятностей
В теории вероятностей и статистике бета -биномиальное распределение — это семейство дискретных распределений вероятностей на конечном носителе неотрицательных целых чисел, возникающих, когда вероятность успеха в каждом из фиксированного или известного числа испытаний Бернулли либо неизвестна, либо случайна. Бета-биномиальное распределение — это биномиальное распределение , в котором вероятность успеха в каждом из n испытаний не фиксирована, а случайным образом выбирается из бета-распределения . Оно часто используется в байесовской статистике , эмпирических байесовских методах и классической статистике для захвата избыточной дисперсии в распределенных данных биномиального типа.
Бета-биномиальное распределение является одномерной версией полиномиального распределения Дирихле , поскольку биномиальное и бета-распределения являются одномерными версиями полиномиального и распределения Дирихле соответственно. Особый случай, когда α и β являются целыми числами, также известен как отрицательное гипергеометрическое распределение .
Мотивация и происхождение
Как составное распределение
Бета- распределение является сопряженным распределением биномиального распределения . Этот факт приводит к аналитически трактуемому составному распределению , где можно считать, что параметр в биномиальном распределении случайно выбирается из бета-распределения. Предположим, что мы заинтересованы в прогнозировании количества голов в будущих испытаниях. Это задается как
Используя свойства бета-функции , это можно записать иначе:
Как модель урны
Бета-биномиальное распределение также может быть мотивировано с помощью модели урны для положительных целых значений α и β , известной как модель урны Пойа . В частности, представьте себе урну, содержащую α красных шаров и β черных шаров, где производятся случайные жеребьевки. Если наблюдается красный шар, то два красных шара возвращаются в урну. Аналогично, если вытаскивается черный шар, то два черных шара возвращаются в урну. Если это повторяется n раз, то вероятность наблюдения x красных шаров следует бета-биномиальному распределению с параметрами n , α и β .
Напротив, если случайные выборки производятся с простой заменой (в урну не добавляются шары сверх наблюдаемого шара), то распределение следует биномиальному распределению, а если случайные выборки производятся без замены, то распределение следует гипергеометрическому распределению .
Моменты и свойства
Первые три сырых момента - это
и эксцесс равен
Заметим , что среднее значение можно записать как
и дисперсия как
где . Параметр известен как «внутриклассовая» или «внутрикластерная» корреляция. Именно эта положительная корреляция приводит к избыточной дисперсии. Обратите внимание, что когда , нет информации, позволяющей различить бета- и биномиальную вариацию, и обе модели имеют равные дисперсии.
Факториальные моменты
Факториальный момент r бета-биномиальной случайной величины X равен
- .
Точечные оценки
Метод моментов
Метод оценок моментов можно получить, отметив первый и второй моменты бета-биномиала и установив их равными выборочным моментам и . Находим
Эти оценки могут быть бессмысленно отрицательными, что свидетельствует о том, что данные либо недисперсны, либо недостаточно дисперсны относительно биномиального распределения. В этом случае биномиальное распределение и гипергеометрическое распределение являются альтернативными кандидатами соответственно.
Оценка максимального правдоподобия
Хотя оценки максимального правдоподобия в закрытой форме непрактичны, учитывая, что pdf состоит из общих функций (гамма-функция и/или бета-функции), их можно легко найти с помощью прямой численной оптимизации. Оценки максимального правдоподобия из эмпирических данных можно вычислить с помощью общих методов подгонки полиномиальных распределений Полиа, методы для которых описаны в (Minka 2003). Пакет R VGAM через функцию vglm, через максимальное правдоподобие, облегчает подгонку моделей типа glm с ответами, распределенными в соответствии с бета-биномиальным распределением. Нет требования, чтобы n было фиксированным на протяжении наблюдений.
Пример: Неоднородность соотношения полов
Следующие данные показывают количество детей мужского пола среди первых 12 детей в семье размером 13 в 6115 семьях, взятых из больничных записей в Саксонии 19 века (Sokal и Rohlf, стр. 59 из Lindsey). 13-й ребенок игнорируется, чтобы смягчить эффект неслучайной остановки семей при достижении желаемого пола.
Первые два примера моментов:
и поэтому метод моментных оценок
Оценки максимального правдоподобия можно найти численно
и максимизированное логарифмическое правдоподобие равно
из которого мы находим AIC
AIC для конкурирующей биномиальной модели равен AIC = 25070,34, и, таким образом, мы видим, что бета-биномиальная модель обеспечивает лучшее соответствие данным, т.е. есть доказательства сверхдисперсии. Триверс и Уиллард постулируют теоретическое обоснование гетерогенности в гендерной предрасположенности среди потомства млекопитающих .
Превосходная посадка особенно заметна среди хвостов.
Роль в байесовской статистике
Бета-биномиальное распределение играет важную роль в байесовской оценке вероятности успеха Бернулли , которую мы хотим оценить на основе данных. Пусть будет выборкой независимых и одинаково распределенных случайных величин Бернулли . Предположим, что наше знание - в байесовском стиле - неопределенно и моделируется априорным распределением . Если затем посредством компаундирования априорное предсказательное распределение
- .
После наблюдения мы замечаем, что апостериорное распределение для
где — нормирующая константа. Мы распознаем апостериорное распределение как .
Таким образом, снова посредством компаундирования, мы обнаруживаем, что апостериорное предсказательное распределение суммы будущей выборки размера случайных величин равно
- .
Генерация случайных величин
Чтобы нарисовать бета-биномиальную случайную величину, просто нарисуйте , а затем нарисуйте .
Связанные дистрибутивы
- где .
- где - дискретное равномерное распределение .
- где и и - биномиальное распределение .
- где - отрицательное биномиальное распределение .
Смотрите также
Ссылки
- Минка, Томас П. (2003). Оценка распределения Дирихле. Технический отчет Microsoft.
Внешние ссылки
- Использование бета-биномиального распределения для оценки эффективности биометрического идентификационного устройства
- Fastfit содержит код Matlab для подгонки бета-биномиальных распределений (в форме двумерных распределений Полиа) к данным.
- Интерактивная графика: Одномерные распределительные соотношения
- Бета-биномиальные функции в пакете VGAM R
- Бета-биномиальное распределение в библиотеке Sandia National Labs Cognitive Foundry Java