Распределение вероятностей
В теории вероятностей и статистике геометрическое распределение представляет собой одно из двух дискретных распределений вероятностей :
- Распределение вероятностей числа испытаний Бернулли, необходимых для получения одного успеха, поддерживаемое на ;
- Распределение вероятностей числа неудач до первого успеха, поддерживаемое на .
Эти два различных геометрических распределения не следует путать друг с другом. Часто для первого из них (распределение ) используется название смещенное геометрическое распределение ; однако, чтобы избежать двусмысленности, считается разумным указать, какое именно имеется в виду, явно упомянув поддержку.
Геометрическое распределение дает вероятность того, что первое появление успеха требует независимых испытаний, каждое с вероятностью успеха . Если вероятность успеха в каждом испытании равна , то вероятность того, что -ое испытание является первым успехом, равна
для
Вышеуказанная форма геометрического распределения используется для моделирования числа попыток вплоть до первого успеха. Напротив, следующая форма геометрического распределения используется для моделирования числа неудач до первого успеха:
для
Геометрическое распределение получило свое название, потому что его вероятности следуют геометрической последовательности . Иногда его называют распределением Фурри в честь Венделла Х. Фурри . [1] : 210
Определение
Геометрическое распределение — это дискретное распределение вероятностей , которое описывает, когда происходит первый успех в бесконечной последовательности независимых и одинаково распределенных испытаний Бернулли . Его функция массы вероятности зависит от его параметризации и поддержки . При поддержке на , функция массы вероятности равна , где — число испытаний, а — вероятность успеха в каждом испытании. [2] : 260–261
Поддержка может быть также , определяя . Это изменяет функцию массы вероятности в , где - число неудач до первого успеха. [3] : 66
Альтернативная параметризация распределения дает функцию массы вероятности , где и . [1] : 208–209
Пример геометрического распределения возникает при бросании шестигранной кости до тех пор, пока не появится «1». Каждый бросок независим с вероятностью успеха. Количество необходимых бросков следует геометрическому распределению с .
Характеристики
Отсутствие памяти
Геометрическое распределение является единственным дискретным распределением вероятностей без памяти. [4] Это дискретная версия того же свойства, что и в экспоненциальном распределении . [1] : 228 Свойство утверждает, что количество ранее неудачных попыток не влияет на количество будущих попыток, необходимых для успеха.
Поскольку существует два определения геометрического распределения, существуют также два определения отсутствия памяти для дискретных случайных величин. [5] Выраженные в терминах условной вероятности , эти два определения имеют вид
и
где и — натуральные числа , — геометрически распределенная случайная величина, определенная над , а — геометрически распределенная случайная величина, определенная над . Обратите внимание, что эти определения не эквивалентны для дискретных случайных величин; не удовлетворяет первому уравнению и не удовлетворяет второму.
Моменты и кумулянты
Ожидаемое значение и дисперсия геометрически распределенной случайной величины, определенной для , равны [2] : 261. Когда геометрически распределенная случайная величина определена для , ожидаемое значение изменяется на , а дисперсия остается прежней. [6] : 114–115
Например, при бросании шестигранной игральной кости до выпадения «1» среднее количество необходимых бросков составляет , а среднее количество неудачных бросков — .
Функция генерации моментов геометрического распределения, определенная по и соответственно, равна [7] [6] : 114 Моменты для числа неудач до первого успеха определяются как
где — функция полилогарифма . [8]
Функция генерации кумулянтов геометрического распределения, определенная над , равна [1] : 216 Кумулянты удовлетворяют рекурсии , где , когда определены над . [1] : 216
Доказательство ожидаемой ценности
Рассмотрим ожидаемое значение X , как указано выше, т. е . среднее число попыток до успеха. В первой попытке мы либо добиваемся успеха с вероятностью , либо терпим неудачу с вероятностью . Если мы терпим неудачу, оставшееся среднее число попыток до успеха идентично исходному среднему. Это следует из того факта, что все попытки независимы. Из этого мы получаем формулу:
что, если решить для , дает: [ необходима цитата ]
Ожидаемое число отказов можно найти из линейности ожидания , . Это также можно показать следующим образом: [ необходима цитата ]
Чередование суммирования и дифференцирования оправдано тем, что сходящиеся степенные ряды сходятся равномерно на компактных подмножествах множества точек, где они сходятся.
Сводная статистика
Среднее значение геометрического распределения — это его ожидаемое значение, которое, как ранее обсуждалось в § Моменты и кумулянты, равно или , если определено по или соответственно.
Медиана геометрического распределения равна , если она определена по [9] и если она определена по . [3] : 69
Мода геометрического распределения — это первое значение в опорном множестве. Это 1, когда определено по и 0 , когда определено по . [3] : 69
Асимметрия геометрического распределения составляет . [ 6] : 115
Эксцесс геометрического распределения равен . [6] : 115 Избыточный эксцесс распределения равен разнице между его эксцессом и эксцессом нормального распределения , . [10] : 217 Следовательно, избыточный эксцесс геометрического распределения равен . Поскольку , избыточный эксцесс всегда положителен , поэтому распределение является лептокуртисовым . [3] : 69 Другими словами, хвост геометрического распределения затухает быстрее, чем гауссово. [10] : 217
Энтропия и информация Фишера
Энтропия (геометрическое распределение, неудачи перед успехом)
Энтропия — это мера неопределенности в распределении вероятностей. Для геометрического распределения, моделирующего число неудач до первого успеха, функция массы вероятности имеет вид:
Энтропия для этого распределения определяется как:
Энтропия увеличивается по мере уменьшения вероятности, отражая большую неопределенность по мере того, как успех становится более редким.
Информация Фишера (геометрическое распределение, неудачи перед успехом)
Информация Фишера измеряет количество информации, которую наблюдаемая случайная величина несет о неизвестном параметре . Для геометрического распределения (неудачи до первого успеха) информация Фишера относительно определяется как:
Доказательство:
- Функция правдоподобия для геометрической случайной величины имеет вид:
- Логарифмическая функция правдоподобия имеет вид:
- Функция оценки (первая производная логарифмического правдоподобия по отношению к ) имеет вид:
- Вторая производная логарифмической функции правдоподобия равна:
- Информация Фишера рассчитывается как отрицательное ожидаемое значение второй производной:
Информация Фишера увеличивается по мере уменьшения, указывая на то, что более редкие успехи предоставляют больше информации о параметре .
Энтропия (геометрическое распределение, испытания до успеха)
Для геометрического распределения, моделирующего число попыток до первого успеха, функция массы вероятности имеет вид:
Энтропия для этого распределения определяется по формуле:
Энтропия увеличивается по мере уменьшения, отражая большую неопределенность по мере того, как вероятность успеха в каждом испытании становится меньше.
Информация Фишера (геометрическое распределение, испытания до успеха)
Информация Фишера для геометрического распределения, моделирующего количество попыток до первого успеха, определяется по формуле:
Доказательство:
- Функция правдоподобия для геометрической случайной величины имеет вид:
- Логарифмическая функция правдоподобия имеет вид:
- Функция оценки (первая производная логарифмического правдоподобия по отношению к ) имеет вид:
- Вторая производная логарифмической функции правдоподобия равна:
- Информация Фишера рассчитывается как отрицательное ожидаемое значение второй производной:
Общие свойства
- Вероятностные производящие функции геометрических случайных величин и определенные над и равны, соответственно, [6] : 114–115
- Характеристическая функция равна, поэтому характеристическая функция геометрического распределения, определенная по и соответственно, равна [11] : 1630
- Энтропия геометрического распределения с параметром равна [ 12]
- При наличии среднего значения геометрическое распределение является распределением вероятности максимальной энтропии всех дискретных распределений вероятности. Соответствующее непрерывное распределение является экспоненциальным распределением . [13]
- Геометрическое распределение, определенное на , бесконечно делимо , то есть для любого положительного целого числа существуют независимые одинаково распределенные случайные величины, сумма которых также геометрически распределена. Это происходит потому, что отрицательное биномиальное распределение может быть получено из суммы логарифмических случайных величин, остановленной Пуассоном . [11] : 606–607
- Десятичные цифры геометрически распределенной случайной величины Y представляют собой последовательность независимых (и не одинаково распределенных) случайных величин. [ необходима ссылка ] Например, цифра сотен D имеет следующее распределение вероятностей:
- где q = 1 − p , и аналогично для других цифр, и, в более общем смысле, аналогично для систем счисления с основаниями, отличными от 10. Когда основание равно 2, это показывает, что геометрически распределенная случайная величина может быть записана в виде суммы независимых случайных величин, распределения вероятностей которых неразложимы .
Связанные дистрибутивы
- Сумма независимых геометрических случайных величин с параметром является отрицательной биномиальной случайной величиной с параметрами и . [14] Геометрическое распределение является частным случаем отрицательного биномиального распределения, при .
- Геометрическое распределение является частным случаем дискретного составного распределения Пуассона . [11] : 606
- Минимум геометрических случайных величин с параметрами также геометрически распределен с параметром . [15]
- Предположим, что 0 < r < 1, и для k = 1, 2, 3, ... случайная величина X k имеет распределение Пуассона с ожидаемым значением r k / k . Тогда
- имеет геометрическое распределение, принимающее значения в , с ожидаемым значением r /(1 − r ). [ необходима цитата ]
- Экспоненциальное распределение является непрерывным аналогом геометрического распределения. Применение функции пола к экспоненциальному распределению с параметром создает геометрическое распределение с параметром, определенным над . [3] : 74 Это можно использовать для генерации геометрически распределенных случайных чисел, как подробно описано в § Генерация случайных величин.
- Если p = 1/ n и X геометрически распределено с параметром p , то распределение X / n приближается к экспоненциальному распределению с ожидаемым значением 1 при n → ∞, так как В более общем случае, если p = λ / n , где λ — параметр, то при n → ∞ распределение X / n приближается к экспоненциальному распределению со скоростью λ : поэтому функция распределения X / n сходится к , что является функцией экспоненциальной случайной величины. [ требуется ссылка ]
- Индекс дисперсии геометрического распределения равен , а его коэффициент вариации равен . Распределение сверхдисперсное . [1] : 216
Статистический вывод
Истинный параметр неизвестного геометрического распределения можно вывести с помощью оценщиков и сопряженных распределений.
Метод моментов
При условии, что они существуют, первые моменты распределения вероятностей можно оценить по выборке с помощью формулы, где - момент выборки th и . [16] : 349–350 Оценка с помощью дает выборочное среднее , обозначенное . Подстановка этой оценки в формулу для ожидаемого значения геометрического распределения и решение для дает оценки и при поддержке и соответственно. Эти оценки смещены , поскольку в результате неравенства Йенсена . [17] : 53–54
Оценка максимального правдоподобия
Оценка максимального правдоподобия — это значение, которое максимизирует функцию правдоподобия для данной выборки. [16] : 308 Найдя ноль производной функции логарифмического правдоподобия , когда распределение определено по , можно найти оценку максимального правдоподобия, равную , где — выборочное среднее. [18] Если область определения равна , то оценка смещается к . Как ранее обсуждалось в § Метод моментов, эти оценки смещены.
Независимо от домена смещение равно
что дает оценку максимального правдоподобия с поправкой на смещение , [ необходима ссылка ]
Байесовский вывод
В байесовском выводе параметр является случайной величиной из априорного распределения с апостериорным распределением , вычисленным с использованием теоремы Байеса после наблюдения образцов. [17] : 167 Если в качестве априорного распределения выбрано бета-распределение , то апостериорное распределение также будет бета-распределением и называется сопряженным распределением . В частности, если выбрано априорное распределение, то апостериорное распределение после наблюдения образцов равно [19] В качестве альтернативы, если образцы находятся в , апостериорное распределение равно [20] Поскольку ожидаемое значение распределения равно , [11] : 145 по мере того как и приближается к нулю, апостериорное среднее приближается к своей оценке максимального правдоподобия.
Генерация случайных величин
Геометрическое распределение может быть получено экспериментально из стандартных однородных случайных величин iid путем нахождения первой такой случайной величины, которая меньше или равна . Однако число необходимых случайных величин также распределено геометрически, и алгоритм замедляется по мере уменьшения. [21] : 498
Генерация случайных чисел может быть выполнена за постоянное время путем усечения экспоненциальных случайных чисел . Экспоненциальная случайная величина может стать геометрически распределенной с параметром через . В свою очередь, может быть сгенерирована из стандартной равномерной случайной величины, изменив формулу на . [21] : 499–500 [22]
Приложения
Геометрическое распределение используется во многих дисциплинах. В теории очередей очередь M/M/1 имеет устойчивое состояние, следующее за геометрическим распределением. [23] В стохастических процессах процесс Юла Фурри геометрически распределен. [24] Распределение также возникает при моделировании срока службы устройства в дискретных контекстах. [25] Оно также использовалось для подгонки данных, включая моделирование пациентов, распространяющих COVID-19 . [26]
Смотрите также
Ссылки
- ^ abcdef Джонсон, Норман Л.; Кемп, Адриенн В.; Коц, Сэмюэл (2005-08-19). Одномерные дискретные распределения. Wiley Series in Probability and Statistics (1-е изд.). Wiley. doi :10.1002/0471715816. ISBN 978-0-471-27246-5.
- ^ ab Nagel, Werner; Steyer, Rolf (2017-04-04). Вероятность и условное ожидание: основы эмпирических наук. Wiley Series in Probability and Statistics (1-е изд.). Wiley. doi :10.1002/9781119243496. ISBN 978-1-119-24352-6.
- ^ abcde Чаттамвелли, Раджан; Шанмугам, Рамалингам (2020). Дискретные распределения в инженерии и прикладных науках. Синтезные лекции по математике и статистике. Cham: Springer International Publishing. doi : 10.1007/978-3-031-02425-2. ISBN 978-3-031-01297-6.
- ^ Деккинг, Фредерик Мишель; Краайкамп, Корнелис; Лопухаа, Хендрик Пауль; Местер, Людольф Эрвин (2005). Современное введение в вероятность и статистику. Тексты Спрингера в статистике. Лондон: Спрингер Лондон. п. 50. дои : 10.1007/1-84628-168-7. ISBN 978-1-85233-896-1.
- ^ Вайсштейн, Эрик В. "Memoryless". mathworld.wolfram.com . Получено 25 июля 2024 г.
- ^ abcde Форбс, Кэтрин; Эванс, Мерран; Гастингс, Николас; Пикок, Брайан (2010-11-29). Статистические распределения (1-е изд.). Wiley. doi :10.1002/9780470627242. ISBN 978-0-470-39063-4.
- ^ Берцекас, Димитрий П.; Цициклис, Джон Н. (2008). Введение в вероятность. Серия «Оптимизация и вычисления» (2-е изд.). Belmont: Athena Scientific. стр. 235. ISBN 978-1-886529-23-6.
- ^ Weisstein, Eric W. "Геометрическое распределение". MathWorld . Получено 2024-07-13 .
- ^ Аггарвал, Чару К. (2024). Вероятность и статистика для машинного обучения: учебник. Cham: Springer Nature Switzerland. стр. 138. doi : 10.1007/978-3-031-53282-5. ISBN 978-3-031-53281-8.
- ^ ab Chan, Stanley (2021). Введение в вероятность для науки о данных (1-е изд.). Michigan Publishing . ISBN 978-1-60785-747-1.
- ^ abcd Lovric, Miodrag, ed. (2011). Международная энциклопедия статистической науки (1-е изд.). Берлин, Гейдельберг: Springer Berlin Heidelberg. doi :10.1007/978-3-642-04898-2. ISBN 978-3-642-04897-5.
- ^ ab Галлагер, Р.; ван Вурхис, Д. (март 1975 г.). «Оптимальные исходные коды для геометрически распределенных целочисленных алфавитов (переписка)». Труды IEEE по теории информации . 21 (2): 228–230. doi :10.1109/TIT.1975.1055357. ISSN 0018-9448.
- ^ Lisman, JHC; Zuylen, MCA van (март 1972). «Заметка о генерации наиболее вероятных распределений частот». Statistica Neerlandica . 26 (1): 19–23. doi :10.1111/j.1467-9574.1972.tb00152.x. ISSN 0039-0402.
- ^ Питман, Джим (1993). Вероятность. Нью-Йорк, Нью-Йорк: Springer New York. стр. 372. doi :10.1007/978-1-4612-4374-8. ISBN 978-0-387-94594-1.
- ^ Ciardo, Gianfranco; Leemis, Lawrence M.; Nicol, David (1 июня 1995 г.). «О минимуме независимых геометрически распределенных случайных величин». Statistics & Probability Letters . 23 (4): 313–326. doi :10.1016/0167-7152(94)00130-Z. hdl : 2060/19940028569 . S2CID 1505801.
- ^ ab Эванс, Майкл; Розенталь, Джеффри (2023). Вероятность и статистика: наука неопределенности (2-е изд.). Macmillan Learning. ISBN 978-1429224628.
- ^ ab Held, Leonhard; Sabanés Bové, Daniel (2020). Вероятность и байесовский вывод: с приложениями в биологии и медицине. Статистика для биологии и здоровья. Берлин, Гейдельберг: Springer Berlin Heidelberg. doi : 10.1007/978-3-662-60792-3. ISBN 978-3-662-60791-6.
- ^ Siegrist, Kyle (2020-05-05). "7.3: Максимальное правдоподобие". Статистика LibreTexts . Получено 2024-06-20 .
- ^ Финк, Дэниел. «Сборник сопряженных априорных чисел». CiteSeerX 10.1.1.157.5540 .
- ^ "3. Сопряженные семейства распределений" (PDF) . Архивировано (PDF) из оригинала 2010-04-08.
- ^ ab Devroye, Luc (1986). Генерация неравномерных случайных величин. Нью-Йорк, Нью-Йорк: Springer New York. doi :10.1007/978-1-4613-8643-8. ISBN 978-1-4613-8645-2.
- ^ Кнут, Дональд Эрвин (1997). Искусство программирования . Т. 2 (3-е изд.). Reading, Mass: Addison-Wesley . стр. 136. ISBN 978-0-201-89683-1.
- ^ Даскин, Марк С. (2021). Управление операциями в формате Bite-Sized. Синтезирующие лекции по исследованию операций и их применению. Cham: Springer International Publishing. стр. 127. doi : 10.1007/978-3-031-02493-1. ISBN 978-3-031-01365-2.
- ^ Мадхира, Шивапрасад; Дешмукх, Шайладжа (2023). Введение в случайные процессы с использованием R. Singapore: Springer Nature Singapore. п. 449. дои : 10.1007/978-981-99-5601-2. ISBN 978-981-99-5600-5.
- ^ Гупта, Ракеш; Гупта, Шубхам; Али, Ирфан (2023), Гарг, Хариш (ред.), «Некоторые дискретные параметрические модели марковских цепей для анализа надежности», Достижения в области анализа надежности, отказов и рисков , Сингапур: Springer Nature Singapore, стр. 305–306, doi :10.1007/978-981-19-9909-3_14, ISBN 978-981-19-9908-6, получено 2024-07-13
- ^ Полименис, Атанас (2021-10-01). «Применение геометрического распределения для оценки риска заражения SARS-CoV-2 по местоположению». Азиатский журнал медицинских наук . 12 (10): 8–11. doi : 10.3126/ajms.v12i10.38783 . ISSN 2091-0576.