В теории вероятностей и статистике гипергеометрическое распределение — это дискретное распределение вероятностей , которое описывает вероятность успехов (случайных розыгрышей, при которых вытащенный объект имеет указанную характеристику) в розыгрышах без возвращения из конечной популяции размера , содержащей ровно объекты с этой характеристикой, где каждый розыгрыш является либо успехом, либо неудачей. Напротив, биномиальное распределение описывает вероятность успехов в розыгрышах с возвращением.
Следующие условия характеризуют гипергеометрическое распределение:
Случайная величина подчиняется гипергеометрическому распределению, если ее функция массы вероятности (pmf) определяется выражением [1]
где
PMF положительна, когда .
Случайная величина распределена гипергеометрически с параметрами , и записывается и имеет функцию массы вероятности выше.
По мере необходимости у нас есть
что по сути следует из тождества Вандермонда в комбинаторике .
Также обратите внимание, что
Эту идентичность можно показать, выразив биномиальные коэффициенты через факториалы и переставив последние. Кроме того, это следует из симметрии задачи, описанной двумя разными, но взаимозаменяемыми способами.
Например, рассмотрим два раунда вытягивания без возвращения. В первом раунде из урны без возвращения вынимаются нейтральные шарики и окрашиваются в зеленый цвет. Затем цветные шарики возвращаются на место. Во втором раунде шарики вынимаются без возвращения и окрашиваются в красный цвет. Затем количество шариков с обоими цветами (то есть количество шариков, которые были вытащены дважды) имеет гипергеометрическое распределение. Симметрия в и вытекает из того факта, что два раунда независимы, и можно было бы начать с вытягивания шариков и окрашивания их в красный цвет.
Обратите внимание, что нас интересует вероятность успеха в розыгрышах без замены , поскольку вероятность успеха в каждом испытании не одинакова, поскольку размер оставшейся популяции меняется по мере удаления каждого шарика. Не путайте с биномиальным распределением , которое описывает вероятность успеха в розыгрышах с заменой.
Классическим применением гипергеометрического распределения является выборка без возвращения . Представьте себе урну с шариками двух цветов : красными и зелеными. Определим вытаскивание зеленого шарика как успех, а вытаскивание красного шарика как неудачу. Пусть N описывает количество всех шариков в урне (см. таблицу сопряженности ниже), а K описывает количество зеленых шариков , тогда N − K соответствует количеству красных шариков . Теперь, стоя рядом с урной, вы закрываете глаза и вытаскиваете n шариков без возвращения. Определим X как случайную величину, результатом которой является k , количество зеленых шариков, вытащенных в ходе эксперимента. Эта ситуация проиллюстрирована следующей таблицей сопряженности :
Действительно, нам интересно вычислить вероятность вытягивания k зеленых шариков за n вытягиваний, учитывая, что из общего количества шариков N есть K зеленых шариков. Для этого примера предположим, что в урне 5 зеленых и 45 красных шариков. Стоя рядом с урной, вы закрываете глаза и вытягиваете 10 шариков без возвращения. Какова вероятность того, что ровно 4 из 10 будут зелеными?
Эту проблему можно резюмировать с помощью следующей таблицы сопряженности:
Чтобы найти вероятность вытягивания k зеленых шариков ровно в n вытягиваниях из N общих вытягиваний , мы определяем X как гипергеометрическую случайную величину и используем формулу
Чтобы интуитивно объяснить данную формулу, рассмотрим две симметричные задачи, представленные тождеством
Возвращаясь к расчетам, используем приведенную выше формулу для расчета вероятности вытаскивания ровно k зеленых шариков.
Интуитивно мы могли бы ожидать, что еще более маловероятно, что все 5 зеленых шариков окажутся среди 10 вытащенных.
Как и ожидалось, вероятность вытащить 5 зеленых шариков примерно в 35 раз меньше, чем вероятность вытащить 4.
Поменяем местами зеленые и красные шарики:
Поменяем местами вытащенные и невытащенные шарики:
Поменяем местами зеленые и нарисованные шарики:
Эти симметрии порождают диэдральную группу .
Вероятность вытягивания любого набора зеленых и красных шариков (гипергеометрическое распределение) зависит только от количества зеленых и красных шариков, а не от порядка, в котором они появляются; т. е. это взаимозаменяемое распределение . В результате вероятность вытягивания зеленого шарика при вытягивании равна [2]
Это вероятность ex ante , то есть она основана на незнании результатов предыдущих розыгрышей.
Пусть и . Тогда для можно вывести следующие границы: [3]
где
является расхождением Кульбака-Лейблера и используется, что . [4]
Примечание : Чтобы вывести предыдущие границы, нужно начать с наблюдения, что где — зависимые случайные величины с определенным распределением . Поскольку большинство теорем о границах в сумме случайных величин касаются их независимых последовательностей, нужно сначала создать последовательность независимых случайных величин с тем же распределением и применить теоремы относительно . Затем, как доказывает Хёффдинг [3] , результаты и границы, полученные с помощью этого процесса, справедливы и для .
Если n больше, чем N /2, может быть полезно применить симметрию, чтобы «инвертировать» границы, что даст вам следующее: [4] [5]
Гипергеометрический тест использует гипергеометрическое распределение для измерения статистической значимости получения выборки, состоящей из определенного количества успехов (из общего числа розыгрышей) из популяции размера, содержащего успехи. В тесте на перепредставленность успехов в выборке гипергеометрическое p-значение рассчитывается как вероятность случайного извлечения или большего количества успехов из популяции в общем числе розыгрышей. В тесте на недопредставленность p-значение представляет собой вероятность случайного извлечения или меньшего количества успехов.
Тест, основанный на гипергеометрическом распределении (гипергеометрический тест), идентичен соответствующей односторонней версии точного теста Фишера . [6] Обратно, p-значение двустороннего точного теста Фишера может быть рассчитано как сумма двух соответствующих гипергеометрических тестов (для получения дополнительной информации см. [7] ).
Тест часто используется для определения того, какие подгруппы населения пере- или недопредставлены в выборке. Этот тест имеет широкий спектр применения. Например, маркетинговая группа может использовать тест для понимания своей клиентской базы, тестируя набор известных клиентов на перепредставленность различных демографических подгрупп (например, женщин, людей моложе 30 лет).
Пусть и .
где - стандартная нормальная функция распределения
В следующей таблице описаны четыре распределения, связанные с количеством успехов в последовательности розыгрышей:
Модель урны с зелеными и красными шариками можно расширить на случай, когда есть более двух цветов шариков. Если в урне есть K i шариков цвета i и вы берете n шариков наугад без возвращения, то количество шариков каждого цвета в выборке ( k 1 , k 2 ,..., k c ) имеет многомерное гипергеометрическое распределение:
Это имеет такое же отношение к полиномиальному распределению , как гипергеометрическое распределение к биномиальному: полиномиальное распределение — это распределение «с заменой», а многомерное гипергеометрическое — это распределение «без замены».
Свойства этого распределения приведены в соседней таблице [8] , где c — количество различных цветов, а — общее количество шариков в урне.
Предположим, что в урне 5 черных, 10 белых и 15 красных шариков. Если выбрать шесть шариков без возвращения, вероятность того, что будет выбрано ровно два шарика каждого цвета, составляет
Аудиты выборов обычно проверяют выборку участков с машинным подсчетом, чтобы увидеть, соответствуют ли пересчеты вручную или машиной первоначальным подсчетам. Несоответствия приводят либо к отчету, либо к большему пересчету. Частота выборки обычно определяется законом, а не статистическим проектом, поэтому для юридически определенного размера выборки n какова вероятность пропуска проблемы, присутствующей в K участках, такой как взлом или ошибка? Это вероятность того, что k = 0. Ошибки часто неочевидны, и хакер может минимизировать обнаружение, затронув только несколько участков, что все равно повлияет на закрытые выборы, поэтому вероятным сценарием является то, что K будет порядка 5% от N. Аудиты обычно охватывают от 1% до 10% участков (часто 3%), [9] [10] [11], поэтому у них высокая вероятность пропуска проблемы. Например, если проблема присутствует в 5 из 100 участков, то выборка 3% имеет 86% вероятность того, что k = 0, поэтому проблема не будет замечена, и только 14% вероятность того, что проблема появится в выборке (положительное k ):
Для того чтобы вероятность того, что k = 0 в выборке составит менее 5%, и, таким образом, вероятность обнаружения проблемы составит более 95%, выборке потребуется 45 избирательных участков :
В холдеме игроки покера составляют лучшую возможную руку, комбинируя две карты в своей руке с 5 картами (общими картами), которые в конечном итоге оказываются на столе. В колоде 52 карты, и по 13 каждой масти. Для этого примера предположим, что у игрока в руке 2 трефы, а на столе лежат 3 карты, 2 из которых также трефы. Игрок хотел бы узнать вероятность того, что одна из следующих 2 карт будет трефой, чтобы завершить флеш . (
Обратите внимание, что вероятность, рассчитанная в этом примере, предполагает, что информация о картах в руках других игроков неизвестна; однако опытные игроки в покер могут учитывать, как другие игроки делают свои ставки (чек, колл, рейз или фолд) при рассмотрении вероятности для каждого сценария. Строго говоря, подход к расчету вероятностей успеха, описанный здесь, точен в сценарии, где за столом находится только один игрок; в многопользовательской игре эта вероятность может быть несколько скорректирована на основе ставок противников.)
Открыто 4 трефы, поэтому 9 треф еще не показаны. Открыто 5 карт (2 в руке и 3 на столе), поэтому еще не показаны.
Вероятность того, что одна из следующих двух перевернутых карт окажется трефой, можно рассчитать с помощью гипергеометрии с и . (около 31,64%)
Вероятность того, что обе следующие две перевернутые карты будут трефовыми, можно рассчитать с помощью гипергеометрии с и . (около 3,33%)
Вероятность того, что ни одна из следующих двух перевернутых карт не будет трефовой, можно рассчитать с помощью гипергеометрии с и . (около 65,03%)
Гипергеометрическое распределение необходимо для расчета коэффициентов Кено . В Кено 20 шаров случайным образом вытягиваются из набора из 80 пронумерованных шаров в контейнере, как в американском бинго . Перед каждым розыгрышем игрок выбирает определенное количество мест , отмечая бумажную форму, предоставленную для этой цели. Например, игрок может сыграть в 6-место , отметив 6 номеров, каждый из диапазона от 1 до 80 включительно. Затем (после того, как все игроки отнесли свои формы кассиру и получили дубликат своей пронумерованной формы, и заплатили свою ставку) вытягиваются 20 шаров. Некоторые из вытянутых шаров могут совпадать с некоторыми или всеми шарами, выбранными игроком. Вообще говоря, чем больше попаданий (вытянутых шаров, которые соответствуют выбранным игроком номерам), тем больше выигрыш.
Например, если клиент ставит («играет») 1 доллар на 6 очков (нередкий пример) и попадает в 4 из 6, казино выплатит 4 доллара. Выплаты могут варьироваться от одного казино к другому, но 4 доллара — типичное значение здесь. Вероятность этого события:
Аналогично, вероятность попадания в 5 мест из 6 выбранных составляет, в то время как типичная выплата может быть $88. Выплата за попадание во все 6 составит около $1500 (вероятность ≈ 0,000128985 или 7752 к 1). Единственная другая ненулевая выплата может быть $1 за попадание в 3 номера (т. е. вы получаете свою ставку обратно), что имеет вероятность около 0,129819548.
Взяв сумму произведений выплат на соответствующие вероятности, мы получаем ожидаемый доход 0,70986492 или примерно 71% для 6-места, для преимущества заведения 29%. Другие места, в которых играют, имеют похожий ожидаемый доход. Этот очень низкий доход (для игрока) обычно объясняется большими накладными расходами (площадь, оборудование, персонал), необходимыми для игры.