stringtranslate.com

Гипергеометрическое распределение

В теории вероятностей и статистике гипергеометрическое распределение — это дискретное распределение вероятностей , которое описывает вероятность успехов (случайных розыгрышей, при которых вытащенный объект имеет указанную характеристику) в розыгрышах без возвращения из конечной популяции размера , содержащей ровно объекты с этой характеристикой, где каждый розыгрыш является либо успехом, либо неудачей. Напротив, биномиальное распределение описывает вероятность успехов в розыгрышах с возвращением.

Определения

Функция массы вероятности

Следующие условия характеризуют гипергеометрическое распределение:

Случайная величина подчиняется гипергеометрическому распределению, если ее функция массы вероятности (pmf) определяется выражением [1]

где

PMF положительна, когда .

Случайная величина распределена гипергеометрически с параметрами , и записывается и имеет функцию массы вероятности выше.

Комбинаторные тождества

По мере необходимости у нас есть

что по сути следует из тождества Вандермонда в комбинаторике .

Также обратите внимание, что

Эту идентичность можно показать, выразив биномиальные коэффициенты через факториалы и переставив последние. Кроме того, это следует из симметрии задачи, описанной двумя разными, но взаимозаменяемыми способами.

Например, рассмотрим два раунда вытягивания без возвращения. В первом раунде из урны без возвращения вынимаются нейтральные шарики и окрашиваются в зеленый цвет. Затем цветные шарики возвращаются на место. Во втором раунде шарики вынимаются без возвращения и окрашиваются в красный цвет. Затем количество шариков с обоими цветами (то есть количество шариков, которые были вытащены дважды) имеет гипергеометрическое распределение. Симметрия в и вытекает из того факта, что два раунда независимы, и можно было бы начать с вытягивания шариков и окрашивания их в красный цвет.

Обратите внимание, что нас интересует вероятность успеха в розыгрышах без замены , поскольку вероятность успеха в каждом испытании не одинакова, поскольку размер оставшейся популяции меняется по мере удаления каждого шарика. Не путайте с биномиальным распределением , которое описывает вероятность успеха в розыгрышах с заменой.

Характеристики

Рабочий пример

Классическим применением гипергеометрического распределения является выборка без возвращения . Представьте себе урну с шариками двух цветов : красными и зелеными. Определим вытаскивание зеленого шарика как успех, а вытаскивание красного шарика как неудачу. Пусть N описывает количество всех шариков в урне (см. таблицу сопряженности ниже), а K описывает количество зеленых шариков , тогда N  −  K соответствует количеству красных шариков . Теперь, стоя рядом с урной, вы закрываете глаза и вытаскиваете n шариков без возвращения. Определим X как случайную величину, результатом которой является k , количество зеленых шариков, вытащенных в ходе эксперимента. Эта ситуация проиллюстрирована следующей таблицей сопряженности :

Действительно, нам интересно вычислить вероятность вытягивания k зеленых шариков за n вытягиваний, учитывая, что из общего количества шариков N есть K зеленых шариков. Для этого примера предположим, что в урне 5 зеленых и 45 красных шариков. Стоя рядом с урной, вы закрываете глаза и вытягиваете 10 шариков без возвращения. Какова вероятность того, что ровно 4 из 10 будут зелеными?

Эту проблему можно резюмировать с помощью следующей таблицы сопряженности:

Чтобы найти вероятность вытягивания k зеленых шариков ровно в n вытягиваниях из N общих вытягиваний , мы определяем X как гипергеометрическую случайную величину и используем формулу

Чтобы интуитивно объяснить данную формулу, рассмотрим две симметричные задачи, представленные тождеством

  1. левая сторона - вытягивание всего n шариков из урны. Мы хотим найти вероятность результата вытягивания k зеленых шариков из K зеленых шариков и вытягивания nk красных шариков из NK красных шариков в этих n раундах.
  2. правая сторона - альтернатива, вытаскивание всех N шариков из урны. Мы хотим найти вероятность результата вытаскивания k зеленых шариков в n вытягиваниях из общего числа N вытягиваний, и Kk зеленых шариков в оставшихся Nn вытягиваниях.

Возвращаясь к расчетам, используем приведенную выше формулу для расчета вероятности вытаскивания ровно k зеленых шариков.

Интуитивно мы могли бы ожидать, что еще более маловероятно, что все 5 зеленых шариков окажутся среди 10 вытащенных.

Как и ожидалось, вероятность вытащить 5 зеленых шариков примерно в 35 раз меньше, чем вероятность вытащить 4.

Симметрии

Поменяем местами зеленые и красные шарики:

Поменяем местами вытащенные и невытащенные шарики:

Поменяем местами зеленые и нарисованные шарики:

Эти симметрии порождают диэдральную группу .

Порядок розыгрыша

Вероятность вытягивания любого набора зеленых и красных шариков (гипергеометрическое распределение) зависит только от количества зеленых и красных шариков, а не от порядка, в котором они появляются; т. е. это взаимозаменяемое распределение . В результате вероятность вытягивания зеленого шарика при вытягивании равна [2]

Это вероятность ex ante , то есть она основана на незнании результатов предыдущих розыгрышей.

Хвостовые границы

Пусть и . Тогда для можно вывести следующие границы: [3]

где

является расхождением Кульбака-Лейблера и используется, что . [4]

Примечание : Чтобы вывести предыдущие границы, нужно начать с наблюдения, что где — зависимые случайные величины с определенным распределением . Поскольку большинство теорем о границах в сумме случайных величин касаются их независимых последовательностей, нужно сначала создать последовательность независимых случайных величин с тем же распределением и применить теоремы относительно . Затем, как доказывает Хёффдинг [3] , результаты и границы, полученные с помощью этого процесса, справедливы и для .

Если n больше, чем N /2, может быть полезно применить симметрию, чтобы «инвертировать» границы, что даст вам следующее: [4] [5]

Статистический вывод

Гипергеометрический тест

Гипергеометрический тест использует гипергеометрическое распределение для измерения статистической значимости получения выборки, состоящей из определенного количества успехов (из общего числа розыгрышей) из популяции размера, содержащего успехи. В тесте на перепредставленность успехов в выборке гипергеометрическое p-значение рассчитывается как вероятность случайного извлечения или большего количества успехов из популяции в общем числе розыгрышей. В тесте на недопредставленность p-значение представляет собой вероятность случайного извлечения или меньшего количества успехов.

Биолог и статистик Рональд Фишер

Тест, основанный на гипергеометрическом распределении (гипергеометрический тест), идентичен соответствующей односторонней версии точного теста Фишера . [6] Обратно, p-значение двустороннего точного теста Фишера может быть рассчитано как сумма двух соответствующих гипергеометрических тестов (для получения дополнительной информации см. [7] ).

Тест часто используется для определения того, какие подгруппы населения пере- или недопредставлены в выборке. Этот тест имеет широкий спектр применения. Например, маркетинговая группа может использовать тест для понимания своей клиентской базы, тестируя набор известных клиентов на перепредставленность различных демографических подгрупп (например, женщин, людей моложе 30 лет).

Связанные дистрибутивы

Пусть и .

где - стандартная нормальная функция распределения

В следующей таблице описаны четыре распределения, связанные с количеством успехов в последовательности розыгрышей:

Многомерное гипергеометрическое распределение

Модель урны с зелеными и красными шариками можно расширить на случай, когда есть более двух цветов шариков. Если в урне есть K i шариков цвета i и вы берете n шариков наугад без возвращения, то количество шариков каждого цвета в выборке ( k 1 , k 2 ,..., k c ) имеет многомерное гипергеометрическое распределение:

Это имеет такое же отношение к полиномиальному распределению , как гипергеометрическое распределение к биномиальному: полиномиальное распределение — это распределение «с заменой», а многомерное гипергеометрическое — это распределение «без замены».

Свойства этого распределения приведены в соседней таблице [8] , где c — количество различных цветов, а — общее количество шариков в урне.

Пример

Предположим, что в урне 5 черных, 10 белых и 15 красных шариков. Если выбрать шесть шариков без возвращения, вероятность того, что будет выбрано ровно два шарика каждого цвета, составляет

Возникновение и применение

Применение к аудиту выборов

Образцы, используемые для аудита выборов, и как следствие вероятность пропуска проблемы

Аудиты выборов обычно проверяют выборку участков с машинным подсчетом, чтобы увидеть, соответствуют ли пересчеты вручную или машиной первоначальным подсчетам. Несоответствия приводят либо к отчету, либо к большему пересчету. Частота выборки обычно определяется законом, а не статистическим проектом, поэтому для юридически определенного размера выборки n какова вероятность пропуска проблемы, присутствующей в K участках, такой как взлом или ошибка? Это вероятность того, что k = 0. Ошибки часто неочевидны, и хакер может минимизировать обнаружение, затронув только несколько участков, что все равно повлияет на закрытые выборы, поэтому вероятным сценарием является то, что K будет порядка 5% от N. Аудиты обычно охватывают от 1% до 10% участков (часто 3%), [9] [10] [11], поэтому у них высокая вероятность пропуска проблемы. Например, если проблема присутствует в 5 из 100 участков, то выборка 3% имеет 86% вероятность того, что k = 0, поэтому проблема не будет замечена, и только 14% вероятность того, что проблема появится в выборке (положительное k ):

Для того чтобы вероятность того, что k  = 0 в выборке составит менее 5%, и, таким образом, вероятность обнаружения проблемы составит более 95%, выборке потребуется 45 избирательных участков :

Применение в Техасском Холдеме Покере

В холдеме игроки покера составляют лучшую возможную руку, комбинируя две карты в своей руке с 5 картами (общими картами), которые в конечном итоге оказываются на столе. В колоде 52 карты, и по 13 каждой масти. Для этого примера предположим, что у игрока в руке 2 трефы, а на столе лежат 3 карты, 2 из которых также трефы. Игрок хотел бы узнать вероятность того, что одна из следующих 2 карт будет трефой, чтобы завершить флеш . (
Обратите внимание, что вероятность, рассчитанная в этом примере, предполагает, что информация о картах в руках других игроков неизвестна; однако опытные игроки в покер могут учитывать, как другие игроки делают свои ставки (чек, колл, рейз или фолд) при рассмотрении вероятности для каждого сценария. Строго говоря, подход к расчету вероятностей успеха, описанный здесь, точен в сценарии, где за столом находится только один игрок; в многопользовательской игре эта вероятность может быть несколько скорректирована на основе ставок противников.)

Открыто 4 трефы, поэтому 9 треф еще не показаны. Открыто 5 карт (2 в руке и 3 на столе), поэтому еще не показаны.

Вероятность того, что одна из следующих двух перевернутых карт окажется трефой, можно рассчитать с помощью гипергеометрии с и . (около 31,64%)

Вероятность того, что обе следующие две перевернутые карты будут трефовыми, можно рассчитать с помощью гипергеометрии с и . (около 3,33%)

Вероятность того, что ни одна из следующих двух перевернутых карт не будет трефовой, можно рассчитать с помощью гипергеометрии с и . (около 65,03%)

Применение к Кено

Гипергеометрическое распределение необходимо для расчета коэффициентов Кено . В Кено 20 шаров случайным образом вытягиваются из набора из 80 пронумерованных шаров в контейнере, как в американском бинго . Перед каждым розыгрышем игрок выбирает определенное количество мест , отмечая бумажную форму, предоставленную для этой цели. Например, игрок может сыграть в 6-место , отметив 6 номеров, каждый из диапазона от 1 до 80 включительно. Затем (после того, как все игроки отнесли свои формы кассиру и получили дубликат своей пронумерованной формы, и заплатили свою ставку) вытягиваются 20 шаров. Некоторые из вытянутых шаров могут совпадать с некоторыми или всеми шарами, выбранными игроком. Вообще говоря, чем больше попаданий (вытянутых шаров, которые соответствуют выбранным игроком номерам), тем больше выигрыш.

Например, если клиент ставит («играет») 1 доллар на 6 очков (нередкий пример) и попадает в 4 из 6, казино выплатит 4 доллара. Выплаты могут варьироваться от одного казино к другому, но 4 доллара — типичное значение здесь. Вероятность этого события:

Аналогично, вероятность попадания в 5 мест из 6 выбранных составляет, в то время как типичная выплата может быть $88. Выплата за попадание во все 6 составит около $1500 (вероятность ≈ 0,000128985 или 7752 к 1). Единственная другая ненулевая выплата может быть $1 за попадание в 3 номера (т. е. вы получаете свою ставку обратно), что имеет вероятность около 0,129819548.

Взяв сумму произведений выплат на соответствующие вероятности, мы получаем ожидаемый доход 0,70986492 или примерно 71% для 6-места, для преимущества заведения 29%. Другие места, в которых играют, имеют похожий ожидаемый доход. Этот очень низкий доход (для игрока) обычно объясняется большими накладными расходами (площадь, оборудование, персонал), необходимыми для игры.

Смотрите также

Ссылки

Цитаты

  1. ^ Райс, Джон А. (2007). Математическая статистика и анализ данных (третье изд.). Duxbury Press. стр. 42.
  2. ^ http://www.stat.yale.edu/~pollard/Courses/600.spring2010/Handouts/Symmetry%5BPolyaUrn%5D.pdf [ пустой URL-адрес PDF ]
  3. ^ ab Hoeffding, Wassily (1963), «Вероятностные неравенства для сумм ограниченных случайных величин» (PDF) , Журнал Американской статистической ассоциации , 58 (301): 13–30, doi :10.2307/2282952, JSTOR  2282952.
  4. ^ ab "Другой хвост гипергеометрического распределения". wordpress.com . 8 декабря 2015 г. . Получено 19 марта 2018 г. .
  5. ^ Серфлинг, Роберт (1974), «Вероятностные неравенства для суммы при выборке без возвращения», Анналы статистики , 2 (1): 39–48, doi : 10.1214/aos/1176342611.
  6. ^ Rivals, I.; Personnaz, L.; Taing, L.; Potier, M.-C (2007). «Обогащение или обеднение категории GO в классе генов: какой тест?». Биоинформатика . 23 (4): 401–407. doi : 10.1093/bioinformatics/btl633 . PMID  17182697.
  7. ^ К. Преачер и Н. Бриггс. «Расчет для точного теста Фишера: интерактивный инструмент расчета для точного теста вероятности Фишера для таблиц 2 x 2 (интерактивная страница)».
  8. ^ Дуань, XG (2021). «Лучшее понимание многомерного гипергеометрического распределения с учетом результатов выборочного обследования на основе дизайна». Препринт ArXiv . arXiv : 2101.00548 .
  9. ^ Glazer, Amanda; Spertus, Jacob (10 февраля 2020 г.) [8 марта 2020 г.]. Начните распространять новости: послевыборный аудит в Нью-Йорке имеет серьезные недостатки (белая книга). Elsevier. doi : 10.2139/ssrn.3536011. SSRN  3536011. SSRN 3536011 . Получено 4 декабря 2023 г. – через SSRN.com.
  10. ^ "Законы о государственном аудите". Проверенное голосование . 10 февраля 2017 г. Архивировано из оригинала 4 января 2020 г. Получено 2 апреля 2018 г.
  11. ^ "Post-election Audits". ncsl.org . Национальная конференция законодательных органов штатов . Получено 2 апреля 2018 г. .

Источники

Внешние ссылки