stringtranslate.com

Гипергеометрическое распределение

В теории вероятностей и статистике гипергеометрическое распределение — это дискретное распределение вероятностей , описывающее вероятность успехов (случайных розыгрышей, для которых нарисованный объект имеет указанную особенность) в розыгрышах без замены из конечной популяции размера , содержащей ровно объекты с эта функция, при которой каждый розыгрыш является либо успешным, либо неудачным. Напротив, биномиальное распределение описывает вероятность успеха в розыгрышах с заменой.

Определения

Функция массы вероятности

Следующие условия характеризуют гипергеометрическое распределение:

Случайная величина следует гипергеометрическому распределению, если ее функция массы вероятности (pmf) определяется выражением [1]

где

PMF положителен, когда .

Случайная величина, распределенная гипергеометрически с параметрами , записана и имеет функцию массы вероятности выше.

Комбинаторные тождества

По требованию у нас есть

что по существу следует из тождества Вандермонда из комбинаторики .

Также обратите внимание, что

Это тождество можно показать, выразив биномиальные коэффициенты через факториалы и переставив последние. Кроме того, это следует из симметрии задачи, описываемой двумя разными, но взаимозаменяемыми способами.

Например, рассмотрим два раунда розыгрыша без замены. В первом раунде из урны без замены извлекаются нейтральные шарики и окрашиваются в зеленый цвет. Затем цветные шарики кладут обратно. Во втором раунде шарики вытягиваются без замены и окрашиваются в красный цвет. Тогда количество шариков обоих цветов (то есть количество шариков, вытянутых дважды) имеет гипергеометрическое распределение. Симметрия в и проистекает из того факта, что два раунда независимы, и можно было бы начать с того, что вытянули шары и сначала раскрасили их в красный цвет.

Обратите внимание, что нас интересует вероятность успеха в розыгрышах без замены , поскольку вероятность успеха в каждом испытании не одинакова, поскольку размер оставшейся популяции меняется по мере удаления каждого шарика. Имейте в виду, чтобы не путать с биномиальным распределением , которое описывает вероятность успехов в розыгрышах с заменой.

Характеристики

Рабочий пример

Классическое применение гипергеометрического распределения — выборка без замены . Представьте себе урну с шариками двух цветов : красного и зеленого. Определите рисование зеленого шарика как успех, а рисование красного шарика как неудачу. пусть N описывает количество всех шариков в урне (см. таблицу непредвиденных обстоятельств ниже), а K описывает количество зеленых шариков , тогда N  -  K соответствует количеству красных шариков . Теперь, стоя рядом с урной, вы закрываете глаза и рисуете n шариков без замены. Определите X как случайную величину , результатом которой будет k — ​​количество зеленых шариков, вытянутых в эксперименте. Эту ситуацию иллюстрирует следующая таблица непредвиденных обстоятельств :

Действительно, нас интересует вычисление вероятности вытягивания k зеленых шариков за n розыгрышей, учитывая, что из общего количества N шариков имеется K зеленых шариков. В этом примере предположим, что в урне 5 зеленых и 45 красных шариков. Стоя рядом с урной, вы закрываете глаза и без замены вытягиваете 10 шариков. Какова вероятность того, что ровно 4 из 10 будут зелеными?

Эта проблема обобщена следующей таблицей непредвиденных обстоятельств:

Чтобы найти вероятность вытягивания k зеленых шариков ровно за n розыгрышей из N общего количества розыгрышей , мы определяем X как гипергеометрическую случайную величину и используем формулу

Чтобы интуитивно объяснить данную формулу, рассмотрим две симметричные задачи, представленные тождеством

  1. левая часть — из урны вытащили всего n шариков. Мы хотим найти вероятность результата вытягивания k зеленых шариков из K общего количества зеленых шариков и вытягивания nk красных шариков из NK красных шариков в этих n раундах.
  2. правая часть — альтернативно вытягивание всех N шариков из урны. Мы хотим найти вероятность результата вытягивания k зеленых шариков в n розыгрышах из общего количества N розыгрышей и Kk зеленых шариков в остальных Nn розыгрышах.

Возвращаясь к расчетам, мы используем приведенную выше формулу для расчета вероятности вытянуть ровно k зеленых шариков.

Интуитивно мы ожидаем, что еще более маловероятно, что все 5 зеленых шариков попадут в число 10 вытянутых.

Как и ожидалось, вероятность вытащить 5 зеленых шариков примерно в 35 раз меньше, чем вероятность вытащить 4.

Симметрии

Меняем местами зеленые и красные шарики:

Меняем местами нарисованные и не нарисованные шарики:

Меняем местами зеленые и нарисованные шарики:

Эти симметрии порождают группу диэдра .

Порядок розыгрышей

Вероятность вытащить любой набор зеленых и красных шариков (гипергеометрическое распределение) зависит только от количества зеленых и красных шариков, а не от порядка, в котором они появляются; т. е. это сменное распределение. В результате вероятность выпадения зеленого шарика при розыгрыше равна [2]

Это ожидаемая вероятность, то есть она основана на незнании результатов предыдущих розыгрышей.

Хвостовые границы

Пусть и . Тогда для мы можем получить следующие оценки: [3]

где

— это расхождение Кульбака-Лейблера , и оно используется . [4]

Если n больше N /2, может быть полезно применить симметрию, чтобы «инвертировать» границы, что даст вам следующее: [4] [5]

Статистические выводы

Гипергеометрический тест

Гипергеометрический тест использует гипергеометрическое распределение для измерения статистической значимости составления выборки, состоящей из определенного количества успехов (из общего числа розыгрышей) из популяции такого размера, которая содержит успехи. В тесте на чрезмерное представительство успехов в выборке гипергеометрическое значение p рассчитывается как вероятность случайного выбора или большего количества успехов из совокупности в общем количестве розыгрышей. В тесте на недостаточную представленность значение p представляет собой вероятность случайного или меньшего числа успехов.

Биолог и статистик Рональд Фишер

Тест, основанный на гипергеометрическом распределении (гипергеометрический тест), идентичен соответствующему одностороннему варианту точного критерия Фишера . [6] И наоборот, значение p двустороннего точного критерия Фишера может быть рассчитано как сумма двух соответствующих гипергеометрических критериев (более подробную информацию см. в [7] ).

Тест часто используется для определения того, какие подгруппы населения пере- или недостаточно представлены в выборке. Этот тест имеет широкий спектр применения. Например, маркетинговая группа может использовать этот тест, чтобы понять свою клиентскую базу, проверив набор известных клиентов на предмет чрезмерного представительства различных демографических подгрупп (например, женщин, людей до 30 лет).

Связанные дистрибутивы

Пусть и .

где стандартная функция нормального распределения

В следующей таблице описаны четыре распределения, связанные с количеством успехов в последовательности розыгрышей:

Многомерное гипергеометрическое распределение

Модель урны с зелеными и красными шариками можно распространить на случай, когда шариков более двух цветов. Если в урне находится K i шариков цвета i и вы берете наугад n шариков без замены, то количество шариков каждого цвета в выборке ( k 1 , k 2 ,..., k c ) имеет многомерную величину гипергеометрическое распределение:

Это имеет такое же отношение к полиномиальному распределению , как гипергеометрическое распределение к биномиальному распределению: полиномиальное распределение — это распределение «с заменой», а многомерное гипергеометрическое распределение — это распределение «без замены».

Свойства этого распределения приведены в соседней таблице [8] , где c — количество шариков разных цветов и — общее количество шариков в урне.

Пример

Предположим, в урне лежат 5 черных, 10 белых и 15 красных шариков. Если шесть шариков выбраны без замены, вероятность того, что будут выбраны ровно два шарика каждого цвета, равна

Возникновение и применение

Заявление о проверке выборов

Образцы, используемые для аудита выборов, и, как следствие, вероятность упустить проблему

При аудите выборов обычно проверяются выборочные участки с машинным подсчетом, чтобы увидеть, соответствуют ли результаты ручного или машинного пересчета первоначальным подсчетам. Несоответствия приводят либо к составлению отчета, либо к более масштабному пересчету. Частота выборки обычно определяется законом, а не статистическим расчетом, поэтому для юридически определенного размера выборки n какова вероятность пропустить проблему, присутствующую на K участках, например взлом или ошибку? Это вероятность того, что {{nobr| к знак равно 0 . Ошибки часто неясны, и хакер может свести к минимуму их обнаружение, затронув лишь несколько избирательных участков, что все равно повлияет на закрытые выборы, поэтому вероятный сценарий состоит в том, что K будет порядка 5% от N. Проверки обычно охватывают от 1% до 10% участков (часто 3%), [9] [10] [11] , поэтому вероятность пропустить проблему высока. Например, если проблема присутствует на 5 из 100 участков, 3%-ная выборка имеет 86%-ную вероятность того, что k = 0 , поэтому проблема не будет замечена, и только 14%-ную вероятность появления проблемы в выборке (положительное k ). :

Выборке потребуется 45 избирательных участков, чтобы вероятность того, что k  = 0 в выборке, была менее 5% и, таким образом, имела вероятность более 95% обнаружения проблемы:

Приложение к техасскому холдему

В холдеме игроки в покер составляют лучшую возможную комбинацию, комбинируя две карты в своей руке с пятью картами (общими картами), которые в конечном итоге оказываются на столе. В колоде 52 карты, по 13 карт каждой масти. В этом примере предположим, что у игрока в руке 2 трефы, а на столе лежат 3 карты, 2 из которых тоже трефы. Игрок хотел бы знать вероятность того, что одна из следующих двух карт окажется трефой для завершения флеша .
(Обратите внимание, что вероятность, рассчитанная в этом примере, предполагает, что информация о картах в руках других игроков неизвестна; однако опытные игроки в покер могут учитывать, как другие игроки делают свои ставки (чек, колл, рейз или фолд) при рассмотрении вероятность для каждого сценария. Строго говоря, описанный здесь подход к вычислению вероятностей успеха является точным в сценарии, когда за столом находится только один игрок; в многопользовательской игре эта вероятность может быть несколько скорректирована в зависимости от игры оппонентов .)

Показаны 4 клуба, поэтому 9 клубов еще не показаны. Показаны 5 карт (2 в руке и 3 на столе), поэтому они еще невидимы.

Вероятность того, что одна из следующих двух перевернутых карт окажется трефой, можно вычислить с помощью гипергеометрических функций и . (около 31,64%)

Вероятность того, что обе следующие две перевернутые карты окажутся трефами, можно вычислить с помощью гипергеометрических функций и . (около 3,33%)

Вероятность того, что ни одна из следующих двух перевернутых карт не окажется трефой, можно вычислить с помощью гипергеометрических функций и . (около 65,03%)

Заявление в Кено

Гипергеометрическое распределение незаменимо для расчета шансов Кено . В Кено из набора из 80 пронумерованных шаров в контейнере случайным образом вытягиваются 20 шаров, что очень похоже на американское бинго . Перед каждым розыгрышем игрок выбирает определенное количество мест , отмечая предоставленную для этого бумажную форму. Например, игрок может сыграть в 6-точечную игру , отметив 6 чисел, каждое из которых находится в диапазоне от 1 до 80 включительно. Затем (после того, как все игроки сдали свои формы в кассу, получили дубликат отмеченной формы и оплатили ставку) вытягивается 20 шаров. Некоторые из вытянутых шаров могут совпадать с некоторыми или всеми шарами, выбранными игроком. Вообще говоря, чем больше попаданий (вытянутых шаров, соответствующих выбранным номерам игроков), тем больше выигрыш.

Например, если клиент ставит («играет») 1 доллар на 6-е место (нередкий пример) и выпадает 4 из 6, казино выплатит 4 доллара. Выплаты могут варьироваться от одного казино к другому, но типичная сумма здесь составляет 4 доллара. Вероятность этого события равна:

Аналогичным образом, шанс попасть в 5 мест из 6 выбранных равен, хотя типичная выплата может составлять 88 долларов. Выплата за попадание всех 6 составит около 1500 долларов (вероятность ≈ 0,000128985 или 7752 к 1). Единственная другая ненулевая выплата может составлять 1 доллар за выпадение трех номеров (т. е. вы получаете обратно свою ставку), вероятность чего составляет около 0,129819548.

Взяв сумму произведений выплат на соответствующие вероятности, мы получаем ожидаемую доходность 0,70986492 или примерно 71% для 6-го места с преимуществом казино 29%. Другие споты имеют аналогичную ожидаемую доходность. Такая очень низкая отдача (для игрока) обычно объясняется большими накладными расходами (площадь, оборудование, персонал), необходимыми для игры.

Смотрите также

Рекомендации

Цитаты

  1. ^ Райс, Джон А. (2007). Математическая статистика и анализ данных (Третье изд.). Даксбери Пресс. п. 42.
  2. ^ http://www.stat.yale.edu/~pollard/Courses/600.spring2010/Handouts/Symmetry%5BPolyaUrn%5D.pdf [ пустой URL-адрес PDF ]
  3. ^ Хоффдинг, Василий (1963), «Вероятностные неравенства для сумм ограниченных случайных величин» (PDF) , Журнал Американской статистической ассоциации , 58 (301): 13–30, doi : 10.2307/2282952, JSTOR  2282952.
  4. ^ ab «Еще один хвост гипергеометрического распределения». WordPress.com . 8 декабря 2015 года . Проверено 19 марта 2018 г.
  5. ^ Серфлинг, Роберт (1974), «Вероятностные неравенства для суммы при выборке без замены», The Annals of Статистика , 2 (1): 39–48, doi : 10.1214/aos/1176342611.
  6. ^ Соперники, И.; Персоназ, Л.; Таинг, Л.; Потье, М.-К (2007). «Обогащение или обеднение категории ГО внутри класса генов: какой тест?». Биоинформатика . 23 (4): 401–407. doi : 10.1093/биоинформатика/btl633 . ПМИД  17182697.
  7. ^ К. Проповедник и Н. Бриггс. «Расчет точного теста Фишера: интерактивный инструмент расчета точного теста вероятности Фишера для таблиц 2 x 2 (интерактивная страница)».
  8. ^ Дуан, XG «Лучшее понимание многомерного гипергеометрического распределения с последствиями для выборки обследований на основе дизайна». Препринт arXiv arXiv:2101.00548 (2021 г.). (pdf)
  9. ^ Глейзер, Аманда; Спертус, Якоб (10 февраля 2020 г.) [8 марта 2020 г.]. Начните распространять новости: поствыборный аудит Нью-Йорка имеет серьезные недостатки (информационный документ). Эльзевир. дои : 10.2139/ssrn.3536011. ССН  3536011. ССН 3536011 . Проверено 4 декабря 2023 г. - через SSRN.com.
  10. ^ «Законы о государственном аудите». Подтвержденное голосование . 10 февраля 2017 года . Проверено 2 апреля 2018 г.
  11. ^ «Послевыборные проверки». ncsl.org . Национальная конференция законодательных собраний штатов . Проверено 2 апреля 2018 г.

Источники

Внешние ссылки