stringtranslate.com

Мультиномиальное распределение

В теории вероятностей мультиномиальное распределение является обобщением биномиального распределения . Например, оно моделирует вероятность выпадения очков для каждой грани k -гранной кости, брошенной n раз. Для n независимых испытаний, каждое из которых приводит к успеху ровно для одной из k категорий, причем каждая категория имеет заданную фиксированную вероятность успеха, мультиномиальное распределение дает вероятность любой конкретной комбинации чисел успехов для различных категорий.

Когда k равно 2, а n равно 1, мультиномиальное распределение — это распределение Бернулли . Когда k равно 2, а n больше 1, это биномиальное распределение . Когда k больше 2, а n равно 1, это категориальное распределение . Термин «мультиноулли» иногда используется для категориального распределения, чтобы подчеркнуть эту четырехстороннюю связь (так, n определяет суффикс, а k — префикс).

Распределение Бернулли моделирует результат одного испытания Бернулли . Другими словами, оно моделирует, приведет ли подбрасывание (возможно, предвзятой ) монеты один раз к успеху (выпадению орла) или неудаче (выпадению решки). Биномиальное распределение обобщает это до количества орлов при выполнении n независимых подбрасываний (испытаний Бернулли) одной и той же монеты. Мультиномиальное распределение моделирует результат n экспериментов, где результат каждого испытания имеет категориальное распределение , например, подбрасывание k -гранной кости n раз.

Пусть k — фиксированное конечное число. Математически у нас есть k возможных взаимоисключающих результатов с соответствующими вероятностями p 1 , ..., p k и n независимых испытаний. Поскольку k результатов являются взаимоисключающими и один должен произойти, мы имеем p i  ≥ 0 для i  = 1, ...,  k и . Тогда, если случайные величины X i указывают количество раз, когда результат номер i наблюдается в n испытаниях, вектор X  = ( X 1 , ...,  X k ) следует полиномиальному распределению с параметрами n и p , где p  = ( p 1 , ...,  p k ). Хотя испытания независимы, их результаты X i зависимы, поскольку они должны быть сложены до n.

Определения

Функция массы вероятности

Предположим, что проводится эксперимент по извлечению n шариков k разных цветов из мешка, заменяя извлеченные шарики после каждого вытягивания. Шары одного цвета эквивалентны. Обозначим переменную, которая является числом извлеченных шариков цвета i ( i = 1, ..., k ), как X i , а обозначим как p i вероятность того, что данное извлечение будет иметь цвет i . Функция массы вероятности этого полиномиального распределения имеет вид:

для неотрицательных целых чисел x 1 , ..., x k .

Функцию массы вероятности можно выразить с помощью гамма-функции следующим образом:

Эта форма показывает ее сходство с распределением Дирихле , которое является ее сопряженным априорным распределением .

Пример

Предположим, что на трехсторонних выборах в большой стране кандидат A получил 20% голосов, кандидат B получил 30% голосов, а кандидат C получил 50% голосов. Если случайным образом выбрать шесть избирателей, какова вероятность того, что в выборке будет ровно один сторонник кандидата A, два сторонника кандидата B и три сторонника кандидата C?

Примечание: Поскольку мы предполагаем, что голосующее население велико, разумно и допустимо считать вероятности неизменными после того, как избиратель выбран для выборки. Технически говоря, это выборка без замены, поэтому правильным распределением является многомерное гипергеометрическое распределение , но распределения сходятся по мере увеличения населения по сравнению с фиксированным размером выборки [1] .

Характеристики

Нормализация

Мультиномиальное распределение нормализуется по формуле:

где сумма берется по всем перестановкам таким, что .

Ожидаемое значение и дисперсия

Ожидаемое количество раз , когда результат i наблюдался в ходе n испытаний, равно

Матрица ковариации выглядит следующим образом. Каждый диагональный элемент представляет собой дисперсию биномиально распределенной случайной величины, и поэтому

Недиагональные элементы — это ковариации :

для i , j различны.

Все ковариации отрицательны, поскольку при фиксированном n увеличение одного компонента полиномиального вектора требует уменьшения другого компонента.

Когда эти выражения объединяются в матрицу с элементами i, j , результатом является положительно-полуопределенная ковариационная матрица размером k × k ранга k  − 1. В особом случае, когда k  =  n и все p i равны, ковариационная матрица является центрирующей матрицей .

Записи соответствующей корреляционной матрицы :

Обратите внимание, что число испытаний n выпадает из этого выражения.

Каждый из k компонентов в отдельности имеет биномиальное распределение с параметрами n и p i для соответствующего значения индекса i .

Носителем полиномиального распределения является множество

Число его элементов равно

Матричная запись

В матричной записи,

и

где p T = вектор-строка, транспонированный к вектору-столбцу p .

Визуализация

Как части обобщенного треугольника Паскаля

Точно так же, как можно интерпретировать биномиальное распределение как (нормализованные) одномерные (1D) срезы треугольника Паскаля , так же можно интерпретировать полиномиальное распределение как двумерные (треугольные) срезы пирамиды Паскаля или трехмерные/четырехмерные/+ (пирамидальные) срезы более многомерных аналогов треугольника Паскаля. Это раскрывает интерпретацию диапазона распределения : дискретизированные равносторонние «пирамиды» в произвольном измерении — т. е. симплекс с сеткой. [ необходима цитата ]

Как полиномиальные коэффициенты

Аналогично, так же как можно интерпретировать биномиальное распределение как коэффициенты полинома при разложении, можно интерпретировать полиномиальное распределение как коэффициенты при разложении, отметив, что только коэффициенты должны в сумме давать 1.

Теория больших отклонений

Асимптотика

По формуле Стирлинга в пределе имеем где относительные частоты в данных можно интерпретировать как вероятности из эмпирического распределения , а — расхождение Кульбака–Лейблера .

Эту формулу можно интерпретировать следующим образом.

Рассмотрим , пространство всех возможных распределений по категориям . Это симплекс . После независимых выборок из категориального распределения (именно так мы строим мультиномиальное распределение) получаем эмпирическое распределение .

Согласно асимптотической формуле, вероятность того, что эмпирическое распределение отклоняется от фактического распределения, убывает экспоненциально, со скоростью . Чем больше экспериментов и чем больше отличается от , тем меньше вероятность увидеть такое эмпирическое распределение.

Если — замкнутое подмножество , то, разделив его на части и рассуждая о скорости роста на каждой части , получаем теорему Санова , которая утверждает, что

Концентрация в целомн

Из-за экспоненциального распада, при больших , почти вся масса вероятности сосредоточена в малой окрестности . В этой малой окрестности мы можем взять первый ненулевой член в разложении Тейлора , чтобы получить Это напоминает гауссово распределение, что предполагает следующую теорему:

Теорема. В пределе сходится по распределению к распределению хи-квадрат .

Если мы выберем из полиномиального распределения и построим тепловую карту выборок в пределах двумерного симплекса (здесь показанного в виде черного треугольника), мы заметим, что при распределение сходится к гауссову распределению вокруг точки , при этом контуры сходятся по форме к эллипсам, а радиусы сходятся как . Между тем, расстояние между дискретными точками сходится как , и поэтому дискретное полиномиальное распределение сходится к непрерывному гауссову распределению.
[Доказательство]

Пространство всех распределений по категориям представляет собой симплекс : , а множество всех возможных эмпирических распределений после экспериментов является подмножеством симплекса: . То есть, это пересечение между и решеткой .

По мере увеличения большая часть массы вероятности концентрируется в подмножестве вблизи , и распределение вероятности вблизи становится хорошо аппроксимируемым Из этого мы видим, что подмножество, на котором сосредоточена масса, имеет радиус порядка , но точки в подмножестве разделены расстоянием порядка , поэтому при больших , точки сливаются в континуум. Чтобы преобразовать это из дискретного распределения вероятности в непрерывную плотность вероятности, нам нужно умножить на объем, занимаемый каждой точкой в ​​. Однако по симметрии каждая точка занимает точно такой же объем (за исключением незначительного множества на границе), поэтому мы получаем плотность вероятности , где — константа.

Наконец, поскольку симплекс не весь , а только внутри -мерной плоскости, мы получаем желаемый результат.

Условная концентрация в целомн

Вышеуказанный феномен концентрации можно легко обобщить на случай, когда мы ставим условия на линейных ограничениях. Это теоретическое обоснование критерия хи-квадрат Пирсона .

Теорема. Учитывая частоты, наблюдаемые в наборе данных с точками, мы накладываем независимые линейные ограничения (обратите внимание, что первое ограничение - это просто требование, чтобы эмпирические распределения в сумме давали единицу), так что эмпирические распределения удовлетворяют всем этим ограничениям одновременно. Пусть обозначает -проекцию априорного распределения на подобласть симплекса, допускаемую линейными ограничениями. В пределе выборочные подсчеты из полиномиального распределения, обусловленного линейными ограничениями, управляются , которое сходится по распределению к распределению хи-квадрат .

[Доказательство]

Аналогичное доказательство применимо в этой диофантовой задаче связанных линейных уравнений в переменных-счетчиках [2], но на этот раз это пересечение с и гиперплоскостями, все линейно независимы, поэтому плотность вероятности ограничена -мерной плоскостью. В частности, расширение дивергенции KL вокруг ее минимума ( -проекции на ) в ограниченной задаче гарантирует по теореме Пифагора для -дивергенции, что любой постоянный и линейный член в счетах исчезает из условной вероятности для многонациональной выборки этих счетов.

Обратите внимание, что по определению каждое из должно быть рациональным числом, тогда как может быть выбрано из любого действительного числа в и не обязательно удовлетворяет диофантовой системе уравнений. Только асимптотически , как , ' могут рассматриваться как вероятности над .

Вдали от эмпирически наблюдаемых ограничений (таких как моменты или распространенности) теорему можно обобщить:

Теорема.

В случае, если все равны, теорема сводится к концентрации энтропий вокруг максимальной энтропии. [3] [4]

Связанные дистрибутивы

В некоторых областях, таких как обработка естественного языка , категориальное и полиномиальное распределения являются синонимами, и обычно говорят о полиномиальном распределении, когда на самом деле подразумевают категориальное распределение . Это происходит из-за того, что иногда удобно выражать результат категориального распределения как вектор «1 из k» (вектор с одним элементом, содержащим 1, и всеми остальными элементами, содержащими 0), а не как целое число в диапазоне ; в этой форме категориальное распределение эквивалентно полиномиальному распределению в течение одного испытания.

Статистический вывод

Тесты эквивалентности для полиномиальных распределений

Целью проверки эквивалентности является установление соответствия между теоретическим полиномиальным распределением и наблюдаемыми частотами подсчета. Теоретическое распределение может быть полностью определенным полиномиальным распределением или параметрическим семейством полиномиальных распределений.

Пусть обозначает теоретическое полиномиальное распределение и пусть будет истинным базовым распределением. Распределения и считаются эквивалентными, если для расстояния и параметра толерантности . Задача теста эквивалентности — против . Истинное базовое распределение неизвестно. Вместо этого наблюдаются частоты подсчета, где — размер выборки. Тест эквивалентности использует для отклонения . Если может быть отклонено, то эквивалентность между и показывается на заданном уровне значимости. Тест эквивалентности для евклидова расстояния можно найти в учебнике Веллека (2010). [5] Тест эквивалентности для расстояния общей вариации разработан в Островски (2017). [6] Точный тест эквивалентности для конкретного кумулятивного расстояния предложен в Фрее (2009). [7]

Расстояние между истинным базовым распределением и семейством мультиномиальных распределений определяется как . Тогда задача проверки эквивалентности задается как и . Расстояние обычно вычисляется с использованием численной оптимизации. Тесты для этого случая были недавно разработаны в Ostrovski (2018). [8]

Доверительные интервалы для разницы двух пропорций

В условиях полиномиального распределения построение доверительных интервалов для разницы между пропорциями наблюдений двух событий требует включения отрицательной ковариации между выборочными оценками и .

Часть литературы по этой теме была сосредоточена на варианте использования двоичных данных с сопоставленными парами, что требует особого внимания при переводе формул в общий случай для любого мультиномиального распределения. Формулы в текущем разделе будут обобщены, в то время как формулы в следующем разделе будут сосредоточены на варианте использования двоичных данных с сопоставленными парами.

Стандартную ошибку Вальда (SE) разницы пропорций можно оценить с помощью: [9] : 378  [10]

Для приблизительного доверительного интервала погрешность может включать соответствующий квантиль из стандартного нормального распределения следующим образом:

[Доказательство]

По мере увеличения размера выборки ( ) пропорции выборки будут приблизительно следовать многомерному нормальному распределению благодаря многомерной центральной предельной теореме (и это также можно показать с помощью теоремы Крамера–Вольда ). Следовательно, их разность также будет приблизительно нормальной. Кроме того, эти оценки слабо согласованы , и включение их в оценку SE делает ее также слабо согласованной. Следовательно, благодаря теореме Слуцкого , основная величина приблизительно следует стандартному нормальному распределению . И из этого напрямую выводится приведенный выше приблизительный доверительный интервал .

SE можно построить, используя исчисление дисперсии разности двух случайных величин :

Модификация, включающая коррекцию непрерывности, увеличивает погрешность следующим образом: [11] : 102–3 

Другой альтернативой является использование байесовского оценщика с использованием априорного распределения Джеффри , что приводит к использованию распределения Дирихле , где все параметры равны 0,5, в качестве априорного распределения. Апостериорное распределение будет вычисляться сверху, но после добавления 1/2 к каждому из k элементов, что приведет к общему увеличению размера выборки на . Первоначально это было разработано для мультиномиального распределения с четырьмя событиями и известно как wald+2 для анализа данных согласованных пар (см. следующий раздел для получения более подробной информации). [12]

Это приводит к следующему SE:

[Доказательство]

Что можно просто подставить в исходную формулу Вальда следующим образом:

Возникновение и применение

Доверительные интервалы для разности двоичных данных в сопоставленных парах (с использованием мультиномиального ск=4)

Для случая бинарных данных с сопоставленными парами распространенной задачей является построение доверительного интервала разницы доли сопоставленных событий. Например, у нас может быть тест на какое-то заболевание, и мы можем захотеть проверить его результаты для некоторой популяции в двух точках времени (1 и 2), чтобы проверить, произошло ли изменение доли положительных результатов для заболевания за это время.

Такие сценарии могут быть представлены с помощью таблицы сопряженности два на два с числом элементов, которые имели каждую из комбинаций событий. Мы можем использовать маленькую f для частот выборки: и большую F для частот популяции: . Эти четыре комбинации могут быть смоделированы как исходящие из мультиномиального распределения (с четырьмя потенциальными результатами). Размеры выборки и популяции могут быть n и N соответственно. И в таком случае есть интерес в построении доверительного интервала для разницы пропорций от маргиналов следующей (выборочной) таблицы сопряженности:

В этом случае проверка разницы в предельных пропорциях означает, что мы заинтересованы в использовании следующих определений: , . А разница, для которой мы хотим построить доверительные интервалы, равна:

Следовательно, доверительный интервал для предельных положительных пропорций ( ) аналогичен построению доверительного интервала для разности пропорций из вторичной диагонали таблицы сопряженности два на два ( ).

Расчет p-значения для такой разницы известен как тест Макнемара . Построение доверительного интервала вокруг него может быть построено с использованием методов, описанных выше для Доверительных интервалов для разницы двух пропорций.

Доверительные интервалы Вальда из предыдущего раздела могут быть применены к этой настройке и появляются в литературе с использованием альтернативных обозначений. В частности, SE часто представлено на основе частот таблицы сопряженности вместо пропорций выборки. Например, доверительные интервалы Вальда, приведенные выше, могут быть записаны как: [11] : 102–3 

Дальнейшие исследования литературы выявили ряд недостатков как в методе Вальда, так и в методе Вальда с коррекцией непрерывности, и были предложены другие методы для практического применения. [11]

Одна из таких модификаций включает Wald+2 Агрести и Мина (похожую на некоторые из их других работ [13] ), в которой к каждой частоте ячейки добавлялось дополнительное значение . [12] Это приводит к доверительным интервалам Wald+2 . В байесовской интерпретации это похоже на построение оценок, принимая в качестве априорного распределение Дирихле со всеми параметрами, равными 0,5 (что, по сути, является априорным распределением Джеффриса ). Теперь +2 в названии wald+2 можно понимать так, что в контексте таблицы сопряженности два на два, которая является мультиномиальным распределением с четырьмя возможными событиями, то, поскольку мы добавляем 1/2 наблюдения к каждому из них, то это переводится в общее добавление 2 наблюдений (из-за априорного).

Это приводит к следующей измененной SE для случая сопоставленных пар данных:

Что можно просто подставить в исходную формулу Вальда следующим образом:

Другие модификации включают скорректированную шкалу Вальда Бонетта и Прайса и шкалу Ньюкомба .

Методы расчета

Генерация случайных величин

Сначала переупорядочим параметры так, чтобы они были отсортированы по убыванию (это только для ускорения вычислений и не является строго необходимым). Теперь для каждого испытания извлеките вспомогательную переменную X из равномерного распределения (0, 1). Полученный результат — это компонент

{ X j = 1, X k = 0 для k  ≠  j } — одно наблюдение из полиномиального распределения при и n  = 1. Сумма независимых повторений этого эксперимента — это наблюдение из полиномиального распределения при n, равном числу таких повторений.

Выборка с использованием повторных условных биномиальных выборок

При заданных параметрах и общем значении для выборки, таких что , можно последовательно выполнить выборку для числа в произвольном состоянии , разбив пространство состояний на и не- , обусловленную любыми предыдущими выборками, уже взятыми, многократно.

Алгоритм: Последовательная условная биномиальная выборка

S = n rho = 1 для i из [ 1 ,k-1 ] : если rho ! = 0 : X [ i ] ~ Бином ( S,p [ i ] /rho ) иначе X [ i ] = 0 S = S - X [ i ] rho = rho - p [ i ]
X [ k ] = S                               

Эвристически каждое применение биномиальной выборки уменьшает доступное число для выборки, а условные вероятности также обновляются для обеспечения логической согласованности. [14]

Реализации программного обеспечения

Смотрите также

Дальнейшее чтение

Ссылки

  1. ^ "вероятность - выборка мультиномиального распределения". Перекрестная проверка . Получено 28.07.2022 .
  2. ^ Лукас, Орестис; Чунг, Хо Рюн (2023). «Тотальный эмпиризм: обучение на основе данных». arXiv : 2311.08315 [math.ST].
  3. ^ Лукас, Орестис; Чунг, Хо Рюн (апрель 2022 г.). «Категорные распределения максимальной энтропии при маргинальных ограничениях». arXiv : 2204.03406 .
  4. ^ Лукас, Орестис; Чунг, Хо Рюн (июнь 2022 г.). «Характеристика ограничений моделирования на основе энтропии». arXiv : 2206.14105 .
  5. ^ Wellek, Stefan (2010). Проверка статистических гипотез эквивалентности и неполноценности . Chapman and Hall/CRC. ISBN 978-1439808184.
  6. ^ Островский, Владимир (май 2017). «Проверка эквивалентности мультиномиальных распределений». Statistics & Probability Letters . 124 : 77–82. doi : 10.1016/j.spl.2017.01.004. S2CID  126293429.Официальная веб-ссылка (требуется подписка). Альтернативная, бесплатная веб-ссылка.
  7. ^ Фрей, Джесси (март 2009 г.). «Точный многочленный тест на эквивалентность». Канадский журнал статистики . 37 : 47–59. doi : 10.1002/cjs.10000. S2CID  122486567.Официальная веб-ссылка (требуется подписка).
  8. ^ Островский, Владимир (март 2018 г.). «Проверка эквивалентности семействам мультиномиальных распределений с применением к модели независимости». Statistics & Probability Letters . 139 : 61–66. doi :10.1016/j.spl.2018.03.014. S2CID  126261081.Официальная веб-ссылка (требуется подписка). Альтернативная, бесплатная веб-ссылка.
  9. ^ Флейсс, Джозеф Л.; Левин, Брюс; Пайк, Мёнхи Чо (2003). Статистические методы для показателей и пропорций (3-е изд.). Хобокен, Нью-Джерси: J. Wiley. стр. 760. ISBN 9780471526292.
  10. ^ Ньюкомб, РГ (1998). «Интервальная оценка разницы между независимыми пропорциями: сравнение одиннадцати методов». Статистика в медицине . 17 (8): 873–890. doi :10.1002/(SICI)1097-0258(19980430)17:8<873::AID-SIM779>3.0.CO;2-I. PMID  9595617.
  11. ^ abc "Доверительные интервалы для разницы между двумя коррелированными пропорциями" (PDF) . NCSS . Получено 2022-03-22 .
  12. ^ ab Agresti, Alan; Min, Yongyi (2005). "Простые улучшенные доверительные интервалы для сравнения соответствующих пропорций" (PDF) . Статистика в медицине . 24 (5): 729–740. doi :10.1002/sim.1781. PMID  15696504.
  13. ^ Агрести, А.; Каффо, Б. (2000). «Простые и эффективные доверительные интервалы для пропорций и разностей пропорций получаются путем сложения двух успехов и двух неудач». Американский статистик . 54 (4): 280–288. doi :10.1080/00031305.2000.10474560.
  14. ^ "11.5: Мультиномиальное распределение". Статистика LibreTexts . 2020-05-05 . Получено 2023-09-13 .
  15. ^ "MultinomialCI - Доверительные интервалы для мультиномиальных пропорций". CRAN. 11 мая 2021 г. Получено 23.03.2024 .