В теории вероятностей мультиномиальное распределение является обобщением биномиального распределения . Например, оно моделирует вероятность выпадения очков для каждой грани k -гранной кости, брошенной n раз. Для n независимых испытаний, каждое из которых приводит к успеху ровно для одной из k категорий, причем каждая категория имеет заданную фиксированную вероятность успеха, мультиномиальное распределение дает вероятность любой конкретной комбинации чисел успехов для различных категорий.
Когда k равно 2, а n равно 1, мультиномиальное распределение — это распределение Бернулли . Когда k равно 2, а n больше 1, это биномиальное распределение . Когда k больше 2, а n равно 1, это категориальное распределение . Термин «мультиноулли» иногда используется для категориального распределения, чтобы подчеркнуть эту четырехстороннюю связь (так, n определяет суффикс, а k — префикс).
Распределение Бернулли моделирует результат одного испытания Бернулли . Другими словами, оно моделирует, приведет ли подбрасывание (возможно, предвзятой ) монеты один раз к успеху (выпадению орла) или неудаче (выпадению решки). Биномиальное распределение обобщает это до количества орлов при выполнении n независимых подбрасываний (испытаний Бернулли) одной и той же монеты. Мультиномиальное распределение моделирует результат n экспериментов, где результат каждого испытания имеет категориальное распределение , например, подбрасывание k -гранной кости n раз.
Пусть k — фиксированное конечное число. Математически у нас есть k возможных взаимоисключающих результатов с соответствующими вероятностями p 1 , ..., p k и n независимых испытаний. Поскольку k результатов являются взаимоисключающими и один должен произойти, мы имеем p i ≥ 0 для i = 1, ..., k и . Тогда, если случайные величины X i указывают количество раз, когда результат номер i наблюдается в n испытаниях, вектор X = ( X 1 , ..., X k ) следует полиномиальному распределению с параметрами n и p , где p = ( p 1 , ..., p k ). Хотя испытания независимы, их результаты X i зависимы, поскольку они должны быть сложены до n.
Обобщение биномиального распределения
Определения
Функция массы вероятности
Предположим, что проводится эксперимент по извлечению n шариков k разных цветов из мешка, заменяя извлеченные шарики после каждого вытягивания. Шары одного цвета эквивалентны. Обозначим переменную, которая является числом извлеченных шариков цвета i ( i = 1, ..., k ), как X i , а обозначим как p i вероятность того, что данное извлечение будет иметь цвет i . Функция массы вероятности этого полиномиального распределения имеет вид:
для неотрицательных целых чисел x 1 , ..., x k .
Функцию массы вероятности можно выразить с помощью гамма-функции следующим образом:
Предположим, что на трехсторонних выборах в большой стране кандидат A получил 20% голосов, кандидат B получил 30% голосов, а кандидат C получил 50% голосов. Если случайным образом выбрать шесть избирателей, какова вероятность того, что в выборке будет ровно один сторонник кандидата A, два сторонника кандидата B и три сторонника кандидата C?
Примечание: Поскольку мы предполагаем, что голосующее население велико, разумно и допустимо считать вероятности неизменными после того, как избиратель выбран для выборки. Технически говоря, это выборка без замены, поэтому правильным распределением является многомерное гипергеометрическое распределение , но распределения сходятся по мере увеличения населения по сравнению с фиксированным размером выборки [1] .
Характеристики
Нормализация
Мультиномиальное распределение нормализуется по формуле:
где сумма берется по всем перестановкам таким, что .
Ожидаемое значение и дисперсия
Ожидаемое количество раз , когда результат i наблюдался в ходе n испытаний, равно
Матрица ковариации выглядит следующим образом. Каждый диагональный элемент представляет собой дисперсию биномиально распределенной случайной величины, и поэтому
Обратите внимание, что число испытаний n выпадает из этого выражения.
Каждый из k компонентов в отдельности имеет биномиальное распределение с параметрами n и p i для соответствующего значения индекса i .
Носителем полиномиального распределения является множество
Число его элементов равно
Матричная запись
В матричной записи,
и
где p T = вектор-строка, транспонированный к вектору-столбцу p .
Визуализация
Как части обобщенного треугольника Паскаля
Точно так же, как можно интерпретировать биномиальное распределение как (нормализованные) одномерные (1D) срезы треугольника Паскаля , так же можно интерпретировать полиномиальное распределение как двумерные (треугольные) срезы пирамиды Паскаля или трехмерные/четырехмерные/+ (пирамидальные) срезы более многомерных аналогов треугольника Паскаля. Это раскрывает интерпретацию диапазона распределения : дискретизированные равносторонние «пирамиды» в произвольном измерении — т. е. симплекс с сеткой. [ необходима цитата ]
Как полиномиальные коэффициенты
Аналогично, так же как можно интерпретировать биномиальное распределение как коэффициенты полинома при разложении, можно интерпретировать полиномиальное распределение как коэффициенты при разложении, отметив, что только коэффициенты должны в сумме давать 1.
Эту формулу можно интерпретировать следующим образом.
Рассмотрим , пространство всех возможных распределений по категориям . Это симплекс . После независимых выборок из категориального распределения (именно так мы строим мультиномиальное распределение) получаем эмпирическое распределение .
Согласно асимптотической формуле, вероятность того, что эмпирическое распределение отклоняется от фактического распределения, убывает экспоненциально, со скоростью . Чем больше экспериментов и чем больше отличается от , тем меньше вероятность увидеть такое эмпирическое распределение.
Если — замкнутое подмножество , то, разделив его на части и рассуждая о скорости роста на каждой части , получаем теорему Санова , которая утверждает, что
Концентрация в целомн
Из-за экспоненциального распада, при больших , почти вся масса вероятности сосредоточена в малой окрестности . В этой малой окрестности мы можем взять первый ненулевой член в разложении Тейлора , чтобы получить Это напоминает гауссово распределение, что предполагает следующую теорему:
Пространство всех распределений по категориям представляет собой симплекс : , а множество всех возможных эмпирических распределений после экспериментов является подмножеством симплекса: . То есть, это пересечение между и решеткой .
По мере увеличения большая часть массы вероятности концентрируется в подмножестве вблизи , и распределение вероятности вблизи становится хорошо аппроксимируемым Из этого мы видим, что подмножество, на котором сосредоточена масса, имеет радиус порядка , но точки в подмножестве разделены расстоянием порядка , поэтому при больших , точки сливаются в континуум. Чтобы преобразовать это из дискретного распределения вероятности в непрерывную плотность вероятности, нам нужно умножить на объем, занимаемый каждой точкой в . Однако по симметрии каждая точка занимает точно такой же объем (за исключением незначительного множества на границе), поэтому мы получаем плотность вероятности , где — константа.
Наконец, поскольку симплекс не весь , а только внутри -мерной плоскости, мы получаем желаемый результат.
Условная концентрация в целомн
Вышеуказанный феномен концентрации можно легко обобщить на случай, когда мы ставим условия на линейных ограничениях. Это теоретическое обоснование критерия хи-квадрат Пирсона .
Теорема. Учитывая частоты, наблюдаемые в наборе данных с точками, мы накладываем независимые линейные ограничения (обратите внимание, что первое ограничение - это просто требование, чтобы эмпирические распределения в сумме давали единицу), так что эмпирические распределения удовлетворяют всем этим ограничениям одновременно. Пусть обозначает -проекцию априорного распределения на подобласть симплекса, допускаемую линейными ограничениями. В пределе выборочные подсчеты из полиномиального распределения, обусловленного линейными ограничениями, управляются , которое сходится по распределению к распределению хи-квадрат .
[Доказательство]
Аналогичное доказательство применимо в этой диофантовой задаче связанных линейных уравнений в переменных-счетчиках [2], но на этот раз это пересечение с и гиперплоскостями, все линейно независимы, поэтому плотность вероятности ограничена -мерной плоскостью. В частности, расширение дивергенции KL вокруг ее минимума ( -проекции на ) в ограниченной задаче гарантирует по теореме Пифагора для -дивергенции, что любой постоянный и линейный член в счетах исчезает из условной вероятности для многонациональной выборки этих счетов.
Обратите внимание, что по определению каждое из должно быть рациональным числом, тогда как может быть выбрано из любого действительного числа в и не обязательно удовлетворяет диофантовой системе уравнений. Только асимптотически , как , ' могут рассматриваться как вероятности над .
Вдали от эмпирически наблюдаемых ограничений (таких как моменты или распространенности) теорему можно обобщить:
Теорема.
Даны функции , такие, что они непрерывно дифференцируемы в окрестности , а векторы линейно независимы;
заданы последовательности , такие, что асимптотически для каждого ;
тогда для полиномиального распределения, обусловленного ограничениями , мы имеем величину, сходящуюся по распределению к в пределе.
В случае, если все равны, теорема сводится к концентрации энтропий вокруг максимальной энтропии. [3] [4]
Связанные дистрибутивы
В некоторых областях, таких как обработка естественного языка , категориальное и полиномиальное распределения являются синонимами, и обычно говорят о полиномиальном распределении, когда на самом деле подразумевают категориальное распределение . Это происходит из-за того, что иногда удобно выражать результат категориального распределения как вектор «1 из k» (вектор с одним элементом, содержащим 1, и всеми остальными элементами, содержащими 0), а не как целое число в диапазоне ; в этой форме категориальное распределение эквивалентно полиномиальному распределению в течение одного испытания.
Тесты эквивалентности для полиномиальных распределений
Целью проверки эквивалентности является установление соответствия между теоретическим полиномиальным распределением и наблюдаемыми частотами подсчета. Теоретическое распределение может быть полностью определенным полиномиальным распределением или параметрическим семейством полиномиальных распределений.
Пусть обозначает теоретическое полиномиальное распределение и пусть будет истинным базовым распределением. Распределения и считаются эквивалентными, если для расстояния и параметра толерантности . Задача теста эквивалентности — против . Истинное базовое распределение неизвестно. Вместо этого наблюдаются частоты подсчета, где — размер выборки. Тест эквивалентности использует для отклонения . Если может быть отклонено, то эквивалентность между и показывается на заданном уровне значимости. Тест эквивалентности для евклидова расстояния можно найти в учебнике Веллека (2010). [5] Тест эквивалентности для расстояния общей вариации разработан в Островски (2017). [6] Точный тест эквивалентности для конкретного кумулятивного расстояния предложен в Фрее (2009). [7]
Расстояние между истинным базовым распределением и семейством мультиномиальных распределений определяется как . Тогда задача проверки эквивалентности задается как и . Расстояние обычно вычисляется с использованием численной оптимизации. Тесты для этого случая были недавно разработаны в Ostrovski (2018). [8]
Доверительные интервалы для разницы двух пропорций
В условиях полиномиального распределения построение доверительных интервалов для разницы между пропорциями наблюдений двух событий требует включения отрицательной ковариации между выборочными оценками и .
Часть литературы по этой теме была сосредоточена на варианте использования двоичных данных с сопоставленными парами, что требует особого внимания при переводе формул в общий случай для любого мультиномиального распределения. Формулы в текущем разделе будут обобщены, в то время как формулы в следующем разделе будут сосредоточены на варианте использования двоичных данных с сопоставленными парами.
Стандартную ошибку Вальда (SE) разницы пропорций можно оценить с помощью: [9] : 378 [10]
Модификация, включающая коррекцию непрерывности, увеличивает погрешность следующим образом: [11] : 102–3
Другой альтернативой является использование байесовского оценщика с использованием априорного распределения Джеффри , что приводит к использованию распределения Дирихле , где все параметры равны 0,5, в качестве априорного распределения. Апостериорное распределение будет вычисляться сверху, но после добавления 1/2 к каждому из k элементов, что приведет к общему увеличению размера выборки на . Первоначально это было разработано для мультиномиального распределения с четырьмя событиями и известно как wald+2 для анализа данных согласованных пар (см. следующий раздел для получения более подробной информации). [12]
Это приводит к следующему SE:
[Доказательство]
Что можно просто подставить в исходную формулу Вальда следующим образом:
Возникновение и применение
Доверительные интервалы для разности двоичных данных в сопоставленных парах (с использованием мультиномиального ск=4)
Для случая бинарных данных с сопоставленными парами распространенной задачей является построение доверительного интервала разницы доли сопоставленных событий. Например, у нас может быть тест на какое-то заболевание, и мы можем захотеть проверить его результаты для некоторой популяции в двух точках времени (1 и 2), чтобы проверить, произошло ли изменение доли положительных результатов для заболевания за это время.
Такие сценарии могут быть представлены с помощью таблицы сопряженности два на два с числом элементов, которые имели каждую из комбинаций событий. Мы можем использовать маленькую f для частот выборки: и большую F для частот популяции: . Эти четыре комбинации могут быть смоделированы как исходящие из мультиномиального распределения (с четырьмя потенциальными результатами). Размеры выборки и популяции могут быть n и N соответственно. И в таком случае есть интерес в построении доверительного интервала для разницы пропорций от маргиналов следующей (выборочной) таблицы сопряженности:
В этом случае проверка разницы в предельных пропорциях означает, что мы заинтересованы в использовании следующих определений: , . А разница, для которой мы хотим построить доверительные интервалы, равна:
Следовательно, доверительный интервал для предельных положительных пропорций ( ) аналогичен построению доверительного интервала для разности пропорций из вторичной диагонали таблицы сопряженности два на два ( ).
Расчет p-значения для такой разницы известен как тест Макнемара . Построение доверительного интервала вокруг него может быть построено с использованием методов, описанных выше для Доверительных интервалов для разницы двух пропорций.
Доверительные интервалы Вальда из предыдущего раздела могут быть применены к этой настройке и появляются в литературе с использованием альтернативных обозначений. В частности, SE часто представлено на основе частот таблицы сопряженности вместо пропорций выборки. Например, доверительные интервалы Вальда, приведенные выше, могут быть записаны как: [11] : 102–3
Дальнейшие исследования литературы выявили ряд недостатков как в методе Вальда, так и в методе Вальда с коррекцией непрерывности, и были предложены другие методы для практического применения. [11]
Одна из таких модификаций включает Wald+2 Агрести и Мина (похожую на некоторые из их других работ [13] ), в которой к каждой частоте ячейки добавлялось дополнительное значение . [12] Это приводит к доверительным интервалам Wald+2 . В байесовской интерпретации это похоже на построение оценок, принимая в качестве априорного распределение Дирихле со всеми параметрами, равными 0,5 (что, по сути, является априорным распределением Джеффриса ). Теперь +2 в названии wald+2 можно понимать так, что в контексте таблицы сопряженности два на два, которая является мультиномиальным распределением с четырьмя возможными событиями, то, поскольку мы добавляем 1/2 наблюдения к каждому из них, то это переводится в общее добавление 2 наблюдений (из-за априорного).
Это приводит к следующей измененной SE для случая сопоставленных пар данных:
Что можно просто подставить в исходную формулу Вальда следующим образом:
Другие модификации включают скорректированную шкалу Вальда Бонетта и Прайса и шкалу Ньюкомба .
Методы расчета
Генерация случайных величин
Сначала переупорядочим параметры так, чтобы они были отсортированы по убыванию (это только для ускорения вычислений и не является строго необходимым). Теперь для каждого испытания извлеките вспомогательную переменную X из равномерного распределения (0, 1). Полученный результат — это компонент
{ X j = 1, X k = 0 для k ≠ j } — одно наблюдение из полиномиального распределения при и n = 1. Сумма независимых повторений этого эксперимента — это наблюдение из полиномиального распределения при n, равном числу таких повторений.
Выборка с использованием повторных условных биномиальных выборок
При заданных параметрах и общем значении для выборки, таких что , можно последовательно выполнить выборку для числа в произвольном состоянии , разбив пространство состояний на и не- , обусловленную любыми предыдущими выборками, уже взятыми, многократно.
S = n rho = 1 для i из [ 1 ,k-1 ] : если rho ! = 0 : X [ i ] ~ Бином ( S,p [ i ] /rho ) иначе X [ i ] = 0 S = S - X [ i ] rho = rho - p [ i ]
X [ k ] = S
Эвристически каждое применение биномиальной выборки уменьшает доступное число для выборки, а условные вероятности также обновляются для обеспечения логической согласованности. [14]
Реализации программного обеспечения
Пакет MultinomialCI R позволяет вычислять одновременные доверительные интервалы для вероятностей мультиномиального распределения с учетом набора наблюдений. [15]
^ Лукас, Орестис; Чунг, Хо Рюн (2023). «Тотальный эмпиризм: обучение на основе данных». arXiv : 2311.08315 [math.ST].
^ Лукас, Орестис; Чунг, Хо Рюн (апрель 2022 г.). «Категорные распределения максимальной энтропии при маргинальных ограничениях». arXiv : 2204.03406 .
^ Лукас, Орестис; Чунг, Хо Рюн (июнь 2022 г.). «Характеристика ограничений моделирования на основе энтропии». arXiv : 2206.14105 .
^ Wellek, Stefan (2010). Проверка статистических гипотез эквивалентности и неполноценности . Chapman and Hall/CRC. ISBN978-1439808184.
^ Островский, Владимир (май 2017). «Проверка эквивалентности мультиномиальных распределений». Statistics & Probability Letters . 124 : 77–82. doi : 10.1016/j.spl.2017.01.004. S2CID 126293429.Официальная веб-ссылка (требуется подписка). Альтернативная, бесплатная веб-ссылка.
^ Фрей, Джесси (март 2009 г.). «Точный многочленный тест на эквивалентность». Канадский журнал статистики . 37 : 47–59. doi : 10.1002/cjs.10000. S2CID 122486567.Официальная веб-ссылка (требуется подписка).
^ Островский, Владимир (март 2018 г.). «Проверка эквивалентности семействам мультиномиальных распределений с применением к модели независимости». Statistics & Probability Letters . 139 : 61–66. doi :10.1016/j.spl.2018.03.014. S2CID 126261081.Официальная веб-ссылка (требуется подписка). Альтернативная, бесплатная веб-ссылка.
^ Флейсс, Джозеф Л.; Левин, Брюс; Пайк, Мёнхи Чо (2003). Статистические методы для показателей и пропорций (3-е изд.). Хобокен, Нью-Джерси: J. Wiley. стр. 760. ISBN9780471526292.
^ Ньюкомб, РГ (1998). «Интервальная оценка разницы между независимыми пропорциями: сравнение одиннадцати методов». Статистика в медицине . 17 (8): 873–890. doi :10.1002/(SICI)1097-0258(19980430)17:8<873::AID-SIM779>3.0.CO;2-I. PMID 9595617.
^ abc "Доверительные интервалы для разницы между двумя коррелированными пропорциями" (PDF) . NCSS . Получено 2022-03-22 .
^ ab Agresti, Alan; Min, Yongyi (2005). "Простые улучшенные доверительные интервалы для сравнения соответствующих пропорций" (PDF) . Статистика в медицине . 24 (5): 729–740. doi :10.1002/sim.1781. PMID 15696504.
^ Агрести, А.; Каффо, Б. (2000). «Простые и эффективные доверительные интервалы для пропорций и разностей пропорций получаются путем сложения двух успехов и двух неудач». Американский статистик . 54 (4): 280–288. doi :10.1080/00031305.2000.10474560.