stringtranslate.com

Доверительный интервал биномиальной пропорции

В статистике доверительный интервал биномиальной пропорции — это доверительный интервал для вероятности успеха, рассчитанный по результатам серии экспериментов «успех-неудача» ( испытания Бернулли ). Другими словами, доверительный интервал биномиальной пропорции — это интервальная оценка вероятности успеха, когда известны только число экспериментов и число успехов .

Существует несколько формул для биномиального доверительного интервала, но все они основаны на предположении о биномиальном распределении . В общем случае биномиальное распределение применяется, когда эксперимент повторяется фиксированное количество раз, каждое испытание эксперимента имеет два возможных результата (успех и неудача), вероятность успеха одинакова для каждого испытания, и испытания статистически независимы . Поскольку биномиальное распределение является дискретным распределением вероятностей (т. е. не непрерывным) и его трудно рассчитать для большого количества испытаний, для расчета этого доверительного интервала используются различные приближения, каждое из которых имеет свои собственные компромиссы в точности и вычислительной интенсивности.

Простым примером биномиального распределения является набор различных возможных результатов и их вероятностей для числа выпадений орлов, наблюдаемых при подбрасывании монеты десять раз. Наблюдаемая биномиальная пропорция — это доля подбрасываний, которые оказываются орлами. Учитывая эту наблюдаемую пропорцию, доверительный интервал для истинной вероятности выпадения монеты орлом — это диапазон возможных пропорций, которые могут содержать или не содержать истинную пропорцию. Например, 95% доверительный интервал для пропорции будет содержать истинную пропорцию в 95% случаев, когда применяется процедура построения доверительного интервала. [1]

Проблемы с использованием нормальной аппроксимации или «интервала Вальда»

Построение интервала нормальной аппроксимации на произвольной логистической кривой выявляет проблемы перерегулирования и интервалов нулевой ширины . [2]

Обычно используемая формула для биномиального доверительного интервала основана на аппроксимации распределения ошибки вокруг биномиально распределенного наблюдения, с нормальным распределением . [3] Нормальное приближение зависит от теоремы Муавра-Лапласа (исходная, биномиальная версия центральной предельной теоремы ) и становится ненадежным, когда оно нарушает предпосылки теоремы, поскольку размер выборки становится малым или вероятность успеха приближается либо к 0 , либо к 1. [4  ]

Используя нормальное приближение, вероятность успеха оценивается по формуле

где — доля успехов в процессе испытаний Бернулли и оценка для в базовом распределении Бернулли . Эквивалентная формула в терминах количества наблюдений:

где данные являются результатами испытаний, которые дали успехи и неудачи. Аргумент функции распределения — это квантиль стандартного нормального распределения ( т.е. пробит ), соответствующий целевой частоте ошибок. Для уровня достоверности 95% ошибка и

При использовании формулы Вальда для оценки или просто при рассмотрении возможных результатов этого расчета сразу же становятся очевидными две проблемы:

(Другая версия второй проблемы, проблемы перелета, возникает, когда вместо этого падает ниже той же верхней границы: вероятность слишком высока / слишком близка к 1.  )

Важный теоретический вывод этого доверительного интервала включает инверсию проверки гипотезы. Согласно этой формулировке доверительный интервал представляет те значения параметра популяции, которые имели бы большие значения, если бы они были проверены как гипотетическая доля популяции . [ необходимо разъяснение ] Набор значений, для которых нормальное приближение справедливо, может быть представлен как

где — нижний квантиль стандартного нормального распределения , а — верхний квантиль.

Поскольку тест в середине неравенства является тестом Вальда , интервал нормальной аппроксимации иногда называют интервалом Вальда или методом Вальда , в честь Авраама Вальда , но впервые он был описан Лапласом (1812). [5]

Заключение в скобки доверительного интервала

Расширяя концепции нормального приближения и интервала Вальда-Лапласа, Майкл Шорт показал, что неравенства погрешности приближения между биномиальным распределением и нормальным распределением можно использовать для точного заключения оценки доверительного интервала вокруг [6]

с

и где снова (неизвестная) доля успехов в процессе испытаний Бернулли (в отличие от той, которая оценивает ее), измеренная с испытаниями, дающими успехи, является квантилем стандартного нормального распределения (т.е. пробит), соответствующим целевой частоте ошибок , а константы и являются простыми алгебраическими функциями [6] Для фиксированного (и, следовательно , ) приведенные выше неравенства дают легко вычисляемые односторонние или двусторонние интервалы, которые заключают в скобки точные биномиальные верхние и нижние доверительные пределы, соответствующие частоте ошибок.

Стандартная ошибка оценки пропорции при использовании взвешенных данных

Пусть есть простая случайная выборка , где каждый из них является независимым от распределения Бернулли (p), а вес — это вес для каждого наблюдения, причем (положительные) веса нормализованы так, чтобы их сумма равнялась 1.  Взвешенная пропорция выборки равна: Поскольку каждый из независим от всех остальных и каждый имеет дисперсию для каждого, то дисперсия выборки пропорции равна: [7]

Стандартная ошибка — это квадратный корень этой величины. Поскольку мы не знаем, нам нужно оценить ее. Хотя существует много возможных оценок, общепринятым является использование выборочного среднего и подстановка его в формулу. Это дает:

Для невзвешенных данных эффективные веса являются однородными, что приводит к известным формулам, показывающим, что расчет для взвешенных данных является их прямым обобщением.

Интервал оценки Уилсона

Интервалы оценок Уилсона, нанесенные на логистическую кривую, демонстрируют асимметрию и хорошую производительность при малых n и там, где p равно или близко к 0 или 1.

Интервал оценки Уилсона был разработан Э. Б. Уилсоном (1927). [8] Он является улучшением по сравнению с интервалом нормальной аппроксимации во многих отношениях: в отличие от симметричного интервала нормальной аппроксимации (выше), интервал оценки Уилсона асимметричен и не страдает от проблем перерегулирования и интервалов нулевой ширины , которые поражают нормальный интервал. Его можно безопасно использовать с небольшими выборками и перекошенными наблюдениями. [3] Наблюдаемая вероятность покрытия постоянно ближе к номинальному значению, [2]

Как и обычный интервал, интервал можно вычислить непосредственно по формуле.

Уилсон начал с нормального приближения к биномиальному распределению:

где — стандартная нормальная полуширина интервала, соответствующая желаемой уверенности. Аналитическая формула для биномиального выборочного стандартного отклонения имеет вид: Объединение двух и возведение радикала в квадрат дает уравнение, которое является квадратным относительно

или

Преобразование отношения в квадратное уравнение стандартной формы для обработки и как известных значений из выборки (см. предыдущий раздел), и использование значения , которое соответствует желаемой достоверности для оценки дает это: где все значения, заключенные в скобки, являются известными величинами. Решение для оценивает верхний и нижний пределы доверительного интервала для Следовательно, вероятность успеха оценивается с помощью и с достоверностью, заключенной в скобки в интервале

где это сокращение для

Эквивалентное выражение с использованием количества наблюдений и имеет вид

с подсчетами, как указано выше: количество наблюдаемых «успехов», количество наблюдаемых «неудач», а их сумма — общее количество наблюдений

При практическом тестировании результатов формулы пользователи обнаружили, что этот интервал имеет хорошие свойства даже для небольшого числа испытаний и/или экстремальных значений оценки вероятности, [2] [3] [9]

Интуитивно, центральное значение этого интервала является средневзвешенным значением и с получением большего веса по мере увеличения размера выборки. Формально центральное значение соответствует использованию псевдосчета числа стандартных отклонений доверительного интервала: добавьте это число как к числу успехов, так и к числу неудач, чтобы получить оценку отношения. Для обычных двух стандартных отклонений в каждом интервале направления (приблизительно 95% охвата, что само по себе составляет приблизительно 1,96 стандартных отклонений) это дает оценку, которая известна как «правило плюс четыре».

Хотя квадратное уравнение можно решить явно, в большинстве случаев уравнения Вильсона можно решить численно, используя итерацию с фиксированной точкой.

с

Интервал Уилсона также может быть получен из z-теста для одной выборки или критерия хи-квадрат Пирсона с двумя категориями. Полученный интервал,

(с нижним квантилем) можно затем решить для получения интервала счета Уилсона. Тест в середине неравенства — это тест счета .

Принцип равенства интервалов

Функция плотности вероятности ( PDF ) для интервала оценок Уилсона, плюс PDF s на границах интервала. Площади хвостов равны.

Поскольку интервал выводится путем решения задачи из нормального приближения к биномиальному распределению, интервал оценки Уилсона обладает свойством гарантированно давать тот же результат, что и эквивалентный z-тест или критерий хи-квадрат .

Это свойство можно визуализировать, построив график функции плотности вероятности для интервала оценок Уилсона ( см. Уоллис). [9] (стр. 297-313) После этого также постройте нормальную плотность вероятности по каждой границе. Хвостовые области результирующего распределения Уилсона и нормального распределения представляют вероятность значимого результата в этом направлении и должны быть равны.

Интервал оценки Уилсона с поправкой на непрерывность и интервал Клоппера-Пирсона также соответствуют этому свойству. Практический смысл в том, что эти интервалы могут использоваться как тесты значимости с идентичными результатами исходного теста, а новые тесты могут быть получены с помощью геометрии. [9]

Интервал оценки Уилсона с коррекцией непрерывности

Интервал Вильсона можно изменить, используя поправку на непрерывность , чтобы выровнять минимальную вероятность покрытия , а не среднюю вероятность покрытия, с номинальным значением,

Так же, как интервал Уилсона отражает критерий хи-квадрат Пирсона , интервал Уилсона с поправкой на непрерывность отражает эквивалентный критерий хи-квадрат Йетса .

Следующие формулы для нижней и верхней границ интервала оценок Уилсона с поправкой на непрерывность получены из Ньюкомба: [2]

для и

Если тогда вместо этого должно быть установлено значение, если тогда должно быть установлено значение,

Уоллис (2021) [9] определяет более простой метод вычисления интервалов Вильсона с поправкой на непрерывность, который использует специальную функцию, основанную на формуле нижней границы Вильсона: В обозначениях Уоллиса для нижней границы пусть

где - выбранный допустимый уровень ошибки для Тогда

Преимущество этого метода в том, что его можно дополнительно разложить.

интервал Джеффриса

Интервал Джеффриса имеет байесовское происхождение, но хорошие частотные свойства (превосходящие большинство частотных конструкций). В частности, он имеет свойства покрытия, которые похожи на свойства интервала Уилсона, но это один из немногих интервалов с преимуществом равнохвостого распределения ( например, для 95% доверительного интервала вероятности интервала, лежащего выше или ниже истинного значения, близки к 2,5%). Напротив, интервал Уилсона имеет систематическое смещение, так что он центрирован слишком близко к [10]

Интервал Джеффриса — это байесовский доверительный интервал , полученный при использовании неинформативного априорного распределения Джеффриса для биномиальной пропорции. Априорное распределение Джеффриса для этой задачи — это бета-распределение с параметрами сопряженного априорного распределения . После наблюдения успехов в испытаниях апостериорное распределение для — это бета-распределение с параметрами

Когда и интервал Джеффриса принимается равным апостериорным вероятностным интервалом, т.е. и квантилями бета-распределения с параметрами

Чтобы избежать вероятности покрытия, стремящейся к нулю, когда или 1  , когда верхний предел рассчитывается как и прежде, но нижний предел устанавливается равным  0 ,  и когда нижний предел рассчитывается как и прежде, но верхний предел устанавливается равным 1. [4]

Интервал Джеффриса можно также рассматривать как частотный интервал, основанный на инвертировании p-значения из G-теста после применения поправки Йетса, чтобы избежать потенциально бесконечного значения для статистики теста.

Интервал Клоппера–Пирсона

Интервал Клоппера–Пирсона является ранним и очень распространенным методом расчета биномиальных доверительных интервалов. [11] Его часто называют «точным» методом, поскольку он достигает номинального уровня покрытия в точном смысле, что означает, что уровень покрытия никогда не бывает меньше номинального [2]

Интервал Клоппера–Пирсона можно записать как

или эквивалентно,

с

и

где — число успехов, наблюдаемых в выборке, а — биномиальная случайная величина с испытаниями и вероятностью успеха.

Эквивалентно мы можем сказать, что интервал Клоппера–Пирсона имеет доверительный уровень, если является нижней гранью тех интервалов, для которых следующие проверки гипотезы завершаются со значимостью:

  1. H 0 : с H A :
  2. H 0 : с H A :

Из-за связи между биномиальным распределением и бета-распределением интервал Клоппера–Пирсона иногда представляется в альтернативном формате, который использует квантили из бета-распределения. [12]

где - число успехов, - число попыток, а - pквантиль из бета-распределения с параметрами формы и

Таким образом, где:

Доверительный интервал биномиальной пропорции тогда следует из соотношения между кумулятивной функцией распределения биномиального распределения и регуляризованной неполной бета-функцией .

Когда либо 0 , либо доступны выражения в замкнутой форме для границ интервала: когда интервал равен

и когда это будет

[12]

Бета-распределение, в свою очередь, связано с F-распределением , поэтому третью формулировку интервала Клоппера–Пирсона можно записать с использованием F- квантилей:

где — число успехов, — число попыток, — квантиль из F-распределения с и степенями свободы. [13]

Интервал Клоппера–Пирсона является «точным» интервалом, поскольку он основан непосредственно на биномиальном распределении, а не на каком-либо приближении к биномиальному распределению. Этот интервал никогда не имеет меньшего, чем номинальный охват для любой доли населения, но это означает, что он обычно консервативен. Например, истинный уровень охвата 95% интервала Клоппера–Пирсона может быть значительно выше 95%, в зависимости от и [4] Таким образом, интервал может быть шире, чем необходимо для достижения 95%-ной достоверности, и шире, чем другие интервалы. Напротив, стоит отметить, что другие доверительные интервалы могут иметь уровни охвата, которые ниже номинальных, т. е. нормальный аппроксимационный (или «стандартный») интервал, интервал Уилсона, [8] интервал Агрести–Коулла, [13] и т. д., с номинальным охватом 95% может на самом деле охватывать менее 95%, [4] даже для больших размеров выборки. [12]

Определение интервала Клоппера–Пирсона также может быть изменено для получения точных доверительных интервалов для различных распределений. Например, его можно также применить к случаю, когда выборки берутся без замены из популяции известного размера, вместо повторных выборок биномиального распределения. В этом случае базовым распределением будет гипергеометрическое распределение .

Границы интервала можно вычислить с помощью числовых функций qbeta [14] в R и scipy.stats.beta.ppf [15] в Python.

из  scipy.stats  импорт  бета k  =  20 n  =  400 альфа  =  0,05 p_u ,  p_o  =  бета . ppf ([ альфа / 2 ,  1  -  альфа / 2 ],  [ k ,  k  +  1 ],  [ n  -  k  +  1 ,  n  -  k ])

Интервал Агрести–Коулла

Интервал Агрести–Коулла также является еще одним приближенным биномиальным доверительным интервалом. [13]

Учитывая успехи в испытаниях, определите

и

Тогда доверительный интервал для определяется как

где — квантиль стандартного нормального распределения, как и прежде (например, 95% доверительный интервал требует, тем самым производя ). Согласно Брауну , Каю и ДасГупте (2001), [4] взятие вместо 1,96 дает интервал «добавьте 2 успеха и 2 неудачи», ранее описанный Агрести и Коуллом . [13]

Этот интервал можно обобщить, используя корректировку центральной точки интервала оценки Уилсона, а затем применяя нормальное приближение к этой точке. [3] [4]

Преобразование арксинуса

Преобразование арксинуса приводит к вытягиванию концов распределения. [16] Хотя оно может стабилизировать дисперсию (и, следовательно, доверительные интервалы) данных пропорций, его использование подвергалось критике в нескольких контекстах. [17]

Пусть будет числом успехов в испытаниях и пусть Дисперсия равна

Используя преобразование арксинуса , дисперсия арксинуса равна [18]

Итак, сам доверительный интервал имеет вид

где — квантиль стандартного нормального распределения.

Этот метод можно использовать для оценки дисперсии, но его использование проблематично, когда близок к 0 или 1  .

татрансформировать

Пусть будет пропорцией успехов. Для

Это семейство является обобщением логит-преобразования, которое является частным случаем с a = 1 и может использоваться для преобразования пропорционального распределения данных в приблизительно нормальное распределение . Параметр a должен быть оценен для набора данных.

Правило трех — когда не наблюдается никаких успехов

Правило трех используется для предоставления простого способа указания приблизительного 95% доверительного интервала для особого случая, когда не наблюдалось никаких успехов ( ). [19] Интервал равен

По симметрии, в случае только успехов ( ), интервал равен

Сравнение и обсуждение

Существует несколько исследовательских работ, в которых сравниваются эти и другие доверительные интервалы для биномиальной пропорции. [3] [2] [20] [21]

И Росс (2003) [22] , и Агрести и Коулл (1998) [13] указывают, что точные методы, такие как интервал Клоппера–Пирсона, могут работать не так хорошо, как некоторые приближения. Нормальный интервал приближения и его представление в учебниках подверглись резкой критике, и многие статистики выступили за то, чтобы его не использовали. [4] Основными проблемами являются перерегулирование (границы превышают ), интервалы нулевой ширины на уровне или 1 (ложно подразумевающие уверенность), [2] и общая несогласованность с проверкой значимости. [3]

Из перечисленных выше приближений методы интервальных оценок Уилсона (с коррекцией непрерывности или без нее) оказались наиболее точными и надежными, [3] [4] [2], хотя некоторые предпочитают подход Агрести и Коулза для выборок большего размера. [4] Методы Уилсона и Клоппера–Пирсона дают согласованные результаты с тестами значимости источника, [9] и это свойство является решающим для многих исследователей.

Многие из этих интервалов можно рассчитать в R с использованием таких пакетов, как binom . [23]

Смотрите также

Ссылки

  1. ^ Салливан, Лиза (2017-10-27). «Интервалы доверия». sphweb.bumc.bu.edu (конспекты курса). Бостон, Массачусетс: Школа общественного здравоохранения Бостонского университета . BS704.
  2. ^ abcdefgh Ньюкомб, RG (1998). "Двусторонние доверительные интервалы для одиночной пропорции: сравнение семи методов". Статистика в медицине . 17 (8): 857–872. doi :10.1002/(SICI)1097-0258(19980430)17:8<857::AID-SIM777>3.0.CO;2-E. PMID  9595616.
  3. ^ abcdefg Уоллис, Шон А. (2013). «Биномиальные доверительные интервалы и тесты на непредвиденные обстоятельства: математические основы и оценка альтернативных методов» (PDF) . Журнал количественной лингвистики . 20 (3): 178–208. doi :10.1080/09296174.2013.799918. S2CID  16741749.
  4. ^ abcdefghi Браун, Лоуренс Д.; Кай , Т. Тони ; ДасГупта, Анирбан (2001). «Интервальная оценка для биномиальной пропорции». Статистическая наука . 16 (2): 101–133. CiteSeerX 10.1.1.50.3025 . doi :10.1214/ss/1009213286. MR  1861069. Zbl  1059.62533. 
  5. ^ Лаплас, PS (1812). Théorie Analytique des Probilités [ Аналитическая теория вероятностей ] (на французском языке). Ве. Курьер. п. 283.
  6. ^ ab Short, Michael (2021-11-08). «О биномиальных квантилях и границах пропорций: с приложениями в инженерии и информатике». Communications in Statistics - Theory and Methods . 52 (12): 4183–4199. doi : 10.1080/03610926.2021.1986540 . ISSN  0361-0926. S2CID  243974180.
  7. ^ «Как рассчитать стандартную ошибку пропорции, используя взвешенные данные?». stats.stackexchange.com . 159220 / 253.
  8. ^ ab Wilson, EB (1927). «Вероятный вывод, закон последовательности и статистический вывод». Журнал Американской статистической ассоциации . 22 (158): 209–212. doi :10.1080/01621459.1927.10502953. JSTOR  2276774.
  9. ^ abcde Уоллис, Шон А. (2021). Статистика в корпусной лингвистике: новый подход. Нью-Йорк, Нью-Йорк: Routledge. ISBN 9781138589384.
  10. ^ Cai, TT (2005). «Односторонние доверительные интервалы в дискретных распределениях». Журнал статистического планирования и вывода . 131 (1): 63–88. doi :10.1016/j.jspi.2004.01.005.
  11. ^ Клоппер, К.; Пирсон, Э.С. (1934). «Использование доверительных или фидуциарных пределов, проиллюстрированное в случае биномиального». Biometrika . 26 (4): 404–413. doi :10.1093/biomet/26.4.404.
  12. ^ abc Тулин, Монс (2014-01-01). «Стоимость использования точных доверительных интервалов для биномиальной пропорции». Электронный журнал статистики . 8 (1): 817–840. arXiv : 1303.1288 . doi : 10.1214/14-EJS909. ISSN  1935-7524. S2CID  88519382.
  13. ^ abcde Агрести, Алан ; Коулл, Брент А. (1998). «Приблизительное лучше, чем «точное» для интервальной оценки биномиальных пропорций». The American Statistician . 52 (2): 119–126. doi :10.2307/2685469. JSTOR  2685469. MR  1628435.
  14. ^ "Бета-распределение". stat.ethz.ch (документация по программному обеспечению). Руководство по R. Получено 2023-12-02 .
  15. ^ "scipy.stats.beta". Руководство по SciPy. docs.scipy.org (документ по программному обеспечению) (редакция 1.11.4) . Получено 2023-12-02 .
  16. ^ Холланд, Стивен. «Преобразования пропорций и процентов». strata.uga.edu . Получено 2020-09-08 .
  17. ^ Warton, David I.; Hui, Francis KC (январь 2011 г.). «Арксинус ослиный: анализ пропорций в экологии». Ecology . 92 (1): 3–10. Bibcode :2011Ecol...92....3W. doi :10.1890/10-0340.1. hdl : 1885/152287 . ISSN  0012-9658. PMID  21560670.
  18. ^ Шао, Дж. (1998). Математическая статистика . Нью-Йорк, Нью-Йорк: Springer.
  19. ^ Саймон, Стив (2010). «Доверительный интервал с нулевыми событиями». Спросите профессора Мина. Канзас-Сити, Миссури: Детская больница милосердия. Архивировано из оригинала 15 октября 2011 г.Статистика тем по медицинским исследованиям
  20. ^ Sauro, J.; Lewis, JR (2005). Сравнение калькуляторов интервалов Вальда, Адж-Вальда, точного и Вильсона (PDF) . Human Factors and Ergonomics Society, 49th Annual Meeting (HFES 2005). Орландо, Флорида. С. 2100–2104. Архивировано из оригинала (PDF) 18 июня 2012 г.
  21. ^ Reiczigel, J. (2003). "Доверительные интервалы для биномиального параметра: некоторые новые соображения" (PDF) . Статистика в медицине . 22 (4): 611–621. doi :10.1002/sim.1320. PMID  12590417. S2CID  7715293.
  22. ^ Росс, ТД (2003). «Точные доверительные интервалы для биномиальной пропорции и оценки скорости Пуассона». Компьютеры в биологии и медицине . 33 (6): 509–531. doi :10.1016/S0010-4825(03)00019-2. PMID  12878234.
  23. ^ Dorai-Raj, Sundar (2 мая 2022 г.). binom: Биномиальные доверительные интервалы для нескольких параметризаций (документ программного обеспечения) . Получено 2 декабря 2023 г.