Погрешность

Плотности вероятности опросов разного размера, каждый из которых имеет цветовую маркировку своего 95% доверительного интервала (внизу), погрешности (слева) и размера выборки (справа). Каждый интервал отражает диапазон, в пределах которого можно иметь 95%-ную уверенность в том, что *истинный* процент может быть найден, учитывая заявленный процент в 50%. Погрешность составляет половину доверительного интервала (а также *радиуса* *интервала* ). Чем больше выборка, тем меньше погрешность. Кроме того, чем дальше от 50% заявленный процент, тем меньше погрешность.

Погрешность – это статистический показатель , выражающий величину ошибки случайной выборки в результатах опроса . Чем больше погрешность, тем меньше следует быть уверенности в том, что результат опроса будет отражать результат переписи всего населения . Предел погрешности будет положительным, если совокупность отобрана не полностью и показатель результата имеет положительную дисперсию , то есть всякий раз, когда показатель изменяется .

Термин «погрешность» часто используется в контексте, не связанном с обследованием, для обозначения ошибки наблюдения при сообщении измеренных величин.

Концепция

Рассмотрим простой опрос «да/нет» как выборку респондентов, взятых из совокупности , сообщившей процент ответов «да» . Нам хотелось бы знать, насколько близок к истинному результат опроса всего населения без необходимости его проведения. Если бы гипотетически мы провели опрос последующих выборок респондентов (вновь взятых из ), мы бы ожидали, что эти последующие результаты будут нормально распределены относительно , истинного, но неизвестного процента населения. Погрешность описывает расстояние, в пределах которого ожидается, что указанный процент этих результатов будет отличаться от . $P$ $п$ $N{\text{, }}(n\ll N)$ ${\ displaystyle p}$ ${\ displaystyle p}$ $N$ $P$ $п$ $N$ $p_{1},p_{2},\ldots$ ${\overline {p}}$ ${\overline {p}}$

В соответствии с правилом 68-95-99,7 мы ожидаем, что 95% результатов будут находиться в пределах примерно двух стандартных отклонений ( ) по обе стороны от истинного среднего значения . Этот интервал называется доверительным интервалом , а радиус (половина интервала) называется пределом погрешности , что соответствует уровню достоверности 95% . $p_{1},p_{2},\ldots$ $\pm 2\sigma _{P}$ ${\overline {p}}$

Как правило, на уровне достоверности размер выборки генеральной совокупности с ожидаемым стандартным отклонением имеет погрешность. $\гамма$ $п$ ${\ displaystyle \ сигма }$

MOE_{\gamma }=z_{\gamma }\times {\sqrt {\frac {\sigma ^{2}}{n}}}

где обозначает квантиль (также обычно z-показатель ), а – стандартную ошибку . $z_ {\gamma }$ ${\sqrt {\frac {\sigma ^{2}}{n}}}$

Стандартное отклонение и стандартная ошибка

Мы ожидаем, что среднее значение нормально распределенных значений будет иметь стандартное отклонение, которое каким-то образом меняется в зависимости от . Чем меньше , тем шире поле. Это называется стандартной ошибкой . $p_{1},p_{2},\ldots$ $п$ $п$ $\sigma _{\overline {p}}$

Для одного результата нашего опроса мы предполагаем, что , и что все последующие результаты вместе будут иметь дисперсию . $p={\overline {p}}$ $p_{1},p_{2},\ldots$ $\sigma _{P}^{2}=P(1-P)$

{\text{Standard error}}=\sigma _{\overline {p}}\approx {\sqrt {\frac {\sigma _{P}^{2}}{n}}}\approx {\sqrt {\frac {p(1-p)}{n}}}

Обратите внимание, что это соответствует дисперсии распределения Бернулли . $p(1-p)$

Максимальная погрешность на разных уровнях достоверности

Для уровня достоверности существует соответствующий доверительный интервал относительно среднего значения , то есть интервал , в пределах которого значения должны попадать с вероятностью . Точные значения определяются функцией квантиля нормального распределения (которую аппроксимирует правило 68-95-99,7). $\gamma$ $\mu \pm z_{\gamma }\sigma$ $[\mu -z_{\gamma }\sigma ,\mu +z_{\gamma }\sigma ]$ $P$ $\gamma$ $z_{\gamma }$

Обратите внимание, что не определено для , то есть не определено, как есть . $z_{\gamma }$ $|\gamma |\geq 1$ $z_{1.00}$ $z_{1.10}$

Поскольку при , мы можем произвольно установить , вычислить , и получить максимальную погрешность для данного уровня достоверности и размера выборки даже до получения фактических результатов. С $\max \sigma _{P}^{2}=\max P(1-P)=0.25$ $p=0.5$ $p={\overline {p}}=0.5$ $\sigma _{P}$ $\sigma _{\overline {p}}$ $z_{\gamma }\sigma _{\overline {p}}$ $P$ $\gamma$ $n$ $p=0.5,n=1013$

MOE_{95}(0.5)=z_{0.95}\sigma _{\overline {p}}\approx z_{0.95}{\sqrt {\frac {\sigma _{P}^{2}}{n}}}=1.96{\sqrt {\frac {.25}{n}}}=0.98/{\sqrt {n}}=\pm 3.1\%

MOE_{99}(0.5)=z_{0.99}\sigma _{\overline {p}}\approx z_{0.99}{\sqrt {\frac {\sigma _{P}^{2}}{n}}}=2.58{\sqrt {\frac {.25}{n}}}=1.29/{\sqrt {n}}=\pm 4.1\%

Также, что полезно, для любых сообщаемых $MOE_{95}$

MOE_{99}={\frac {z_{0.99}}{z_{0.95}}}MOE_{95}\approx 1.3\times MOE_{95}

Конкретные пределы погрешности

Если опрос имеет несколько процентных результатов (например, опрос, измеряющий одно предпочтение с несколькими вариантами ответов), результат, ближайший к 50%, будет иметь наибольшую погрешность. Обычно именно это число указывается как погрешность для всего опроса. Представьте себе отчеты об опросах как $P$ $p_{a},p_{b},p_{c}$ $71\%,27\%,2\%,n=1013$

MOE_{95}(P_{a})=z_{0.95}\sigma _{\overline {p_{a}}}\approx 1.96{\sqrt {\frac {p_{a}(1-p_{a})}{n}}}=0.89/{\sqrt {n}}=\pm 2.8\%

(как на рисунке выше)

MOE_{95}(P_{b})=z_{0.95}\sigma _{\overline {p_{b}}}\approx 1.96{\sqrt {\frac {p_{b}(1-p_{b})}{n}}}=0.87/{\sqrt {n}}=\pm 2.7\%

MOE_{95}(P_{c})=z_{0.95}\sigma _{\overline {p_{c}}}\approx 1.96{\sqrt {\frac {p_{c}(1-p_{c})}{n}}}=0.27/{\sqrt {n}}=\pm 0.8\%

Когда данный процент приближается к крайним значениям 0% или 100%, его погрешность приближается к ±0%.

Сравнение процентов

Представьте себе отчеты об опросах с несколькими вариантами ответов в формате . Как описано выше, погрешность, сообщаемая для опроса, обычно составляет , что ближе всего к 50%. Однако популярное понятие статистической ничьи или статистической ничьи касается не точности отдельных результатов, а точности ранжирования результатов . Что на первом месте? $P$ $p_{a},p_{b},p_{c}$ $46\%,42\%,12\%,n=1013$ $MOE_{95}(P_{a})$ $p_{a}$

Если бы, гипотетически, мы должны были провести опрос последующих выборок респондентов (вновь взятых из ) и сообщить результат , мы могли бы использовать стандартную ошибку разницы , чтобы понять, как ожидается . Для этого нам нужно применить сумму дисперсий , чтобы получить новую дисперсию, , $P$ $n$ $N$ $p_{w}=p_{a}-p_{b}$ $p_{w_{1}},p_{w_{2}},p_{w_{3}},\ldots$ ${\overline {p_{w}}}$ $\sigma _{P_{w}}^{2}$

\sigma _{P_{w}}^{2}=\sigma _{P_{a}-P_{b}}^{2}=\sigma _{P_{a}}^{2}+\sigma _{P_{b}}^{2}-2\sigma _{P_{a},P_{b}}=p_{a}(1-p_{a})+p_{b}(1-p_{b})+2p_{a}p_{b}

где ковариация и . _ _ $\sigma _{P_{a},P_{b}}=-P_{a}P_{b}$ $P_{a}$ $P_{b}$

Таким образом (после упрощения)

{\text{Standard error of difference}}=\sigma _{\overline {w}}\approx {\sqrt {\frac {\sigma _{P_{w}}^{2}}{n}}}={\sqrt {\frac {p_{a}+p_{b}-(p_{a}-p_{b})^{2}}{n}}}=0.029,P_{w}=P_{a}-P_{b}

MOE_{95}(P_{a})=z_{0.95}\sigma _{\overline {p_{a}}}\approx \pm {3.1\%}

MOE_{95}(P_{w})=z_{0.95}\sigma _{\overline {w}}\approx \pm {5.8\%}

Обратите внимание, что это предполагает, что оно близко к постоянному, то есть респонденты, выбравшие либо A, либо B, почти никогда не выберут C (что приводит к почти идеальной отрицательной корреляции ). При наличии трех или более вариантов выбора в условиях более тесного противостояния выбор правильной формулы для становится более сложным. $P_{c}$ $P_{a}$ $P_{b}$ $\sigma _{P_{w}}^{2}$

Влияние конечной численности популяции

Приведенные выше формулы для погрешности предполагают, что существует бесконечно большая совокупность и, таким образом, не зависят от размера совокупности , а только от размера выборки . Согласно теории выборки , это предположение разумно, когда доля выборки мала. Предел погрешности для конкретного метода выборки по существу одинаков, независимо от того, является ли исследуемая совокупность размером со школу, город, штат или страну, при условии, что доля выборки невелика . $N$ $n$

В тех случаях, когда доля выборки больше (на практике более 5%), аналитики могут скорректировать погрешность, используя конечную поправку на генеральную совокупность , чтобы учесть дополнительную точность, полученную за счет выборки гораздо большего процента генеральной совокупности. FPC можно рассчитать по формуле ^[1]

\operatorname {FPC} ={\sqrt {\frac {N-n}{N-1}}}

...и так, если бы опрос был проведен более чем 24%, скажем, электората в 300 000 избирателей, $P$

MOE_{95}(0.5)=z_{0.95}\sigma _{\overline {p}}\approx {\frac {0.98}{\sqrt {72,000}}}=\pm 0.4\%

MOE_{95_{FPC}}(0.5)=z_{0.95}\sigma _{\overline {p}}{\sqrt {\frac {N-n}{N-1}}}\approx {\frac {0.98}{\sqrt {72,000}}}{\sqrt {\frac {300,000-72,000}{300,000-1}}}=\pm 0.3\%

Интуитивно, для достаточно большого , $N$

\lim _{n\to 0}{\sqrt {\frac {N-n}{N-1}}}\approx 1

\lim _{n\to N}{\sqrt {\frac {N-n}{N-1}}}=0

В первом случае оно настолько мало, что не требует коррекции. В последнем случае опрос фактически становится переписью, и ошибка выборки становится спорной. $n$

Смотрите также

Источники

Судман, Сеймур и Брэдберн, Норман (1982). Задавание вопросов: Практическое руководство по разработке анкет . Сан-Франциско: Джосси Басс. ISBN 0-87589-546-8
Воннакотт, TH; Р. Дж. Воннакотт (1990). Вводная статистика (5-е изд.). Уайли. ISBN 0-471-61518-8.

Внешние ссылки

В Wikibooks есть дополнительная информация по теме: Предел погрешности.

«Ошибки, теория», Математическая энциклопедия , EMS Press , 2001 [1994]
Вайсштейн, Эрик В. «Погрешность». Математический мир .