Статистика, выражающая величину случайной ошибки выборки в результатах опроса.
Погрешность — это статистика , выражающая величину случайной ошибки выборки в результатах опроса . Чем больше погрешность, тем меньше нужно быть уверенным в том, что результат опроса будет отражать результат переписи всего населения . Погрешность будет положительной, когда население не полностью отобрано, а мера результата имеет положительную дисперсию , то есть, когда мера изменяется .
Термин «погрешность» часто используется в контексте, не связанном с проведением обследований, для обозначения погрешности наблюдения при сообщении измеренных величин.
Концепция
Рассмотрим простой опрос «да/нет» как выборку респондентов, взятых из популяции, сообщающей процент ответов «да» . Мы хотели бы узнать, насколько близок к истинному результату опрос всей популяции , без необходимости его проводить. Если бы гипотетически мы провели опрос последующих выборок респондентов (вновь взятых из ), мы бы ожидали, что эти последующие результаты будут нормально распределены относительно , истинного, но неизвестного процента популяции. Погрешность описывает расстояние, в пределах которого указанный процент этих результатов, как ожидается, будет отличаться от .
Следуя центральной предельной теореме , погрешность помогает объяснить, как распределение выборочных средних значений (или процент «да» в данном случае) будет приближаться к нормальному распределению по мере увеличения размера выборки. Если это применимо, это будет говорить о несмещенности выборки, но не о внутреннем распределении данных. [1]
Согласно правилу 68-95-99.7 , мы ожидаем, что 95% результатов будут находиться в пределах двух стандартных отклонений ( ) по обе стороны от истинного среднего значения . Этот интервал называется доверительным интервалом , а радиус (половина интервала) называется погрешностью , что соответствует 95%-ному уровню достоверности .
Как правило, на уровне достоверности выборка размера популяции, имеющая ожидаемое стандартное отклонение, имеет предел погрешности
Мы ожидаем, что среднее значение нормально распределенных значений будет иметь стандартное отклонение, которое каким-то образом меняется с . Чем меньше , тем шире разница. Это называется стандартной ошибкой .
Для отдельного результата нашего опроса мы предполагаем , что , и что все последующие результаты вместе будут иметь дисперсию .
Максимальная погрешность при различных уровнях достоверности
Для уровня достоверности существует соответствующий доверительный интервал относительно среднего значения , то есть интервал, в который значения должны попадать с вероятностью . Точные значения задаются квантильной функцией нормального распределения (которую аппроксимирует правило 68–95–99,7).
Обратите внимание, что не определено для , то есть не определено, как и .
Так как при , мы можем произвольно установить , вычислить , и получить максимальную погрешность для при заданном уровне достоверности и размере выборки , даже до получения фактических результатов. С
Также, полезно, для любого сообщенного
Конкретные пределы погрешности
Если опрос имеет несколько процентных результатов (например, опрос, измеряющий одно предпочтение с множественным выбором), результат, наиболее близкий к 50%, будет иметь самую высокую погрешность. Обычно именно это число сообщается как погрешность для всего опроса. Представьте себе отчеты опросов как
(как на рисунке выше)
По мере того, как заданный процент приближается к крайним значениям 0% или 100%, его погрешность приближается к ±0%.
Сравнение процентов
Представьте себе отчеты об опросах с множественным выбором в виде . Как описано выше, погрешность, указанная для опроса, обычно составляет , что ближе всего к 50%. Однако популярное понятие статистической ничьей или статистической ничьей касается не точности отдельных результатов, а точности ранжирования результатов . Что находится на первом месте?
Если бы, гипотетически, мы провели опрос по последующим выборкам респондентов (вновь взятых из ), и сообщили бы результат , мы могли бы использовать стандартную ошибку разности , чтобы понять, как ожидается, упадет около . Для этого нам нужно применить сумму дисперсий , чтобы получить новую дисперсию, ,
Обратите внимание, что это предполагает, что близко к константе, то есть респонденты, выбирающие A или B, почти никогда не выберут C (что делает и близко к идеально отрицательно коррелированными ). При наличии трех или более вариантов в более тесном противоречии выбор правильной формулы для становится более сложным.
Эффект конечной численности популяции
Формулы выше для погрешности предполагают, что существует бесконечно большая совокупность, и, таким образом, не зависят от размера совокупности , а только от размера выборки . Согласно теории выборки , это предположение разумно, когда доля выборки мала. Погрешность для конкретного метода выборки по сути одинакова, независимо от того, является ли интересующая совокупность размером школы, города, штата или страны, пока доля выборки мала.
В случаях, когда доля выборки больше (на практике больше 5%), аналитики могут скорректировать погрешность, используя коррекцию конечной совокупности , чтобы учесть дополнительную точность, полученную за счет выборки гораздо большего процента совокупности. FPC можно рассчитать с помощью формулы [2]
...и поэтому, если бы опрос проводился среди 24%, скажем, электората в 300 000 избирателей,
Интуитивно понятно, что для достаточно большого ,
В первом случае настолько мал, что не требует коррекции. Во втором случае опрос фактически становится переписью, и ошибка выборки становится спорной.
^ Зигфрид, Том (2014-07-03). «Понимание учеными доверительных интервалов не внушает доверия | Science News». Science News . Получено 2024-08-06 .
^ Иссерлис, Л. (1918). «О значении среднего, вычисленного по выборке». Журнал Королевского статистического общества . 81 (1). Blackwell Publishing: 75–81. doi : 10.2307/2340569. JSTOR 2340569.(Уравнение 1)
Источники
Садман, Сеймур и Брэдберн, Норман (1982). Задавание вопросов: практическое руководство по разработке анкет . Сан-Франциско: Jossey Bass. ISBN 0-87589-546-8