Параметры, которые обозначают доли населения, обычно в процентах.
В статистике доля населения , обычно обозначаемая или греческой буквой , [1] является параметром , который описывает процентное значение, связанное с населением . Перепись может быть проведена для определения фактического значения параметра населения, но часто перепись нецелесообразна из-за ее стоимости и затрат времени. Например, перепись населения США 2010 года показала, что 83,7% американского населения были идентифицированы как не являющиеся испаноязычными или латиноамериканцами; значение .837 является долей населения. В целом, доля населения и другие параметры населения неизвестны.
Доля населения обычно оценивается с помощью непредвзятой выборочной статистики, полученной из наблюдательного исследования или эксперимента , в результате чего получается выборочная доля , обычно обозначаемая как , а в некоторых учебниках как . [2] [3]
Например, Национальная конференция по технологической грамотности провела общенациональный опрос 2000 взрослых, чтобы определить процент взрослых, которые являются экономически неграмотными; исследование показало, что 1440 из 2000 взрослых, включенных в выборку, не понимали, что такое валовой внутренний продукт . [4] Значение 72% (или 1440/2000) является выборочной долей.
Математическое определение
Пропорция математически определяется как отношение количества элементов ( счетное количество ) в подмножестве к размеру множества :
где — количество успехов в популяции, — размер популяции.
Это математическое определение можно обобщить, чтобы дать определение выборочной пропорции:
где — количество успехов в выборке, а — размер выборки, полученной из генеральной совокупности. [5] [2]
Оценка
Одним из основных направлений исследований в области выводной статистики является определение «истинного» значения параметра. Как правило, фактическое значение параметра никогда не будет найдено, если только не будет проведена перепись изучаемой популяции. Однако существуют статистические методы, которые можно использовать для получения разумной оценки параметра. Эти методы включают доверительные интервалы и проверку гипотез .
Оценка доли населения может иметь большое значение в таких областях, как сельское хозяйство, бизнес, экономика, образование, инженерия, экологические исследования, медицина, юриспруденция, политология, психология и социология.
Долю населения можно оценить с помощью доверительного интервала, известного как доля одной выборки в Z-интервале, формула которого приведена ниже:
где — доля выборки, — размер выборки, — верхнее критическое значение стандартного нормального распределения для уровня достоверности . [6]
Доказательство
Чтобы вывести формулу для пропорции одной выборки в Z-интервале , необходимо принять во внимание выборочное распределение выборочных долей. Среднее значение выборочного распределения выборочных долей обычно обозначается как , а его стандартное отклонение обозначается как: [2]
Поскольку значение неизвестно, для будет использоваться несмещенная статистика . Среднее значение и стандартное отклонение переписываются соответственно как:
и
Используя центральную предельную теорему , распределение выборочных пропорций приблизительно нормально — при условии, что выборка достаточно велика и не имеет перекосов.
Предположим, что рассчитана следующая вероятность:
,
где и — стандартные критические значения.
Неравенство
можно алгебраически переписать следующим образом:
Из проделанной выше алгебраической работы следует, что с уровнем определенности он может находиться между значениями:
.
Условия вывода
В общем случае формула, используемая для оценки доли населения, требует подстановки известных числовых значений. Однако эти числовые значения не могут быть «слепо» подставлены в формулу, поскольку статистический вывод требует, чтобы оценка неизвестного параметра была обоснованной. Для того чтобы оценка параметра была обоснованной, необходимо проверить три условия:
Данные индивидуального наблюдения должны быть получены из простой случайной выборки интересующей популяции.
Отдельные наблюдения данных должны демонстрировать нормальность . Это можно предположить математически с помощью следующего определения:
Пусть будет размером выборки данной случайной выборки, а пусть будет ее выборочной пропорцией. Если и , то отдельные наблюдения данных демонстрируют нормальность.
Отдельные наблюдения данных должны быть независимы друг от друга. Это можно математически предположить с помощью следующего определения:
Пусть будет размером интересующей популяции, а будет размером выборки простой случайной выборки популяции. Если , то отдельные наблюдения данных независимы друг от друга.
Условия для SRS, нормальности и независимости иногда называют условиями для ящика инструментов вывода в большинстве статистических учебников. Для более подробного изучения областей, где это упрощение не используется, см. (https://en.wikipedia.org/wiki/Population_proportion/Binomial_proportion_confidence_interval#Jeffreys_interval )
Пример
Предположим, что в демократическом государстве проходят президентские выборы. Случайная выборка из 400 имеющих право голоса избирателей в избирательных округах демократического государства показывает, что 272 избирателя поддерживают кандидата B. Политолог хочет определить, какой процент избирателей поддерживает кандидата B.
Чтобы ответить на вопрос политолога, можно построить одновыборочную пропорцию в Z-интервале с уровнем достоверности 95%, чтобы определить долю населения, имеющего право голоса в этой демократии, которые поддерживают кандидата B.
Решение
Из случайной выборки известно, что при размере выборки . Перед построением доверительного интервала будут проверены условия вывода.
Поскольку из числа голосующих была получена случайная выборка из 400 избирателей, условие простой случайной выборки было выполнено.
Пусть и , будет проверено, и
и
Условие нормальности выполнено.
Пусть будет численностью избирателей в этой демократии, и пусть . Если , то независимость имеет место.
Можно предположить, что численность населения для избирателей этой демократии составляет не менее 4000. Следовательно, условие независимости выполнено.
Проверив условия вывода, можно построить доверительный интервал.
Рассматривая стандартную нормальную кривую распределения, можно определить значение для , определив, какой стандартный балл дает стандартной нормальной кривой верхнюю хвостовую площадь 0,0250 или площадь 1 – 0,0250 = 0,9750. Значение для также можно найти с помощью таблицы стандартных нормальных вероятностей.
Из таблицы стандартных нормальных вероятностей значение , которое дает площадь 0,9750, равно 1,96. Следовательно, значение для равно 1,96.
Значения для , , теперь можно подставить в формулу для одновыборочной пропорции в Z-интервале:
На основании условий вывода и формулы для пропорции одной выборки в Z-интервале можно сделать вывод с 95%-ным уровнем достоверности, что процент избирателей в этой демократии, поддерживающих кандидата B, составляет от 63,429% до 72,571%.
Значение параметра в диапазоне доверительного интервала
Часто задаваемый вопрос в выводной статистике — включен ли параметр в доверительный интервал. Единственный способ ответить на этот вопрос — провести перепись. Ссылаясь на приведенный выше пример, вероятность того, что доля населения находится в диапазоне доверительного интервала, равна либо 1, либо 0. То есть параметр включен в диапазон интервала или нет. Основная цель доверительного интервала — лучше проиллюстрировать, каким может быть идеальное значение параметра.
Распространенные ошибки и неверные толкования при оценке
Очень распространенная ошибка, возникающая при построении доверительного интервала, заключается в убеждении, что уровень уверенности, такой как , означает 95% вероятности. Это неверно. Уровень уверенности основан на мере уверенности, а не вероятности. Следовательно, значения попадают исключительно в диапазон от 0 до 1.
Оценка P с использованием ранжированной выборки
Более точную оценку P можно получить, выбрав ранжированную выборку вместо простой случайной выборки [7] [8]
^ Отт, Р. Лайман (1993). Введение в статистические методы и анализ данных . Duxbury Press. ISBN0-534-93150-2.
^ Weisstein, Eric (1998). CRC Concise Encyclopedia of Mathematics . Chapman & Hall/CRC. Bibcode : 1998ccem.book.....W.
^ Хайндерс, Дуэйн (2008). Аннотированное издание для учителя Практика статистики . WH Freeman. ISBN978-0-7167-7703-8.
^ Аббаси, Азхар Мехмуд; Юсаф Шад, Мухаммад (2021-05-15). «Оценка доли населения с использованием выборки ранжированных наборов на основе сопутствующих факторов». Communications in Statistics – Theory and Methods . 51 (9): 2689–2709. doi :10.1080/03610926.2021.1916529. ISSN 0361-0926. S2CID 236554602.
^ Аббаси, Азхар Мехмуд; Шад, Мухаммад Юсаф (2021-05-15). «Оценка доли населения с использованием выборки ранжированных наборов на основе сопутствующих факторов». Communications in Statistics – Theory and Methods . 51 (9): 2689–2709. doi :10.1080/03610926.2021.1916529. ISSN 0361-0926. S2CID 236554602.