Определение размера выборки

Определение или оценка размера выборки — это процесс выбора количества наблюдений или повторов для включения в статистическую выборку . Размер выборки является важной характеристикой любого эмпирического исследования, целью которого является сделать выводы о популяции из выборки. На практике размер выборки, используемый в исследовании, обычно определяется на основе стоимости, времени или удобства сбора данных, а также необходимости предоставления достаточной статистической мощности . В сложных исследованиях могут быть выделены разные размеры выборки, например, в стратифицированных опросах или экспериментальных проектах с несколькими группами лечения. В переписи данные ищутся для всей популяции, поэтому предполагаемый размер выборки равен популяции. В экспериментальном дизайне , где исследование может быть разделено на разные группы лечения , могут быть разные размеры выборки для каждой группы.

Размеры выборки можно выбрать несколькими способами:

использование опыта – небольшие выборки, хотя иногда и неизбежны, могут привести к широким доверительным интервалам и риску ошибок при проверке статистических гипотез .
использование целевой дисперсии для оценки, которая будет получена на основе выборки, полученной в конечном итоге, т.е. если требуется высокая точность (узкий доверительный интервал), это приводит к низкой целевой дисперсии оценщика.
использование целевой мощности, т.е. мощности статистического теста , который будет применяться после сбора образца.
с использованием уровня достоверности, т.е. чем больше требуемый уровень достоверности, тем больше размер выборки (при постоянном требовании к точности).

Введение

Определение размера выборки является важнейшим аспектом методологии исследования, который играет важную роль в обеспечении надежности и обоснованности результатов исследования. Чтобы повлиять на точность оценок, мощность статистических тестов и общую надежность результатов исследования, необходимо тщательно выбирать количество участников или точек данных, которые будут включены в исследование.

Например, если мы проводим опрос для определения среднего уровня удовлетворенности клиентов новым продуктом. Чтобы определить подходящий размер выборки, нам нужно учесть такие факторы, как желаемый уровень уверенности, погрешность и изменчивость ответов. Мы можем решить, что нам нужен уровень уверенности 95%, то есть мы на 95% уверены, что истинный средний уровень удовлетворенности попадает в расчетный диапазон. Мы также принимаем решение о погрешности ±3%, что указывает на приемлемый диапазон разницы между нашей оценкой выборки и истинным параметром популяции. Кроме того, у нас может быть некоторое представление об ожидаемой изменчивости уровней удовлетворенности на основе предыдущих данных или предположений.

Важность

Большие размеры выборки обычно приводят к повышению точности при оценке неизвестных параметров. Например, чтобы точно определить распространенность патогенной инфекции у определенного вида рыб, предпочтительнее исследовать выборку из 200 рыб, а не из 100. Несколько фундаментальных фактов математической статистики описывают это явление, включая закон больших чисел и центральную предельную теорему .

В некоторых ситуациях увеличение точности для больших размеров выборки минимально или даже отсутствует. Это может быть результатом наличия систематических ошибок или сильной зависимости в данных, или если данные следуют распределению с тяжелым хвостом, или потому, что данные сильно зависимы или смещены.

Размеры выборки могут быть оценены по качеству полученных оценок следующим образом. Обычно они определяются на основе стоимости, времени или удобства сбора данных и необходимости достаточной статистической мощности. Например, если оценивается доля, может потребоваться, чтобы 95% доверительный интервал был менее 0,06 единиц. В качестве альтернативы размер выборки может быть оценен на основе мощности проверки гипотезы. Например, если мы сравниваем поддержку определенного политического кандидата среди женщин с поддержкой этого кандидата среди мужчин, мы можем захотеть иметь 80% мощность для обнаружения разницы в уровнях поддержки в 0,04 единицы.

Оценка

Оценка пропорции

Сравнительно простая ситуация — оценка пропорции . Это фундаментальный аспект статистического анализа, особенно при оценке распространенности определенной характеристики в популяции. Например, мы можем захотеть оценить долю жителей в сообществе, которым не менее 65 лет.

Оценка пропорции — это , где X — это число «положительных» случаев (например, число людей из n выбранных людей, которым не менее 65 лет). Когда наблюдения независимы , эта оценка имеет (масштабированное) биномиальное распределение (и также является выборочным средним данных из распределения Бернулли ). Максимальная дисперсия этого распределения составляет 0,25, что происходит, когда истинный параметр равен p = 0,5. В практических приложениях, где истинный параметр p неизвестен, максимальная дисперсия часто используется для оценки размера выборки. Если известна разумная оценка для p, то вместо 0,25 можно использовать величину . ${\hat {p}}=X/n$ $p(1-p)$

По мере того, как размер выборки n становится достаточно большим, распределение будет близко приближаться к нормальному распределению . ^[1] Используя это и метод Вальда для биномиального распределения , получаем доверительный интервал, где Z представляет собой стандартную Z-оценку для желаемого уровня достоверности (например, 1,96 для 95% доверительного интервала), в форме: ${\шляпа {p}}$

\left({\widehat {p}}-Z{\sqrt {\frac {0.25}{n}}},\quad {\widehat {p}}+Z{\sqrt {\frac {0.25}{n}}}\right)

Чтобы определить подходящий размер выборки n для оценки пропорций, можно решить уравнение ниже, где W представляет желаемую ширину доверительного интервала. Полученная формула размера выборки часто применяется с консервативной оценкой p (например, 0,5):

Z{\sqrt {\frac {0,25}{n}}}=W/2

для n , что дает размер выборки

$n={\frac {Z^{2}}{W^{2}}}$ , в случае использования .5 как наиболее консервативной оценки пропорции. (Примечание: W/2 = погрешность .)

На рисунке ниже можно увидеть, как изменяются размеры выборки для биномиальных пропорций с учетом различных уровней достоверности и погрешности.

В противном случае формула будет иметь вид , что дает . Например, при оценке доли населения США, поддерживающего кандидата в президенты, с шириной 95% доверительного интервала в 2 процентных пункта (0,02) требуется размер выборки (1,96) ² / (0,02 ² ) = 9604, при этом погрешность в этом случае составляет 1 процентный пункт. В этом случае разумно использовать оценку 0,5 для p, поскольку президентские гонки часто близки к 50/50, и также разумно использовать консервативную оценку. Погрешность в этом случае составляет 1 процентный пункт (половина от 0,02). $Z{\sqrt {\frac {p(1-p)}{n}}}=W/2$ $n={\frac {4Z^{2}p(1-p)}{W^{2}}}$

На практике формула: обычно используется для формирования 95% доверительного интервала для истинной пропорции. Уравнение можно решить относительно n , обеспечив минимальный размер выборки, необходимый для соответствия желаемому пределу погрешности. Вышеизложенное обычно упрощается: ^[2]^[3]n = 4/ W ² = 1/ B ² где B — это погрешность оценки, т. е. оценка обычно дается в пределах ± B . Для B = 10% требуется n = 100, для B = 5% требуется n = 400, для B = 3% требование приближается к n = 1000, в то время как для B = 1% требуется размер выборки n = 10000. Эти числа часто цитируются в новостных сообщениях об опросах общественного мнения и других выборочных исследованиях . Однако сообщаемые результаты могут не быть точным значением, поскольку числа предпочтительно округлять. Зная, что значение n представляет собой минимальное количество точек выборки, необходимое для получения желаемого результата, число респондентов должно быть равным или превышать минимум. $\left({\widehat {p}}-1,96{\sqrt {\frac {0,25}{n}}},\quad {\widehat {p}}+1,96{\sqrt {\frac {0,25}{n}}}\right)$ $4{\sqrt {\frac {0,25}{n}}}=W/2$

Оценка среднего значения

Проще говоря, если мы пытаемся оценить среднее время, которое требуется людям, чтобы добраться до работы в городе. Вместо того, чтобы опрашивать все население, вы можете взять случайную выборку из 100 человек, записать их время в пути, а затем вычислить среднее время в пути для этой выборки. Например, человек 1 тратит 25 минут, человек 2 тратит 30 минут, ..., человек 100 тратит 20 минут. Сложите все время в пути и разделите на количество людей в выборке (в данном случае 100). Результат будет вашей оценкой среднего времени в пути для всего населения. Этот метод практичен, когда невозможно измерить всех в популяции, и он дает разумное приближение на основе репрезентативной выборки.

Точно математически, при оценке среднего значения совокупности с использованием независимой и одинаково распределенной (iid) выборки размера n , где каждое значение данных имеет дисперсию σ ² , стандартная ошибка среднего значения выборки равна:

{\frac {\sigma}{\sqrt {n}}}.

Это выражение количественно описывает, как оценка становится более точной по мере увеличения размера выборки. Использование центральной предельной теоремы для обоснования аппроксимации выборочного среднего с нормальным распределением дает доверительный интервал вида

\left({\bar {x}}-{\frac {Z\sigma }{\sqrt {n}}},\quad {\bar {x}}+{\frac {Z\sigma }{\sqrt {n}}}\right)

где Z — стандартный Z-счет для желаемого уровня достоверности (1,96 для 95% доверительного интервала).

Чтобы определить размер выборки n, необходимый для доверительного интервала шириной W, где W/2 является погрешностью по обе стороны от выборочного среднего, уравнение

{\frac {Z\sigma }{\sqrt {n}}}=W/2

может быть решена. Это дает формулу размера выборки для n :

$n={\frac {4Z^{2}\sigma ^{2}}{W^{2}}}$ .

Например, если оценка эффекта препарата на артериальное давление с 95% доверительным интервалом шириной в шесть единиц, а известное стандартное отклонение артериального давления в популяции составляет 15, требуемый размер выборки будет , что будет округлено до 97, поскольку размеры выборки должны быть целыми числами и должны соответствовать или превышать рассчитанное минимальное значение. Понимание этих расчетов необходимо для исследователей, разрабатывающих исследования для точной оценки средних значений популяции в пределах желаемого уровня достоверности. ${\frac {4\times 1.96^{2}\times 15^{2}}{6^{2}}}=96.04$

Требуемые размеры выборки для проверки гипотез

Одна из распространенных проблем, с которой сталкиваются статистики, вращается вокруг задачи расчета размера выборки, необходимого для достижения определенной статистической мощности для теста, при этом сохраняя предопределенный коэффициент ошибок типа I α, который обозначает уровень значимости при проверке гипотез. Он дает определенную мощность для теста, учитывая предопределенный. Как следует из нижеследующего, это можно оценить с помощью предопределенных таблиц для определенных значений, с помощью уравнения ресурсов Мида или, в более общем смысле, с помощью кумулятивной функции распределения :

Таблицы

Таблица, показанная справа, может быть использована в двухвыборочном t-тесте для оценки размеров выборки экспериментальной группы и контрольной группы , которые имеют одинаковый размер, то есть общее число лиц в испытании вдвое больше указанного числа, а желаемый уровень значимости равен 0,05. ^[4] Используемые параметры:

Желаемая статистическая мощность исследования показана в столбце слева.
Коэффициент d Коэна (= размер эффекта), который представляет собой ожидаемую разницу между средними целевыми значениями экспериментальной и контрольной групп , деленную на ожидаемое стандартное отклонение .

Уравнение ресурсов Мида

Уравнение ресурсов Мида часто используется для оценки размеров выборки лабораторных животных , а также во многих других лабораторных экспериментах. Оно может быть не таким точным, как использование других методов оценки размера выборки, но дает подсказку о том, какой размер выборки является подходящим, когда такие параметры, как ожидаемые стандартные отклонения или ожидаемые различия в значениях между группами, неизвестны или их очень трудно оценить. ^[5]

Все параметры в уравнении фактически являются степенями свободы числа их понятий, и, следовательно, их числа вычитаются на 1 перед подстановкой в уравнение.

Уравнение имеет вид: ^[5]

E=N-B-T,

где:

N — общее количество лиц или единиц в исследовании (минус 1)
B — блокирующий компонент , представляющий собой воздействие окружающей среды, допускаемое при проектировании (минус 1)
T — компонент лечения , соответствующий числу используемых групп лечения (включая контрольную группу ) или числу задаваемых вопросов (минус 1)
E — это число степеней свободы компонента ошибки, оно должно быть где-то между 10 и 20.

Например, если исследование с использованием лабораторных животных планируется с четырьмя группами лечения ( T = 3), по восемь животных в каждой группе, что составляет в общей сложности 32 животных ( N = 31), без какой-либо дальнейшей стратификации ( B = 0), то E будет равняться 28, что выше порогового значения 20, что указывает на то, что размер выборки может быть немного большим, и шесть животных в каждой группе могут быть более подходящими. ^[6]

Кумулятивная функция распределения

Пусть X _i , i = 1, 2, ..., n — независимые наблюдения, взятые из нормального распределения с неизвестным средним значением μ и известной дисперсией σ ² . Рассмотрим две гипотезы, нулевую гипотезу :

H_{0}:\mu =0

и альтернативная гипотеза:

H_{a}:\mu =\mu ^{*}

для некоторой «наименьшей значимой разницы» μ ^* > 0. Это наименьшее значение, для которого мы заботимся о наблюдении разницы. Теперь, для (1) отклонения H ₀ с вероятностью не менее 1 − β, когда H _a является истинным (т.е. степенью 1 − β ), и (2) отклонения H ₀ с вероятностью α, когда H ₀ является истинным, необходимо следующее: Если z _α является верхней процентной точкой α стандартного нормального распределения, то

\Pr({\bar {x}}>z_{\alpha }\sigma /{\sqrt {n}}\mid H_{0})=\alpha

и так

'Отвергнуть H ₀ , если наше выборочное среднее ( ) больше, чем '

{\bar {x}}

z_{\alpha }\sigma /{\sqrt {n}}

является правилом принятия решения , которое удовлетворяет (2). (Это односторонний тест.) В таком сценарии достижение этого с вероятностью не менее 1−β, когда альтернативная гипотеза H _a верна, становится обязательным. Здесь выборочное среднее значение происходит из нормального распределения со средним значением μ ^* . Таким образом, требование выражается как:

\Pr({\bar {x}}>z_{\alpha }\sigma /{\sqrt {n}}\mid H_{a})\geq 1-\beta

Путем осторожной манипуляции можно показать (см. Пример статистической мощности ), что это происходит, когда

n\geq \left({\frac {z_{\alpha }+\Phi ^{-1}(1-\beta )}{\mu ^{*}/\sigma }}\right)^{2}

где - нормальная кумулятивная функция распределения . $\Phi$

Размер стратифицированной выборки

При более сложных методах выборки, таких как стратифицированная выборка , выборку часто можно разбить на подвыборки. Обычно, если имеется H таких подвыборок (из H разных страт), то каждая из них будет иметь размер выборки n _h , h = 1, 2, ..., H . Эти n _h должны соответствовать правилу, что n ₁ + n ₂ + ... + n _H = n (т. е. что общий размер выборки определяется суммой размеров подвыборок). Оптимальный выбор этих n _h может быть выполнен различными способами, используя (например) оптимальное распределение Неймана.

Существует много причин использовать стратифицированную выборку: ^[7] для уменьшения дисперсии оценок выборки, для использования частично неслучайных методов или для индивидуального изучения страт. Полезным, частично неслучайным методом было бы выбирать отдельных лиц, где это легкодоступно, но, где это невозможно, выбирать кластеры, чтобы сэкономить на транспортных расходах. ^[8]

В общем случае для страт H средневзвешенное выборочное значение равно

{\bar {x}}_{w}=\sum _{h=1}^{H}W_{h}{\bar {x}}_{h},

\operatorname {Var} ({\bar {x}}_{w})=\sum _{h=1}^{H}W_{h}^{2}\operatorname {Var} ({\bar {x}}_{h}).

^[9]

Веса , часто, но не всегда, представляют собой пропорции элементов популяции в стратах, и . Для фиксированного размера выборки, то есть , $W_{h}$ $W_{h}=N_{h}/N$ $n=\sum n_{h}$

\operatorname {Var} ({\bar {x}}_{w})=\sum _{h=1}^{H}W_{h}^{2}\operatorname {Var} ({\bar {x}}_{h})\left({\frac {1}{n_{h}}}-{\frac {1}{N_{h}}}\right),

^[10]

который можно сделать минимальным, если частоту дискретизации в каждой страте сделать пропорциональной стандартному отклонению в каждой страте: , где и — константа, такая что . $n_{h}/N_{h}=kS_{h}$ $S_{h}={\sqrt {\operatorname {Var} ({\bar {x}}_{h})}}$ $k$ $\sum {n_{h}}=n$

«Оптимальное распределение» достигается, когда частоты выборки в пределах страт прямо пропорциональны стандартным отклонениям в пределах страт и обратно пропорциональны квадратному корню из стоимости выборки на элемент в пределах страт : $C_{h}$

{\frac {n_{h}}{N_{h}}}={\frac {KS_{h}}{\sqrt {C_{h}}}},

^[11]

где — константа такая, что , или, в более общем случае, когда $K$ $\sum {n_{h}}=n$

n_{h}={\frac {K'W_{h}S_{h}}{\sqrt {C_{h}}}}.

^[12]

Качественное исследование

Качественное исследование подходит к определению размера выборки с помощью отличительной методологии, которая отличается от количественных методов. Вместо того, чтобы полагаться на предопределенные формулы или статистические расчеты, оно включает субъективное и итеративное суждение на протяжении всего процесса исследования В качественных исследованиях исследователи часто занимают субъективную позицию, принимая решения по мере развертывания исследования. Определение размера выборки в качественных исследованиях использует другой подход. Это, как правило, субъективное суждение, принимаемое по мере продолжения исследования. ^[13] Один из распространенных подходов заключается в постоянном включении дополнительных участников или материалов до тех пор, пока не будет достигнута точка «насыщения». Насыщение происходит, когда новые участники или данные перестают давать свежие идеи, указывая на то, что исследование адекватно охватило разнообразие точек зрения или опыта в пределах выбранной выборки — насыщение достигнуто. ^[14] Количество, необходимое для достижения насыщения, было исследовано эмпирически. ^[15]^[16]^[17]^[18]

В отличие от количественных исследований, качественные исследования сталкиваются с дефицитом надежных указаний относительно оценки размера выборки до начала исследования. Представьте себе проведение углубленных интервью с людьми, пережившими рак, качественные исследователи могут использовать насыщение данными для определения подходящего размера выборки. Если в течение ряда интервью не появляются новые темы или идеи, насыщение достигнуто, и большее количество интервью может не добавить многого к нашим знаниям об опыте выжившего. Таким образом, вместо того, чтобы следовать предопределенной статистической формуле, концепция достижения насыщения служит динамическим руководством для определения размера выборки в качественном исследовании. Существует недостаток надежных указаний относительно оценки размера выборки до начала исследования, с рядом приведенных предложений. ^[16]^[19]^[20]^[21] В попытке ввести некоторую структуру в процесс определения размера выборки в качественном исследовании был предложен инструмент, аналогичный количественным расчетам мощности. Этот инструмент, основанный на отрицательном биномиальном распределении , особенно подходит для тематического анализа . ^[22]^[21]

Смотрите также

Планирование экспериментов
Пример инженерной поверхности отклика в рамках пошаговой регрессии
Коэн h
Эксплуатационная характеристика приемника

Ссылки

^ NIST / SEMATECH , «7.2.4.2. Требуемые размеры выборки», электронный справочник по статистическим методам.
^ "Вывод для регрессии". utdallas.edu .
^ "Доверительный интервал для пропорции" Архивировано 23 августа 2011 г. на Wayback Machine
^ Глава 13, стр. 215, в: Кенни, Дэвид А. (1987). Статистика для социальных и поведенческих наук . Бостон: Little, Brown. ISBN 978-0-316-48915-7.
^ ab Кирквуд, Джеймс; Роберт Хабрехт (2010). Справочник UFAW по уходу и содержанию лабораторных и других исследовательских животных . Wiley-Blackwell. стр. 29. ISBN 978-1-4051-7523-4.онлайн Страница 29
^ Isogenic.info > Уравнение ресурсов Майкла Ф. В. Фестинга. Обновлено в сентябре 2006 г.
^ Киш (1965, Раздел 3.1)
↑ Киш (1965), стр. 148.
↑ Киш (1965), стр. 78.
↑ Киш (1965), стр. 81.
↑ Киш (1965), стр. 93.
↑ Киш (1965), стр. 94.
^ Санделовски, М. (1995). Размер выборки в качественном исследовании. Исследования в области сестринского дела и здравоохранения , 18, 179–183
^ Glaser, B. (1965). Константный сравнительный метод качественного анализа. Социальные проблемы , 12, 436–445
^ Фрэнсис, Джилл Дж.; Джонстон, Мари; Робертсон, Клэр; Глидуэлл, Лиз; Энтвистл, Викки; Экклс, Мартин П.; Гримшоу, Джереми М. (2010). «Каков адекватный размер выборки? Операционализация насыщения данными для теоретически обоснованных интервью-исследований» (PDF) . Психология и здоровье . 25 (10): 1229–1245. doi :10.1080/08870440903194015. PMID 20204937. S2CID 28152749.
^ ab Гест, Грег; Банс, Арвен; Джонсон, Лора (2006). «Сколько интервью достаточно?». Полевые методы . 18 : 59–82. doi :10.1177/1525822X05279903. S2CID 62237589.
^ Райт, Адам; Малони, Франсин Л.; Фебловиц, Джошуа К. (2011). «Отношение врачей к электронным спискам проблем и их использование: тематический анализ». BMC Medical Informatics and Decision Making . 11 : 36. doi : 10.1186/1472-6947-11-36 . PMC 3120635. PMID 21612639 .
^ Мейсон, Марк (2010). «Размер выборки и насыщенность докторских исследований с использованием качественных интервью». Форум Качественного социального обеспечения . 11 (3): 8.
^ Эммель, Н. (2013). Выборка и отбор случаев в качественном исследовании: реалистичный подход. Лондон: Sage.
^ Онвуегбузи, Энтони Дж.; Лич, Нэнси Л. (2007). «Призыв к качественному анализу мощности». Качество и количество . 41 : 105–121. doi :10.1007/s11135-005-1098-1. S2CID 62179911.
^ ab Fugard AJB; Potts HWW (10 февраля 2015 г.). «Поддержка размышлений о размерах выборок для тематического анализа: количественный инструмент» (PDF) . Международный журнал методологии социальных исследований . 18 (6): 669–684. doi : 10.1080/13645579.2015.1005453 . S2CID 59047474.
^ Гэлвин Р. (2015). Сколько интервью достаточно? Дают ли качественные интервью в исследовании энергопотребления зданий надежные знания? Журнал строительной инженерии, 1:2–12.

Общие ссылки

Бартлетт, Дж. Э. II; Котлик, Дж. В.; Хиггинс, К. (2001). «Организационное исследование: определение подходящего размера выборки для исследования опроса» (PDF) . Журнал информационных технологий, обучения и производительности . 19 (1): 43–50.
Киш, Л. (1965). Выборочное обследование . Wiley. ISBN 978-0-471-48900-9.
Смит, Скотт (8 апреля 2013 г.). «Определение размера выборки: как убедиться, что вы получили правильный размер выборки». Qualtrics . Получено 19 сентября 2018 г. .
Израиль, Гленн Д. (1992). «Определение размера выборки». Университет Флориды, PEOD-6 . Получено 29 июня 2019 г.
Ренс ван де Скут, Милица Миочевич (ред.). 2020. Решения для малых выборок (открытый доступ): руководство для прикладных исследователей и практиков. Routledge.

Дальнейшее чтение

NIST: Выбор размера выборки
ASTM E122-07: Стандартная практика расчета размера выборки для оценки с заданной точностью среднего значения характеристики партии или процесса

Внешние ссылки

Скрипт MATLAB, реализующий формулу размера выборки Кохрана
Калькулятор размера выборки для различных статистических тестов
Стататор для различных статистических тестов