Определение или оценка размера выборки — это процесс выбора количества наблюдений или повторов для включения в статистическую выборку . Размер выборки является важной характеристикой любого эмпирического исследования, целью которого является сделать выводы о популяции из выборки. На практике размер выборки, используемый в исследовании, обычно определяется на основе стоимости, времени или удобства сбора данных, а также необходимости предоставления достаточной статистической мощности . В сложных исследованиях могут быть выделены разные размеры выборки, например, в стратифицированных опросах или экспериментальных проектах с несколькими группами лечения. В переписи данные ищутся для всей популяции, поэтому предполагаемый размер выборки равен популяции. В экспериментальном дизайне , где исследование может быть разделено на разные группы лечения , могут быть разные размеры выборки для каждой группы.
Размеры выборки можно выбрать несколькими способами:
Определение размера выборки является важнейшим аспектом методологии исследования, который играет важную роль в обеспечении надежности и обоснованности результатов исследования. Чтобы повлиять на точность оценок, мощность статистических тестов и общую надежность результатов исследования, необходимо тщательно выбирать количество участников или точек данных, которые будут включены в исследование.
Рассмотрим случай, когда мы проводим опрос для определения среднего уровня удовлетворенности клиентов новым продуктом. Чтобы определить подходящий размер выборки, нам нужно учесть такие факторы, как желаемый уровень уверенности, погрешность и изменчивость ответов. Мы можем решить, что нам нужен уровень уверенности 95%, то есть мы на 95% уверены, что истинный средний уровень удовлетворенности попадает в расчетный диапазон. Мы также выбираем погрешность ±3%, которая указывает на приемлемый диапазон разницы между нашей оценкой выборки и истинным параметром популяции. Кроме того, у нас может быть некоторое представление об ожидаемой изменчивости уровней удовлетворенности на основе предыдущих данных или предположений.
Большие размеры выборки обычно приводят к повышению точности при оценке неизвестных параметров. Например, чтобы точно определить распространенность патогенной инфекции у определенного вида рыб, предпочтительнее исследовать выборку из 200 рыб, а не из 100. Несколько фундаментальных фактов математической статистики описывают это явление, включая закон больших чисел и центральную предельную теорему .
В некоторых ситуациях увеличение точности для больших размеров выборки минимально или даже отсутствует. Это может быть результатом наличия систематических ошибок или сильной зависимости в данных, или если данные следуют распределению с тяжелым хвостом, или потому, что данные сильно зависимы или смещены.
Размеры выборки могут быть оценены по качеству полученных оценок следующим образом. Обычно они определяются на основе стоимости, времени или удобства сбора данных и необходимости достаточной статистической мощности. Например, если оценивается доля, может потребоваться, чтобы 95% доверительный интервал был менее 0,06 единиц. В качестве альтернативы размер выборки может быть оценен на основе мощности проверки гипотезы. Например, если мы сравниваем поддержку определенного политического кандидата среди женщин с поддержкой этого кандидата среди мужчин, мы можем захотеть иметь 80% мощность для обнаружения разницы в уровнях поддержки в 0,04 единицы.
Сравнительно простая ситуация — оценка пропорции . Это фундаментальный аспект статистического анализа, особенно при оценке распространенности определенной характеристики в популяции. Например, мы можем захотеть оценить долю жителей в сообществе, которым по крайней мере 65 лет.
Оценка пропорции — это , где X — это число «положительных» случаев (например, число людей из n выбранных людей, которым не менее 65 лет). Когда наблюдения независимы , эта оценка имеет (масштабированное) биномиальное распределение (и также является выборочным средним данных из распределения Бернулли ). Максимальная дисперсия этого распределения составляет 0,25, что происходит, когда истинный параметр равен p = 0,5. В практических приложениях, где истинный параметр p неизвестен, максимальная дисперсия часто используется для оценки размера выборки. Если известна разумная оценка для p, то вместо 0,25 можно использовать величину .
По мере того, как размер выборки n становится достаточно большим, распределение будет близко приближаться к нормальному распределению . [1] Используя это и метод Вальда для биномиального распределения , получаем доверительный интервал, где Z представляет собой стандартную Z-оценку для желаемого уровня достоверности (например, 1,96 для 95% доверительного интервала), в форме:
Чтобы определить подходящий размер выборки n для оценки пропорций, можно решить уравнение ниже, где W представляет желаемую ширину доверительного интервала. Полученная формула размера выборки часто применяется с консервативной оценкой p (например, 0,5):
для n , что дает размер выборки
, в случае использования .5 как наиболее консервативной оценки пропорции. (Примечание: W/2 = погрешность .)
На рисунке ниже можно увидеть, как изменяются размеры выборки для биномиальных пропорций с учетом различных уровней достоверности и погрешности.
В противном случае формула будет иметь вид , что дает . Например, при оценке доли населения США, поддерживающего кандидата в президенты, с шириной 95% доверительного интервала в 2 процентных пункта (0,02) требуется размер выборки (1,96) 2 / (0,02 2 ) = 9604, при этом погрешность в этом случае составляет 1 процентный пункт. В этом случае разумно использовать оценку 0,5 для p, поскольку президентские гонки часто близки к 50/50, и также разумно использовать консервативную оценку. Погрешность в этом случае составляет 1 процентный пункт (половина от 0,02).
На практике формула: обычно используется для формирования 95% доверительного интервала для истинной пропорции. Уравнение можно решить относительно n , обеспечив минимальный размер выборки, необходимый для соответствия желаемому пределу погрешности. Вышеизложенное обычно упрощается: [2] [3] n = 4/ W 2 = 1/ B 2 где B — это предельная погрешность оценки, т. е. оценка обычно дается в пределах ± B . Для B = 10% требуется n = 100, для B = 5% требуется n = 400, для B = 3% требование приближается к n = 1000, в то время как для B = 1% требуется размер выборки n = 10000. Эти числа часто цитируются в новостных сообщениях об опросах общественного мнения и других выборочных исследованиях . Однако сообщаемые результаты могут не быть точным значением, поскольку числа предпочтительно округлять. Зная, что значение n представляет собой минимальное количество точек выборки, необходимое для получения желаемого результата, число респондентов должно быть равным или превышать минимум.
Проще говоря, если мы пытаемся оценить среднее время, которое требуется людям, чтобы добраться до работы в городе. Вместо того, чтобы опрашивать все население, вы можете взять случайную выборку из 100 человек, записать их время в пути, а затем вычислить среднее время в пути для этой выборки. Например, человек 1 тратит 25 минут, человек 2 тратит 30 минут, ..., человек 100 тратит 20 минут. Сложите все время в пути и разделите на количество людей в выборке (в данном случае 100). Результат будет вашей оценкой среднего времени в пути для всего населения. Этот метод практичен, когда невозможно измерить всех в популяции, и он дает разумное приближение на основе репрезентативной выборки.
Точно математически, при оценке среднего значения совокупности с использованием независимой и одинаково распределенной (iid) выборки размера n , где каждое значение данных имеет дисперсию σ 2 , стандартная ошибка среднего значения выборки равна:
Это выражение количественно описывает, как оценка становится более точной по мере увеличения размера выборки. Использование центральной предельной теоремы для обоснования аппроксимации выборочного среднего с нормальным распределением дает доверительный интервал вида
Чтобы определить размер выборки n, необходимый для доверительного интервала шириной W, где W/2 является погрешностью по обе стороны от выборочного среднего, уравнение
.
Например, если оценка эффекта препарата на артериальное давление с 95% доверительным интервалом шириной в шесть единиц, а известное стандартное отклонение артериального давления в популяции составляет 15, требуемый размер выборки будет , что будет округлено до 97, поскольку размеры выборки должны быть целыми числами и должны соответствовать или превышать рассчитанное минимальное значение. Понимание этих расчетов необходимо для исследователей, разрабатывающих исследования для точной оценки средних значений популяции в пределах желаемого уровня достоверности.
Одна из распространенных проблем, с которой сталкиваются статистики, вращается вокруг задачи расчета размера выборки, необходимого для достижения заданной статистической мощности для теста, при этом сохраняя заданный коэффициент ошибок типа I α, который обозначает уровень значимости при проверке гипотез. Он дает определенную мощность для теста, учитывая заданный. Как следует из нижеследующего, это можно оценить с помощью заданных таблиц для определенных значений, уравнения ресурсов Мида или, в более общем смысле, с помощью кумулятивной функции распределения :
Таблица, показанная справа, может быть использована в двухвыборочном t-тесте для оценки размеров выборки экспериментальной группы и контрольной группы , которые имеют одинаковый размер, то есть общее число лиц в испытании вдвое больше указанного числа, а желаемый уровень значимости равен 0,05. [4] Используемые параметры:
Уравнение ресурсов Мида часто используется для оценки размеров выборки лабораторных животных , а также во многих других лабораторных экспериментах. Оно может быть не таким точным, как использование других методов оценки размера выборки, но дает подсказку о том, какой размер выборки является подходящим, когда такие параметры, как ожидаемые стандартные отклонения или ожидаемые различия в значениях между группами, неизвестны или их очень трудно оценить. [5]
Все параметры в уравнении фактически являются степенями свободы числа их понятий, и, следовательно, их числа вычитаются на 1 перед подстановкой в уравнение.
Уравнение имеет вид: [5]
где:
Например, если исследование с использованием лабораторных животных планируется с четырьмя группами лечения ( T = 3), по восемь животных в каждой группе, что в сумме составляет 32 животных ( N = 31), без какой-либо дальнейшей стратификации ( B = 0), то E будет равняться 28, что выше порогового значения 20, что указывает на то, что размер выборки может быть немного большим, и шесть животных в каждой группе могут быть более подходящими. [6]
Пусть X i , i = 1, 2, ..., n — независимые наблюдения, взятые из нормального распределения с неизвестным средним значением μ и известной дисперсией σ 2 . Рассмотрим две гипотезы, нулевую гипотезу :
и альтернативная гипотеза:
для некоторой «наименьшей значимой разницы» μ * > 0. Это наименьшее значение, для которого мы заботимся о наблюдении разницы. Теперь, для (1) отклонения H 0 с вероятностью не менее 1 − β, когда H a является истинным (т.е. степенью 1 − β ), и (2) отклонения H 0 с вероятностью α, когда H 0 является истинным, необходимо следующее: Если z α является верхней процентной точкой α стандартного нормального распределения, то
и так
является правилом принятия решения , которое удовлетворяет (2). (Это односторонний тест.) В таком сценарии достижение этого с вероятностью не менее 1−β, когда альтернативная гипотеза H a верна, становится обязательным. Здесь выборочное среднее значение происходит из нормального распределения со средним значением μ * . Таким образом, требование выражается как:
Путем тщательной обработки можно показать (см. Пример статистической мощности ), что это происходит, когда
где - нормальная кумулятивная функция распределения .
При более сложных методах выборки, таких как стратифицированная выборка , выборку часто можно разбить на подвыборки. Обычно, если имеется H таких подвыборок (из H разных страт), то каждая из них будет иметь размер выборки n h , h = 1, 2, ..., H . Эти n h должны соответствовать правилу, что n 1 + n 2 + ... + n H = n (т. е. что общий размер выборки определяется суммой размеров подвыборок). Оптимальный выбор этих n h может быть выполнен различными способами, используя (например) оптимальное распределение Неймана.
Существует много причин использовать стратифицированную выборку: [7] чтобы уменьшить дисперсию оценок выборки, использовать частично неслучайные методы или изучать слои по отдельности. Полезным, частично неслучайным методом было бы выбирать отдельных лиц, где это легкодоступно, но, где это невозможно, выбирать кластеры, чтобы сэкономить на транспортных расходах. [8]
В общем случае для страт H средневзвешенное выборочное значение равно
с
Веса , часто, но не всегда, представляют собой пропорции элементов популяции в стратах, и . Для фиксированного размера выборки, то есть ,
который можно сделать минимальным, если частоту выборки в каждой страте сделать пропорциональной стандартному отклонению в каждой страте: , где и — константа, такая что .
«Оптимальное распределение» достигается, когда частоты выборки в пределах страт прямо пропорциональны стандартным отклонениям в пределах страт и обратно пропорциональны квадратному корню из стоимости выборки на элемент в пределах страт :
где — константа такая, что , или, в более общем случае, когда
Качественное исследование подходит к определению размера выборки с помощью отличительной методологии, которая отличается от количественных методов. Вместо того, чтобы полагаться на предопределенные формулы или статистические расчеты, оно включает субъективное и итеративное суждение на протяжении всего процесса исследования. В качественных исследованиях исследователи часто занимают субъективную позицию, принимая решения по мере развертывания исследования. Определение размера выборки в качественных исследованиях использует другой подход. Это, как правило, субъективное суждение, принимаемое по мере продолжения исследования. [13] Один из распространенных подходов заключается в постоянном включении дополнительных участников или материалов до тех пор, пока не будет достигнута точка «насыщения». Насыщение происходит, когда новые участники или данные перестают давать свежие идеи, указывая на то, что исследование адекватно охватило разнообразие точек зрения или опыта в пределах выбранной выборки — насыщение достигнуто. [14] Количество, необходимое для достижения насыщения, было исследовано эмпирически. [15] [16] [17] [18]
В отличие от количественных исследований, качественные исследования сталкиваются с нехваткой надежных указаний относительно оценки размера выборки до начала исследования. Представьте себе проведение углубленных интервью с людьми, пережившими рак, качественные исследователи могут использовать насыщение данными для определения подходящего размера выборки. Если в течение ряда интервью не появляются новые темы или идеи, насыщение достигнуто, и большее количество интервью может не добавить многого к нашим знаниям об опыте выжившего. Таким образом, вместо того, чтобы следовать предопределенной статистической формуле, концепция достижения насыщения служит динамическим руководством для определения размера выборки в качественном исследовании. Существует нехватка надежных указаний относительно оценки размера выборки до начала исследования, с рядом приведенных предложений. [16] [19] [20] [21] В попытке ввести некоторую структуру в процесс определения размера выборки в качественном исследовании был предложен инструмент, аналогичный количественным расчетам мощности. Этот инструмент, основанный на отрицательном биномиальном распределении , особенно подходит для тематического анализа . [22] [21]