stringtranslate.com

Простая случайная выборка

В статистике простая случайная выборка (или SRS ) — это подмножество людей ( выборка ) , выбранное из большего набора ( популяции ), в котором подмножество людей выбираются случайным образом , все с одинаковой вероятностью. Это процесс отбора выборки случайным образом. В SRS каждая подгруппа из k индивидуумов имеет такую ​​же вероятность быть выбранной для выборки, как и любая другая подгруппа из k индивидуумов. [1] Простая случайная выборка является основным типом выборки и может быть компонентом других, более сложных методов выборки. [2]

Введение

Принцип простой случайной выборки заключается в том, что каждый набор с одинаковым количеством предметов имеет одинаковую вероятность быть выбранным. Например, предположим, что N студентов колледжа хотят получить билет на баскетбольный матч, но для них есть только X < N билетов, поэтому они решают найти честный способ узнать, кто пойдет. Затем каждому дается число в диапазоне от 0 до N -1, и случайные числа генерируются либо в электронном виде, либо из таблицы случайных чисел. Числа вне диапазона от 0 до N -1 игнорируются, как и любые ранее выбранные числа. Первые числа X будут определять счастливых обладателей билетов.

В небольших популяциях, а часто и в крупных, такая выборка обычно осуществляется « без замещения », т. е. сознательно избегают выбора какого-либо члена популяции более одного раза. Хотя вместо этого можно провести простую случайную выборку с заменой, это встречается реже и обычно более полно описывается как простая случайная выборка с заменой . Выборка, выполненная без замены, больше не является независимой, но по-прежнему удовлетворяет возможности обмена , поэтому большинство результатов математической статистики по-прежнему сохраняются. Далее, для небольшой выборки из большой популяции выборка без замещения примерно аналогична выборке с замещением, поскольку вероятность выбора одной и той же особи дважды мала. В учебниках по методологии обследований обычно рассматривается простая случайная выборка без замещения в качестве эталона для расчета относительной эффективности других подходов к выборке. [3]

Беспристрастный случайный отбор людей важен для того, чтобы в случае взятия большого количества выборок средняя выборка точно представляла совокупность. Однако это не гарантирует, что конкретная выборка является идеальным представлением генеральной совокупности. Простая случайная выборка просто позволяет сделать на основе выборки внешне обоснованные выводы обо всей совокупности. Эту концепцию можно расширить, если население представляет собой географическую область. [4] В этом случае актуальными являются рамки территориальной выборки .

Концептуально простая случайная выборка является самым простым из методов вероятностной выборки. Для этого требуется полная основа выборки , которая может быть недоступна или невозможна для создания для больших групп населения. Даже если доступна полная совокупность, более эффективные подходы могут быть возможны, если имеется другая полезная информация о единицах генеральной совокупности.

Преимущества заключаются в том, что он не содержит ошибок классификации и требует минимальных предварительных знаний о совокупности, кроме совокупности. Его простота также позволяет относительно легко интерпретировать данные, собранные таким образом. По этим причинам простая случайная выборка лучше всего подходит для ситуаций, когда имеется не так уж много информации о совокупности и сбор данных может быть эффективно проведен по случайно распределенным элементам, или когда стоимость выборки достаточно мала, чтобы сделать эффективность менее важной, чем простота. Если эти условия не выполняются, лучшим выбором может быть стратифицированная выборка или кластерная выборка .

Связь между простой случайной выборкой и другими методами

Выборка с равной вероятностью (epsem)

Метод выборки, при котором каждая отдельная единица имеет одинаковую вероятность быть выбранной, называется выборкой равной вероятности (сокращенно epsem).

Использование простой случайной выборки всегда приведет к получению эпсема, но не все образцы эпсема являются SRS. Например, если у учителя класс разбит на 5 рядов по 6 столбцов, и она хочет взять случайную выборку из 5 учеников, она может случайным образом выбрать один из 6 столбцов. Это будет образец эпсема, но не все подгруппы из 5 учеников здесь одинаково вероятны, поскольку только те подгруппы, которые расположены в один столбец, имеют право на выбор. Существуют также способы построения многоступенчатой ​​выборки , которые не являются srs, при этом итоговая выборка будет epsem. [5] Например, систематическая случайная выборка создает выборку, в которой каждая отдельная единица имеет одинаковую вероятность включения, но разные наборы единиц имеют разные вероятности быть выбранными.

Выборки, которые являются epsem, являются самовзвешенными , что означает, что обратная вероятность выбора для каждой выборки одинакова.

Различие между систематической случайной выборкой и простой случайной выборкой

Рассмотрим школу с 1000 учениками и предположим, что исследователь хочет выбрать 100 из них для дальнейшего изучения. Все их имена можно было бы положить в корзину, а затем вытащить из нее 100 имен. Мало того, что каждый человек имеет равные шансы быть выбранным, мы также можем легко вычислить вероятность ( P ) того, что данный человек будет выбран, поскольку мы знаем размер выборки ( n ) и популяцию ( N ):

1. В случае, если какое-либо лицо может быть выбрано только один раз (т.е. после отбора лицо исключается из пула отбора):

2. В случае, если любой выбранный человек возвращается в пул отбора (т.е. может быть выбран более одного раза):

Это означает, что каждый ученик школы в любом случае имеет примерно 1 шанс из 10 быть выбранным с помощью этого метода. Кроме того, любая комбинация из 100 студентов имеет одинаковую вероятность выбора.

Если в случайную выборку вводится систематическая закономерность, ее называют «систематической (случайной) выборкой». Примером может служить случай, когда к именам учащихся в школе были прикреплены номера в диапазоне от 0001 до 1000, и мы выбрали случайную отправную точку, например 0533, а затем выбрали каждое 10-е имя после этого, чтобы получить нашу выборку из 100 (начиная с с 0003 после достижения 0993). В этом смысле этот метод аналогичен кластерной выборке, поскольку выбор первой единицы будет определять остаток. Это уже не простая случайная выборка, поскольку некоторые комбинации из 100 учащихся имеют большую вероятность выбора, чем другие – например, {3, 13, 23, ..., 993} имеет вероятность выбора 1/10, а {1 , 2, 3, ..., 100} не могут быть выбраны в этом методе.

Выборка дихотомической совокупности

Если члены популяции бывают трех видов, скажем, «синие», «красные» и «черные», количество красных элементов в выборке заданного размера будет варьироваться в зависимости от выборки и, следовательно, является случайной величиной, распределение которой можно изучить. Это распределение зависит от количества красных и черных элементов в полной популяции. Для простой случайной выборки с заменой распределение является биномиальным . Для простой случайной выборки без замены получается гипергеометрическое распределение . [6]

Алгоритмы

Было разработано несколько эффективных алгоритмов простой случайной выборки. [7] [8] Наивный алгоритм — это пошаговый алгоритм, в котором на каждом шаге мы удаляем элемент на этом шаге из набора с равной вероятностью и помещаем этот элемент в выборку. Продолжаем до тех пор, пока не получим образец нужного размера . Недостаток этого метода в том, что он требует произвольного доступа к множеству.

Алгоритм выбора-отклонения, разработанный Fan et al. в 1962 г. [9] требовалась однократная передача данных; однако это последовательный алгоритм, требующий знания общего количества элементов , чего нет в сценариях потоковой передачи.

Очень простой алгоритм случайной сортировки был доказан Сантером в 1977 году. [10] Алгоритм просто присваивает каждому элементу случайное число, полученное из равномерного распределения, в качестве ключа, затем сортирует все элементы, используя этот ключ, и выбирает самые маленькие элементы.

Дж. Виттер в 1985 г. [11] предложил алгоритмы отбора проб пласта , которые получили широкое распространение. Этот алгоритм не требует предварительного знания размера популяции и использует постоянное пространство.

Случайную выборку также можно ускорить, осуществляя выборку по распределению промежутков между выборками [12] и пропуская промежутки.

Смотрите также

Рекомендации

  1. ^ Йейтс, Дэниел С.; Дэвид С. Мур; Дарен С. Старнс (2008). Практика статистики, 3-е изд . Фримен . ISBN 978-0-7167-7309-2.
  2. ^ Томпсон, Стивен К. (2012). Выборка . Ряд Уайли по вероятности и статистике (3-е изд.). Хобокен, Нью-Джерси: John Wiley & Sons. ISBN 978-1-118-16293-4.
  3. ^ Кокран, Уильям Геммелл (1977). Методы выборки . Ряды Уайли по вероятности и математической статистике (3-е изд.). Нью-Йорк: Уайли. ISBN 978-0-471-16240-7.
  4. ^ Кресси, Ноэль AC (2015). Статистика пространственных данных (пересмотренная ред.). Хобокен, Нью-Джерси: ISBN John Wiley & Sons, Inc. 978-1-119-11517-5.
  5. ^ Питерс, Тим Дж. и Дженни И. Иакус. «Достижение равной вероятности отбора при различных стратегиях случайной выборки». Детская и перинатальная эпидемиология 9.2 (1995): 219-224.
  6. ^ Эш, Роберт Б. (2008). Основная теория вероятностей . Минеола, Нью-Йорк: Dover Publications. ISBN 978-0-486-46628-6. ОКЛК  190785258.
  7. ^ Тилль, Ив; Тилле, Ив (1 января 2006 г.). Алгоритмы выборки — Springer . Серия Спрингера по статистике. дои : 10.1007/0-387-34240-0. ISBN 978-0-387-30814-2.
  8. ^ Мэн, Сянжуй (2013). «Масштабируемая простая случайная выборка и стратифицированная выборка» (PDF) . Материалы 30-й Международной конференции по машинному обучению (ICML-13) : 531–539.
  9. ^ Фан, Коннектикут; Мюллер, Мервин Э.; Резуча, Иван (1962-06-01). «Разработка планов выборочного контроля с использованием методов последовательного (постатейного) отбора и цифровых компьютеров». Журнал Американской статистической ассоциации . 57 (298): 387–402. дои : 10.1080/01621459.1962.10480667. ISSN  0162-1459.
  10. ^ Сантер, AB (1 января 1977 г.). «Список последовательных выборок с равными или неравными вероятностями без замены». Прикладная статистика . 26 (3): 261–268. дои : 10.2307/2346966. JSTOR  2346966.
  11. ^ Виттер, Джеффри С. (1 марта 1985 г.). «Случайный отбор проб из резервуара». АКМ Транс. Математика. Программное обеспечение . 11 (1): 37–57. CiteSeerX 10.1.1.138.784 . дои : 10.1145/3147.3165. ISSN  0098-3500. 
  12. ^ Виттер, Джеффри С. (1 июля 1984 г.). «Более быстрые методы случайной выборки». Коммуникации АКМ . 27 (7): 703–718. CiteSeerX 10.1.1.329.6400 . дои : 10.1145/358105.893. ISSN  0001-0782. 

тот

Внешние ссылки