Выборка (статистика)

Визуальное представление процесса отбора проб

В статистике , обеспечении качества и методологии опросов выборка — это выбор подмножества или статистической выборки ( кратко называемой выборкой ) лиц из статистической совокупности для оценки характеристик всей совокупности. Подмножество призвано отражать всю совокупность, и статистики пытаются собрать выборки, которые являются репрезентативными для совокупности. Выборка имеет более низкие затраты и более быстрый сбор данных по сравнению с регистрацией данных всей совокупности, и, таким образом, она может дать представление в случаях, когда невозможно измерить всю совокупность.

Каждое наблюдение измеряет одно или несколько свойств (таких как вес, местоположение, цвет или масса) независимых объектов или индивидуумов. В выборке обследования веса могут применяться к данным для корректировки дизайна выборки, особенно в стратифицированной выборке . ^[1] Результаты теории вероятности и статистической теории используются для руководства практикой. В деловых и медицинских исследованиях выборка широко используется для сбора информации о популяции. ^[2] Приемочная выборка используется для определения того, соответствует ли производственная партия материала регулирующим спецификациям .

История

Случайная выборка с использованием жребия — старая идея, упоминаемая несколько раз в Библии. В 1786 году Пьер Симон Лаплас оценил население Франции, используя выборку, вместе с оценщиком отношения . Он также вычислил вероятностные оценки ошибки. Они были выражены не как современные доверительные интервалы , а как размер выборки, который был бы необходим для достижения определенной верхней границы ошибки выборки с вероятностью 1000/1001. Его оценки использовали теорему Байеса с равномерной априорной вероятностью и предполагали, что его выборка была случайной. Александр Иванович Чупров ввел выборочные обследования в императорской России в 1870-х годах. ^[3]

В США предсказание Literary Digest 1936 года о победе республиканцев на президентских выборах оказалось совершенно неверным из-за серьезной предвзятости [1]. Более двух миллионов человек ответили на исследование, взяв свои имена из списков подписчиков журналов и телефонных справочников. Не было учтено, что эти списки были сильно предвзяты в пользу республиканцев, и полученная выборка, хотя и очень большая, была глубоко ошибочной. ^[4]^[5]

Выборы в Сингапуре приняли эту практику с выборов 2015 года , также известную как выборочный подсчет, тогда как, по данным Департамента по выборам (ELD), избирательной комиссии их страны, выборочный подсчет помогает сократить спекуляции и дезинформацию, одновременно помогая должностным лицам на выборах сверять результаты выборов для этого избирательного округа. Сообщенные выборочные подсчеты дают довольно точный ориентировочный результат с 95% доверительным интервалом при погрешности в пределах 4-5%; ELD напомнил общественности, что выборочный подсчет отделен от официальных результатов, и только должностное лицо, ответственное за выборы, объявит официальные результаты после завершения подсчета голосов. ^[6]^[7]

Определение населения

Успешная статистическая практика основана на целенаправленном определении проблемы. В выборке это включает определение « популяции », из которой взята наша выборка. Популяцию можно определить как включающую всех людей или предметы с характеристиками, которые мы хотим понять. Поскольку очень редко бывает достаточно времени или денег, чтобы собрать информацию обо всех или обо всем в популяции, целью становится поиск репрезентативной выборки (или подмножества) этой популяции.

Иногда то, что определяет популяцию, очевидно. Например, производителю необходимо решить, является ли партия материала, полученного в результате производства , достаточно высокого качества, чтобы быть переданной заказчику, или ее следует отбраковать или переработать из-за низкого качества. В этом случае партия является популяцией.

Хотя интересующая популяция часто состоит из физических объектов, иногда необходимо проводить выборку по времени, пространству или комбинации этих измерений. Например, исследование персонала супермаркета может изучать длину очереди на кассе в разное время, или исследование находящихся под угрозой исчезновения пингвинов может быть направлено на понимание их использования различных охотничьих угодий с течением времени. Для измерения времени фокус может быть сделан на периодах или отдельных случаях.

В других случаях исследуемая «популяция» может быть еще менее осязаемой. Например, Джозеф Джаггер изучал поведение колес рулетки в казино в Монте-Карло и использовал это для выявления предвзятого колеса. В этом случае «популяция», которую Джаггер хотел исследовать, была общим поведением колеса (т. е. распределением вероятностей его результатов в бесконечном количестве испытаний), в то время как его «выборка» была сформирована из наблюдаемых результатов этого колеса. Аналогичные соображения возникают при проведении повторных измерений свойств материалов, таких как электропроводность меди .

Такая ситуация часто возникает при поиске знаний о причинной системе , результатом которой является наблюдаемая популяция. В таких случаях теория выборки может рассматривать наблюдаемую популяцию как выборку из более крупной «суперпопуляции». Например, исследователь может изучать показатель успешности новой программы «бросить курить» на тестовой группе из 100 пациентов, чтобы предсказать эффекты программы, если бы она была доступна по всей стране. Здесь суперпопуляция — это «все в стране, имеющие доступ к этому лечению» — группа, которая еще не существует, поскольку программа еще не доступна всем.

Популяция, из которой взята выборка, может не совпадать с популяцией, из которой требуется информация. Часто между этими двумя группами наблюдается большое, но не полное совпадение из-за проблем с рамками и т. д. (см. ниже). Иногда они могут быть полностью разделены — например, можно изучать крыс, чтобы лучше понять здоровье человека, или можно изучать записи людей, родившихся в 2008 году, чтобы делать прогнозы относительно людей, родившихся в 2009 году.

Время, потраченное на уточнение выборочной совокупности и интересующей совокупности, часто оказывается потраченным не зря, поскольку оно поднимает множество проблем, неясностей и вопросов, которые в противном случае остались бы без внимания на этом этапе.

Рамка выборки

В самом прямолинейном случае, таком как выборка партии материала из производства (приемочный отбор по партиям), было бы наиболее желательно идентифицировать и измерить каждый отдельный элемент в популяции и включить любой из них в нашу выборку. Однако в более общем случае это обычно невозможно или непрактично. Нет способа идентифицировать всех крыс в наборе всех крыс. Там, где голосование не является обязательным, нет способа определить, какие люди будут голосовать на предстоящих выборах (до выборов). Эти неточные популяции не поддаются выборке ни одним из нижеприведенных способов, и к ним мы могли бы применить статистическую теорию.

В качестве средства мы ищем структуру выборки , которая обладает свойством, что мы можем идентифицировать каждый отдельный элемент и включить любой в нашу выборку. ^[8]^[9]^[10]^[11] Самый простой тип структуры — это список элементов населения (предпочтительно всего населения) с соответствующей контактной информацией. Например, в опросе общественного мнения возможные структуры выборки включают избирательный реестр и телефонный справочник .

Вероятностная выборка — это выборка, в которой каждая единица в популяции имеет шанс (больше нуля) быть выбранной в выборку, и эта вероятность может быть точно определена. Сочетание этих признаков позволяет производить непредвзятые оценки общей численности популяции, взвешивая выбранные единицы в соответствии с вероятностью их выбора.

Пример: Мы хотим оценить общий доход взрослых, живущих на данной улице. Мы посещаем каждое домохозяйство на этой улице, определяем всех взрослых, живущих там, и случайным образом выбираем одного взрослого из каждого домохозяйства. (Например, мы можем назначить каждому человеку случайное число, сгенерированное из равномерного распределения от 0 до 1, и выбрать человека с самым высоким числом в каждом домохозяйстве). Затем мы опрашиваем выбранного человека и определяем его доход.
Люди, живущие самостоятельно, определенно будут выбраны, поэтому мы просто добавляем их доход к нашей оценке общей суммы. Но человек, живущий в домохозяйстве из двух взрослых, имеет только один шанс из двух быть выбранным. Чтобы отразить это, когда мы приходим к такому домохозяйству, мы бы дважды учитывали доход выбранного человека в общей сумме. (Человека, выбранного из этого домохозяйства, можно свободно рассматривать как также представляющего человека, который не был выбран.)

В приведенном выше примере не у всех одинаковая вероятность отбора; то, что делает выборку вероятностной, — это тот факт, что вероятность каждого человека известна. Когда каждый элемент в популяции имеет одинаковую вероятность отбора, это известно как дизайн «равной вероятности отбора» (EPS). Такие дизайны также называются «самовзвешивающимися», потому что всем выбранным единицам присваивается одинаковый вес.

Вероятностная выборка включает: простую случайную выборку , систематическую выборку , стратифицированную выборку , выборку, пропорциональную размеру вероятности, и кластерную или многоступенчатую выборку . Эти различные способы вероятностной выборки имеют две общие черты:

Каждый элемент имеет известную ненулевую вероятность быть выбранным и
предполагает случайный выбор в какой-то момент.

Невероятностная выборка

Невероятностная выборка — это любой метод выборки, при котором некоторые элементы совокупности не имеют шансов на выборку (их иногда называют «вне охвата»/«недоохваченными»), или при котором вероятность выбора не может быть точно определена. Он включает выборку элементов на основе предположений относительно интересующей совокупности, которая формирует критерии отбора. Следовательно, поскольку выборка элементов неслучайна, невероятностная выборка не позволяет оценить ошибки выборки. Эти условия приводят к смещению исключения , накладывая ограничения на то, сколько информации может предоставить выборка о совокупности. Информация о связи между выборкой и совокупностью ограничена, что затрудняет экстраполяцию из выборки на совокупность.

Пример: Мы посещаем каждое домохозяйство на данной улице и опрашиваем первого человека, который откроет дверь. В любом домохозяйстве с более чем одним жильцом это невероятностная выборка, потому что некоторые люди с большей вероятностью откроют дверь (например, безработный, который проводит большую часть времени дома, с большей вероятностью откроет, чем работающий сосед по дому, который может быть на работе, когда звонит интервьюер), и нецелесообразно рассчитывать эти вероятности.

Методы выборки без вероятности включают в себя выборку удобства , выборку квот и преднамеренную выборку . Кроме того, эффекты отсутствия ответа могут превратить любой вероятностный дизайн в дизайн без вероятности, если характеристики отсутствия ответа не очень хорошо поняты, поскольку отсутствие ответа эффективно изменяет вероятность каждого элемента быть выбранным.

Методы отбора проб

В рамках любого из типов фреймов, указанных выше, можно использовать различные методы выборки по отдельности или в сочетании. Факторы, обычно влияющие на выбор между этими конструкциями, включают:

Характер и качество кадра
Наличие вспомогательной информации об агрегатах на раме
Требования к точности и необходимость измерения точности
Ожидается ли детальный анализ образца
Проблемы стоимости/эксплуатации

Простая случайная выборка

Визуальное представление выбора простой случайной выборки

В простой случайной выборке (SRS) заданного размера все подмножества выборочной рамки имеют равную вероятность быть выбранными. Таким образом, каждый элемент рамки имеет равную вероятность выбора: рамка не подразделяется и не разделяется. Более того, любая заданная пара элементов имеет тот же шанс выбора, что и любая другая такая пара (и аналогично для троек и т. д.). Это минимизирует смещение и упрощает анализ результатов. В частности, дисперсия между отдельными результатами в пределах выборки является хорошим индикатором дисперсии в общей популяции, что позволяет относительно легко оценить точность результатов.

Простая случайная выборка может быть уязвима к ошибке выборки, поскольку случайность отбора может привести к выборке, которая не отражает состав населения. Например, простая случайная выборка из десяти человек из данной страны в среднем даст пять мужчин и пять женщин, но любое данное испытание, скорее всего, будет перепредставлять один пол и недопредставлять другой. Систематические и стратифицированные методы пытаются преодолеть эту проблему, «используя информацию о населении» для выбора более «репрезентативной» выборки.

Кроме того, простая случайная выборка может быть громоздкой и утомительной при выборке из большой целевой популяции. В некоторых случаях исследователи интересуются исследовательскими вопросами, специфичными для подгрупп популяции. Например, исследователи могут быть заинтересованы в изучении того, применимы ли когнитивные способности как предиктор производительности труда в равной степени к расовым группам. Простая случайная выборка не может удовлетворить потребности исследователей в этой ситуации, поскольку она не обеспечивает подвыборки популяции, и вместо этого можно использовать другие стратегии выборки, такие как стратифицированная выборка.

Систематическая выборка

Визуальное представление процесса отбора случайной выборки с использованием метода систематической выборки

Систематическая выборка (также известная как интервальная выборка) основана на организации изучаемой совокупности в соответствии с некоторой схемой упорядочения и последующем выборе элементов через регулярные интервалы через этот упорядоченный список. Систематическая выборка включает в себя случайное начало и затем продолжается выбором каждого k -го элемента с этого момента. В этом случае k = (размер совокупности/размер выборки). Важно, чтобы начальная точка не была автоматически первой в списке, а вместо этого выбиралась случайным образом из первого по k -й элемент в списке. Простым примером может служить выбор каждого 10-го имени из телефонного справочника (выборка «каждой 10-й», также называемая «выборкой с пропуском 10»).

Пока начальная точка рандомизирована , систематическая выборка является типом вероятностной выборки . Ее легко реализовать, а вызванная стратификация может сделать ее эффективной, если переменная, по которой упорядочен список, коррелирует с интересующей переменной. Выборка «Каждый 10-й» особенно полезна для эффективной выборки из баз данных .

Например, предположим, что мы хотим сделать выборку людей с длинной улицы, которая начинается в бедном районе (дом № 1) и заканчивается в дорогом районе (дом № 1000). Простой случайный выбор адресов с этой улицы может легко закончиться слишком большим количеством с высокого конца и слишком малым с низкого конца (или наоборот), что приведет к нерепрезентативной выборке. Выбор (например) каждого 10-го номера улицы вдоль улицы гарантирует, что выборка будет равномерно распределена по длине улицы, представляя все эти районы. (Если мы всегда начинаем с дома № 1 и заканчиваем на № 991, выборка будет слегка смещена в сторону низкого конца; при случайном выборе начала между № 1 и № 10 это смещение устраняется.)

Однако систематическая выборка особенно уязвима к периодичности в списке. Если периодичность присутствует и период является кратным или фактором используемого интервала, выборка, скорее всего, будет нерепрезентативной для всей совокупности, что делает схему менее точной, чем простая случайная выборка.

Например, рассмотрим улицу, где все нечетные дома находятся на северной (дорогой) стороне дороги, а все четные дома находятся на южной (дешевой) стороне. При схеме выборки, приведенной выше, невозможно получить репрезентативную выборку; либо все выбранные дома будут с нечетной, дорогой стороны, либо все они будут с четной, дешевой стороны, если только исследователь не знает об этом смещении заранее и не избегает его, используя пропуск, который обеспечивает переход между двумя сторонами (любой пропуск нечетного номера).

Другим недостатком систематической выборки является то, что даже в сценариях, где она точнее, чем SRS, ее теоретические свойства затрудняют количественную оценку этой точности. (В двух приведенных выше примерах систематической выборки большая часть потенциальной ошибки выборки обусловлена различиями между соседними домами, но поскольку этот метод никогда не выбирает два соседних дома, выборка не даст нам никакой информации об этих различиях.)

Как описано выше, систематическая выборка является методом EPS, поскольку все элементы имеют одинаковую вероятность выбора (в приведенном примере один из десяти). Это не «простая случайная выборка», поскольку различные подмножества одинакового размера имеют разные вероятности выбора – например, набор {4,14,24,...,994} имеет вероятность выбора один из десяти, но набор {4,13,24,34,...} имеет нулевую вероятность выбора.

Систематическую выборку также можно адаптировать к подходу, не основанному на EPS; в качестве примера см. обсуждение выборок PPS ниже.

Стратифицированная выборка

Визуальное представление процесса формирования случайной выборки с использованием метода стратифицированной выборки

Когда совокупность охватывает ряд отдельных категорий, фрейм может быть организован этими категориями в отдельные «страты». Затем каждая страта выбирается как независимая подгруппа, из которой могут быть случайным образом выбраны отдельные элементы. ^[8] Отношение размера этой случайной выборки (или выборки) к размеру совокупности называется выборочной фракцией . ^[12] Существует несколько потенциальных преимуществ стратифицированной выборки. ^[12]

Во-первых, разделение населения на отдельные независимые слои может позволить исследователям сделать выводы о конкретных подгруппах, которые могут быть потеряны в более обобщенной случайной выборке.

Во-вторых, использование метода стратифицированной выборки может привести к более эффективным статистическим оценкам (при условии, что слои выбираются на основе релевантности рассматриваемому критерию, а не доступности образцов). Даже если подход стратифицированной выборки не приводит к повышению статистической эффективности, такая тактика не приведет к меньшей эффективности, чем простая случайная выборка, при условии, что каждый слой пропорционален размеру группы в популяции.

В-третьих, иногда бывает так, что данные более доступны для отдельных, уже существующих слоев в пределах популяции, чем для популяции в целом; в таких случаях использование подхода стратифицированной выборки может быть более удобным, чем агрегирование данных по группам (хотя это может потенциально противоречить ранее отмеченной важности использования слоев, соответствующих критериям).

Наконец, поскольку каждая страта рассматривается как независимая популяция, к разным стратам могут применяться различные подходы к выборке, что потенциально позволяет исследователям использовать наиболее подходящий (или наиболее экономически эффективный) подход для каждой идентифицированной подгруппы в популяции.

Однако существуют некоторые потенциальные недостатки использования стратифицированной выборки. Во-первых, определение страт и реализация такого подхода могут увеличить стоимость и сложность отбора выборки, а также привести к повышению сложности оценок популяции. Во-вторых, при изучении нескольких критериев стратифицирующие переменные могут быть связаны с некоторыми, но не с другими, что еще больше усложняет дизайн и потенциально снижает полезность страт. Наконец, в некоторых случаях (например, дизайны с большим количеством страт или с указанным минимальным размером выборки на группу) стратифицированная выборка может потенциально потребовать большей выборки, чем другие методы (хотя в большинстве случаев требуемый размер выборки будет не больше, чем требуется для простой случайной выборки).

Метод стратифицированной выборки наиболее эффективен при соблюдении трех условий:

Изменчивость внутри слоев сведена к минимуму
Изменчивость между слоями максимальна
Переменные, по которым стратифицируется популяция, сильно коррелируют с желаемой зависимой переменной.

Преимущества перед другими методами отбора проб

Сосредоточение внимания на важных субпопуляциях и игнорирование нерелевантных.
Позволяет использовать различные методы выборки для разных субпопуляций.
Повышает точность/эффективность оценки.
Позволяет лучше сбалансировать статистическую мощность тестов различий между стратами за счет выборки равных чисел из страт, сильно различающихся по размеру.

Недостатки

Требует выбора соответствующих переменных стратификации, что может оказаться затруднительным.
Бесполезен, когда нет однородных подгрупп.
Реализация может оказаться дорогостоящей.

Постстратификация

Иногда стратификация вводится после фазы выборки в процессе, называемом «постстратификацией». ^[8] Этот подход обычно реализуется из-за отсутствия предварительных знаний о соответствующей стратифицирующей переменной или когда у экспериментатора нет необходимой информации для создания стратифицирующей переменной во время фазы выборки. Хотя метод подвержен подводным камням подходов post hoc, он может обеспечить несколько преимуществ в правильной ситуации. Реализация обычно следует за простой случайной выборкой. В дополнение к возможности стратификации по вспомогательной переменной, постстратификацию можно использовать для реализации взвешивания, что может повысить точность оценок выборки. ^[8]

Передискретизация

Выборка на основе выбора является одной из стратегий стратифицированной выборки. В выборке на основе выбора ^[13] данные стратифицируются по цели, и из каждой страты берется выборка, так что редкий целевой класс будет более представлен в выборке. Затем модель строится на этой смещенной выборке . Влияние входных переменных на цель часто оценивается с большей точностью с помощью выборки на основе выбора, даже если берется меньший общий размер выборки по сравнению со случайной выборкой. Результаты обычно должны быть скорректированы для исправления избыточной выборки.

Выборка с вероятностью, пропорциональной размеру

В некоторых случаях разработчик выборки имеет доступ к «вспомогательной переменной» или «мере размера», которая, как считается, коррелирует с интересующей переменной для каждого элемента в популяции. Эти данные могут быть использованы для повышения точности в разработке выборки. Одним из вариантов является использование вспомогательной переменной в качестве основы для стратификации, как обсуждалось выше.

Другим вариантом является выборка, пропорциональная вероятности размеру ('PPS'), в которой вероятность выбора для каждого элемента устанавливается пропорциональной мере его размера, вплоть до максимума 1. В простом дизайне PPS эти вероятности выбора затем могут быть использованы в качестве основы для выборки Пуассона . Однако это имеет недостаток переменного размера выборки, и различные части популяции могут быть по-прежнему пере- или недопредставлены из-за случайных колебаний в выборках.

Систематическая теория выборки может быть использована для создания вероятности, пропорциональной размеру выборки. Это делается путем обработки каждого счета в пределах переменной размера как одной единицы выборки. Затем выборки идентифицируются путем выбора с равными интервалами среди этих счетов в пределах переменной размера. Этот метод иногда называют PPS-последовательным или выборкой денежной единицы в случае аудита или судебной выборки.

Пример: Предположим, у нас есть шесть школ с численностью населения 150, 180, 200, 220, 260 и 490 учеников соответственно (всего 1500 учеников), и мы хотим использовать численность населения в качестве основы для выборки PPS размером три. Для этого мы могли бы присвоить первой школе номера от 1 до 150, второй школе от 151 до 330 (= 150 + 180), третьей школе от 331 до 530 и так далее до последней школы (от 1011 до 1500). Затем мы генерируем случайное начало от 1 до 500 (равное 1500/3) и подсчитываем численность населения школ кратно 500. Если бы наше случайное начало было 137, мы бы выбрали школы, которым были присвоены номера 137, 637 и 1137, т. е. первую, четвертую и шестую школы.

Подход PPS может повысить точность для заданного размера выборки, концентрируя выборку на крупных элементах, которые оказывают наибольшее влияние на оценки совокупности. Выборка PPS обычно используется для обследований предприятий, где размер элемента сильно варьируется и часто доступна вспомогательная информация — например, обследование, пытающееся измерить количество ночей, проведенных гостями в отелях, может использовать количество номеров в каждом отеле в качестве вспомогательной переменной. В некоторых случаях более старое измерение интересующей переменной может использоваться в качестве вспомогательной переменной при попытке получения более актуальных оценок. ^[14]

Кластерная выборка

Визуальное представление процесса отбора случайной выборки с использованием метода кластерной выборки

Иногда экономически более эффективно отбирать респондентов группами («кластерами»). Выборка часто группируется по географическому признаку или по временным периодам. (Почти все выборки в некотором смысле «кластеризованы» по времени, хотя это редко учитывается при анализе.) Например, при опросе домохозяйств в городе мы можем выбрать 100 городских кварталов, а затем опросить каждое домохозяйство в выбранных кварталах.

Кластеризация может сократить расходы на поездки и административные расходы. В приведенном выше примере интервьюер может совершить одну поездку, чтобы посетить несколько домохозяйств в одном квартале, вместо того, чтобы ехать в разные кварталы для каждого домохозяйства.

Это также означает, что не нужна выборочная структура , перечисляющая все элементы целевой популяции. Вместо этого кластеры можно выбирать из кластерной структуры, при этом элементная структура создается только для выбранных кластеров. В приведенном выше примере выборке требуется только карта города на уровне кварталов для начального выбора, а затем карта домохозяйств на уровне 100 выбранных кварталов, а не карта домохозяйств всего города.

Кластерная выборка (также известная как кластеризованная выборка) обычно увеличивает изменчивость оценок выборки по сравнению с простой случайной выборкой, в зависимости от того, как кластеры отличаются друг от друга по сравнению с внутрикластерной вариацией. По этой причине кластерная выборка требует большей выборки, чем SRS, для достижения того же уровня точности, но экономия затрат за счет кластеризации все равно может сделать этот вариант более дешевым.

Кластерная выборка обычно реализуется как многоступенчатая выборка . Это сложная форма кластерной выборки, в которой два или более уровней единиц вложены друг в друга. Первый этап состоит из построения кластеров, которые будут использоваться для выборки. На втором этапе выборка первичных единиц случайным образом выбирается из каждого кластера (вместо того, чтобы использовать все единицы, содержащиеся во всех выбранных кластерах). На следующих этапах в каждом из этих выбранных кластеров выбираются дополнительные выборки единиц и так далее. Затем обследуются все конечные единицы (например, индивидуумы), выбранные на последнем этапе этой процедуры. Таким образом, этот метод по сути является процессом взятия случайных подвыборок из предыдущих случайных выборок.

Многоступенчатая выборка может существенно снизить затраты на выборку, когда необходимо составить полный список населения (до того, как можно будет применить другие методы выборки). Устраняя работу, связанную с описанием кластеров, которые не были выбраны, многоступенчатая выборка может снизить большие затраты, связанные с традиционной кластерной выборкой. ^[14] Однако каждая выборка может не быть полностью репрезентативной для всей популяции.

Квота выборки

В квотной выборке население сначала сегментируется на взаимоисключающие подгруппы, как и в стратифицированной выборке . Затем суждение используется для выбора субъектов или единиц из каждого сегмента на основе указанной пропорции. Например, интервьюеру может быть поручено сделать выборку из 200 женщин и 300 мужчин в возрасте от 45 до 60 лет.

Именно этот второй шаг делает метод методом неслучайной выборки. В квотной выборке отбор выборки не случаен . Например, интервьюеры могут поддаться искушению взять интервью у тех, кто выглядит наиболее полезным. Проблема в том, что эти выборки могут быть предвзятыми, поскольку не у всех есть шанс быть выбранными. Этот случайный элемент является его самой большой слабостью, и квота против вероятности была предметом споров в течение нескольких лет.

Минимаксная выборка

В несбалансированных наборах данных, где отношение выборки не следует статистике популяции, можно повторно выбрать набор данных консервативным способом, называемым минимаксной выборкой . Минимаксная выборка берет свое начало в минимаксном отношении Андерсона , значение которого, как доказано, равно 0,5: в бинарной классификации размеры выборки класса должны выбираться одинаково. Можно доказать, что это отношение является минимаксным отношением только при условии использования классификатора LDA с гауссовыми распределениями. Понятие минимаксной выборки недавно было разработано для общего класса правил классификации, называемых интеллектуальными классификаторами по классам. В этом случае отношение выборки классов выбирается таким образом, чтобы наихудшая ошибка классификатора по всем возможным статистикам популяции для априорных вероятностей класса была наилучшей. ^[12]

Случайная выборка

Случайная выборка (иногда называемая выборкой по принципу «хват» , выборкой по принципу «удобство» или «возможность» ) — это тип невероятностной выборки, при которой выборка формируется из той части населения, которая находится под рукой. То есть, выборка выбирается, потому что она легкодоступна и удобна. Это может быть сделано путем встречи с человеком или включения человека в выборку при встрече с ним или путем поиска его с помощью технологических средств, таких как Интернет или по телефону. Исследователь, использующий такую выборку, не может делать научные обобщения относительно всей популяции из этой выборки, поскольку она будет недостаточно репрезентативной. Например, если бы интервьюер проводил такой опрос в торговом центре рано утром в определенный день, люди, которых он мог бы опросить, были бы ограничены теми, кто был там в это определенное время, что не отражало бы взгляды других членов общества в таком районе, если бы опрос проводился в разное время дня и несколько раз в неделю. Этот тип выборки наиболее полезен для пилотного тестирования. Несколько важных соображений для исследователей, использующих выборки по принципу «удобство», включают в себя:

Существуют ли элементы управления в рамках исследовательского проекта или эксперимента, которые могут помочь уменьшить влияние неслучайной выборки, гарантируя тем самым, что результаты будут более репрезентативными для популяции?
Есть ли веские основания полагать, что конкретная удобная выборка будет или должна реагировать или вести себя иначе, чем случайная выборка из той же популяции?
Можно ли на вопрос, заданный в ходе исследования, дать адекватный ответ с помощью удобной выборки?

В социальных исследованиях снежный ком является похожим методом, где существующие субъекты исследования используются для набора большего количества субъектов в выборку. Некоторые варианты снежного кома, такие как выборка, управляемая респондентами, позволяют вычислять вероятности отбора и являются методами вероятностной выборки при определенных условиях.

Добровольная выборка

Метод добровольной выборки — это тип невероятностной выборки. Добровольцы выбирают заполнение опроса.

Добровольцы могут быть приглашены через рекламу в социальных сетях. ^[15] Целевая группа для рекламы может быть выбрана по таким характеристикам, как местоположение, возраст, пол, доход, род занятий, образование или интересы, с использованием инструментов, предоставляемых социальной средой. Реклама может включать сообщение об исследовании и ссылку на опрос. После перехода по ссылке и завершения опроса доброволец отправляет данные для включения в выборочную совокупность. Этот метод может охватить глобальную совокупность, но ограничен бюджетом кампании. Добровольцы за пределами приглашенной совокупности также могут быть включены в выборку.

Трудно делать обобщения на основе этой выборки, поскольку она может не представлять всю популяцию. Часто волонтеры проявляют сильный интерес к основной теме опроса.

Выборка пересечения линии

Метод выборки пересечения линий представляет собой метод выборки элементов в регионе, при котором элемент выбирается, если выбранный сегмент линии, называемый «трансектой», пересекает элемент.

Панельная выборка

Панельная выборка — это метод, при котором сначала отбирают группу участников методом случайной выборки, а затем запрашивают у этой группы (потенциально одну и ту же) информацию несколько раз в течение определенного периода времени. Поэтому каждый участник опрашивается в двух или более временных точках; каждый период сбора данных называется «волной». Метод был разработан социологом Полом Лазарсфельдом в 1938 году как средство изучения политических кампаний . ^[16] Этот метод продольной выборки позволяет оценивать изменения в популяции, например, в отношении хронических заболеваний, стресса на работе и еженедельных расходов на питание. Панельная выборка также может использоваться для информирования исследователей об изменениях здоровья человека из-за возраста или для объяснения изменений в непрерывных зависимых переменных, таких как супружеское взаимодействие. ^[17] Было предложено несколько методов анализа панельных данных , включая MANOVA , кривые роста и моделирование структурных уравнений с отложенными эффектами.

Выборка методом снежного кома

Выборка методом «снежного кома» предполагает поиск небольшой группы первоначальных респондентов и использование их для набора большего количества респондентов. Это особенно полезно в случаях, когда население скрыто или его трудно подсчитать.

Теоретическая выборка

Теоретическая выборка ^[18] происходит, когда выборки выбираются на основе результатов данных, собранных до сих пор, с целью разработки более глубокого понимания области или разработки теорий. Первоначальная общая выборка сначала собирается с целью исследования общих тенденций, где дальнейшая выборка может состоять из экстремальных или очень специфических случаев, которые могут быть выбраны для того, чтобы максимизировать вероятность того, что явление действительно будет наблюдаемым.

Активная выборка

При активной выборке образцы, которые используются для обучения алгоритма машинного обучения, отбираются активно, также сравните активное обучение (машинное обучение) .

Выбор на основе суждений

Выборка на основе суждений — это тип неслучайной выборки, при котором образцы формируются на основе мнения эксперта, который может выбирать участников на основе того, насколько ценной является предоставленная ими информация.

Случайная выборка

Случайная выборка относится к идее использования человеческого суждения для имитации случайности. Несмотря на то, что выборки отбираются вручную, цель состоит в том, чтобы гарантировать отсутствие сознательной предвзятости при выборе образцов, но часто терпит неудачу из-за смещения отбора . ^[19] Случайная выборка обычно выбирается из-за ее удобства, когда инструменты или возможности для выполнения других методов выборки могут отсутствовать.

Замена выбранных единиц

Схемы отбора проб могут быть без замены («WOR» — ни один элемент не может быть выбран более одного раза в одном образце) или с заменой («WR» — элемент может появляться несколько раз в одном образце). Например, если мы ловим рыбу, измеряем ее и немедленно возвращаем в воду, прежде чем продолжить работу с образцом, это схема WR, потому что мы можем поймать и измерить одну и ту же рыбу более одного раза. Однако, если мы не возвращаем рыбу в воду или не помечаем и не отпускаем каждую рыбу после поимки, это становится схемой WOR.

Определение размера выборки

Формулы, таблицы и графики степенных функций — хорошо известные подходы к определению размера выборки.

Шаги по использованию таблиц размеров выборки:

Постулируйте интересующую нас величину эффекта α и β.
Проверьте таблицу размеров выборки ^[20]
1. Выберите таблицу, соответствующую выбранному α
2. Найдите строку, соответствующую желаемой мощности.
3. Найдите столбец, соответствующий предполагаемому размеру эффекта.
4. Пересечение столбца и строки представляет собой минимальный требуемый размер выборки.

Отбор проб и сбор данных

Хороший сбор данных включает в себя:

Следуя определенному процессу отбора проб
Поддержание данных в порядке времени
Отмечайте комментарии и другие контекстные события
Регистрация неответов

Применение отбора проб

Выборка позволяет выбирать правильные точки данных из более крупного набора данных для оценки характеристик всей популяции. Например, каждый день создается около 600 миллионов твитов. Не обязательно просматривать все из них, чтобы определить темы, которые обсуждаются в течение дня, и не обязательно просматривать все твиты, чтобы определить настроения по каждой из тем. Была разработана теоретическая формулировка для выборки данных Twitter. ^[21]

В производстве различные типы сенсорных данных, такие как акустика, вибрация, давление, ток, напряжение и данные контроллера, доступны в короткие промежутки времени. Для прогнозирования простоя может не быть необходимости просматривать все данные, но выборка может быть достаточной.

Ошибки в выборочных обследованиях

Результаты опроса обычно подвержены некоторой ошибке. Общие ошибки можно разделить на ошибки выборки и ошибки невыборки. Термин «ошибка» здесь включает систематические смещения, а также случайные ошибки.

Ошибки и смещения выборки

Ошибки и смещения выборки вызваны дизайном выборки. Они включают:

Смещение отбора : когда истинные вероятности отбора отличаются от предполагаемых при расчете результатов.
Случайная ошибка выборки : Случайное отклонение результатов из-за случайного выбора элементов в выборке.

Ошибка выборки

Ошибки невыборки — это другие ошибки, которые могут повлиять на окончательные оценки обследования, вызванные проблемами в сборе данных, обработке или дизайне выборки. Такие ошибки могут включать:

Избыточный охват: включение данных извне населения
Недостаточный охват: выборочная совокупность не включает элементы генеральной совокупности.
Ошибка измерения: например, когда респонденты неправильно понимают вопрос или затрудняются ответить.
Ошибка обработки: ошибки в кодировании данных
Ошибка неответа или участия : невозможность получить полные данные от всех выбранных лиц.

После отбора проб проводится проверка точного процесса отбора проб, а не того, который предполагался, с целью изучения любых последствий, которые могут иметь отклонения для последующего анализа.

Конкретная проблема связана с отсутствием ответа . Существует два основных типа отсутствия ответа: ^[22]^[23]

единичный неответ (незавершение какой-либо части опроса)
отсутствие ответа на пункт (отправка или участие в опросе, но невыполнение одного или нескольких компонентов/вопросов опроса)

В выборке опроса многие из лиц, определенных как часть выборки, могут не желать участвовать, не иметь времени для участия ( издержки упущенной возможности ) ^[24] или администраторы опроса не смогли связаться с ними. В этом случае существует риск различий между респондентами и нереспондентами, что приводит к смещенным оценкам параметров популяции. Это часто решается путем улучшения дизайна опроса, предложения стимулов и проведения последующих исследований, которые делают повторную попытку связаться с неответившими и охарактеризовать их сходства и различия с остальной частью фрейма. ^[25] Эффекты также можно смягчить путем взвешивания данных (когда доступны контрольные показатели популяции) или путем вменения данных на основе ответов на другие вопросы. Неответы являются особенно проблемой в интернет-выборке. Причинами этой проблемы могут быть неправильно разработанные опросы, ^[23] чрезмерное количество опросов (или усталость от опросов), ^[17]^[26]^{[ нужна цитата для проверки ]} и тот факт, что потенциальные участники могут иметь несколько адресов электронной почты, которые они больше не используют или не проверяют регулярно.

Веса обследования

Во многих ситуациях доля выборки может варьироваться в зависимости от слоя, и данные должны быть взвешены для правильного представления населения. Так, например, простая случайная выборка людей в Соединенном Королевстве может не включать некоторых людей с отдаленных шотландских островов, выборка которых была бы чрезмерно дорогой. Более дешевым методом было бы использование стратифицированной выборки с городскими и сельскими слоями. Сельская выборка может быть недостаточно представлена в выборке, но взвешена соответствующим образом в анализе для компенсации.

В более общем плане данные обычно следует взвешивать, если дизайн выборки не дает каждому человеку равные шансы быть выбранным. Например, когда домохозяйства имеют равные вероятности выбора, но один человек опрашивается из каждого домохозяйства, это дает людям из больших домохозяйств меньшие шансы быть опрошенными. Это можно учесть с помощью весов обследования. Аналогично, домохозяйства с более чем одной телефонной линией имеют больше шансов быть выбранными в выборке случайного набора цифр, и веса могут это скорректировать.

Веса могут также служить другим целям, например, помогать корректировать отсутствие ответа.

Методы получения случайных выборок

Таблица случайных чисел
Математические алгоритмы для генераторов псевдослучайных чисел
Физические устройства рандомизации, такие как монеты, игральные карты или сложные устройства, такие как ERNIE

Смотрите также

На Викискладе есть медиафайлы по теме Выборка (статистика) .

Примечания

В учебнике Гроувса и др. представлен обзор методологии опроса, включая недавнюю литературу по разработке анкет (на основе когнитивной психологии ):

Роберт Гроувс и др. Методика опроса (2-е изд. 2010 г. [2004 г.]) ISBN 0-471-48348-6 .

Другие книги посвящены статистической теории выборочного обследования и требуют определенных знаний основ статистики, как обсуждается в следующих учебниках:

Дэвид С. Мур и Джордж П. Маккейб (февраль 2005 г.). « Введение в практику статистики » (5-е издание). WH Freeman & Company. ISBN 0-7167-6282-X .
Фридман, Дэвид ; Пизани, Роберт; Первс, Роджер (2007). Статистика (4-е изд.). Нью-Йорк: Нортон . ISBN 978-0-393-92972-0.

В элементарной книге Шеффера и др. используются квадратные уравнения из курса алгебры средней школы:

Шеффер, Ричард Л., Уильям Менденхал и Р. Лайман Отт. Элементарная выборка обследования , пятое издание. Белмонт: Duxbury Press, 1996.

Для Лора, Сарндала и других, а также для Кохрана требуется больше математической статистики: ^[27]

Кохран, Уильям Г. (1977). Методы выборки (Третье изд.). Wiley. ISBN 978-0-471-16240-7.
Лор, Шарон Л. (1999). Выборка: дизайн и анализ . Даксбери. ISBN 978-0-534-35361-2.
Сярндал, Карл-Эрик ; Свенссон, Бенгт; Ретман, Ян (1992). Выборка обследования с помощью модели . Спрингер-Верлаг. ISBN 978-0-387-40620-6.

Исторически важные книги Деминга и Киша остаются ценными источниками информации для социологов (особенно о переписи населения США и Институте социальных исследований Мичиганского университета ) :

Деминг, В. Эдвардс (1966). Некоторые теории выборки . Dover Publications . ISBN 978-0-486-64684-8. OCLC 166526.
Киш, Лесли (1995) Выборочное обследование , Wiley, ISBN 0-471-10949-5

Ссылки

^ Лэнс, П.; Хаттори, А. (2016). Выборка и оценка. Веб: MEASURE Evaluation. С. 6–8, 62–64.
^ Салант, Присцилла, И. Диллман и А. Дон. Как провести собственный опрос . № 300.723 S3. 1994.
^ Сенета, Э. (1985). «Очерк истории выборочного обследования в России». Журнал Королевского статистического общества. Серия A (общая) . 148 (2): 118–125. doi :10.2307/2981944. JSTOR 2981944.
^ Дэвид С. Мур и Джордж П. Маккейб. « Введение в практику статистики ».
^ Фридман, Дэвид ; Пизани, Роберт; Первес, Роджер. Статистика.
^ "SAMPLE COUNT - Elections Department Singapore" (PDF) . Получено 3 сентября 2023 г. .
^ Хо, Тимоти (1 сентября 2023 г.). «Президентские выборы 2023 года: насколько точным будет подсчет выборки сегодня вечером?». DollarsAndSense.sg . Получено 3 сентября 2023 г.
^ abcd Роберт М. Гроувс и др. (2009).Методология исследования. Джон Уайли и сыновья. ISBN 978-0470465462.
^ Лор, Шарон Л. Выборка: дизайн и анализ .
^ Сярндал, Карл-Эрик; Свенссон, Бенгт; Ретман, Ян. Выборка опросов с помощью модели .
^ Шеффер, Ричард Л.; Уильям Менденхал; Р. Лайман Отт. (2006). Элементарная выборка обследования .
^ abc Шахрох Эсфахани, Мохаммад; Догерти, Эдвард (2014). «Влияние раздельной выборки на точность классификации». Биоинформатика . 30 (2): 242–250. doi : 10.1093/bioinformatics/btt662 . PMID 24257187.
^ Скотт, А. Дж.; Уайлд, К. Дж. (1986). «Подгонка логистических моделей в условиях случай-контроль или выборки на основе выбора». Журнал Королевского статистического общества, серия B. 48 ( 2): 170–182. doi :10.1111/j.2517-6161.1986.tb01400.x. JSTOR 2345712.
^ аб
- Лор, Шарон Л. Выборка: проектирование и анализ .
- Сярндал, Карл-Эрик; Свенссон, Бенгт; Ретман, Ян. Выборка опросов с помощью модели .
^ Ariyaratne, Buddhika (30 июля 2017 г.). «Метод добровольной выборки в сочетании с рекламой в социальных сетях». heal-info.blogspot.com . Медицинская информатика . Получено 18 декабря 2018 г. .^{[ ненадежный источник? ]}
^ Лазарсфельд, П. и Фиске, М. (1938). «Панель» как новый инструмент для измерения мнения. The Public Opinion Quarterly, 2(4), 596–612.
^ ab Groves и др. Методология опроса
^ "Примеры методов отбора проб" (PDF) .
^ "Определение случайной выборки". AccountingTools . 7 января 2024 г.
^ Коэн, 1988
^ Дипан Палгуна; Викас Джоши; Венкатесан Чакараварти; Рави Котари; Л. В. Субраманиам (2015). Анализ алгоритмов выборки для Twitter . Международная совместная конференция по искусственному интеллекту .
^ Берински, А. Дж. (2008). «Отсутствие ответа на опрос». В: W. Donsbach & MW Traugott (ред.), The Sage handbook of public opinion research (стр. 309–321). Thousand Oaks, CA: Sage Publications.
^ ab Dillman, DA, Eltinge, JL, Groves, RM, & Little, RJA (2002). «Отсутствие ответа на опрос при планировании, сборе данных и анализе». В: RM Groves, DA Dillman, JL Eltinge, & RJA Little (ред.), Отсутсвие ответа на опрос (стр. 3–26). Нью-Йорк: John Wiley & Sons.
^ Диллман, ДА, Смит, ДЖД, и Кристиан, ЛМ (2009). Интернет, почта и смешанные опросы: индивидуальный метод проектирования. Сан-Франциско: Jossey-Bass.
^ Веховар В., Батагель З., Манфреда К.Л. и Залетел М. (2002). «Отсутствие ответов в веб-опросах». В: Р.М. Гроувс, Д.А. Диллман, Дж.Л. Элтинг и Р.Дж.А. Литтл (ред.), отсутствие ответов на опросы (стр. 229–242). Нью-Йорк: Джон Уайли и сыновья.
^ Портер; Уиткомб; Вейцер (2004). «Множественные опросы студентов и усталость от опросов». В Портер, Стивен Р. (ред.). Преодоление проблем исследования опросов. Новые направления институциональных исследований. Сан-Франциско: Jossey-Bass. С. 63–74. ISBN 9780787974770. Получено 15 июля 2019 г. .
^ Кохран, Уильям Г. (1977-01-01). Методы выборки, 3-е издание (3-е изд.). Нью-Йорк, Нью-Йорк: John Wiley & Sons. ISBN 978-0-471-16240-7.

Дальнейшее чтение

Сингх, ГН, Джайсвал, А.К. и Панди А.К. (2021), Улучшенные методы подстановки для пропущенных данных в двух последовательных выборках, Коммуникации в статистике: теория и методы. DOI:10.1080/03610926.2021.1944211
Чемберс, Р. Л. и Скиннер, К. Дж. (редакторы) (2003), Анализ данных опроса , Wiley, ISBN 0-471-89987-9
Деминг, У. Эдвардс (1975) О вероятности как основе действия, The American Statistician , 29(4), стр. 146–152.
Gy, P (2012) Отбор проб из неоднородных и динамических материальных систем: теории неоднородности, отбор проб и гомогенизация , Elsevier Science, ISBN 978-0444556066
Корн, Э. Л. и Граубард, Б. И. (1999) Анализ исследований состояния здоровья , Wiley, ISBN 0-471-13773-1
Лукас, Сэмюэл Р. (2012). doi :10.1007%2Fs11135-012-9775-3 «За пределами доказательства существования: онтологические условия, эпистемологические следствия и углубленное исследование интервью». Качество и количество , doi :10.1007/s11135-012-9775-3.
Стюарт, Алан (1962) Основные идеи научного отбора проб , Hafner Publishing Company, Нью-Йорк ^{[ ISBN отсутствует ]}
Смит, ТМФ (1984). «Текущее положение и потенциальные разработки: некоторые личные взгляды: выборочные обследования». Журнал Королевского статистического общества, серия A. 147 ( 150-я годовщина Королевского статистического общества, номер 2): 208–221. doi : 10.2307/2981677. JSTOR 2981677.
Смит, ТМФ (1993). «Популяции и отбор: ограничения статистики (президентское обращение)». Журнал Королевского статистического общества, серия A. 156 ( 2): 144–166. doi :10.2307/2982726. JSTOR 2982726.(Портрет Т.М.Ф. Смита на стр. 144)
Смит, ТМФ (2001). «Столетие: выборочные обследования». Biometrika . 88 (1): 167–243. doi :10.1093/biomet/88.1.167.
Смит, ТМФ (2001). «Столетие биометрики: выборочные обследования». В DM Titterington и DR Cox (ред.).Biometrika : One Hundred Years . Oxford University Press. С. 165–194. ISBN 978-0-19-850993-6.
Уиттл, П. (май 1954 г.). «Оптимальный превентивный отбор проб». Журнал Американского общества исследований операций . 2 (2): 197–203. doi :10.1287/opre.2.2.197. JSTOR 166605.

Стандарты

ИСО

Серия ИСО 2859
Серия ИСО 3951

Американское общество по испытанию материалов (ASTM)

ASTM E105 Стандартная практика вероятностного отбора проб материалов
ASTM E122 Стандартная практика расчета размера выборки для оценки с указанной допустимой погрешностью среднего значения характеристики партии или процесса
ASTM E141 Стандартная практика принятия доказательств, основанных на результатах вероятностной выборки
Стандартная терминология ASTM E1402, касающаяся отбора проб
Стандартная практика ASTM E1994 по использованию планов выборочного контроля AOQL и LTPD, ориентированных на процесс
Стандартная практика ASTM E2234 для отбора проб из потока продукции по атрибутам, индексированным по AQL

ANSI, ASQ

ANSI/ASQ Z1.4

Федеральные и военные стандарты США

MIL-STD-105
MIL-STD-1916

Внешние ссылки

В Викиверситете есть обучающие ресурсы по теме «Выборка» (статистика)

Медиа, связанные с Выборка (статистика) на Викискладе