В статистике выборка обследования описывает процесс отбора выборки элементов из целевой совокупности для проведения обследования. Термин « опрос » может относиться ко многим различным типам или методам наблюдения. В выборке обследования чаще всего подразумевается анкета, используемая для измерения характеристик и/или отношения людей. Различные способы контакта с членами выборки после того, как они были отобраны, являются предметом сбора данных обследования . Цель выборки — снизить стоимость и/или объем работы, которые потребовались бы для опроса всей целевой совокупности. Опрос, который измеряет всю целевую совокупность, называется переписью . Выборка относится к группе или части населения, из которой должна быть получена информация.
Выборки обследований можно в целом разделить на два типа: вероятностные выборки и супервыборки. Вероятностные выборки реализуют план выборки с указанными вероятностями (возможно, адаптированными вероятностями, указанными адаптивной процедурой). Вероятностная выборка позволяет делать выводы о целевой популяции на основе дизайна. Выводы основаны на известном объективном распределении вероятностей , которое было указано в протоколе исследования. Выводы из вероятностных опросов могут по-прежнему страдать от многих типов смещений.
Опросы, не основанные на вероятностной выборке, имеют большие трудности с измерением их смещения или ошибки выборки . [1] Опросы, основанные на невероятностных выборках, часто не представляют людей в целевой группе. [2]
В академических и правительственных исследованиях выборка вероятности является стандартной процедурой. В Соединенных Штатах, в "Списке стандартов статистических обследований" Управления по управлению и бюджету указано, что финансируемые из федерального бюджета обследования должны проводиться:
Выбор образцов с использованием общепринятых статистических методов (например, вероятностных методов, которые могут обеспечить оценку ошибки выборки). Любое использование методов выборки, не зависящих от вероятности (например, выборки с отсечкой или на основе модели), должно быть статистически обосновано и иметь возможность измерить ошибку оценки. [3]
Случайная выборка и выводы на основе дизайна дополняются другими статистическими методами, такими как выборка с использованием модели и выборка на основе модели. [4] [5]
Например, многие опросы имеют существенные объемы неответов. Хотя единицы изначально выбираются с известными вероятностями, механизмы неответов неизвестны. Для опросов со значительными неответами статистики предложили статистические модели, с помощью которых анализируются наборы данных.
Вопросы, связанные с выборкой обследования, обсуждаются в нескольких источниках, включая Саланта и Диллмана (1994). [6]
В вероятностной выборке (также называемой «научной» или «случайной» выборкой) каждый член целевой популяции имеет известную и ненулевую вероятность включения в выборку. [7] Опрос, основанный на вероятностной выборке, теоретически может производить статистические измерения целевой популяции, которые являются несмещенными , поскольку ожидаемое значение выборочного среднего равно среднему значению популяции, E(ȳ)=μ, или иметь измеримую ошибку выборки, которая может быть выражена как доверительный интервал или предел погрешности . [8] [9]
Вероятностная выборка опроса создается путем построения списка целевой совокупности, называемого выборочной структурой , рандомизированного процесса выбора единиц из выборочной структуры, называемого процедурой отбора, и метода контакта с выбранными единицами, чтобы дать им возможность пройти опрос, называемого методом или режимом сбора данных. [10] Для некоторых целевых совокупностей этот процесс может быть простым; например, выборка сотрудников компании с использованием платежных ведомостей. Однако в больших, неорганизованных совокупностях простое построение подходящей выборочной структуры часто является сложной и дорогостоящей задачей.
Распространенными методами проведения вероятностной выборки населения домохозяйств в Соединенных Штатах являются выборка по вероятности области, выборка по случайному цифровому номеру телефона и, в последнее время, выборка по адресу. [11]
В вероятностной выборке существуют специализированные методы, такие как стратифицированная выборка и кластерная выборка , которые повышают точность или эффективность процесса выборки, не изменяя при этом фундаментальных принципов вероятностной выборки.
Стратификация — это процесс разделения членов популяции на однородные подгруппы перед выборкой на основе вспомогательной информации о каждой единице выборки. Страты должны быть взаимоисключающими: каждый элемент популяции должен быть отнесен только к одной страте. Страты также должны быть коллективно исчерпывающими: ни один элемент популяции не может быть исключен. Затем в пределах каждой страты можно применять такие методы, как простая случайная выборка или систематическая выборка . Стратификация часто улучшает репрезентативность выборки за счет снижения ошибки выборки.
Смещение в опросах нежелательно, но часто неизбежно. Основные типы смещения, которые могут возникнуть в процессе выборки:
Многие опросы основаны не на вероятностных выборках, а на поиске подходящей группы респондентов для завершения опроса. Вот некоторые распространенные примеры невероятностной выборки: [13]
В выборках, не связанных с вероятностью, связь между целевой совокупностью и выборкой обследования неизмерима, а потенциальное смещение неизвестно. Опытные пользователи выборок, не связанных с вероятностью, склонны рассматривать опрос как экспериментальное условие, а не как инструмент для измерения популяции, и изучать результаты на предмет внутренне согласованных связей.
В учебнике Гроувса и др. представлен обзор методологии опроса, включая недавнюю литературу по разработке анкет (на основе когнитивной психологии ):
Другие книги посвящены статистической теории выборочного обследования и требуют определенных знаний основ статистики, как обсуждается в следующих учебниках:
В элементарной книге Шеффера и др. используются квадратные уравнения из курса алгебры средней школы:
Для Лора, Сарндала и других, а также для Кохрана (классика) требуется больше математической статистики:
Исторически важные книги Деминга и Киша остаются ценными источниками информации для социологов (особенно о переписи населения США и Институте социальных исследований Мичиганского университета ) :