Смещение выборки

Круговая диаграмма, показывающая результаты гипотетического опроса, в котором был задан вопрос: «Вам нравится отвечать на опросы?» Диаграмма показывает, что 99,8 процента участников ответили: «Да, мне нравится отвечать на опросы!» и что 0,2 процента сказали: «Нет, я выбрасываю их в мусорку». — Пример предвзятой выборки в гипотетическом опросе населения, в котором участников спрашивают, нравится ли им отвечать на опросы, тем самым отбирая тех, кто с наибольшей вероятностью ответит изначально.

В статистике смещение выборки — это смещение , при котором выборка собирается таким образом, что некоторые члены предполагаемой совокупности имеют более низкую или более высокую вероятность выборки, чем другие. Это приводит к смещенной выборке ^[1] совокупности (или нечеловеческих факторов), в которой все индивидуумы или случаи не были одинаково вероятно выбраны. ^[2] Если это не учитывать, результаты могут быть ошибочно приписаны изучаемому явлению, а не методу выборки .

Медицинские источники иногда называют смещение выборки смещением установления . ^[3]^[4] Смещение установления имеет в основном то же самое определение, ^[5]^[6], но иногда все еще классифицируется как отдельный тип смещения. ^[5]

Отличие от смещения отбора

Смещение выборки обычно классифицируется как подтип смещения отбора , ^[7] иногда его специально называют смещением отбора выборки , ^[8]^[9]^[10], но некоторые классифицируют его как отдельный тип смещения. ^[11] Отличительной чертой смещения выборки, хотя и не общепринятой, является то, что оно подрывает внешнюю валидность теста (способность его результатов быть обобщенными на всю популяцию), в то время как смещение отбора в основном касается внутренней валидности для различий или сходств, обнаруженных в имеющейся выборке. В этом смысле ошибки, возникающие в процессе сбора выборки или когорты, вызывают смещение выборки, в то время как ошибки в любом процессе после этого вызывают смещение отбора.

Однако смещение отбора и смещение выборки часто используются как синонимы. ^[12]

Типы

Выборка из определенной реальной области . Например, опрос учащихся старших классов для измерения употребления нелегальных наркотиков подростками будет смещенной выборкой, поскольку в нее не включены обучающиеся на дому или бросившие школу ученики. Выборка также смещена, если определенные члены недопредставлены или перепредставлены по сравнению с другими в популяции. Например, интервью «человека на улице», которое выбирает людей, проходящих мимо определенного места, будет иметь перепредставленность здоровых людей, которые с большей вероятностью будут вне дома, чем люди с хроническими заболеваниями. Это может быть крайней формой смещенной выборки, поскольку определенные члены популяции полностью исключены из выборки (то есть имеют нулевую вероятность быть выбранными).
Ошибка самоотбора (см. также Ошибка неответа ), которая возможна, когда группа изучаемых людей имеет какую-либо форму контроля над участием (как того требуют современные стандарты этики исследований с участием людей для многих форм исследований в реальном времени и некоторых продольных форм исследований). Решение участников участвовать может быть связано с чертами, которые влияют на исследование, что делает участников нерепрезентативной выборкой. Например, люди, которые имеют твердые мнения или существенные знания, могут быть более готовы потратить время на участие в опросе, чем те, у кого их нет. Другим примером являются онлайн-опросы и телефонные опросы , которые являются предвзятыми выборками, поскольку респонденты выбираются самостоятельно. Те люди, которые сильно мотивированы на ответ, как правило, люди с твердыми мнениями, представлены сверх меры, а люди, которые безразличны или апатичны, с меньшей вероятностью ответят. Это часто приводит к поляризации ответов, когда крайним точкам зрения придается непропорционально большой вес в резюме. В результате эти типы опросов считаются ненаучными.

Ошибка исключения возникает из-за исключения определенных групп из выборки, например, исключение субъектов, которые недавно мигрировали в исследуемую область (это может произойти, когда новички отсутствуют в регистре, используемом для идентификации исходной популяции). Исключение субъектов, которые выезжают из исследуемой области во время последующего наблюдения, скорее эквивалентно выбыванию или неответу, ошибка выбора , поскольку она скорее влияет на внутреннюю валидность исследования.
Здоровое смещение пользователя , когда исследуемая популяция, вероятно, здоровее, чем общая популяция. Например, человек со слабым здоровьем вряд ли будет работать чернорабочим, поэтому если исследование проводится среди чернорабочих, здоровье общей популяции, скорее всего, будет переоценено.
Ошибка Берксона , когда исследуемая популяция выбирается из больницы и поэтому менее здорова, чем общая популяция. Это может привести к ложной отрицательной корреляции между заболеваниями: у пациента больницы без диабета с большей вероятностью будет другое данное заболевание, например холецистит , поскольку у него изначально должна была быть какая-то причина попасть в больницу.
Избыточное соответствие , соответствие для кажущегося конфаундера , который на самом деле является результатом воздействия^{[ необходимо разъяснение ]} . Контрольная группа становится более похожей на случаи в отношении воздействия, чем общая популяция.
Ошибка выжившего , при которой выбираются только «выжившие» субъекты, игнорируя тех, кто выпал из поля зрения. Например, использование истории текущих компаний в качестве индикатора делового климата или экономики игнорирует компании, которые потерпели неудачу и больше не существуют.
Смещение Малмквиста — эффект в наблюдательной астрономии, который приводит к предпочтительному обнаружению изначально ярких объектов.

Ошибка внимания — некритическое предположение, что все члены или случаи определенного класса или типа подобны тем, которые получают наибольшее внимание или освещение в СМИ.

Выборка на основе симптомов

Изучение медицинских состояний начинается с отдельных сообщений. По своей природе такие сообщения включают только тех, кого направляют на диагностику и лечение. У ребенка, который не может функционировать в школе, с большей вероятностью диагностируют дислексию , чем у ребенка, который борется, но сдает экзамен. Ребенок, обследованный на одно состояние, с большей вероятностью будет обследован и диагностирован на другие состояния, что искажает статистику сопутствующих заболеваний . Поскольку определенные диагнозы начинают ассоциироваться с проблемами поведения или умственной отсталостью , родители стараются не допустить стигматизации своих детей этими диагнозами, что вносит дополнительную предвзятость. Исследования, тщательно отобранные из целых групп населения, показывают, что многие состояния встречаются гораздо чаще и обычно гораздо мягче, чем считалось ранее.

Усеченный отбор в родословных исследованиях

Генетики ограничены в том, как они могут получить данные из человеческих популяций. В качестве примера рассмотрим человеческую характеристику. Мы заинтересованы в решении, наследуется ли характеристика как простой менделевский признак. Следуя законам менделевского наследования , если родители в семье не имеют характеристики, но несут аллель для нее, они являются носителями (например, неэкспрессивная гетерозигота ). В этом случае у каждого из их детей будет 25% шанс проявить характеристику. Проблема возникает, потому что мы не можем сказать, в каких семьях оба родителя являются носителями (гетерозиготными), если только у них нет ребенка, который проявляет эту характеристику. Описание следует учебнику Саттона. ^[13]

На рисунке показаны родословные всех возможных семей с двумя детьми, когда родители являются носителями (Аа).

Неусеченный отбор . В идеальном мире мы должны быть в состоянии обнаружить все такие семьи с геном, включая тех, кто просто является носителями. В этой ситуации анализ был бы свободен от предвзятости установления, а родословные были бы под «неусеченным отбором». На практике большинство исследований идентифицируют и включают семьи в исследование на основе наличия в них пораженных лиц.
Усеченный отбор . Когда у больных людей есть равные шансы быть включенными в исследование, это называется усеченным отбором, что означает непреднамеренное исключение (усечение) семей, которые являются носителями гена. Поскольку отбор осуществляется на индивидуальном уровне, семьи с двумя или более больными детьми будут иметь более высокую вероятность быть включенными в исследование.
Полный усеченный отбор — это особый случай, когда каждая семья с больным ребенком имеет равные шансы быть отобранной для исследования.

Вероятности каждой из выбранных семей приведены на рисунке, также дана частота выборки затронутых детей. В этом простом случае исследователь будет искать частоту 4 ⁄ 7 или 5 ⁄ 8 для характеристики, в зависимости от типа используемого усеченного отбора.

Эффект пещерного человека

Примером смещения отбора является так называемый «эффект пещерного человека». Большая часть нашего понимания доисторических людей исходит из пещер, таких как наскальные рисунки, сделанные почти 40 000 лет назад. Если бы были современные рисунки на деревьях, шкурах животных или склонах холмов, они были бы давно смыты. Аналогично, свидетельства наличия костров, мусорных куч , мест захоронений и т. д., скорее всего, останутся нетронутыми до современной эпохи в пещерах. Доисторические люди связаны с пещерами, потому что именно там все еще существуют данные, а не обязательно потому, что большинство из них жили в пещерах большую часть своей жизни. ^[14]

Проблемы, вызванные смещением выборки

Смещение выборки проблематично, поскольку возможно, что статистика, вычисленная для выборки, является систематически ошибочной. Смещение выборки может привести к систематической переоценке или недооценке соответствующего параметра в популяции. Смещение выборки встречается на практике, поскольку практически невозможно обеспечить идеальную случайность при выборке. Если степень искажения мала, то выборку можно рассматривать как разумное приближение к случайной выборке. Кроме того, если выборка не сильно отличается по измеряемой величине, то смещенная выборка все равно может быть разумной оценкой.

Слово «предвзятость» имеет ярко выраженный негативный оттенок. Действительно, предвзятость иногда возникает из-за преднамеренного намерения ввести в заблуждение или другого научного мошенничества . В статистическом использовании предвзятость просто представляет собой математическое свойство, независимо от того, является ли оно преднамеренным или неосознанным или вызвано несовершенством инструментов, используемых для наблюдения. Хотя некоторые люди могут преднамеренно использовать предвзятую выборку для получения вводящих в заблуждение результатов, чаще всего предвзятая выборка является просто отражением сложности получения действительно репрезентативной выборки или незнания предвзятости в их процессе измерения или анализа. Примером того, как может существовать незнание предвзятости, является широко распространенное использование отношения (также известного как кратное изменение ) в качестве меры различия в биологии. Поскольку легче достичь большого отношения с двумя небольшими числами с заданной разницей и относительно сложнее достичь большого отношения с двумя большими числами с большей разницей, большие значимые различия могут быть упущены при сравнении относительно больших числовых измерений. Некоторые называют это «демаркационной ошибкой», поскольку использование отношения (деления) вместо разности (вычитания) переводит результаты анализа из области науки в плоскость лженауки (см. Проблема демаркации ).

Некоторые выборки используют предвзятый статистический дизайн, который, тем не менее, позволяет оценивать параметры. Например, Национальный центр статистики здравоохранения США намеренно делает избыточные выборки из групп меньшинств во многих своих общенациональных исследованиях, чтобы получить достаточную точность для оценок в этих группах. ^[15] Эти исследования требуют использования весов выборки (см. ниже) для получения надлежащих оценок по всем этническим группам. При условии соблюдения определенных условий (главным образом, что веса рассчитываются и используются правильно) эти выборки позволяют точно оценивать параметры популяции.

Исторические примеры

Пример предвзятой выборки: по состоянию на июнь 2008 г. 55% используемых веб-браузеров ( Internet Explorer ) не прошли тест Acid2 . Из-за характера теста выборка в основном состояла из веб-разработчиков. ^[16]

Классический пример предвзятой выборки и вводящих в заблуждение результатов, которые она дала, произошел в 1936 году. На заре опросов общественного мнения американский журнал Literary Digest собрал более двух миллионов почтовых опросов и предсказал, что кандидат от Республиканской партии на президентских выборах в США Альф Лэндон с большим отрывом победит действующего президента Франклина Рузвельта . Результат оказался прямо противоположным. Опрос Literary Digest представлял собой выборку, собранную среди читателей журнала, дополненную записями зарегистрированных владельцев автомобилей и пользователей телефонов. Эта выборка включала чрезмерное представительство богатых людей, которые, как группа, с большей вероятностью проголосовали бы за кандидата от Республиканской партии. Напротив, опрос всего 50 тысяч граждан, отобранных организацией Джорджа Гэллапа , успешно предсказал результат, что привело к популярности опроса Гэллапа .

Другой классический пример произошел на президентских выборах 1948 года . В ночь выборов Chicago Tribune напечатала заголовок DEWEY DEFEATS TRUMAN , который оказался ошибочным. Утром ухмыляющийся избранный президент Гарри С. Трумэн был сфотографирован с газетой под этим заголовком. Причина, по которой Tribune ошиблась, заключается в том, что ее редактор доверял результатам телефонного опроса. Исследования в области опросов тогда находились в зачаточном состоянии, и немногие ученые понимали, что выборка пользователей телефонов не является репрезентативной для всего населения. Телефоны еще не были широко распространены, и те, у кого они были, как правило, были зажиточными людьми и имели постоянные адреса. (Во многих городах телефонный справочник Bell System содержал те же имена, что и Social Register ). Кроме того, опрос Гэллапа, на котором Tribune основывала свой заголовок, на момент печати был более двух недель. ^[17]

В данных о качестве воздуха загрязняющие вещества (такие как оксид углерода , оксид азота , диоксид азота или озон ) часто показывают высокую корреляцию , поскольку они происходят из одного и того же химического процесса(ов). Эти корреляции зависят от пространства (т. е. местоположения) и времени (т. е. периода). Поэтому распределение загрязняющих веществ не обязательно является репрезентативным для каждого местоположения и каждого периода. Если недорогой измерительный прибор калибруется с полевыми данными многомерным образом, точнее, путем размещения рядом с эталонным прибором, то взаимосвязи между различными соединениями включаются в модель калибровки. При перемещении измерительного прибора могут быть получены ошибочные результаты. ^[18]

Примером из XXI века является пандемия COVID-19 , когда было показано, что различия в смещении выборки при тестировании на COVID-19 объясняют большие различия как в показателях летальности, так и в возрастном распределении случаев заболевания в разных странах. ^[19]^[20]

Статистические поправки на смещенную выборку

Если целые сегменты населения исключены из выборки, то нет никаких корректировок, которые могли бы дать оценки, репрезентативные для всего населения. Но если некоторые группы недопредставлены и степень недопредставленности может быть количественно определена, то веса выборки могут исправить смещение. Однако успех исправления ограничен выбранной моделью отбора. Если отсутствуют некоторые переменные, методы, используемые для исправления смещения, могут быть неточными. ^[21]

Например, гипотетическая популяция может включать 10 миллионов мужчин и 10 миллионов женщин. Предположим, что смещенная выборка из 100 пациентов включала 20 мужчин и 80 женщин. Исследователь мог бы исправить этот дисбаланс, присвоив вес 2,5 каждому мужчине и 0,625 каждой женщине. Это скорректировало бы любые оценки для достижения того же ожидаемого значения, что и выборка, включающая ровно 50 мужчин и 50 женщин, если только мужчины и женщины не различались по вероятности участия в опросе. ^{[ необходима цитата ]}

Смотрите также

Ссылки

^ "Sampling Bias". Медицинский словарь . Архивировано из оригинала 10 марта 2016 года . Получено 23 сентября 2009 года .
^ "Biased sample". TheFreeDictionary . Получено 23 сентября 2009 г. Медицинский словарь Мосби, 8-е издание
^ Weising K (2005). ДНК-дактилоскопия растений: принципы, методы и применение. Лондон: Taylor & Francis Group. стр. 180. ISBN 978-0-8493-1488-9.
^ Рамирес и Сориано А. (29 ноября 2008 г.). Тесты на неравновесие отбора и сцепления в условиях сложных демографических ситуаций и смещения подтверждения (PDF) (диссертация на соискание степени доктора философии). Universitat Pompeu Fabra. стр. 34.
^ ab Panacek EA (май 2009 г.). «Ошибка и предвзятость в клинических исследованиях» (PDF) . Ежегодное собрание SAEM . Новый Орлеан, Луизиана: Общество академической неотложной медицины . Архивировано из оригинала (PDF) 17 августа 2016 г. Получено 14 ноября 2009 г.
^ "Ascertainment Bias". Медицинский словарь Medilexicon . Архивировано из оригинала 6 августа 2016 года . Получено 14 ноября 2009 года .
^ "Selection Bias". Словарь терминов, связанных с раком . Архивировано из оригинала 9 июня 2009 года . Получено 23 сентября 2009 года .
^ Ards S, Chung C, Myers SL (февраль 1998 г.). «Влияние смещения выборки на расовые различия в сообщениях о жестоком обращении с детьми». Child Abuse & Neglect . 22 (2): 103–15. doi : 10.1016/S0145-2134(97)00131-2 . PMID 9504213.
^ Cortes C, Mohri M, Riley M, Rostamizadeh A (2008). "Sample Selection Bias Correction Theory" (PDF) . Algorithmic Learning Theory . Lecture Notes in Computer Science. Vol. 5254. pp. 38–53. arXiv : 0805.2775 . CiteSeerX 10.1.1.144.4478 . doi :10.1007/978-3-540-87987-9_8. ISBN 978-3-540-87986-2. S2CID 842488.
^ Cortes C, Mohri M (2014). «Теория адаптации домена и коррекции смещения выборки и алгоритм для регрессии» (PDF) . Теоретическая информатика . 519 : 103–126. CiteSeerX 10.1.1.367.6899 . doi :10.1016/j.tcs.2013.09.027.
^ Fadem B (2009). Поведенческая наука. Lippincott Williams & Wilkins. стр. 262. ISBN 978-0-7817-8257-9.
^ Уоллес Р. (2007). Макси-Розенау-Ласт Общественное здравоохранение и профилактическая медицина (15-е изд.). McGraw Hill Professional. стр. 21. ISBN 978-0-07-159318-2.
^ Sutton HE (1988). Введение в генетику человека (4-е изд.). Харкорт Брейс Йованович. ISBN 978-0-15-540099-3.
^ Berk RA (июнь 1983 г.). «Введение в смещение выборки в социологических данных». American Sociological Review . 48 (3): 386–398. doi :10.2307/2095230. JSTOR 2095230.
^ «Здоровье меньшинств». Национальный центр статистики здравоохранения. 2007.
^ "Статистика браузера". Refsnes Data. Июнь 2008 г. Получено 05.07.2008 г.
^ Lienhard JH. "Опрос Гэллапа". Двигатели нашей изобретательности . Получено 29 сентября 2007 г.
^ Танцев Г., Паскаль К. (октябрь 2020 г.). «Проблема перемещения откалиброванных в полевых условиях недорогих сенсорных систем в мониторинге качества воздуха: смещение выборки». Датчики . 20 (21): 6198. Bibcode : 2020Senso..20.6198T. doi : 10.3390/s20216198 . PMC 7662848. PMID 33143233 .
^ Ward D (20 апреля 2020 г.). Ошибка выборки: объяснение широких вариаций в показателях летальности от COVID-19. Препринт (отчет). Берн, Швейцария. doi : 10.13140/RG.2.2.24953.62564/1.
^ Böttcher L, D'Orsogna MR, Chou T (май 2021 г.). «Использование избыточных смертей и статистики тестирования для определения смертности от COVID-19». Европейский журнал эпидемиологии . 36 (5): 545–558. doi : 10.1007/s10654-021-00748-2 . PMC 8127858. PMID 34002294 .
^ Cuddeback G, Wilson E, Orme JG, Combs-Orme T (2004). «Обнаружение и статистическая коррекция смещения выборки». Журнал исследований социальных служб . 30 (3): 19–33. doi :10.1300/J079v30n03_02. S2CID 11685550.