Ошибка в статистическом анализе из-за неслучайного выбора
Смещение отбора — это смещение , вызванное выбором отдельных лиц, групп или данных для анализа таким образом, что не достигается надлежащая рандомизация, тем самым не гарантируя, что полученная выборка является репрезентативной для популяции, предназначенной для анализа. [1] Иногда его называют эффектом отбора . Фраза «смещение отбора» чаще всего относится к искажению статистического анализа , возникающему в результате метода сбора образцов. Если смещение отбора не принимается во внимание, то некоторые выводы исследования могут оказаться ложными.
Типы предвзятости
Смещение выборки
Смещение выборки — это систематическая ошибка, вызванная неслучайной выборкой населения, [2] приводящая к тому, что некоторые члены населения с меньшей вероятностью будут включены, чем другие, что приводит к смещенной выборке , определяемой как статистическая выборка населения (или нечеловеческих факторов), в которой все участники неравномерно сбалансированы или объективно представлены. [3] В основном это классифицируется как подтип смещения отбора, [4] иногда специально называемый смещением отбора выборки , [5] [6] [7] но некоторые классифицируют его как отдельный тип смещения. [8]
Отличительной чертой смещения выборки (хотя и не общепринятой) является то, что оно подрывает внешнюю валидность теста (способность его результатов быть обобщенными на остальную часть населения), в то время как смещение отбора в основном касается внутренней валидности различий или сходств, обнаруженных в выборке. В этом смысле ошибки, возникающие в процессе сбора выборки или когорты, вызывают смещение выборки, тогда как ошибки в любом последующем процессе вызывают смещение отбора.
Примерами смещения выборки являются самоотбор , предварительный скрининг участников исследования, игнорирование субъектов исследования/тестов, которые не были завершены, и смещение миграции путем исключения субъектов, которые недавно переехали в район исследования или покинули его, смещение продолжительности исследования , когда выявляется медленно развивающееся заболевание с лучшим прогнозом, и смещение времени опережения , когда заболевание у участников диагностируется раньше, чем в контрольной группе, хотя среднее течение заболевания одинаково.
Временной интервал
- Досрочное прекращение исследования в тот момент, когда его результаты подтверждают желаемое заключение.
- Испытание может быть прекращено досрочно при достижении экстремального значения (часто по этическим причинам), но экстремальное значение, скорее всего, будет достигнуто переменной с наибольшей дисперсией , даже если все переменные имеют схожее среднее значение .
Контакт
- Смещение восприимчивости
- Клиническая предвзятость , когда одно заболевание предрасполагает ко второму заболеванию, а лечение первого заболевания ошибочно кажется предрасполагающим ко второму заболеванию. Например, постменопаузальный синдром дает более высокую вероятность развития рака эндометрия , поэтому эстрогены, назначаемые при постменопаузальном синдроме, могут получить более высокую, чем на самом деле, вину за возникновение рака эндометрия. [9]
- Протопатическое смещение , когда лечение первых симптомов заболевания или другого результата, по-видимому, вызывает результат. Это потенциальное смещение, когда есть задержка времени от первых симптомов и начала лечения до фактического диагноза. [9] Его можно смягчить задержкой , то есть исключением воздействий, которые произошли в определенный период времени до диагноза. [10]
- Смещение показаний , потенциальная путаница между причиной и следствием, когда воздействие зависит от показаний, например, лечение назначается людям с высоким риском приобретения заболевания, что может привести к преобладанию пролеченных людей среди тех, кто приобретает заболевание. Это может привести к ошибочному представлению о том, что лечение является причиной заболевания. [11]
Данные
- Разделение данных со знанием содержимого разделов и их последующий анализ с помощью тестов, разработанных для слепо выбранных разделов.
- Изменение включения данных задним числом по произвольным или субъективным причинам, включая:
- Выборочный отбор , который на самом деле является не предвзятостью отбора, а предвзятостью подтверждения , когда для подтверждения вывода выбираются определенные подмножества данных (например, приводятся примеры авиакатастроф в качестве доказательства того, что авиаперелеты небезопасны, при этом игнорируются гораздо более распространенные примеры рейсов, которые завершаются благополучно. См.: эвристика доступности ).
- Отклонение плохих данных по (1) произвольным основаниям, а не в соответствии с ранее заявленными или общепринятыми критериями, или (2) отбрасывание « выбросов » по статистическим основаниям, которые не учитывают важную информацию, которая могла бы быть получена из «диких» наблюдений. [12]
Исследования
- Выбор исследований для включения в метаанализ (см. также комбинаторный метаанализ ).
- Проведение повторных экспериментов и сообщение только о самых благоприятных результатах, возможно, с переименованием лабораторных записей других экспериментов в «калибровочные тесты», «ошибки приборов» или «предварительные обследования».
- Представление наиболее значимого результата выемки данных , как если бы это был один эксперимент (что логически то же самое, что и предыдущий пункт, но рассматривается как гораздо менее нечестное).
Потертость
Ошибка выбытия — это своего рода ошибка отбора, вызванная выбытием (потерей участников), [13] обесцениванием субъектов испытаний/тестов, которые не были завершены. Она тесно связана с ошибкой выживаемости , когда в анализ включаются только субъекты, которые «выжили» в процессе, или ошибкой неудачи , когда включаются только субъекты, которые «провалили» процесс. Она включает выбывание , отсутствие ответа (более низкий уровень ответа ), отказ и отклонения от протокола . Она дает смещенные результаты, когда она неравномерна в отношении воздействия и/или результата. Например, при тестировании программы диеты исследователь может просто отклонить всех, кто выбывает из испытания, но большинство из тех, кто выбывает, — это те, для кого оно не сработало. Различная потеря субъектов в группе вмешательства и в группе сравнения может изменить характеристики этих групп и результаты независимо от изучаемого вмешательства . [13]
Lost to follow-up — еще одна форма смещения отсева, которое в основном происходит в медицинских исследованиях в течение длительного периода времени. На смещение неответа или удержания может влиять ряд как материальных, так и нематериальных факторов, таких как: благосостояние, образование, альтруизм, первоначальное понимание исследования и его требований. [14] Исследователи также могут быть неспособны осуществлять последующий контакт из-за неадекватной идентификационной информации и контактных данных, собранных на начальном этапе набора и исследования. [15]
Выбор наблюдателя
Философ Ник Бостром утверждал, что данные фильтруются не только по дизайну исследования и измерениям, но и по необходимому предварительному условию, что должен быть кто-то, проводящий исследование. В ситуациях, когда существование наблюдателя или исследования коррелирует с данными, возникают эффекты отбора наблюдения, и требуется антропное рассуждение . [16]
Примером может служить запись событий прошлых столкновений Земли: если крупные столкновения вызывают массовые вымирания и экологические нарушения, исключающие эволюцию разумных наблюдателей на длительные периоды, никто не увидит никаких свидетельств крупных столкновений в недавнем прошлом (поскольку они помешали бы разумным наблюдателям эволюционировать). Следовательно, существует потенциальная предвзятость в записи столкновений Земли. [17] Астрономические экзистенциальные риски могут быть аналогичным образом недооценены из-за смещения отбора, и необходимо ввести антропную поправку. [18]
Предвзятость добровольцев
Предвзятость самоотбора или предвзятость добровольцев в исследованиях представляют собой дополнительные угрозы для валидности исследования, поскольку эти участники могут иметь изначально отличные характеристики от целевой группы исследования. [19] Исследования показали, что добровольцы, как правило, имеют более высокое социальное положение, чем более низкое социально-экономическое происхождение. [20] Кроме того, другое исследование показывает, что женщины с большей вероятностью добровольно участвуют в исследованиях, чем мужчины. Предвзятость добровольцев очевидна на протяжении всего жизненного цикла исследования, от набора до последующих наблюдений. В более общем плане реакция добровольцев может быть отнесена к индивидуальному альтруизму, желанию одобрения, личному отношению к теме исследования и другим причинам. [20] [14] Как и в большинстве случаев, смягчением в случае предвзятости добровольцев является увеличение размера выборки. [ необходима ссылка ]
Смягчение
В общем случае смещение отбора невозможно преодолеть только с помощью статистического анализа существующих данных, хотя в особых случаях может использоваться поправка Хекмана . Оценка степени смещения отбора может быть сделана путем изучения корреляций между экзогенными (фоновыми) переменными и индикатором лечения. Однако в регрессионных моделях именно корреляция между ненаблюдаемыми детерминантами результата и ненаблюдаемыми детерминантами отбора в выборку вносит смещение в оценки, и эта корреляция между ненаблюдаемыми не может быть напрямую оценена наблюдаемыми детерминантами лечения. [21]
При выборе данных для подгонки или прогнозирования можно организовать коалиционную игру, чтобы определить функцию точности подгонки или прогнозирования для всех подмножеств переменных данных.
Связанные вопросы
Смещение отбора тесно связано с:
- предвзятость публикации или предвзятость отчетности — искажение, возникающее в восприятии сообщества или метаанализах из-за непубликации неинтересных (обычно отрицательных) результатов или результатов, которые противоречат предубеждениям экспериментатора, интересам спонсора или ожиданиям сообщества.
- предвзятость подтверждения — общая тенденция людей уделять больше внимания тому, что подтверждает нашу уже существующую точку зрения; или, в частности, в экспериментальной науке — искажение, вызванное экспериментами, которые направлены на поиск подтверждающих доказательств, а не на опровержение гипотезы.
- Ошибка исключения возникает из-за применения различных критериев к случаям и контролям в отношении права на участие в исследовании/различных переменных, служащих основанием для исключения.
Смотрите также
Ссылки
- ^ Словарь терминов по раку → смещение отбора. Получено 23 сентября 2009 г.
- ↑ Медицинский словарь - «Ошибка выборки». Получено 23 сентября 2009 г.
- ^ TheFreeDictionary → предвзятая выборка. Получено 23.09.2009. Сайт в свою очередь цитирует: Mosby's Medical Dictionary, 8-е издание.
- ^ Словарь терминов по раку → Ошибка отбора. Получено 23 сентября 2009 г.
- ^ Ардс, Шейла; Чунг, Чанджин; Майерс, Сэмюэл Л. (1998). «Влияние смещения выборки на расовые различия в сообщениях о жестоком обращении с детьми». Child Abuse & Neglect . 22 (2): 103–115. doi : 10.1016/S0145-2134(97)00131-2 . PMID 9504213.
- ^ Кортес, Коринна; Мохри, Мехриар; Райли, Майкл; Ростамизаде, Афшин (2008). «Теория коррекции смещения выборки». Алгоритмическая теория обучения (PDF) . Конспект лекций по информатике. Том 5254. С. 38–53. arXiv : 0805.2775 . CiteSeerX 10.1.1.144.4478 . doi :10.1007/978-3-540-87987-9_8. ISBN 978-3-540-87986-2. S2CID 842488.
- ^ Кортес, Коринна; Мохри, Мехриар (2014). «Теория и алгоритм коррекции доменной адаптации и смещения выборки для регрессии» (PDF) . Теоретическая информатика . 519 : 103–126. CiteSeerX 10.1.1.367.6899 . doi :10.1016/j.tcs.2013.09.027.
- ^ Фейдем, Барбара (2009). Поведенческая наука. Lippincott Williams & Wilkins. стр. 262. ISBN 978-0-7817-8257-9.
- ^ ab Feinstein AR; Horwitz RI (ноябрь 1978 г.). «Критика статистических данных, связывающих эстрогены с раком эндометрия». Cancer Res . 38 (11 Pt 2): 4001–5. PMID 698947.
- ^ Tamim H; Monfared AA; LeLorier J (март 2007 г.). «Применение времени задержки в определениях экспозиции для контроля протопатического смещения». Pharmacoepidemiol Drug Saf . 16 (3): 250–8. doi :10.1002/pds.1360. PMID 17245804. S2CID 25648490.
- ^ Мэтью Р. Вейр (2005). Гипертония (ключевые заболевания) (серия Acp Key Diseases) . Филадельфия, Пенсильвания: Американский колледж врачей. стр. 159. ISBN 978-1-930513-58-7.
- ^ Крускал, Уильям Х. (1960). «Некоторые замечания о диких наблюдениях». Технометрика . 2 (1): 1–3. doi :10.1080/00401706.1960.10489875.
- ^ ab Jüni, P.; Egger, Matthias (2005). «Эмпирические доказательства смещения отсева в клинических испытаниях». International Journal of Epidemiology . 34 (1): 87–88. doi : 10.1093/ije/dyh406 . PMID 15649954.
- ^ ab Jordan, Sue; Watkins, Alan; Storey, Mel; Allen, Steven J.; Brooks, Caroline J.; Garaiova, Iveta; Heaven, Martin L.; Jones, Ruth; Plummer, Sue F.; Russell, Ian T.; Thornton, Catherine A. (2013-07-09). "Volunteer Bias in Recruitment, Retention, and Blood Sample Donation in a Randomized Controlled Trial Involved Mothers and their Children at Six Months and Two Years: A Longitudinal Analysis". PLOS ONE . 8 (7): e67912. Bibcode : 2013PLoSO...867912J. doi : 10.1371/journal.pone.0067912 . ISSN 1932-6203. PMC 3706448. PMID 23874465 .
- ^ Small, WP (1967-05-06). "Lost to Follow-Up". The Lancet . Первоначально опубликовано как Volume 1, Issue 7497. 289 (7497): 997–999. doi :10.1016/S0140-6736(67)92377-X. ISSN 0140-6736. PMID 4164620. S2CID 27683727.
- ^ Бостром, Ник (2002). Антропное смещение: эффекты отбора наблюдений в науке и философии . Нью-Йорк: Routledge. ISBN 978-0-415-93858-7.
- ^ Ćirković, MM; Sandberg, A.; Bostrom, N. (2010). «Антропная тень: эффекты отбора наблюдений и риски вымирания человека». Анализ риска . 30 (10): 1495–506. Bibcode : 2010RiskA..30.1495C. doi : 10.1111/j.1539-6924.2010.01460.x. PMID 20626690. S2CID 6485564.
- ^ Тегмарк, М.; Бостром, Н. (2005). «Астрофизика: вероятна ли катастрофа конца света?». Nature . 438 (7069): 754. Bibcode : 2005Natur.438..754T. doi : 10.1038/438754a . PMID 16341005. S2CID 4390013.
- ^ Трипепи, Джованни; Ягер, Китти Дж.; Деккер, Фридо В.; Цоккали, Кармине (2010). «Ошибка отбора и ошибка информации в клинических исследованиях». Nephron Clinical Practice . 115 (2): c94–c99. doi : 10.1159/000312871 . ISSN 1660-2110. PMID 20407272.
- ^ ab "Волонтерская предвзятость". Каталог предвзятости . 2017-11-17 . Получено 2020-10-29 .
- ^ Хекман, Дж. Дж. (1979). «Смещение выборки как ошибка спецификации». Econometrica . 47 (1): 153–161. doi :10.2307/1912352. JSTOR 1912352.