Системная неточность
Статистическое смещение в математической области статистики — это систематическая тенденция, при которой методы, используемые для сбора данных и генерации статистики, представляют неточное, искаженное или предвзятое изображение реальности. Статистическое смещение существует на многочисленных этапах процесса сбора и анализа данных, включая: источник данных, методы, используемые для сбора данных, выбранную оценку и методы, используемые для анализа данных. Аналитики данных могут принимать различные меры на каждом этапе процесса, чтобы уменьшить влияние статистического смещения в своей работе. Понимание источника статистического смещения может помочь оценить, близки ли наблюдаемые результаты к действительности. Утверждается, что вопросы статистического смещения тесно связаны с вопросами статистической достоверности . [1]
Статистическая предвзятость может иметь значительные последствия в реальном мире, поскольку данные используются для информирования о принятии решений в самых разных процессах в обществе. Данные используются для информирования о законотворчестве, регулировании отрасли, тактике корпоративного маркетинга и дистрибуции, а также институциональной политике в организациях и на рабочих местах. Следовательно, могут быть значительные последствия, если статистическая предвзятость не учитывается и не контролируется. Например, если фармацевтическая компания хочет изучить влияние лекарства на простуду, но выборка данных включает только мужчин, любые выводы, сделанные на основе этих данных, будут предвзятыми в отношении того, как лекарство влияет на мужчин, а не на людей в целом. Это означает, что информация будет неполной и бесполезной для принятия решения о том, готово ли лекарство к выпуску для широкой публики. В этом сценарии предвзятость можно устранить путем расширения выборки. Эта ошибка выборки — лишь один из способов, с помощью которых данные могут быть предвзятыми.
Смещение можно отличить от других статистических ошибок, таких как точность (неисправность/неадекватность инструмента), отсутствие данных или ошибки в транскрипции (опечатки). Смещение подразумевает, что выбор данных мог быть искажен критериями сбора. Другие формы человеческого смещения возникают при сборе данных, такие как смещение ответа , при котором участники дают неточные ответы на вопрос. Смещение не исключает существования любых других ошибок. У кого-то может быть плохо спроектированная выборка, неточное измерительное устройство и опечатки при записи данных одновременно. В идеале все факторы контролируются и учитываются.
Также полезно признать, что термин «ошибка» относится конкретно к результату, а не к процессу ( ошибки отклонения или принятия проверяемой гипотезы ), или к явлению случайных ошибок . [2] Термины «недостаток» или «ошибка» рекомендуются для того, чтобы отличать процедурные ошибки от этих специально определенных терминов, основанных на результате.
Смещение оценщика
Статистическое смещение — это свойство статистического метода или его результатов, при котором ожидаемое значение результатов отличается от истинного базового количественного параметра, который оценивается . Смещение оценщика параметра не следует путать со степенью его точности, поскольку степень точности является мерой ошибки выборки. Смещение определяется следующим образом: пусть будет статистикой, используемой для оценки параметра , и пусть обозначает ожидаемое значение . Тогда,
называется смещением статистики (по отношению к ). Если , то говорят, что это несмещенная оценка ; в противном случае говорят, что это смещенная оценка .
Смещение статистики всегда относительно параметра, который она использует для оценки, но параметр часто опускается, когда из контекста ясно, что именно оценивается.
Типы
Статистическое смещение возникает на всех этапах анализа данных. Следующие источники смещения будут перечислены на каждом этапе отдельно.
Выборка данных
Смещение отбора подразумевает, что индивидуумы с большей вероятностью будут выбраны для исследования, чем другие, что смещает выборку . Это также можно назвать эффектом отбора, смещением выборки и смещением Берксона . [3]
- Спектральное смещение возникает из-за оценки диагностических тестов на предвзятых выборках пациентов, что приводит к переоценке чувствительности и специфичности теста. Например, высокая распространенность заболевания в исследуемой популяции увеличивает положительные прогностические значения, что приведет к смещению между прогностическими значениями и реальными. [4]
- Ошибка выбора наблюдателя возникает, когда представленные доказательства были предварительно отфильтрованы наблюдателями, что является так называемым антропным принципом . Собранные данные фильтруются не только по плану эксперимента, но и по необходимому предварительному условию, что должен быть кто-то, проводящий исследование. [5] Примером является столкновение Земли в прошлом. Столкновение может привести к вымиранию разумных животных, или в то время не было разумных животных. Поэтому некоторые столкновение не наблюдались, но они могли произойти в прошлом. [6]
- Предвзятость добровольцев возникает, когда добровольцы имеют характеристики, изначально отличающиеся от характеристик целевой группы исследования. [7] Исследования показали, что добровольцы, как правило, происходят из семей с более высоким социально-экономическим статусом. [8] Кроме того, другое исследование показывает, что женщины с большей вероятностью добровольно участвуют в исследованиях, чем мужчины. [9]
- Предвзятость финансирования может привести к выбору результатов, тестовых образцов или тестовых процедур, которые выгодны финансовому спонсору исследования. [10]
- Ошибка отсева возникает из-за потери участников, например, потери последующего наблюдения в ходе исследования. [11]
- Ошибка памяти возникает из-за различий в точности или полноте воспоминаний участников о прошлых событиях; например, пациенты не могут точно вспомнить, сколько сигарет они выкурили на прошлой неделе, что приводит к переоценке или недооценке.
Проверка гипотез
Ошибки типа I и типа II при проверке статистических гипотез приводят к неверным результатам. [12] Ошибка типа I происходит, когда нулевая гипотеза верна, но отвергается. Например, предположим, что нулевая гипотеза заключается в том, что если средняя скорость вождения составляет от 75 до 85 км/ч, то это не считается превышением скорости. С другой стороны, если средняя скорость не находится в этом диапазоне, то это считается превышением скорости. Если кто-то получает штраф со средней скоростью вождения 7 км/ч, лицо, принимающее решение, совершило ошибку типа I. Другими словами, средняя скорость вождения соответствует нулевой гипотезе, но отвергается. Напротив, ошибка типа II происходит, когда нулевая гипотеза неверна, но принимается.
Смещение при проверке гипотез происходит, когда мощность (дополнение к частоте ошибок типа II) при некоторой альтернативе ниже супремума частоты ошибок типа I (которая обычно является уровнем значимости, ). Эквивалентно, если ни одна частота отклонений при любой альтернативе не ниже частоты отклонений в любой точке набора нулевых гипотез, тест считается несмещенным. [13]
Выбор оценщика
Смещение оценщика — это разница между ожидаемым значением оценщика и истинным значением оцениваемого параметра. Хотя теоретически несмещенный оценщик предпочтительнее смещенного оценщика, на практике часто используются смещенные оценщики с небольшими смещениями. Смещенный оценщик может быть более полезным по нескольким причинам. Во-первых, несмещенный оценщик может не существовать без дополнительных предположений. Во-вторых, иногда несмещенный оценщик трудно вычислить. В-третьих, смещенный оценщик может иметь меньшее значение среднеквадратической ошибки.
- Смещенная оценка лучше любой несмещенной оценки, вытекающей из распределения Пуассона . [14] [15] Значение смещенной оценки всегда положительно, а ее среднеквадратическая ошибка меньше, чем у несмещенной, что делает смещенную оценку более точной.
- Смещение из-за пропущенной переменной — это смещение, которое появляется в оценках параметров в регрессионном анализе, когда в предполагаемой спецификации отсутствует независимая переменная, которая должна быть в модели.
Методы анализа
- Ошибка обнаружения возникает, когда явление с большей вероятностью будет наблюдаться для определенного набора субъектов исследования. Например, синдемия, включающая ожирение и диабет, может означать, что врачи с большей вероятностью будут искать диабет у пациентов с ожирением, чем у более худых пациентов, что приводит к инфляции диабета среди пациентов с ожирением из-за искаженных усилий по обнаружению.
- В образовательной оценке предвзятость определяется как «систематические ошибки в содержании теста, его проведении и/или процедурах подсчета баллов, которые могут привести к тому, что некоторые участники теста получат более низкие или более высокие баллы, чем заслуживают их истинные способности». [16] Источник предвзятости не имеет отношения к черте, которую тест призван измерить.
- Предвзятость наблюдателя возникает, когда исследователь подсознательно влияет на эксперимент из-за когнитивного предубеждения , когда суждение может изменить способ проведения эксперимента/способ регистрации результатов.
Интерпретация
Ошибка в отчетности подразумевает перекос в доступности данных, в результате которого наблюдения определенного рода с большей вероятностью будут сообщены.
Борьба со статистическими предубеждениями
В зависимости от типа присутствующего смещения исследователи и аналитики могут предпринимать различные шаги для уменьшения смещения в наборе данных. Все типы смещения, упомянутые выше, имеют соответствующие меры, которые могут быть приняты для уменьшения или устранения их влияния.
Смещение следует учитывать на каждом этапе процесса сбора данных, начиная с четко определенных параметров исследования и рассмотрения команды, которая будет проводить исследование. [2] Смещение наблюдателя можно уменьшить, внедрив слепой или двойной слепой метод. Избежание p-хакинга имеет важное значение для процесса точного сбора данных. Один из способов проверки смещения результатов после — это повторное проведение анализов с различными независимыми переменными, чтобы увидеть, происходит ли данное явление по-прежнему в зависимых переменных. [17] Осторожное использование языка в отчетах может сократить вводящие в заблуждение фразы, такие как обсуждение результата, «приближающегося» к статистически значимому по сравнению с фактическим его достижением. [2]
Смотрите также
Ссылки
- ↑ Коул, Нэнси С. (октябрь 1981 г.). «Предвзятость в тестировании». Американский психолог . 36 (10): 1067–1077. doi :10.1037/0003-066X.36.10.1067. ISSN 1935-990X.
- ^ abc Попович, Александр; Хюккер, Мартин Р. (23 июня 2023 г.). «Исследовательская предвзятость». Stat Pearls . PMID 34662027.
- ^ Ротман, Кеннет Дж .; Гринланд, Сандер ; Лэш, Тимоти Л. (2008). Современная эпидемиология . Липпинкотт Уильямс и Уилкинс . С. 134–137.
- ^ Малхерин, Стефани А.; Миллер, Уильям К. (2002-10-01). «Смещение спектра или эффект спектра? Подгрупповая вариация в оценке диагностических тестов». Annals of Internal Medicine . 137 (7): 598–602. doi :10.7326/0003-4819-137-7-200210010-00011. ISSN 1539-3704. PMID 12353947. S2CID 35752032.
- ^ Бостром, Ник (2013-05-31). Антропное смещение: эффекты отбора наблюдений в науке и философии. Нью-Йорк: Routledge. doi :10.4324/9780203953464. ISBN 978-0-203-95346-4.
- ^ Ćirković, Milan M.; Sandberg, Anders; Bostrom, Nick (2010). «Anthropic Shadow: Observation Selection Effects and Human Extinction Risks». Анализ риска . 30 (10): 1495–1506. doi :10.1111/j.1539-6924.2010.01460.x. ISSN 1539-6924. PMID 20626690. S2CID 6485564.
- ^ Трипепи, Джованни; Ягер, Китти Дж.; Деккер, Фридо В.; Цоккали, Кармине (2010). «Ошибка отбора и ошибка информации в клинических исследованиях». Nephron Clinical Practice . 115 (2): c94–c99. doi : 10.1159/000312871 . ISSN 1660-2110. PMID 20407272. S2CID 18856450.
- ^ "Волонтерская предвзятость". Каталог предвзятости . 2017-11-17 . Получено 2021-12-18 .
- ^ Алекс, Эванс (2020). «Почему женщины занимаются волонтерством чаще, чем мужчины?» . Получено 22.12.2021 .
- ^ Крымский, Шелдон (2013-07-01). «Финансовые конфликты интересов предвзяты в исследованиях?: Исследование гипотезы «эффекта финансирования». Наука, технологии и человеческие ценности . 38 (4): 566–587. doi :10.1177/0162243912456271. ISSN 0162-2439. S2CID 42598982.
- ^ Хиггинс, Джулиан ПТ ; Грин, Салли (март 2011 г.). "8. Введение в источники смещения в клинических испытаниях". В Хиггинс, Джулиан ПТ; и др. (ред.). Кокрейновское руководство по систематическим обзорам вмешательств (версия 5.1). Кокрейновское сотрудничество.
- ^ Нейман, Ежи ; Пирсон, Эгон С. (1936). «Вклад в теорию проверки статистических гипотез». Статистические исследовательские мемуары . 1 : 1–37.
- ^ Казелла, Джордж; Бергер, Роджер Л. (2002), Статистический вывод, 2-е изд., стр. 387
- ^ Романо, Джозеф П.; Сигел, А.Ф. (1986-06-01). Контрпримеры в теории вероятностей и статистике . CRC Press. С. 194–196. ISBN 978-0-412-98901-8.
- ^ Харди, Майкл (2003). «Проясняющий контрпример». The American Mathematical Monthly . 110 (3): 234–238. doi :10.2307/3647938. ISSN 0002-9890. JSTOR 3647938.
- ^ Национальный совет по измерениям в образовании (NCME) . "Глоссарий оценки NCME". Архивировано из оригинала 22-07-2017.
- ^ "5 типов статистических ошибок, которых следует избегать в анализе". Блог Business Insights . 2017-06-13 . Получено 2023-08-16 .
Внешние ссылки