stringtranslate.com

Предвзятость (статистика)

Статистическое смещение в математической области статистики — это систематическая тенденция, при которой методы, используемые для сбора данных и генерации статистики, представляют неточное, искаженное или предвзятое изображение реальности. Статистическое смещение существует на многочисленных этапах процесса сбора и анализа данных, включая: источник данных, методы, используемые для сбора данных, выбранную оценку и методы, используемые для анализа данных. Аналитики данных могут принимать различные меры на каждом этапе процесса, чтобы уменьшить влияние статистического смещения в своей работе. Понимание источника статистического смещения может помочь оценить, близки ли наблюдаемые результаты к действительности. Утверждается, что вопросы статистического смещения тесно связаны с вопросами статистической достоверности . [1]

Статистическая предвзятость может иметь значительные последствия в реальном мире, поскольку данные используются для информирования о принятии решений в самых разных процессах в обществе. Данные используются для информирования о законотворчестве, регулировании отрасли, тактике корпоративного маркетинга и дистрибуции, а также институциональной политике в организациях и на рабочих местах. Следовательно, могут быть значительные последствия, если статистическая предвзятость не учитывается и не контролируется. Например, если фармацевтическая компания хочет изучить влияние лекарства на простуду, но выборка данных включает только мужчин, любые выводы, сделанные на основе этих данных, будут предвзятыми в отношении того, как лекарство влияет на мужчин, а не на людей в целом. Это означает, что информация будет неполной и бесполезной для принятия решения о том, готово ли лекарство к выпуску для широкой публики. В этом сценарии предвзятость можно устранить путем расширения выборки. Эта ошибка выборки — лишь один из способов, с помощью которых данные могут быть предвзятыми.

Смещение можно отличить от других статистических ошибок, таких как точность (неисправность/неадекватность инструмента), отсутствие данных или ошибки в транскрипции (опечатки). Смещение подразумевает, что выбор данных мог быть искажен критериями сбора. Другие формы человеческого смещения возникают при сборе данных, такие как смещение ответа , при котором участники дают неточные ответы на вопрос. Смещение не исключает существования любых других ошибок. У кого-то может быть плохо спроектированная выборка, неточное измерительное устройство и опечатки при записи данных одновременно. В идеале все факторы контролируются и учитываются.

Также полезно признать, что термин «ошибка» относится конкретно к результату, а не к процессу ( ошибки отклонения или принятия проверяемой гипотезы ), или к явлению случайных ошибок . [2] Термины «недостаток» или «ошибка» рекомендуются для того, чтобы отличать процедурные ошибки от этих специально определенных терминов, основанных на результате.

Смещение оценщика

Статистическое смещение — это свойство статистического метода или его результатов, при котором ожидаемое значение результатов отличается от истинного базового количественного параметра, который оценивается . Смещение оценщика параметра не следует путать со степенью его точности, поскольку степень точности является мерой ошибки выборки. Смещение определяется следующим образом: пусть будет статистикой, используемой для оценки параметра , и пусть обозначает ожидаемое значение . Тогда,

называется смещением статистики (по отношению к ). Если , то говорят, что это несмещенная оценка ; в противном случае говорят, что это смещенная оценка .

Смещение статистики всегда относительно параметра, который она использует для оценки, но параметр часто опускается, когда из контекста ясно, что именно оценивается.

Типы

Статистическое смещение возникает на всех этапах анализа данных. Следующие источники смещения будут перечислены на каждом этапе отдельно.

Выборка данных

Смещение отбора подразумевает, что индивидуумы с большей вероятностью будут выбраны для исследования, чем другие, что смещает выборку . Это также можно назвать эффектом отбора, смещением выборки и смещением Берксона . [3]

Проверка гипотез

Ошибки типа I и типа II при проверке статистических гипотез приводят к неверным результатам. [12] Ошибка типа I происходит, когда нулевая гипотеза верна, но отвергается. Например, предположим, что нулевая гипотеза заключается в том, что если средняя скорость вождения составляет от 75 до 85 км/ч, то это не считается превышением скорости. С другой стороны, если средняя скорость не находится в этом диапазоне, то это считается превышением скорости. Если кто-то получает штраф со средней скоростью вождения 7 км/ч, лицо, принимающее решение, совершило ошибку типа I. Другими словами, средняя скорость вождения соответствует нулевой гипотезе, но отвергается. Напротив, ошибка типа II происходит, когда нулевая гипотеза неверна, но принимается.

Смещение при проверке гипотез происходит, когда мощность (дополнение к частоте ошибок типа II) при некоторой альтернативе ниже супремума частоты ошибок типа I (которая обычно является уровнем значимости, ). Эквивалентно, если ни одна частота отклонений при любой альтернативе не ниже частоты отклонений в любой точке набора нулевых гипотез, тест считается несмещенным. [13]

Выбор оценщика

Смещение оценщика — это разница между ожидаемым значением оценщика и истинным значением оцениваемого параметра. Хотя теоретически несмещенный оценщик предпочтительнее смещенного оценщика, на практике часто используются смещенные оценщики с небольшими смещениями. Смещенный оценщик может быть более полезным по нескольким причинам. Во-первых, несмещенный оценщик может не существовать без дополнительных предположений. Во-вторых, иногда несмещенный оценщик трудно вычислить. В-третьих, смещенный оценщик может иметь меньшее значение среднеквадратической ошибки.

Методы анализа

Интерпретация

Ошибка в отчетности подразумевает перекос в доступности данных, в результате которого наблюдения определенного рода с большей вероятностью будут сообщены.

Борьба со статистическими предубеждениями

В зависимости от типа присутствующего смещения исследователи и аналитики могут предпринимать различные шаги для уменьшения смещения в наборе данных. Все типы смещения, упомянутые выше, имеют соответствующие меры, которые могут быть приняты для уменьшения или устранения их влияния.

Смещение следует учитывать на каждом этапе процесса сбора данных, начиная с четко определенных параметров исследования и рассмотрения команды, которая будет проводить исследование. [2] Смещение наблюдателя можно уменьшить, внедрив слепой или двойной слепой метод. Избежание p-хакинга имеет важное значение для процесса точного сбора данных. Один из способов проверки смещения результатов после — это повторное проведение анализов с различными независимыми переменными, чтобы увидеть, происходит ли данное явление по-прежнему в зависимых переменных. [17] Осторожное использование языка в отчетах может сократить вводящие в заблуждение фразы, такие как обсуждение результата, «приближающегося» к статистически значимому по сравнению с фактическим его достижением. [2]

Смотрите также

Ссылки

  1. Коул, Нэнси С. (октябрь 1981 г.). «Предвзятость в тестировании». Американский психолог . 36 (10): 1067–1077. doi :10.1037/0003-066X.36.10.1067. ISSN  1935-990X.
  2. ^ abc Попович, Александр; Хюккер, Мартин Р. (23 июня 2023 г.). «Исследовательская предвзятость». Stat Pearls . PMID  34662027.
  3. ^ Ротман, Кеннет Дж .; Гринланд, Сандер ; Лэш, Тимоти Л. (2008). Современная эпидемиология . Липпинкотт Уильямс и Уилкинс . С. 134–137.
  4. ^ Малхерин, Стефани А.; Миллер, Уильям К. (2002-10-01). «Смещение спектра или эффект спектра? Подгрупповая вариация в оценке диагностических тестов». Annals of Internal Medicine . 137 (7): 598–602. doi :10.7326/0003-4819-137-7-200210010-00011. ISSN  1539-3704. PMID  12353947. S2CID  35752032.
  5. ^ Бостром, Ник (2013-05-31). Антропное смещение: эффекты отбора наблюдений в науке и философии. Нью-Йорк: Routledge. doi :10.4324/9780203953464. ISBN 978-0-203-95346-4.
  6. ^ Ćirković, Milan M.; Sandberg, Anders; Bostrom, Nick (2010). «Anthropic Shadow: Observation Selection Effects and Human Extinction Risks». Анализ риска . 30 (10): 1495–1506. doi :10.1111/j.1539-6924.2010.01460.x. ISSN  1539-6924. PMID  20626690. S2CID  6485564.
  7. ^ Трипепи, Джованни; Ягер, Китти Дж.; Деккер, Фридо В.; Цоккали, Кармине (2010). «Ошибка отбора и ошибка информации в клинических исследованиях». Nephron Clinical Practice . 115 (2): c94–c99. doi : 10.1159/000312871 . ISSN  1660-2110. PMID  20407272. S2CID  18856450.
  8. ^ "Волонтерская предвзятость". Каталог предвзятости . 2017-11-17 . Получено 2021-12-18 .
  9. ^ Алекс, Эванс (2020). «Почему женщины занимаются волонтерством чаще, чем мужчины?» . Получено 22.12.2021 .
  10. ^ Крымский, Шелдон (2013-07-01). «Финансовые конфликты интересов предвзяты в исследованиях?: Исследование гипотезы «эффекта финансирования». Наука, технологии и человеческие ценности . 38 (4): 566–587. doi :10.1177/0162243912456271. ISSN  0162-2439. S2CID  42598982.
  11. ^ Хиггинс, Джулиан ПТ ; Грин, Салли (март 2011 г.). "8. Введение в источники смещения в клинических испытаниях". В Хиггинс, Джулиан ПТ; и др. (ред.). Кокрейновское руководство по систематическим обзорам вмешательств (версия 5.1). Кокрейновское сотрудничество.
  12. ^ Нейман, Ежи ; Пирсон, Эгон С. (1936). «Вклад в теорию проверки статистических гипотез». Статистические исследовательские мемуары . 1 : 1–37.
  13. ^ Казелла, Джордж; Бергер, Роджер Л. (2002), Статистический вывод, 2-е изд., стр. 387
  14. ^ Романо, Джозеф П.; Сигел, А.Ф. (1986-06-01). Контрпримеры в теории вероятностей и статистике . CRC Press. С. 194–196. ISBN 978-0-412-98901-8.
  15. ^ Харди, Майкл (2003). «Проясняющий контрпример». The American Mathematical Monthly . 110 (3): 234–238. doi :10.2307/3647938. ISSN  0002-9890. JSTOR  3647938.
  16. ^ Национальный совет по измерениям в образовании (NCME) . "Глоссарий оценки NCME". Архивировано из оригинала 22-07-2017.
  17. ^ "5 типов статистических ошибок, которых следует избегать в анализе". Блог Business Insights . 2017-06-13 . Получено 2023-08-16 .

Внешние ссылки