stringtranslate.com

Извлечение данных

Юмористический пример результата, полученного в результате сбора данных, показывающий случайную корреляцию между количеством букв в слове-победителе Национального конкурса орфографии Скриппса и количеством людей в Соединенных Штатах, убитых ядовитыми пауками.

Сбор данных (также известный как перехват данных или p -хакинг ) [1] [a] — это неправильное использование анализа данных для обнаружения закономерностей в данных, которые могут быть представлены как статистически значимые , что резко увеличивает и занижает риск ложноположительных результатов . Это делается путем выполнения множества статистических тестов данных и сообщения только о тех, которые дают значимые результаты. [2]

Процесс сбора данных включает в себя проверку множества гипотез с использованием одного набора данных путем исчерпывающего поиска — возможно, комбинаций переменных, которые могут показать корреляцию , и, возможно, групп случаев или наблюдений, которые показывают различия в их средних значениях или в их разбивке по каким-либо другим показателям. переменная.

Обычные тесты статистической значимости основаны на вероятности того, что конкретный результат возник бы, если бы действовал только случай, и обязательно допускают некоторый риск ошибочных выводов определенного типа (ошибочные отклонения нулевой гипотезы ). Этот уровень риска называется значимостью . Когда проводится большое количество тестов, некоторые из них дают ложные результаты такого типа; следовательно, 5% случайно выбранных гипотез могут быть (ошибочно) признаны статистически значимыми на уровне значимости 5%, 1% могут быть (ошибочно) признаны статистически значимыми на уровне значимости 1% и т. д., только случайно. . Когда будет проверено достаточное количество гипотез, практически наверняка некоторые из них будут признаны статистически значимыми (хотя это и вводит в заблуждение), поскольку почти каждый набор данных с любой степенью случайности может содержать (например) некоторые ложные корреляции . Если они не будут осторожны, исследователи, использующие методы интеллектуального анализа данных, могут легко быть введены в заблуждение этими результатами. Термин «p-хакинг» (применительно к p -значениям ) был придуман в статье 2014 года тремя исследователями, ведущими блог Data Colada , который занимается выявлением подобных проблем в исследованиях в области социальных наук. [3] [4] [5]

Извлечение данных является примером игнорирования проблемы множественных сравнений . Одна из форм заключается в том, что подгруппы сравниваются без уведомления читателя об общем количестве рассмотренных сравнений подгрупп. [6]

Типы

Делаем выводы на основе данных

Обычная процедура проверки статистических гипотез с использованием частотной вероятности заключается в формулировании исследовательской гипотезы, например, «люди из более высоких социальных классов живут дольше», а затем в сборе соответствующих данных. Наконец, проводится тест статистической значимости , чтобы увидеть, насколько вероятны результаты только случайно (также называемый тестом на нулевую гипотезу).

Ключевым моментом правильного статистического анализа является проверка гипотезы с помощью доказательств (данных), которые не использовались при построении гипотезы. Это очень важно, поскольку каждый набор данных содержит некоторые закономерности, возникающие исключительно случайно. Если гипотеза не проверена на другом наборе данных из той же статистической совокупности , невозможно оценить вероятность того, что одна только случайность приведет к возникновению таких закономерностей.

Например, если подбросить монету пять раз и получить 2 орла и 3 решки, можно предположить, что преимущество монеты в решке составляет от 3/5 до 2/5. Если эту гипотезу затем проверить на существующем наборе данных, она подтвердится, но подтверждение бессмысленно. Правильная процедура заключалась бы в том, чтобы заранее сформировать гипотезу о том, какова вероятность выпадения решки, а затем несколько раз бросить монету, чтобы увидеть, отклонена ли гипотеза или нет. Если наблюдаются три решки и две решки, может быть сформирована еще одна гипотеза о том, что вероятность решки равна 3/5, но ее можно проверить только с помощью новой серии подбрасываний монеты. Важно понимать, что статистическая значимость при неправильной процедуре полностью ложна — тесты значимости не защищают от выкапывания данных.

Гипотеза, выдвинутая на основе нерепрезентативных данных

Предположим, что в исследование случайной выборки людей вошли ровно два человека с днем ​​рождения 7 августа: Мэри и Джон. Кто-то, занимающийся сбором данных, может попытаться найти дополнительные сходства между Мэри и Джоном. Проанализировав сотни или тысячи потенциальных сходств между ними, каждое из которых имеет низкую вероятность быть правдой, почти наверняка можно найти необычное сходство. Возможно, Джон и Мэри — единственные два человека в исследовании, которые трижды меняли несовершеннолетних в колледже. Гипотеза, основанная на тщательном изучении данных, может заключаться в том, что «люди, родившиеся 7 августа, имеют гораздо более высокие шансы сменить несовершеннолетнего более чем дважды в колледже».

Сами данные, вырванные из контекста, можно рассматривать как убедительное подтверждение этой корреляции, поскольку никто с разным днем ​​рождения не менял несовершеннолетних трижды в колледже. Однако если (что вполне вероятно) это ложная гипотеза, этот результат, скорее всего, не будет воспроизводимым ; Любая попытка проверить, имеют ли другие люди, родившиеся 7 августа, аналогичную скорость изменения несовершеннолетних, скорее всего, почти сразу же получит противоречивые результаты.

Систематическая предвзятость

Предвзятость – это систематическая ошибка анализа. Например, врачи направляли пациентов с ВИЧ с высоким сердечно-сосудистым риском на конкретное лечение ВИЧ — абакавир , а пациентов с низким риском — на другие препараты, что не позволяло провести простую оценку абакавира по сравнению с другими методами лечения. Анализ, который не устранил эту предвзятость, несправедливо наказал абакавир, поскольку его пациенты подвергались более высокому риску, поэтому у большего числа из них наблюдались сердечные приступы. [6] Эта проблема может быть очень серьезной, например, в наблюдательном исследовании . [6] [2]

Недостающие факторы, неизмеренные факторы, искажающие результаты , и потеря возможности последующего наблюдения также могут привести к систематической ошибке. [6] При выборе статей со значительными значениями p отбираются отрицательные исследования, что является предвзятостью публикации . Это также известно как смещение ящика с файлами , поскольку менее значимые результаты с p -значением остаются в ящике с файлами и никогда не публикуются.

Множественное моделирование

Другой аспект обусловленности статистических тестов знанием данных можно увидеть при использовании системного или машинного анализа и линейной регрессии для наблюдения за частотой данных. [ уточнить ] Важнейшим шагом в этом процессе является принятие решения о том, какие ковариаты включать в отношения, объясняющие одну или несколько других переменных. Существуют как статистические (см. пошаговую регрессию ), так и существенные соображения, которые заставляют авторов отдавать предпочтение одним из своих моделей другим, а также широко используются статистические тесты. Однако исключение одной или нескольких переменных из объяснительного отношения на основе данных означает, что нельзя обоснованно применять стандартные статистические процедуры к оставшимся переменным в отношении, как будто ничего не произошло. По сути дела, сохраненные переменные должны были пройти некий предварительный тест (возможно, неточный, интуитивный), чтобы отброшенные переменные не прошли проверку. В 1966 году Селвин и Стюарт сравнили переменные, сохраненные в модели, с рыбой, которая не попадает в сеть – в том смысле, что их влияние обязательно будет больше, чем у тех, которые все же попадают в сеть. Это не только изменяет эффективность всех последующих тестов на сохраненной объяснительной модели, но также может внести предвзятость и изменить среднеквадратическую ошибку в оценке. [7] [8]

Примеры

В метеорологии и эпидемиологии

В метеорологии гипотезы часто формулируются с использованием данных о погоде на данный момент и проверяются на основе данных о погоде в будущем, что гарантирует, что даже подсознательно будущие данные не смогут повлиять на формулировку гипотезы. Конечно, такая дисциплина требует ожидания поступления новых данных, чтобы продемонстрировать предсказательную силу сформулированной теории по сравнению с нулевой гипотезой . Этот процесс гарантирует, что никто не сможет обвинить исследователя в ручной адаптации прогнозной модели к имеющимся данным, поскольку информация о предстоящей погоде еще не доступна.

В качестве другого примера предположим, что наблюдатели отмечают, что в конкретном городе наблюдается кластер рака , но у них нет твердой гипотезы о том, почему это так. Однако у них есть доступ к большому количеству демографических данных о городе и его окрестностях, содержащих измерения для территории сотен или тысяч различных переменных, в основном некоррелированных. Даже если все эти переменные не зависят от уровня заболеваемости раком, весьма вероятно, что по крайней мере одна переменная существенно коррелирует с уровнем заболеваемости раком в регионе. Хотя это может указывать на гипотезу, для подтверждения необходимо дальнейшее тестирование с использованием тех же переменных, но с данными из другого места. Обратите внимание, что значение p , равное 0,01, предполагает, что в 1% случаев результат, по крайней мере, такого экстремального значения, будет получен случайно; если проверяются сотни или тысячи гипотез (с взаимно относительно некоррелированными независимыми переменными), то, скорее всего, можно получить значение p меньше 0,01 для многих нулевых гипотез.

В социологии

Еще один способ сгладить p-кривую — контролировать пол . Анализ Simonson et. ал. исследование Брунса и Иоаннидиса (2016) демонстрирует это: когда Брунс и Иоаннидис отказались от гендерного контроля, это также снизило сообщаемое значение t с 9,29 до 0,88, демонстрируя непричинный эффект там, где ранее был зафиксирован причинный эффект ( 3). [9] Это важный вывод, поскольку значения t обратно пропорциональны значениям p , а это означает, что более высокие значения t (выше 2,8) указывают на более низкие значения p . Контролируя пол, можно искусственно завышать значение t , тем самым искусственно занижая значение p .

Появление в СМИ

Одним из примеров является исследование мистификации шоколадного похудания , проведенное журналистом Джоном Боханноном , который публично объяснил в статье Gizmodo , что исследование было намеренно проведено мошенническим путем как социальный эксперимент . [10] Это исследование было широко распространено во многих средствах массовой информации примерно в 2015 году, и многие люди поверили утверждению, что ежедневное употребление плитки шоколада заставит их похудеть, вопреки здравому смыслу. Это исследование было опубликовано в Институте диеты и здоровья. По словам Боханнона, для снижения значения p ниже 0,05 решающее значение имело принятие во внимание 18 различных переменных при тестировании.

Средства

Хотя поиск закономерностей в данных является законным, применение статистического теста значимости или проверки гипотез к тем же данным до тех пор, пока не появится закономерность, подвержено злоупотреблениям. Один из способов построить гипотезы, избегая при этом сбора данных, — это проведение рандомизированных тестов вне выборки . Исследователь собирает набор данных, затем случайным образом разделяет его на два подмножества, A и B. Только одно подмножество, скажем, подмножество A, исследуется на предмет создания гипотез. После того как гипотеза сформулирована, ее необходимо проверить на подмножестве B, которое не использовалось для построения гипотезы. Только если B также поддерживает такую ​​гипотезу, разумно полагать, что эта гипотеза может быть верной. (Это простой тип перекрестной проверки , который часто называют обучающим тестом или разделенной половинной проверкой.)

Еще одно средство от сбора данных — записать количество всех тестов значимости, проведенных во время исследования, и просто разделить критерий значимости (альфа) на это число; это поправка Бонферрони . Однако это очень консервативный показатель. Семейная альфа 0,05, разделенная таким образом на 1000 для учета 1000 тестов значимости, дает очень строгую альфу для каждой гипотезы, равную 0,00005. Методы, особенно полезные при дисперсионном анализе и построении одновременных доверительных интервалов для регрессий, включающих базисные функции, — это метод Шеффе и, если исследователь имеет в виду только парные сравнения , метод Тьюки . Чтобы избежать крайней консервативности поправки Бонферрони, доступны более сложные методы выборочного вывода. [11] Наиболее распространенным методом выборочного вывода является использование процедуры контроля частоты ложных открытий Бенджамини и Хохберга : это менее консервативный подход, который стал популярным методом управления множественными проверками гипотез.

Когда ни один из подходов не является практичным, можно провести четкое различие между подтверждающим анализом данных и исследовательским анализом . Статистический вывод подходит только для первого случая. [8]

В конечном счете, статистическая значимость теста и статистическая достоверность результатов являются совместными свойствами данных и метода, используемого для изучения данных. Таким образом, если кто-то говорит, что определенное событие имеет вероятность 20% ± 2% 19 раз из 20, это означает, что если вероятность события оценивается тем же методом, который использовался для получения оценки 20%, результат будет между 18% и 22% с вероятностью 0,95. Никакие заявления о статистической значимости не могут быть сделаны на основе простого просмотра без должного учета метода, использованного для оценки данных.

Научные журналы все чаще переходят на формат зарегистрированных отчетов , целью которого является противодействие очень серьезным проблемам, таким как сбор данных и HARKing , которые делают исследования по проверке теорий очень ненадежными. Например, журнал Nature Human Behavior принял зарегистрированный формат отчета, поскольку он «смещает акцент с результатов исследований на вопросы, которыми руководствуется исследование, и методы, используемые для ответа на них». [12] Европейский журнал личности определяет этот формат следующим образом: «В зарегистрированном отчете авторы создают предложение на исследование, которое включает теоретическую и эмпирическую основу, исследовательские вопросы/гипотезы и пилотные данные (если таковые имеются). После подачи это предложение затем будет рассмотрен перед сбором данных, и в случае принятия документ, полученный в результате этой рецензируемой процедуры, будет опубликован независимо от результатов исследования». [13]

Методы и результаты также могут быть общедоступными, как в случае с подходом открытой науки , что еще больше затрудняет сбор данных. [14]

Смотрите также

Примечания

  1. ^ Другие названия: «бойня данных», «вылов данных», «селективный вывод», «погоня за значимостью» и «поиск значимости».

Рекомендации

  1. ^ Вассерштейн, Рональд Л.; Лазар, Николь А. (2 апреля 2016 г.). «Заявление ASA о p-значениях: контекст, процесс и цель». Американский статистик . 70 (2). Информа UK Limited: 129–133. дои : 10.1080/00031305.2016.1154108 . ISSN  0003-1305.
  2. ^ аб Дэйви Смит, Г .; Ибрагим, С. (2002). «Извлечение данных, предвзятость или путаница». БМЖ . 325 (7378): 1437–1438. дои : 10.1136/bmj.325.7378.1437. ПМЦ 1124898 . ПМИД  12493654. 
  3. ^ Льюис-Краус, Гидеон (30 сентября 2023 г.). «Они изучали нечестность. Была ли их работа ложью?». Житель Нью-Йорка . ISSN  0028-792X . Проверено 1 октября 2023 г.
  4. ^ Суббараман, Нидхи (24 сентября 2023 г.). «Группа разоблачителей, уничтожающая плохих ученых». Уолл Стрит Джорнал . Архивировано из оригинала 24 сентября 2023 г. Проверено 8 октября 2023 г.
  5. ^ "APA PsycNet". psycnet.apa.org . Проверено 8 октября 2023 г.
  6. ^ abcd Янг, SS; Карр, А. (2011). «Деминг, данные и наблюдательные исследования» (PDF) . Значение . 8 (3): 116–120. дои : 10.1111/j.1740-9713.2011.00506.x .
  7. ^ Селвин, ХК; Стюарт, А. (1966). «Процедуры сбора данных при анализе обследований». Американский статистик . 20 (3): 20–23. дои : 10.1080/00031305.1966.10480401. JSTOR  2681493.
  8. ^ Аб Берк, Р.; Браун, Л.; Чжао, Л. (2009). «Статистический вывод после выбора модели». Дж. Квант Криминол . 26 (2): 217–236. дои : 10.1007/s10940-009-9077-7. S2CID  10350955.
  9. ^ Симонсон, Ури; Нельсон, Лейф Д.; Симмонс, Джозеф П. (11 марта 2019 г.). «P-кривая не поможет вам стирать белье, но она позволит отличить воспроизводимые и невоспроизводимые результаты наблюдательных исследований: комментарий к Bruns & Ioannidis (2016)». ПЛОС ОДИН . 14 (3): e0213454. Бибкод : 2019PLoSO..1413454S. дои : 10.1371/journal.pone.0213454 . ПМК 6411107 . ПМИД  30856227. 
  10. ^ Боханнон, Джон (27 мая 2015 г.). «Я обманул миллионы людей, заставив их думать, что шоколад помогает похудеть. Вот как». Гизмодо . Проверено 20 октября 2023 г.
  11. ^ Тейлор, Дж.; Тибширани, Р. (2015). «Статистическое обучение и выборочный вывод». Труды Национальной академии наук . 112 (25): 7629–7634. дои : 10.1073/pnas.1507583112 . ПМЦ 4485109 . 
  12. ^ «Повышение воспроизводимости с помощью зарегистрированных отчетов» . Природа человеческого поведения . 1 (1): 0034. 10 января 2017 г. doi : 10.1038/s41562-016-0034 . S2CID  28976450.
  13. ^ «Упрощенная проверка и зарегистрированные отчеты скоро станут официальными в EJP» . ejp-блог.com . 6 февраля 2018 г.
  14. ^ Вайс, Стюарт (2017). «Признания P-хакера: Дэрил Бем и я». Скептический исследователь . 41 (5): 25–27. Архивировано из оригинала 5 августа 2018 г. Проверено 5 августа 2018 г.
  15. ^ Гельман, Эндрю (2013). «Сад расходящихся тропинок» (PDF) .

дальнейшее чтение

Внешние ссылки