Извлечение данных

Data Dredging (также известный как data snooping или p -hacking ) ^[1]^[a] — это неправильное использование анализа данных для поиска закономерностей в данных, которые могут быть представлены как статистически значимые , тем самым значительно увеличивая и занижая риск ложных срабатываний . Это делается путем проведения множества статистических тестов на данных и сообщения только тех, которые возвращаются со значимыми результатами. ^[2]

Процесс выемки данных включает в себя проверку нескольких гипотез с использованием одного набора данных путем тщательного поиска — возможно, комбинаций переменных, которые могут демонстрировать корреляцию , а возможно, и групп случаев или наблюдений, которые демонстрируют различия в своих средних значениях или в их разбивке по какой-либо другой переменной.

Традиционные тесты статистической значимости основаны на вероятности того, что конкретный результат возникнет, если бы работала только случайность, и обязательно допускают некоторый риск ошибочных выводов определенного типа (ошибочное отклонение нулевой гипотезы ). Этот уровень риска называется значимостью . Когда проводится большое количество тестов, некоторые из них дают ложные результаты этого типа; следовательно, 5% случайно выбранных гипотез могут быть (ошибочно) объявлены статистически значимыми на уровне значимости 5%, 1% может быть (ошибочно) объявлен статистически значимым на уровне значимости 1% и так далее, только по случайности. Когда проверяется достаточное количество гипотез, практически наверняка некоторые из них будут объявлены статистически значимыми (даже если это вводит в заблуждение), поскольку почти каждый набор данных с любой степенью случайности, вероятно, будет содержать (например) некоторые ложные корреляции . Если исследователи, использующие методы добычи данных, не будут осторожны, они могут быть легко введены в заблуждение этими результатами. Термин p-хакинг (по отношению к p -значениям ) был введен в научный оборот в 2014 году тремя исследователями, ведущими блог Data Colada , который занимается выявлением подобных проблем в исследованиях в области социальных наук. ^[3]^[4]^[5]

Выемка данных является примером игнорирования проблемы множественных сравнений . Одна из форм — когда подгруппы сравниваются без уведомления читателя об общем количестве рассмотренных сравнений подгрупп. ^[6]

Типы

Выводы из данных

Традиционная процедура проверки статистических гипотез с использованием частотной вероятности заключается в формулировании исследовательской гипотезы, например, «люди из более высоких социальных классов живут дольше», а затем в сборе соответствующих данных. Наконец, проводится тест статистической значимости , чтобы увидеть, насколько вероятны результаты, полученные исключительно по случайности (также называемый проверкой против нулевой гипотезы).

Ключевым моментом в правильном статистическом анализе является проверка гипотезы с помощью доказательств (данных), которые не использовались при построении гипотезы. Это критически важно, поскольку каждый набор данных содержит некоторые закономерности, обусловленные исключительно случайностью. Если гипотеза не проверяется на другом наборе данных из той же статистической совокупности , невозможно оценить вероятность того, что случайность сама по себе породит такие закономерности.

Например, подбрасывание монеты пять раз с результатом 2 орла и 3 решки может привести к гипотезе, что монета благоприятствует решке в соотношении 3/5 к 2/5. Если затем проверить эту гипотезу на существующем наборе данных, она подтвердится, но подтверждение будет бессмысленным. Правильная процедура заключалась бы в том, чтобы заранее сформировать гипотезу о вероятности выпадения решки, а затем подбросить монету несколько раз, чтобы увидеть, отвергается ли гипотеза или нет. Если наблюдаются три решки и два орла, можно было бы сформировать другую гипотезу о том, что вероятность выпадения решки составляет 3/5, но ее можно было бы проверить только с помощью нового набора подбрасываний монеты. Статистическая значимость при неправильной процедуре полностью ложна — тесты значимости не защищают от подтасовки данных.

Необязательная остановка

Необязательная остановка — это практика, при которой данные собираются до тех пор, пока не будут достигнуты некоторые критерии остановки. Хотя это допустимая процедура, ее легко использовать неправильно. Проблема в том, что p-значение необязательно остановленного статистического теста больше, чем кажется. Интуитивно это происходит потому, что p-значение должно быть суммой всех событий, по крайней мере столь же редких, как и наблюдаемое. При необязательной остановке есть еще более редкие события, которые трудно учесть, т. е. не срабатывание необязательного правила остановки и сбор еще большего количества данных перед остановкой. Пренебрежение этими событиями приводит к слишком низкому p-значению. Фактически, если нулевая гипотеза верна, то можно достичь любого уровня значимости, если разрешить продолжать собирать данные и остановиться, когда будет получено желаемое p-значение (рассчитанное так, как если бы вы всегда планировали собрать именно столько данных). ^[7] Для конкретного примера проверки на честную монету см. p -значение § Необязательная остановка .

Или, более кратко, правильный расчет p-значения требует учета контрфактуальностей, то есть того, что экспериментатор мог бы сделать в ответ на данные, которые могли бы быть. Учет того, что могло бы быть, сложен даже для честных исследователей. ^[7] Одним из преимуществ предварительной регистрации является учет всех контрфактуальностей, что позволяет правильно рассчитать p-значение. ^[8]

Проблема преждевременной остановки не ограничивается только неправомерными действиями исследователя. Часто возникает давление с целью преждевременной остановки, если стоимость сбора данных высока. Некоторые комиссии по этике животных даже требуют преждевременной остановки, если исследование получает значимый результат на полпути. ^[9]

Замена данных после обработки

Если данные удаляются после того, как на них уже был выполнен некоторый анализ данных, например, под предлогом «удаления выбросов», то это увеличит частоту ложных срабатываний. Замена «выбросов» заменяющими данными еще больше увеличивает частоту ложных срабатываний. ^[10]

Группировка постфактум

Если набор данных содержит несколько признаков, то один или несколько признаков могут быть использованы в качестве группировки и потенциально создать статистически значимый результат. Например, если набор данных пациентов регистрирует их возраст и пол, то исследователь может рассмотреть возможность группировки их по возрасту и проверить, коррелирует ли скорость выздоровления от болезни с возрастом. Если это не сработает, то исследователь может проверить, коррелирует ли это с полом. Если нет, то, возможно, это коррелирует с возрастом после контроля пола и т. д. Количество возможных группировок растет экспоненциально с количеством признаков. ^[10]

Гипотеза, предложенная на основе нерепрезентативных данных

Предположим, что исследование случайной выборки людей включает ровно двух человек с днем рождения 7 августа: Мэри и Джона. Кто-то, занимающийся выемкой данных, может попытаться найти дополнительные сходства между Мэри и Джоном. Просматривая сотни или тысячи потенциальных сходств между ними, каждое из которых имеет низкую вероятность быть истинным, можно почти наверняка найти необычное сходство. Возможно, Джон и Мэри — единственные два человека в исследовании, которые трижды меняли несовершеннолетних в колледже. Гипотеза, смещенная выемкой данных, может тогда быть такой: «люди, родившиеся 7 августа, имеют гораздо более высокую вероятность менять несовершеннолетних более двух раз в колледже».

Данные, взятые из контекста, можно рассматривать как убедительное подтверждение этой корреляции, поскольку никто с другим днем рождения не менял второстепенных учеников три раза в колледже. Однако, если (что вероятно) это ложная гипотеза, этот результат, скорее всего, не будет воспроизводимым ; любая попытка проверить, имеют ли другие люди с днем рождения 7 августа схожую скорость смены второстепенных учеников, скорее всего, почти сразу же даст противоречивые результаты.

Систематическая предвзятость

Смещение — это систематическая ошибка в анализе. Например, врачи направляли пациентов с ВИЧ с высоким сердечно-сосудистым риском на определенное лечение ВИЧ, абакавир , а пациентов с низким риском — на другие препараты, что не позволяло провести простую оценку абакавира по сравнению с другими методами лечения. Анализ, который не исправлял это смещение, несправедливо наказывал абакавир, поскольку его пациенты были более высокого риска, поэтому у большего числа из них были сердечные приступы. ^[6] Эта проблема может быть очень серьезной, например, в наблюдательном исследовании . ^[6]^[2]

Отсутствующие факторы, неизмеренные факторы и потеря для последующего наблюдения также могут привести к смещению. ^[6] При выборе статей со значительными p -значениями отбираются отрицательные исследования, что является смещением публикации . Это также известно как смещение ящика для файлов , потому что менее значимые результаты p -значений остаются в ящике для файлов и никогда не публикуются.

Множественное моделирование

Другой аспект обусловленности статистических тестов знанием данных можно увидеть при использовании системного или машинного анализа и линейной регрессии для наблюдения за частотой данных. ^{[ уточнить ]} Важнейшим шагом в этом процессе является решение о том, какие ковариаты следует включить в связь, объясняющую одну или несколько других переменных. Существуют как статистические (см. пошаговую регрессию ), так и существенные соображения, которые заставляют авторов отдавать предпочтение некоторым своим моделям перед другими, и существует либеральное использование статистических тестов. Однако исключение одной или нескольких переменных из объясняющей связи на основе данных означает, что нельзя обоснованно применять стандартные статистические процедуры к сохраненным переменным в связи, как будто ничего не произошло. По сути дела, сохраненные переменные должны были пройти некий предварительный тест (возможно, неточный интуитивный), который не прошли отброшенные переменные. В 1966 году Селвин и Стюарт сравнили переменные, сохраненные в модели, с рыбой, которая не проваливается в сеть, — в том смысле, что их эффекты обязательно будут больше, чем у тех, которые проваливаются в сеть. Это не только изменяет эффективность всех последующих тестов на сохраненной объяснительной модели, но также может внести смещение и изменить среднеквадратичную ошибку в оценке. ^[11]^[12]

Примеры

В метеорологии и эпидемиологии

В метеорологии гипотезы часто формулируются с использованием данных о погоде, полученных до настоящего момента, и проверяются с использованием данных о будущей погоде, что гарантирует, что даже подсознательно будущие данные не смогут повлиять на формулировку гипотезы. Конечно, такая дисциплина требует ожидания поступления новых данных, чтобы показать предсказательную силу сформулированной теории по сравнению с нулевой гипотезой . Этот процесс гарантирует, что никто не сможет обвинить исследователя в ручной подгонке предсказательной модели под имеющиеся данные, поскольку предстоящая погода еще не доступна.

В качестве другого примера предположим, что наблюдатели отмечают, что в определенном городе, по-видимому, есть кластер рака , но у них нет твердой гипотезы о том, почему это так. Однако у них есть доступ к большому объему демографических данных о городе и его окрестностях, содержащих измерения для области сотен или тысяч различных переменных, в основном некоррелированных. Даже если все эти переменные независимы от уровня заболеваемости раком, весьма вероятно, что по крайней мере одна переменная значительно коррелирует с уровнем заболеваемости раком в этой области. Хотя это может предполагать гипотезу, для подтверждения необходимо дальнейшее тестирование с использованием тех же переменных, но с данными из другого места. Обратите внимание, что p -значение 0,01 предполагает, что в 1% случаев результат, по крайней мере, такой экстремальный, будет получен случайно; если проверяются сотни или тысячи гипотез (с относительно некоррелированными независимыми переменными), то, скорее всего, будет получено p -значение менее 0,01 для многих нулевых гипотез.

Появление в СМИ

Одним из примеров является исследование мистификации шоколадного похудения, проведенное журналистом Джоном Боханноном , который публично объяснил в статье Gizmodo , что исследование было преднамеренно проведено мошенническим путем в качестве социального эксперимента . ^[13] Это исследование было широко распространено во многих средствах массовой информации около 2015 года, и многие люди поверили утверждению, что употребление плитки шоколада каждый день заставит их похудеть, вопреки их здравому смыслу. Это исследование было опубликовано в Институте диеты и здоровья. По словам Боханнона, для снижения p -значения до уровня ниже 0,05 решающее значение имел учет 18 различных переменных при тестировании.

Средства правовой защиты

Хотя поиск закономерностей в данных является законным, применение статистического теста значимости или проверки гипотез к тем же данным до тех пор, пока не появится закономерность, подвержено злоупотреблениям. Один из способов построения гипотез, избегая при этом выемки данных, — это проведение рандомизированных тестов вне выборки . Исследователь собирает набор данных, затем случайным образом разбивает его на два подмножества, A и B. Только одно подмножество — скажем, подмножество A — проверяется для создания гипотез. После того, как гипотеза сформулирована, ее необходимо проверить на подмножестве B, которое не использовалось для построения гипотезы. Только в том случае, если B также поддерживает такую гипотезу, разумно полагать, что гипотеза может быть действительной. (Это простой тип перекрестной проверки , который часто называют обучающим тестом или проверкой с разделением пополам.)

Другим средством для выемки данных является запись количества всех тестов значимости, проведенных в ходе исследования, и простое деление своего критерия значимости (альфа) на это число; это поправка Бонферрони . Однако это очень консервативная метрика. Альфа по семейству 0,05, разделенная таким образом на 1000 для учета 1000 тестов значимости, дает очень строгую альфу на гипотезу 0,00005. Методы, особенно полезные в дисперсионном анализе и при построении одновременных доверительных интервалов для регрессий, включающих базисные функции, — это метод Шеффе и, если исследователь имеет в виду только попарные сравнения , метод Тьюки . Чтобы избежать крайней консервативности поправки Бонферрони, доступны более сложные методы выборочного вывода. ^[14] Наиболее распространенным методом выборочного вывода является использование процедуры контроля частоты ложных срабатываний Бенджамини и Хохберга : это менее консервативный подход, который стал популярным методом контроля множественных проверок гипотез.

Когда ни один из подходов не является практичным, можно провести четкое различие между подтверждающим и разведывательным анализами данных . Статистический вывод подходит только для первого. ^[12]

В конечном счете, статистическая значимость теста и статистическая достоверность вывода являются совместными свойствами данных и метода, используемого для проверки данных. Таким образом, если кто-то говорит, что определенное событие имеет вероятность 20% ± 2% 19 раз из 20, это означает, что если вероятность события оценивается тем же методом, который использовался для получения оценки 20%, результат будет между 18% и 22% с вероятностью 0,95. Никакое утверждение о статистической значимости не может быть сделано только путем наблюдения, без должного учета метода, используемого для оценки данных.

Академические журналы все чаще переходят на формат зарегистрированного отчета , который направлен на противодействие очень серьезным проблемам, таким как выкапывание данных и HARKing , которые сделали исследования по проверке теорий очень ненадежными. Например, Nature Human Behaviour принял формат зарегистрированного отчета, поскольку он «переносит акцент с результатов исследования на вопросы, которые направляют исследование, и методы, используемые для ответа на них». ^[15] European Journal of Personality определяет этот формат следующим образом: «В зарегистрированном отчете авторы создают предложение по исследованию, которое включает теоретические и эмпирические предпосылки, исследовательские вопросы/гипотезы и пилотные данные (если таковые имеются). После подачи это предложение будет рассмотрено до сбора данных, и в случае принятия статья, полученная в результате этой рецензируемой процедуры, будет опубликована независимо от результатов исследования». ^[16]

Методы и результаты также могут быть опубликованы, как в подходе открытой науки , что еще больше затруднит извлечение данных. ^[17]

Смотрите также

Алиасинг – эффект обработки сигнала
Ошибка базовой ставки – ошибка мышления, которая заключается в недооценке информации о базовой ставке.
Библейский код – предполагаемый набор секретных сообщений, закодированных в еврейском тексте Торы.
Неравенства Бонферрони – Неравенства, применяемые к вероятностным пространствам
Выборка вишни – Заблуждение о неполном доказательстве
Заблуждение о саде расходящихся тропинок ^[18] – побочный эффект слишком большого количества степеней свободы исследователя
Круговой анализ – Ошибка в статистическом анализе
HARKing – аббревиатура от «Выдвижение гипотез после того, как стали известны результаты».
Городская легенда совпадений Линкольна и Кеннеди – Городская легенда
Эффект взгляда в другом месте – явление статистического анализа
Метанаука – Научное изучение науки
Неправильное использование статистики – использование статистических аргументов для утверждения ложных утверждений.
Переобучение – ошибка в математическом моделировании
Парейдолия – восприятие значимых образов или изображений в случайных или неопределенных стимулах.
Постанализ – статистический анализ, который не был указан до того, как данные были просмотрены.
Теоретизирование постфактум – Проблема циклического рассуждения в статистике
Прогностическая аналитика – статистические методы анализа фактов для составления прогнозов относительно неизвестных событий.
Заблуждение о техасском снайпере – Статистическое заблуждение

Примечания

^ Другие названия включают в себя выкапывание данных, разделку данных, вылавливание данных, выборочный вывод, погоню за значимостью и поиск значимости.

Ссылки

^ Вассерштейн, Рональд Л.; Лазар, Николь А. (2016-04-02). «Заявление ASA о p-значениях: контекст, процесс и цель». Американский статистик . 70 (2). Informa UK Limited: 129–133. doi : 10.1080/00031305.2016.1154108 . ISSN 0003-1305.
^ ab Дэйви Смит, Г .; Эбрахим, С. (2002). «Выемка данных, смещение или смешение». BMJ . 325 (7378): 1437–1438. doi :10.1136/bmj.325.7378.1437. PMC 1124898. PMID 12493654 .
^ Льюис-Краус, Гидеон (30.09.2023). «Они изучали нечестность. Была ли их работа ложью?». The New Yorker . ISSN 0028-792X . Получено 01.10.2023 .
^ Subbaraman, Nidhi (2023-09-24). «The Band of Debunkers Busting Bad Scientists». Wall Street Journal . Архивировано из оригинала 2023-09-24 . Получено 2023-10-08 .
^ "APA PsycNet". psycnet.apa.org . Проверено 8 октября 2023 г.
^ abcd Янг, С. С.; Карр, А. (2011). "Деминг, данные и наблюдательные исследования" (PDF) . Значимость . 8 (3): 116–120. doi : 10.1111/j.1740-9713.2011.00506.x .
^ ab Wagenmakers, Eric-Jan (октябрь 2007 г.). «Практическое решение распространенных проблем значений p». Psychonomic Bulletin & Review . 14 (5): 779–804. doi :10.3758/BF03194105. ISSN 1069-9384. PMID 18087943.
^ Вихертс, Желте М.; Вельдкамп, Кузье Л.С.; Августейн, Хильда Э.М.; Баккер, Марьян; ван Аэрт, Робби CM; ван Ассен, Марсель АЛМ (25 ноября 2016 г.). «Степени свободы в планировании, проведении, анализе и составлении отчетов о психологических исследованиях: контрольный список, позволяющий избежать взлома». Границы в психологии . 7 : 1832. doi : 10.3389/fpsyg.2016.01832 . ISSN 1664-1078. ПМК 5122713 . ПМИД 27933012.
^ Хэд, Меган Л.; Холман, Люк; Ланфир, Роб; Кан, Эндрю Т.; Дженнионс, Майкл Д. (2015-03-13). «Масштабы и последствия P-хакинга в науке». PLOS Biology . 13 (3): e1002106. doi : 10.1371/journal.pbio.1002106 . ISSN 1545-7885. PMC 4359000. PMID 25768323 .
^ ab Szucs, Denes (2016-09-22). "Учебник по поиску статистической значимости путем погони за N". Frontiers in Psychology . 7. doi : 10.3389/fpsyg.2016.01444 . ISSN 1664-1078. PMC 5031612. PMID 27713723 .
^ Селвин, Х. К.; Стюарт, А. (1966). «Процедуры извлечения данных в анализе обследований». Американский статистик . 20 (3): 20–23. doi :10.1080/00031305.1966.10480401. JSTOR 2681493.
^ ab Берк, Р.; Браун, Л.; Чжао, Л. (2009). «Статистический вывод после выбора модели». J Quant Criminol . 26 (2): 217–236. doi :10.1007/s10940-009-9077-7. S2CID 10350955.
^ Боханнон, Джон (27.05.2015). «Я обманул миллионы, заставив их думать, что шоколад помогает похудеть. Вот как». Gizmodo . Получено 20.10.2023 .
^ Тейлор, Дж.; Тибширани, Р. (2015). «Статистическое обучение и выборочный вывод». Труды Национальной академии наук . 112 (25): 7629–7634. Bibcode : 2015PNAS..112.7629T. doi : 10.1073/pnas.1507583112 . PMC 4485109. PMID 26100887 .
^ «Повышение воспроизводимости с помощью зарегистрированных отчетов». Nature Human Behaviour . 1 (1): 0034. 10 января 2017 г. doi : 10.1038/s41562-016-0034 . S2CID 28976450.
^ «Упрощенный обзор и зарегистрированные отчеты скоро станут официальными в EJP». ejp-blog.com . 6 февраля 2018 г.
^ Vyse, Stuart (2017). «P-Hacker Confessions: Daryl Bem and Me». Skeptical Inquirer . 41 (5): 25–27. Архивировано из оригинала 2018-08-05 . Получено 5 августа 2018 .
^ Гельман, Эндрю (2013). «Сад расходящихся тропок» (PDF) .

Дальнейшее чтение

Иоаннидис, Джон ПА (30 августа 2005 г.). «Почему большинство опубликованных результатов исследований ложны». PLOS Medicine . 2 (8). Сан-Франциско: Публичная научная библиотека: e124. doi : 10.1371/journal.pmed.0020124 . ISSN 1549-1277. PMC 1182327. PMID 16060722 .
Head, Megan L.; Holman, Luke; Lanfear, Rob; Kahn, Andrew T.; Jennions, Michael D. (13 марта 2015 г.). «Масштабы и последствия P-хакинга в науке». PLOS Biology . 13 (3): e1002106. doi : 10.1371/journal.pbio.1002106 . PMC 4359000. PMID 25768323 .
Инсел, Томас (14 ноября 2014 г.). "P-Hacking". Блог директора NIMH .
Смит, Гэри (2016). Стандартные отклонения: ошибочные предположения, искаженные данные и другие способы лгать с помощью статистики. Gerald Duckworth & Co. ISBN 9780715649749.

Внешние ссылки

Библиография по предвзятости в отношении слежки за данными
Ложные корреляции, галерея примеров неправдоподобных корреляций
StatQuest: подводные камни P-значения и расчеты мощности на YouTube
Видеоролик, объясняющий p-хакинг, от " Neuroskeptic ", блогера журнала Discover Magazine
Отойдите от Stepwise, статья в журнале Journal of Big Data, критикующая пошаговую регрессию