Data Dredging (также известный как data snooping или p -hacking ) [1] [a] — это неправильное использование анализа данных для поиска закономерностей в данных, которые могут быть представлены как статистически значимые , тем самым значительно увеличивая и занижая риск ложных срабатываний . Это делается путем проведения множества статистических тестов на данных и сообщения только тех, которые возвращаются со значимыми результатами. [2]
Процесс выемки данных включает в себя проверку нескольких гипотез с использованием одного набора данных путем тщательного поиска — возможно, комбинаций переменных, которые могут демонстрировать корреляцию , а возможно, и групп случаев или наблюдений, которые демонстрируют различия в своих средних значениях или в их разбивке по какой-либо другой переменной.
Традиционные тесты статистической значимости основаны на вероятности того, что конкретный результат возникнет, если бы работала только случайность, и обязательно допускают некоторый риск ошибочных выводов определенного типа (ошибочное отклонение нулевой гипотезы ). Этот уровень риска называется значимостью . Когда проводится большое количество тестов, некоторые из них дают ложные результаты этого типа; следовательно, 5% случайно выбранных гипотез могут быть (ошибочно) объявлены статистически значимыми на уровне значимости 5%, 1% может быть (ошибочно) объявлен статистически значимым на уровне значимости 1% и так далее, только по случайности. Когда проверяется достаточное количество гипотез, практически наверняка некоторые из них будут объявлены статистически значимыми (даже если это вводит в заблуждение), поскольку почти каждый набор данных с любой степенью случайности, вероятно, будет содержать (например) некоторые ложные корреляции . Если исследователи, использующие методы добычи данных, не будут осторожны, они могут быть легко введены в заблуждение этими результатами. Термин p-хакинг (по отношению к p -значениям ) был введен в научный оборот в 2014 году тремя исследователями, ведущими блог Data Colada , который занимается выявлением подобных проблем в исследованиях в области социальных наук. [3] [4] [5]
Выемка данных является примером игнорирования проблемы множественных сравнений . Одна из форм — когда подгруппы сравниваются без уведомления читателя об общем количестве рассмотренных сравнений подгрупп. [6]
Традиционная процедура проверки статистических гипотез с использованием частотной вероятности заключается в формулировании исследовательской гипотезы, например, «люди из более высоких социальных классов живут дольше», а затем в сборе соответствующих данных. Наконец, проводится тест статистической значимости , чтобы увидеть, насколько вероятны результаты, полученные исключительно по случайности (также называемый проверкой против нулевой гипотезы).
Ключевым моментом в правильном статистическом анализе является проверка гипотезы с помощью доказательств (данных), которые не использовались при построении гипотезы. Это критически важно, поскольку каждый набор данных содержит некоторые закономерности, обусловленные исключительно случайностью. Если гипотеза не проверяется на другом наборе данных из той же статистической совокупности , невозможно оценить вероятность того, что случайность сама по себе породит такие закономерности.
Например, подбрасывание монеты пять раз с результатом 2 орла и 3 решки может привести к гипотезе, что монета благоприятствует решке в соотношении 3/5 к 2/5. Если затем проверить эту гипотезу на существующем наборе данных, она подтвердится, но подтверждение будет бессмысленным. Правильная процедура заключалась бы в том, чтобы заранее сформировать гипотезу о вероятности выпадения решки, а затем подбросить монету несколько раз, чтобы увидеть, отвергается ли гипотеза или нет. Если наблюдаются три решки и два орла, можно было бы сформировать другую гипотезу о том, что вероятность выпадения решки составляет 3/5, но ее можно было бы проверить только с помощью нового набора подбрасываний монеты. Статистическая значимость при неправильной процедуре полностью ложна — тесты значимости не защищают от подтасовки данных.
Необязательная остановка — это практика, при которой данные собираются до тех пор, пока не будут достигнуты некоторые критерии остановки. Хотя это допустимая процедура, ее легко использовать неправильно. Проблема в том, что p-значение необязательно остановленного статистического теста больше, чем кажется. Интуитивно это происходит потому, что p-значение должно быть суммой всех событий, по крайней мере столь же редких, как и наблюдаемое. При необязательной остановке есть еще более редкие события, которые трудно учесть, т. е. не срабатывание необязательного правила остановки и сбор еще большего количества данных перед остановкой. Пренебрежение этими событиями приводит к слишком низкому p-значению. Фактически, если нулевая гипотеза верна, то можно достичь любого уровня значимости, если разрешить продолжать собирать данные и остановиться, когда будет получено желаемое p-значение (рассчитанное так, как если бы вы всегда планировали собрать именно столько данных). [7] Для конкретного примера проверки на честную монету см. p -значение § Необязательная остановка .
Или, более кратко, правильный расчет p-значения требует учета контрфактуальностей, то есть того, что экспериментатор мог бы сделать в ответ на данные, которые могли бы быть. Учет того, что могло бы быть, сложен даже для честных исследователей. [7] Одним из преимуществ предварительной регистрации является учет всех контрфактуальностей, что позволяет правильно рассчитать p-значение. [8]
Проблема преждевременной остановки не ограничивается только неправомерными действиями исследователя. Часто возникает давление с целью преждевременной остановки, если стоимость сбора данных высока. Некоторые комиссии по этике животных даже требуют преждевременной остановки, если исследование получает значимый результат на полпути. [9]
Если данные удаляются после того, как на них уже был выполнен некоторый анализ данных, например, под предлогом «удаления выбросов», то это увеличит частоту ложных срабатываний. Замена «выбросов» заменяющими данными еще больше увеличивает частоту ложных срабатываний. [10]
Если набор данных содержит несколько признаков, то один или несколько признаков могут быть использованы в качестве группировки и потенциально создать статистически значимый результат. Например, если набор данных пациентов регистрирует их возраст и пол, то исследователь может рассмотреть возможность группировки их по возрасту и проверить, коррелирует ли скорость выздоровления от болезни с возрастом. Если это не сработает, то исследователь может проверить, коррелирует ли это с полом. Если нет, то, возможно, это коррелирует с возрастом после контроля пола и т. д. Количество возможных группировок растет экспоненциально с количеством признаков. [10]
Предположим, что исследование случайной выборки людей включает ровно двух человек с днем рождения 7 августа: Мэри и Джона. Кто-то, занимающийся выемкой данных, может попытаться найти дополнительные сходства между Мэри и Джоном. Просматривая сотни или тысячи потенциальных сходств между ними, каждое из которых имеет низкую вероятность быть истинным, можно почти наверняка найти необычное сходство. Возможно, Джон и Мэри — единственные два человека в исследовании, которые трижды меняли несовершеннолетних в колледже. Гипотеза, смещенная выемкой данных, может тогда быть такой: «люди, родившиеся 7 августа, имеют гораздо более высокую вероятность менять несовершеннолетних более двух раз в колледже».
Данные, взятые из контекста, можно рассматривать как убедительное подтверждение этой корреляции, поскольку никто с другим днем рождения не менял второстепенных учеников три раза в колледже. Однако, если (что вероятно) это ложная гипотеза, этот результат, скорее всего, не будет воспроизводимым ; любая попытка проверить, имеют ли другие люди с днем рождения 7 августа схожую скорость смены второстепенных учеников, скорее всего, почти сразу же даст противоречивые результаты.
Смещение — это систематическая ошибка в анализе. Например, врачи направляли пациентов с ВИЧ с высоким сердечно-сосудистым риском на определенное лечение ВИЧ, абакавир , а пациентов с низким риском — на другие препараты, что не позволяло провести простую оценку абакавира по сравнению с другими методами лечения. Анализ, который не исправлял это смещение, несправедливо наказывал абакавир, поскольку его пациенты были более высокого риска, поэтому у большего числа из них были сердечные приступы. [6] Эта проблема может быть очень серьезной, например, в наблюдательном исследовании . [6] [2]
Отсутствующие факторы, неизмеренные факторы и потеря для последующего наблюдения также могут привести к смещению. [6] При выборе статей со значительными p -значениями отбираются отрицательные исследования, что является смещением публикации . Это также известно как смещение ящика для файлов , потому что менее значимые результаты p -значений остаются в ящике для файлов и никогда не публикуются.
Другой аспект обусловленности статистических тестов знанием данных можно увидеть при использовании системного или машинного анализа и линейной регрессии для наблюдения за частотой данных. [ уточнить ] Важнейшим шагом в этом процессе является решение о том, какие ковариаты следует включить в связь, объясняющую одну или несколько других переменных. Существуют как статистические (см. пошаговую регрессию ), так и существенные соображения, которые заставляют авторов отдавать предпочтение некоторым своим моделям перед другими, и существует либеральное использование статистических тестов. Однако исключение одной или нескольких переменных из объясняющей связи на основе данных означает, что нельзя обоснованно применять стандартные статистические процедуры к сохраненным переменным в связи, как будто ничего не произошло. По сути дела, сохраненные переменные должны были пройти некий предварительный тест (возможно, неточный интуитивный), который не прошли отброшенные переменные. В 1966 году Селвин и Стюарт сравнили переменные, сохраненные в модели, с рыбой, которая не проваливается в сеть, — в том смысле, что их эффекты обязательно будут больше, чем у тех, которые проваливаются в сеть. Это не только изменяет эффективность всех последующих тестов на сохраненной объяснительной модели, но также может внести смещение и изменить среднеквадратичную ошибку в оценке. [11] [12]
В метеорологии гипотезы часто формулируются с использованием данных о погоде, полученных до настоящего момента, и проверяются с использованием данных о будущей погоде, что гарантирует, что даже подсознательно будущие данные не смогут повлиять на формулировку гипотезы. Конечно, такая дисциплина требует ожидания поступления новых данных, чтобы показать предсказательную силу сформулированной теории по сравнению с нулевой гипотезой . Этот процесс гарантирует, что никто не сможет обвинить исследователя в ручной подгонке предсказательной модели под имеющиеся данные, поскольку предстоящая погода еще не доступна.
В качестве другого примера предположим, что наблюдатели отмечают, что в определенном городе, по-видимому, есть кластер рака , но у них нет твердой гипотезы о том, почему это так. Однако у них есть доступ к большому объему демографических данных о городе и его окрестностях, содержащих измерения для области сотен или тысяч различных переменных, в основном некоррелированных. Даже если все эти переменные независимы от уровня заболеваемости раком, весьма вероятно, что по крайней мере одна переменная значительно коррелирует с уровнем заболеваемости раком в этой области. Хотя это может предполагать гипотезу, для подтверждения необходимо дальнейшее тестирование с использованием тех же переменных, но с данными из другого места. Обратите внимание, что p -значение 0,01 предполагает, что в 1% случаев результат, по крайней мере, такой экстремальный, будет получен случайно; если проверяются сотни или тысячи гипотез (с относительно некоррелированными независимыми переменными), то, скорее всего, будет получено p -значение менее 0,01 для многих нулевых гипотез.
Одним из примеров является исследование мистификации шоколадного похудения, проведенное журналистом Джоном Боханноном , который публично объяснил в статье Gizmodo , что исследование было преднамеренно проведено мошенническим путем в качестве социального эксперимента . [13] Это исследование было широко распространено во многих средствах массовой информации около 2015 года, и многие люди поверили утверждению, что употребление плитки шоколада каждый день заставит их похудеть, вопреки их здравому смыслу. Это исследование было опубликовано в Институте диеты и здоровья. По словам Боханнона, для снижения p -значения до уровня ниже 0,05 решающее значение имел учет 18 различных переменных при тестировании.
Хотя поиск закономерностей в данных является законным, применение статистического теста значимости или проверки гипотез к тем же данным до тех пор, пока не появится закономерность, подвержено злоупотреблениям. Один из способов построения гипотез, избегая при этом выемки данных, — это проведение рандомизированных тестов вне выборки . Исследователь собирает набор данных, затем случайным образом разбивает его на два подмножества, A и B. Только одно подмножество — скажем, подмножество A — проверяется для создания гипотез. После того, как гипотеза сформулирована, ее необходимо проверить на подмножестве B, которое не использовалось для построения гипотезы. Только в том случае, если B также поддерживает такую гипотезу, разумно полагать, что гипотеза может быть действительной. (Это простой тип перекрестной проверки , который часто называют обучающим тестом или проверкой с разделением пополам.)
Другим средством для выемки данных является запись количества всех тестов значимости, проведенных в ходе исследования, и простое деление своего критерия значимости (альфа) на это число; это поправка Бонферрони . Однако это очень консервативная метрика. Альфа по семейству 0,05, разделенная таким образом на 1000 для учета 1000 тестов значимости, дает очень строгую альфу на гипотезу 0,00005. Методы, особенно полезные в дисперсионном анализе и при построении одновременных доверительных интервалов для регрессий, включающих базисные функции, — это метод Шеффе и, если исследователь имеет в виду только попарные сравнения , метод Тьюки . Чтобы избежать крайней консервативности поправки Бонферрони, доступны более сложные методы выборочного вывода. [14] Наиболее распространенным методом выборочного вывода является использование процедуры контроля частоты ложных срабатываний Бенджамини и Хохберга : это менее консервативный подход, который стал популярным методом контроля множественных проверок гипотез.
Когда ни один из подходов не является практичным, можно провести четкое различие между подтверждающим и разведывательным анализами данных . Статистический вывод подходит только для первого. [12]
В конечном счете, статистическая значимость теста и статистическая достоверность вывода являются совместными свойствами данных и метода, используемого для проверки данных. Таким образом, если кто-то говорит, что определенное событие имеет вероятность 20% ± 2% 19 раз из 20, это означает, что если вероятность события оценивается тем же методом, который использовался для получения оценки 20%, результат будет между 18% и 22% с вероятностью 0,95. Никакое утверждение о статистической значимости не может быть сделано только путем наблюдения, без должного учета метода, используемого для оценки данных.
Академические журналы все чаще переходят на формат зарегистрированного отчета , который направлен на противодействие очень серьезным проблемам, таким как выкапывание данных и HARKing , которые сделали исследования по проверке теорий очень ненадежными. Например, Nature Human Behaviour принял формат зарегистрированного отчета, поскольку он «переносит акцент с результатов исследования на вопросы, которые направляют исследование, и методы, используемые для ответа на них». [15] European Journal of Personality определяет этот формат следующим образом: «В зарегистрированном отчете авторы создают предложение по исследованию, которое включает теоретические и эмпирические предпосылки, исследовательские вопросы/гипотезы и пилотные данные (если таковые имеются). После подачи это предложение будет рассмотрено до сбора данных, и в случае принятия статья, полученная в результате этой рецензируемой процедуры, будет опубликована независимо от результатов исследования». [16]
Методы и результаты также могут быть опубликованы, как в подходе открытой науки , что еще больше затруднит извлечение данных. [17]