Сбор данных (также известный как перехват данных или p -хакинг ) [1] [a] — это неправильное использование анализа данных для обнаружения закономерностей в данных, которые могут быть представлены как статистически значимые , что резко увеличивает и занижает риск ложноположительных результатов . Это делается путем выполнения множества статистических тестов данных и сообщения только о тех, которые дают значимые результаты. [2]
Процесс сбора данных включает в себя проверку нескольких гипотез с использованием одного набора данных путем исчерпывающего поиска — возможно, комбинаций переменных, которые могут показать корреляцию , и, возможно, групп случаев или наблюдений, которые показывают различия в их средних значениях или в их разбивке по каким-либо другим показателям. переменная.
Обычные тесты статистической значимости основаны на вероятности того, что конкретный результат возник бы, если бы действовал только случай, и обязательно допускают некоторый риск ошибочных выводов определенного типа (ошибочные отклонения нулевой гипотезы ) . Этот уровень риска называется значимостью . Когда проводится большое количество тестов, некоторые из них дают ложные результаты такого типа; следовательно, 5% случайно выбранных гипотез могут быть (ошибочно) признаны статистически значимыми на уровне значимости 5%, 1% могут быть (ошибочно) признаны статистически значимыми на уровне значимости 1% и т. д., только случайно. . Когда будет проверено достаточное количество гипотез, практически наверняка некоторые из них будут признаны статистически значимыми (хотя это и вводит в заблуждение), поскольку почти каждый набор данных с любой степенью случайности может содержать (например) некоторые ложные корреляции . Если они не будут осторожны, исследователи, использующие методы интеллектуального анализа данных, могут легко быть введены в заблуждение этими результатами. Термин «p-хакинг» (применительно к p -значениям ) был придуман в статье 2014 года тремя исследователями, ведущими блог Data Colada , который занимается выявлением подобных проблем в исследованиях в области социальных наук. [3] [4] [5]
Извлечение данных является примером игнорирования проблемы множественных сравнений . Одна из форм заключается в том, что подгруппы сравниваются без уведомления читателя об общем количестве рассмотренных сравнений подгрупп. [6]
Обычная процедура проверки статистических гипотез с использованием частотной вероятности заключается в формулировании исследовательской гипотезы, например, «люди из более высоких социальных классов живут дольше», а затем в сборе соответствующих данных. Наконец, проводится тест статистической значимости , чтобы увидеть, насколько вероятны результаты только случайно (также называемый тестом на нулевую гипотезу).
Ключевым моментом правильного статистического анализа является проверка гипотезы с помощью доказательств (данных), которые не использовались при построении гипотезы. Это очень важно, поскольку каждый набор данных содержит некоторые закономерности, возникающие исключительно случайно. Если гипотеза не проверяется на другом наборе данных из той же статистической совокупности , невозможно оценить вероятность того, что одна только случайность приведет к возникновению таких закономерностей.
Например, если подбросить монету пять раз и получить 2 орла и 3 решки, можно предположить, что преимущество монеты в решке составляет от 3/5 до 2/5. Если эту гипотезу затем проверить на существующем наборе данных, она подтвердится, но подтверждение бессмысленно. Правильная процедура заключалась бы в том, чтобы заранее сформировать гипотезу о том, какова вероятность выпадения решки, а затем несколько раз бросить монету, чтобы увидеть, отклонена ли гипотеза или нет. Если наблюдаются три решки и две решки, может быть сформирована еще одна гипотеза о том, что вероятность решки равна 3/5, но ее можно проверить только с помощью новой серии подбрасываний монеты. Важно понимать, что статистическая значимость при неправильной процедуре полностью ложна — тесты значимости не защищают от выкапывания данных.
Предположим, что в исследование случайной выборки людей вошли ровно два человека с днем рождения 7 августа: Мэри и Джон. Кто-то, занимающийся сбором данных, может попытаться найти дополнительные сходства между Мэри и Джоном. Проанализировав сотни или тысячи потенциальных сходств между ними, каждое из которых имеет низкую вероятность быть правдой, почти наверняка можно найти необычное сходство. Возможно, Джон и Мэри — единственные двое в исследовании, которые трижды меняли несовершеннолетних в колледже. Гипотеза, основанная на тщательном изучении данных, может заключаться в том, что «люди, родившиеся 7 августа, имеют гораздо более высокие шансы сменить несовершеннолетнего более чем дважды в колледже».
Сами данные, вырванные из контекста, можно рассматривать как убедительное подтверждение этой корреляции, поскольку никто из людей с разным днем рождения в колледже трижды менял несовершеннолетних. Однако если (что вполне вероятно) это ложная гипотеза, этот результат, скорее всего, не будет воспроизводимым ; Любая попытка проверить, имеют ли другие люди, родившиеся 7 августа, такую же скорость изменения несовершеннолетних, скорее всего, почти сразу же получит противоречивые результаты.
Предвзятость – это систематическая ошибка анализа. Например, врачи направляли пациентов с ВИЧ с высоким сердечно-сосудистым риском на конкретное лечение ВИЧ — абакавир , а пациентов с низким риском — на другие препараты, что не позволяло провести простую оценку абакавира по сравнению с другими методами лечения. Анализ, который не устранил эту предвзятость, несправедливо наказал абакавир, поскольку его пациенты подвергались более высокому риску, поэтому у большего числа из них наблюдались сердечные приступы. [6] Эта проблема может быть очень серьезной, например, в наблюдательном исследовании . [6] [2]
Недостающие факторы, неизмеренные факторы, искажающие результаты , и потеря возможности последующего наблюдения также могут привести к систематической ошибке. [6] При выборе статей со значительными значениями p отбираются отрицательные исследования, что является предвзятостью публикации . Это также известно как смещение ящика с файлами , поскольку менее значимые результаты с p -значением остаются в ящике с файлами и никогда не публикуются.
Другой аспект обусловленности статистических тестов знанием данных можно увидеть при использовании системного или машинного анализа и линейной регрессии для наблюдения за частотой данных. [ уточнить ] Важнейшим шагом в этом процессе является принятие решения о том, какие ковариаты включать в отношения, объясняющие одну или несколько других переменных. Существуют как статистические (см. пошаговую регрессию ), так и существенные соображения, которые заставляют авторов отдавать предпочтение одним из своих моделей другим, а также широко используются статистические тесты. Однако исключение одной или нескольких переменных из объяснительного отношения на основе данных означает, что нельзя обоснованно применять стандартные статистические процедуры к оставшимся переменным в отношении, как будто ничего не произошло. По сути дела, сохраненные переменные должны были пройти некий предварительный тест (возможно, неточный, интуитивный), чтобы отброшенные переменные не прошли проверку. В 1966 году Селвин и Стюарт сравнили переменные, сохраненные в модели, с рыбой, которая не попадает в сеть – в том смысле, что их влияние обязательно будет больше, чем у тех, которые все же попадают в сеть. Это не только изменяет эффективность всех последующих тестов на сохраненной объяснительной модели, но также может внести предвзятость и изменить среднеквадратическую ошибку в оценке. [7] [8]
В метеорологии гипотезы часто формулируются с использованием данных о погоде на текущий момент и проверяются на основе данных о погоде в будущем, что гарантирует, что даже подсознательно будущие данные не смогут повлиять на формулировку гипотезы. Конечно, такая дисциплина требует ожидания поступления новых данных, чтобы продемонстрировать предсказательную силу сформулированной теории по сравнению с нулевой гипотезой . Этот процесс гарантирует, что никто не сможет обвинить исследователя в ручной адаптации прогнозной модели к имеющимся данным, поскольку информация о предстоящей погоде еще не доступна.
В качестве другого примера предположим, что наблюдатели отмечают, что в конкретном городе наблюдается кластер рака , но у них нет твердой гипотезы о том, почему это так. Однако у них есть доступ к большому количеству демографических данных о городе и его окрестностях, содержащих измерения для территории сотен или тысяч различных переменных, в основном некоррелированных. Даже если все эти переменные не зависят от уровня заболеваемости раком, весьма вероятно, что по крайней мере одна переменная значительно коррелирует с уровнем заболеваемости раком в регионе. Хотя это может указывать на гипотезу, для подтверждения необходимо дальнейшее тестирование с использованием тех же переменных, но с данными из другого места. Обратите внимание, что значение p , равное 0,01, предполагает, что в 1% случаев результат, по крайней мере, такого экстремального значения, будет получен случайно; если проверяются сотни или тысячи гипотез (с взаимно относительно некоррелированными независимыми переменными), то, скорее всего, можно получить значение p меньше 0,01 для многих нулевых гипотез.
Другой способ сгладить p-кривую — это учитывать пол . Анализ Simonson et. ал. исследование Брунса и Иоаннидиса (2016) демонстрирует это: когда Брунс и Иоаннидис отказались от гендерного контроля, это также снизило сообщаемое значение t с 9,29 до 0,88, демонстрируя непричинный эффект там, где ранее был зафиксирован причинный эффект ( 3). [9] Это важный вывод, поскольку значения t обратно пропорциональны значениям p , а это означает, что более высокие значения t (выше 2,8) указывают на более низкие значения p . Контролируя пол, можно искусственно завышать значение t , тем самым искусственно занижая значение p .
Одним из примеров является исследование мистификации шоколадного похудения, проведенное журналистом Джоном Боханноном , который публично объяснил в статье Gizmodo , что исследование было намеренно проведено мошенническим путем как социальный эксперимент . [10] Это исследование было широко распространено во многих средствах массовой информации примерно в 2015 году, и многие люди поверили утверждению, что ежедневное употребление плитки шоколада заставит их похудеть, вопреки здравому смыслу. Это исследование было опубликовано в Институте диеты и здоровья. По словам Боханнона, для снижения значения p ниже 0,05 решающее значение имело принятие во внимание 18 различных переменных при тестировании.
Хотя поиск закономерностей в данных является законным, применение статистического теста значимости или проверки гипотез к тем же данным до тех пор, пока не появится закономерность, подвержено злоупотреблениям. Один из способов построить гипотезы, избегая при этом сбора данных, — это проведение рандомизированных тестов вне выборки . Исследователь собирает набор данных, затем случайным образом разделяет его на два подмножества, A и B. Только одно подмножество, скажем, подмножество A, исследуется на предмет создания гипотез. После того как гипотеза сформулирована, ее необходимо проверить на подмножестве B, которое не использовалось для построения гипотезы. Только если B также поддерживает такую гипотезу, разумно полагать, что эта гипотеза может быть верной. (Это простой тип перекрестной проверки , который часто называют обучающим тестом или разделенной половинной проверкой.)
Еще одно средство от сбора данных — записать количество всех тестов значимости, проведенных во время исследования, и просто разделить критерий значимости (альфа) на это число; это поправка Бонферрони . Однако это очень консервативный показатель. Семейная альфа 0,05, разделенная таким образом на 1000 для учета 1000 тестов значимости, дает очень строгую альфу для каждой гипотезы, равную 0,00005. Методы, особенно полезные при дисперсионном анализе и построении одновременных доверительных интервалов для регрессий, включающих базисные функции, — это метод Шеффе и, если исследователь имеет в виду только парные сравнения , метод Тьюки . Чтобы избежать крайней консервативности поправки Бонферрони, доступны более сложные методы выборочного вывода. [11] Наиболее распространенным методом выборочного вывода является использование процедуры контроля частоты ложных открытий Бенджамини и Хохберга : это менее консервативный подход, который стал популярным методом управления множественными проверками гипотез.
Когда ни один из подходов не является практичным, можно провести четкое различие между подтверждающим анализом данных и исследовательским анализом . Статистический вывод подходит только для первого случая. [8]
В конечном счете, статистическая значимость теста и статистическая достоверность результатов являются совместными свойствами данных и метода, используемого для изучения данных. Таким образом, если кто-то говорит, что определенное событие имеет вероятность 20% ± 2% 19 раз из 20, это означает, что если вероятность события оценивается тем же методом, который использовался для получения оценки 20%, результат будет между 18% и 22% с вероятностью 0,95. Никакие заявления о статистической значимости не могут быть сделаны только путем просмотра без должного учета метода, использованного для оценки данных.
Научные журналы все чаще переходят на формат зарегистрированных отчетов , целью которого является противодействие очень серьезным проблемам, таким как сбор данных и HARKing , которые делают исследования по проверке теорий очень ненадежными. Например, журнал Nature Human Behavior принял зарегистрированный формат отчета, поскольку он «смещает акцент с результатов исследований на вопросы, которыми руководствуются исследования, и методы, используемые для ответа на них». [12] Европейский журнал личности определяет этот формат следующим образом: «В зарегистрированном отчете авторы создают предложение на исследование, которое включает теоретическую и эмпирическую основу, исследовательские вопросы/гипотезы и пилотные данные (если таковые имеются). После подачи это предложение затем будет рассмотрен перед сбором данных, и в случае принятия документ, полученный в результате этой рецензируемой процедуры, будет опубликован независимо от результатов исследования». [13]
Методы и результаты также могут быть общедоступными, как в случае с подходом открытой науки , что еще больше затрудняет сбор данных. [14]