stringtranslate.com

Проверка гипотез, выдвинутых на основе данных

В статистике гипотезы , предложенные данным набором данных , при проверке с тем же набором данных, который их предложил, скорее всего, будут приняты, даже если они не верны. Это происходит из-за того, что будет задействовано круговое рассуждение (двойное погружение): что-то кажется верным в ограниченном наборе данных; поэтому мы выдвигаем гипотезу, что это верно в целом; поэтому мы ошибочно проверяем это на том же ограниченном наборе данных, который, как кажется, подтверждает, что это верно. Генерация гипотез на основе уже наблюдаемых данных при отсутствии проверки их на новых данных называется постфактум теоретизированием (от латинского post hoc , «после этого»).

Правильная процедура — проверять любую гипотезу на наборе данных, который не использовался для ее выдвижения.

Общая проблема

Проверка гипотезы, выдвинутой данными, может очень легко привести к ложноположительным результатам ( ошибки типа I ). Если искать достаточно долго и в достаточно разных местах, в конечном итоге можно найти данные, подтверждающие любую гипотезу. Тем не менее, эти положительные данные сами по себе не являются доказательством того, что гипотеза верна. Отрицательные данные теста, которые были отброшены, так же важны, потому что они дают представление о том, насколько распространены положительные результаты по сравнению со случайностью. Проведение эксперимента, обнаружение закономерности в данных, предложение гипотезы на основе этой закономерности, а затем использование тех же экспериментальных данных в качестве доказательства новой гипотезы крайне подозрительно, потому что данные всех других экспериментов, завершенных или потенциальных, по сути были «отброшены», поскольку было решено рассматривать только те эксперименты, которые изначально предполагали новую гипотезу.

Большой набор тестов, как описано выше, значительно увеличивает вероятность ошибки типа I , поскольку все данные, кроме наиболее благоприятных для гипотезы, отбрасываются. Это риск не только при проверке гипотез , но и во всех статистических выводах , поскольку часто проблематично точно описать процесс, который был использован при поиске и отбрасывании данных . Другими словами, хочется сохранить все данные (независимо от того, подтверждают ли они гипотезу или опровергают ее) от «хороших тестов», но иногда трудно понять, что такое «хороший тест». Это особая проблема в статистическом моделировании , где многие различные модели отвергаются методом проб и ошибок до публикации результата (см. также переобучение , смещение публикации ).

Эта ошибка особенно распространена в области интеллектуального анализа данных и машинного обучения . Она также часто встречается в академических публикациях , где принимаются только сообщения о положительных, а не отрицательных результатах, что приводит к эффекту, известному как предвзятость публикации .

Правильные процедуры

Все стратегии для надежной проверки гипотез, предложенных данными, включают включение более широкого спектра тестов в попытке подтвердить или опровергнуть новую гипотезу. Они включают:

Одновременная проверка всех контрастов в задачах множественного сравнения , предложенная Генри Шеффе, является наиболее [ требуется ссылка ] известным средством в случае дисперсионного анализа . [1] Это метод, разработанный для проверки гипотез, выдвинутых на основе данных, при этом избегая описанной выше ошибки.

Смотрите также

Примечания и ссылки

  1. ^ Генри Шеффе , «Метод оценки всех контрастов в дисперсионном анализе», Biometrika , 40, страницы 87–104 (1953). doi :10.1093/biomet/40.1-2.87