В статистической проверке гипотез нулевое распределение — это распределение вероятностей тестовой статистики , когда нулевая гипотеза верна. [1] Например, в F-тесте нулевое распределение — это F-распределение . [2] Нулевое распределение — это инструмент, который ученые часто используют при проведении экспериментов. Нулевое распределение — это распределение двух наборов данных при нулевой гипотезе. Если результаты двух наборов данных не выходят за пределы параметров ожидаемых результатов, то говорят, что нулевая гипотеза верна.
Нулевая гипотеза часто является частью эксперимента. Нулевая гипотеза пытается показать, что среди двух наборов данных нет статистической разницы между результатами выполнения одного действия по сравнению с выполнением другого действия. Например, ученый может пытаться доказать, что люди, которые проходят две мили в день, имеют более здоровое сердце, чем люди, которые проходят менее двух миль в день. Ученый использовал бы нулевую гипотезу, чтобы проверить здоровье сердца людей, которые проходят две мили в день, по сравнению со здоровьем сердца людей, которые проходят менее двух миль в день. Если бы не было никакой разницы между их частотой сердечных сокращений, то ученый мог бы сказать, что статистика теста будет следовать нулевому распределению. Затем ученые могли бы определить, что если есть значительная разница, это означает, что тест следует альтернативному распределению.
В процедуре проверки гипотез необходимо сформировать совместное распределение тестовых статистик для проведения тестовых и контрольных ошибок типа I. Однако истинное распределение часто неизвестно, и для представления данных следует использовать надлежащее нулевое распределение. Например, одновыборочные и двухвыборочные тесты средних значений могут использовать t- статистику, которая имеет гауссовское нулевое распределение, в то время как F -статистика, проверяющая k групп средних значений совокупности, которые имеют гауссовское квадратичное распределение, формирует нулевое распределение. [3] Нулевое распределение определяется как асимптотическое распределение нулевых квантильно-преобразованных тестовых статистик, основанное на маргинальном нулевом распределении. [4] На практике тестовые статистики нулевого распределения часто неизвестны, поскольку они опираются на неизвестное распределение генерации данных. Процедуры повторной выборки, такие как непараметрический или основанный на модели бутстрап , могут обеспечить согласованные оценки для нулевых распределений. Неправильный выбор нулевого распределения оказывает значительное влияние на ошибку типа I и свойства мощности в процессе тестирования. Другой подход к получению нулевого распределения тестовой статистики заключается в использовании данных оценки генерации нулевого распределения.
Нулевое распределение играет решающую роль в крупномасштабном тестировании. Большой размер выборки позволяет нам реализовать более реалистичное эмпирическое нулевое распределение. Можно сгенерировать эмпирическое нулевое распределение с помощью алгоритма подгонки MLE . [5] В рамках байесовского подхода крупномасштабные исследования позволяют поместить нулевое распределение в вероятностный контекст с его ненулевыми аналогами. Когда размер выборки n большой, например, более 10 000, эмпирические нули используют собственные данные исследования для оценки соответствующего нулевого распределения. Важное предположение заключается в том, что из-за большой доли нулевых случаев (> 0,9) данные могут показать само нулевое распределение. Теоретическое нулевое распределение может не сработать в некоторых случаях, что не является полностью неверным, но требует соответствующей корректировки. В крупномасштабных наборах данных легко найти отклонения данных от идеальной математической структуры, например, независимые и одинаково распределенные (iid) выборки. Кроме того, корреляция между единицами выборки и ненаблюдаемыми ковариатами может привести к неправильному теоретическому нулевому распределению. [6] Методы перестановки часто используются в многократных тестах для получения эмпирического нулевого распределения, сгенерированного из данных. Эмпирические нулевые методы были введены с центральным алгоритмом сопоставления в статье Эфрона. [ 7]
При использовании метода перестановки следует учитывать несколько моментов. Методы перестановки не подходят для коррелированных единиц выборки, поскольку процесс выборки перестановки подразумевает независимость и требует предположений iid. Кроме того, в литературе показано, что распределение перестановки быстро сходится к N(0,1), когда n становится большим. В некоторых случаях методы перестановки и эмпирические методы можно объединить, используя замену N(0,1) нулем перестановки в эмпирическом алгоритме. [8]