stringtranslate.com

Нулевое распределение

В статистической проверке гипотез нулевое распределение — это распределение вероятностей тестовой статистики , когда нулевая гипотеза верна. [1] Например, в F-тесте нулевое распределение — это F-распределение . [2] Нулевое распределение — это инструмент, который ученые часто используют при проведении экспериментов. Нулевое распределение — это распределение двух наборов данных при нулевой гипотезе. Если результаты двух наборов данных не выходят за пределы параметров ожидаемых результатов, то говорят, что нулевая гипотеза верна.

Нулевое и альтернативное распределение

Примеры применения

Нулевая гипотеза часто является частью эксперимента. Нулевая гипотеза пытается показать, что среди двух наборов данных нет статистической разницы между результатами выполнения одного действия по сравнению с выполнением другого действия. Например, ученый может пытаться доказать, что люди, которые проходят две мили в день, имеют более здоровое сердце, чем люди, которые проходят менее двух миль в день. Ученый использовал бы нулевую гипотезу, чтобы проверить здоровье сердца людей, которые проходят две мили в день, по сравнению со здоровьем сердца людей, которые проходят менее двух миль в день. Если бы не было никакой разницы между их частотой сердечных сокращений, то ученый мог бы сказать, что статистика теста будет следовать нулевому распределению. Затем ученые могли бы определить, что если есть значительная разница, это означает, что тест следует альтернативному распределению.

Получение нулевого распределения

В процедуре проверки гипотез необходимо сформировать совместное распределение тестовых статистик для проведения тестовых и контрольных ошибок типа I. Однако истинное распределение часто неизвестно, и для представления данных следует использовать надлежащее нулевое распределение. Например, одновыборочные и двухвыборочные тесты средних значений могут использовать t- статистику, которая имеет гауссовское нулевое распределение, в то время как F -статистика, проверяющая k групп средних значений совокупности, которые имеют гауссовское квадратичное распределение, формирует нулевое распределение. [3] Нулевое распределение определяется как асимптотическое распределение нулевых квантильно-преобразованных тестовых статистик, основанное на маргинальном нулевом распределении. [4] На практике тестовые статистики нулевого распределения часто неизвестны, поскольку они опираются на неизвестное распределение генерации данных. Процедуры повторной выборки, такие как непараметрический или основанный на модели бутстрап , могут обеспечить согласованные оценки для нулевых распределений. Неправильный выбор нулевого распределения оказывает значительное влияние на ошибку типа I и свойства мощности в процессе тестирования. Другой подход к получению нулевого распределения тестовой статистики заключается в использовании данных оценки генерации нулевого распределения.

Нулевое распределение при большом размере выборки

Нулевое распределение играет решающую роль в крупномасштабном тестировании. Большой размер выборки позволяет нам реализовать более реалистичное эмпирическое нулевое распределение. Можно сгенерировать эмпирическое нулевое распределение с помощью алгоритма подгонки MLE . [5] В рамках байесовского подхода крупномасштабные исследования позволяют поместить нулевое распределение в вероятностный контекст с его ненулевыми аналогами. Когда размер выборки n большой, например, более 10 000, эмпирические нули используют собственные данные исследования для оценки соответствующего нулевого распределения. Важное предположение заключается в том, что из-за большой доли нулевых случаев (> 0,9) данные могут показать само нулевое распределение. Теоретическое нулевое распределение может не сработать в некоторых случаях, что не является полностью неверным, но требует соответствующей корректировки. В крупномасштабных наборах данных легко найти отклонения данных от идеальной математической структуры, например, независимые и одинаково распределенные (iid) выборки. Кроме того, корреляция между единицами выборки и ненаблюдаемыми ковариатами может привести к неправильному теоретическому нулевому распределению. [6] Методы перестановки часто используются в многократных тестах для получения эмпирического нулевого распределения, сгенерированного из данных. Эмпирические нулевые методы были введены с центральным алгоритмом сопоставления в статье Эфрона. [ 7]

При использовании метода перестановки следует учитывать несколько моментов. Методы перестановки не подходят для коррелированных единиц выборки, поскольку процесс выборки перестановки подразумевает независимость и требует предположений iid. Кроме того, в литературе показано, что распределение перестановки быстро сходится к N(0,1), когда n становится большим. В некоторых случаях методы перестановки и эмпирические методы можно объединить, используя замену N(0,1) нулем перестановки в эмпирическом алгоритме. [8]

Ссылки

  1. ^ Стэйли, Кент В. Введение в философию науки . 2014. стр. 142. ISBN 9780521112499.
  2. ^ Джексон, Салли Энн . Случайные факторы в ANOVA . 1994. стр. 38. ISBN 9780803950900.
  3. ^ Дюдуа, С. и М. Дж. Ван дер Лаан . «Множественные процедуры тестирования с применением в геномике. 2008».
  4. ^ Ван дер Лаан, Марк Дж . и Алан Э. Хаббард. «Распределение нулей на основе квантильной функции при повторном многократном тестировании». Статистические приложения в генетике и молекулярной биологии 5.1 (2006): 1199.
  5. ^ Эфрон, Брэдли и Тревор Хасти . Статистический вывод компьютерного века. Cambridge University Press, 2016.
  6. ^ Эфрон, Брэдли . Крупномасштабный вывод: эмпирические байесовские методы оценки, тестирования и прогнозирования. Cambridge University Press, 2012.
  7. ^ Эфрон, Брэдли . «Масштабная одновременная проверка гипотез: выбор нулевой гипотезы». Журнал Американской статистической ассоциации 99.465 (2004): 96-104.
  8. ^ Эфрон, Брэдли . Крупномасштабный вывод: эмпирические байесовские методы оценки, тестирования и прогнозирования. Cambridge University Press, 2012.