Тест Шапиро-Уилка

Тест Шапиро -Уилка — это тест на нормальность . Он был опубликован в 1965 году Сэмюэлем Сэнфордом Шапиро и Мартином Уилком . ^[1]

Теория

Тест Шапиро-Уилка проверяет нулевую гипотезу о том, что выборка x ₁ , ..., x _n принадлежит нормально распределенной популяции. Статистика теста _

W={\left(\sum _{i=1}^{n}a_{i}x_{(i)}\right)^{2} \over \sum _{i=1}^{ n}(x_{i}-{\overline {x}})^{2}},

где

${\ displaystyle x_ {(i)}}$ в круглых скобках заключен индекс индекса i — статистика i- го порядка , т. е. i -е наименьшее число в выборке (не путать с ). $x_{i}$
${\overline {x}}=\left(x_{1}+\cdots +x_{n}\right)/n$ – выборочное среднее.

Коэффициенты определяются по формуле: ^[1] $a_{i}$

(a_{1},\dots,a_{n})={m^{\mathsf {T}}V^{-1} \over C},

где C — векторная норма : ^[2]

C=\|V^{-1}m\|=(m^{\mathsf {T}}V^{-1}V^{-1}m)^{1/2}

и вектор m ,

m=(m_{1},\dots,m_{n})^{\mathsf {T}}\,

состоит из ожидаемых значений порядковой статистики независимых и одинаково распределенных случайных величин , выбранных из стандартного нормального распределения; наконец, это ковариационная матрица статистики нормального порядка. ^[3] $V$

Не существует названия для распространения . Значения отсечения для статистики рассчитываются посредством моделирования Монте-Карло. ^[2] $W$

Интерпретация

Нулевая гипотеза этого теста состоит в том, что популяция распределена нормально. Таким образом, если значение p меньше выбранного альфа-уровня , то нулевая гипотеза отклоняется и имеется свидетельство того, что проверенные данные не имеют нормального распределения. С другой стороны, если значение p больше выбранного альфа-уровня, то нулевую гипотезу (о том, что данные получены из нормально распределенной совокупности) нельзя отвергнуть (например, для альфа-уровня 0,05 набор данных со значением p менее 0,05 отвергает нулевую гипотезу о том, что данные взяты из нормально распределенной совокупности. Следовательно, набор данных со значением p , превышающим значение альфа 0,05, не может отвергнуть нулевую гипотезу о том, что данные взяты из нормально распределенная популяция). ^[4]

Как и большинство тестов статистической значимости , если размер выборки достаточно велик, этот тест может обнаружить даже тривиальные отклонения от нулевой гипотезы (т. е., хотя некоторый статистически значимый эффект может иметь место , он может быть слишком мал, чтобы иметь какое-либо практическое значение); таким образом, обычно рекомендуется дополнительное исследование величины эффекта , например, в этом случае график Q-Q . ^[5]

Анализ мощности

Моделирование Монте-Карло показало, что Шапиро-Уилк имеет лучшую степень для заданной значимости , за ним следует Андерсон-Дарлинг при сравнении Шапиро-Уилка, Колмогорова-Смирнова и Лиллиефорса . ^[6]

Приближение

Ройстон предложил альтернативный метод расчета вектора коэффициентов, предоставив алгоритм расчета значений, который увеличил размер выборки с 50 до 2000. ^[7] Этот метод используется в нескольких пакетах программного обеспечения, включая GraphPad Prism, Stata, ^[8]^[9] SPSS и SAS. ^[10] Рахман и Говидараджулу увеличили размер выборки до 5000 человек. ^[11]

Смотрите также

Внешние ссылки

Рабочий пример с использованием Excel
Алгоритм AS R94 (Шапиро Уилк) Код FORTRAN
Исследовательский анализ с использованием критерия нормальности Шапиро – Уилка в R
Реальная статистика с использованием Excel: расширенный тест Шапиро-Уилка