Тест на нормальность в частотной статистике
Тест Шапиро -Уилка — это тест на нормальность . Он был опубликован в 1965 году Сэмюэлем Сэнфордом Шапиро и Мартином Уилком . [1]
Теория
Тест Шапиро-Уилка проверяет нулевую гипотезу о том, что выборка x 1 , ..., x n принадлежит нормально распределенной популяции. Статистика теста _
![{\displaystyle W={\left(\sum _{i=1}^{n}a_{i}x_{(i)}\right)^{2} \over \sum _{i=1}^{ n}(x_{i}-{\overline {x}})^{2}},}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
где
в круглых скобках заключен индекс индекса i — статистика i- го порядка , т. е. i -е наименьшее число в выборке (не путать с ).![х_{я}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
– выборочное среднее.
Коэффициенты определяются по формуле: [1]![а_{я}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle (a_{1},\dots,a_{n})={m^{\mathsf {T}}V^{-1} \over C},}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
где C — векторная норма : [2]
![{\displaystyle C=\|V^{-1}m\|=(m^{\mathsf {T}}V^{-1}V^{-1}m)^{1/2}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
и вектор m ,
![m=(m_{1},\dots ,m_{n})^{{{\mathsf {T}}}}\,](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
состоит из ожидаемых значений порядковой статистики независимых и одинаково распределенных случайных величин , выбранных из стандартного нормального распределения; наконец, это ковариационная матрица статистики нормального порядка. [3]![В](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Не существует названия для распространения . Значения отсечения для статистики рассчитываются посредством моделирования Монте-Карло. [2]![Вт](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Интерпретация
Нулевая гипотеза этого теста состоит в том, что популяция распределена нормально. Таким образом, если значение p меньше выбранного альфа-уровня , то нулевая гипотеза отклоняется и имеется свидетельство того, что проверенные данные не имеют нормального распределения. С другой стороны, если значение p больше выбранного альфа-уровня, то нулевую гипотезу (о том, что данные получены из нормально распределенной совокупности) нельзя отвергнуть (например, для альфа-уровня 0,05 набор данных со значением p менее 0,05 отвергает нулевую гипотезу о том, что данные взяты из нормально распределенной совокупности. Следовательно, набор данных со значением p , превышающим значение альфа 0,05, не может отвергнуть нулевую гипотезу о том, что данные взяты из нормально распределенная популяция). [4]
Как и большинство тестов статистической значимости , если размер выборки достаточно велик, этот тест может обнаружить даже тривиальные отклонения от нулевой гипотезы (т. е., хотя некоторый статистически значимый эффект может иметь место , он может быть слишком мал, чтобы иметь какое-либо практическое значение); таким образом, обычно рекомендуется дополнительное исследование величины эффекта , например, в этом случае график Q-Q . [5]
Анализ мощности
Моделирование Монте-Карло показало, что Шапиро-Уилк имеет лучшую степень для заданной значимости , за ним следует Андерсон-Дарлинг при сравнении Шапиро-Уилка, Колмогорова-Смирнова и Лиллиефорса . [6]
Приближение
Ройстон предложил альтернативный метод расчета вектора коэффициентов, предоставив алгоритм расчета значений, который увеличил размер выборки с 50 до 2000. [7] Этот метод используется в нескольких пакетах программного обеспечения, включая GraphPad Prism, Stata, [8] [9] SPSS и SAS. [10] Рахман и Говидараджулу увеличили размер выборки до 5000 человек. [11]
Смотрите также
Рекомендации
- ^ аб Шапиро, СС; Уилк, МБ (1965). «Анализ дисперсионного теста на нормальность (полные выборки)». Биометрика . 52 (3–4): 591–611. дои : 10.1093/biomet/52.3-4.591. JSTOR 2333709. МР 0205384.п. 593
- ^ АБ РМД (2022). «Тест Шапиро-Уилка и связанные с ним тесты на нормальность» (PDF) . Проверено 16 июня 2022 г.
- ^ Дэвис, CS; Стивенс, Массачусетс (1978). Ковариационная матрица статистики нормального порядка (PDF) (Технический отчет). Статистический факультет Стэнфордского университета, Стэнфорд, Калифорния. Технический отчет № 14 . Проверено 17 июня 2022 г.
- ^ «Как мне интерпретировать тест Шапиро-Уилка на нормальность?». ДМП . 2004 . Проверено 24 марта 2012 г.
- ^ Филд, Энди (2009). Обнаружение статистики с помощью SPSS (3-е изд.). Лос-Анджелес [т.е. Таузенд-Оукс, Калифорния]: Публикации SAGE. п. 143. ИСБН 978-1-84787-906-6.
- ^ Разали, Норнадия; Вау, Яп Би (2011). «Сравнение мощности тестов Шапиро-Уилка, Колмогорова-Смирнова, Лиллифорса и Андерсона-Дарлинга». Журнал статистического моделирования и аналитики . 2 (1): 21–33 . Проверено 30 марта 2017 г.
- ^ Ройстон, Патрик (сентябрь 1992 г.). «Аппроксимация W -критерия Шапиро – Уилка на ненормальность». Статистика и вычисления . 2 (3): 117–119. дои : 10.1007/BF01891203. S2CID 122446146.
- ^ Ройстон, Патрик. «Тесты Шапиро-Уилка и Шапиро-Франсии». Технический бюллетень Stata, StataCorp LP . 1 (3).
- ^ Критерии Шапиро-Уилка и Шапиро-Франсии на нормальность
- ^ Пак, Хон Мён (2002–2008). «Одномерный анализ и тест на нормальность с использованием SAS, Stata и SPSS». [рабочий документ] . Проверено 29 июля 2023 г.
- ^ Рахман и Говидараджулу (1997). «Модификация теста Шапиро и Уилка на нормальность». Журнал прикладной статистики . 24 (2): 219–236. дои : 10.1080/02664769723828.
Внешние ссылки
- Рабочий пример с использованием Excel
- Алгоритм AS R94 (Шапиро Уилк) Код FORTRAN
- Исследовательский анализ с использованием критерия нормальности Шапиро – Уилка в R
- Реальная статистика с использованием Excel: расширенный тест Шапиро-Уилка