Мера согласия в статистике
В статистике тест Д'Агостино К 2 , названный в честь Ральфа Д'Агостино , является мерой согласия с отклонением от нормальности , то есть тест направлен на оценку совместимости данных с нулевой гипотезой о том, что данные являются реализация независимых, одинаково распределенных гауссовских случайных величин. Тест основан на преобразованиях выборочного эксцесса и асимметрии и имеет силу только против альтернатив, согласно которым распределение является асимметричным и/или куртовым.
Асимметрия и эксцесс
Далее { x i } обозначает выборку из n наблюдений, g 1 и g 2 — асимметрия и эксцесс выборки , m j — центральные моменты j -й выборки , а — выборочное среднее значение . Часто в литературе, посвященной проверке нормальности , асимметрия и эксцесс обозначаются как √ β 1 и β 2 соответственно. Такие обозначения могут быть неудобны, поскольку, например, √ β 1 может быть отрицательной величиной.![{\displaystyle {\bar {x}}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Асимметрия выборки и эксцесс определяются как
![{\displaystyle {\begin{aligned}&g_{1}={\frac {m_{3}}{m_{2}^{3/2}}}={\frac {{\frac {1}{n} }\sum _{i=1}^{n}\left(x_{i}-{\bar {x}}\right)^{3}}{\left({\frac {1}{n}} \sum _{i=1}^{n}\left(x_{i}-{\bar {x}}\right)^{2}\right)^{3/2}}}\ ,\\&g_ {2}={\frac {m_{4}}{m_{2}^{2}}}-3={\frac {{\frac {1}{n}}\sum _{i=1}^ {n}\left(x_{i}-{\bar {x}}\right)^{4}}{\left({\frac {1}{n}}\sum _{i=1}^{ n}\left(x_{i}-{\bar {x}}\right)^{2}\right)^{2}}}-3\ .\end{aligned}}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Эти величины последовательно оценивают теоретическую асимметрию и эксцесс распределения соответственно. Более того, если выборка действительно происходит из нормальной генеральной совокупности, то точные конечные выборочные распределения асимметрии и эксцесса сами по себе могут быть проанализированы с точки зрения их средних значений μ 1 , дисперсий μ 2 , асимметрии γ 1 и эксцесса γ 2 . Это было сделано Пирсоном (1931), который вывел следующие выражения: [ нужен лучший источник ]
![{\displaystyle {\begin{aligned}&\mu _{1}(g_{1})=0,\\&\mu _{2}(g_{1})={\frac {6(n-2) )}{(n+1)(n+3)}},\\&\gamma _{1}(g_{1})\equiv {\frac {\mu _{3}(g_{1})} {\mu _{2}(g_{1})^{3/2}}}=0,\\&\gamma _{2}(g_{1})\equiv {\frac {\mu _{4 }(g_{1})}{\mu _{2}(g_{1})^{2}}}-3={\frac {36(n-7)(n^{2}+2n-5 )}{(n-2)(n+5)(n+7)(n+9)}}.\end{aligned}}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
и
![{\displaystyle {\begin{aligned}&\mu _{1}(g_{2})=- {\frac {6}{n+1}},\\&\mu _{2}(g_{2) })={\frac {24n(n-2)(n-3)}{(n+1)^{2}(n+3)(n+5)}},\\&\gamma _{1 }(g_{2})\equiv {\frac {\mu _{3}(g_{2})}{\mu _{2}(g_{2})^{3/2}}}={\ frac {6(n^{2}-5n+2)}{(n+7)(n+9)}}{\sqrt {\frac {6(n+3)(n+5)}{n( n-2)(n-3)}}},\\&\gamma _{2}(g_{2})\equiv {\frac {\mu _{4}(g_{2})}{\mu _{2}(g_{2})^{2}}}-3={\frac {36(15n^{6}-36n^{5}-628n^{4}+982n^{3}+5777n ^{2}-6402n+900)}{n(n-3)(n-2)(n+7)(n+9)(n+11)(n+13)}}.\end{aligned} }}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Например, можно ожидать, что выборка размером n = 1000 , взятая из нормально распределенной совокупности, будет иметь асимметрию 0, SD 0,08 и эксцесс 0, SD 0,15 , где SD указывает на стандартное отклонение. [ нужна цитата ]
Преобразованная асимметрия выборки и эксцесс
Асимметрия выборки g 1 и эксцесс g 2 асимптотически нормальны. Однако скорость их сходимости к пределу распределения удручающе мала, особенно для g 2 . Например, даже при n = 5000 наблюдений выборочный эксцесс g 2 имеет как асимметрию, так и эксцесс примерно 0,3, что немаловажно. Чтобы исправить эту ситуацию, было предложено преобразовать величины g 1 и g 2 таким образом, чтобы их распределение было максимально близко к стандартному нормальному.
В частности, Д'Агостино и Пирсон (1973) предложили следующее преобразование асимметрии выборки:
![{\displaystyle Z_{1}(g_{1})=\delta \operatorname {asinh} \left({\frac {g_{1}}{\alpha {\sqrt {\mu _{2}}}}} \верно),}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
где константы α и δ вычисляются как
![{\displaystyle {\begin{aligned}&W^{2}={\sqrt {2\gamma _{2}+4}}-1,\\&\delta =1/{\sqrt {\ln W}} ,\\&\alpha ^{2}=2/(W^{2}-1),\end{aligned}}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
и где μ 2 = μ 2 ( g 1 ) — дисперсия g 1 , а γ 2 = γ 2 ( g 1 ) — эксцесс — выражения, приведенные в предыдущем разделе.
Аналогичным образом, Анскомб и Глинн (1983) предложили преобразование для g 2 , которое достаточно хорошо работает для размеров выборки 20 и более:
![{\displaystyle Z_{2}(g_{2})={\sqrt {\frac {9A}{2}}}\left\{1-{\frac {2}{9A}}-\left({\ frac {1-2/A}{1+{\frac {g_{2}-\mu _{1}}{\sqrt {\mu _{2}}}}{\sqrt {2/(A-4 )}}}}\вправо)^{\!1/3}\вправо\},}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
где
![{\displaystyle A=6+{\frac {8}{\gamma _{1}}}\left({\frac {2}{\gamma _{1}}}+{\sqrt {1+4/\ гамма _{1}^{2}}}\right),}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
и 1 = 1 ( г 2 ), 2 = 2 ( г 2 ) , 1 = 1 ( г 2 ) — величины , вычисленные Пирсоном.
Статистика Омнибуса К 2
Статистики Z 1 и Z 2 можно объединить для получения комплексного теста, способного обнаружить отклонения от нормальности из-за асимметрии или эксцесса (Д'Агостино, Беланжер и Д'Агостино, 1990):
![{\displaystyle K^{2}=Z_{1}(g_{1})^{2}+Z_{2}(g_{2})^{2}\,}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Если нулевая гипотеза нормальности верна, то К 2 приблизительно х 2 -распределен с 2 степенями свободы.
Обратите внимание, что статистики g 1 , g 2 не являются независимыми, а только некоррелированными. Следовательно, их преобразования Z 1 , Z 2 также будут зависимыми (Shenton & Bowman 1977), что ставит под сомнение достоверность аппроксимации χ 2 . Моделирование показывает, что при нулевой гипотезе статистика теста K 2 характеризуется
Смотрите также
Рекомендации
- Анскомб, Ф.Дж.; Глинн, Уильям Дж. (1983). «Распределение статистики эксцесса b 2 для нормальной статистики». Биометрика . 70 (1): 227–234. дои : 10.1093/biomet/70.1.227. JSTOR 2335960.
- Д'Агостино, Ральф Б. (1970). «Преобразование к нормальности нулевого распределения g 1 ». Биометрика . 57 (3): 679–681. дои : 10.1093/biomet/57.3.679. JSTOR 2334794.
- Д'Агостино, Ральф Б.; Пирсон, ES (1973). «Тест на отклонения от нормальности. Эмпирические результаты для распределений b 2 и √b 1 ». Биометрика . 60 (3): 613–622. JSTOR 2335012.
- Д'Агостино, Ральф Б.; Беланжер, Альберт; Д'Агостино, Ральф Б. младший (1990). «Предложение по использованию мощных и информативных тестов нормальности» (PDF) . Американский статистик . 44 (4): 316–321. дои : 10.2307/2684359. JSTOR 2684359. Архивировано из оригинала (PDF) 25 марта 2012 г.
{{cite journal}}
: CS1 maint: multiple names: authors list (link) - Пирсон, Эгон С. (1931). «Заметка о тестах на нормальность». Биометрика . 22 (3/4): 423–424. дои : 10.1093/biomet/22.3-4.423. JSTOR 2332104.
- Шентон, ЛР; Боуман, Кимико О. (1977). «Двумерная модель распределения √b 1 и b 2 ». Журнал Американской статистической ассоциации . 72 (357): 206–211. дои : 10.1080/01621459.1977.10479940. JSTOR 2286939.