Критерий Крамера–фон Мизеса

В статистике критерий Крамера –фон Мизеса — это критерий, используемый для оценки соответствия кумулятивной функции распределения заданной эмпирической функции распределения или для сравнения двух эмпирических распределений. Он также используется как часть других алгоритмов, таких как оценка минимального расстояния . Он определяется как $F^{*}$ $F_{n}$

\omega ^{2}=\int _{-\infty }^{\infty }[F_{n}(x)-F^{*}(x)]^{2}\,\mathrm { d} F^{*}(x)

В одновыборочных приложениях — это теоретическое распределение, а — эмпирически наблюдаемое распределение . В качестве альтернативы оба распределения могут быть эмпирически оцененными; это называется случаем двухвыборки. $F^{*}$ $F_{n}$

Критерий назван в честь Харальда Крамера и Ричарда Эдлера фон Мизеса , которые впервые предложили его в 1928–1930 годах. ^[1]^[2] Обобщение на две выборки принадлежит Андерсону . ^[3]

Тест Крамера–фон Мизеса является альтернативой тесту Колмогорова–Смирнова (1933). ^[4]

Тест Крамера-фон Мизеса (один образец)

Пусть будут наблюдаемые значения в порядке возрастания. Тогда статистика будет ^[3]^{: 1153}^[5] $x_{1},x_{2},\ldots ,x_{n}$

T=n\omega ^{2}={\frac {1}{12n}}+\sum _{i=1}^{n}\left[{\frac {2i-1}{2n}}-F(x_{i})\right]^{2}.

Если это значение больше табличного значения, то гипотезу о том, что данные получены из распределения, можно отвергнуть. $F$

тест Уотсона

Модифицированной версией теста Крамера–фон Мизеса является тест Уотсона ^[6], который использует статистику U ² , где ^[5]

U^{2}=Tn({\bar {F}}-{\tfrac {1}{2}})^{2},

где

{\bar {F}}={\frac {1}{n}}\sum _{i=1}^{n}F(x_{i}).

Тест Крамера-фон Мизеса (два образца)

Пусть и будут наблюдаемыми значениями в первой и второй выборке соответственно, в порядке возрастания. Пусть будут рангами x s в объединенной выборке, а пусть будут рангами y s в объединенной выборке. Андерсон ^[3]^{: 1149} показывает, что $x_{1},x_{2},\ldots ,x_{N}$ $y_{1},y_{2},\ldots,y_{M}$ $r_{1},r_{2},\ldots ,r_{N}$ $s_{1},s_{2},\ldots ,s_{M}$

T={\frac {NM}{N+M}}\omega ^{2}={\frac {U}{NM(N+M)}}-{\frac {4MN-1}{6(M+N)}}

где U определяется как

U=N\sum _{i=1}^{N}(r_{i}-i)^{2}+M\sum _{j=1}^{M}(s_{j}-j)^{2}

Если значение T больше табличных значений, ^[3]^{: 1154–1159} гипотеза о том, что две выборки происходят из одного и того же распределения, может быть отвергнута. (В некоторых книгах ^{[ указать ]} приводятся критические значения для U , что более удобно, поскольку позволяет избежать необходимости вычисления T с помощью приведенного выше выражения. Вывод будет тем же.)

Вышеприведенное предполагает, что в последовательностях , и нет дубликатов . Поэтому является уникальным, и его ранг находится в отсортированном списке . Если есть дубликаты, и через есть ряд идентичных значений в отсортированном списке, то одним из распространенных подходов является метод midrank ^[7] : присвоить каждому дубликату «ранг» . В приведенных выше уравнениях, в выражениях и , дубликаты могут изменять все четыре переменные , , , и . $x$ $y$ $r$ $x_{i}$ $i$ $x_{1},\ldots ,x_{N}$ $x_{i}$ $x_{j}$ $(i+j)/2$ $(r_{i}-i)^{2}$ $(s_{j}-j)^{2}$ $r_{i}$ $i$ $s_{j}$ $j$

Ссылки

^ Крамер, Х. (1928). «О составе элементарных ошибок». Scandinavian Actuarial Journal . 1928 (1): 13–74. doi :10.1080/03461238.1928.10416862.
^ фон Мизес, RE (1928). Wahrscheinlichkeit, Statistik und Wahrheit . Юлиус Спрингер.
^ abcd Андерсон, TW (1962). "О распределении двухвыборочного критерия Крамера–фон Мизеса" (PDF) . Annals of Mathematical Statistics . 33 (3). Институт математической статистики : 1148–1159. doi : 10.1214/aoms/1177704477 . ISSN 0003-4851 . Получено 12 июня 2009 г. .
^ А. Н. Колмогоров, "Sulla determinizione empirica di una legge di distribuzione" Гиорн. Ист. Итал. Аттуари, 4 (1933), стр. 83–91.
^ ab Pearson, ES , Hartley, HO (1972) Таблицы биометрики для статистиков, том 2 , CUP. ISBN 0-521-06937-8 (стр. 118 и таблица 54)
^ Уотсон, Г.С. (1961) «Тесты согласия на окружности», Biometrika , 48 (1/2), 109-114 JSTOR 2333135
^ Ruymgaart, FH, (1980) "Единый подход к теории асимптотического распределения некоторых среднеранговых статистик". В: Statistique non Parametrique Asymptotique , 1±18, JP Raoult (ред.), Lecture Notes on Mathematics, № 821, Springer, Берлин.

MA Stephens (1986). "Тесты, основанные на статистике EDF". В D'Agostino, RB; Stephens, MA (ред.). Методы проверки соответствия . Нью-Йорк: Marcel Dekker. ISBN 0-8247-7487-6.

Дальнейшее чтение

Сяо, Ю.; А. Гордон; А. Яковлев (январь 2007 г.). «Программа C ++ для двухвыборочного теста Крамера – фон Мизеса» (PDF) . Журнал статистического программного обеспечения . 17 (8). дои : 10.18637/jss.v017.i08 . ISSN 1548-7660. OCLC 42456366. S2CID 54098783 . Проверено 12 июня 2009 г.