Тест Уолда-Вольфовица (или просто тест запуска ), названный в честь статистиков Авраама Уолда и Джейкоба Вулфовица , представляет собой непараметрический статистический тест, который проверяет гипотезу случайности для двузначной последовательности данных . Точнее, его можно использовать для проверки гипотезы о взаимной независимости элементов последовательности .
Определение
Серия последовательности — это максимальный непустой сегмент последовательности, состоящий из соседних одинаковых элементов. Например, последовательность из 22 элементов
- + + + + - - - + + + - - + + + + + + - - - -
состоит из 6 прогонов длиной 433264. Тест прогона основан на нулевой гипотезе о том, что каждый элемент последовательности независимо извлекается из одного и того же распределения.
Согласно нулевой гипотезе, количество серий в последовательности из N элементов [примечание 1] представляет собой случайную величину , условное распределение которой дано при наблюдении N + положительных значений [примечание 2] и N − отрицательных значений ( N = N + + N − ) приблизительно нормально, при этом: [1] [2]
![{\displaystyle {\begin{aligned}{\text{mean: }}&\mu = {\frac {2\ N_{+}\ N_{-}}{N}}+1,\\[6pt]{ \text{variance: }}&\sigma ^{2}={\frac {2\ N_{+}\ N_{-}\ (2\ N_{+}\ N_{-}-N)}{N^ {2}\ (N-1)}}={\frac {(\mu -1)(\mu -2)}{N-1}}.\end{aligned}}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Аналогично, количество запусков равно .![{\displaystyle R={\frac {1}{2}}(N_{+}+N_{-}+1-\sum _{i=1}^{N-1}x_{i}x_{i+ 1})}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Эти параметры не предполагают, что положительные и отрицательные элементы имеют равные вероятности появления, а лишь предполагают, что элементы независимы и одинаково распределены . Если количество прогонов значительно больше или меньше ожидаемого, гипотеза статистической независимости элементов может быть отвергнута.
Доказательства
Моменты
Количество пробегов . Благодаря независимости ожидание![{\displaystyle R={\frac {1}{2}}(N_{+}+N_{-}+1-\sum _{i=1}^{N-1}x_{i}x_{i+ 1})}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle E[R]={\frac {1}{2}}(N+1-(N-1)E[x_{1}x_{2}])}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle x_{1}x_{2}={\begin{cases}+1\quad &{\text{ с вероятностью }}{\frac {N_{+}(N_{+}-1)+N_{ -}(N_{-}-1)}{N(N-1)}}\\-1\quad &{\text{ с вероятностью }}{\frac {2N_{+}N_{-}}{N (N-1)}}\\\end{случаи}}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle E[x_{1}x_{2}]={\frac {(N_{+}-N_{-})^{2}-N}{N(N-1)}}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle E[R]={\frac {2\ N_{+}\ N_{-}}{N}}+1}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Аналогично, дисперсия количества прогонов равна
![{\displaystyle Var[R]={\frac {1}{4}}Var[\sum _{i=1}^{N-1}x_{i}x_{i+1}]={\frac { 1}{4}}((N-1)E[x_{1}x_{2}x_{1}x_{2}]+2(N-2)E[x_{1}x_{2}x_{ 2}x_{3}]+(N-2)(N-3)E[x_{1}x_{2}x_{3}x_{4}]-(N-1)^{2}E[x_ {1}x_{2}]^{2})}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Аналогично мы можем вычислить все моменты , но алгебра становится всё уродливее и уродливее.![{\displaystyle R}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Асимптотическая нормальность
Теорема. Если мы выбираем все более и более длинные последовательности с некоторым фиксированным , то распределение сходится к нормальному распределению со средним значением 0 и дисперсией 1.![{\displaystyle \lim N_ {+}/N = p}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle p\in (0,1)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle {\frac {R-\mu }{\sigma }}\sim {\sqrt {N}}(R/\mu -1)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Эскиз доказательства. Достаточно доказать асимптотическую нормальность последовательности , что можно доказать с помощью центральной предельной теоремы мартингала .![{\displaystyle \sum _{i=1}^{N-1}x_{i}x_{i+1}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Приложения
Тесты Runs можно использовать для проверки:
- случайность распределения, если взять данные в заданном порядке и отметить + данные, превышающие медиану , и - данные, меньшие медианы (числа, равные медиане, опущены).
- хорошо ли функция вписывается в набор данных , отмечая данные, превышающие значение функции, знаком +, а другие данные знаком –. Для этого использования тест пробегов, который учитывает знаки, но не расстояния, дополняет тест хи-квадрат , который учитывает расстояния, но не знаки.
Связанные тесты
Было показано, что критерий Колмогорова-Смирнова более эффективен, чем критерий Вальда-Вольфовица, для обнаружения различий между распределениями, которые различаются исключительно своим расположением . Однако обратное верно, если распределения различаются по дисперсии и имеют лишь небольшую разницу в местоположении. [ нужна цитата ]
Тест Вальда-Вольфовица был расширен для использования с несколькими образцами . [3] [4] [5] [6]
Примечания
- ^ N — количество элементов, а не количество запусков.
- ^ N + — это количество элементов с положительными значениями, а не количество положительных серий
Рекомендации
- ^ «Запускает тест на обнаружение неслучайности» .
- ^ Образец 33092: Тест Вальда-Вулфовица (или тесты) на случайность.
- ^ Магель, RC; Вибово, SH (1997). «Сравнение возможностей тестов Вальда – Вольфовица и Колмогорова – Смирнова». Биометрический журнал . 39 (6): 665–675. дои : 10.1002/bimj.4710390605.
- ^ Бартон, Делавэр; Дэвид, ФН (1957). «Множественные пробеги». Биометрика . 44 (1–2): 168–178. дои : 10.1093/biomet/44.1-2.168.
- ^ Срент П., Смитон, Северная Каролина (2007) Прикладные непараметрические статистические методы, стр. 217–219. Бока-Ратон: Чепмен и Холл / CRC.
- ^ Альхаким, А; Хупер, В. (2008). «Непараметрический тест для нескольких независимых выборок». Журнал непараметрической статистики . 20 (3): 253–261. CiteSeerX 10.1.1.568.6110 . дои : 10.1080/10485250801976741.
Внешние ссылки