stringtranslate.com

Тест Колмогорова – Смирнова

Иллюстрация статистики Колмогорова – Смирнова. Красная линия — это модельный CDF , синяя линия — эмпирический CDF , а черная стрелка — статистика KS.

В статистике тест Колмогорова–Смирнова ( тест КС или тест КС ) — это непараметрический тест равенства непрерывных (или разрывных, см. раздел 2.2) одномерных распределений вероятностей , который можно использовать для проверки того, пришла ли выборка из заданного эталонного распределения вероятностей (одновыборочный критерий K–S) или для проверки того, произошли ли две выборки из одного и того же распределения (двухвыборочный критерий K–S). Интуитивно понятно, что тест предоставляет метод качественного ответа на вопрос: «Насколько вероятно, что мы увидим такую ​​коллекцию образцов, если бы они были взяты из этого распределения вероятностей?» или, во втором случае, «Насколько вероятно, что мы увидим два набора таких выборок, если они были взяты из одного и того же (но неизвестного) распределения вероятностей?». Назван в честь Андрея Колмогорова и Николая Смирнова .

Статистика Колмогорова-Смирнова количественно определяет расстояние между эмпирической функцией распределения выборки и кумулятивной функцией распределения эталонного распределения или между эмпирическими функциями распределения двух выборок. Нулевое распределение этой статистики рассчитывается при нулевой гипотезе о том, что выборка взята из эталонного распределения (в случае с одной выборкой) или что выборки взяты из одного и того же распределения (в случае с двумя выборками). В одновыборочном случае распределение, рассматриваемое в рамках нулевой гипотезы, может быть непрерывным (см. раздел 2), чисто дискретным или смешанным (см. раздел 2.2). В случае двух выборок (см. раздел 3) распределение, рассматриваемое в рамках нулевой гипотезы, является непрерывным, но в остальном не ограничено. Однако испытание с двумя выборками также может быть выполнено в более общих условиях, которые допускают разрывы, неоднородность и зависимость между выборками. [1]

Двухвыборочный критерий K–S является одним из наиболее полезных и общих непараметрических методов сравнения двух выборок, поскольку он чувствителен к различиям как в расположении, так и в форме эмпирических кумулятивных функций распределения двух выборок.

Критерий Колмогорова-Смирнова можно модифицировать, чтобы он служил критерием согласия . В частном случае проверки нормальности распределения выборки стандартизируются и сравниваются со стандартным нормальным распределением. Это эквивалентно установке среднего значения и дисперсии эталонного распределения, равных выборочным оценкам, и известно, что их использование для определения конкретного эталонного распределения изменяет нулевое распределение тестовой статистики (см. Тест с оценочными параметрами). Различные исследования показали, что даже в этой скорректированной форме тест менее эффективен для проверки нормальности, чем тест Шапиро-Уилка или тест Андерсона-Дарлинга . [2] Однако и эти другие тесты имеют свои недостатки. Например, известно, что критерий Шапиро-Уилка не работает хорошо в образцах со многими одинаковыми значениями.

Одновыборочная статистика Колмогорова – Смирнова

Эмпирическая функция распределения F n для n независимых и одинаково распределенных (iid) упорядоченных наблюдений X i определяется как

где – индикаторная функция , равная 1, если и равна 0 в противном случае.

Статистика Колмогорова – Смирнова для данной кумулятивной функции распределения F ( x ) равна

где sup xверхняя грань набора расстояний. Интуитивно понятно, что статистика берет наибольшую абсолютную разницу между двумя функциями распределения по всем значениям x .

По теореме Гливенко–Кантелли , если выборка происходит из распределения F ( x ) , то Dn почти наверняка сходится к 0 в пределе, когда стремится к бесконечности. Колмогоров усилил этот результат, эффективно указав скорость сходимости (см. Распределение Колмогорова). Теорема Донскера дает еще более сильный результат.

На практике статистика требует относительно большого количества точек данных (по сравнению с другими критериями согласия, такими как статистика теста Андерсона-Дарлинга ), чтобы правильно отвергнуть нулевую гипотезу.

Распределение Колмогорова

Иллюстрация PDF -файла распределения Колмогорова

Распределение Колмогорова — это распределение случайной величины

где B ( t ) — броуновский мост . Кумулятивная функция распределения K определяется выражением [3]

которая также может быть выражена тэта-функцией Якоби . И форма критерия Колмогорова-Смирнова, и ее асимптотическое распределение при нулевой гипотезе были опубликованы Андреем Колмогоровым [4] , а таблица распределения была опубликована Николаем Смирновым . [5] Доступны рекуррентные соотношения для распределения тестовой статистики в конечных выборках. [4]

При нулевой гипотезе, что выборка происходит из гипотетического распределения F ( x ),

по распределению , где B ( t ) — броуновский мост. Если F непрерывно, то при нулевой гипотезе сходится к распределению Колмогорова, которое не зависит от F . Этот результат также известен как теорема Колмогорова.

Точность этого предела как приближения к точному cdf, когда конечен, не очень впечатляет: даже когда соответствующая максимальная ошибка составляет около ; эта ошибка увеличивается до когда и до совершенно неприемлемого когда . Однако очень простой способ замены на

в аргументе тэта-функции Якоби сводит эти ошибки к , и соответственно; такая точность обычно считается более чем достаточной для всех практических приложений. [6]

Критерий согласия или критерий Колмогорова – Смирнова можно построить, используя критические значения распределения Колмогорова. Этот тест асимптотически действителен, когда он отклоняет нулевую гипотезу на уровне, если

где K α находится из

Асимптотическая мощность этого теста равна 1.

Быстрые и точные алгоритмы вычисления cdf или его дополнения для произвольных и доступны по адресу:

Тест с расчетными параметрами

Если форма или параметры F ( x ) определяются на основе данных X i, критические значения, определенные таким образом, являются недействительными. В таких случаях может потребоваться метод Монте-Карло или другие методы, но для некоторых случаев подготовлены таблицы. Подробности о необходимых модификациях тестовой статистики и критических значениях для нормального распределения и экспоненциального распределения были опубликованы [11] , а более поздние публикации также включают распределение Гамбеля . [12] Тест Лиллиефорса представляет собой особый случай нормального распределения. Преобразование логарифма может помочь преодолеть случаи, когда данные теста Колмогорова не соответствуют предположению, что они получены из нормального распределения.

При использовании оцениваемых параметров возникает вопрос, какой метод оценки следует использовать. Обычно это метод максимального правдоподобия , но, например, для нормального распределения MLE имеет большую ошибку смещения на сигме. Вместо этого использование подгонки момента или минимизации KS оказывает большое влияние на критические значения, а также некоторое влияние на мощность испытания. Если нам нужно решить для данных Student-T с df = 2 с помощью теста KS, могут ли данные быть нормальными или нет, тогда оценка ML, основанная на H 0 (данные нормальны, поэтому использование стандартного отклонения для масштаба) даст много большее расстояние KS, чем посадка с минимальным KS. В этом случае нам следует отклонить H 0 , что часто происходит с MLE, поскольку стандартное отклонение выборки может быть очень большим для данных T-2, но при минимизации KS мы можем получить слишком низкое KS, чтобы отклонить H 0 . В случае Student-T модифицированный тест KS с оценкой KS вместо MLE действительно делает тест KS немного хуже. Однако в других случаях такой модифицированный тест KS приводит к немного большей мощности теста. [ нужна цитата ]

Дискретное и смешанное распределение нулей

В предположении, что она неубывающая и непрерывная справа, со счетным (возможно, бесконечным) числом скачков, статистика теста KS может быть выражена как:

Из непрерывности справа следует, что и , следовательно, распределение зависит от нулевого распределения , т. е. уже не является свободным от распределения, как в непрерывном случае. Поэтому был разработан быстрый и точный метод вычисления точного и асимптотического распределения, когда является чисто дискретным или смешанным, [9] реализованным на C++ и в пакете KSgeneral [10 ] языка R. Функции и вычисляют также статистику теста KS и значения p для чисто дискретных, смешанных или непрерывных нулевых распределений и произвольных размеров выборки . Тест KS и его p-значения для дискретных нулевых распределений и небольших размеров выборки также вычисляются в [13] как часть пакета dgof языка R. Основные статистические пакеты, среди которых SAS , [14] Stata [15] реализуют тест KS в предположении, что оно непрерывно, что является более консервативным, если нулевое распределение на самом деле не является непрерывным (см. [16] [17] [18] ).disc_ks_test()mixed_ks_test()cont_ks_test() PROC NPAR1WAY ksmirnov

Двухвыборочный критерий Колмогорова – Смирнова

Иллюстрация двухвыборочной статистики Колмогорова – Смирнова. Красные и синие линии соответствуют эмпирической функции распределения, а черная стрелка — статистике KS для двух выборок.

Тест Колмогорова-Смирнова также можно использовать для проверки того, различаются ли два основных одномерных распределения вероятностей. В этом случае статистика Колмогорова–Смирнова имеет вид

где и – эмпирические функции распределения первой и второй выборки соответственно, а – супремум-функция .

Для больших выборок нулевая гипотеза отклоняется на уровне, если

Где и – размеры первой и второй выборки соответственно. Значение приведено в таблице ниже для наиболее распространенных уровней.

и вообще [19] по

так что условие читается

Здесь, опять же, чем больше размеры выборки, тем более чувствительна минимальная граница: для заданного соотношения размеров выборки (например , ) минимальная граница масштабируется в размере любой из выборок в соответствии с ее обратным квадратным корнем.

Обратите внимание, что тест с двумя выборками проверяет, происходят ли две выборки данных из одного и того же распределения. Здесь не уточняется, что это за общее распределение (например, нормальное оно или ненормальное). Опять же опубликованы таблицы критических значений. Недостатком одномерного теста Колмогорова-Смирнова является то, что он не очень мощный, поскольку разработан с учетом всех возможных типов различий между двумя функциями распределения. Некоторые утверждают [20] [21] , что тест Куккони , первоначально предложенный для одновременного сравнения местоположения и масштаба, может быть гораздо более мощным, чем тест Колмогорова-Смирнова при сравнении двух функций распределения.

Двухвыборочные тесты КС применялись в экономике для обнаружения асимметричных эффектов и изучения естественных экспериментов. [22]

Установка доверительных пределов для формы функции распределения

Хотя тест Колмогорова-Смирнова обычно используется для проверки того, является ли данное F ( x ) основным распределением вероятностей F n ( x ), процедуру можно инвертировать, чтобы получить доверительные пределы для самого F ( x ). Если выбрать критическое значение тестовой статистики D α такое, что P( D n  >  D α ) = α , то полоса шириной ± D α вокруг F n ( x ) будет полностью содержать F ( x ) с вероятностью 1 −  альфа .

Статистика Колмогорова – Смирнова в более чем одном измерении.

Многомерный критерий согласия Колмогорова-Смирнова без распределения был предложен Джастелом , Пенья и Замаром (1997). [23] В тесте используется статистика, построенная с использованием преобразования Розенблатта, и разработан алгоритм для ее вычисления в двумерном случае. Также представлен приблизительный тест, который можно легко вычислить в любом измерении.

Статистику теста Колмогорова-Смирнова необходимо изменить, если аналогичный тест будет применяться к многомерным данным . Это непросто, поскольку максимальная разница между двумя совместными кумулятивными функциями распределения обычно не совпадает с максимальной разницей любой из дополнительных функций распределения. Таким образом, максимальная разница будет различаться в зависимости от того, какая из двух других возможных схем или любая из двух других возможных схем используется. Можно было бы потребовать, чтобы результат используемого теста не зависел от того, какой выбор сделан.

Один из подходов к обобщению статистики Колмогорова-Смирнова на более высокие размерности, который отвечает вышеуказанной проблеме, состоит в том, чтобы сравнить CDF двух выборок со всеми возможными порядками и взять наибольшую из набора результирующих статистик KS. В d измерениях существует 2 d  − 1 таких порядков. Одна из таких вариаций принадлежит Пикоку [24] ( 3D-версию см. также Госсет [25] ), а другая — Фазано и Франческини [26] (сравнение и подробности вычислений см. в статье Лопес и др.). [27] Критические значения тестовой статистики могут быть получены путем моделирования, но они зависят от структуры зависимости в совместном распределении.

В одном измерении статистика Колмогорова-Смирнова идентична так называемому звездному расхождению D, поэтому другим естественным расширением KS для более высоких измерений было бы просто использовать D также и для более высоких измерений. К сожалению, звездное несоответствие трудно вычислить в больших размерностях.

В 2021 году была предложена функциональная форма многомерной статистики теста KS, которая упростила задачу оценки хвостовых вероятностей многомерной статистики теста KS, которая необходима для статистического теста. Для многомерного случая, если F ii- й непрерывный маргинал распределения вероятностей с k переменными, то

поэтому предельное распределение не зависит от предельных распределений. [1]

Реализации

Тест Колмогорова-Смирнова реализован во многих программах. Большинство из них реализуют как одновыборочный, так и двухвыборочный тест.

Смотрите также

Рекомендации

  1. ^ Аб Нааман, Михаил (2021). «О точной константе в многомерном неравенстве Дворецкого-Кифера-Вольфовица». Статистика и вероятностные буквы . 173 : 109088. doi : 10.1016/j.spl.2021.109088 . S2CID  233844405.
  2. ^ Стивенс, Массачусетс (1974). «Статистика EDF по точности соответствия и некоторые сравнения». Журнал Американской статистической ассоциации . 69 (347): 730–737. дои : 10.2307/2286009. JSTOR  2286009.
  3. ^ Марсалья Г., Цанг В.В., Ван Дж. (2003). «Оценка распределения Колмогорова». Журнал статистического программного обеспечения . 8 (18): 1–4. дои : 10.18637/jss.v008.i18 .
  4. ^ аб Колмогоров А (1933). «Эмпирическое определение легге дистрибуции». Г. Ист. Итал. Аттуари . 4 : 83–91.
  5. ^ Смирнов Н (1948). «Таблица для оценки согласия эмпирических распределений». Анналы математической статистики . 19 (2): 279–281. дои : 10.1214/aoms/1177730256 .
  6. ^ Врбик, Январь (2018). «Поправки для малой выборки к статистике теста Колмогорова – Смирнова». Пионерский журнал теоретической и прикладной статистики . 15 (1–2): 15–23.
  7. ^ ab Simard R, L'Ecuyer P (2011). «Вычисление двустороннего распределения Колмогорова – Смирнова». Журнал статистического программного обеспечения . 39 (11): 1–18. дои : 10.18637/jss.v039.i11 .
  8. ^ Москович А, Надлер Б (2017). «Быстрый расчет вероятностей пересечения границы для пуассоновских процессов». Статистика и вероятностные буквы . 123 : 177–182. arXiv : 1503.04363 . дои : 10.1016/j.spl.2016.11.027. S2CID  12868694.
  9. ^ abc Димитрова Д.С., Кайшев В.К., Тан С (2020). «Вычисление распределения Колмогорова – Смирнова, когда базовый CDF является чисто дискретным, смешанным или непрерывным». Журнал статистического программного обеспечения . 95 (10): 1–42. дои : 10.18637/jss.v095.i10 .
  10. ^ abc Димитрова, Димитрина; Кайшев Владимир; Тан, Сенрен (2 октября 2020 г.). «KSgeneral: вычисление P-значений теста KS для (Dis) непрерывного распределения нулей». cran.r-project.org/web/packages/KSgeneral/index.html .
  11. ^ Пирсон, ES; Хартли, Х.О., ред. (1972). Таблицы биометрики для статистиков . Том. 2. Издательство Кембриджского университета. стр. 117–123, таблицы 54, 55. ISBN. 978-0-521-06937-3.
  12. ^ Шорак, Гален Р.; Веллнер, Джон А. (1986). Эмпирические процессы с приложениями к статистике . Уайли. п. 239. ИСБН 978-0-471-86725-8.
  13. ^ Арнольд, Тейлор Б.; Эмерсон, Джон В. (2011). «Непараметрические критерии согласия для дискретных нулевых распределений» (PDF) . Журнал Р. 3 (2): 34\[тире]39. дои : 10.32614/rj-2011-016 .
  14. ^ «Руководство пользователя SAS/STAT(R) 14.1» . support.sas.com . Проверено 14 апреля 2018 г.
  15. ^ "Ксмирнов — тест равенства распределений Колмогорова-Смирнова" (PDF) . stata.com . Проверено 14 апреля 2018 г.
  16. ^ Нётер GE (1963). «Заметки о статистике Колмогорова в дискретном случае». Метрика . 7 (1): 115–116. дои : 10.1007/bf02613966. S2CID  120687545.
  17. ^ Слактер MJ (1965). «Сравнение критериев согласия хи-квадрат Пирсона и Колмогорова с точки зрения достоверности». Журнал Американской статистической ассоциации . 60 (311): 854–858. дои : 10.2307/2283251. JSTOR  2283251.
  18. ^ Уолш Дж. Э. (1963). «Ограниченные вероятностные свойства Колмогорова – Смирнова и подобная статистика для дискретных данных». Летопись Института статистической математики . 15 (1): 153–158. дои : 10.1007/bf02865912. S2CID  122547015.
  19. ^ Уравнение. (15) в разделе 3.3.1 книги Кнута Д.Э. «Искусство компьютерного программирования», том 2 (получисловые алгоритмы), 3-е издание, Эддисон Уэсли, Reading Mass, 1998.
  20. ^ Мароцци, Марко (2009). «Некоторые заметки о тесте Куккони в масштабе местоположения». Журнал непараметрической статистики . 21 (5): 629–647. дои : 10.1080/10485250902952435. S2CID  120038970.
  21. ^ Мароцци, Марко (2013). «Непараметрические одновременные тесты для тестирования местоположения и масштаба: сравнение нескольких методов». Коммуникации в статистике – моделирование и вычисления . 42 (6): 1298–1317. дои : 10.1080/03610918.2012.665546. S2CID  28146102.
  22. ^ Монж, Марко (2023). «Двухвыборочные тесты Колмогорова-Смирнова как тесты причинности. Повествование об инфляции в Латинской Америке с 2020 по 2022 год». 17 (1): 68–78. {{cite journal}}: Требуется цитировать журнал |journal=( помощь )
  23. ^ Жюстель, А .; Пенья, Д.; Замар, Р. (1997). «Многомерный критерий согласия Колмогорова – Смирнова». Статистика и вероятностные буквы . 35 (3): 251–259. CiteSeerX 10.1.1.498.7631 . дои : 10.1016/S0167-7152(97)00020-5. 
  24. ^ Пикок Дж. А. (1983). «Двумерная проверка согласия в астрономии». Ежемесячные уведомления Королевского астрономического общества . 202 (3): 615–627. Бибкод : 1983MNRAS.202..615P. дои : 10.1093/mnras/202.3.615 .
  25. ^ Госсет Э. (1987). «Трёхмерный расширенный тест Колмогорова – Смирнова как полезный инструмент в астрономии}». Астрономия и астрофизика . 188 (1): 258–264. Бибкод : 1987A&A...188..258G.
  26. ^ Фазано, Г.; Франческини, А. (1987). «Многомерная версия теста Колмогорова – Смирнова». Ежемесячные уведомления Королевского астрономического общества . 225 : 155–170. Бибкод : 1987MNRAS.225..155F. дои : 10.1093/mnras/225.1.155 . ISSN  0035-8711.
  27. ^ Лопес, RHC; Рид, И.; Хобсон, PR (23–27 апреля 2007 г.). Двумерный тест Колмогорова – Смирнова (PDF) . XI Международный семинар по передовым методам вычислений и анализа в физических исследованиях. Амстердам, Нидерланды.
  28. ^ "scipy.stats.kstest". Руководство по SciPy v1.7.1 . Сообщество Scipy . Проверено 26 октября 2021 г.
  29. ^ "КолмогоровСмирновТест" . Проверено 18 июня 2019 г.
  30. ^ "Новые узлы статистики" . Проверено 25 июня 2020 г.
  31. ^ «Непараметрические тесты · HypothesisTests.jl» .
  32. ^ «Ксмирнов — Критерий Колмогорова – Смирнова на равенство распределений» (PDF) . Проверено 18 июня 2019 г.
  33. ^ "Тест Колмогорова-Смирнова для проверки гипотезы нормальности" . Проверено 18 июня 2019 г.
  34. ^ "Фиттер". 3 октября 2023 г.

дальнейшее чтение

Внешние ссылки