stringtranslate.com

Коэффициент ранговой корреляции Кендалла

В статистике коэффициент ранговой корреляции Кендалла , обычно называемый коэффициентом τ Кендалла (по греческой букве τ , тау), является статистикой, используемой для измерения порядковой связи между двумя измеренными величинами. Тест τ является непараметрическим тестом гипотезы для статистической зависимости, основанным на коэффициенте τ. Это мера ранговой корреляции : сходство упорядочений данных при ранжировании по каждой из величин. Он назван в честь Мориса Кендалла , который разработал его в 1938 году, [1] хотя Густав Фехнер предложил похожую меру в контексте временных рядов в 1897 году. [2]

Интуитивно понятно, что корреляция Кендалла между двумя переменными будет высокой, когда наблюдения имеют схожий (или идентичный для корреляции 1) ранг (т. е. относительную позиционную метку наблюдений внутри переменной: 1-й, 2-й, 3-й и т. д.) между двумя переменными, и низкой, когда наблюдения имеют неодинаковый (или полностью разный для корреляции −1) ранг между двумя переменными.

Оба коэффициента корреляции, Кендалла и Спирмена, можно сформулировать как частные случаи более общего коэффициента корреляции . Его понятия согласованности и несогласованности также появляются в других областях статистики, например, индекс Рэнда в кластерном анализе .

Определение

Все точки в серой области являются конкордантными, а все точки в белой области являются дискордантными относительно точки . С точками существует всего возможных пар точек. В этом примере имеется 395 конкордантных пар точек и 40 дискордантных пар точек, что приводит к коэффициенту корреляции ранга Кендалла 0,816.

Пусть будет набором наблюдений совместных случайных величин X и Y , таким, что все значения ( ) и ( ) уникальны. (Способы обработки неуникальных значений см. в разделе #Учет связей.) Любая пара наблюдений и , где , называется согласованной, если порядок сортировки и совпадает: то есть, если выполняется либо оба и , либо оба и ; в противном случае они называются несогласованными .

Коэффициент τ Кендалла определяется как:

[3]

где — биномиальный коэффициент для числа способов выбора двух предметов из n предметов.

Число несогласованных пар равно числу инверсий , которое переставляет y-последовательность в тот же порядок, что и x-последовательность.

Характеристики

Знаменатель — это общее количество парных комбинаций, поэтому коэффициент должен находиться в диапазоне −1 ≤  τ  ≤ 1.

Проверка гипотезы

Коэффициент ранга Кендалла часто используется в качестве испытательной статистики в статистическом тесте гипотезы , чтобы установить, можно ли считать две переменные статистически зависимыми. Этот тест является непараметрическим , поскольку он не опирается ни на какие предположения о распределениях X или Y или распределении ( X , Y ).

При нулевой гипотезе независимости X и Y , выборочное распределение τ имеет ожидаемое значение , равное нулю. Точное распределение не может быть охарактеризовано в терминах обычных распределений, но может быть точно рассчитано для небольших выборок; для более крупных выборок обычно используют приближение к нормальному распределению со средним значением нулевым и дисперсией . [4]

Теорема. Если выборки независимы, то дисперсия определяется выражением .

Доказательство
Доказательство
Вальц и Маклеод (1990; [5] 1995 [6] )

WLOG, мы переупорядочиваем пары данных, так что . В предположении независимости порядок представляет собой перестановку, выбранную равномерно случайным образом из , группы перестановок на .

Для каждой перестановки ее уникальный код инверсии таков , что каждый находится в диапазоне . Выборка перестановки равномерно эквивалентна выборке кода инверсии равномерно, что эквивалентно выборке каждого равномерно и независимо.

Тогда у нас есть

Первый член — это просто . Второй член можно вычислить, заметив, что — равномерная случайная величина на , поэтому и , а затем снова используя формулу суммы квадратов.

Асимптотическая нормальность  —  в пределе сходится по распределению к стандартному нормальному распределению.

Доказательство

Используйте результат из Класса статистик с асимптотически нормальным распределением Хёффдинга (1948). [7]

Случай стандартных нормальных распределений

Если IID-выборки из одного и того же совместно нормального распределения с известным коэффициентом корреляции Пирсона , то ожидание ранговой корреляции Кендалла имеет замкнутую формулу. [8]

Равенство Грейнера  —  Если совместно нормальны, с корреляцией , то

Название приписывается Ричарду Грейнеру (1909) [9] П. А. П. Мораном . [10]

Доказательство
Доказательство [11]

Определите следующие величины.

  • является точкой в ​​.

В обозначениях мы видим, что число согласованных пар, , равно числу тех , которые попадают в подмножество . То есть, .

Таким образом,

Поскольку каждый из них является выборкой IID совместно нормального распределения, спаривание не имеет значения, поэтому каждый член в суммировании абсолютно одинаков, и поэтому остается вычислить вероятность. Мы делаем это с помощью повторных аффинных преобразований.

Сначала нормализуем, вычитая среднее значение и разделив стандартное отклонение. Это не изменит . Это дает нам , где выбирается из стандартного нормального распределения на .

Таким образом, где вектор все еще распределен как стандартное нормальное распределение на . Остается выполнить несколько неинтересных и утомительных матричных возведений в степень и тригонометрию, которые можно пропустить.

Таким образом, тогда и только тогда , когда подмножество справа является «сжатой» версией двух квадрантов. Поскольку стандартное нормальное распределение является вращательно-симметричным, нам нужно только вычислить угол, охватываемый каждым сжатым квадрантом.

Первый квадрант — это сектор, ограниченный двумя лучами . Он преобразуется в сектор, ограниченный двумя лучами и . Они соответственно образуют угол с горизонтальной и вертикальной осью, где

Вместе два преобразованных квадранта охватывают угол , поэтому и, следовательно,

Учет связей

Говорят, что пара связана , если и только если или ; связанная пара не является ни согласованной, ни несогласованной. Когда в данных возникают связанные пары, коэффициент может быть изменен несколькими способами, чтобы сохранить его в диапазоне [−1, 1]:

Тау-а

Статистика Tau-a проверяет силу ассоциации перекрестных таблиц . Обе переменные должны быть порядковыми . Tau-a не будет делать никаких поправок на связи. Она определяется как:

где n c , n d и n 0 определены, как в следующем разделе.

Тау-б

Статистика Tau-b, в отличие от Tau-a, делает поправки на связи. [12] Значения Tau-b варьируются от −1 (100% отрицательная ассоциация или идеальная инверсия) до +1 (100% положительная ассоциация или идеальное согласие). Нулевое значение указывает на отсутствие ассоциации.

Коэффициент Тау-b Кендалла определяется как:

где

Простой алгоритм, разработанный на языке BASIC, вычисляет коэффициент Тау-b, используя альтернативную формулу. [13]

Имейте в виду, что некоторые статистические пакеты, например SPSS, используют альтернативные формулы для повышения вычислительной эффективности, с удвоенным «обычным» числом согласованных и несогласованных пар. [14]

Тау-с

Tau-c (также называемый Стюартом-Кендаллом Tau-c) [15] больше подходит, чем Tau-b, для анализа данных на основе неквадратных (т. е. прямоугольных) таблиц сопряженности . [15] [16] Поэтому используйте Tau-b, если базовая шкала обеих переменных имеет одинаковое количество возможных значений (до ранжирования), и Tau-c, если они различаются. Например, одна переменная может быть оценена по 5-балльной шкале (очень хорошо, хорошо, средне, плохо, очень плохо), тогда как другая может быть основана на более точной 10-балльной шкале.

Коэффициент Тау-c Кендалла определяется как: [16]

где

Тесты значимости

Когда две величины статистически зависимы, распределение нелегко охарактеризовать в терминах известных распределений. Однако для следующей статистики , приблизительно распределено как стандартное нормальное, когда переменные статистически независимы:

где .

Таким образом, чтобы проверить, являются ли две переменные статистически зависимыми, вычисляют и находят кумулятивную вероятность для стандартного нормального распределения при . Для 2-стороннего теста умножьте это число на два, чтобы получить p -значение. Если p -значение ниже заданного уровня значимости, то отвергается нулевая гипотеза (на этом уровне значимости) о том, что величины статистически независимы.

При учете связей следует вносить многочисленные корректировки . Следующая статистика, , имеет то же распределение, что и распределение, и снова приблизительно равна стандартному нормальному распределению, когда величины статистически независимы:

где

Иногда это называют тестом Манна-Кендалла. [17]

Алгоритмы

Прямое вычисление числителя включает две вложенные итерации, что характеризуется следующим псевдокодом:

число := 0 для i := 2..N сделать  для j := 1..(i − 1) сделать число := число + знак(x[i] − x[j]) × знак(y[i] − y[j])возвращаемое число

Хотя этот алгоритм быстро реализуется, он сложен и становится очень медленным на больших выборках. Более сложный алгоритм [18], построенный на алгоритме Merge Sort , может быть использован для вычисления числителя во времени.

Начните с упорядочения точек данных, сортируя их по первой величине, , и, во-вторых (среди связей в ), по второй величине, . При таком начальном упорядочении не сортируется, и ядро ​​алгоритма состоит из вычисления того, сколько шагов потребуется пузырьковой сортировке для сортировки этого начального . Улучшенный алгоритм сортировки слиянием со сложностью может быть применен для вычисления количества обменов, , которые потребуются пузырьковой сортировке для сортировки . Тогда числитель для вычисляется как:

где вычисляется как и , но относительно совместных связей в и .

Сортировка слиянием разделяет сортируемые данные на две примерно равные половины, и , затем сортирует каждую половину рекурсивно, а затем объединяет две отсортированные половины в полностью отсортированный вектор. Количество перестановок пузырьковой сортировки равно:

где и являются отсортированными версиями и , и характеризует эквивалент обмена пузырьковой сортировки для операции слияния. вычисляется, как показано в следующем псевдокоде:

Функция M(L[1..n], R[1..m]) равна я := 1 j := 1 nSwaps := 0 пока i ≤ n и j ≤ m делать  если R[j] < L[i] то nОбменов := nОбменов + n − i + 1 j := j + 1 еще я := я + 1 возврат nSwaps

Побочным эффектом вышеописанных шагов является то, что вы в итоге получаете как отсортированную версию , так и отсортированную версию . С их помощью факторы и , используемые для вычисления, легко получаются за один проход по отсортированным массивам за линейное время.

Аппроксимация ранговой корреляции Кендалла из потока

Эффективные алгоритмы для расчета коэффициента ранговой корреляции Кендалла в соответствии со стандартным оценщиком имеют временную сложность. Однако эти алгоритмы требуют наличия всех данных для определения рангов наблюдений, что создает проблему в последовательных настройках данных, где наблюдения раскрываются постепенно. К счастью, существуют алгоритмы для оценки коэффициента ранговой корреляции Кендалла в последовательных настройках. [19] [20] Эти алгоритмы имеют сложность времени обновления и пространства, эффективно масштабируясь с числом наблюдений. Следовательно, при обработке пакета наблюдений временная сложность становится , в то время как пространственная сложность остается постоянной .

Первый такой алгоритм [19] представляет собой приближение к коэффициенту ранговой корреляции Кендалла, основанное на огрублении совместного распределения случайных величин. Нестационарные данные обрабатываются с помощью подхода скользящего окна. Этот алгоритм [19] прост и способен обрабатывать дискретные случайные величины вместе с непрерывными случайными величинами без модификации.

Второй алгоритм [20] основан на оценщиках рядов Эрмита и использует альтернативный оценщик для точного коэффициента ранговой корреляции Кендалла, т. е. для вероятности согласованности за вычетом вероятности несогласованности пар двумерных наблюдений. Этот альтернативный оценщик также служит приближением к стандартному оценщику. Этот алгоритм [20] применим только к непрерывным случайным величинам, но он продемонстрировал превосходную точность и потенциальный прирост скорости по сравнению с первым описанным алгоритмом [19] , а также возможность обработки нестационарных данных без использования скользящих окон. Эффективная реализация подхода на основе рядов Эрмита содержится в пакете R package hermiter. [20]

Реализации программного обеспечения

Смотрите также

Ссылки

  1. ^ Кендалл, М. (1938). «Новая мера ранговой корреляции». Biometrika . 30 (1–2): 81–89. doi :10.1093/biomet/30.1-2.81. JSTOR  2332226.
  2. ^ Kruskal, WH (1958). «Порядковые меры ассоциации». Журнал Американской статистической ассоциации . 53 (284): 814–861. doi :10.2307/2281954. JSTOR  2281954. MR  0100941.
  3. ^ Нельсен, РБ (2001) [1994], «Метрика тау Кендалла», Энциклопедия математики , EMS Press
  4. ^ Прохоров, А.В. (2001) [1994], "Коэффициент ранговой корреляции Кендалла", Энциклопедия математики , EMS Press
  5. ^ Вальц, Пол Д.; Маклеод, А. Ян (февраль 1990 г.). «Упрощенный вывод дисперсии коэффициента ранговой корреляции Кендалла». The American Statistician . 44 (1): 39–40. doi :10.1080/00031305.1990.10475691. ISSN  0003-1305.
  6. ^ Вальц, Пол Д.; Маклеод, А. Йен; Томпсон, Мэри Э. (февраль 1995 г.). «Генерирующая функция кумулянта и приближения хвостовой вероятности для оценки Кендалла с равными рейтингами». Анналы статистики . 23 (1): 144–160. doi : 10.1214/aos/1176324460 . ISSN  0090-5364.
  7. ^ Hoeffding, Wassily (1992), Kotz, Samuel; Johnson, Norman L. (ред.), "Класс статистики с асимптотически нормальным распределением", Breakthroughs in Statistics: Foundations and Basic Theory , Springer Series in Statistics, New York, NY: Springer, стр. 308–334, doi :10.1007/978-1-4612-0919-5_20, ISBN 978-1-4612-0919-5, получено 2024-01-19
  8. ^ Кендалл, MG (1949). «Ранговая и продуктово-моментная корреляция». Biometrika . 36 (1/2): 177–193. doi :10.2307/2332540. ISSN  0006-3444. JSTOR  2332540. PMID  18132091.
  9. ^ Ричард Грейнер, (1909), Ueber das Fehlersystem der Kollektiv-maßlehre , Zeitschrift für Mathematik und Physik, Band 57, BG Teubner, Лейпциг, страницы 121–158, 225–260, 337–373.
  10. ^ Моран, ПАП (1948). «Ранговая корреляция и корреляция продукта-момента». Biometrika . 35 (1/2): 203–206. doi :10.2307/2332641. ISSN  0006-3444. JSTOR  2332641. PMID  18867425.
  11. ^ Бергер, Дэниел (2016). «Доказательство равенства Грейнера». Электронный журнал SSRN . doi :10.2139/ssrn.2830471. ISSN  1556-5068.
  12. ^ Агрести, А. (2010). Анализ порядковых категориальных данных (второе издание). Нью-Йорк: John Wiley & Sons. ISBN 978-0-470-08289-8.
  13. ^ Альфред Брофи (1986). «Алгоритм и программа для расчета коэффициента ранговой корреляции Кендалла» (PDF) . Методы исследования поведения, приборы и компьютеры . 18 : 45–46. doi :10.3758/BF03200993. S2CID  62601552.
  14. ^ IBM (2016). IBM SPSS Statistics 24 Algorithms. IBM. стр. 168. Получено 31 августа 2017 г.
  15. ^ ab Берри, К. Дж.; Джонстон, Дж. Э.; Захран, С.; Мильке, П. В. (2009). «Тау-мера Стюарта размера эффекта для порядковых переменных: некоторые методологические соображения». Методы исследования поведения . 41 (4): 1144–1148. doi : 10.3758/brm.41.4.1144 . PMID  19897822.
  16. ^ ab Стюарт, А. (1953). «Оценка и сравнение сил ассоциации в таблицах сопряженности». Biometrika . 40 (1–2): 105–110. doi :10.2307/2333101. JSTOR  2333101.
  17. ^ Вальц, Пол Д.; Маклеод, А. Йен; Томпсон, Мэри Э. (февраль 1995 г.). «Генерирующая функция кумулянта и приближения хвостовой вероятности для оценки Кендалла с равными рейтингами». Анналы статистики . 23 (1): 144–160. doi : 10.1214/aos/1176324460 . ISSN  0090-5364.
  18. ^ Найт, У. (1966). «Компьютерный метод расчета тау Кендалла с негруппированными данными». Журнал Американской статистической ассоциации . 61 (314): 436–439. doi :10.2307/2282833. JSTOR  2282833.
  19. ^ abcd Xiao, W. (2019). «Новые онлайн-алгоритмы для непараметрических корреляций с применением для анализа данных датчиков». Международная конференция IEEE по большим данным (Big Data) 2019 года . стр. 404–412. doi :10.1109/BigData47090.2019.9006483. ISBN 978-1-7281-0858-2. S2CID  211298570.
  20. ^ abcde Stephanou, M. и Varughese, M (2023). "Hermiter: R-пакет для последовательной непараметрической оценки". Computational Statistics . arXiv : 2111.14091 . doi :10.1007/s00180-023-01382-0. S2CID  244715035.{{cite journal}}: CS1 maint: multiple names: authors list (link)

Дальнейшее чтение

Внешние ссылки