В статистике ранговая корреляция — это любая из нескольких статистик, которые измеряют порядковую ассоциацию — связь между ранжированиями различных порядковых переменных или различными ранжированиями одной и той же переменной, где «ранжирование» — это присвоение меток упорядочивания «первый», «второй», «третий» и т. д. различным наблюдениям конкретной переменной. Коэффициент ранговой корреляции измеряет степень сходства между двумя ранжированиями и может использоваться для оценки значимости связи между ними. Например, два распространенных непараметрических метода значимости, которые используют ранговую корреляцию, — это U-тест Манна–Уитни и знаковый ранговый тест Вилкоксона .
Если, например, одна переменная является идентичностью программы по баскетболу в колледже, а другая переменная является идентичностью программы по футболу в колледже, можно проверить наличие связи между рейтингами опросов двух типов программ: имеют ли колледжи с более высоко оцененной программой по баскетболу тенденцию иметь более высоко оцененную программу по футболу? Коэффициент ранговой корреляции может измерить эту связь, а мера значимости коэффициента ранговой корреляции может показать, является ли измеренная связь достаточно малой, чтобы быть совпадением.
Если имеется только одна переменная — идентичность студенческой футбольной программы, но она подвергается двум различным рейтингам опросов (например, один, составленный тренерами, а другой — спортивными обозревателями), то сходство рейтингов двух различных опросов можно измерить с помощью коэффициента ранговой корреляции.
В качестве другого примера, в таблице сопряженности с низким доходом , средним доходом и высоким доходом в переменной строки и уровнем образования (нет средней школы , средняя школа , университет ) в переменной столбца) [1] ранговая корреляция измеряет связь между доходом и уровнем образования.
Некоторые из наиболее популярных статистических данных ранговой корреляции включают в себя:
Рост коэффициента ранговой корреляции означает рост согласия между рангами. Коэффициент находится внутри интервала [−1, 1] и принимает значение:
Следуя Диаконису (1988), ранжирование можно рассматривать как перестановку набора объектов . Таким образом, мы можем рассматривать наблюдаемые ранжирования как данные, полученные, когда выборочное пространство является (идентифицировано) симметричной группой . Затем мы можем ввести метрику , превращая симметричную группу в метрическое пространство . Различные метрики будут соответствовать различным ранговым корреляциям.
Кендалл 1970 [2] показал, что его коэффициент (тау) и коэффициент Спирмена (ро) являются частными случаями общего коэффициента корреляции.
Предположим, у нас есть набор объектов, которые рассматриваются в отношении двух свойств, представленных и , образующих наборы значений и . Любой паре индивидов, скажем, -му и -му, мы присваиваем -балл, обозначаемый , и -балл, обозначаемый . Единственное требование к этим функциям состоит в том, чтобы они были антисимметричными, поэтому и . (Заметим, что в частности , если .) Тогда обобщенный коэффициент корреляции определяется как
Эквивалентно, если все коэффициенты собраны в матрицы и , причем и , то
где — внутреннее произведение Фробениуса и норма Фробениуса . В частности, общий коэффициент корреляции — это косинус угла между матрицами и .
Если , являются рангами -члена по -качеству и -качеству соответственно, то мы можем определить
Сумма — это число согласных пар за вычетом числа несогласных пар (см. коэффициент ранговой корреляции тау Кендалла ). Сумма — это просто , число членов , как и . Таким образом, в этом случае,
Если , являются рангами -члена по и -качеству соответственно, мы можем рассмотреть матрицы, определяемые как
Суммы и равны, так как и лежат в диапазоне от до . Следовательно
Чтобы упростить это выражение, пусть обозначает разницу в рангах для каждого . Далее, пусть будет равномерно распределенной дискретной случайной величиной на . Поскольку ранги являются просто перестановками , мы можем рассматривать обе как случайные величины, распределенные как . Используя основные результаты суммирования из дискретной математики, легко увидеть, что для равномерно распределенной случайной величины , мы имеем и и, таким образом , . Теперь, наблюдая симметрии, мы можем вычислить части следующим образом:
и
Следовательно
где — разница между рангами, которая и есть коэффициент ранговой корреляции Спирмена .
Джин Гласс (1965) отметил, что ранг-бисериальная корреляция может быть выведена из ранговой корреляции Спирмена . «Можно вывести коэффициент, определенный для X , дихотомической переменной, и Y , ранговой переменной, который оценивает ро Спирмена между X и Y таким же образом, как бисериальная r оценивает r Пирсона между двумя нормальными переменными» (стр. 91). Ранг-бисериальная корреляция была введена девятью годами ранее Эдвардом Кьюретоном (1956) как мера ранговой корреляции, когда ранги находятся в двух группах.
Дэйв Керби (2014) рекомендовал ранг-бисериал в качестве меры для ознакомления студентов с ранговой корреляцией, поскольку общая логика может быть объяснена на вводном уровне. Ранг-бисериал — это корреляция, используемая с тестом Манна-Уитни U , методом, который обычно изучают на вводных курсах колледжей по статистике. Данные для этого теста состоят из двух групп; и для каждого члена группы результат ранжируется для исследования в целом.
Керби показал, что эта ранговая корреляция может быть выражена в терминах двух концепций: процент данных, которые поддерживают выдвинутую гипотезу, и процент данных, которые ее не поддерживают. Формула простой разности Керби утверждает, что ранговая корреляция может быть выражена как разница между долей благоприятных доказательств ( f ) минус доля неблагоприятных доказательств ( u ).
Для иллюстрации вычислений предположим, что тренер тренирует бегунов на длинные дистанции в течение месяца, используя два метода. В группе A 5 бегунов, а в группе B 4 бегуна. Выдвинутая гипотеза заключается в том, что метод A дает более быстрых бегунов. Гонка по оценке результатов показывает, что бегуны из группы A действительно бегают быстрее, со следующими рангами: 1, 2, 3, 4 и 6. Таким образом, более медленные бегуны из группы B имеют ранги 5, 7, 8 и 9.
Анализ проводится по парам, определяемым как член одной группы по сравнению с членом другой группы. Например, самый быстрый бегун в исследовании является членом четырех пар: (1,5), (1,7), (1,8) и (1,9). Все четыре из этих пар поддерживают гипотезу, потому что в каждой паре бегун из группы A быстрее бегуна из группы B. Всего имеется 20 пар, и 19 пар поддерживают гипотезу. Единственная пара, которая не поддерживает гипотезу, — это два бегуна с рангами 5 и 6, потому что в этой паре бегун из группы B показал более быстрое время. По формуле простой разности Керби 95% данных поддерживают гипотезу (19 из 20 пар), а 5% не поддерживают (1 из 20 пар), поэтому ранговая корреляция составляет r = .95 − .05 = .90.
Максимальное значение корреляции равно r = 1, что означает, что 100% пар поддерживают гипотезу. Корреляция r = 0 указывает на то, что половина пар поддерживает гипотезу, а половина — нет; другими словами, группы выборки не различаются по рангам, поэтому нет никаких доказательств того, что они происходят из двух разных популяций. Можно сказать, что размер эффекта r = 0 описывает отсутствие связи между членством в группе и рангами ее членов.
{{cite journal}}
: CS1 maint: DOI inactive as of June 2024 (link)