stringtranslate.com

Ранговая корреляция

В статистике ранговая корреляция — это любая из нескольких статистик, которые измеряют порядковую ассоциацию — связь между ранжированиями различных порядковых переменных или различными ранжированиями одной и той же переменной, где «ранжирование» — это присвоение меток упорядочивания «первый», «второй», «третий» и т. д. различным наблюдениям конкретной переменной. Коэффициент ранговой корреляции измеряет степень сходства между двумя ранжированиями и может использоваться для оценки значимости связи между ними. Например, два распространенных непараметрических метода значимости, которые используют ранговую корреляцию, — это U-тест Манна–Уитни и знаковый ранговый тест Вилкоксона .

Контекст

Если, например, одна переменная является идентичностью программы по баскетболу в колледже, а другая переменная является идентичностью программы по футболу в колледже, можно проверить наличие связи между рейтингами опросов двух типов программ: имеют ли колледжи с более высоко оцененной программой по баскетболу тенденцию иметь более высоко оцененную программу по футболу? Коэффициент ранговой корреляции может измерить эту связь, а мера значимости коэффициента ранговой корреляции может показать, является ли измеренная связь достаточно малой, чтобы быть совпадением.

Если имеется только одна переменная — идентичность студенческой футбольной программы, но она подвергается двум различным рейтингам опросов (например, один, составленный тренерами, а другой — спортивными обозревателями), то сходство рейтингов двух различных опросов можно измерить с помощью коэффициента ранговой корреляции.

В качестве другого примера, в таблице сопряженности с низким доходом , средним доходом и высоким доходом в переменной строки и уровнем образования (нет средней школы , средняя школа , университет ) в переменной столбца) [1] ранговая корреляция измеряет связь между доходом и уровнем образования.

Коэффициенты корреляции

Некоторые из наиболее популярных статистических данных ранговой корреляции включают в себя:

  1. ρ Спирмена
  2. τ Кендалла
  3. γ Гудмана и Краскала
  4. Сомерс D

Рост коэффициента ранговой корреляции означает рост согласия между рангами. Коэффициент находится внутри интервала [−1, 1] и принимает значение:

Следуя Диаконису (1988), ранжирование можно рассматривать как перестановку набора объектов . Таким образом, мы можем рассматривать наблюдаемые ранжирования как данные, полученные, когда выборочное пространство является (идентифицировано) симметричной группой . Затем мы можем ввести метрику , превращая симметричную группу в метрическое пространство . Различные метрики будут соответствовать различным ранговым корреляциям.

Общий коэффициент корреляции

Кендалл 1970 [2] показал, что его коэффициент (тау) и коэффициент Спирмена (ро) являются частными случаями общего коэффициента корреляции.

Предположим, у нас есть набор объектов, которые рассматриваются в отношении двух свойств, представленных и , образующих наборы значений и . Любой паре индивидов, скажем, -му и -му, мы присваиваем -балл, обозначаемый , и -балл, обозначаемый . Единственное требование к этим функциям состоит в том, чтобы они были антисимметричными, поэтому и . (Заметим, что в частности , если .) Тогда обобщенный коэффициент корреляции определяется как

Эквивалентно, если все коэффициенты собраны в матрицы и , причем и , то

где — внутреннее произведение Фробениуса и норма Фробениуса . В частности, общий коэффициент корреляции — это косинус угла между матрицами и .

τ Кендалла как частный случай

Если , являются рангами -члена по -качеству и -качеству соответственно, то мы можем определить

Сумма — это число согласных пар за вычетом числа несогласных пар (см. коэффициент ранговой корреляции тау Кендалла ). Сумма — это просто , число членов , как и . Таким образом, в этом случае,

ρ Спирмена как частный случай

Если , являются рангами -члена по и -качеству соответственно, мы можем рассмотреть матрицы, определяемые как

Суммы и равны, так как и лежат в диапазоне от до . Следовательно

Чтобы упростить это выражение, пусть обозначает разницу в рангах для каждого . Далее, пусть будет равномерно распределенной дискретной случайной величиной на . Поскольку ранги являются просто перестановками , мы можем рассматривать обе как случайные величины, распределенные как . Используя основные результаты суммирования из дискретной математики, легко увидеть, что для равномерно распределенной случайной величины , мы имеем и и, таким образом , . Теперь, наблюдая симметрии, мы можем вычислить части следующим образом:

и

Следовательно

где — разница между рангами, которая и есть коэффициент ранговой корреляции Спирмена .

Ранговая бисериальная корреляция

Джин Гласс (1965) отметил, что ранг-бисериальная корреляция может быть выведена из ранговой корреляции Спирмена . «Можно вывести коэффициент, определенный для X , дихотомической переменной, и Y , ранговой переменной, который оценивает ро Спирмена между X и Y таким же образом, как бисериальная r оценивает r Пирсона между двумя нормальными переменными» (стр. 91). Ранг-бисериальная корреляция была введена девятью годами ранее Эдвардом Кьюретоном (1956) как мера ранговой корреляции, когда ранги находятся в двух группах.

Формула простой разности Керби

Дэйв Керби (2014) рекомендовал ранг-бисериал в качестве меры для ознакомления студентов с ранговой корреляцией, поскольку общая логика может быть объяснена на вводном уровне. Ранг-бисериал — это корреляция, используемая с тестом Манна-Уитни U , методом, который обычно изучают на вводных курсах колледжей по статистике. Данные для этого теста состоят из двух групп; и для каждого члена группы результат ранжируется для исследования в целом.

Керби показал, что эта ранговая корреляция может быть выражена в терминах двух концепций: процент данных, которые поддерживают выдвинутую гипотезу, и процент данных, которые ее не поддерживают. Формула простой разности Керби утверждает, что ранговая корреляция может быть выражена как разница между долей благоприятных доказательств ( f ) минус доля неблагоприятных доказательств ( u ).

Пример и толкование

Для иллюстрации вычислений предположим, что тренер тренирует бегунов на длинные дистанции в течение месяца, используя два метода. В группе A 5 бегунов, а в группе B 4 бегуна. Выдвинутая гипотеза заключается в том, что метод A дает более быстрых бегунов. Гонка по оценке результатов показывает, что бегуны из группы A действительно бегают быстрее, со следующими рангами: 1, 2, 3, 4 и 6. Таким образом, более медленные бегуны из группы B имеют ранги 5, 7, 8 и 9.

Анализ проводится по парам, определяемым как член одной группы по сравнению с членом другой группы. Например, самый быстрый бегун в исследовании является членом четырех пар: (1,5), (1,7), (1,8) и (1,9). Все четыре из этих пар поддерживают гипотезу, потому что в каждой паре бегун из группы A быстрее бегуна из группы B. Всего имеется 20 пар, и 19 пар поддерживают гипотезу. Единственная пара, которая не поддерживает гипотезу, — это два бегуна с рангами 5 и 6, потому что в этой паре бегун из группы B показал более быстрое время. По формуле простой разности Керби 95% данных поддерживают гипотезу (19 из 20 пар), а 5% не поддерживают (1 из 20 пар), поэтому ранговая корреляция составляет r = .95 − .05 = .90.

Максимальное значение корреляции равно r = 1, что означает, что 100% пар поддерживают гипотезу. Корреляция r = 0 указывает на то, что половина пар поддерживает гипотезу, а половина — нет; другими словами, группы выборки не различаются по рангам, поэтому нет никаких доказательств того, что они происходят из двух разных популяций. Можно сказать, что размер эффекта r = 0 описывает отсутствие связи между членством в группе и рангами ее членов.

Ссылки

  1. ^ Крускал, Уильям Х. (1958). «Порядковые меры ассоциации». Журнал Американской статистической ассоциации . 53 (284): 814–861. doi :10.2307/2281954. JSTOR  2281954.
  2. ^ Кендалл, Морис Г. (1970). Методы ранговой корреляции (4-е изд.). Гриффин. ISBN 9780852641996.

Дальнейшее чтение

Внешние ссылки