stringtranslate.com

Коэффициент корреляции

В статистике коэффициент корреляции является мерой криволинейной зависимости между статистической дисперсией внутри отдельных категорий и дисперсией по всей совокупности или выборке. Мера определяется как соотношение двух стандартных отклонений, представляющих эти типы вариаций. Контекст здесь тот же, что и у коэффициента внутриклассовой корреляции , значением которого является квадрат коэффициента корреляции.

Определение

Предположим, что каждое наблюдение — это y xi , где x указывает категорию, в которой находится наблюдение, а i — метку конкретного наблюдения. Пусть n x — количество наблюдений в категории x и

и

где среднее значение категории x и среднее значение всей совокупности. Корреляционное отношение η ( eta ) определяется как удовлетворяющее

который можно записать как

т.е. взвешенная дисперсия категории означает деление дисперсии всех выборок.

Если связь между значениями и значениями линейна (что, безусловно, верно, когда есть только две возможности для x ), это даст тот же результат, что и квадрат коэффициента корреляции Пирсона ; в противном случае коэффициент корреляции будет больше по величине. Поэтому его можно использовать для оценки нелинейных отношений.

Диапазон

Коэффициент корреляции принимает значения от 0 до 1. Предел представляет собой особый случай отсутствия дисперсии среди средних значений различных категорий, но относится к отсутствию дисперсии внутри соответствующих категорий. не определено, когда все точки данных всей совокупности принимают одно и то же значение.

Пример

Предположим, имеется распределение результатов тестов по трем темам (категориям):

Тогда средние значения испытуемых составляют 36, 33 и 78, а общий средний балл — 52.

Суммы квадратов различий от средних показателей по предмету составляют 1952 по алгебре, 308 по геометрии и 600 по статистике, что в сумме составляет 2860. Общая сумма квадратов различий от общего среднего значения составляет 9640. Разница в 6780 между ними равна также взвешенная сумма квадратов различий между средними показателями субъектов и общим средним показателем:

Это дает

предполагая, что большая часть общей дисперсии является результатом различий между темами, а не внутри тем. Извлечение квадратного корня дает

Ведь общая выборочная дисперсия обусловлена ​​исключительно дисперсией между категориями, а вовсе не дисперсией внутри отдельных категорий. Для быстрого понимания просто представьте, что все оценки по алгебре, геометрии и статистике одинаковы соответственно, например, 5 раз по 36, 4 раза по 33, 6 раз по 78.

Предел относится к случаю отсутствия дисперсии среди категорий, вносящих вклад в общую дисперсию. Тривиальное требование для этой крайности состоит в том, чтобы все средние категории были одинаковыми.

Пирсон против Фишера

Коэффициент корреляции был введен Карлом Пирсоном как часть дисперсионного анализа . Рональд Фишер прокомментировал:

«В качестве описательной статистики полезность коэффициента корреляции крайне ограничена. Следует отметить, что количество степеней свободы в числителе зависит от количества массивов» [1]

на что Эгон Пирсон (сын Карла) ответил, сказав

«Опять же, давно устоявшийся метод, такой как использование коэффициента корреляции [§45 «Коэффициент корреляции» η] обходит в нескольких словах без адекватного описания, что, возможно, вряд ли справедливо по отношению к студенту, которому не предоставляется возможность самому судить о его масштабах». [2]

Рекомендации

  1. ^ Рональд Фишер (1926) « Статистические методы для научных работников », ISBN  0-05-002170-2 (отрывок)
  2. ^ Пирсон Э.С. (1926) «Обзор статистических методов для научных работников (РА Фишер)», «Прогресс науки», 20, 733-734. (отрывок)