В статистике коэффициент корреляции является мерой криволинейной зависимости между статистической дисперсией внутри отдельных категорий и дисперсией по всей совокупности или выборке. Мера определяется как соотношение двух стандартных отклонений, представляющих эти типы вариаций. Контекст здесь тот же, что и у коэффициента внутриклассовой корреляции , значением которого является квадрат коэффициента корреляции.
Предположим, что каждое наблюдение — это y xi , где x указывает категорию, в которой находится наблюдение, а i — метку конкретного наблюдения. Пусть n x — количество наблюдений в категории x и
где среднее значение категории x и среднее значение всей совокупности. Корреляционное отношение η ( eta ) определяется как удовлетворяющее
который можно записать как
т.е. взвешенная дисперсия категории означает деление дисперсии всех выборок.
Если связь между значениями и значениями линейна (что, безусловно, верно, когда есть только две возможности для x ), это даст тот же результат, что и квадрат коэффициента корреляции Пирсона ; в противном случае коэффициент корреляции будет больше по величине. Поэтому его можно использовать для оценки нелинейных отношений.
Коэффициент корреляции принимает значения от 0 до 1. Предел представляет собой особый случай отсутствия дисперсии среди средних значений различных категорий, но относится к отсутствию дисперсии внутри соответствующих категорий. не определено, когда все точки данных всей совокупности принимают одно и то же значение.
Предположим, имеется распределение результатов тестов по трем темам (категориям):
Тогда средние значения испытуемых составляют 36, 33 и 78, а общий средний балл — 52.
Суммы квадратов различий от средних показателей по предмету составляют 1952 по алгебре, 308 по геометрии и 600 по статистике, что в сумме составляет 2860. Общая сумма квадратов различий от общего среднего значения составляет 9640. Разница в 6780 между ними равна также взвешенная сумма квадратов различий между средними показателями субъектов и общим средним показателем:
Это дает
предполагая, что большая часть общей дисперсии является результатом различий между темами, а не внутри тем. Извлечение квадратного корня дает
Ведь общая выборочная дисперсия обусловлена исключительно дисперсией между категориями, а вовсе не дисперсией внутри отдельных категорий. Для быстрого понимания просто представьте, что все оценки по алгебре, геометрии и статистике одинаковы соответственно, например, 5 раз по 36, 4 раза по 33, 6 раз по 78.
Предел относится к случаю отсутствия дисперсии среди категорий, вносящих вклад в общую дисперсию. Тривиальное требование для этой крайности состоит в том, чтобы все средние категории были одинаковыми.
Коэффициент корреляции был введен Карлом Пирсоном как часть дисперсионного анализа . Рональд Фишер прокомментировал:
«В качестве описательной статистики полезность коэффициента корреляции крайне ограничена. Следует отметить, что количество степеней свободы в числителе зависит от количества массивов» [1]
на что Эгон Пирсон (сын Карла) ответил, сказав
«Опять же, давно устоявшийся метод, такой как использование коэффициента корреляции [§45 «Коэффициент корреляции» η] обходит в нескольких словах без адекватного описания, что, возможно, вряд ли справедливо по отношению к студенту, которому не предоставляется возможность самому судить о его масштабах». [2]