В статистике коэффициент корреляции является мерой криволинейной связи между статистическим разбросом внутри отдельных категорий и разбросом по всей совокупности или выборке. Мера определяется как отношение двух стандартных отклонений, представляющих эти типы вариации. Контекст здесь тот же, что и у коэффициента внутриклассовой корреляции , значение которого равно квадрату коэффициента корреляции.
Предположим, что каждое наблюдение — это y xi , где x указывает категорию, в которой находится наблюдение, а i — метка конкретного наблюдения. Пусть n x будет числом наблюдений в категории x и
где — среднее значение категории x , а — среднее значение всей совокупности. Коэффициент корреляции η ( eta ) определяется как удовлетворяющий условию
что можно записать как
т.е. взвешенная дисперсия средних значений категории, деленная на дисперсию всех выборок.
Если связь между значениями и значениями линейна (что, безусловно, верно, когда есть только две возможности для x ), это даст тот же результат, что и квадрат коэффициента корреляции Пирсона ; в противном случае коэффициент корреляции будет больше по величине. Поэтому его можно использовать для оценки нелинейных связей.
Коэффициент корреляции принимает значения от 0 до 1. Предел представляет собой особый случай отсутствия дисперсии среди средних значений различных категорий, тогда как относится к отсутствию дисперсии внутри соответствующих категорий. не определен, когда все точки данных всей совокупности принимают одинаковое значение.
Предположим, что имеется распределение результатов тестов по трем темам (категориям):
Средние баллы по предметам составляют 36, 33 и 78, а общий средний балл — 52.
Суммы квадратов разностей от средних значений по предметам составляют 1952 для алгебры, 308 для геометрии и 600 для статистики, что в сумме составляет 2860. Общая сумма квадратов разностей от общего среднего составляет 9640. Разница в 6780 между ними также является взвешенной суммой квадратов разностей между средними значениями по предметам и общим средним значением:
Это дает
предполагая, что большая часть общей дисперсии является результатом различий между темами, а не внутри тем. Извлечение квадратного корня дает
Для общей выборочной дисперсии это происходит исключительно из-за дисперсии среди категорий, а не из-за дисперсии внутри отдельных категорий. Для быстрого понимания просто представьте, что все баллы по алгебре, геометрии и статистике одинаковы, например, 5 раз по 36, 4 раза по 33, 6 раз по 78.
Предел относится к случаю без дисперсии среди категорий, вносящих вклад в общую дисперсию. Тривиальное требование для этого экстремального случая заключается в том, что все средние категории одинаковы.
Коэффициент корреляции был введен Карлом Пирсоном как часть дисперсионного анализа . Рональд Фишер прокомментировал:
«Как описательная статистика полезность корреляционного отношения крайне ограничена. Следует отметить, что число степеней свободы в числителе зависит от числа массивов» [1]
на что Эгон Пирсон (сын Карла) ответил, сказав:
«Опять же, такой давно устоявшийся метод, как использование корреляционного отношения [§45 «Корреляционное отношение» η], обойден в нескольких словах без адекватного описания, что, возможно, вряд ли справедливо по отношению к студенту, которому не предоставлена возможность самостоятельно оценить его возможности». [2]