stringtranslate.com

Коэффициент корреляции

В статистике коэффициент корреляции является мерой криволинейной связи между статистическим разбросом внутри отдельных категорий и разбросом по всей совокупности или выборке. Мера определяется как отношение двух стандартных отклонений, представляющих эти типы вариации. Контекст здесь тот же, что и у коэффициента внутриклассовой корреляции , значение которого равно квадрату коэффициента корреляции.

Определение

Предположим, что каждое наблюдение — это y xi , где x указывает категорию, в которой находится наблюдение, а i — метка конкретного наблюдения. Пусть n x будет числом наблюдений в категории x и

и

где — среднее значение категории x , а — среднее значение всей совокупности. Коэффициент корреляции η ( eta ) определяется как удовлетворяющий условию

что можно записать как

т.е. взвешенная дисперсия средних значений категории, деленная на дисперсию всех выборок.

Если связь между значениями и значениями линейна (что, безусловно, верно, когда есть только две возможности для x ), это даст тот же результат, что и квадрат коэффициента корреляции Пирсона ; в противном случае коэффициент корреляции будет больше по величине. Поэтому его можно использовать для оценки нелинейных связей.

Диапазон

Коэффициент корреляции принимает значения от 0 до 1. Предел представляет собой особый случай отсутствия дисперсии среди средних значений различных категорий, тогда как относится к отсутствию дисперсии внутри соответствующих категорий. не определен, когда все точки данных всей совокупности принимают одинаковое значение.

Пример

Предположим, что имеется распределение результатов тестов по трем темам (категориям):

Средние баллы по предметам составляют 36, 33 и 78, а общий средний балл — 52.

Суммы квадратов разностей от средних значений по предметам составляют 1952 для алгебры, 308 для геометрии и 600 для статистики, что в сумме составляет 2860. Общая сумма квадратов разностей от общего среднего составляет 9640. Разница в 6780 между ними также является взвешенной суммой квадратов разностей между средними значениями по предметам и общим средним значением:

Это дает

предполагая, что большая часть общей дисперсии является результатом различий между темами, а не внутри тем. Извлечение квадратного корня дает

Для общей выборочной дисперсии это происходит исключительно из-за дисперсии среди категорий, а не из-за дисперсии внутри отдельных категорий. Для быстрого понимания просто представьте, что все баллы по алгебре, геометрии и статистике одинаковы, например, 5 раз по 36, 4 раза по 33, 6 раз по 78.

Предел относится к случаю без дисперсии среди категорий, вносящих вклад в общую дисперсию. Тривиальное требование для этого экстремального случая заключается в том, что все средние категории одинаковы.

Пирсон против Фишера

Коэффициент корреляции был введен Карлом Пирсоном как часть дисперсионного анализа . Рональд Фишер прокомментировал:

«Как описательная статистика полезность корреляционного отношения крайне ограничена. Следует отметить, что число степеней свободы в числителе зависит от числа массивов» [1]

на что Эгон Пирсон (сын Карла) ответил, сказав:

«Опять же, такой давно устоявшийся метод, как использование корреляционного отношения [§45 «Корреляционное отношение» η], обойден в нескольких словах без адекватного описания, что, возможно, вряд ли справедливо по отношению к студенту, которому не предоставлена ​​возможность самостоятельно оценить его возможности». [2]

Ссылки

  1. ^ Рональд Фишер (1926) « Статистические методы для научных работников », ISBN  0-05-002170-2 (отрывок)
  2. ^ Пирсон ES (1926) «Обзор статистических методов для научных работников (RA Fisher)», «Science Progress», 20, 733-734. (отрывок)