Коэффициент корреляции Пирсона

В статистике коэффициент корреляции Пирсона ( PCC ) ^[a] — это коэффициент корреляции , который измеряет линейную корреляцию между двумя наборами данных. Это отношение между ковариацией двух переменных и произведением их стандартных отклонений ; таким образом, это по сути нормализованное измерение ковариации, так что результат всегда имеет значение между −1 и 1. Как и сама ковариация, эта мера может отражать только линейную корреляцию переменных и игнорирует многие другие типы взаимосвязей или корреляций. В качестве простого примера можно было бы ожидать, что возраст и рост выборки детей из начальной школы будут иметь коэффициент корреляции Пирсона значительно больше 0, но меньше 1 (поскольку 1 будет представлять собой нереалистично идеальную корреляцию).

Наименование и история

Он был разработан Карлом Пирсоном на основе родственной идеи, выдвинутой Фрэнсисом Гальтоном в 1880-х годах, и для которой математическая формула была выведена и опубликована Огюстом Браве в 1844 году. ^[b]^[6]^[7]^[8]^[9] Таким образом, наименование коэффициента является примером закона Стиглера .

Мотивация/Интуиция и вывод

Коэффициент корреляции можно вывести, рассмотрев косинус угла между двумя точками, представляющими два набора данных координат x и y. ^[10] Таким образом, это выражение представляет собой число от -1 до 1 и равно единице, когда все точки лежат на прямой линии.

Определение

Коэффициент корреляции Пирсона — это ковариация двух переменных, деленная на произведение их стандартных отклонений. Форма определения включает в себя «момент продукта», то есть среднее значение (первый момент относительно начала) произведения случайных величин, скорректированных по среднему; отсюда и модификатор « момент продукта» в названии. ^{[ требуется проверка ]}

Для населения

Коэффициент корреляции Пирсона, применяемый к популяции , обычно обозначается греческой буквой ρ (ро) и может называться коэффициентом корреляции популяции или коэффициентом корреляции Пирсона популяции . При наличии пары случайных величин (например, роста и веса) формула для ρ ^[11] выглядит следующим образом ^[12] $(X,Y)$

$\rho _{X,Y}={\frac {\operatorname {cov} (X,Y)}{\sigma _{X}\sigma _{Y}}}$

где

$\operatorname {cov}$ это ковариация
$\sigma _{X}$ это стандартное отклонение $X$
$\sigma _{Y}$ — это стандартное отклонение . $Y$

Формула для может быть выражена через среднее значение и математическое ожидание . Поскольку ^[11] $\operatorname {cov} (X,Y)$

\operatorname {cov} (X,Y)=\operatorname {\mathbb {E} } [(X-\mu _{X})(Y-\mu _{Y})],

формулу для можно также записать как $\rho$

$\rho _{X,Y}={\frac {\operatorname {\mathbb {E} } [(X-\mu _{X})(Y-\mu _{Y})]}{\sigma _{X}\sigma _{Y}}}$

где

$\sigma _{Y}$ и определены как указано выше $\sigma _{X}$
$\mu _{X}$ это среднее значение $X$
$\mu _{Y}$ это среднее значение $Y$
$\operatorname {\mathbb {E} }$ таково ожидание.

Формулу для можно выразить через нецентрированные моменты. Так как $\rho$

{\begin{aligned}\mu _{X}={}&\operatorname {\mathbb {E} } [\,X\,]\\\mu _{Y}={}&\operatorname {\mathbb {E} } [\,Y\,]\\\sigma _{X}^{2}={}&\operatorname {\mathbb {E} } \left[\,\left(X-\operatorname {\mathbb {E} } [X]\right)^{2}\,\right]=\operatorname {\mathbb {E} } \left[\,X^{2}\,\right]-\left(\operatorname {\mathbb {E} } [\,X\,]\right)^{2}\\\sigma _{Y}^{2}={}&\operatorname {\mathbb {E} } \left[\,\left(Y-\operatorname {\mathbb {E} } [Y]\right)^{2}\,\right]=\operatorname {\mathbb {E} } \left[\,Y^{2}\,\right]-\left(\,\operatorname {\mathbb {E} } [\,Y\,]\right)^{2}\\&\operatorname {\mathbb {E} } [\,\left(X-\mu _{X}\right)\left(Y-\mu _{Y}\right)\,]=\operatorname {\mathbb {E} } [\,\left(X-\operatorname {\mathbb {E} } [\,X\,]\right)\left(Y-\operatorname {\mathbb {E} } [\,Y\,]\right)\,]=\operatorname {\mathbb {E} } [\,X\,Y\,]-\operatorname {\mathbb {E} } [\,X\,]\operatorname {\mathbb {E} } [\,Y\,]\,,\end{aligned}}

формулу для можно также записать как $\rho$ $\rho _{X,Y}={\frac {\operatorname {\mathbb {E} } [\,X\,Y\,]-\operatorname {\mathbb {E} } [\,X\,]\operatorname {\mathbb {E} } [\,Y\,]}{{\sqrt {\operatorname {\mathbb {E} } \left[\,X^{2}\,\right]-\left(\operatorname {\mathbb {E} } [\,X\,]\right)^{2}}}~{\sqrt {\operatorname {\mathbb {E} } \left[\,Y^{2}\,\right]-\left(\operatorname {\mathbb {E} } [\,Y\,]\right)^{2}}}}}.$

Для образца

Коэффициент корреляции Пирсона, применяемый к выборке , обычно представляется и может называться выборочным коэффициентом корреляции или выборочным коэффициентом корреляции Пирсона . Мы можем получить формулу для , подставив оценки ковариаций и дисперсий на основе выборки в формулу выше. Приведенные парные данные , состоящие из пар, определяются как $r_{xy}$ $r_{xy}$ $\left\{(x_{1},y_{1}),\ldots ,(x_{n},y_{n})\right\}$ $n$ $r_{xy}$

$r_{xy}={\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})(y_{i}-{\bar {y}})}{{\sqrt {\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}{\sqrt {\sum _{i=1}^{n}(y_{i}-{\bar {y}})^{2}}}}}$

где

$n$ размер выборки
$x_{i},y_{i}$ являются ли отдельные точки выборки индексированными с помощью i
${\textstyle {\bar {x}}={\frac {1}{n}}\sum _{i=1}^{n}x_{i}}$ (выборочное среднее); и аналогично для . ${\bar {y}}$

Перестановка дает нам эту ^[11] формулу для : $r_{xy}$

r_{xy}={\frac {\sum _{i}x_{i}y_{i}-n{\bar {x}}{\bar {y}}}{{\sqrt {\sum _{i}x_{i}^{2}-n{\bar {x}}^{2}}}~{\sqrt {\sum _{i}y_{i}^{2}-n{\bar {y}}^{2}}}}},

где определены, как указано выше. $n,x_{i},y_{i},{\bar {x}},{\bar {y}}$

Повторная перестановка дает нам следующую формулу : $r_{xy}$

r_{xy}={\frac {n\sum x_{i}y_{i}-\sum x_{i}\sum y_{i}}{{\sqrt {n\sum x_{i}^{2}-\left(\sum x_{i}\right)^{2}}}~{\sqrt {n\sum y_{i}^{2}-\left(\sum y_{i}\right)^{2}}}}},

где определены, как указано выше. $n,x_{i},y_{i}$

Эта формула предлагает удобный однопроходный алгоритм для расчета выборочных корреляций, хотя в зависимости от используемых чисел он иногда может быть численно нестабильным .

Эквивалентное выражение дает формулу для среднего значения произведений стандартных баллов следующим образом: $r_{xy}$

r_{xy}={\frac {1}{n-1}}\sum _{i=1}^{n}\left({\frac {x_{i}-{\bar {x}}}{s_{x}}}\right)\left({\frac {y_{i}-{\bar {y}}}{s_{y}}}\right)

где

$n,x_{i},y_{i},{\bar {x}},{\bar {y}}$ определены как указано выше, и определены ниже $s_{x},s_{y}$
${\textstyle \left({\frac {x_{i}-{\bar {x}}}{s_{x}}}\right)}$ является стандартной оценкой (и аналогично для стандартной оценки ). $y$

Также доступны альтернативные формулы для . Например, можно использовать следующую формулу для : $r_{xy}$ $r_{xy}$

r_{xy}={\frac {\sum x_{i}y_{i}-n{\bar {x}}{\bar {y}}}{(n-1)s_{x}s_{y}}}

где

$n,x_{i},y_{i},{\bar {x}},{\bar {y}}$ определены, как указано выше, и:
${\textstyle s_{x}={\sqrt {{\frac {1}{n-1}}\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}}$ ( выборочное стандартное отклонение ); и аналогично для . $s_{y}$

Для совместно гауссовых распределений

Если является совместно гауссовым , со средним значением нулевым и дисперсией , то . $(X,Y)$ $\Sigma$ $\Sigma ={\begin{bmatrix}\sigma _{X}^{2}&\rho _{X,Y}\sigma _{X}\sigma _{Y}\\\rho _{X,Y}\sigma _{X}\sigma _{Y}&\sigma _{Y}^{2}\\\end{bmatrix}}$

Практические вопросы

В условиях сильного шума извлечение коэффициента корреляции между двумя наборами стохастических переменных является нетривиальной задачей, в частности, когда канонический корреляционный анализ сообщает об ухудшенных значениях корреляции из-за сильного шума. Обобщение подхода дано в другом месте. ^[13]

В случае отсутствия данных Гаррен вывел оценку максимального правдоподобия . ^[14]

Некоторые распределения (например, устойчивые распределения , отличные от нормального распределения ) не имеют определенной дисперсии.

Математические свойства

Значения коэффициентов корреляции Пирсона как выборки, так и популяции находятся на уровне или между −1 и 1. Корреляции, равные +1 или −1, соответствуют точкам данных, лежащим точно на линии (в случае выборочной корреляции), или двумерному распределению, полностью поддерживаемому на линии (в случае популяционной корреляции). Коэффициент корреляции Пирсона симметричен: corr( X , Y ) = corr( Y , X ).

Ключевым математическим свойством коэффициента корреляции Пирсона является то, что он инвариантен при отдельных изменениях местоположения и масштаба двух переменных. То есть, мы можем преобразовать X в $a + bX$ и преобразовать Y в $c + dY$ , где a , b , c , и d являются константами с $b, d > 0$ , не меняя коэффициент корреляции. (Это справедливо как для коэффициентов корреляции Пирсона для совокупности, так и для выборки.) Более общие линейные преобразования действительно изменяют корреляцию: см. § Декорреляция n случайных величин для применения этого.

Интерпретация

Коэффициент корреляции варьируется от −1 до 1. Абсолютное значение, равное ровно 1, подразумевает, что линейное уравнение идеально описывает связь между X и Y , при этом все точки данных лежат на одной линии . Знак корреляции определяется наклоном регрессии : значение +1 подразумевает, что все точки данных лежат на линии, для которой Y увеличивается по мере увеличения X , тогда как значение -1 подразумевает линию, на которой Y увеличивается, а X уменьшается. ^[15] Значение 0 подразумевает, что между переменными нет линейной зависимости. ^[16]

В более общем смысле $(X i - X)(Y i - Y)$ положительно тогда и только тогда, когда X _i и Y _i лежат по одну сторону от своих соответствующих средних значений. Таким образом, коэффициент корреляции положителен, если X _i и Y _i имеют тенденцию быть одновременно больше или одновременно меньше своих соответствующих средних значений. Коэффициент корреляции отрицателен ( антикорреляция ), если X _i и Y _i имеют тенденцию лежать по разные стороны от своих соответствующих средних значений. Более того, чем сильнее любая из тенденций, тем больше абсолютное значение коэффициента корреляции.

Роджерс и Нисуондер ^[17] каталогизировали тринадцать способов интерпретации корреляции или ее простых функций:

Функция сырых оценок и средних значений
Стандартизированная ковариация
Стандартизированный наклон линии регрессии
Среднее геометрическое двух наклонов регрессии
Квадратный корень из отношения двух дисперсий
Среднее перекрестное произведение стандартизированных переменных
Функция угла между двумя стандартизированными линиями регрессии
Функция угла между двумя переменными векторами
Перемасштабированная дисперсия разницы между стандартизированными оценками
Оценено по правилу воздушного шара
Относится к двумерным эллипсам изоконцентрации
Функция тестовой статистики из разработанных экспериментов
Соотношение двух средних

Геометрическая интерпретация

Для нецентрированных данных существует связь между коэффициентом корреляции и углом φ между двумя линиями регрессии, y = g _X ( x ) и x = g _Y ( y ) , полученными путем регрессии y по x и x по y соответственно. (Здесь φ измеряется против часовой стрелки в пределах первого квадранта, образованного вокруг точки пересечения линий, если $r > 0$ , или против часовой стрелки от четвертого до второго квадранта, если r < 0 .) Можно показать ^[18] , что если стандартные отклонения равны, то r = sec φ − tan φ , где sec и tan являются тригонометрическими функциями .

Для центрированных данных (т.е. данных, которые были смещены на выборочные средние значения соответствующих им переменных таким образом, чтобы среднее значение для каждой переменной было равно нулю) коэффициент корреляции также можно рассматривать как косинус угла θ между двумя наблюдаемыми векторами в N -мерном пространстве (для N наблюдений каждой переменной). ^[19]

Для набора данных можно определить как нецентрированные (не соответствующие Пирсону), так и центрированные коэффициенты корреляции. В качестве примера предположим, что обнаружено, что пять стран имеют валовой национальный продукт в размере 1, 2, 3, 5 и 8 миллиардов долларов соответственно. Предположим, что эти же пять стран (в том же порядке) имеют 11%, 12%, 13%, 15% и 18% бедности. Тогда пусть x и y будут упорядоченными 5-элементными векторами, содержащими указанные выше данные: x = (1, 2, 3, 5, 8) и y = (0,11, 0,12, 0,13, 0,15, 0,18) .

По обычной процедуре нахождения угла θ между двумя векторами (см. скалярное произведение ) нецентрированный коэффициент корреляции равен

\cos \theta ={\frac {\mathbf {x} \cdot \mathbf {y} }{\left\|\mathbf {x} \right\|\left\|\mathbf {y} \right\|}}={\frac {2.93}{{\sqrt {103}}{\sqrt {0.0983}}}}=0.920814711.

Этот нецентрированный коэффициент корреляции идентичен косинусному сходству . Вышеприведенные данные были намеренно выбраны так, чтобы они были идеально коррелированы: $y = 0,10 + 0,01 x$ . Поэтому коэффициент корреляции Пирсона должен быть равен единице. Центрирование данных (сдвиг x на $ℰ(x) = 3,8$ и y на $ℰ(y) = 0,138$ ) дает $x = (-2,8, -1,8, -0,8, 1,2, 4,2)$ и $y = (-0,028, -0,018, -0,008, 0,012, 0,042)$ , откуда

\cos \theta ={\frac {\mathbf {x} \cdot \mathbf {y} }{\left\|\mathbf {x} \right\|\left\|\mathbf {y} \right\|}}={\frac {0.308}{{\sqrt {30.8}}{\sqrt {0.00308}}}}=1=\rho _{xy},

как и ожидалось.

Интерпретация величины корреляции

Несколько авторов предложили руководящие принципы для интерпретации коэффициента корреляции. ^[20]^[21] Однако все такие критерии в некотором роде произвольны. ^[21] Интерпретация коэффициента корреляции зависит от контекста и целей. Корреляция 0,8 может быть очень низкой, если проверяется физический закон с использованием высококачественных инструментов, но может считаться очень высокой в социальных науках, где может быть больший вклад усложняющих факторов.

Вывод

Статистический вывод, основанный на коэффициенте корреляции Пирсона, часто фокусируется на одной из следующих двух целей:

Одна из целей — проверить нулевую гипотезу о том, что истинный коэффициент корреляции ρ равен 0, основываясь на значении выборочного коэффициента корреляции r .
Другая цель — вывести доверительный интервал , который при повторной выборке имеет заданную вероятность содержать ρ .

Ниже рассматриваются методы достижения одной или обеих этих целей.

Использование теста перестановки

Тесты перестановки обеспечивают прямой подход к выполнению тестов гипотез и построению доверительных интервалов. Тест перестановки для коэффициента корреляции Пирсона включает следующие два шага:

Используя исходные парные данные ( x _i , y _i ), случайным образом переопределите пары для создания нового набора данных ( x _i , y _i′ ), где i′ являются перестановкой набора {1,..., n }. Перестановка i′ выбирается случайным образом, с равными вероятностями, помещенными на все n ! возможных перестановок. Это эквивалентно выбору i′ случайным образом без замены из набора {1,..., n }. В бутстреппинге , тесно связанном подходе, i и i′ равны и берутся с заменой из {1,..., n };
Постройте коэффициент корреляции r из рандомизированных данных.

Для выполнения теста перестановки повторите шаги (1) и (2) большое количество раз. Значение p для теста перестановки — это доля значений r , полученных на шаге (2), которые больше коэффициента корреляции Пирсона, рассчитанного на основе исходных данных. Здесь «больше» может означать либо то, что значение больше по величине, либо больше по знаковому значению, в зависимости от того, требуется ли двусторонний или односторонний тест.

Использование бутстрапа

Бутстрап может использоваться для построения доверительных интервалов для коэффициента корреляции Пирсона. В «непараметрическом» бутстрапе n пар ( x _i , y _i ) повторно выбираются «с заменой» из наблюдаемого набора из n пар, а коэффициент корреляции r рассчитывается на основе повторно выбранных данных. Этот процесс повторяется большое количество раз, и эмпирическое распределение повторно выбранных значений r используется для аппроксимации выборочного распределения статистики. 95% доверительный интервал для ρ может быть определен как интервал, охватывающий от 2,5-го до 97,5-го процентиля повторно выбранных значений r .

Стандартная ошибка

Если и являются случайными величинами с простой линейной зависимостью между ними и аддитивным нормальным шумом (т.е. y= a + bx + e), то стандартная ошибка, связанная с корреляцией, равна $x$ $y$

\sigma _{r}={\sqrt {\frac {1-r^{2}}{n-2}}}

где — корреляция и размер выборки. ^[22]^[23] $r$ $n$

Тестирование с использованием Student'sт-распределение

Для пар из некоррелированного двумерного нормального распределения выборочное распределение стьюдентизированного коэффициента корреляции Пирсона следует t -распределению Стьюдента со степенями свободы n − 2. В частности, если базовые переменные имеют двумерное нормальное распределение, переменная

t={\frac {r}{\sigma _{r}}}=r{\sqrt {\frac {n-2}{1-r^{2}}}}

имеет распределение Стьюдента в нулевом случае (нулевая корреляция). ^[24] Это справедливо приблизительно в случае ненормальных наблюдаемых значений, если размеры выборки достаточно велики. ^[25] Для определения критических значений для r необходима обратная функция:

r={\frac {t}{\sqrt {n-2+t^{2}}}}.

В качестве альтернативы можно использовать асимптотические подходы с большой выборкой.

В другой ранней статье ^[26] приводятся графики и таблицы для общих значений ρ для небольших размеров выборки, а также обсуждаются вычислительные подходы.

В случае, когда базовые переменные не являются нормальными, выборочное распределение коэффициента корреляции Пирсона следует распределению Стьюдента , но степени свободы уменьшаются. ^[27]

Используя точное распределение

Для данных, которые следуют двумерному нормальному распределению , точная функция плотности f ( r ) для выборочного коэффициента корреляции r нормального двумерного распределения равна ^[28]^[29]^[30]

f(r)={\frac {(n-2)\,\mathrm {\Gamma } (n-1)\left(1-\rho ^{2}\right)^{\frac {n-1}{2}}\left(1-r^{2}\right)^{\frac {n-4}{2}}}{{\sqrt {2\pi }}\,\operatorname {\Gamma } {\mathord {\left(n-{\tfrac {1}{2}}\right)}}(1-\rho r)^{n-{\frac {3}{2}}}}}{}_{2}\mathrm {F} _{1}{\mathord {\left({\tfrac {1}{2}},{\tfrac {1}{2}};{\tfrac {1}{2}}(2n-1);{\tfrac {1}{2}}(\rho r+1)\right)}}

где — гамма-функция , а — гипергеометрическая функция Гаусса . $\Gamma$ ${}_{2}\mathrm {F} _{1}(a,b;c;z)$

В частном случае, когда (нулевая корреляция популяции), точная функция плотности f ( r ) может быть записана как $\rho =0$

f(r)={\frac {\left(1-r^{2}\right)^{\frac {n-4}{2}}}{\operatorname {\mathrm {B} } {\mathord {\left({\tfrac {1}{2}},{\tfrac {n-2}{2}}\right)}}}},

где — бета-функция , которая является одним из способов записи плотности t-распределения Стьюдента для коэффициента корреляции стьюдентизированной выборки, как указано выше. $\mathrm {B}$

Используя точное распределение уверенности

Доверительные интервалы и тесты можно рассчитать из распределения доверия . Точная плотность доверия для ρ равна ^[31]

$\pi (\rho \mid r)={\frac {\nu (\nu -1)\Gamma (\nu -1)}{{\sqrt {2\pi }}\Gamma \left(\nu +{\frac {1}{2}}\right)}}\left(1-r^{2}\right)^{\frac {\nu -1}{2}}\cdot \left(1-\rho ^{2}\right)^{\frac {\nu -2}{2}}\cdot \left(1-r\rho \right)^{\frac {1-2\nu }{2}}\operatorname {F} \left({\tfrac {3}{2}},-{\tfrac {1}{2}};\nu +{\tfrac {1}{2}};{\tfrac {1+r\rho }{2}}\right)$

где — гипергеометрическая функция Гаусса и . $\operatorname {F}$ $\nu =n-1>1$

Использование преобразования Фишера

На практике доверительные интервалы и проверки гипотез, касающихся ρ , обычно выполняются с использованием преобразования, стабилизирующего дисперсию , преобразования Фишера : $F$

F(r)\equiv {\tfrac {1}{2}}\,\ln \left({\frac {1+r}{1-r}}\right)=\operatorname {artanh} (r)

F ( r ) приблизительно следует нормальному распределению с

{\text{mean}}=F(\rho )=\operatorname {artanh} (\rho )

и стандартная ошибка

={\text{SE}}={\frac {1}{\sqrt {n-3}}},

где n — размер выборки. Ошибка аппроксимации наименьшая для большого размера выборки и малого и увеличивается в противном случае. $n$ $r$ $\rho _{0}$

Используя аппроксимацию, z-оценка равна

z={\frac {x-{\text{mean}}}{\text{SE}}}=[F(r)-F(\rho _{0})]{\sqrt {n-3}}

при нулевой гипотезе , что , учитывая предположение, что пары выборок независимы и одинаково распределены и следуют двумерному нормальному распределению . Таким образом, приблизительное p-значение может быть получено из нормальной таблицы вероятностей. Например, если наблюдается z = 2,2 и требуется двустороннее p-значение для проверки нулевой гипотезы, что , p-значение равно 2 Φ(−2,2) = 0,028 , где Φ — стандартная нормальная кумулятивная функция распределения . $\rho =\rho _{0}$ $\rho =0$

Чтобы получить доверительный интервал для ρ, сначала вычислим доверительный интервал для F ( ): $\rho$

100(1-\alpha )\%{\text{CI}}:\operatorname {artanh} (\rho )\in [\operatorname {artanh} (r)\pm z_{\alpha /2}{\text{SE}}]

Обратное преобразование Фишера возвращает интервал к шкале корреляции.

100(1-\alpha )\%{\text{CI}}:\rho \in [\tanh(\operatorname {artanh} (r)-z_{\alpha /2}{\text{SE}}),\tanh(\operatorname {artanh} (r)+z_{\alpha /2}{\text{SE}})]

Например, предположим, что мы наблюдаем r = 0,7 с размером выборки n = 50 и хотим получить 95% доверительный интервал для ρ . Преобразованное значение равно , поэтому доверительный интервал на преобразованной шкале равен , или (0,5814, 1,1532). Преобразование обратно в шкалу корреляции дает (0,5237, 0,8188). ${\textstyle \operatorname {arctanh} \left(r\right)=0.8673}$ $0.8673\pm {\frac {1.96}{\sqrt {47}}}$

В регрессионном анализе по методу наименьших квадратов

Квадрат коэффициента корреляции выборки обычно обозначается r ² и является частным случаем коэффициента детерминации . В этом случае он оценивает долю дисперсии в Y , которая объясняется X в простой линейной регрессии . Таким образом, если у нас есть наблюдаемый набор данных и подобранный набор данных , то в качестве отправной точки общая вариация в Y _i вокруг их среднего значения может быть разложена следующим образом $Y_{1},\dots ,Y_{n}$ ${\hat {Y}}_{1},\dots ,{\hat {Y}}_{n}$

\sum _{i}(Y_{i}-{\bar {Y}})^{2}=\sum _{i}(Y_{i}-{\hat {Y}}_{i})^{2}+\sum _{i}({\hat {Y}}_{i}-{\bar {Y}})^{2},

где — подобранные значения из регрессионного анализа. Это можно переставить, чтобы получить ${\hat {Y}}_{i}$

1={\frac {\sum _{i}(Y_{i}-{\hat {Y}}_{i})^{2}}{\sum _{i}(Y_{i}-{\bar {Y}})^{2}}}+{\frac {\sum _{i}({\hat {Y}}_{i}-{\bar {Y}})^{2}}{\sum _{i}(Y_{i}-{\bar {Y}})^{2}}}.

Два слагаемых выше представляют собой долю дисперсии в Y , которая объясняется X (справа) и которая не объясняется X (слева).

Далее мы применяем свойство моделей регрессии наименьших квадратов , что выборочная ковариация между и равна нулю. Таким образом, выборочный коэффициент корреляции между наблюдаемыми и подобранными значениями отклика в регрессии может быть записан (расчет выполняется с учетом ожидания, предполагается гауссовская статистика) ${\hat {Y}}_{i}$ $Y_{i}-{\hat {Y}}_{i}$

{\begin{aligned}r(Y,{\hat {Y}})&={\frac {\sum _{i}(Y_{i}-{\bar {Y}})({\hat {Y}}_{i}-{\bar {Y}})}{\sqrt {\sum _{i}(Y_{i}-{\bar {Y}})^{2}\cdot \sum _{i}({\hat {Y}}_{i}-{\bar {Y}})^{2}}}}\\[6pt]&={\frac {\sum _{i}(Y_{i}-{\hat {Y}}_{i}+{\hat {Y}}_{i}-{\bar {Y}})({\hat {Y}}_{i}-{\bar {Y}})}{\sqrt {\sum _{i}(Y_{i}-{\bar {Y}})^{2}\cdot \sum _{i}({\hat {Y}}_{i}-{\bar {Y}})^{2}}}}\\[6pt]&={\frac {\sum _{i}[(Y_{i}-{\hat {Y}}_{i})({\hat {Y}}_{i}-{\bar {Y}})+({\hat {Y}}_{i}-{\bar {Y}})^{2}]}{\sqrt {\sum _{i}(Y_{i}-{\bar {Y}})^{2}\cdot \sum _{i}({\hat {Y}}_{i}-{\bar {Y}})^{2}}}}\\[6pt]&={\frac {\sum _{i}({\hat {Y}}_{i}-{\bar {Y}})^{2}}{\sqrt {\sum _{i}(Y_{i}-{\bar {Y}})^{2}\cdot \sum _{i}({\hat {Y}}_{i}-{\bar {Y}})^{2}}}}\\[6pt]&={\sqrt {\frac {\sum _{i}({\hat {Y}}_{i}-{\bar {Y}})^{2}}{\sum _{i}(Y_{i}-{\bar {Y}})^{2}}}}.\end{aligned}}

Таким образом

r(Y,{\hat {Y}})^{2}={\frac {\sum _{i}({\hat {Y}}_{i}-{\bar {Y}})^{2}}{\sum _{i}(Y_{i}-{\bar {Y}})^{2}}}

где — доля дисперсии Y, объясняемая линейной функцией X. $r(Y,{\hat {Y}})^{2}$

В приведенном выше выводе тот факт, что

\sum _{i}(Y_{i}-{\hat {Y}}_{i})({\hat {Y}}_{i}-{\bar {Y}})=0

можно доказать, заметив, что частные производные остаточной суммы квадратов ( $RSS$ ) по β ₀ и β ₁ равны 0 в модели наименьших квадратов, где

{\text{RSS}}=\sum _{i}(Y_{i}-{\hat {Y}}_{i})^{2}

В конечном итоге уравнение можно записать как

r(Y,{\hat {Y}})^{2}={\frac {{\text{SS}}_{\text{reg}}}{{\text{SS}}_{\text{tot}}}}

где

${\text{SS}}_{\text{reg}}=\sum _{i}({\hat {Y}}_{i}-{\bar {Y}})^{2}$
${\text{SS}}_{\text{tot}}=\sum _{i}(Y_{i}-{\bar {Y}})^{2}$ .

Символ называется регрессионной суммой квадратов, также называемой объясненной суммой квадратов , и представляет собой общую сумму квадратов (пропорциональную дисперсии данных ). ${\text{SS}}_{\text{reg}}$ ${\text{SS}}_{\text{tot}}$

Чувствительность к распределению данных

Существование

Коэффициент корреляции Пирсона популяции определяется в терминах моментов и, следовательно, существует для любого двумерного распределения вероятностей , для которого определена ковариация популяции и определены предельные дисперсии популяции и они не равны нулю. Некоторые распределения вероятностей, такие как распределение Коши , имеют неопределенную дисперсию, и, следовательно, ρ не определено, если X или Y следует такому распределению. В некоторых практических приложениях, таких как те, которые включают данные, предположительно соответствующие распределению с тяжелым хвостом , это является важным соображением. Однако существование коэффициента корреляции обычно не вызывает беспокойства; например, если диапазон распределения ограничен, ρ всегда определен.

Размер выборки

Если размер выборки средний или большой, а популяция нормальная, то в случае двумерного нормального распределения коэффициент корреляции выборки представляет собой оценку максимального правдоподобия коэффициента корреляции популяции и является асимптотически несмещенным и эффективным , что примерно означает, что невозможно построить более точную оценку, чем коэффициент корреляции выборки.
Если размер выборки большой, а популяция не является нормальной, то коэффициент корреляции выборки остается приблизительно несмещенным, но может быть неэффективным.
Если размер выборки большой, то коэффициент корреляции выборки является последовательной оценкой коэффициента корреляции популяции, если выборочные средние значения, дисперсии и ковариация являются последовательными (что гарантируется, когда можно применить закон больших чисел ).
Если размер выборки мал, то коэффициент корреляции выборки r не является несмещенной оценкой ρ . ^[11] Вместо этого необходимо использовать скорректированный коэффициент корреляции: см. определение в другом месте этой статьи.
Корреляции могут быть разными для несбалансированных дихотомических данных, когда в выборке присутствует ошибка дисперсии. ^[32]

Надежность

Как и многие обычно используемые статистики, выборочная статистика r не является надежной [ ^33], поэтому ее значение может вводить в заблуждение, если присутствуют выбросы . ^[34]^[35] В частности, PMCC не является ни надежной в плане распределения ^[36], ни устойчивой к выбросам ^[33] (см. Надежная статистика § Определение ). Проверка диаграммы рассеяния между X и Y обычно выявляет ситуацию, когда отсутствие надежности может быть проблемой, и в таких случаях может быть целесообразно использовать надежную меру ассоциации. Однако следует отметить, что, хотя большинство надежных оценок ассоциации каким-то образом измеряют статистическую зависимость , они, как правило, не интерпретируются в той же шкале, что и коэффициент корреляции Пирсона.

Статистический вывод для коэффициента корреляции Пирсона чувствителен к распределению данных. Точные тесты и асимптотические тесты, основанные на преобразовании Фишера, могут применяться, если данные распределены приблизительно нормально, но в противном случае могут вводить в заблуждение. В некоторых ситуациях бутстрап может применяться для построения доверительных интервалов, а тесты перестановки могут применяться для проведения проверок гипотез. Эти непараметрические подходы могут давать более значимые результаты в некоторых ситуациях, когда двумерная нормальность не выполняется. Однако стандартные версии этих подходов полагаются на взаимозаменяемость данных, что означает, что нет упорядочения или группировки анализируемых пар данных, которые могли бы повлиять на поведение оценки корреляции.

Стратифицированный анализ — это один из способов либо приспособиться к отсутствию двумерной нормальности, либо изолировать корреляцию, возникающую из-за одного фактора, контролируя другой. Если W представляет собой членство в кластере или другой фактор, который желательно контролировать, мы можем стратифицировать данные на основе значения W , а затем вычислить коэффициент корреляции в пределах каждой страты. Затем оценки на уровне страты можно объединить для оценки общей корреляции, контролируя W . ^[37]

Варианты

Вариации коэффициента корреляции могут быть рассчитаны для разных целей. Вот несколько примеров.

Скорректированный коэффициент корреляции

Коэффициент корреляции выборки $r$ не является несмещенной оценкой $ρ$ . Для данных, которые следуют двумерному нормальному распределению , ожидание $E[r]$ для коэффициента корреляции выборки $r$ нормального двумерного распределения равно ^[38]

\operatorname {\mathbb {E} } \left[r\right]=\rho -{\frac {\rho \left(1-\rho ^{2}\right)}{2n}}+\cdots ,\quad

поэтому

r

является смещенной оценкой

\rho .

Уникальная несмещенная оценка минимальной дисперсии $r adj$ определяется по формуле ^[39]

где:

$r,n$ определены как указано выше,
$\mathbf {_{2}F_{1}} (a,b;c;z)$ — гипергеометрическая функция Гаусса .

Приблизительно несмещенную оценку $r adj$ можно получить ^{[ требуется ссылка ]} путем усечения $E[r]$ и решения этого усеченного уравнения:

Приближенное решение ^{[ требуется ссылка ]} уравнения ( 2 ) имеет вид

где в ( 3 )

$r,n$ определены как указано выше,
$r adj$ — субоптимальная оценка,^{[ требуется цитирование ]}^{[ требуется разъяснение ]}
$r adj$ также можно получить путем максимизации log( f ( r )),
$r adj$ имеет минимальную дисперсию для больших значений $n$ ,
$r adj$ имеет смещение порядка $.mw-parser-output .frac{white-space:nowrap}.mw-parser-output .frac .num,.mw-parser-output .frac .den{font-size:80%;line-height:0;vertical-align:super}.mw-parser-output .frac .den{vertical-align:sub}.mw-parser-output .sr-only{border:0;clip:rect(0,0,0,0);clip-path:polygon(0px 0px,0px 0px,0px 0px);height:1px;margin:-1px;overflow:hidden;padding:0;position:absolute;width:1px} 1 ⁄ ( n − 1)$ .

Другой предложенный ^[11] скорректированный коэффициент корреляции — ^{[ требуется ссылка ]}

r_{\text{adj}}={\sqrt {1-{\frac {(1-r^{2})(n-1)}{(n-2)}}}}.

$r adj \approx r$ для больших значений $n$ .

Взвешенный коэффициент корреляции

Предположим, что коррелируемые наблюдения имеют различную степень важности, которая может быть выражена с помощью весового вектора w . Чтобы вычислить корреляцию между векторами x и y с весовым вектором w (все имеют длину n ), ^[40]^[41]

Средневзвешенное значение: $\operatorname {m} (x;w)={\frac {\sum _{i}w_{i}x_{i}}{\sum _{i}w_{i}}}.$
Взвешенная ковариация $\operatorname {cov} (x,y;w)={\frac {\sum _{i}w_{i}\cdot (x_{i}-\operatorname {m} (x;w))(y_{i}-\operatorname {m} (y;w))}{\sum _{i}w_{i}}}.$
Взвешенная корреляция $\operatorname {corr} (x,y;w)={\frac {\operatorname {cov} (x,y;w)}{\sqrt {\operatorname {cov} (x,x;w)\operatorname {cov} (y,y;w)}}}.$

Коэффициент корреляции рефлексивный

Рефлективная корреляция — это вариант корреляции Пирсона, в котором данные не центрированы вокруг своих средних значений. ^{[ необходима ссылка ]} Рефлективная корреляция населения — это

\operatorname {corr} _{r}(X,Y)={\frac {\operatorname {\mathbb {E} } [\,X\,Y\,]}{\sqrt {\operatorname {\mathbb {E} } [\,X^{2}\,]\cdot \operatorname {\mathbb {E} } [\,Y^{2}\,]}}}.

Рефлективная корреляция симметрична, но она не инвариантна относительно трансляции:

\operatorname {corr} _{r}(X,Y)=\operatorname {corr} _{r}(Y,X)=\operatorname {corr} _{r}(X,bY)\neq \operatorname {corr} _{r}(X,a+bY),\quad a\neq 0,b>0.

Выборочная отражательная корреляция эквивалентна косинусному сходству :

rr_{xy}={\frac {\sum x_{i}y_{i}}{\sqrt {(\sum x_{i}^{2})(\sum y_{i}^{2})}}}.

Взвешенная версия выборочной рефлексивной корреляции:

rr_{xy,w}={\frac {\sum w_{i}x_{i}y_{i}}{\sqrt {(\sum w_{i}x_{i}^{2})(\sum w_{i}y_{i}^{2})}}}.

Коэффициент масштабированной корреляции

Масштабированная корреляция — это вариант корреляции Пирсона, в котором диапазон данных ограничивается намеренно и контролируемым образом, чтобы выявить корреляции между быстрыми компонентами во временных рядах . ^[42] Масштабированная корреляция определяется как средняя корреляция по коротким сегментам данных.

Пусть — число сегментов, которые могут поместиться в общую длину сигнала для данного масштаба : $K$ $T$ $s$

K=\operatorname {round} \left({\frac {T}{s}}\right).

Затем масштабированная корреляция по всем сигналам вычисляется как ${\bar {r}}_{s}$

{\bar {r}}_{s}={\frac {1}{K}}\sum \limits _{k=1}^{K}r_{k},

где — коэффициент корреляции Пирсона для сегмента . $r_{k}$ $k$

При выборе параметра диапазон значений сокращается, а корреляции на длинной временной шкале отфильтровываются, выявляются только корреляции на короткой временной шкале. Таким образом, вклады медленных компонентов удаляются, а вклады быстрых компонентов сохраняются. $s$

Расстояние Пирсона

Метрика расстояния для двух переменных X и Y, известная как расстояние Пирсона, может быть определена из их коэффициента корреляции как ^[43]

d_{X,Y}=1-\rho _{X,Y}.

Учитывая, что коэффициент корреляции Пирсона попадает в диапазон [−1, +1], расстояние Пирсона лежит в диапазоне [0, 2]. Расстояние Пирсона использовалось в кластерном анализе и обнаружении данных для связи и хранения с неизвестным усилением и смещением. ^[44]

Определенное таким образом «расстояние» Пирсона присваивает расстояние больше 1 отрицательным корреляциям. В действительности, как сильная положительная корреляция, так и отрицательная корреляция имеют смысл, поэтому необходимо соблюдать осторожность при использовании «расстояния» Пирсона для алгоритма ближайшего соседа, поскольку такой алгоритм будет включать только соседей с положительной корреляцией и исключать соседей с отрицательной корреляцией. В качестве альтернативы можно применить абсолютное значение расстояния, которое будет учитывать как положительные, так и отрицательные корреляции. Информацию о положительной и отрицательной ассоциации можно извлечь отдельно позже. $d_{X,Y}=1-|\rho _{X,Y}|$

Коэффициент круговой корреляции

Для переменных X = { x ₁ ,..., x _n } и Y = { y ₁ ,..., y _n }, которые определены на единичной окружности $[0, 2π)$ , можно определить круговой аналог коэффициента Пирсона. ^[45] Это делается путем преобразования точек данных в X и Y с помощью синусоидальной функции таким образом, что коэффициент корреляции задается как:

r_{\text{circular}}={\frac {\sum _{i=1}^{n}\sin(x_{i}-{\bar {x}})\sin(y_{i}-{\bar {y}})}{{\sqrt {\sum _{i=1}^{n}\sin(x_{i}-{\bar {x}})^{2}}}{\sqrt {\sum _{i=1}^{n}\sin(y_{i}-{\bar {y}})^{2}}}}}

где и — круговые средние значения X и Y. Эта мера может быть полезна в таких областях, как метеорология, где важно угловое направление данных. ${\bar {x}}$ ${\bar {y}}$

Частичная корреляция

Если совокупность или набор данных характеризуется более чем двумя переменными, коэффициент частичной корреляции измеряет силу зависимости между парой переменных, которая не учитывается тем, как они обе изменяются в ответ на изменения в выбранном подмножестве других переменных.

Коэффициент корреляции Пирсона в квантовых системах

Для двух наблюдаемых и в двухчастичной квантовой системе коэффициент корреляции Пирсона определяется как ^[46]^[47] $X$ $Y$

\mathbb {Cor} (X,Y)={\frac {\mathbb {E} [X\otimes Y]-\mathbb {E} [X]\cdot \mathbb {E} [Y]}{\sqrt {\mathbb {V} [X]\cdot \mathbb {V} [Y]}}}\,,

где

$\mathbb {E} [X]$ это ожидаемое значение наблюдаемой величины , $X$
$\mathbb {E} [Y]$ это ожидаемое значение наблюдаемой величины , $Y$
$\mathbb {E} [X\otimes Y]$ это ожидаемое значение наблюдаемой величины , $X\otimes Y$
$\mathbb {V} [X]$ - дисперсия наблюдаемой величины , а $X$
$\mathbb {V} [Y]$ — дисперсия наблюдаемой величины . $Y$

$\mathbb {Cor} (X,Y)$ симметрична, т.е. , и ее абсолютное значение инвариантно относительно аффинных преобразований. $\mathbb {Cor} (X,Y)=\mathbb {Cor} (Y,X)$

Декорреляциянслучайные величины

Всегда возможно удалить корреляции между всеми парами произвольного числа случайных величин с помощью преобразования данных, даже если связь между переменными нелинейна. Представление этого результата для распределений населения дано Коксом и Хинкли. ^[48]

Соответствующий результат существует для сведения выборочных корреляций к нулю. Предположим, что вектор из n случайных величин наблюдается m раз. Пусть X будет матрицей, где j - я переменная наблюдения i . Пусть будет квадратной матрицей m на m с каждым элементом 1. Тогда D — это данные, преобразованные таким образом, что каждая случайная величина имеет нулевое среднее значение, а T — это данные, преобразованные таким образом, что все переменные имеют нулевое среднее значение и нулевую корреляцию со всеми другими переменными — выборочная корреляционная матрица T будет единичной матрицей. Ее необходимо дополнительно разделить на стандартное отклонение, чтобы получить единичную дисперсию. Преобразованные переменные будут некоррелированными, даже если они не являются независимыми . $X_{i,j}$ $Z_{m,m}$

D=X-{\frac {1}{m}}Z_{m,m}X

T=D(D^{\mathsf {T}}D)^{-{\frac {1}{2}}},

где показатель степени −+1 ⁄ 2 представляет собой квадратный корень матрицы обратной матрицы . Корреляционная матрица T будет единичной матрицей. Если новое наблюдение данных x является вектором-строкой из n элементов, то то же самое преобразование можно применить к x , чтобы получить преобразованные векторы d и t :

d=x-{\frac {1}{m}}Z_{1,m}X,

t=d(D^{\mathsf {T}}D)^{-{\frac {1}{2}}}.

Эта декорреляция связана с анализом главных компонент для многомерных данных.

Реализации программного обеспечения

Базовый пакет статистики Rcor(x, y) реализует коэффициент корреляции с или (также со значением P) с помощью cor.test(x, y).
Библиотека SciPy Python через pearsonr(x, y).
Библиотека Pandas Python реализует расчет коэффициента корреляции Пирсона как параметр по умолчанию для метода pandas.DataFrame.corr
Wolfram Mathematica с помощью функции корреляции или (со значением P) с помощью CorrelationTest.
Библиотека Boost C++ через функцию coupling_coefficient.
В Excel имеется встроенная функция correl(array1, array2) для расчета коэффициента корреляции Пирсона.

Смотрите также

Сноски

^ Также известен как r Пирсона , коэффициент корреляции Пирсона ( PPMCC ), двумерная корреляция ^[1] или просто безусловный коэффициент корреляции ^[2]
^ Еще в 1877 году Гальтон использовал термин «реверсия» и символ « r » для того, что впоследствии стало «регрессией». ^[3]^[4]^[5]

Ссылки

^ «Учебники SPSS: Корреляция Пирсона».
^ "Коэффициент корреляции: простое определение, формула, легкие шаги". Статистика Как это сделать .
↑ Гальтон, Ф. (5–19 апреля 1877 г.). «Типичные законы наследственности». Nature . 15 (388, 389, 390): 492–495, 512–514, 532–533. Bibcode : 1877Natur..15..492.. doi : 10.1038/015492a0 . S2CID 4136393.В «Приложении» на странице 532 Гальтон использует термин «реверсия» и символ r .
^ Гальтон, Ф. (24 сентября 1885 г.). «Британская ассоциация: Секция II, Антропология: Вступительное слово Фрэнсиса Гальтона, члена Королевского общества и т. д., президента Антропологического института, президента секции». Nature . 32 (830): 507–510.
^ Гальтон, Ф. (1886). «Регрессия к посредственности в наследственном росте». Журнал Антропологического института Великобритании и Ирландии . 15 : 246–263. doi :10.2307/2841583. JSTOR 2841583.
↑ Пирсон, Карл (20 июня 1895 г.). «Заметки о регрессии и наследовании в случае двух родителей». Труды Лондонского королевского общества . 58 : 240–242. Библиографический код : 1895RSPS...58..240P.
^ Стиглер, Стивен М. (1989). «Рассказ Фрэнсиса Гальтона об изобретении корреляции». Статистическая наука . 4 (2): 73–79. doi : 10.1214/ss/1177012580 . JSTOR 2245329.
^ «Математический анализ вероятностей ошибок ситуации в точке» . Память акад. Рой. наук. Инст. Франция . наук. Математика и физика. (на французском языке). 9 : 255–332. 1844 г. - через Google Книги.
^ Райт, С. (1921). «Корреляция и причинно-следственная связь». Журнал сельскохозяйственных исследований . 20 (7): 557–585.
^ «Как была получена формула коэффициента корреляции?». Перекрестная проверка . Получено 26 октября 2024 г.
^ abcde Real Statistics Using Excel, «Основные концепции корреляции», получено 22 февраля 2015 г.
^ Weisstein, Eric W. "Статистическая корреляция". Wolfram MathWorld . Получено 22 августа 2020 г.
^ Мория, Н. (2008). «Многомерный оптимальный совместный анализ с учетом шума в продольных стохастических процессах». В Ян, Фэншань (ред.). Прогресс в прикладном математическом моделировании . Nova Science Publishers, Inc. стр. 223–260. ISBN 978-1-60021-976-4.
^ Гаррен, Стивен Т. (15 июня 1998 г.). «Оценка максимального правдоподобия коэффициента корреляции в двумерной нормальной модели с отсутствующими данными». Statistics & Probability Letters . 38 (3): 281–288. doi :10.1016/S0167-7152(98)00035-2.
^ "2,6 - (Пирсон) Коэффициент корреляции r". STAT 462 . Получено 10 июля 2021 г. .
^ "Вводная бизнес-статистика: коэффициент корреляции r". opentextbc.ca . Получено 21 августа 2020 г. .
^ Роджерс; Найсвандер (1988). «Тринадцать способов взглянуть на коэффициент корреляции» (PDF) . Американский статистик . 42 (1): 59–66. doi :10.2307/2685263. JSTOR 2685263.
^ Шмид, Джон младший (декабрь 1947 г.). «Отношение между коэффициентом корреляции и углом, заключенным между линиями регрессии». Журнал образовательных исследований . 41 (4): 311–313. doi :10.1080/00220671.1947.10881608. JSTOR 27528906.
^ Раммель, Р. Дж. (1976). «Понимание корреляции». гл. 5 (как проиллюстрировано для особого случая в следующем абзаце).
^ Буда, Анджей; Яриновский, Анджей (декабрь 2010 г.). Время жизни корреляций и его приложения . Видавництво Незалежне. стр. 5–21. ISBN 9788391527290.
^ Коэн, Дж. (1988). Статистический анализ мощности для поведенческих наук (2-е изд.).
^ Боули, AL (1928). «Стандартное отклонение коэффициента корреляции». Журнал Американской статистической ассоциации . 23 (161): 31–34. doi :10.2307/2277400. ISSN 0162-1459. JSTOR 2277400.
^ "Вывод стандартной ошибки для коэффициента корреляции Пирсона". Перекрестная проверка . Получено 30 июля 2021 г.
^ Рахман, Н.А. (1968) Курс теоретической статистики , Чарльз Гриффин и компания, 1968
^ Кендалл, MG, Стюарт, A. (1973) Продвинутая теория статистики, том 2: Вывод и взаимосвязь , Гриффин. ISBN 0-85264-215-6 (Раздел 31.19)
^ Сопер, Х. Э .; Янг, А. В.; Кейв, Б. М.; Ли, А.; Пирсон, К. (1917). «О распределении коэффициента корреляции в малых выборках. Приложение II к статьям «Стьюдента» и Р. А. Фишера. Совместное исследование». Biometrika . 11 (4): 328–413. doi :10.1093/biomet/11.4.328.
^ Дэйви, Кэтрин Э.; Грейден, Дэвид Б.; Эган, Гэри Ф.; Джонстон, Ли А. (январь 2013 г.). «Фильтрация вызывает корреляцию в данных фМРТ в состоянии покоя». NeuroImage . 64 : 728–740. doi :10.1016/j.neuroimage.2012.08.022. hdl : 11343/44035 . PMID 22939874. S2CID 207184701.
^ Хотеллинг, Гарольд (1953). «Новый свет на коэффициент корреляции и его преобразования». Журнал Королевского статистического общества . Серия B (Методологическая). 15 (2): 193–232. doi :10.1111/j.2517-6161.1953.tb00135.x. JSTOR 2983768.
^ Кенни, Дж. Ф.; Киппинг, Э. С. (1951). Математика статистики . Том. Часть 2 (2-е изд.). Принстон, Нью-Джерси: Van Nostrand.
^ Вайсштейн, Эрик В. «Коэффициент корреляции — двумерное нормальное распределение». Wolfram MathWorld .
^ Таральдсен, Гуннар (2020). «Уверенность в корреляции». дои : 10.13140/RG.2.2.23673.49769 . {{cite journal}}: Цитировать журнал требует |journal=( помощь )
^ Лай, Чун Син; Тао, Иншань; Сюй, Фанюань; Нг, Винг Вай; Цзя, Ювэй; Юань, Хаолян; Хуан, Чао; Лай, Лой Лэй; Сюй, Чжао; Локателли, Джорджио (январь 2019 г.). «Надежная структура корреляционного анализа для несбалансированных и дихотомических данных с неопределенностью» (PDF) . Информационные науки . 470 : 58–77. doi :10.1016/j.ins.2018.08.017. S2CID 52878443.
^ ab Wilcox, Rand R. (2005). Введение в надежную оценку и проверку гипотез . Academic Press.
^ Девлин, Сьюзен Дж.; Гнанадесикан, Р.; Кеттенринг Дж. Р. (1975). «Надежная оценка и обнаружение выбросов с коэффициентами корреляции». Biometrika . 62 (3): 531–545. doi :10.1093/biomet/62.3.531. JSTOR 2335508.
^ Хубер, Питер Дж. (2004). Надежная статистика . Wiley.^{[ нужна страница ]}
^ Ваарт, А. В. ван дер (13 октября 1998 г.). Асимптотическая статистика. Cambridge University Press. doi :10.1017/cbo9780511802256. ISBN 978-0-511-80225-6.
^ Кац., Митчелл Х. (2006) Многомерный анализ – практическое руководство для врачей . 2-е издание. Cambridge University Press. ISBN 978-0-521-54985-1 . ISBN 0-521-54985-X
^ Хотеллинг, Х. (1953). «Новый свет на коэффициент корреляции и его преобразования». Журнал Королевского статистического общества. Серия B (Методологическая) . 15 (2): 193–232. doi :10.1111/j.2517-6161.1953.tb00135.x. JSTOR 2983768.
^ Олкин, Ингрэм; Пратт, Джон У. (март 1958 г.). «Непредвзятая оценка некоторых коэффициентов корреляции». Анналы математической статистики . 29 (1): 201–211. doi : 10.1214/aoms/1177706717 . JSTOR 2237306..
^ "Re: Вычисление взвешенной корреляции". sci.tech-archive.net .
^ «Взвешенная корреляционная матрица – Обмен файлами – MATLAB Central».
^ Николич, Д.; Муресан, Р. К.; Фэн, В.; Сингер, В. (2012). «Масштабированный корреляционный анализ: лучший способ вычисления кросс-коррелограммы» (PDF) . European Journal of Neuroscience . 35 (5): 1–21. doi :10.1111/j.1460-9568.2011.07987.x. PMID 22324876. S2CID 4694570.
^ Фулекар (ред.), МХ (2009) Биоинформатика: применение в науках о жизни и окружающей среде , Springer (стр. 110) ISBN 1-4020-8879-5
^ Immink, K. Schouhamer; Weber, J. (октябрь 2010 г.). «Обнаружение минимального расстояния Пирсона для многоуровневых каналов с несоответствием усиления и/или смещения». IEEE Transactions on Information Theory . 60 (10): 5966–5974. CiteSeerX 10.1.1.642.9971 . doi :10.1109/tit.2014.2342744. S2CID 1027502 . Получено 11 февраля 2018 г. .
^ Джаммаламадака, С. Рао; СенГупта, А. (2001). Темы в круговой статистике. Нью-Джерси: World Scientific. стр. 176. ISBN 978-981-02-3778-3. Получено 21 сентября 2016 г.
↑ Reid, MD (1 июля 1989 г.). «Демонстрация парадокса Эйнштейна-Подольского-Розена с использованием невырожденного параметрического усиления». Physical Review A. 40 ( 2): 913–923. doi :10.1103/PhysRevA.40.913.
^ Maccone, L.; Dagmar, B.; Macchiavello, C. (1 апреля 2015 г.). «Комплементарность и корреляции». Physical Review Letters . 114 (13): 130401. arXiv : 1408.6851 . doi : 10.1103/PhysRevLett.114.130401.
^ Кокс, DR; Хинкли, DV (1974). Теоретическая статистика . Чапман и Холл. Приложение 3. ISBN 0-412-12420-3.

Внешние ссылки

Викиверситет имеет обучающие ресурсы по теме Линейная корреляция

«кокор». сайт сравнения корреляций .– Бесплатный веб-интерфейс и пакет R для статистического сравнения двух зависимых или независимых корреляций с перекрывающимися или неперекрывающимися переменными.
«Корреляция». nagysandor.eu .– интерактивное флэш-моделирование корреляции двух нормально распределенных переменных.
"Калькулятор коэффициента корреляции". hackmath.net . Линейная регрессия.
«Критические значения коэффициента корреляции Пирсона» (PDF) . frank.mtsu.edu/~dkfuller .– большой стол.
«Угадай корреляцию».– Игра, в которой игроки угадывают, насколько коррелируют две переменные на диаграмме рассеяния, чтобы лучше понять концепцию корреляции.