В статистике и теории вероятностей корреляция расстояний или ковариация расстояний — это мера зависимости между двумя парными случайными векторами произвольной, не обязательно одинаковой размерности . Коэффициент корреляции расстояний в популяции равен нулю тогда и только тогда, когда случайные векторы независимы . Таким образом, корреляция расстояний измеряет как линейную, так и нелинейную связь между двумя случайными величинами или случайными векторами. Это отличается от корреляции Пирсона , которая может обнаружить только линейную связь между двумя случайными величинами .
Корреляция расстояний может использоваться для выполнения статистического теста зависимости с помощью теста перестановки . Сначала вычисляется корреляция расстояний (включая повторное центрирование евклидовых матриц расстояний) между двумя случайными векторами, а затем это значение сравнивается с корреляциями расстояний многих перетасовок данных.
Фон
Классическая мера зависимости, коэффициент корреляции Пирсона [1] , в основном чувствительна к линейной связи между двумя переменными. Корреляция расстояний была введена в 2005 году Габором Й. Секей в нескольких лекциях для устранения этого недостатка корреляции Пирсона , а именно того, что она может легко быть равна нулю для зависимых переменных. Корреляция = 0 (некоррелированность) не подразумевает независимости, в то время как корреляция расстояний = 0 подразумевает независимость. Первые результаты по корреляции расстояний были опубликованы в 2007 и 2009 годах. [2] [3] Было доказано, что ковариация расстояний совпадает с броуновской ковариацией. [3] Эти меры являются примерами энергетических расстояний .
Корреляция расстояния выводится из ряда других величин, которые используются в ее спецификации, а именно: дисперсия расстояния , стандартное отклонение расстояния и ковариация расстояния . Эти величины играют ту же роль, что и обычные моменты с соответствующими названиями в спецификации коэффициента корреляции произведения-момента Пирсона .
Определения
Ковариация расстояния
Начнем с определения ковариации выборочного расстояния . Пусть ( X k , Y k ), k = 1, 2, ..., n — статистическая выборка из пары действительных или векторных случайных величин ( X , Y ). Сначала вычислим матрицы расстояний n на n ( a j , k ) и ( b j , k ), содержащие все парные расстояния
где ||⋅ ||обозначает евклидову норму . Затем берем все дважды центрированные расстояния
где — среднее значение j -й строки, — среднее значение k -го столбца, а — общее среднее значение матрицы расстояний выборки X. Обозначения аналогичны значениям b . (В матрицах центрированных расстояний ( A j , k ) и ( B j , k ) все строки и все столбцы в сумме равны нулю.) Квадрат ковариации выборочного расстояния (скаляр) — это просто среднее арифметическое произведений A j , k B j , k :
Статистика T n = n dCov 2 n ( X , Y ) определяет последовательный многомерный тест независимости случайных векторов в произвольных измерениях. Для реализации см. функцию dcov.test в энергетическом пакете для R . [4]
Значение ковариации расстояния для популяции можно определить по тем же принципам. Пусть X — случайная величина, принимающая значения в p -мерном евклидовом пространстве с распределением вероятностей μ , а Y — случайная величина, принимающая значения в q -мерном евклидовом пространстве с распределением вероятностей ν , и предположим, что X и Y имеют конечные ожидания. Запишите
Наконец, определим значение совокупности квадрата ковариации расстояния X и Y как
Можно показать, что это эквивалентно следующему определению:
где E обозначает ожидаемое значение, а и независимы и одинаково распределены. Штрихованные случайные величины и обозначают независимые и одинаково распределенные (iid) копии переменных и и также являются iid. [5] Ковариация расстояний может быть выражена в терминах классической ковариации Пирсона , cov , следующим образом:
Это тождество показывает, что ковариация расстояния не совпадает с ковариацией расстояний, cov(‖ X − X' ‖, ‖ Y − Y' ‖ ). Она может быть равна нулю, даже если X и Y не являются независимыми.
В качестве альтернативы ковариация расстояния может быть определена как взвешенная норма L2 расстояния между совместной характеристической функцией случайных величин и произведением их маргинальных характеристических функций: [6]
где , , и являются характеристическими функциями ( X , Y ), X , и Y , соответственно, p , q обозначают евклидову размерность X и Y , и, таким образом, s и t , а c p , c q являются константами. Весовая функция выбирается для получения масштабно-эквивариантной и инвариантной относительно вращения меры, которая не обращается в ноль для зависимых переменных. [6] [7] Одна из интерпретаций определения характеристической функции состоит в том, что переменные e isX и e itY являются циклическими представлениями X и Y с различными периодами, заданными s и t , а выражение ϕ X , Y ( s , t ) − ϕ X ( s ) ϕ Y ( t ) в числителе определения характеристической функции ковариации расстояния является просто классической ковариацией e isX и e itY . Определение характеристической функции ясно показывает, что dCov 2 ( X , Y ) = 0 тогда и только тогда, когда X и Y независимы.
Дисперсия расстояния и стандартное отклонение расстояния
Дисперсия расстояния является частным случаем ковариации расстояния, когда две переменные идентичны. Значение дисперсии расстояния для популяции равно квадратному корню из
Дисперсия выборочного расстояния равна квадратному корню из
что является родственником средней разности Коррадо Джини , введенной в 1912 году (но Джини не работал с центрированными расстояниями). [8]
Среднеквадратическое отклонение расстояния — это квадратный корень из дисперсии расстояния .
Корреляция расстояний
Корреляция расстояний [2] [3] двух случайных величин получается путем деления их ковариации расстояний на произведение их стандартных отклонений расстояний . Корреляция расстояний является квадратным корнем из
а корреляция выборочного расстояния определяется путем замены ковариации выборочного расстояния и дисперсии расстояния на коэффициенты популяции, указанные выше.
Для простого вычисления корреляции выборочного расстояния см. функцию dcor в энергетическом пакете для R. [4]
Характеристики
Корреляция расстояний
и ; это контрастирует с корреляцией Пирсона, которая может быть отрицательной.
тогда и только тогда, когда X и Y независимы.
подразумевает, что размерности линейных подпространств, охватываемых выборками X и Y соответственно, почти наверняка равны, и если предположить, что эти подпространства равны, то в этом подпространстве для некоторого вектора A , скаляра b и ортонормированной матрицы .
Ковариация расстояния
и ;
для всех постоянных векторов , скаляров и ортонормированных матриц .
Если случайные векторы и независимы, то
Равенство имеет место тогда и только тогда, когда и оба являются константами, или и оба являются константами, или являются взаимно независимыми.
тогда и только тогда, когда X и Y независимы.
Последнее свойство является наиболее важным эффектом работы с центрированными расстояниями.
Статистика является смещенной оценкой . При независимости X и Y [9]
Несмещенная оценка дана Секей и Риццо. [10]
Дисперсия расстояния
если и только если почти наверняка.
тогда и только тогда, когда все выборочные наблюдения идентичны.
для всех постоянных векторов A , скаляров b и ортонормированных матриц .
Если X и Y независимы, то .
Равенство в (iv) выполняется тогда и только тогда, когда одна из случайных величин X или Y является константой.
Обобщение
Ковариацию расстояний можно обобщить, включив в нее степени евклидова расстояния. Определить
Тогда для каждого и независимы тогда и только тогда, когда . Важно отметить, что эта характеристика не выполняется для экспоненты ; в этом случае для двумерного , является детерминированной функцией корреляции Пирсона. [2] Если и являются степенями соответствующих расстояний, , то ковариацию выборочного расстояния можно определить как неотрицательное число, для которого
Можно расширить до случайных величин со значениями в метрическом пространстве и : Если имеет закон в метрическом пространстве с метрикой , то определим , , и (при условии, что является конечным, т.е. имеет конечный первый момент), . Тогда, если имеет закон (в возможно другом метрическом пространстве с конечным первым моментом), то определим
Это неотрицательно для всех таких пространств тогда и только тогда, когда оба метрических пространства имеют отрицательный тип. [11] Здесь метрическое пространство имеет отрицательный тип, если оно изометрично подмножеству гильбертова пространства . [12] Если оба метрических пространства имеют строго отрицательный тип, то тогда и только тогда они независимы. [11]
Альтернативное определение ковариации расстояния
Исходная ковариация расстояния была определена как квадратный корень из , а не как квадрат коэффициента. имеет то свойство, что это энергетическое расстояние между совместным распределением и произведением его маргиналов. Однако в рамках этого определения дисперсия расстояния, а не стандартное отклонение расстояния, измеряется в тех же единицах, что и расстояния.
В качестве альтернативы можно определить ковариацию расстояния как квадрат энергетического расстояния: в этом случае стандартное отклонение расстояния измеряется в тех же единицах, что и расстояние, и существует несмещенная оценка для ковариации расстояния популяции. [10]
В этих альтернативных определениях корреляция расстояния также определяется как квадрат , а не квадратный корень.
Броуновская ковариация мотивирована обобщением понятия ковариации на случайные процессы. Квадрат ковариации случайных величин X и Y можно записать в следующем виде:
где E обозначает ожидаемое значение , а штрих обозначает независимые и одинаково распределенные копии. Нам нужно следующее обобщение этой формулы. Если U(s), V(t) — произвольные случайные процессы, определенные для всех действительных s и t, то определим U-центрированную версию X как
всякий раз, когда вычтенное условное ожидаемое значение существует, и обозначаем через Y V версию Y, центрированную на V. [3] [13] [14] Ковариация (U,V) (X,Y) определяется как неотрицательное число, квадрат которого равен
всякий раз, когда правая часть неотрицательна и конечна. Наиболее важным примером является случай, когда U и V являются двусторонними независимыми броуновскими движениями / винеровскими процессами с нулевым ожиданием и ковариацией | s | + | t | − | s − t | = 2 min( s , t ) (только для неотрицательных s, t). (Это вдвое больше ковариации стандартного винеровского процесса; здесь множитель 2 упрощает вычисления.) В этом случае ковариация ( U , V ) называется броуновской ковариацией и обозначается как
Удивительное совпадение: броуновская ковариация совпадает с ковариацией расстояния:
и, таким образом, броуновская корреляция — это то же самое, что и корреляция расстояния.
С другой стороны, если мы заменим броуновское движение детерминированной функцией тождества id, то Cov id ( X , Y ) будет просто абсолютным значением классической ковариации Пирсона ,
Связанные метрики
Другие корреляционные метрики, включая корреляционные метрики на основе ядра (такие как критерий независимости Гильберта-Шмидта или HSIC), также могут обнаруживать линейные и нелинейные взаимодействия. Как корреляция расстояния, так и метрики на основе ядра могут использоваться в таких методах, как канонический корреляционный анализ и анализ независимых компонентов, для получения более высокой статистической мощности .
Бикель, Питер Дж.; Сюй, Ин (2009). «Обсуждение: ковариация броуновских расстояний». Анналы прикладной статистики . 3 (4): 1266–1269. arXiv : 0912.3295 . doi : 10.1214/09-AOAS312A .
Джини, К. (1912). Вариативность и мутабилитность . Болонья: Типография Паоло Куппини. Бибкод : 1912vamu.book.....G.
Клебанов, Л.Б. (2005).N -расстояния и их приложения . Прага: Karolinum Press , Карлов университет. ISBN 9788024611525.
Косорок, Майкл Р. (2009). «Обсуждение: ковариация броуновского расстояния». Анналы прикладной статистики . 3 (4): 1270–1278. arXiv : 1010.0822 . doi : 10.1214/09-AOAS312B. S2CID 88518490.
Lyons, Russell (2014). «Ковариация расстояний в метрических пространствах». Анналы вероятности . 41 (5): 3284–3305. arXiv : 1106.5758 . doi : 10.1214/12-AOP803. S2CID 73677891.
Пирсон, К. (1895a). «Заметка о регрессии и наследовании в случае двух родителей». Труды Королевского общества . 58 : 240–242. Bibcode : 1895RSPS...58..240P.
Пирсон, К. (1895b). «Заметки об истории корреляции». Biometrika . 13 : 25–45. doi :10.1093/biomet/13.1.25.
Székely, Gábor J.; Rizzo, Maria L.; Bakirov, Nail K. (2007). «Измерение и проверка независимости с помощью корреляции расстояний». The Annals of Statistics . 35 (6): 2769–2794. arXiv : 0803.4101 . doi : 10.1214/009053607000000505. S2CID 5661488.
Székely, Gábor J.; Rizzo, Maria L. (2009a). «Броуновская ковариация расстояний». Анналы прикладной статистики . 3 (4): 1236–1265. doi : 10.1214/09-AOAS312. PMC 2889501. PMID 20574547.
Секели, Габор Дж.; Риццо, Мария Л. (2009b). «Ответ: ковариация броуновского расстояния». Анналы прикладной статистики . 3 (4): 1303–1308. arXiv : 1010.0844 . doi : 10.1214/09-AOAS312REJ .
Székely, Gábor J.; Rizzo, Maria L. (2012). «Об уникальности ковариации расстояний». Statistics & Probability Letters . 82 (12): 2278–2282. doi :10.1016/j.spl.2012.08.007.
Székely, Gabor J.; Rizzo, Maria L. (2014). «Частичная корреляция расстояний с методами для различий». Анналы статистики . 42 (6): 2382–2412. arXiv : 1310.2926 . Bibcode : 2014arXiv1310.2926S. doi : 10.1214/14-AOS1255. S2CID 55801702.
Внешние ссылки
E-статистика (энергетическая статистика) Архивировано 13.09.2019 на Wayback Machine