stringtranslate.com

Корреляция расстояний

В статистике и теории вероятностей корреляция расстояний или ковариация расстояний — это мера зависимости между двумя парными случайными векторами произвольной, не обязательно одинаковой размерности . Коэффициент корреляции расстояний в популяции равен нулю тогда и только тогда, когда случайные векторы независимы . Таким образом, корреляция расстояний измеряет как линейную, так и нелинейную связь между двумя случайными величинами или случайными векторами. Это отличается от корреляции Пирсона , которая может обнаружить только линейную связь между двумя случайными величинами .

Корреляция расстояний может использоваться для выполнения статистического теста зависимости с помощью теста перестановки . Сначала вычисляется корреляция расстояний (включая повторное центрирование евклидовых матриц расстояний) между двумя случайными векторами, а затем это значение сравнивается с корреляциями расстояний многих перетасовок данных.

Несколько наборов точек ( xy ) с коэффициентом корреляции расстояний x и y для каждого набора. Сравните с графиком корреляции

Фон

Классическая мера зависимости, коэффициент корреляции Пирсона [1] , в основном чувствительна к линейной связи между двумя переменными. Корреляция расстояний была введена в 2005 году Габором Й. Секей в нескольких лекциях для устранения этого недостатка корреляции Пирсона , а именно того, что она может легко быть равна нулю для зависимых переменных. Корреляция = 0 (некоррелированность) не подразумевает независимости, в то время как корреляция расстояний = 0 подразумевает независимость. Первые результаты по корреляции расстояний были опубликованы в 2007 и 2009 годах. [2] [3] Было доказано, что ковариация расстояний совпадает с броуновской ковариацией. [3] Эти меры являются примерами энергетических расстояний .

Корреляция расстояния выводится из ряда других величин, которые используются в ее спецификации, а именно: дисперсия расстояния , стандартное отклонение расстояния и ковариация расстояния . Эти величины играют ту же роль, что и обычные моменты с соответствующими названиями в спецификации коэффициента корреляции произведения-момента Пирсона .

Определения

Ковариация расстояния

Начнем с определения ковариации выборочного расстояния . Пусть ( X kY k ), k  = 1, 2, ..., nстатистическая выборка из пары действительных или векторных случайных величин ( XY ). Сначала вычислим матрицы расстояний n на n ( a j , k ) и ( b j , k ), содержащие все парные расстояния

где ||⋅ ||обозначает евклидову норму . Затем берем все дважды центрированные расстояния

где — среднее значение j -й строки, — среднее значение k -го столбца, а — общее среднее значение матрицы расстояний выборки X. Обозначения аналогичны значениям b . (В матрицах центрированных расстояний ( A j , k ) и ( B j , k ) все строки и все столбцы в сумме равны нулю.) Квадрат ковариации выборочного расстояния (скаляр) — это просто среднее арифметическое произведений A j , k B j , k :

Статистика T n = n dCov 2 n ( X , Y ) определяет последовательный многомерный тест независимости случайных векторов в произвольных измерениях. Для реализации см. функцию dcov.test в энергетическом пакете для R . [4]

Значение ковариации расстояния для популяции можно определить по тем же принципам. Пусть X — случайная величина, принимающая значения в p -мерном евклидовом пространстве с распределением вероятностей μ , а Y — случайная величина, принимающая значения в q -мерном евклидовом пространстве с распределением вероятностей ν , и предположим, что X и Y имеют конечные ожидания. Запишите

Наконец, определим значение совокупности квадрата ковариации расстояния X и Y как

Можно показать, что это эквивалентно следующему определению:

где E обозначает ожидаемое значение, а и независимы и одинаково распределены. Штрихованные случайные величины и обозначают независимые и одинаково распределенные (iid) копии переменных и и также являются iid. [5] Ковариация расстояний может быть выражена в терминах классической ковариации Пирсона , cov , следующим образом:

Это тождество показывает, что ковариация расстояния не совпадает с ковариацией расстояний, cov(‖ XX' ‖, ‖ YY' ). Она может быть равна нулю, даже если X и Y не являются независимыми.

В качестве альтернативы ковариация расстояния может быть определена как взвешенная норма L2 расстояния между совместной характеристической функцией случайных величин и произведением их маргинальных характеристических функций: [6]

где , , и являются характеристическими функциями ( X , Y ), X , и Y , соответственно, p , q обозначают евклидову размерность X и Y , и, таким образом, s и t , а c p , c q являются константами. Весовая функция выбирается для получения масштабно-эквивариантной и инвариантной относительно вращения меры, которая не обращается в ноль для зависимых переменных. [6] [7] Одна из интерпретаций определения характеристической функции состоит в том, что переменные e isX и e itY являются циклическими представлениями X и Y с различными периодами, заданными s и t , а выражение ϕ X , Y ( s , t ) − ϕ X ( s ) ϕ Y ( t ) в числителе определения характеристической функции ковариации расстояния является просто классической ковариацией e isX и e itY . Определение характеристической функции ясно показывает, что dCov 2 ( X , Y ) = 0 тогда и только тогда, когда X и Y независимы.

Дисперсия расстояния и стандартное отклонение расстояния

Дисперсия расстояния является частным случаем ковариации расстояния, когда две переменные идентичны. Значение дисперсии расстояния для популяции равно квадратному корню из

где , , и — независимые и одинаково распределенные случайные величины , обозначает ожидаемое значение , а для функции , например, .

Дисперсия выборочного расстояния равна квадратному корню из

что является родственником средней разности Коррадо Джини , введенной в 1912 году (но Джини не работал с центрированными расстояниями). [8]

Среднеквадратическое отклонение расстояния — это квадратный корень из дисперсии расстояния .

Корреляция расстояний

Корреляция расстояний [2] [3] двух случайных величин получается путем деления их ковариации расстояний на произведение их стандартных отклонений расстояний . Корреляция расстояний является квадратным корнем из

а корреляция выборочного расстояния определяется путем замены ковариации выборочного расстояния и дисперсии расстояния на коэффициенты популяции, указанные выше.

Для простого вычисления корреляции выборочного расстояния см. функцию dcor в энергетическом пакете для R. [4]

Характеристики

Корреляция расстояний

  1. и ; это контрастирует с корреляцией Пирсона, которая может быть отрицательной.
  2. тогда и только тогда, когда X и Y независимы.
  3. подразумевает, что размерности линейных подпространств, охватываемых выборками X и Y соответственно, почти наверняка равны, и если предположить, что эти подпространства равны, то в этом подпространстве для некоторого вектора A , скаляра b и ортонормированной матрицы .

Ковариация расстояния

  1. и ;
  2. для всех постоянных векторов , скаляров и ортонормированных матриц .
  3. Если случайные векторы и независимы, то
    Равенство имеет место тогда и только тогда, когда и оба являются константами, или и оба являются константами, или являются взаимно независимыми.
  4. тогда и только тогда, когда X и Y независимы.

Последнее свойство является наиболее важным эффектом работы с центрированными расстояниями.

Статистика является смещенной оценкой . При независимости X и Y [9]

Несмещенная оценка дана Секей и Риццо. [10]

Дисперсия расстояния

  1. если и только если почти наверняка.
  2. тогда и только тогда, когда все выборочные наблюдения идентичны.
  3. для всех постоянных векторов A , скаляров b и ортонормированных матриц .
  4. Если X и Y независимы, то .

Равенство в (iv) выполняется тогда и только тогда, когда одна из случайных величин X или Y является константой.

Обобщение

Ковариацию расстояний можно обобщить, включив в нее степени евклидова расстояния. Определить

Тогда для каждого и независимы тогда и только тогда, когда . Важно отметить, что эта характеристика не выполняется для экспоненты ; в этом случае для двумерного , является детерминированной функцией корреляции Пирсона. [2] Если и являются степенями соответствующих расстояний, , то ковариацию выборочного расстояния можно определить как неотрицательное число, для которого

Можно расширить до случайных величин со значениями в метрическом пространстве и : Если имеет закон в метрическом пространстве с метрикой , то определим , , и (при условии, что является конечным, т.е. имеет конечный первый момент), . Тогда, если имеет закон (в возможно другом метрическом пространстве с конечным первым моментом), то определим

Это неотрицательно для всех таких пространств тогда и только тогда, когда оба метрических пространства имеют отрицательный тип. [11] Здесь метрическое пространство имеет отрицательный тип, если оно изометрично подмножеству гильбертова пространства . [12] Если оба метрических пространства имеют строго отрицательный тип, то тогда и только тогда они независимы. [11]

Альтернативное определение ковариации расстояния

Исходная ковариация расстояния была определена как квадратный корень из , а не как квадрат коэффициента. имеет то свойство, что это энергетическое расстояние между совместным распределением и произведением его маргиналов. Однако в рамках этого определения дисперсия расстояния, а не стандартное отклонение расстояния, измеряется в тех же единицах, что и расстояния.

В качестве альтернативы можно определить ковариацию расстояния как квадрат энергетического расстояния: в этом случае стандартное отклонение расстояния измеряется в тех же единицах, что и расстояние, и существует несмещенная оценка для ковариации расстояния популяции. [10]

В этих альтернативных определениях корреляция расстояния также определяется как квадрат , а не квадратный корень.

Альтернативная формулировка: броуновская ковариация

Броуновская ковариация мотивирована обобщением понятия ковариации на случайные процессы. Квадрат ковариации случайных величин X и Y можно записать в следующем виде:

где E обозначает ожидаемое значение , а штрих обозначает независимые и одинаково распределенные копии. Нам нужно следующее обобщение этой формулы. Если U(s), V(t) — произвольные случайные процессы, определенные для всех действительных s и t, то определим U-центрированную версию X как

всякий раз, когда вычтенное условное ожидаемое значение существует, и обозначаем через Y V версию Y, центрированную на V. [3] [13] [14] Ковариация (U,V) (X,Y) определяется как неотрицательное число, квадрат которого равен

всякий раз, когда правая часть неотрицательна и конечна. Наиболее важным примером является случай, когда U и V являются двусторонними независимыми броуновскими движениями / винеровскими процессами с нулевым ожиданием и ковариацией | s | + | t | − | st | = 2 min( s , t ) (только для неотрицательных s, t). (Это вдвое больше ковариации стандартного винеровского процесса; здесь множитель 2 упрощает вычисления.) В этом случае ковариация ( U , V ) называется броуновской ковариацией и обозначается как

Удивительное совпадение: броуновская ковариация совпадает с ковариацией расстояния:

и, таким образом, броуновская корреляция — это то же самое, что и корреляция расстояния.

С другой стороны, если мы заменим броуновское движение детерминированной функцией тождества id, то Cov id ( X , Y ) будет просто абсолютным значением классической ковариации Пирсона ,

Связанные метрики

Другие корреляционные метрики, включая корреляционные метрики на основе ядра (такие как критерий независимости Гильберта-Шмидта или HSIC), также могут обнаруживать линейные и нелинейные взаимодействия. Как корреляция расстояния, так и метрики на основе ядра могут использоваться в таких методах, как канонический корреляционный анализ и анализ независимых компонентов, для получения более высокой статистической мощности .

Смотрите также

Примечания

  1. ^ Пирсон 1895a, 1895b
  2. ^ abc Секели, Риццо и Бакиров 2007.
  3. ^ abcd Секели и Риццо 2009a.
  4. ^ ab Rizzo & Székely 2021.
  5. ^ Секели и Риццо 2014, с. 11.
  6. ^ ab Székely & Rizzo 2009a, с. 1249, Теорема 7, (3.7).
  7. ^ Секей и Риццо 2012.
  8. ^ Джини 1912.
  9. ^ Секей и Риццо 2009b.
  10. ^ ab Székely & Rizzo 2014.
  11. ^ ab Lyons 2014.
  12. ^ Клебанов 2005, стр.  [ нужная страница ] .
  13. ^ Бикель и Сюй 2009.
  14. ^ Косорок 2009.

Ссылки

Внешние ссылки