stringtranslate.com

Ковариация

Знак ковариации двух случайных величин X и Y

Ковариация в теории вероятностей и статистике — это мера совместной изменчивости двух случайных величин . [1]

Знак ковариации, таким образом, показывает тенденцию в линейной связи между переменными. Если большие значения одной переменной в основном соответствуют большим значениям другой переменной, и то же самое справедливо для меньших значений (то есть переменные имеют тенденцию демонстрировать схожее поведение), ковариация положительна. [2] В противоположном случае, когда большие значения одной переменной в основном соответствуют меньшим значениям другой (то есть переменные имеют тенденцию демонстрировать противоположное поведение), ковариация отрицательна. Величина ковариации является геометрическим средним дисперсий, которые являются общими для двух случайных величин. Коэффициент корреляции нормализует ковариацию путем деления на геометрическое среднее общих дисперсий для двух случайных величин.

Необходимо провести различие между (1) ковариацией двух случайных величин, которая является параметром совокупности , который можно рассматривать как свойство совместного распределения вероятностей , и (2) выборочной ковариацией, которая, помимо того, что служит дескриптором выборки, также служит оценочным значением параметра совокупности.

Определение

Для двух совместно распределенных действительных случайных величин с конечными вторыми моментами ковариация определяется как ожидаемое значение (или среднее) произведения их отклонений от их индивидуальных ожидаемых значений: [3] [4] : 119 

где — ожидаемое значение , также известное как среднее значение . Ковариация также иногда обозначается или , по аналогии с дисперсией . Используя свойство линейности ожиданий, это можно упростить до ожидаемого значения их произведения минус произведение их ожидаемых значений: но это уравнение подвержено катастрофическому сокращению (см. раздел о численных вычислениях ниже).

Единицами измерения ковариации являются единицы измерения, умноженные на . Напротив, коэффициенты корреляции , которые зависят от ковариации, являются безразмерной мерой линейной зависимости. (На самом деле, коэффициенты корреляции можно просто понимать как нормализованную версию ковариации.)

Сложные случайные величины

Ковариация между двумя сложными случайными величинами определяется как [4] : ​​119 

Обратите внимание на комплексное сопряжение второго множителя в определении.

Можно также определить связанную псевдоковариацию .

Дискретные случайные величины

Если (реальная) случайная переменная пара может принимать значения для с равными вероятностями , то ковариацию можно эквивалентно записать в терминах средних значений и как

Это также можно эквивалентно выразить, не ссылаясь напрямую на средства, как [5]

В более общем случае, если существуют возможные реализации , а именно, но с возможно неравными вероятностями для , то ковариация равна

В случае, когда две дискретные случайные величины и имеют совместное распределение вероятностей, представленное элементами, соответствующими совместным вероятностям , ковариация вычисляется с помощью двойного суммирования по индексам матрицы:

Примеры

Рассмотрим три независимые случайные величины и две константы . В частном случае и ковариация между и является просто дисперсией и название ковариация вполне уместно.

Геометрическая интерпретация примера ковариации. Каждый кубоид — это ограничивающий прямоугольник, выровненный по осям его точки ( x , y , f  ( x , y )), а X и Y — средние значения (пурпурная точка). Ковариация — это сумма объемов кубоидов в 1-м и 3-м квадрантах (красные) за вычетом объемов во 2-м и 4-м (синие).

Предположим, что и имеют следующую совместную вероятностную массовую функцию [6] , в которой шесть центральных ячеек дают дискретные совместные вероятности шести гипотетических реализаций :

может принимать три значения (5, 6 и 7), а может принимать два (8 и 9). Их средние значения и . Тогда,

Характеристики

Ковариация с самим собой

Дисперсия является частным случаем ковариации, в котором две переменные идентичны: [ 4] : 121 

Ковариация линейных комбинаций

Если , , , и являются действительными случайными величинами и действительными константами, то следующие факты являются следствием определения ковариации:

Для последовательности случайных величин в действительных числах и константах имеем

Ковариационное тождество Хеффдинга

Полезным тождеством для вычисления ковариации между двумя случайными величинами является ковариационное тождество Хеффдинга: [7] где — совместная кумулятивная функция распределения случайного вектора , а — маргинальные значения .

Некоррелированность и независимость

Случайные величины, ковариация которых равна нулю, называются некоррелированными . [4] : 121  Аналогично, компоненты случайных векторов, ковариационная матрица которых равна нулю в каждой записи за пределами главной диагонали, также называются некоррелированными.

Если и являются независимыми случайными величинами , то их ковариация равна нулю. [4] : 123  [8] Это следует из того, что при независимости

Обратное, однако, в общем случае неверно. Например, пусть равномерно распределены в и пусть . Очевидно, и не являются независимыми, но

В этом случае связь между и нелинейна, тогда как корреляция и ковариация являются мерами линейной зависимости между двумя случайными величинами. Этот пример показывает, что если две случайные величины некоррелированы, это в общем случае не означает, что они независимы. Однако, если две переменные совместно нормально распределены (но не если они просто индивидуально нормально распределены ), некоррелированность подразумевает независимость. [9]

и ковариация которых положительна, называются положительно коррелированными, что подразумевает, что если то вероятно . Наоборот, и с отрицательной ковариацией коррелируют отрицательно, и если то вероятно .

Связь с внутренними продуктами

Многие свойства ковариации можно извлечь элегантно, наблюдая, что она удовлетворяет свойствам, аналогичным свойствам внутреннего произведения :

  1. билинейный : для констант и случайных величин
  2. симметричный:
  3. положительно полуопределенный : для всех случайных величин , и подразумевает, что он постоянен почти наверняка .

Фактически эти свойства подразумевают, что ковариация определяет скалярное произведение по факторному векторному пространству , полученному путем взятия подпространства случайных величин с конечным вторым моментом и идентификации любых двух, которые отличаются на константу. (Эта идентификация превращает положительную полуопределенность выше в положительную определенность.) Это факторное векторное пространство изоморфно подпространству случайных величин с конечным вторым моментом и нулевым средним; на этом подпространстве ковариация является в точности внутренним произведением L 2 вещественных функций на пространстве выборки.

В результате для случайных величин с конечной дисперсией выполняется неравенство Коши–Шварца .

Доказательство: Если , то выполняется тривиально. В противном случае пусть случайная величина

Тогда у нас есть

Расчет выборочной ковариации

Выборочные ковариации между переменными, основанные на наблюдениях каждой из них, взятых из иным образом ненаблюдаемой совокупности, задаются матрицей с записями

что является оценкой ковариации между переменной и переменной .

Выборочное среднее и выборочная ковариационная матрица являются несмещенными оценками среднего и ковариационной матрицы случайного вектора , вектора, j -й элемент которого является одной из случайных величин. Причина, по которой выборочная ковариационная матрица имеет в знаменателе , а не , заключается в том , что среднее значение совокупности неизвестно и заменяется выборочным средним . Если среднее значение совокупности известно, то аналогичная несмещенная оценка задается как

.

Обобщения

Автоковариационная матрица реальных случайных векторов

Для вектора совместно распределенных случайных величин с конечными вторыми моментами его автоковариационная матрица (также известная как матрица дисперсии-ковариации или просто ковариационная матрица ) (также обозначается как или ) определяется как [10] : 335 

Пусть будет случайным вектором с ковариационной матрицей Σ , и пусть A будет матрицей, которая может действовать на слева. Ковариационная матрица произведения матрицы на вектор AX равна:

Это является прямым результатом линейности ожидания и полезно при применении линейного преобразования , например, отбеливающего преобразования , к вектору.

Матрица кросс-ковариации действительных случайных векторов

Для действительных случайных векторов и матрица кросс-ковариации равна [10] : 336 

где — транспонированный вектор (или матрица) .

-й элемент этой матрицы равен ковариации между i -й скалярной компонентой и j -й скалярной компонентой . В частности, является транспонированной матрицей .

Кросс-ковариационная полуторалинейная форма случайных векторов в действительном или комплексном гильбертовом пространстве

В более общем случае пусть и , будут гильбертовыми пространствами над или с антилинейным по первой переменной, и пусть будут соответственно значимыми случайными величинами. Тогда ковариация и является полуторалинейной формой на (антилинейным по первой переменной), заданной как

Численные вычисления

Когда , уравнение склонно к катастрофическому сокращению, если и не вычисляются точно, и поэтому его следует избегать в компьютерных программах, когда данные не были центрированы ранее. [11] В этом случае следует отдавать предпочтение численно устойчивым алгоритмам . [12]

Комментарии

Ковариацию иногда называют мерой «линейной зависимости» между двумя случайными величинами. Это не то же самое, что в контексте линейной алгебры (см. линейная зависимость ). Когда ковариация нормализована, получается коэффициент корреляции Пирсона , который дает качество подгонки для наилучшей возможной линейной функции, описывающей связь между переменными. В этом смысле ковариация является линейной мерой зависимости.

Приложения

В генетике и молекулярной биологии

Ковариация является важной мерой в биологии . Некоторые последовательности ДНК сохраняются больше, чем другие среди видов, и, таким образом, для изучения вторичных и третичных структур белков или структур РНК , последовательности сравниваются у близкородственных видов. Если обнаруживаются изменения последовательностей или не обнаруживается никаких изменений в некодирующей РНК (например, микроРНК ), последовательности оказываются необходимыми для общих структурных мотивов, таких как петля РНК. В генетике ковариация служит основой для вычисления матрицы генетических связей (GRM) (также известной как матрица родства), что позволяет делать выводы о структуре популяции из образца без известных близких родственников, а также делать выводы об оценке наследуемости сложных признаков.

В теории эволюции и естественного отбора уравнение цены описывает, как генетический признак изменяется в частоте с течением времени. Уравнение использует ковариацию между признаком и приспособленностью , чтобы дать математическое описание эволюции и естественного отбора. Оно дает способ понять эффекты, которые передача генов и естественный отбор оказывают на пропорцию генов в каждом новом поколении популяции. [13] [14]

В финансовой экономике

Ковариации играют ключевую роль в финансовой экономике , особенно в современной теории портфеля и в модели ценообразования капитальных активов . Ковариации между доходностями различных активов используются для определения, при определенных предположениях, относительных объемов различных активов, которые инвесторы должны (в нормативном анализе ) или, как прогнозируется (в позитивном анализе ), выбрать для удержания в контексте диверсификации .

В ассимиляции метеорологических и океанографических данных

Ковариационная матрица важна для оценки начальных условий, необходимых для запуска моделей прогноза погоды, процедуры, известной как ассимиляция данных . «Ковариационная матрица ошибок прогноза» обычно строится между возмущениями вокруг среднего состояния (климатического или ансамблевого среднего). «Ковариационная матрица ошибок наблюдений» строится для представления величины объединенных ошибок наблюдений (по диагонали) и коррелированных ошибок между измерениями (вне диагонали). Это пример ее широко распространенного применения к фильтрации Калмана и более общей оценке состояния для изменяющихся во времени систем.

В микрометеорологии

Метод вихревой ковариации является ключевым методом измерения атмосферных параметров, в котором ковариация между мгновенным отклонением вертикальной скорости ветра от среднего значения и мгновенным отклонением концентрации газа является основой для расчета вертикальных турбулентных потоков.

В обработке сигналов

Ковариационная матрица используется для фиксации спектральной изменчивости сигнала. [15]

В статистике и обработке изображений

Ковариационная матрица используется в анализе главных компонентов для уменьшения размерности признаков при предварительной обработке данных .

Смотрите также

Ссылки

  1. ^ Райс, Джон (2007). Математическая статистика и анализ данных . Brooks/Cole Cengage Learning. стр. 138. ISBN 9780534399429.
  2. ^ Вайсштейн, Эрик В. «Ковариация». MathWorld .
  3. Оксфордский словарь статистики, Oxford University Press, 2002, стр. 104.
  4. ^ abcde Park, Kun Il (2018). Основы вероятности и стохастических процессов с приложениями к коммуникациям . Springer. ISBN 9783319680743.
  5. ^ Юли Чжан; Хуайюй У; Лэй Чэн (июнь 2012 г.). «Некоторые новые формулы деформации дисперсии и ковариации». Труды 4-й Международной конференции по моделированию, идентификации и управлению (ICMIC2012) . стр. 987–992.
  6. ^ "Ковариация X и Y | STAT 414/415". Университет штата Пенсильвания. Архивировано из оригинала 17 августа 2017 г. Получено 4 августа 2019 г.
  7. ^ Папулис (1991). Вероятность, случайные величины и стохастические процессы . McGraw-Hill.
  8. ^ Siegrist, Kyle. «Ковариация и корреляция». Университет Алабамы в Хантсвилле . Получено 3 октября 2022 г.
  9. ^ Деккинг, Мишель, ред. (2005). Современное введение в вероятность и статистику: понимание почему и как . Тексты Springer по статистике. Лондон [Гейдельберг]: Springer. ISBN 978-1-85233-896-1.
  10. ^ ab Губнер, Джон А. (2006). Вероятность и случайные процессы для инженеров-электриков и компьютерщиков . Cambridge University Press. ISBN 978-0-521-86470-1.
  11. ^ Дональд Э. Кнут (1998). Искусство программирования , том 2: Получисленные алгоритмы , 3-е изд., стр. 232. Бостон: Addison-Wesley.
  12. ^ Шуберт, Эрих; Герц, Михаэль (2018). «Численно устойчивое параллельное вычисление (ко-)вариации». Труды 30-й Международной конференции по управлению научными и статистическими базами данных . Больцано-Больцано, Италия: ACM Press. стр. 1–12. doi :10.1145/3221269.3223036. ISBN 978-1-4503-6505-5. S2CID  49665540.
  13. ^ Прайс, Джордж (1970). «Отбор и ковариация». Nature (журнал) . 227 (5257): 520–521. Bibcode : 1970Natur.227..520P. doi : 10.1038/227520a0. PMID  5428476. S2CID  4264723.
  14. ^ Харман, Орен (2020). «Когда наука отражает жизнь: о происхождении уравнения Прайса». Philosophical Transactions of the Royal Society B: Biological Sciences . 375 (1797). royalsocietypublishing.org: 1–7. doi : 10.1098/rstb.2019.0352 . PMC 7133509. PMID  32146891 . 
  15. ^ Sahidullah, Md.; Kinnunen, Tomi (март 2016). «Локальные спектральные характеристики изменчивости для проверки говорящего». Цифровая обработка сигналов . 50 : 1–11. doi :10.1016/j.dsp.2015.10.011.