stringtranslate.com

Ковариация

Знак ковариации двух случайных величин X и Y

Ковариация в теории вероятностей и статистике является мерой совместной изменчивости двух случайных величин . [1]

Определение

Если большие значения одной переменной в основном соответствуют большим значениям другой переменной, и то же самое справедливо для меньших значений (т. е. переменные имеют тенденцию демонстрировать одинаковое поведение), ковариация положительна. [2] В противоположном случае, когда большие значения одной переменной в основном соответствуют меньшим значениям другой (то есть переменные имеют тенденцию проявлять противоположное поведение), ковариация отрицательна. Таким образом, знак ковариации показывает тенденцию линейной зависимости между переменными. Величина ковариации представляет собой среднее геометрическое дисперсий, общих для двух случайных величин. Коэффициент корреляции нормализует ковариацию путем деления на среднее геометрическое общих дисперсий для двух случайных величин.

Необходимо проводить различие между (1) ковариацией двух случайных величин, которая является параметром совокупности , который можно рассматривать как свойство совместного распределения вероятностей , и (2) выборочной ковариацией, которая помимо того, что служит дескриптором выборки также служит оценочным значением параметра совокупности.

Математика

Для двух совместно распределенных вещественных случайных величин с конечными вторыми моментами ковариация определяется как ожидаемое значение (или среднее значение) произведения их отклонений от их индивидуальных ожидаемых значений: [3] [4] : ​​119 

где – ожидаемое значение , также известное как среднее значение . Ковариацию также иногда обозначают или , по аналогии с дисперсией . Используя свойство линейности ожиданий, это можно упростить до ожидаемого значения их продукта минус произведение их ожидаемых значений:

катастрофическому сокращению

Единицами измерения ковариации являются единицы времени . Напротив, коэффициенты корреляции , которые зависят от ковариации, являются безразмерной мерой линейной зависимости. (На самом деле коэффициенты корреляции можно понимать просто как нормализованную версию ковариации.)

Комплексные случайные величины

Ковариация между двумя комплексными случайными величинами определяется как [4] : ​​119. 

Обратите внимание на комплексное сопряжение второго фактора в определении.

Также можно определить связанную псевдоковариацию .

Дискретные случайные величины

Если пара (реальных) случайных величин может принимать значения для с равными вероятностями , то ковариацию можно эквивалентным образом записать в терминах средних значений и как

Это также можно эквивалентно выразить, без прямой ссылки на средства, как [5]

В более общем смысле, если существуют возможные реализации , а именно, но с возможно неравными вероятностями для , то ковариация равна

В случае, когда две дискретные случайные величины имеют совместное распределение вероятностей, представленное элементами, соответствующими совместным вероятностям , ковариация рассчитывается с использованием двойного суммирования по индексам матрицы:

Примеры

Рассмотрим три независимых случайных величины и две константы .

Геометрическая интерпретация примера ковариации. Каждый кубоид представляет собой выровненную по оси ограничивающую рамку своей точки ( x , y , f  ( x , y )), а X и Y означают (пурпурная точка). Ковариация представляет собой сумму объемов кубоидов в 1-м и 3-м квадрантах (красный) минус объемы 2-го и 4-го (синий).

Предположим, что и есть следующая совместная массовая функция вероятности , [6] в которой шесть центральных ячеек дают дискретные совместные вероятности шести гипотетических реализаций :

может принимать три значения (5, 6 и 7), а может принимать два (8 и 9). Их средства и . Затем,

Характеристики

Ковариация сама с собой

Дисперсия — это частный случай ковариации, при котором две переменные идентичны (то есть, когда одна переменная имеет такое же распределение, как и другая): [ 4] : ​​121 

Ковариация линейных комбинаций

Если , , , и являются вещественными случайными величинами и вещественными константами, то следующие факты являются следствием определения ковариации:

Для последовательности случайных величин в вещественных и константах мы имеем

Ковариационное тождество Хеффдинга

Полезным тождеством для вычисления ковариации между двумя случайными величинами является ковариационное тождество Хоффдинга: [7]

маргинальные значения

Некоррелированность и независимость

Случайные величины, ковариация которых равна нулю, называются некоррелированными . [4] : 121  Аналогично, компоненты случайных векторов, чья ковариационная матрица равна нулю в каждом элементе вне главной диагонали, также называются некоррелированными.

Если и являются независимыми случайными величинами , то их ковариация равна нулю. [4] : 123  [8] Это следует из того, что в условиях независимости

Обратное, однако, в целом неверно. Например, пусть распределены равномерно и пусть . Очевидно, и не являются независимыми, но

В этом случае связь между и является нелинейной, а корреляция и ковариация являются мерами линейной зависимости между двумя случайными величинами. Этот пример показывает, что если две случайные величины некоррелированы, это, как правило, не означает, что они независимы. Однако если две переменные совместно нормально распределены (но не в том случае, если они просто нормально распределены по отдельности ), некоррелированность действительно подразумевает независимость. [9]

и чья ковариация положительна, называются положительно коррелированными, что означает, что если то вероятно . И наоборот, и при отрицательной ковариации они отрицательно коррелируют, и если то, вероятно , .

Отношение к внутренним продуктам

Многие свойства ковариации можно элегантно извлечь, заметив, что она удовлетворяет свойствам, аналогичным свойствам внутреннего продукта :

  1. билинейный : для констант и случайных величин
  2. симметричный:
  3. положительный полуопределенный : для всех случайных величин , и подразумевает, что он почти наверняка постоянен .

Фактически эти свойства подразумевают, что ковариация определяет скалярное произведение в фактор-векторном пространстве , полученное путем взятия подпространства случайных величин с конечным вторым моментом и идентификации любых двух, которые отличаются константой. (Эта идентификация превращает положительную полуопределенность, указанную выше, в положительную определенность.) Это фактор-векторное пространство изоморфно подпространству случайных величин с конечным вторым моментом и средним нулем; в этом подпространстве ковариация — это в точности скалярное произведение L 2 вещественных функций в выборочном пространстве.

В результате для случайных величин с конечной дисперсией неравенство

неравенства Коши–Шварца

Доказательство: Если , то оно выполняется тривиально. В противном случае пусть случайная величина

Тогда у нас есть

Расчет выборочной ковариации

Выборочные ковариации между переменными, основанные на наблюдениях за каждой из ненаблюдаемой совокупности, представляют собой матрицу с записями

что является оценкой ковариации между переменной и переменной .

Выборочное среднее и выборочная ковариационная матрица представляют собой несмещенные оценки среднего и ковариационной матрицы случайного вектора , вектора, j -й элемент которого является одной из случайных величин. Причина, по которой выборочная ковариационная матрица находится в знаменателе, а не в том, что среднее значение генеральной совокупности неизвестно и заменяется средним значением выборки . Если известно среднее значение генеральной совокупности , аналогичная несмещенная оценка дается выражением

.

Обобщения

Матрица автоковариации действительных случайных векторов

Для вектора совместно распределенных случайных величин с конечными вторыми моментами его автоковариационная матрица (также известная как дисперсионно-ковариационная матрица или просто ковариационная матрица ) (также обозначаемая или ) определяется как [10] : 335 

Пусть — случайный вектор с ковариационной матрицей Σ , и пусть A — матрица, которая может действовать слева. Ковариационная матрица произведения матрицы-вектора AX равна:

Это прямой результат линейности ожидания и полезен при применении к вектору линейного преобразования , такого как преобразование отбеливания .

Матрица перекрестной ковариации действительных случайных векторов

Для действительных случайных векторов и матрица взаимной ковариации равна [10] : 336 

где транспонирование вектора (или матрицы ) .

-й элемент этой матрицы равен ковариации между i -м скалярным компонентом и j -м скалярным компонентом . В частности , это транспонирование .

Кросс-ковариационная полуторалинейная форма случайных векторов в вещественном или комплексном гильбертовом пространстве

В более общем смысле пусть и , будут гильбертовыми пространствами над или с антилинейными по первой переменной, и пусть будут соответственно. ценные случайные величины. Тогда ковариация и является полуторалинейной формой на (антилинейной по первой переменной), определяемой выражением

Численные вычисления

Когда уравнение склонно к катастрофическому сокращению, если и не вычисляются точно, и поэтому его следует избегать в компьютерных программах, если данные не были центрированы ранее. [11] В этом случае следует отдавать предпочтение численно устойчивым алгоритмам . [12]

Комментарии

Ковариацию иногда называют мерой «линейной зависимости» между двумя случайными величинами. Это не означает то же самое, что в контексте линейной алгебры (см. линейную зависимость ). Когда ковариация нормализуется, получается коэффициент корреляции Пирсона , который показывает степень соответствия наилучшей возможной линейной функции, описывающей связь между переменными. В этом смысле ковариация представляет собой линейную меру зависимости.

Приложения

В генетике и молекулярной биологии

Ковариация является важной мерой в биологии . Определенные последовательности ДНК более консервативны среди видов, чем другие, и поэтому для изучения вторичных и третичных структур белков или структур РНК последовательности сравнивают у близкородственных видов. Если в некодирующей РНК (например, микроРНК ) обнаруживаются изменения последовательности или вообще не обнаруживаются изменения , то оказывается, что последовательности необходимы для общих структурных мотивов, таких как петля РНК. В генетике ковариация служит основой для расчета матрицы генетических отношений (GRM) (также известной как матрица родства), позволяющей делать выводы о структуре популяции на основе выборки без известных близких родственников, а также делать выводы для оценки наследственности сложных признаков.

В теории эволюции и естественного отбора уравнение цены описывает, как частота генетического признака меняется с течением времени. Уравнение использует ковариацию между признаком и приспособленностью , чтобы дать математическое описание эволюции и естественного отбора. Это дает возможность понять влияние передачи генов и естественного отбора на долю генов в каждом новом поколении популяции. [13] [14]

В финансовой экономике

Ковариации играют ключевую роль в финансовой экономике , особенно в современной теории портфеля и в модели ценообразования капитальных активов . Ковариации между доходностью различных активов используются для определения, при определенных предположениях, относительных сумм различных активов, которые инвесторы должны (в нормативном анализе ) или, по прогнозам, (в позитивном анализе ) предпочитают держать в контексте диверсификации .

В усвоении метеорологических и океанографических данных

Ковариационная матрица важна для оценки начальных условий, необходимых для запуска моделей прогноза погоды, — процедуры, известной как ассимиляция данных . «Ковариационная матрица ошибок прогноза» обычно строится на основе возмущений вокруг среднего состояния (климатологического или ансамблевого среднего). «Ковариационная матрица ошибок наблюдения» строится для представления величины комбинированных ошибок наблюдений (по диагонали) и коррелированных ошибок между измерениями (вне диагонали). Это пример его широкого применения для фильтрации Калмана и более общей оценки состояния изменяющихся во времени систем.

В микрометеорологии

Метод вихревой ковариации является ключевым методом измерения атмосферных явлений, при котором ковариация между мгновенным отклонением вертикальной скорости ветра от среднего значения и мгновенным отклонением концентрации газа является основой для расчета вертикальных турбулентных потоков.

В обработке сигналов

Ковариационная матрица используется для фиксации спектральной изменчивости сигнала. [15]

В статистике и обработке изображений

Ковариационная матрица используется в анализе главных компонент для уменьшения размерности признаков при предварительной обработке данных .

Смотрите также

Рекомендации

  1. ^ Райс, Джон (2007). Математическая статистика и анализ данных . Брукс/Коул Сенгедж Обучение. п. 138. ИСБН 9780534399429.
  2. ^ Вайсштейн, Эрик В. «Ковариация». Математический мир .
  3. ^ Оксфордский статистический словарь, Oxford University Press, 2002, стр. 104.
  4. ^ abcde Park, Кун Иль (2018). Основы теории вероятности и случайных процессов с приложениями к средствам связи . Спрингер. ISBN 9783319680743.
  5. ^ Юли Чжан; Хуайюй Ву; Лей Ченг (июнь 2012 г.). «Некоторые новые формулы деформации дисперсии и ковариации». Материалы 4-й Международной конференции по моделированию, идентификации и контролю (ICMIC2012) . стр. 987–992.
  6. ^ «Ковариация X и Y | STAT 414/415». Государственный университет Пенсильвании. Архивировано из оригинала 17 августа 2017 года . Проверено 4 августа 2019 г.
  7. ^ Папулис (1991). Вероятность, случайные величины и случайные процессы . МакГроу-Хилл.
  8. ^ Зигрист, Кайл. «Ковариация и корреляция». Университет Алабамы в Хантсвилле . Проверено 3 октября 2022 г.
  9. ^ Деккинг, Мишель, изд. (2005). Современное введение в вероятность и статистику: понимание почему и как . Тексты Спрингера в статистике. Лондон [Гейдельберг]: Springer. ISBN 978-1-85233-896-1.
  10. ^ Аб Губнер, Джон А. (2006). Вероятность и случайные процессы для инженеров-электриков и вычислительной техники . Издательство Кембриджского университета. ISBN 978-0-521-86470-1.
  11. ^ Дональд Э. Кнут (1998). Искусство компьютерного программирования , том 2: Получисловые алгоритмы , 3-е изд., с. 232. Бостон: Аддисон-Уэсли.
  12. ^ Шуберт, Эрих; Герц, Майкл (2018). «Численно стабильное параллельное вычисление (ко) дисперсии». Материалы 30-й Международной конференции по управлению научными и статистическими базами данных . Боцен-Больцано, Италия: ACM Press. стр. 1–12. дои : 10.1145/3221269.3223036. ISBN 978-1-4503-6505-5. S2CID  49665540.
  13. ^ Прайс, Джордж (1970). «Отбор и ковариация». Природа (журнал) . 227 (5257): 520–521. Бибкод : 1970Natur.227..520P. дои : 10.1038/227520a0. PMID  5428476. S2CID  4264723.
  14. ^ Харман, Орен (2020). «Когда наука отражает жизнь: о происхождении уравнения Прайса». 375 (1797). royalsocietypublishing.org: 1–7. дои : 10.1098/rstb.2019.0352 . ПМЦ 7133509 . ПМИД  32146891 . Проверено 15 мая 2020 г.  {{cite journal}}: Требуется цитировать журнал |journal=( помощь )
  15. ^ Сахидулла, Мэриленд; Киннунен, Томи (март 2016 г.). «Функции локальной спектральной изменчивости для проверки динамиков». Цифровая обработка сигналов . 50 : 1–11. дои : 10.1016/j.dsp.2015.10.011.