Общая корреляция

В теории вероятностей и, в частности, в теории информации , полная корреляция (Ватанабэ, 1960) является одним из нескольких обобщений взаимной информации . Оно также известно как многомерное ограничение (Гарнер, 1962) или мультиинформация (Студены и Вейнарова, 1999). Он количественно определяет избыточность или зависимость среди набора из n случайных величин.

Определение

Для данного набора из n случайных величин общая корреляция определяется как расхождение Кульбака-Лейблера от совместного распределения к независимому распределению , $\{X_{1},X_{2},\ldots,X_{n}\}$ $C(X_{1},X_{2},\ldots,X_{n})$ $p(X_{1},\ldots,X_{n})$ $p(X_{1})p(X_{2})\cdots p(X_{n})$

C(X_{1},X_{2},\ldots,X_{n})\equiv \operatorname {D_{KL}} \left[p(X_{1},\ldots,X_{n} )\|p(X_{1})p(X_{2})\cdots p(X_{n})\right]\;.

Это расхождение сводится к более простой разнице энтропий:

C(X_{1},X_{2},\ldots ,X_{n})=\left[\sum _{i=1}^{n}H(X_{i})\right]- H(X_{1},X_{2},\ldots,X_{n})

где – информационная энтропия переменной , – совместная энтропия набора переменных . В терминах дискретных распределений вероятностей переменных общая корреляция определяется выражением $H(X_{i})$ $X_{i}\,$ $H(X_{1},X_{2},\ldots,X_{n})$ $\{X_{1},X_{2},\ldots,X_{n}\}$ $\{X_{1},X_{2},\ldots,X_{n}\}$

C(X_{1},X_{2},\ldots ,X_{n})=\sum _{x_{1}\in {\mathcal {X}}_{1}}\sum _{ x_{2}\in {\mathcal {X}}_{2}}\ldots \sum _{x_{n}\in {\mathcal {X}}_{n}}p(x_{1},x_ {2},\ldots ,x_{n})\log {\frac {p(x_{1},x_{2},\ldots ,x_{n})}{p(x_{1})p(x_ {2})\cdots p(x_{n})}}.

Общая корреляция — это объем информации, разделяемой между переменными в наборе. Сумма представляет собой количество информации в битах (при условии журналирования по основанию 2), которым переменные обладали бы, если бы они были полностью независимы друг от друга (неизбыточны), или, что то же самое, среднюю длину кода для передачи значений всех переменных. если бы каждая переменная (оптимально) кодировалась независимо. Этот термин представляет собой фактический объем информации, который содержит набор переменных, или, что эквивалентно, среднюю длину кода для передачи значений всех переменных, если набор переменных был (оптимально) закодирован вместе. Таким образом, разница между этими терминами представляет собой абсолютную избыточность (в битах), присутствующую в данном наборе переменных, и, таким образом, обеспечивает общую количественную меру структуры или организации , воплощенной в наборе переменных (Ротштейн, 1952). Общая корреляция также представляет собой расхождение Кульбака-Лейблера между фактическим распределением и его приближением к максимальному произведению энтропии . ${\begin{matrix}\sum _{i=1}^{n}H(X_{i})\end{matrix}}$ $H(X_{1},X_{2},\ldots,X_{n})$ $p(X_{1},X_{2},\ldots,X_{n})$ $p(X_{1})p(X_{2})\cdots p(X_{n})$

Общая корреляция количественно определяет степень зависимости между группой переменных. Общая корреляция, близкая к нулю, указывает на то, что переменные в группе по существу статистически независимы; они совершенно не связаны между собой в том смысле, что знание значения одной переменной не дает никакого представления о значениях других переменных. С другой стороны, максимальная общая корреляция (для фиксированного набора индивидуальных энтропий ) определяется выражением $H(X_{1}),...,H(X_{n})$

C_{\max }=\sum _{i=1}^{n}H(X_{i})-\max \limits _{X_{i}}H(X_{i}),

и происходит, когда одна из переменных определяет все остальные переменные. Тогда переменные максимально связаны в том смысле, что знание значения одной переменной дает полную информацию о значениях всех остальных переменных, а переменные можно образно рассматривать как шестеренки, в которых положение одной шестерни определяет положения всех остальные (Ротштейн, 1952).

Важно отметить, что общая корреляция подсчитывает все избыточности среди набора переменных, но эти избыточности могут распределяться по набору переменных множеством сложных способов (Garner 1962). Например, некоторые переменные в наборе могут быть полностью взаимоизбыточными, в то время как другие в наборе полностью независимы. Возможно, еще более важно то, что избыточность может присутствовать во взаимодействиях различной степени: группа переменных может не обладать парной избыточностью, но может обладать избыточностью взаимодействия более высокого порядка, примером которой является функция четности. Разложение полной корреляции на составляющие ее избыточности исследуется в ряде источников (Mcgill 1954, Watanabe 1960, Garner 1962, Studeny & Vejnarova 1999, Jakulin & Bratko 2003a, Jakulin & Bratko 2003b, Nemenman 2004, Margolin et al. 2008, Han 1978, Хан 1980).

Условная общая корреляция

Условная общая корреляция определяется аналогично полной корреляции, но с добавлением условия к каждому члену. Условная общая корреляция аналогично определяется как расхождение Кульбака-Лейблера между двумя условными распределениями вероятностей:

C(X_{1},X_{2},\ldots,X_{n}|Y=y)\equiv \operatorname {D_{KL}} \left[p(X_{1},\ldots, X_{n}|Y=y)\|p(X_{1}|Y=y)p(X_{2}|Y=y)\cdots p(X_{n}|Y=y)\right]\ ;.

Аналогично предыдущему, условная полная корреляция сводится к разнице условных энтропий,

C(X_{1},X_{2},\ldots ,X_{n}|Y=y)=\sum _{i=1}^{n}H(X_{i}|Y=y )-H(X_{1},X_{2},\ldots ,X_{n}|Y=y)

Использование полной корреляции

Алгоритмы кластеризации и выбора признаков , основанные на полной корреляции, были исследованы Ватанабэ. Альфонсо и др. (2010) применили концепцию полной корреляции для оптимизации сетей мониторинга воды.

Общая корреляция

Определение

Условная общая корреляция

Использование полной корреляции

Смотрите также

Рекомендации