Взаимная информация

Диаграмма Венна , показывающая аддитивные и субтрактивные отношения различных информационных мер, связанных с коррелирующими переменными и . ^[1] Площадь, содержащаяся в обоих кругах, представляет собой совместную энтропию . Круг слева (красный и фиолетовый) — это индивидуальная энтропия , красный — условная энтропия . Круг справа (синий и фиолетовый) — , а синий — . Фиолетовый цвет – это взаимная информация . $X$ $Y$ $\mathrm {H} (X,Y)$ $\mathrm {H} (X)$ $\mathrm {H} (X\mid Y)$ $\mathrm {H} (Y)$ $\mathrm {H} (Y\mid X)$ $\operatorname {I} (X;Y)$

В теории вероятностей и теории информации взаимная информация ( MI ) двух случайных величин является мерой взаимной зависимости между двумя переменными. Более конкретно, он количественно определяет « объем информации » (в таких единицах , как Шенноны ( биты ), натс или хартли ), полученный об одной случайной величине путем наблюдения за другой случайной величиной. Концепция взаимной информации тесно связана с концепцией энтропии случайной величины, фундаментальным понятием теории информации, которое количественно определяет ожидаемое «объем информации», содержащейся в случайной величине.

Не ограничиваясь вещественными случайными величинами и линейной зависимостью, такой как коэффициент корреляции , MI является более общим и определяет, насколько совместное распределение пары отличается от произведения маргинальных распределений и . MI — это ожидаемое значение точечной взаимной информации (PMI). $(X,Y)$ $X$ $Y$

Величина была определена и проанализирована Клодом Шенноном в его знаковой статье « Математическая теория связи », хотя он и не называл ее «взаимной информацией». Этот термин был придуман позже Робертом Фано . ^[2] Взаимная информация также известна как получение информации .

Определение

Позвольте быть парой случайных величин со значениями в пространстве . Если их совместное распределение равно , а предельные распределения равны и , взаимная информация определяется как $(X,Y)$ ${\mathcal {X}}\times {\mathcal {Y}}$ $P_{(X,Y)}$ $P_{X}$ $P_{Y}$

$I(X;Y)=D_{\mathrm {KL} }(P_{(X,Y)}\|P_{X}\otimes P_{Y})$

где - расхождение Кульбака-Лейблера , и - внешнее распределение продуктов , которое присваивает вероятность каждому . $D_{\mathrm {KL} }$ $P_{X}\otimes P_{Y}$ $P_{X}(x)\cdot P_{Y}(y)$ $(x,y)$

Обратите внимание, что согласно свойству расхождения Кульбака-Лейблера оно равно нулю именно тогда, когда совместное распределение совпадает с произведением маргиналов, т. е. когда и независимы (и, следовательно, наблюдение ничего не говорит вам о ). неотрицательен, это мера цены кодирования как пары независимых случайных величин, хотя на самом деле это не так. $I (X;Y)$ $X$ $Y$ $Y$ $X$ $I (X;Y)$ $(X,Y)$

Если используется натуральный логарифм , единицей взаимной информации является nat . Если используется логарифмическая база 2, единицей взаимной информации является шеннон , также известный как бит. Если используется база журнала 10, единицей взаимной информации является хартли , также известный как запрет или dit.

С точки зрения PMF для дискретных распределений

Взаимная информация двух совместно дискретных случайных величин рассчитывается как двойная сумма: ^[3]^{: 20} $X$ $Y$

где – совместная массовая функция вероятности и , и – предельные массовые функции вероятности и соответственно. $P_{(X,Y)}$ $X$ $Y$ $P_{X}$ $P_{Y}$ $X$ $Y$

Что касается PDF-файлов для непрерывных дистрибутивов

В случае совместно непрерывных случайных величин двойная сумма заменяется двойным интегралом : ^[3]^{: 251}

где теперь - совместная функция плотности вероятности и , и - предельные функции плотности вероятности и соответственно. $P_{(X,Y)}$ $X$ $Y$ $P_{X}$ $P_{Y}$ $X$ $Y$

Мотивация

Интуитивно, взаимная информация измеряет информацию, которой делятся : она измеряет, насколько знание одной из этих переменных снижает неопределенность в отношении другой. Например, если и независимы, то знание не дает никакой информации о и наоборот, поэтому их взаимная информация равна нулю. С другой стороны, если является детерминированной функцией и является детерминированной функцией, тогда вся информация, передаваемая с помощью, передается совместно с : знание определяет ценность и наоборот. В результате в этом случае взаимная информация такая же, как и неопределенность, содержащаяся только в (или ), а именно энтропия (или ) . Более того, эта взаимная информация такая же, как энтропия и энтропия . (Особый случай — когда и являются одной и той же случайной величиной.) $X$ $Y$ $X$ $Y$ $X$ $Y$ $X$ $Y$ $Y$ $X$ $X$ $Y$ $X$ $Y$ $Y$ $X$ $Y$ $X$ $X$ $Y$ $X$ $Y$

Взаимная информация является мерой внутренней зависимости, выраженной в совместном распределении и относительно предельного распределения и при предположении независимости. Таким образом, взаимная информация измеряет зависимость в следующем смысле: тогда и только тогда, когда и являются независимыми случайными величинами. Это легко увидеть в одном направлении: если и независимы, то , и, следовательно: $X$ $Y$ $X$ $Y$ $\operatorname {I} (X;Y)=0$ $X$ $Y$ $X$ $Y$ $p_{(X,Y)}(x,y)=p_{X}(x)\cdot p_{Y}(y)$

\log {\left({\frac {p_{(X,Y)}(x,y)}{p_{X}(x)\,p_{Y}(y)}}\right)}=\log 1=0.

Более того, взаимная информация неотрицательна (см . ниже) и симметрична (см . ниже). $\operatorname {I} (X;Y)\geq 0$ $\operatorname {I} (X;Y)=\operatorname {I} (Y;X)$

Характеристики

Неотрицательность

Используя неравенство Йенсена для определения взаимной информации, мы можем показать, что она неотрицательна, т.е. ^[3]^{: 28} $\operatorname {I} (X;Y)$

\operatorname {I} (X;Y)\geq 0

Симметрия

\operatorname {I} (X;Y)=\operatorname {I} (Y;X)

Доказательство дается с учетом связи с энтропией, как показано ниже.

Супермодульность при независимости

Если не зависит от , то $C$ $(A,B)$

\operatorname {I} (Y;A,B,C)-\operatorname {I} (Y;A,B)\geq \operatorname {I} (Y;A,C)-\operatorname {I} (Y;A)

. ^[4]

Связь с условной и совместной энтропией

Взаимную информацию можно эквивалентно выразить как:

{\begin{aligned}\operatorname {I} (X;Y)&{}\equiv \mathrm {H} (X)-\mathrm {H} (X\mid Y)\\&{}\equiv \mathrm {H} (Y)-\mathrm {H} (Y\mid X)\\&{}\equiv \mathrm {H} (X)+\mathrm {H} (Y)-\mathrm {H} (X,Y)\\&{}\equiv \mathrm {H} (X,Y)-\mathrm {H} (X\mid Y)-\mathrm {H} (Y\mid X)\end{aligned}}

где и - предельные энтропии , и - условные энтропии , и - совместная энтропия и . $\mathrm {H} (X)$ $\mathrm {H} (Y)$ $\mathrm {H} (X\mid Y)$ $\mathrm {H} (Y\mid X)$ $\mathrm {H} (X,Y)$ $X$ $Y$

Обратите внимание на аналогию с объединением, разностью и пересечением двух множеств: в этом отношении все приведенные выше формулы очевидны из диаграммы Венна, приведенной в начале статьи.

С точки зрения канала связи, в котором выход представляет собой зашумленную версию входа , эти отношения суммированы на рисунке: $Y$ $X$

Отношения между теоретико-информационными величинами

Потому что неотрицательно, следовательно, . Здесь мы даем подробный вывод для случая совместно дискретных случайных величин: $\operatorname {I} (X;Y)$ $\mathrm {H} (X)\geq \mathrm {H} (X\mid Y)$ $\operatorname {I} (X;Y)=\mathrm {H} (Y)-\mathrm {H} (Y\mid X)$

{\begin{aligned}\operatorname {I} (X;Y)&{}=\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}p_{(X,Y)}(x,y)\log {\frac {p_{(X,Y)}(x,y)}{p_{X}(x)p_{Y}(y)}}\\&{}=\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}p_{(X,Y)}(x,y)\log {\frac {p_{(X,Y)}(x,y)}{p_{X}(x)}}-\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}p_{(X,Y)}(x,y)\log p_{Y}(y)\\&{}=\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}p_{X}(x)p_{Y\mid X=x}(y)\log p_{Y\mid X=x}(y)-\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}p_{(X,Y)}(x,y)\log p_{Y}(y)\\&{}=\sum _{x\in {\mathcal {X}}}p_{X}(x)\left(\sum _{y\in {\mathcal {Y}}}p_{Y\mid X=x}(y)\log p_{Y\mid X=x}(y)\right)-\sum _{y\in {\mathcal {Y}}}\left(\sum _{x\in {\mathcal {X}}}p_{(X,Y)}(x,y)\right)\log p_{Y}(y)\\&{}=-\sum _{x\in {\mathcal {X}}}p_{X}(x)\mathrm {H} (Y\mid X=x)-\sum _{y\in {\mathcal {Y}}}p_{Y}(y)\log p_{Y}(y)\\&{}=-\mathrm {H} (Y\mid X)+\mathrm {H} (Y)\\&{}=\mathrm {H} (Y)-\mathrm {H} (Y\mid X).\\\end{aligned}}

Доказательства остальных приведенных выше тождеств аналогичны. Доказательство общего случая (а не только дискретного) аналогично, с заменой сумм интегралами.

Интуитивно понятно, что если энтропию рассматривать как меру неопределенности относительно случайной величины, то это мера того, чего не говорится о . Это «количество неопределенности, остающееся после того, как станет известно», и, таким образом, правую часть второго из этих равенств можно прочитать как «количество неопределенности в минус количество неопределенности, которое остается после того, как станет известно», что эквивалентно «количеству неопределенности, которая устраняется знанием ». Это подтверждает интуитивное значение взаимной информации как объема информации (то есть уменьшения неопределенности), которую знание одной переменной дает о другой. $\mathrm {H} (Y)$ $\mathrm {H} (Y\mid X)$ $X$ $Y$ $Y$ $X$ $Y$ $Y$ $X$ $Y$ $X$

Заметим, что в дискретном случае и, следовательно , . Таким образом , можно сформулировать основной принцип, согласно которому переменная содержит по крайней мере столько же информации о себе, сколько может предоставить любая другая переменная. $\mathrm {H} (Y\mid Y)=0$ $\mathrm {H} (Y)=\operatorname {I} (Y;Y)$ $\operatorname {I} (Y;Y)\geq \operatorname {I} (X;Y)$

Связь с расхождением Кульбака – Лейблера

Для совместно дискретных или совместно непрерывных пар взаимная информация представляет собой расхождение Кульбака–Лейблера от произведения маргинальных распределений совместного распределения , то есть $(X,Y)$ $p_{X}\cdot p_{Y}$ $p_{(X,Y)}$

$\operatorname {I} (X;Y)=D_{\text{KL}}\left(p_{(X,Y)}\parallel p_{X}p_{Y}\right)$

Далее, пусть – условная функция массы или плотности. Тогда мы имеем тождество $p_{(X,Y)}(x,y)=p_{X\mid Y=y}(x)*p_{Y}(y)$

$\operatorname {I} (X;Y)=\mathbb {E} _{Y}\left[D_{\text{KL}}\!\left(p_{X\mid Y}\parallel p_{X}\right)\right]$

Доказательство для совместно дискретных случайных величин выглядит следующим образом:

{\begin{aligned}\operatorname {I} (X;Y)&=\sum _{y\in {\mathcal {Y}}}\sum _{x\in {\mathcal {X}}}{p_{(X,Y)}(x,y)\log \left({\frac {p_{(X,Y)}(x,y)}{p_{X}(x)\,p_{Y}(y)}}\right)}\\&=\sum _{y\in {\mathcal {Y}}}\sum _{x\in {\mathcal {X}}}p_{X\mid Y=y}(x)p_{Y}(y)\log {\frac {p_{X\mid Y=y}(x)p_{Y}(y)}{p_{X}(x)p_{Y}(y)}}\\&=\sum _{y\in {\mathcal {Y}}}p_{Y}(y)\sum _{x\in {\mathcal {X}}}p_{X\mid Y=y}(x)\log {\frac {p_{X\mid Y=y}(x)}{p_{X}(x)}}\\&=\sum _{y\in {\mathcal {Y}}}p_{Y}(y)\;D_{\text{KL}}\!\left(p_{X\mid Y=y}\parallel p_{X}\right)\\&=\mathbb {E} _{Y}\left[D_{\text{KL}}\!\left(p_{X\mid Y}\parallel p_{X}\right)\right].\end{aligned}}

Аналогично это тождество можно установить и для совместно непрерывных случайных величин.

Обратите внимание, что здесь расхождение Кульбака – Лейблера включает интегрирование только по значениям случайной величины , и выражение по-прежнему обозначает случайную величину, поскольку она является случайной. Таким образом , взаимную информацию можно также понимать как ожидание отклонения Кульбака-Лейблера одномерного распределения от условного распределения заданного : чем более различны распределения и в среднем, тем больше прирост информации . $X$ $D_{\text{KL}}(p_{X\mid Y}\parallel p_{X})$ $Y$ $p_{X}$ $X$ $p_{X\mid Y}$ $X$ $Y$ $p_{X\mid Y}$ $p_{X}$

Байесовская оценка взаимной информации

Если доступны выборки из совместного распределения, для оценки взаимной информации этого распределения можно использовать байесовский подход. Это была первая работа, которая также показала, как выполнять байесовскую оценку многих других теоретико-информационных свойств, помимо взаимной информации. ^[5] Последующие исследователи переработали ^[6] и расширили ^[7] этот анализ. См. ^[8] недавнюю статью, основанную на априорном подходе, специально предназначенном для оценки взаимной информации как таковой. Кроме того, недавно в работе был предложен метод оценки, учитывающий непрерывные и многомерные результаты . ^[9] $Y$

Предположения о независимости

Формулировка дивергенции Кульбака-Лейблера для взаимной информации основана на том, что нас интересует сравнение с полностью факторизованным внешним продуктом . Во многих задачах, таких как факторизация неотрицательной матрицы , интересны менее экстремальные факторизации; в частности, нужно провести сравнение с матричной аппроксимацией низкого ранга с некоторой неизвестной переменной ; то есть в какой степени можно иметь $p(x,y)$ $p(x)\cdot p(y)$ $p(x,y)$ $w$

p(x,y)\approx \sum _{w}p^{\prime }(x,w)p^{\prime \prime }(w,y)

С другой стороны, может быть интересно узнать, сколько больше информации переносится при факторизации. В таком случае избыточная информация, которую полное распределение несет в себе при матричной факторизации, определяется расхождением Кульбака-Лейблера. $p(x,y)$ $p(x,y)$

\operatorname {I} _{LRMA}=\sum _{y\in {\mathcal {Y}}}\sum _{x\in {\mathcal {X}}}{p(x,y)\log {\left({\frac {p(x,y)}{\sum _{w}p^{\prime }(x,w)p^{\prime \prime }(w,y)}}\right)}},

Традиционное определение взаимной информации восстанавливается в крайнем случае, когда процесс имеет только одно значение для . $W$ $w$

Вариации

Для удовлетворения различных потребностей было предложено несколько вариантов взаимной информации. Среди них есть нормализованные варианты и обобщения для более чем двух переменных.

Метрика

Многие приложения требуют метрики , то есть меры расстояния между парами точек. Количество

{\begin{aligned}d(X,Y)&=\mathrm {H} (X,Y)-\operatorname {I} (X;Y)\\&=\mathrm {H} (X)+\mathrm {H} (Y)-2\operatorname {I} (X;Y)\\&=\mathrm {H} (X\mid Y)+\mathrm {H} (Y\mid X)\\&=2\mathrm {H} (X,Y)-\mathrm {H} (X)-\mathrm {H} (Y)\end{aligned}}

удовлетворяет свойствам метрики ( неравенство треугольника , неотрицательность , неразличимость и симметрия). Этот показатель расстояния также известен как изменение информации .

Если это дискретные случайные величины, то все члены энтропии неотрицательны, поэтому можно определить нормализованное расстояние. $X,Y$ $0\leq d(X,Y)\leq \mathrm {H} (X,Y)$

D(X,Y)={\frac {d(X,Y)}{\mathrm {H} (X,Y)}}\leq 1.

Метрика является универсальной метрикой: если какие-либо другие меры расстояния расположены рядом и находятся рядом, то они также будут оцениваться как близкие. ^[10]^[^{сомнительно}^–^{обсудить}^] $D$ $X$ $Y$ $D$

Подстановка определений показывает, что

D(X,Y)=1-{\frac {\operatorname {I} (X;Y)}{\mathrm {H} (X,Y)}}.

Это известно как расстояние Райского. ^[11] В теоретико-множественной интерпретации информации (см. рисунок « Условная энтропия ») это фактически расстояние Жаккара между и . $X$ $Y$

Окончательно,

D^{\prime }(X,Y)=1-{\frac {\operatorname {I} (X;Y)}{\max \left\{\mathrm {H} (X),\mathrm {H} (Y)\right\}}}

это тоже показатель.

Условная взаимная информация

Иногда полезно выразить взаимную информацию двух случайных величин, обусловленную третьей.

$\operatorname {I} (X;Y|Z)=\mathbb {E} _{Z}[D_{\mathrm {KL} }(P_{(X,Y)|Z}\|P_{X|Z}\otimes P_{Y|Z})]$

Для совместно дискретных случайных величин это принимает вид

\operatorname {I} (X;Y|Z)=\sum _{z\in {\mathcal {Z}}}\sum _{y\in {\mathcal {Y}}}\sum _{x\in {\mathcal {X}}}{p_{Z}(z)\,p_{X,Y|Z}(x,y|z)\log \left[{\frac {p_{X,Y|Z}(x,y|z)}{p_{X|Z}\,(x|z)p_{Y|Z}(y|z)}}\right]},

который можно упростить как

\operatorname {I} (X;Y|Z)=\sum _{z\in {\mathcal {Z}}}\sum _{y\in {\mathcal {Y}}}\sum _{x\in {\mathcal {X}}}p_{X,Y,Z}(x,y,z)\log {\frac {p_{X,Y,Z}(x,y,z)p_{Z}(z)}{p_{X,Z}(x,z)p_{Y,Z}(y,z)}}.

Для совместно непрерывных случайных величин это имеет вид

\operatorname {I} (X;Y|Z)=\int _{\mathcal {Z}}\int _{\mathcal {Y}}\int _{\mathcal {X}}{p_{Z}(z)\,p_{X,Y|Z}(x,y|z)\log \left[{\frac {p_{X,Y|Z}(x,y|z)}{p_{X|Z}\,(x|z)p_{Y|Z}(y|z)}}\right]}dxdydz,

который можно упростить как

\operatorname {I} (X;Y|Z)=\int _{\mathcal {Z}}\int _{\mathcal {Y}}\int _{\mathcal {X}}p_{X,Y,Z}(x,y,z)\log {\frac {p_{X,Y,Z}(x,y,z)p_{Z}(z)}{p_{X,Z}(x,z)p_{Y,Z}(y,z)}}dxdydz.

Обуславливание третьей случайной величиной может либо увеличить, либо уменьшить взаимную информацию, но всегда верно, что

\operatorname {I} (X;Y|Z)\geq 0

для дискретных, совместно распределенных случайных величин . Этот результат был использован в качестве основного строительного блока для доказательства других неравенств в теории информации . $X,Y,Z$

Информация о взаимодействии

Было предложено несколько обобщений взаимной информации на более чем две случайные величины, такие как полная корреляция (или мультиинформация) и двойная полная корреляция . Выражение и изучение многомерной взаимной информации более высокой степени было достигнуто в двух, казалось бы, независимых работах: Макгилла (1954) ^[12] , который назвал эти функции «информацией взаимодействия», и Ху Го Тина (1962). ^[13] Информация о взаимодействии определяется для одной переменной следующим образом:

\operatorname {I} (X_{1})=\mathrm {H} (X_{1})

и для $n>1,$

\operatorname {I} (X_{1};\,...\,;X_{n})=\operatorname {I} (X_{1};\,...\,;X_{n-1})-\operatorname {I} (X_{1};\,...\,;X_{n-1}\mid X_{n}).

Некоторые авторы меняют порядок членов в правой части предыдущего уравнения, что меняет знак, когда число случайных величин нечетное. (И в этом случае выражение с одной переменной становится отрицательным значением энтропии.) Обратите внимание, что

I(X_{1};\ldots ;X_{n-1}\mid X_{n})=\mathbb {E} _{X_{n}}[D_{\mathrm {KL} }(P_{(X_{1},\ldots ,X_{n-1})\mid X_{n}}\|P_{X_{1}\mid X_{n}}\otimes \cdots \otimes P_{X_{n-1}\mid X_{n}})].

Многомерная статистическая независимость

Многомерные функции взаимной информации обобщают случай попарной независимости, который утверждает, что тогда и только тогда, когда , на произвольную многочисленную переменную. n переменных взаимно независимы тогда и только тогда, когда взаимные информационные функции равны нулю при (теорема 2 ^[14] ). В этом смысле его можно использовать как уточненный критерий статистической независимости. $X_{1},X_{2}$ $I(X_{1};X_{2})=0$ $2^{n}-n-1$ $I(X_{1};\ldots ;X_{k})=0$ $n\geq k\geq 2$ $I(X_{1};\ldots ;X_{k})=0$

Приложения

Для трех переменных Brenner et al. применили многомерную взаимную информацию к нейронному кодированию и назвали ее негативность «синергией» ^[15] , а Уоткинсон и др. применил его к генетическому выражению. ^[16] Для произвольных k переменных, Tapia et al. применил многомерную взаимную информацию к экспрессии генов. ^[17]^[14] Оно может быть нулевым, положительным или отрицательным. ^[13] Позитивность соответствует отношениям, обобщающим парные корреляции, нуль соответствует уточненному понятию независимости, а отрицательность обнаруживает многомерные «новые» отношения и кластеризованные точки данных ^[17] ).

Было обнаружено, что одна схема многомерного обобщения, которая максимизирует взаимную информацию между совместным распределением и другими целевыми переменными, полезна при выборе признаков . ^[18]

Взаимная информация также используется в области обработки сигналов как мера сходства между двумя сигналами. Например, метрика FMI ^[19] — это показатель производительности слияния изображений, который использует взаимную информацию для измерения объема информации, которую слитое изображение содержит об исходных изображениях. Код Matlab для этой метрики можно найти по адресу. ^[20] Доступен пакет Python для вычисления всей многомерной взаимной информации, условной взаимной информации, совместной энтропии, общих корреляций, информационного расстояния в наборе данных из n переменных. ^[21]

Направленная информация

Направленная информация , , измеряет количество информации, поступающей от процесса к , где обозначает вектор и обозначает . Термин «направленная информация» был придуман Джеймсом Мэсси и определяется как $\operatorname {I} \left(X^{n}\to Y^{n}\right)$ $X^{n}$ $Y^{n}$ $X^{n}$ $X_{1},X_{2},...,X_{n}$ $Y^{n}$ $Y_{1},Y_{2},...,Y_{n}$

\operatorname {I} \left(X^{n}\to Y^{n}\right)=\sum _{i=1}^{n}\operatorname {I} \left(X^{i};Y_{i}\mid Y^{i-1}\right)

Обратите внимание, что если направленная информация становится взаимной информацией. Направленная информация имеет множество применений в задачах, где причинно-следственная связь играет важную роль, например, пропускная способность канала с обратной связью. ^[22]^[23] $n=1$

Нормализованные варианты

Нормализованные варианты взаимной информации представлены коэффициентами ограничения , ^[24] коэффициентом неопределенности ^[25] или компетентностью: ^[26]

C_{XY}={\frac {\operatorname {I} (X;Y)}{\mathrm {H} (Y)}}~~~~{\mbox{and}}~~~~C_{YX}={\frac {\operatorname {I} (X;Y)}{\mathrm {H} (X)}}.

Два коэффициента имеют значения в пределах [0, 1], но не обязательно равны. Эта мера не симметрична. Если кто-то желает симметричной меры, он может рассмотреть следующую меру избыточности :

R={\frac {\operatorname {I} (X;Y)}{\mathrm {H} (X)+\mathrm {H} (Y)}}

который достигает минимума нуля, когда переменные независимы, и максимального значения

R_{\max }={\frac {\min \left\{\mathrm {H} (X),\mathrm {H} (Y)\right\}}{\mathrm {H} (X)+\mathrm {H} (Y)}}

когда одна переменная становится совершенно избыточной при знании другой. См. также Избыточность (теория информации) .

Другой симметричной мерой является симметричная неопределенность (Witten & Frank 2005), определяемая формулой

U(X,Y)=2R=2{\frac {\operatorname {I} (X;Y)}{\mathrm {H} (X)+\mathrm {H} (Y)}}

которое представляет собой среднее гармоническое значение двух коэффициентов неопределенности . ^[25] $C_{XY},C_{YX}$

Если мы рассматриваем взаимную информацию как частный случай полной корреляции или двойной полной корреляции , нормализованная версия соответственно равна

{\frac {\operatorname {I} (X;Y)}{\min \left[\mathrm {H} (X),\mathrm {H} (Y)\right]}}

{\frac {\operatorname {I} (X;Y)}{\mathrm {H} (X,Y)}}\;.

Эта нормализованная версия, также известная как коэффициент качества информации (IQR) , которая количественно определяет объем информации переменной на основе другой переменной с учетом полной неопределенности: ^[27]

IQR(X,Y)=\operatorname {E} [\operatorname {I} (X;Y)]={\frac {\operatorname {I} (X;Y)}{\mathrm {H} (X,Y)}}={\frac {\sum _{x\in X}\sum _{y\in Y}p(x,y)\log {p(x)p(y)}}{\sum _{x\in X}\sum _{y\in Y}p(x,y)\log {p(x,y)}}}-1

Существует нормализация ^[28] , которая вытекает из первоначального рассмотрения взаимной информации как аналога ковариации ( таким образом, энтропия Шеннона аналогична дисперсии ). Затем рассчитывается нормализованная взаимная информация, аналогичная коэффициенту корреляции Пирсона ,

{\frac {\operatorname {I} (X;Y)}{\sqrt {\mathrm {H} (X)\mathrm {H} (Y)}}}\;.

Взвешенные варианты

В традиционной формулировке взаимной информации

\operatorname {I} (X;Y)=\sum _{y\in Y}\sum _{x\in X}p(x,y)\log {\frac {p(x,y)}{p(x)\,p(y)}},

каждое событие или объект , указанный с помощью, взвешивается соответствующей вероятностью . Это предполагает, что все объекты или события эквивалентны, за исключением вероятности их возникновения. Однако в некоторых приложениях может случиться так, что определенные объекты или события более значимы , чем другие, или что определенные шаблоны ассоциаций более семантически важны, чем другие. $(x,y)$ $p(x,y)$

Например, детерминированное отображение можно рассматривать как более сильное, чем детерминированное отображение , хотя эти отношения будут давать одну и ту же взаимную информацию. Это происходит потому, что взаимная информация совершенно не чувствительна к какому-либо внутреннему порядку значений переменных (Cronbach 1954, Coombs, Dawes & Tversky 1970, Lockhead 1970) и, следовательно, совершенно не чувствительна к форме реляционного отображения между связанные переменные. Если желательно, чтобы первое отношение, показывающее согласие по всем значениям переменных, оценивалось сильнее, чем более позднее отношение, то можно использовать следующую взвешенную взаимную информацию (Guiasu 1977). $\{(1,1),(2,2),(3,3)\}$ $\{(1,3),(2,1),(3,2)\}$

\operatorname {I} (X;Y)=\sum _{y\in Y}\sum _{x\in X}w(x,y)p(x,y)\log {\frac {p(x,y)}{p(x)\,p(y)}},

который придает вес вероятности совместного появления каждого значения переменной, . Это позволяет некоторым вероятностям иметь большее или меньшее значение, чем другие, тем самым позволяя количественно оценить соответствующие целостные факторы или факторы Прегнанца . В приведенном выше примере использование больших относительных весов для , и будет иметь эффект оценки большей информативности для отношения , чем для отношения , что может быть желательно в некоторых случаях распознавания образов и т.п. Эта взвешенная взаимная информация представляет собой форму взвешенной KL-дивергенции, которая, как известно, принимает отрицательные значения для некоторых входных данных ^[29] , и есть примеры, когда взвешенная взаимная информация также принимает отрицательные значения. ^[30] $w(x,y)$ $p(x,y)$ $w(1,1)$ $w(2,2)$ $w(3,3)$ $\{(1,1),(2,2),(3,3)\}$ $\{(1,3),(2,1),(3,2)\}$

Скорректированная взаимная информация

Распределение вероятностей можно рассматривать как часть множества . Тогда можно задаться вопросом: если бы множество было разделено случайным образом, каково было бы распределение вероятностей? Какова будет ожидаемая ценность взаимной информации? Скорректированная взаимная информация или AMI вычитает математическое ожидание MI, так что AMI равен нулю, когда два разных распределения являются случайными, и единице, когда два распределения идентичны. AMI определяется по аналогии с скорректированным индексом Рэнда двух разных разделов набора.

Абсолютная взаимная информация

Используя идеи колмогоровской сложности , можно рассматривать взаимную информацию двух последовательностей независимо от какого-либо распределения вероятностей:

\operatorname {I} _{K}(X;Y)=K(X)-K(X\mid Y).

Чтобы установить, что эта величина симметрична с точностью до логарифмического множителя ( ), необходимо использовать цепное правило для сложности Колмогорова (Li & Vitány 1997). Аппроксимация этой величины посредством сжатия может использоваться для определения меры расстояния для выполнения иерархической кластеризации последовательностей без каких-либо знаний предметной области последовательностей (Cilibrasi & Vitány 2005). $\operatorname {I} _{K}(X;Y)\approx \operatorname {I} _{K}(Y;X)$

Линейная корреляция

В отличие от коэффициентов корреляции, таких как коэффициент корреляции момента произведения , взаимная информация содержит информацию обо всех зависимостях — линейных и нелинейных, а не только о линейной зависимости, как измеряет коэффициент корреляции. Однако в узком случае, когда совместное распределение для и представляет собой двумерное нормальное распределение (подразумевается, в частности, что оба маргинальных распределения нормально распределены), существует точная связь между и коэффициентом корреляции (Гельфанд и Яглом, 1957). $X$ $Y$ $\operatorname {I}$ $\rho$

\operatorname {I} =-{\frac {1}{2}}\log \left(1-\rho ^{2}\right)

Приведенное выше уравнение для двумерной гауссианы можно вывести следующим образом:

{\begin{aligned}{\begin{pmatrix}X_{1}\\X_{2}\end{pmatrix}}&\sim {\mathcal {N}}\left({\begin{pmatrix}\mu _{1}\\\mu _{2}\end{pmatrix}},\Sigma \right),\qquad \Sigma ={\begin{pmatrix}\sigma _{1}^{2}&\rho \sigma _{1}\sigma _{2}\\\rho \sigma _{1}\sigma _{2}&\sigma _{2}^{2}\end{pmatrix}}\\\mathrm {H} (X_{i})&={\frac {1}{2}}\log \left(2\pi e\sigma _{i}^{2}\right)={\frac {1}{2}}+{\frac {1}{2}}\log(2\pi )+\log \left(\sigma _{i}\right),\quad i\in \{1,2\}\\\mathrm {H} (X_{1},X_{2})&={\frac {1}{2}}\log \left[(2\pi e)^{2}|\Sigma |\right]=1+\log(2\pi )+\log \left(\sigma _{1}\sigma _{2}\right)+{\frac {1}{2}}\log \left(1-\rho ^{2}\right)\\\end{aligned}}

Поэтому,

\operatorname {I} \left(X_{1};X_{2}\right)=\mathrm {H} \left(X_{1}\right)+\mathrm {H} \left(X_{2}\right)-\mathrm {H} \left(X_{1},X_{2}\right)=-{\frac {1}{2}}\log \left(1-\rho ^{2}\right)

Для дискретных данных

Когда и ограничены дискретным числом состояний, данные наблюдения суммируются в таблице сопряженности с переменной строки (или ) и переменной столбца (или ). Взаимная информация — это одна из мер связи или корреляции между переменными строки и столбца. $X$ $Y$ $X$ $i$ $Y$ $j$

Другие меры связи включают статистику критерия хи-квадрат Пирсона , статистику G-теста и т. д. Фактически, при той же логарифмической базе взаимная информация будет равна логарифмической статистике правдоподобия G-теста, разделенной на , где - размер выборки . $2N$ $N$

Приложения

Во многих приложениях требуется максимизировать взаимную информацию (таким образом увеличивая зависимости), что часто эквивалентно минимизации условной энтропии . Примеры включают в себя:

В технологии поисковых систем взаимная информация между фразами и контекстами используется как функция кластеризации k-средних для обнаружения семантических кластеров (понятий). ^[31] Например, взаимная информация биграммы может быть рассчитана как:

$MI(x,y)=\log {\frac {P_{X,Y}(x,y)}{P_{X}(x)P_{Y}(y)}}\approx \log {\frac {\frac {f_{XY}}{B}}{{\frac {f_{X}}{U}}{\frac {f_{Y}}{U}}}}$

где — сколько раз биграмма xy появляется в корпусе, — сколько раз униграмма x появляется в корпусе, B — общее количество биграмм, а U — общее количество униграмм. ^[31]

f_{XY}

f_{X}

В телекоммуникациях пропускная способность канала равна взаимной информации, максимальной по всем входным распределениям.
Были предложены процедуры дискриминационного обучения для скрытых марковских моделей на основе критерия максимальной взаимной информации (MMI).
Предсказание вторичной структуры РНК на основе множественного выравнивания последовательностей .
Прогнозирование филогенетического профилирования на основе парного присутствия и исчезновения функционально связанных генов .
Взаимная информация использовалась в качестве критерия для выбора функций и преобразований функций в машинном обучении . Его можно использовать для характеристики как релевантности, так и избыточности переменных, например, выбора функции минимальной избыточности .
Взаимная информация используется для определения сходства двух разных кластеризаций набора данных. Таким образом, он дает некоторые преимущества перед традиционным индексом Рэнда .
Взаимная информация слов часто используется как функция значимости для вычисления словосочетаний в корпусной лингвистике . Это имеет дополнительную сложность, поскольку ни один экземпляр слова не является экземпляром двух разных слов; скорее, подсчитываются случаи, когда два слова встречаются рядом или в непосредственной близости; это немного усложняет расчет, поскольку ожидаемая вероятность появления одного слова внутри слов другого возрастает с увеличением $N$ $N$
Взаимная информация используется в медицинской визуализации для регистрации изображений . Учитывая эталонное изображение (например, сканирование мозга) и второе изображение, которое необходимо поместить в ту же систему координат, что и эталонное изображение, это изображение деформируется до тех пор, пока взаимная информация между ним и эталонным изображением не будет максимальной.
Обнаружение фазовой синхронизации при анализе временных рядов .
В методе Infomax для нейронных сетей и другого машинного обучения, включая основанный на Infomax алгоритм анализа независимых компонентов.
Средняя взаимная информация в теореме о внедрении задержки используется для определения параметра задержки внедрения .
Взаимная информация между генами в данных экспрессионного микрочипа используется алгоритмом ARACNE для реконструкции генных сетей .
В статистической механике парадокс Лошмидта может быть выражен в терминах взаимной информации. ^[32]^[33] Лошмидт отметил, что невозможно определить физический закон, которому не хватает симметрии обращения времени (например, второй закон термодинамики ) только из физических законов, обладающих этой симметрией. Он отметил, что H-теорема Больцмана предполагает, что скорости частиц в газе постоянно некоррелированы, что устраняет временную симметрию, присущую H-теореме . Можно показать, что если система описывается плотностью вероятности в фазовом пространстве , то теорема Лиувилля подразумевает, что совместная информация (отрицательная от совместной энтропии) распределения остается постоянной во времени. Совместная информация равна взаимной информации плюс сумме всей предельной информации (отрицательной от предельной энтропии) для каждой координаты частицы. Предположение Больцмана сводится к игнорированию взаимной информации при вычислении энтропии, что дает термодинамическую энтропию (деленную на константу Больцмана).
В случайных процессах , связанных с изменением окружающей среды, взаимная информация может использоваться для распутывания внутренних и эффективных зависимостей от окружающей среды. ^[34]^[35] Это особенно полезно, когда физическая система претерпевает изменения в параметрах, описывающих ее динамику, например, изменения температуры.
Взаимная информация используется для изучения структуры байесовских сетей / динамических байесовских сетей , которая, как считается, объясняет причинно-следственную связь между случайными величинами, на примере набора инструментов GlobalMIT: ^[36] изучение глобально оптимальной динамической байесовской сети с помощью взаимной информации. Критерий испытания.
Взаимная информация используется для количественной оценки информации, передаваемой во время процедуры обновления в алгоритме выборки Гиббса . ^[37]
Популярная функция стоимости в обучении дерева решений .
Взаимная информация используется в космологии для проверки влияния крупномасштабной среды на свойства галактик в Галактическом зоопарке .
Взаимная информация использовалась в физике Солнца для получения профиля дифференциального вращения Солнца , карты отклонения времени пробега солнечных пятен и диаграммы время-расстояние на основе измерений спокойного Солнца ^[38]
Используется в кластеризации инвариантной информации для автоматического обучения классификаторов нейронных сетей и сегментаторов изображений при отсутствии помеченных данных. ^[39]

Смотрите также

Примечания

^ Обложка, Томас М.; Томас, Джой А. (2005). Элементы теории информации (PDF) . John Wiley & Sons, Ltd., стр. 13–55. ISBN 9780471748823.
^ Крир, JG (1957). «Вопрос терминологии». IRE Транзакции по теории информации . 3 (3): 208. doi :10.1109/TIT.1957.1057418.
^ abc Cover, TM; Томас, Дж. А. (1991). Элементы теории информации (изд. Уайли). Джон Уайли и сыновья. ISBN 978-0-471-24195-9.
^ Янссен, Джозеф; Гуан, Винсент; Робева, Элина (2023). «Сверхпредельная важность функций: обучение на данных с причинно-следственными гарантиями». Международная конференция по искусственному интеллекту и статистике : 10782–10814. arXiv : 2204.09938 .
^ Вулперт, Д.Х.; Вольф, ДР (1995). «Оценочные функции вероятностных распределений по конечному набору выборок». Физический обзор E . 52 (6): 6841–6854. Бибкод : 1995PhRvE..52.6841W. CiteSeerX 10.1.1.55.7122 . doi : 10.1103/PhysRevE.52.6841. PMID 9964199. S2CID 9795679.
^ Хаттер, М. (2001). «Распространение взаимной информации». Достижения в области нейронных систем обработки информации .
^ Арчер, Э.; Парк, ИМ; Подушка, Дж. (2013). «Байесовские и квазибайесовские средства оценки взаимной информации из дискретных данных». Энтропия . 15 (12): 1738–1755. Бибкод : 2013Entrp..15.1738A. CiteSeerX 10.1.1.294.4690 . дои : 10.3390/e15051738 .
^ Вулперт, Д.Х.; ДеДео, С. (2013). «Оценочные функции распределений, определенных в пространствах неизвестного размера». Энтропия . 15 (12): 4668–4699. arXiv : 1311.4548 . Бибкод : 2013Entrp..15.4668W. дои : 10.3390/e15114668 . S2CID 2737117.
^ Томаш Йетка; Кароль Ниенальтовский; Томаш Винарски; Славомир Блонский; Михал Коморовски (2019), «Информационный анализ многомерных одноклеточных сигнальных ответов», PLOS Computational Biology , 15 (7): e1007132, arXiv : 1808.05581 , Bibcode : 2019PLSCB..15E7132J, doi : 10.1371/journal.pcbi. 1007132 , ПМК 6655862 , ПМИД 31299056
^ Красков, Александр; Стёгбауэр, Харальд; Анджейак, Ральф Г.; Грассбергер, Питер (2003). «Иерархическая кластеризация на основе взаимной информации». arXiv : q-bio/0311039 . Бибкод : 2003q.bio....11039K. {{cite journal}}: Требуется цитировать журнал |journal=( помощь )
^ Райски, К. (1961). «Метрическое пространство дискретных распределений вероятностей». Информация и контроль . 4 (4): 371–377. дои : 10.1016/S0019-9958(61)80055-7.
^ МакГилл, В. (1954). «Многовариантная передача информации». Психометрика . 19 (1): 97–116. дои : 10.1007/BF02289159. S2CID 126431489.
^ Аб Ху, КТ (1962). «Об объеме информации». Теория вероятностей. Приложение . 7 (4): 439–447. дои : 10.1137/1107041.
^ Аб Бодо, П.; Тапиа, М.; Беннекен, Д.; Гоайяр, JM (2019). «Анализ топологической информации». Энтропия . 21 (9). 869. arXiv : 1907.04242 . Бибкод : 2019Entrp..21..869B. дои : 10.3390/e21090869 . ПМЦ 7515398 . S2CID 195848308.
^ Бреннер, Н.; Стронг, С.; Коберле, Р.; Бялек, В. (2000). «Синергия в нейронном коде». Нейронный компьютер . 12 (7): 1531–1552. дои : 10.1162/089976600300015259. PMID 10935917. S2CID 600528.
^ Уоткинсон, Дж.; Лян, К.; Ван, X.; Чжэн, Т.; Анастасиу, Д. (2009). «Вывод о регуляторных взаимодействиях генов на основе данных экспрессии с использованием трехсторонней взаимной информации». Чэлл. Сист. Биол. Анна. Н-Й акад. Наука . 1158 (1): 302–313. Бибкод : 2009NYASA1158..302W. дои : 10.1111/j.1749-6632.2008.03757.x. PMID 19348651. S2CID 8846229.
^ аб Тапиа, М.; Бодо, П.; Формизано-Трезины, К.; Дюфур, М.; Гоайяр, JM (2018). «Идентичность нейротрансмиттера и электрофизиологический фенотип генетически связаны в дофаминергических нейронах среднего мозга». наук. Представитель . 8 (1): 13637. Бибкод : 2018NatSR...813637T. doi : 10.1038/s41598-018-31765-z. ПМК 6134142 . ПМИД 30206240.
^ Кристофер Д. Мэннинг; Прабхакар Рагхаван; Хинрих Шютце (2008). Введение в поиск информации . Издательство Кембриджского университета . ISBN 978-0-521-86571-5.
^ Хагигат, MBA; Агаголзаде, А.; Сейедараби, Х. (2011). «Неэталонный показатель объединения изображений, основанный на взаимной информации об особенностях изображения». Компьютеры и электротехника . 37 (5): 744–756. doi : 10.1016/j.compeleceng.2011.07.012. S2CID 7738541.
^ «Метрика взаимной информации о функциях (FMI) для слияния неэталонных изображений — обмен файлами — MATLAB Central» . www.mathworks.com . Проверено 4 апреля 2018 г.
^ «InfoTopo: Анализ данных топологической информации. Глубокое статистическое обучение без и с учителем — Обмен файлами — Github» . github.com/pierrebaudot/infotopopy/ . Проверено 26 сентября 2020 г.
^ Мэсси, Джеймс (1990). «Причинность, обратная связь и направленная информация». Учеб. 1990 Международный. Симп. на Инфо. Т.е. и его приложения, Вайкики, Гавайи, 27-30 ноября 1990 г. CiteSeerX 10.1.1.36.5688 .
^ Пермутер, Хаим Генри; Вайсман, Цахи; Голдсмит, Андреа Дж. (февраль 2009 г.). «Каналы конечных состояний с инвариантной во времени детерминированной обратной связью». Транзакции IEEE по теории информации . 55 (2): 644–662. arXiv : cs/0608070 . дои : 10.1109/TIT.2008.2009849. S2CID 13178.
^ Кумбс, Дауэс и Тверски 1970.
^ ab Press, WH; Теукольский, С.А.; Феттерлинг, WT; Фланнери, BP (2007). «Раздел 14.7.3. Условная энтропия и взаимная информация». Численные рецепты: искусство научных вычислений (3-е изд.). Нью-Йорк: Издательство Кембриджского университета. ISBN 978-0-521-88068-8. Архивировано из оригинала 11 августа 2011 г. Проверено 13 августа 2011 г.
^ Уайт, Джим; Стейнгольд, Сэм; Фурнель, Конни. Показатели производительности алгоритмов группового обнаружения (PDF) . Интерфейс 2004. Архивировано из оригинала (PDF) 5 июля 2016 г. Проверено 19 февраля 2014 г.
^ Виджая, Деди Рахман; Сарно, Рианарто; Зулайка, Энни (2017). «Коэффициент качества информации как новый показатель для выбора исходного вейвлета». Хемометрика и интеллектуальные лабораторные системы . 160 : 59–71. doi : 10.1016/j.chemolab.2016.11.012.
^ Стрел, Александр; Гош, Джойдип (2003). «Кластерные ансамбли — структура повторного использования знаний для объединения нескольких разделов» (PDF) . Журнал исследований машинного обучения . 3 : 583–617. дои : 10.1162/153244303321897735.
^ Кволсет, Т.О. (1991). «Относительная мера полезной информации: некоторые комментарии». Информационные науки . 56 (1): 35–38. дои : 10.1016/0020-0255(91)90022-м.
^ Покок, А. (2012). Выбор функций с помощью совместного правдоподобия (PDF) (Диссертация).
^ ab Анализ естественного языка с использованием статистики взаимной информации Дэвида М. Магермана и Митчелла П. Маркуса
^ Теория универсальной волновой функции Хью Эверетта , диссертация, Принстонский университет, (1956, 1973), стр. 1–140 (стр. 30)
^ Эверетт, Хью (1957). «Формулировка относительного состояния квантовой механики». Обзоры современной физики . 29 (3): 454–462. Бибкод : 1957RvMP...29..454E. doi : 10.1103/revmodphys.29.454. Архивировано из оригинала 27 октября 2011 г. Проверено 16 июля 2012 г.
^ Николетти, Джорджио; Бузиелло, Даниэль Мария (22 ноября 2021 г.). «Взаимная информация отделяет взаимодействие от меняющейся среды». Письма о физических отзывах . 127 (22): 228301. arXiv : 2107.08985 . Бибкод : 2021PhRvL.127v8301N. doi : 10.1103/PhysRevLett.127.228301. PMID 34889638. S2CID 236087228.
^ Николетти, Джорджио; Бузиелло, Даниэль Мария (29 июля 2022 г.). «Взаимная информация в изменяющейся среде: нелинейные взаимодействия, неравновесные системы и постоянно меняющаяся диффузия». Физический обзор E . 106 (1): 014153. arXiv : 2204.01644 . doi : 10.1103/PhysRevE.106.014153.
^ GlobalMIT в Google Code
^ Ли, Се Юн (2021). «Сэмплер Гиббса и вариационный вывод по координатному восхождению: теоретико-множественный обзор». Коммуникации в статистике - теория и методы . 51 (6): 1549–1568. arXiv : 2008.01006 . дои : 10.1080/03610926.2021.1921214. S2CID 220935477.
^ Киз, Дастин; Холиков, Шукур; Певцов, Алексей А. (февраль 2015 г.). «Применение методов взаимной информации в дистанционной гелиосейсмологии». Солнечная физика . 290 (3): 659–671. arXiv : 1501.05597 . Бибкод : 2015SoPh..290..659K. дои : 10.1007/s11207-015-0650-y. S2CID 118472242.
^ Инвариантная кластеризация информации для неконтролируемой классификации и сегментации изображений, авторы Сюй Цзи, Жоао Энрикес и Андреа Ведальди.

Взаимная информация

Определение

С точки зрения PMF для дискретных распределений

Что касается PDF-файлов для непрерывных дистрибутивов

Мотивация

Характеристики

Неотрицательность

Симметрия

Супермодульность при независимости

Связь с условной и совместной энтропией

Связь с расхождением Кульбака – Лейблера

Байесовская оценка взаимной информации

Предположения о независимости

Вариации

Метрика

Условная взаимная информация

Информация о взаимодействии

Многомерная статистическая независимость

Приложения

Направленная информация

Нормализованные варианты

Взвешенные варианты

Скорректированная взаимная информация

Абсолютная взаимная информация

Линейная корреляция

Для дискретных данных

Приложения

Смотрите также

Примечания

Рекомендации