Количество информации

Вводящая в заблуждение ^[1] информационная диаграмма , показывающая аддитивные и субтрактивные отношения между основными количествами информации Шеннона для коррелированных переменных и . Площадь, заключенная между двумя кругами, — это совместная энтропия . Круг слева (красный и фиолетовый) — это индивидуальная энтропия , причем красный — это условная энтропия . Круг справа (синий и фиолетовый) — это , причем синий — это . Фиолетовый — это взаимная информация . $X$ $Y$ $\mathrm {H} (X,Y)$ $\mathrm {H} (X)$ $\mathrm {H} (X|Y)$ $\mathrm {H} (Y)$ $\mathrm {H} (Y|X)$ $\operatorname {I} (X;Y)$

Математическая теория информации основана на теории вероятностей и статистике и измеряет информацию несколькими количествами информации . Выбор логарифмического основания в следующих формулах определяет единицу используемой информационной энтропии. Наиболее распространенной единицей информации является бит , или , правильнее, шеннон , ^[2] на основе двоичного логарифма . Хотя «бит» чаще используется вместо «шеннона», его название не отличается от бита , используемого в обработке данных для обозначения двоичного значения или потока независимо от его энтропии (содержания информации). Другие единицы включают nat , основанный на натуральном логарифме , и hartley , основанный на основании 10 или десятичном логарифме .

В дальнейшем выражение вида по соглашению считается равным нулю, когда равно нулю. Это оправдано, поскольку для любого логарифмического основания. ^[3] $p\log p\,$ $p$ $\lim _{p\rightarrow 0+}p\log p=0$

Самоинформация

Шеннон вывел меру информационного содержания, называемую самоинформацией или « неожиданностью» сообщения : $м$

\operatorname {I} (м)=\log \left({\frac {1}{p(м)}}\right)=-\log(p(м))\,

где - вероятность того, что сообщение будет выбрано из всех возможных вариантов в пространстве сообщений . Основание логарифма влияет только на масштабный коэффициент и, следовательно, на единицы, в которых выражается измеряемое информационное содержание. Если логарифм имеет основание 2, мера информации выражается в единицах шеннонов или чаще просто «битах» ( бит в других контекстах скорее определяется как «двоичная цифра», чье среднее информационное содержание не превышает 1 шеннона). $p(m)=\mathrm {Pr} (M=m)$ $м$ $М$

Информация из источника поступает к получателю только в том случае, если получатель изначально не имел этой информации. Сообщения, которые передают информацию об определенном (P=1) событии (или о том, которое известно наверняка , например, через обратный канал), не предоставляют никакой информации, как показывает приведенное выше уравнение. Редко встречающиеся сообщения содержат больше информации, чем более часто встречающиеся сообщения.

Можно также показать, что составное сообщение из двух (или более) не связанных между собой сообщений будет иметь количество информации, которое является суммой мер информации каждого сообщения в отдельности. Это можно вывести с помощью этого определения, рассматривая составное сообщение, предоставляющее информацию относительно значений двух случайных величин M и N, используя сообщение, которое является конкатенацией элементарных сообщений m и n , каждое из которых информационное содержание задается как и соответственно. Если сообщения m и n зависят только от M и N, а процессы M и N независимы , то поскольку (определение статистической независимости), из приведенного выше определения ясно, что . $м\&н$ $\operatorname {I} (м)$ $\operatorname {I} (н)$ $P(м\&n)=P(м)P(н)$ $\operatorname {I} (м\&н)=\operatorname {I} (м)+\operatorname {I} (н)$

Пример: Прогноз погоды: "Прогноз на сегодня: темно. Продолжающаяся темнота до широко рассеянного света утром". Это сообщение не содержит почти никакой информации. Однако прогноз снежной бури, безусловно, будет содержать информацию, поскольку она случается не каждый вечер. Еще больше информации будет в точном прогнозе снега для теплого места, например, Майами . Количество информации в прогнозе снега для места, где никогда не идет снег (невозможное событие), является самым высоким (бесконечность).

Энтропия

Энтропия дискретного пространства сообщений является мерой степени неопределенности относительно того , какое сообщение будет выбрано. Она определяется как средняя самоинформация сообщения из этого пространства сообщений: $М$ $м$

\mathrm {H} (M)=\mathbb {E} \left[\operatorname {I} (M)\right]=\sum _{m\in M}p(m)\operatorname {I} (m)=-\sum _{m\in M}p(m)\log p(m)

где

\mathbb {E} [-]

обозначает операцию ожидаемого значения .

Важным свойством энтропии является то, что она максимизируется, когда все сообщения в пространстве сообщений равновероятны (например, ). В этом случае . $p(m)=1/|M|$ $\mathrm {H} (M)=\log |M|$

Иногда функцию выражают через вероятности распределения: $\mathrm {H}$

\mathrm {H} (p_{1},p_{2},\ldots ,p_{k})=-\sum _{i=1}^{k}p_{i}\log p_{i},

где каждый и

p_{i}\geq 0

\sum _{i=1}^{k}p_{i}=1

Важным частным случаем этого является бинарная функция энтропии :

\mathrm {H} _{\mbox{b}}(p)=\mathrm {H} (p,1-p)=-p\log p-(1-p)\log(1-p)\,

Совместная энтропия

Совместная энтропия двух дискретных случайных величин и определяется как энтропия совместного распределения и : $X$ $Y$ $X$ $Y$

\mathrm {H} (X,Y)=\mathbb {E} _{X,Y}\left[-\log p(x,y)\right]=-\sum _{x,y}p(x,y)\log p(x,y)\,

Если и независимы , то совместная энтропия представляет собой просто сумму их индивидуальных энтропий. $X$ $Y$

(Примечание: совместную энтропию не следует путать с перекрестной энтропией , несмотря на схожие обозначения.)

Условная энтропия (неопределенность)

При заданном значении случайной величины условная энтропия данной величины определяется как: $Y$ $X$ $Y=y$

\mathrm {H} (X|y)=\mathbb {E} _{\left[X|Y\right]}[-\log p(x|y)]=-\sum _{x\in X}p(x|y)\log p(x|y)

где — условная вероятность данного . $p(x|y)={\frac {p(x,y)}{p(y)}}$ $x$ $y$

Условная энтропия данного , также называемая неопределенностью около , тогда определяется по формуле : $X$ $Y$ $X$ $Y$

\mathrm {H} (X|Y)=\mathbb {E} _{Y}\left[\mathrm {H} \left(X|y\right)\right]=-\sum _{y\in Y}p(y)\sum _{x\in X}p(x|y)\log p(x|y)=\sum _{x,y}p(x,y)\log {\frac {p(y)}{p(x,y)}}.

Здесь используется условное ожидание из теории вероятностей.

Основное свойство условной энтропии заключается в том, что:

\mathrm {H} (X|Y)=\mathrm {H} (X,Y)-\mathrm {H} (Y).\,

Расхождение Кульбака–Лейблера (прирост информации)

Расхождение Кульбака –Лейблера (или информационное расхождение , прирост информации или относительная энтропия ) — это способ сравнения двух распределений, «истинного» распределения вероятностей и произвольного распределения вероятностей . Если мы сжимаем данные способом, который предполагает, что — это распределение, лежащее в основе некоторых данных, когда на самом деле — это правильное распределение, расхождение Кульбака–Лейблера — это количество средних дополнительных битов на данные, необходимых для сжатия, или, математически, $p$ $q$ $q$ $p$

D_{\mathrm {KL} }{\bigl (}p(X)\|q(X){\bigr )}=\sum _{x\in X}p(x)\log {\frac {p(x)}{q(x)}}.

В некотором смысле это «расстояние» от до , хотя это не истинная метрика, поскольку она не симметрична. $q$ $p$

Взаимная информация (трансинформация)

Оказывается, что одной из самых полезных и важных мер информации является взаимная информация , или трансинформация . Это мера того, сколько информации можно получить об одной случайной величине, наблюдая за другой. Взаимная информация относительно ( которая концептуально представляет собой среднее количество информации о том, что можно получить, наблюдая ) определяется по формуле: $X$ $Y$ $X$ $Y$

\operatorname {I} (X;Y)=\sum _{y\in Y}p(y)\sum _{x\in X}{p(x|y)\log {\frac {p(x|y)}{p(x)}}}=\sum _{x,y}p(x,y)\log {\frac {p(x,y)}{p(x)\,p(y)}}.

Основным свойством взаимной информации является то, что:

\operatorname {I} (X;Y)=\mathrm {H} (X)-\mathrm {H} (X|Y).\,

То есть, зная , мы можем сэкономить в среднем бит при кодировании по сравнению с незнанием . Взаимная информация симметрична : $Y$ $\operatorname {I} (X;Y)$ $X$ $Y$

\operatorname {I} (X;Y)=\operatorname {I} (Y;X)=\mathrm {H} (X)+\mathrm {H} (Y)-\mathrm {H} (X,Y).\,

Взаимная информация может быть выражена как среднее отклонение Кульбака–Лейблера (прирост информации) апостериорного распределения вероятностей при заданном значении к априорному распределению на : $X$ $Y$ $X$

\operatorname {I} (X;Y)=\mathbb {E} _{p(y)}\left[D_{\mathrm {KL} }{\bigl (}p(X|Y=y)\|p(X){\bigr )}\right].

Другими словами, это мера того, насколько в среднем изменится распределение вероятностей на , если нам дано значение . Это часто пересчитывается как отклонение от произведения маргинальных распределений к фактическому совместному распределению: $X$ $Y$

\operatorname {I} (X;Y)=D_{\mathrm {KL} }{\bigl (}p(X,Y)\|p(X)p(Y){\bigr )}.

Взаимная информация тесно связана с тестом логарифмического отношения правдоподобия в контексте таблиц сопряженности и полиномиального распределения , а также с тестом χ2 Пирсона : взаимную информацию можно рассматривать как статистику для оценки независимости между парой переменных, и она имеет четко определенное асимптотическое распределение.

Дифференциальная энтропия

Основные меры дискретной энтропии были расширены по аналогии на непрерывные пространства путем замены сумм интегралами, а функций массы вероятности — функциями плотности вероятности . Хотя в обоих случаях взаимная информация выражает количество бит информации, общих для двух рассматриваемых источников, аналогия не подразумевает идентичных свойств; например, дифференциальная энтропия может быть отрицательной.

Дифференциальные аналоги энтропии, совместной энтропии, условной энтропии и взаимной информации определяются следующим образом:

h(X)=-\int _{X}f(x)\log f(x)\,dx

h(X,Y)=-\int _{Y}\int _{X}f(x,y)\log f(x,y)\,dx\,dy

h(X|y)=-\int _{X}f(x|y)\log f(x|y)\,dx

h(X|Y)=\int _{Y}\int _{X}f(x,y)\log {\frac {f(y)}{f(x,y)}}\,dx\,dy

\operatorname {I} (X;Y)=\int _{Y}\int _{X}f(x,y)\log {\frac {f(x,y)}{f(x)f(y)}}\,dx\,dy

где — совместная функция плотности, — предельные распределения, — условное распределение. $f(x,y)$ $f(x)$ $f(y)$ $f(x|y)$

Смотрите также

Теория информации

Ссылки

^ DJC Mackay (2003). Теория информации, выводы и алгоритмы обучения . Bibcode :2003itil.book.....M.^{: 141}
^ Стэм, А. Дж. (1959). «Некоторые неравенства, которым удовлетворяют количества информации Фишера и Шеннона». Информация и управление . 2 (2): 101–112. doi :10.1016/S0019-9958(59)90348-1.
^ "Три подхода к определению понятия "количество информации"" (PDF) .