Условная энтропия

Диаграмма Венна, показывающая аддитивные и субтрактивные отношения различных мер информации , связанных с коррелированными переменными и . Площадь, охватываемая обоими кругами, представляет собой совместную энтропию . Круг слева (красный и фиолетовый) представляет собой индивидуальную энтропию , причем красный является условной энтропией . Круг справа (синий и фиолетовый) представляет собой , причем синий является . Фиолетовый является взаимной информацией . $X$ $Y$ $\mathrm {H} (X,Y)$ $\mathrm {H} (X)$ $\mathrm {H} (X|Y)$ $\mathrm {H} (Y)$ $\mathrm {H} (Y|X)$ $\operatorname {I} (X;Y)$

В теории информации условная энтропия количественно определяет объем информации, необходимой для описания результата случайной величины при условии, что значение другой случайной величины известно. Здесь информация измеряется в шеннонах , натах или хартли . Энтропия обусловленной записывается как . $Y$ $X$ $Y$ $X$ $\mathrm {H} (Y|X)$

Определение

Условная энтропия задана определяется как $Y$ $X$

где и обозначают опорные множества и . ${\mathcal {X}}$ ${\mathcal {Y}}$ $X$ $Y$

Примечание: Здесь принято, что выражение следует считать равным нулю. Это потому , что . ^[1] $0\log 0$ $\lim _{\theta \to 0^{+}}\theta \,\log \theta =0$

Интуитивно, обратите внимание, что по определению ожидаемого значения и условной вероятности , можно записать как , где определяется как . Можно представить себе как связывание каждой пары с величиной, измеряющей информационное содержание данного . Эта величина напрямую связана с количеством информации, необходимой для описания данного события . Следовательно, вычисляя ожидаемое значение по всем парам значений , условная энтропия измеряет, сколько информации, в среднем, переменная кодирует о . $\displaystyle H(Y|X)$ $H(Y|X)=\mathbb {E} [f(X,Y)]$ $f$ $\displaystyle f(x,y):=-\log \left({\frac {p(x,y)}{p(x)}}\right)=-\log(p(y|x))$ $\displaystyle е$ $\displaystyle (x,y)$ $\displaystyle (Y=y)$ $\displaystyle (X=x)$ $\displaystyle (Y=y)$ $(X=x)$ $\displaystyle е$ $(x,y)\in {\mathcal {X}}\times {\mathcal {Y}}$ $\displaystyle H(Y|X)$ $X$ $Y$

Мотивация

Пусть будет энтропией дискретной случайной величины, обусловленной тем, что дискретная случайная величина принимает определенное значение . Обозначим опорные множества и через и . Пусть имеет функцию массы вероятности . Безусловная энтропия вычисляется как , т.е. $\mathrm {H} (Y|X=x)$ $Y$ $X$ $x$ $X$ $Y$ ${\mathcal {X}}$ ${\mathcal {Y}}$ $Y$ $p_{Y}{(y)}$ $Y$ $\mathrm {H} (Y):=\mathbb {E} [\operatorname {I} (Y)]$

\mathrm {H} (Y)=\sum _{y\in {\mathcal {Y}}}{\mathrm {Pr} (Y=y)\,\mathrm {I} (y)}= -\sum _{y\in {\mathcal {Y}}}{p_{Y}(y)\log _{2}{p_{Y}(y)}},

где - информационное содержание результата принятия значения . Энтропия обусловленного принятия значения определяется аналогично условным ожиданием : $\operatorname {I} (y_{i})$ $Y$ $y_{i}$ $Y$ $X$ $x$

\mathrm {H} (Y|X=x)=-\sum _{y\in {\mathcal {Y}}}{\Pr(Y=y|X=x)\log _{2} {\Pr(Y=y|X=x)}}.

Обратите внимание, что это результат усреднения по всем возможным значениям, которые могут быть. Кроме того, если указанная выше сумма берется по выборке , ожидаемое значение известно в некоторых областях как $\mathrm {H} (Y|X)$ $\mathrm {H} (Y|X=x)$ $x$ $X$ $y_{1},\dots,y_{n}$ $E_{X}[\mathrm {H} (y_{1},\dots,y_{n}\mid X=x)]$ двусмысленность .^[2]

При наличии дискретных случайных величин с изображением и с изображением условная энтропия заданной определяется как взвешенная сумма для каждого возможного значения , используя в качестве весов: ^[3]^{: 15} $X$ ${\mathcal {X}}$ $Y$ ${\mathcal {Y}}$ $Y$ $X$ $\mathrm {H} (Y|X=x)$ $x$ $p(x)$

{\begin{aligned}\mathrm {H} (Y|X)\ &\equiv \sum _ {x\in {\mathcal {X}}}\,p(x)\,\mathrm {H } (Y|X=x)\\&=-\sum _{x\in {\mathcal {X}}}p(x)\sum _{y\in {\mathcal {Y}}}\,p (y|x)\,\log _{2}\,p(y|x)\\&=-\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y} }}\,p(x)p(y|x)\,\log _{2}\,p(y|x)\\&=-\sum _{x\in {\mathcal {X}}, y\in {\mathcal {Y}}}p(x,y)\log _{2}{\frac {p(x,y)}{p(x)}}.\end{выровнено}}

Характеристики

Условная энтропия равна нулю

$\mathrm {H} (Y|X)=0$ тогда и только тогда, когда значение полностью определяется значением . $Y$ $X$

Условная энтропия независимых случайных величин

Наоборот, тогда и только тогда, когда и являются независимыми случайными величинами . $\mathrm {H} (Y|X)=\mathrm {H} (Y)$ $Y$ $X$

Правило цепочки

Предположим, что объединенная система определяется двумя случайными величинами и имеет совместную энтропию , то есть нам нужно бит информации в среднем для описания ее точного состояния. Теперь, если мы сначала узнаем значение , мы получим бит информации. Как только будет известно , нам понадобятся только биты для описания состояния всей системы. Эта величина равна в точности , что дает цепное правило условной энтропии: $X$ $Y$ $\mathrm {H} (X,Y)$ $\mathrm {H} (X,Y)$ $X$ $\mathrm {H} (X)$ $X$ $\mathrm {H} (X,Y)-\mathrm {H} (X)$ $\mathrm {H} (Y|X)$

\mathrm {H} (Y|X)\,=\,\mathrm {H} (X,Y)-\mathrm {H} (X).

^[3]^{: 17}

Правило цепочки следует из приведенного выше определения условной энтропии:

{\begin{aligned}\mathrm {H} (Y|X)&=\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}p(x,y)\log \left({\frac {p(x)}{p(x,y)}}\right)\\[4pt]&=\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}p(x,y)(\log(p(x))-\log(p(x,y)))\\[4pt]&=-\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}p(x,y)\log(p(x,y))+\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}{p(x,y)\log(p(x))}\\[4pt]&=\mathrm {H} (X,Y)+\sum _{x\in {\mathcal {X}}}p(x)\log(p(x))\\[4pt]&=\mathrm {H} (X,Y)-\mathrm {H} (X).\end{aligned}}

В общем случае справедливо цепное правило для нескольких случайных величин:

\mathrm {H} (X_{1},X_{2},\ldots ,X_{n})=\sum _{i=1}^{n}\mathrm {H} (X_{i}|X_{1},\ldots ,X_{i-1})

^[3]^{: 22}

По форме оно похоже на цепное правило в теории вероятностей, за исключением того, что вместо умножения используется сложение.

Правило Байеса

Правило Байеса для состояний условной энтропии

\mathrm {H} (Y|X)\,=\,\mathrm {H} (X|Y)-\mathrm {H} (X)+\mathrm {H} (Y).

Доказательство. и . Симметрия влечет . Вычитание двух уравнений подразумевает правило Байеса. $\mathrm {H} (Y|X)=\mathrm {H} (X,Y)-\mathrm {H} (X)$ $\mathrm {H} (X|Y)=\mathrm {H} (Y,X)-\mathrm {H} (Y)$ $\mathrm {H} (X,Y)=\mathrm {H} (Y,X)$

Если условно независим от заданного, то имеем: $Y$ $Z$ $X$

\mathrm {H} (Y|X,Z)\,=\,\mathrm {H} (Y|X).

Другие свойства

Для любого и : $X$ $Y$

{\begin{aligned}\mathrm {H} (Y|X)&\leq \mathrm {H} (Y)\,\\\mathrm {H} (X,Y)&=\mathrm {H} (X|Y)+\mathrm {H} (Y|X)+\operatorname {I} (X;Y),\qquad \\\mathrm {H} (X,Y)&=\mathrm {H} (X)+\mathrm {H} (Y)-\operatorname {I} (X;Y),\,\\\operatorname {I} (X;Y)&\leq \mathrm {H} (X),\,\end{aligned}}

где взаимная информация между и . $\operatorname {I} (X;Y)$ $X$ $Y$

Для независимых и : $X$ $Y$

\mathrm {H} (Y|X)=\mathrm {H} (Y)

\mathrm {H} (X|Y)=\mathrm {H} (X)\,

Хотя удельная условная энтропия может быть как меньше, так и больше для заданной случайной величины , она никогда не может превышать . $\mathrm {H} (X|Y=y)$ $\mathrm {H} (X)$ $y$ $Y$ $\mathrm {H} (X|Y)$ $\mathrm {H} (X)$

Условная дифференциальная энтропия

Определение

Вышеприведенное определение относится к дискретным случайным величинам. Непрерывная версия дискретной условной энтропии называется условной дифференциальной (или непрерывной) энтропией . Пусть и будут непрерывными случайными величинами с совместной функцией плотности вероятности . Дифференциальная условная энтропия определяется как ^[3]^{: 249} $X$ $Y$ $f(x,y)$ $h(X|Y)$

Характеристики

В отличие от условной энтропии для дискретных случайных величин, условная дифференциальная энтропия может быть отрицательной.

Как и в дискретном случае, для дифференциальной энтропии существует цепное правило:

h(Y|X)\,=\,h(X,Y)-h(X)

^[3]^{: 253}

Однако следует отметить, что это правило может быть неверным, если соответствующие дифференциальные энтропии не существуют или бесконечны.

Совместная дифференциальная энтропия также используется при определении взаимной информации между непрерывными случайными величинами:

\operatorname {I} (X,Y)=h(X)-h(X|Y)=h(Y)-h(Y|X)

$h(X|Y)\leq h(X)$ с равенством тогда и только тогда , когда и независимы. ^[3]^{: 253} $X$ $Y$

Отношение к ошибке оценки

Условная дифференциальная энтропия дает нижнюю границу ожидаемой квадратичной ошибки оценщика . Для любой случайной величины , наблюдения и оценщика справедливо следующее: ^[3]^{: 255} $X$ $Y$ ${\widehat {X}}$

\mathbb {E} \left[{\bigl (}X-{\widehat {X}}{(Y)}{\bigr )}^{2}\right]\geq {\frac {1}{2\pi e}}e^{2h(X|Y)}

Это связано с принципом неопределенности квантовой механики .

Обобщение на квантовую теорию

В квантовой теории информации условная энтропия обобщается до условной квантовой энтропии . Последняя может принимать отрицательные значения, в отличие от своего классического аналога.

Смотрите также

Ссылки

^ "Дэвид Маккей: Теория информации, распознавание образов и нейронные сети: Книга". www.inference.org.uk . Получено 25.10.2019 .
^ Хеллман, М.; Равив, Дж. (1970). «Вероятность ошибки, неопределенность и граница Чернова». Труды IEEE по теории информации . 16 (4): 368–372. CiteSeerX 10.1.1.131.2865 . doi :10.1109/TIT.1970.1054466.
^ abcdefg T. Cover ; J. Thomas (1991). Элементы теории информации . Wiley. ISBN 0-471-06259-6.