Дифференциальная энтропия

Дифференциальная энтропия (также называемая непрерывной энтропией ) — это концепция теории информации , которая возникла как попытка Клода Шеннона распространить идею энтропии (Шеннона) — меры среднего (сюрприза) случайной величины — на непрерывные распределения вероятностей. . К сожалению, Шеннон не вывел эту формулу, а просто предположил, что это правильный непрерывный аналог дискретной энтропии, но это не так. ^[1]^{: 181–218} Фактической непрерывной версией дискретной энтропии является предельная плотность дискретных точек (LDDP). Дифференциальная энтропия (описанная здесь) часто встречается в литературе, но это предельный случай LDDP, который теряет свою фундаментальную связь с дискретной энтропией .

С точки зрения теории меры , дифференциальная энтропия вероятностной меры — это отрицательная относительная энтропия от этой меры до меры Лебега , причем последняя рассматривается так, как если бы она была вероятностной мерой, несмотря на то, что она ненормирована.

Определение

Позвольте быть случайной величиной с функцией плотности вероятности , носителем которой является множество . Дифференциальная энтропия или определяется как ^[2]^{: 243} $X$ $е$ ${\mathcal {X}}$ ${\ displaystyle h (X)}$ ${\ displaystyle h (f)}$

$h(X)=\operatorname {E} [-\log(f(X))]=-\int _ {\mathcal {X}}f(x)\log f(x)\,dx$

Для распределений вероятностей, которые не имеют явного выражения функции плотности, но имеют явное выражение функции квантиля , можно определить через производную, т.е. функции плотности квантиля, как ^[3]^{: 54–59} $Q(p)$ ${\ displaystyle h (Q)}$ $Q(p)$ $Q'(p)$

h(Q)=\int _{0}^{1}\log Q'(p)\,dp

Как и в случае с его дискретным аналогом, единицы дифференциальной энтропии зависят от основания логарифма , которое обычно равно 2 (т. е. единицами являются биты ). См. логарифмические единицы для логарифмов, взятых в разных основаниях. Связанные понятия, такие как совместная , условная дифференциальная энтропия и относительная энтропия , определяются аналогичным образом. В отличие от дискретного аналога, дифференциальная энтропия имеет смещение, которое зависит от единиц измерения . ^[4]^{: 183–184} Например, дифференциальная энтропия величины, измеренной в миллиметрах, будет на log(1000) больше, чем такая же величина, измеренная в метрах; безразмерная величина будет иметь дифференциальную энтропию log(1000) больше, чем такая же величина, деленная на 1000. $X$

Следует проявлять осторожность, пытаясь применить свойства дискретной энтропии к дифференциальной энтропии, поскольку функции плотности вероятности могут быть больше 1. Например, равномерное распределение имеет отрицательную дифференциальную энтропию; т. е. он лучше упорядочен, чем показан сейчас ${\mathcal {U}}(0,1/2)$ ${\mathcal {U}}(0,1)$

\int _{0}^{\frac {1}{2}}-2\log(2)\,dx=-\log(2)\,

быть меньше того, у которого дифференциальная энтропия равна нулю . Таким образом, дифференциальная энтропия не обладает всеми свойствами дискретной энтропии. ${\mathcal {U}}(0,1)$

Непрерывная взаимная информация отличается тем, что сохраняет свое фундаментальное значение как мера дискретной информации, поскольку на самом деле она является пределом дискретной взаимной информации разделов и по мере того, как эти разделы становятся все тоньше и тоньше. Таким образом, он инвариантен относительно нелинейных гомеоморфизмов (непрерывных и однозначно обратимых отображений), ^[5] включая линейные ^[6] преобразования и , и по-прежнему представляет собой количество дискретной информации, которая может быть передана по каналу, который допускает непрерывное пространство ценности. $I (X;Y)$ $X$ $Y$ $X$ $Y$

Чтобы узнать о прямом аналоге дискретной энтропии, расширенном на непрерывное пространство, см. предельную плотность дискретных точек .

Свойства дифференциальной энтропии

Для плотностей вероятности и расхождение Кульбака –Лейблера больше или равно 0 с равенством только в том случае, если почти всюду . Аналогично, для двух случайных величин и , и с равенством тогда и только тогда, когда и независимы . $е$ $г$ $D_{KL}(е||г)$ $f=g$ $X$ $Y$ $I(X;Y)\geq 0$ ${\ displaystyle h (X | Y) \ leq h (X)}$ $X$ $Y$
Цепное правило для дифференциальной энтропии справедливо, как и в дискретном случае ^[2]^{: 253}

h(X_{1},\ldots,X_{n})=\sum _{i=1}^{n}h(X_{i}|X_{1},\ldots,X_{i- 1})\leq \sum _{i=1}^{n}h(X_{i})

Дифференциальная энтропия является трансляционно-инвариантной, т.е. для константы . ^[2]^{: 253} $c$

h(X+c)=h(X)

Дифференциальная энтропия, вообще говоря, не инвариантна относительно произвольных обратимых отображений.

В частности, для постоянной

a

h(aX)=h(X)+\log |a|

Для векторной случайной величины и обратимой (квадратной) матрицы

\mathbf {X}

\mathbf {A}

h(\mathbf {A} \mathbf {X} )=h(\mathbf {X} )+\log \left(|\det \mathbf {A} |\right)

^[2]^{: 253}

В общем, для преобразования случайного вектора в другой случайный вектор той же размерности соответствующие энтропии связаны соотношением $\mathbf {Y} =m\left(\mathbf {X} \right)$

h(\mathbf {Y} )\leq h(\mathbf {X} )+\int f(x)\log \left\vert {\frac {\partial m}{\partial x}}\right\vert dx

где – якобиан преобразования . ^[7] Вышеупомянутое неравенство становится равенством, если преобразование является биекцией. Кроме того, когда происходит жесткое вращение, перемещение или их комбинация, определитель Якобиана всегда равен 1 и .

\left\vert {\frac {\partial m}{\partial x}}\right\vert

m

m

h(Y)=h(X)

Если случайный вектор имеет нулевое среднее значение и ковариационную матрицу с равенством тогда и только тогда, когда он является совместно гауссовским (см. ниже). ^[2]^{: 254} $X\in \mathbb {R} ^{n}$ $K$ $h(\mathbf {X} )\leq {\frac {1}{2}}\log(\det {2\pi eK})={\frac {1}{2}}\log[(2\pi e)^{n}\det {K}]$ $X$

Однако дифференциальная энтропия не обладает другими желательными свойствами:

Он не инвариантен при изменении переменных и поэтому наиболее полезен при работе с безразмерными переменными.
Оно может быть отрицательным.

Модификацией дифференциальной энтропии, устраняющей эти недостатки, является относительная информационная энтропия , также известная как дивергенция Кульбака – Лейблера, которая включает в себя инвариантный коэффициент измерения (см . предельную плотность дискретных точек ).

Максимизация в нормальном распределении

Теорема

При нормальном распределении дифференциальная энтропия максимизируется для заданной дисперсии. Гауссова случайная величина имеет наибольшую энтропию среди всех случайных величин с равной дисперсией или, альтернативно, максимальное распределение энтропии при ограничениях среднего значения и дисперсии является гауссовым. ^[2]^{: 255}

Доказательство

Пусть — гауссова PDF со средним значением µ и дисперсией и произвольная PDF с той же дисперсией. Поскольку дифференциальная энтропия является трансляционно-инвариантной, мы можем предположить, что она имеет то же среднее значение, что и . $g(x)$ $\sigma ^{2}$ $f(x)$ $f(x)$ $\mu$ $g(x)$

Рассмотрим расхождение Кульбака – Лейблера между двумя распределениями.

0\leq D_{KL}(f||g)=\int _{-\infty }^{\infty }f(x)\log \left({\frac {f(x)}{g(x)}}\right)dx=-h(f)-\int _{-\infty }^{\infty }f(x)\log(g(x))dx.

Теперь обратите внимание, что

{\begin{aligned}\int _{-\infty }^{\infty }f(x)\log(g(x))dx&=\int _{-\infty }^{\infty }f(x)\log \left({\frac {1}{\sqrt {2\pi \sigma ^{2}}}}e^{-{\frac {(x-\mu )^{2}}{2\sigma ^{2}}}}\right)dx\\&=\int _{-\infty }^{\infty }f(x)\log {\frac {1}{\sqrt {2\pi \sigma ^{2}}}}dx\,+\,\log(e)\int _{-\infty }^{\infty }f(x)\left(-{\frac {(x-\mu )^{2}}{2\sigma ^{2}}}\right)dx\\&=-{\tfrac {1}{2}}\log(2\pi \sigma ^{2})-\log(e){\frac {\sigma ^{2}}{2\sigma ^{2}}}\\&=-{\tfrac {1}{2}}\left(\log(2\pi \sigma ^{2})+\log(e)\right)\\&=-{\tfrac {1}{2}}\log(2\pi e\sigma ^{2})\\&=-h(g)\end{aligned}}

потому что результат не зависит ни от чего, кроме как от дисперсии. Объединение двух результатов дает $f(x)$

h(g)-h(f)\geq 0\!

с равенством, если следовать из свойств расходимости Кульбака–Лейблера. $f(x)=g(x)$

Альтернативное доказательство

Этот результат можно также продемонстрировать с помощью вариационного исчисления . Функция Лагранжа с двумя множителями Лагранжа может быть определена как:

L=\int _{-\infty }^{\infty }g(x)\ln(g(x))\,dx-\lambda _{0}\left(1-\int _{-\infty }^{\infty }g(x)\,dx\right)-\lambda \left(\sigma ^{2}-\int _{-\infty }^{\infty }g(x)(x-\mu )^{2}\,dx\right)

где g(x) — некоторая функция со средним µ. Когда энтропия g(x) максимальна и уравнения ограничений, которые состоят из условия нормализации и требования фиксированной дисперсии , выполняются, тогда небольшое изменение δ g ( x ) относительно g (x) приведет к изменение δ L относительно L , равное нулю: $\left(1=\int _{-\infty }^{\infty }g(x)\,dx\right)$ $\left(\sigma ^{2}=\int _{-\infty }^{\infty }g(x)(x-\mu )^{2}\,dx\right)$

0=\delta L=\int _{-\infty }^{\infty }\delta g(x)\left(\ln(g(x))+1+\lambda _{0}+\lambda (x-\mu )^{2}\right)\,dx

Поскольку это должно выполняться для любого малого δ g ( x ), член в скобках должен быть равен нулю, и решение для g(x) дает:

g(x)=e^{-\lambda _{0}-1-\lambda (x-\mu )^{2}}

Использование уравнений ограничений для решения λ ₀ и λ дает нормальное распределение:

g(x)={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}e^{-{\frac {(x-\mu )^{2}}{2\sigma ^{2}}}}

Пример: экспоненциальное распределение

Пусть – экспоненциально распределенная случайная величина с параметром , т. е. с функцией плотности вероятности $X$ $\lambda$

f(x)=\lambda e^{-\lambda x}{\mbox{ for }}x\geq 0.

Тогда его дифференциальная энтропия равна

Здесь использовался вместо того, чтобы явно указать, что логарифм был взят по основанию e , чтобы упростить расчет. $h_{e}(X)$ $h(X)$

Связь с ошибкой оценщика

Дифференциальная энтропия дает нижнюю границу ожидаемой квадратичной ошибки оценщика . Для любой случайной величины и оценки справедливо следующее: ^[2] $X$ ${\widehat {X}}$

\operatorname {E} [(X-{\widehat {X}})^{2}]\geq {\frac {1}{2\pi e}}e^{2h(X)}

с равенством тогда и только тогда, когда является гауссовой случайной величиной и является средним значением . $X$ ${\widehat {X}}$ $X$

Дифференциальная энтропия для различных распределений

В таблице ниже представлена гамма-функция , — дигамма-функция , — бета-функция , а γ _E — константа Эйлера . ^[8]^{: 219–230} $\Gamma (x)=\int _{0}^{\infty }e^{-t}t^{x-1}dt$ $\psi (x)={\frac {d}{dx}}\ln \Gamma (x)={\frac {\Gamma '(x)}{\Gamma (x)}}$ $B(p,q)={\frac {\Gamma (p)\Gamma (q)}{\Gamma (p+q)}}$

Многие из дифференциальных энтропий происходят от. ^[9]^{: 120–122}

Варианты

Как описано выше, дифференциальная энтропия не обладает всеми свойствами дискретной энтропии. Например, дифференциальная энтропия может быть отрицательной; также оно не инвариантно относительно непрерывных преобразований координат. Эдвин Томпсон Джейнс фактически показал, что приведенное выше выражение не является правильным пределом выражения для конечного набора вероятностей. ^[10]^{: 181–218.}

Модификация дифференциальной энтропии добавляет инвариантный измерительный коэффициент, чтобы исправить это (см. Предельную плотность дискретных точек ). Если дополнительно ограничиться плотностью вероятности, полученное понятие в теории информации называется относительной энтропией : $m(x)$

D(p||m)=\int p(x)\log {\frac {p(x)}{m(x)}}\,dx.

Приведенное выше определение дифференциальной энтропии можно получить путем разделения диапазона на интервалы длины с соответствующими точками выборки внутри интервалов для интегрируемого по Риману. Это дает квантованную версию , определяемую if . Тогда энтропия равна [ ^2] $X$ $h$ $ih$ $X$ $X$ $X_{h}=ih$ $ih\leq X\leq (i+1)h$ $X_{h}=ih$

H_{h}=-\sum _{i}hf(ih)\log(f(ih))-\sum hf(ih)\log(h).

Первый член справа аппроксимирует дифференциальную энтропию, а второй член примерно равен . Обратите внимание, что эта процедура предполагает, что энтропия в дискретном смысле непрерывной случайной величины должна быть равна . $-\log(h)$ $\infty$

Смотрите также

Внешние ссылки

«Дифференциальная энтропия», Математическая энциклопедия , EMS Press , 2001 [1994]
«Дифференциальная энтропия». ПланетаМатематика .