Дифференциальная энтропия

Дифференциальная энтропия (также называемая непрерывной энтропией ) — это концепция в теории информации , которая началась как попытка Клода Шеннона распространить идею (шенноновской) энтропии (меры средней неожиданности) случайной величины на непрерывные распределения вероятностей. К сожалению, Шеннон не вывел эту формулу, а скорее просто предположил, что это правильный непрерывный аналог дискретной энтропии, но это не так. ^[1]^{: 181–218} Фактическая непрерывная версия дискретной энтропии — это предельная плотность дискретных точек (LDDP). Дифференциальная энтропия (описанная здесь) часто встречается в литературе, но это предельный случай LDDP, и тот, который теряет свою фундаментальную связь с дискретной энтропией .

В терминах теории меры дифференциальная энтропия вероятностной меры — это отрицательная относительная энтропия от этой меры к мере Лебега , где последняя рассматривается так, как если бы она была вероятностной мерой, несмотря на то, что она ненормализована.

Определение

Пусть будет случайной величиной с функцией плотности вероятности , носителем которой является множество . Дифференциальная энтропия или определяется как ^[2]^{: 243} $X$ $f$ ${\mathcal {X}}$ $h(X)$ $h(f)$

$h(X)=\operatorname {E} [-\log(f(X))]=-\int _{\mathcal {X}}f(x)\log f(x)\,dx$

Для распределений вероятностей, которые не имеют явного выражения функции плотности, но имеют явное выражение функции квантиля , тогда можно определить в терминах производной, т.е. функции плотности квантиля , как ^[3]^{: 54–59} $Q(p)$ $h(Q)$ $Q(p)$ $Q'(p)$

h(Q)=\int _{0}^{1}\log Q'(p)\,dp

Как и в случае с дискретным аналогом, единицы дифференциальной энтропии зависят от основания логарифма , которое обычно равно 2 (т. е. единицами являются биты ). См. логарифмические единицы для логарифмов, взятых в разных основаниях. Связанные понятия, такие как совместная , условная дифференциальная энтропия и относительная энтропия , определяются аналогичным образом. В отличие от дискретного аналога, дифференциальная энтропия имеет смещение, которое зависит от единиц, используемых для измерения . ^[4]^{: 183–184} Например, дифференциальная энтропия величины, измеренной в миллиметрах, будет на log(1000) больше, чем та же величина, измеренная в метрах; безразмерная величина будет иметь дифференциальную энтропию на log(1000) больше, чем та же величина, деленная на 1000. $X$

Необходимо проявлять осторожность при попытке применить свойства дискретной энтропии к дифференциальной энтропии, поскольку функции плотности вероятности могут быть больше 1. Например, равномерное распределение имеет отрицательную дифференциальную энтропию; т.е. оно лучше упорядочено, чем показано сейчас. ${\mathcal {U}}(0,1/2)$ ${\mathcal {U}}(0,1)$

\int _{0}^{\frac {1}{2}}-2\log(2)\,dx=-\log(2)\,

будучи меньше, чем тот, у которого нулевая дифференциальная энтропия. Таким образом, дифференциальная энтропия не разделяет все свойства дискретной энтропии. ${\mathcal {U}}(0,1)$

Непрерывная взаимная информация отличается тем , что сохраняет свое фундаментальное значение как мера дискретной информации, поскольку она фактически является пределом дискретной взаимной информации разделов и по мере того, как эти разделы становятся все тоньше и тоньше. Таким образом, она инвариантна относительно нелинейных гомеоморфизмов (непрерывных и однозначно обратимых отображений), ^[5] включая линейные ^[6] преобразования и , и по-прежнему представляет собой объем дискретной информации, который может быть передан по каналу, допускающему непрерывное пространство значений. $I(X;Y)$ $X$ $Y$ $X$ $Y$

Для прямого аналога дискретной энтропии, распространенной на непрерывное пространство, см. предельную плотность дискретных точек .

Свойства дифференциальной энтропии

Для плотностей вероятности и расхождение Кульбака –Лейблера больше или равно 0 с равенством только если почти всюду . Аналогично для двух случайных величин и , и с равенством тогда и только тогда, когда и независимы . $f$ $г$ $D_{KL}(f\параллельно g)$ $f=g$ $X$ $Y$ $I(X;Y)\geq 0$ $h(X\mid Y)\leq h(X)$ $X$ $Y$
Правило цепочки для дифференциальной энтропии выполняется так же, как и в дискретном случае ^[2]^{: 253}

h(X_{1},\ldots ,X_{n})=\sum _{i=1}^{n}h(X_{i}\mid X_{1},\ldots ,X_{i-1})\leq \sum _{i=1}^{n}h(X_{i})

Дифференциальная энтропия инвариантна относительно трансляции, т.е. для константы . ^[2]^{: 253} $c$

h(X+c)=h(X)

Дифференциальная энтропия в общем случае не инвариантна относительно произвольных обратимых отображений.

В частности, для постоянного

a

h(aX)=h(X)+\log |a|

Для векторной случайной величины и обратимой (квадратной) матрицы

\mathbf {X}

\mathbf {A}

h(\mathbf {A} \mathbf {X} )=h(\mathbf {X} )+\log \left(|\det \mathbf {A} |\right)

^[2]^{: 253}

В общем случае, для преобразования случайного вектора в другой случайный вектор той же размерности соответствующие энтропии связаны соотношением $\mathbf {Y} =m\left(\mathbf {X} \right)$

h(\mathbf {Y} )\leq h(\mathbf {X} )+\int f(x)\log \left\vert {\frac {\partial m}{\partial x}}\right\vert \,dx

где — якобиан преобразования . ^[7] Вышеуказанное неравенство становится равенством, если преобразование является биекцией. Кроме того, когда — жесткое вращение, перенос или их комбинация, определитель якобиана всегда равен 1, и .

\left\vert {\frac {\partial m}{\partial x}}\right\vert

m

m

h(Y)=h(X)

Если случайный вектор имеет нулевое среднее значение и ковариационную матрицу , причем равенство имеет место тогда и только тогда, когда он является совместно гауссовым (см. ниже). ^[2]^{: 254} $X\in \mathbb {R} ^{n}$ $K$ $h(\mathbf {X} )\leq {\frac {1}{2}}\log(\det {2\pi eK})={\frac {1}{2}}\log[(2\pi e)^{n}\det {K}]$ $X$

Однако дифференциальная энтропия не обладает другими желательными свойствами:

Он не инвариантен относительно замены переменных и поэтому наиболее полезен для безразмерных переменных.
Может быть и отрицательным.

Модификацией дифференциальной энтропии, которая устраняет эти недостатки, является относительная информационная энтропия , также известная как расхождение Кульбака–Лейблера, которая включает в себя инвариантный фактор меры (см. предельную плотность дискретных точек ).

Максимизация в нормальном распределении

Теорема

При нормальном распределении дифференциальная энтропия максимизируется для заданной дисперсии. Гауссовская случайная величина имеет наибольшую энтропию среди всех случайных величин с одинаковой дисперсией, или, альтернативно, распределение максимальной энтропии при ограничениях среднего и дисперсии является гауссовским. ^[2]^{: 255}

Доказательство

Пусть будет гауссовской PDF со средним μ и дисперсией и произвольной PDF с той же дисперсией. Поскольку дифференциальная энтропия инвариантна относительно трансляции, мы можем предположить, что имеет то же среднее, что и . $g(x)$ $\sigma ^{2}$ $f(x)$ $f(x)$ $\mu$ $g(x)$

Рассмотрим расхождение Кульбака–Лейблера между двумя распределениями

0\leq D_{KL}(f\parallel g)=\int _{-\infty }^{\infty }f(x)\log \left({\frac {f(x)}{g(x)}}\right)\,dx=-h(f)-\int _{-\infty }^{\infty }f(x)\log(g(x))\,dx.

Теперь обратите внимание, что

{\begin{aligned}\int _{-\infty }^{\infty }f(x)\log(g(x))\,dx&=\int _{-\infty }^{\infty }f(x)\log \left({\frac {1}{\sqrt {2\pi \sigma ^{2}}}}e^{-{\frac {(x-\mu )^{2}}{2\sigma ^{2}}}}\right)\,dx\\&=\int _{-\infty }^{\infty }f(x)\log {\frac {1}{\sqrt {2\pi \sigma ^{2}}}}dx\,+\,\log(e)\int _{-\infty }^{\infty }f(x)\left(-{\frac {(x-\mu )^{2}}{2\sigma ^{2}}}\right)\,dx\\&=-{\tfrac {1}{2}}\log(2\pi \sigma ^{2})-\log(e){\frac {\sigma ^{2}}{2\sigma ^{2}}}\\&=-{\tfrac {1}{2}}\left(\log(2\pi \sigma ^{2})+\log(e)\right)\\&=-{\tfrac {1}{2}}\log(2\pi e\sigma ^{2})\\&=-h(g)\end{aligned}}

потому что результат не зависит ни от чего, кроме как через дисперсию. Объединение двух результатов дает $f(x)$

h(g)-h(f)\geq 0\!

с равенством, вытекающим из свойств дивергенции Кульбака–Лейблера. $f(x)=g(x)$

Альтернативное доказательство

Этот результат можно также продемонстрировать с помощью вариационного исчисления . Функция Лагранжа с двумя множителями Лагранжа может быть определена как:

L=\int _{-\infty }^{\infty }g(x)\ln(g(x))\,dx-\lambda _{0}\left(1-\int _{-\infty }^{\infty }g(x)\,dx\right)-\lambda \left(\sigma ^{2}-\int _{-\infty }^{\infty }g(x)(x-\mu )^{2}\,dx\right)

где g(x) — некоторая функция со средним значением μ. Когда энтропия g(x) максимальна и уравнения ограничений, которые состоят из условия нормализации и требования фиксированной дисперсии , оба удовлетворены, то небольшое изменение δg ( x ) относительно g ( x ) приведет к изменению δL относительно L , которое равно нулю: $\left(1=\int _{-\infty }^{\infty }g(x)\,dx\right)$ $\left(\sigma ^{2}=\int _{-\infty }^{\infty }g(x)(x-\mu )^{2}\,dx\right)$

0=\delta L=\int _{-\infty }^{\infty }\delta g(x)\left(\ln(g(x))+1+\lambda _{0}+\lambda (x-\mu )^{2}\right)\,dx

Поскольку это должно выполняться для любого малого δ g ( x ), член в скобках должен быть равен нулю, и решение для g(x) дает:

g(x)=e^{-\lambda _{0}-1-\lambda (x-\mu )^{2}}

Используя уравнения ограничений для решения относительно λ ₀ и λ, получаем нормальное распределение:

g(x)={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}e^{-{\frac {(x-\mu )^{2}}{2\sigma ^{2}}}}

Пример: экспоненциальное распределение

Пусть будет экспоненциально распределенной случайной величиной с параметром , то есть с функцией плотности вероятности $X$ $\lambda$

f(x)=\lambda e^{-\lambda x}{\mbox{ for }}x\geq 0.

Тогда его дифференциальная энтропия равна

Здесь вместо того , чтобы явно указать, что логарифм взят по основанию e , использовалось для упрощения вычислений. $h_{e}(X)$ $h(X)$

Отношение к ошибке оценки

Дифференциальная энтропия дает нижнюю границу ожидаемой квадратичной ошибки оценщика . Для любой случайной величины и оценщика справедливо следующее: ^[2] $X$ ${\widehat {X}}$

\operatorname {E} [(X-{\widehat {X}})^{2}]\geq {\frac {1}{2\pi e}}e^{2h(X)}

с равенством тогда и только тогда, когда — гауссовская случайная величина и — среднее значение . $X$ ${\widehat {X}}$ $X$

Дифференциальные энтропии для различных распределений

В таблице ниже — гамма-функция , — дигамма-функция , — бета-функция , а γ _E — постоянная Эйлера . ^[8]^{: 219–230} $\Gamma (x)=\int _{0}^{\infty }e^{-t}t^{x-1}dt$ $\psi (x)={\frac {d}{dx}}\ln \Gamma (x)={\frac {\Gamma '(x)}{\Gamma (x)}}$ $B(p,q)={\frac {\Gamma (p)\Gamma (q)}{\Gamma (p+q)}}$

Многие дифференциальные энтропии взяты из ^[9]^{: 120–122}

Варианты

Как описано выше, дифференциальная энтропия не разделяет все свойства дискретной энтропии. Например, дифференциальная энтропия может быть отрицательной; также она не инвариантна относительно непрерывных преобразований координат. Эдвин Томпсон Джейнс показал, что выражение выше не является правильным пределом выражения для конечного набора вероятностей. ^[10]^{: 181–218}

Модификация дифференциальной энтропии добавляет инвариантный фактор меры для исправления этого (см. предельную плотность дискретных точек ). Если дополнительно ограничивается плотностью вероятности, то полученное понятие называется относительной энтропией в теории информации: $m(x)$

D(p\parallel m)=\int p(x)\log {\frac {p(x)}{m(x)}}\,dx.

Определение дифференциальной энтропии выше может быть получено путем разбиения диапазона на ячейки длины с соответствующими точками выборки внутри ячеек, для интегрируемой по Риману. Это дает квантованную версию , определяемую как , если . Тогда энтропия равна ^[2] $X$ $h$ $ih$ $X$ $X$ $X_{h}=ih$ $ih\leq X\leq (i+1)h$ $X_{h}=ih$

H_{h}=-\sum _{i}hf(ih)\log(f(ih))-\sum hf(ih)\log(h).

Первый член справа аппроксимирует дифференциальную энтропию, тогда как второй член приблизительно равен . Обратите внимание, что эта процедура предполагает, что энтропия в дискретном смысле непрерывной случайной величины должна быть . $-\log(h)$ $\infty$

Смотрите также

Ссылки

^ Джейнс, ET (1963). "Теория информации и статистическая механика" (PDF) . Лекции Летнего института по теоретической физике Университета Брандейса . 3 (раздел 4b).
^ abcdefgh Cover, Thomas M.; Thomas, Joy A. (1991). Элементы теории информации . Нью-Йорк: Wiley. ISBN 0-471-06259-6.
^ Васичек, Олдрич (1976), «Тест на нормальность на основе выборочной энтропии», Журнал Королевского статистического общества, Серия B , 38 (1): 54–59, doi :10.1111/j.2517-6161.1976.tb01566.x, JSTOR 2984828.
^ Гиббс, Джозайя Уиллард (1902). Элементарные принципы статистической механики, разработанные с особым упором на рациональные основы термодинамики . Нью-Йорк: Charles Scribner's Sons.
^ Красков, Александр; Штёгбауэр, Грассбергер (2004). «Оценка взаимной информации». Physical Review E. 60 ( 6): 066138. arXiv : cond-mat/0305641 . Bibcode : 2004PhRvE..69f6138K. doi : 10.1103/PhysRevE.69.066138. PMID 15244698. S2CID 1269438.
^ Фазлолла М. Реза (1994) [1961]. Введение в теорию информации. Dover Publications, Inc., Нью-Йорк. ISBN 0-486-68210-2.
^ "доказательство верхней границы дифференциальной энтропии f(X)". Stack Exchange . 16 апреля 2016 г.
^ Park, Sung Y.; Bera, Anil K. (2009). "Модель условной гетероскедастичности с максимальной энтропией авторегрессии" (PDF) . Journal of Econometrics . 150 (2). Elsevier: 219–230. doi :10.1016/j.jeconom.2008.12.014. Архивировано из оригинала (PDF) 2016-03-07 . Получено 2011-06-02 .
^ Лазо, А. и П. Рати (1978). «Об энтропии непрерывных распределений вероятностей». Труды IEEE по теории информации . 24 (1): 120–122. doi :10.1109/TIT.1978.1055832.
^ Джейнс, ET (1963). "Теория информации и статистическая механика" (PDF) . Лекции Летнего института по теоретической физике Университета Брандейса . 3 (раздел 4b).

Внешние ссылки

«Дифференциальная энтропия», Энциклопедия математики , EMS Press , 2001 [1994]
«Дифференциальная энтропия». PlanetMath .