Энтропия (теория информации)

В теории информации энтропия случайной величины — это средний уровень «информации», «неожиданности» или «неопределенности», присущий возможным результатам переменной. Учитывая дискретную случайную величину , которая принимает значения в алфавите и распределяется согласно , энтропия равна $X$ ${\mathcal {X}}$ $p\colon {\mathcal {X}}\to [0,1]$

\mathrm {H} (X):=-\sum _{x\in {\mathcal {X}}}p(x)\log p(x),

логарифма битов шеннонenatхартли ожидаемое значение информации^[1]

\Sigma

\log

Понятие информационной энтропии было введено Клодом Шенноном в его статье 1948 года « Математическая теория коммуникации » ^[2]^[3] и также называется энтропией Шеннона . Теория Шеннона определяет систему передачи данных , состоящую из трех элементов: источника данных, канала связи и приемника. «Фундаментальная проблема коммуникации», как выразился Шеннон, заключается в том, чтобы приемник мог определить, какие данные были сгенерированы источником, на основе сигнала, который он получает по каналу. ^[2]^[3] Шеннон рассмотрел различные способы кодирования, сжатия и передачи сообщений из источника данных и в своей знаменитой теореме кодирования источника доказал , что энтропия представляет собой абсолютный математический предел того, насколько хорошо данные из источника могут быть сжаты без потерь . на совершенно бесшумный канал. Шеннон значительно усилил этот результат для шумных каналов в своей теореме о кодировании шумных каналов .

Энтропия в теории информации прямо аналогична энтропии в статистической термодинамике . Аналогия возникает, когда значения случайной величины обозначают энергии микросостояний, поэтому формула Гиббса для энтропии формально идентична формуле Шеннона. Энтропия имеет отношение к другим областям математики, таким как комбинаторика и машинное обучение . Это определение можно вывести из набора аксиом, устанавливающих, что энтропия должна быть мерой того, насколько информативен средний результат переменной. Для непрерывной случайной величины дифференциальная энтропия аналогична энтропии. Определение обобщает вышеизложенное. $\mathbb {E} [-\log p(X)]$

Введение

Основная идея теории информации заключается в том, что «информационная ценность» передаваемого сообщения зависит от степени неожиданности содержания сообщения. Если происходит весьма вероятное событие, сообщение несет очень мало информации. С другой стороны, если происходит маловероятное событие, сообщение будет гораздо более информативным. Например, знание того, что какое-то конкретное число не будет выигрышным в лотерее, дает очень мало информации, поскольку любое конкретное выбранное число почти наверняка не выиграет. Однако знание о том, что определенное число выиграет в лотерею, имеет высокую информационную ценность, поскольку сообщает о результате события с очень низкой вероятностью.

Информационное содержание события , также называемое неожиданностью или самоинформацией, представляет собой функцию, которая увеличивается по мере уменьшения вероятности события. Когда значение близко к 1, неожиданность события низкая, но если оно близко к 0, неожиданность события высока. Эта связь описывается функцией $E$ $p(E)$ $p(E)$ $p(E)$

\log \left({\frac {1}{p(E)}}\right),

логарифм^[4]

log

§ Характеристика

\log

Следовательно, мы можем определить информацию или неожиданность события как $E$

I(E)=-\log _{2}(p(E)),

I(E)=\log _{2}\left({\frac {1}{p(E)}}\right).

Энтропия измеряет ожидаемое (т. е. среднее) количество информации, передаваемой путем определения результата случайного испытания. ^[5]^{: 67} Это означает, что энтропия при броске игральной кости выше, чем при подбрасывании монеты, поскольку каждый результат броска игральной кости имеет меньшую вероятность ( ), чем каждый результат броска монеты ( ). $p=1/6$ $p=1/2$

Рассмотрим монету с вероятностью $p$ выпадения орла и вероятностью $1 - p$ выпадения решки. Максимальный сюрприз – это случай, когда $p = 1/2$ , при котором один результат не ожидается по сравнению с другим. В этом случае энтропия подбрасывания монеты равна одному биту . (Аналогично, один трит с равновероятными значениями содержит (около 1,58496) бит информации, поскольку он может иметь одно из трех значений.) Минимальным сюрпризом является ситуация, когда $p$ $= 0$ или $p$ $= 1$ , когда результат события известен заранее, и энтропия равна нулю. Когда энтропия равна нулю, это иногда называют единицей, где вообще нет неопределенности – нет свободы выбора – нет информации . Другие значения p дают энтропию между нулем и единицей битов. $\log _{2}3$

Пример

Теория информации полезна для расчета наименьшего количества информации, необходимой для передачи сообщения, например, при сжатии данных . Например, рассмотрим передачу последовательностей, содержащих 4 символа «A», «B», «C» и «D», по двоичному каналу. Если все 4 буквы равновероятны (25%), для кодирования каждой буквы лучше использовать два бита. «A» может кодироваться как «00», «B» как «01», «C» как «10» и «D» как «11». Однако, если вероятности каждой буквы неравны, скажем, «A» встречается с вероятностью 70%, «B» с вероятностью 26%, а «C» и «D» с вероятностью 2% каждая, можно назначить коды переменной длины. В этом случае «А» будет кодироваться как «0», «В» как «10», «С» как «110» и «D» как «111». При таком представлении в 70% случаев необходимо отправить только один бит, в 26% случаев — два бита и только в 4% случаев — 3 бита. В среднем требуется менее 2 битов, поскольку энтропия ниже (из-за высокой распространенности «А», за которым следует «В» — вместе 96% символов). Вычисление суммы вероятностно-взвешенных логарифмических вероятностей измеряет и отражает этот эффект. Английский текст, рассматриваемый как строка символов, имеет довольно низкую энтропию; т.е. это достаточно предсказуемо. Мы можем быть совершенно уверены, что, например, «е» будет гораздо более распространено, чем «z», что сочетание «цюй» будет гораздо более распространено, чем любое другое сочетание с «q» в нем, и что сочетание «th» будет более распространенным, чем «z», «q» или «qu». По первым буквам зачастую можно угадать остальную часть слова. Английский текст имеет от 0,6 до 1,3 бит энтропии на символ сообщения. ^[6]^{: 234}

Определение

Названная в честь Η-теоремы Больцмана , Шеннон определил энтропию $Η$ (греческая заглавная буква эта ) дискретной случайной величины , которая принимает значения в алфавите и распределяется так, что : ${\textstyle X}$ ${\mathcal {X}}$ $p:{\mathcal {X}}\to [0,1]$ $p(x):=\mathbb {P} [X=x]$

\mathrm {H} (X)=\mathbb {E} [\operatorname {I} (X)]=\mathbb {E} [-\log p(X)].

Вот оператор ожидаемого значения , $а$ $I$ — информационное содержание X. ^[7]^{: 11}^[8]^{: 19–20} само по себе является случайной величиной. $\mathbb {E}$ $\operatorname {I} (X)$

Энтропию можно явно записать как:

\mathrm {H} (X)=-\sum _{x\in {\mathcal {X}}}p(x)\log _{b}p(x),

b

основание используемого

b

число Эйлера

e

для

= 2

nats

b = e

запреты

b = 10

^[9]

В случае для некоторых значение соответствующего слагаемого $0 log$ $b$ $(0)$ принимается равным $0$ , что соответствует пределу : [ ^10]^{: 13} $p(x)=0$ $x\in {\mathcal {X}}$

\lim _{p\to 0^{+}}p\log(p)=0.

Можно также определить условную энтропию двух переменных и принимать значения из наборов и соответственно как: ^[10]^{: 16} $X$ $Y$ ${\mathcal {X}}$ ${\mathcal {Y}}$

\mathrm {H} (X|Y)=-\sum _{x,y\in {\mathcal {X}}\times {\mathcal {Y}}}p_{X,Y}(x,y)\log {\frac {p_{X,Y}(x,y)}{p_{Y}(y)}},

p_{X,Y}(x,y):=\mathbb {P} [X=x,Y=y]

p_{Y}(y)=\mathbb {P} [Y=y]

X

Y

Теория меры

Энтропию можно формально определить на языке теории меры следующим образом: ^[11] Пусть — вероятностное пространство . Пусть будет событием . Сюрприз _ _ _ $(X,\Sigma ,\mu )$ $A\in \Sigma$ $A$

\sigma _{\mu }(A)=-\ln \mu (A).

Ожидаемый сюрприз _ _ $A$

h_{\mu }(A)=\mu (A)\sigma _{\mu }(A).

-почти раздел — это такое семейство множеств , что и для всех различных . (Это смягчение обычных условий разбиения.) Энтропия равна $\mu$ $P\subseteq {\mathcal {P}}(X)$ $\mu (\mathop {\cup } P)=1$ $\mu (A\cap B)=0$ $A,B\in P$ $P$

\mathrm {H} _{\mu }(P)=\sum _{A\in P}h_{\mu }(A).

Пусть – сигма-алгебра на . Энтропия _ $M$ $X$ $M$

\mathrm {H} _{\mu }(M)=\sup _{P\subseteq M}\mathrm {H} _{\mu }(P).

всех

\mathrm {H} _{\mu }(\Sigma )

\mu

X

Пример

Рассмотрим подбрасывание монеты с известной, но не обязательно справедливой вероятностью выпадения орла или решки; это можно смоделировать как процесс Бернулли .

Энтропия неизвестного результата следующего подбрасывания монеты максимизируется, если монета честная (то есть если орел и решка имеют равную вероятность 1/2). Это ситуация максимальной неопределенности, поскольку предсказать исход следующего броска труднее всего; результат каждого подбрасывания монеты дает один полный бит информации. Это потому что

{\begin{aligned}\mathrm {H} (X)&=-\sum _{i=1}^{n}{p(x_{i})\log _{b}p(x_{i})}\\&=-\sum _{i=1}^{2}{{\frac {1}{2}}\log _{2}{\frac {1}{2}}}\\&=-\sum _{i=1}^{2}{{\frac {1}{2}}\cdot (-1)}=1\end{aligned}}

Однако, если мы знаем, что монета нечестная, но выпадает орел или решка с вероятностью $p$ и $q$ , где $p \neq q$ , тогда неопределенности меньше. Каждый раз, когда его бросают, одна сторона поднимается с большей вероятностью, чем другая. Снижение неопределенности количественно выражается в более низкой энтропии: в среднем каждый бросок монеты дает менее одного полного бита информации. Например, если $р$ = 0,7, то

{\begin{aligned}\mathrm {H} (X)&=-p\log _{2}(p)-q\log _{2}(q)\\&=-0.7\log _{2}(0.7)-0.3\log _{2}(0.3)\\&\approx -0.7\cdot (-0.515)-0.3\cdot (-1.737)\\&=0.8816<1\end{aligned}}

Равномерная вероятность дает максимальную неопределенность и, следовательно, максимальную энтропию. Таким образом, энтропия может уменьшаться только по сравнению со значением, связанным с равномерной вероятностью. Крайним случаем является двусторонняя монета, у которой никогда не выпадает решка, или двусторонняя монета, у которой никогда не выпадает решка. Тогда нет никакой неопределенности. Энтропия равна нулю: каждый бросок монеты не дает новой информации, поскольку результат каждого броска монеты всегда определен. ^[10]^{: 14–15}

Характеристика

Чтобы понять значение $-Σ p i log(p i)$ , сначала определите информационную функцию $I$ в терминах события $i$ с вероятностью $p i$ . Количество информации, полученной в результате наблюдения события $i,$ следует из решения Шеннона фундаментальных свойств информации : ^[12]

$I(p)$ монотонно убывает по p $:$ увеличение вероятности события уменьшает информацию от наблюдаемого события, и наоборот.
$I(1) = 0$ : события, которые происходят всегда, не передают информацию.
$I(p1 \cdot p2) = I(p1) + I(p2) : информация,$ полученная из $независимых$ событий , представляет собой сумму информации, полученной из каждого события.

Учитывая два независимых события, если первое событие может дать один из $n$ равновероятных исходов, а другое имеет один из $m$ равновероятных исходов, то существует $mn$ равновероятных исходов совместного события. Это означает, что если биты $log 2 (n)$ необходимы для кодирования первого значения, а биты $log 2 (m)$ — для кодирования второго, то для кодирования обоих требуется $log 2 (mn) = log 2 (m) + log 2 (n).$ .

Шеннон обнаружил, что подходящий выбор определяется следующим образом: ^[13] $\operatorname {I}$

\operatorname {I} (p)=\log \left({\tfrac {1}{p}}\right)=-\log(p)

Фактически, единственные возможные значения — для . Кроме того, выбор значения для $k$ эквивалентен выбору значения для , так что $x$ соответствует основанию логарифма . Таким образом, энтропия характеризуется четырьмя вышеперечисленными свойствами. $\operatorname {I}$ $\operatorname {I} (u)=k\log u$ $k<0$ $x>1$ $k=-1/\log x$

Различные единицы информации ( биты для двоичного логарифма $log 2$ , nats для натурального логарифма $ln$ , запреты для десятичного логарифма $log 10$ и т. д.) являются постоянными кратными друг другу. Например, в случае честного подбрасывания монеты орел предоставляет $log 2 (2) = 1$ бит информации, что составляет примерно 0,693 натс или 0,301 десятичной цифры. Из-за аддитивности $n$ бросков предоставляют $n$ бит информации, что составляет примерно $0,693 n$ nats или $0,301 n$ десятичных цифр.

Смысл наблюдаемых событий (смысл сообщений ) не имеет значения в определении энтропии. Энтропия учитывает только вероятность наблюдения конкретного события, поэтому инкапсулируемая ею информация — это информация об основном распределении вероятностей , а не о значении самих событий.

Альтернативная характеристика

Другая характеристика энтропии использует следующие свойства. Обозначим $p i = Pr(X = x i)$ и $Η n (p 1, ..., p n) = Η (X)$ .

Непрерывность: $H$ должна быть непрерывной , так что изменение значений вероятностей на очень небольшую величину должно изменить энтропию лишь на небольшую величину.
Симметрия: $H$ не должен меняться, если исходы $x i$ переупорядочиваются. То есть для любой перестановки . $\mathrm {H} _{n}\left(p_{1},p_{2},\ldots p_{n}\right)=\mathrm {H} _{n}\left(p_{i_{1}},p_{i_{2}},\ldots ,p_{i_{n}}\right)$ $\{i_{1},...,i_{n}\}$ $\{1,...,n\}$
Максимум: должен быть максимальным, если все исходы равновероятны, т.е. $\mathrm {H} _{n}$ $\mathrm {H} _{n}(p_{1},\ldots ,p_{n})\leq \mathrm {H} _{n}\left({\frac {1}{n}},\ldots ,{\frac {1}{n}}\right)$
Увеличение числа исходов: для равновероятных событий энтропия должна увеличиваться с увеличением количества исходов, т.е. $\mathrm {H} _{n}{\bigg (}\underbrace {{\frac {1}{n}},\ldots ,{\frac {1}{n}}} _{n}{\bigg )}<\mathrm {H} _{n+1}{\bigg (}\underbrace {{\frac {1}{n+1}},\ldots ,{\frac {1}{n+1}}} _{n+1}{\bigg )}.$
Аддитивность: для данного ансамбля из $n$ равномерно распределенных элементов, которые разбиты на $k$ блоков (подсистем) по $b 1, ..., b k$ элементов в каждой, энтропия всего ансамбля должна быть равна сумме энтропии система ящиков и отдельные энтропии ящиков, каждая из которых взвешена с вероятностью нахождения в этом конкретном ящике.

Обсуждение

Правило аддитивности имеет следующие последствия: для натуральных чисел $b i$ где $b 1 + ... + b k = n$ ,

\mathrm {H} _{n}\left({\frac {1}{n}},\ldots ,{\frac {1}{n}}\right)=\mathrm {H} _{k}\left({\frac {b_{1}}{n}},\ldots ,{\frac {b_{k}}{n}}\right)+\sum _{i=1}^{k}{\frac {b_{i}}{n}}\,\mathrm {H} _{b_{i}}\left({\frac {1}{b_{i}}},\ldots ,{\frac {1}{b_{i}}}\right).

Выбор $k = n$ , $b 1 = ... = bn = 1$ означает, что энтропия определенного результата равна нулю: $Η 1 (1) = 0$ . Это означает, что эффективность исходного алфавита с $n$ символами можно определить просто как равную его $n$ -арной энтропии. См. также Избыточность (теория информации) .

Характеризация здесь налагает аддитивное свойство по отношению к разбиению множества . Между тем, условная вероятность определяется в терминах мультипликативного свойства . Обратите внимание, что логарифм является промежуточным звеном между этими двумя операциями. Условная энтропия и связанные с ней величины, в свою очередь, наследуют простое соотношение. Определение теории меры в предыдущем разделе определяло энтропию как сумму ожидаемых сюрпризов для экстремального разделения. Здесь логарифм является специальным, а энтропия сама по себе не является мерой. По крайней мере, в теории информации двоичная строка поддается практическим интерпретациям. $P(A\mid B)\cdot P(B)=P(A\cap B)$ $\mu (A)\cdot \ln \mu (A)$ $\log _{2}$

На основе таких отношений было определено множество связанных и конкурирующих величин. Например, анализ Дэвида Эллермана «логики разделов» определяет конкурирующую меру в структурах, двойственных мерам подмножеств универсального множества. ^[14] Информация количественно выражается как «диты» (различия), мера по разделам. «Диты» можно преобразовать в биты Шеннона , чтобы получить формулы условной энтропии и так далее.

Альтернативная характеристика через аддитивность и субаддитивность

Другая краткая аксиоматическая характеристика энтропии Шеннона была дана Акселем , Форте и Нг ^[15] посредством следующих свойств:

Субаддитивность: для совместно распределенных случайных величин . $\mathrm {H} (X,Y)\leq \mathrm {H} (X)+\mathrm {H} (Y)$ $X,Y$
Аддитивность: когда случайные величины независимы. $\mathrm {H} (X,Y)=\mathrm {H} (X)+\mathrm {H} (Y)$ $X,Y$
Расширяемость: т. е. добавление результата с нулевой вероятностью не меняет энтропию. $\mathrm {H} _{n+1}(p_{1},\ldots ,p_{n},0)=\mathrm {H} _{n}(p_{1},\ldots ,p_{n})$
Симметрия: инвариантна при перестановке . $\mathrm {H} _{n}(p_{1},\ldots ,p_{n})$ $p_{1},\ldots ,p_{n}$
Малый для малых вероятностей: . $\lim _{q\to 0^{+}}\mathrm {H} _{2}(1-q,q)=0$

Обсуждение

Было показано, что любая функция, удовлетворяющая вышеуказанным свойствам, должна быть постоянной кратной энтропии Шеннона с неотрицательной константой. ^[15] По сравнению с ранее упомянутыми характеристиками энтропии, эта характеристика фокусируется на свойствах энтропии как функции случайных величин (субаддитивность и аддитивность), а не на свойствах энтропии как функции вектора вероятности . $\mathrm {H}$ $p_{1},\ldots ,p_{n}$

Стоит отметить, что если отбросить свойство «малых для малых вероятностей», то должна получиться неотрицательная линейная комбинация энтропии Шеннона и энтропии Хартли . ^[15] $\mathrm {H}$

Дополнительные свойства

Энтропия Шеннона удовлетворяет следующим свойствам, для некоторых из которых полезно интерпретировать энтропию как ожидаемое количество полученной информации (или устраненной неопределенности) путем выявления значения случайной величины $X$ :

Добавление или удаление события с нулевой вероятностью не увеличивает энтропию:

\mathrm {H} _{n+1}(p_{1},\ldots ,p_{n},0)=\mathrm {H} _{n}(p_{1},\ldots ,p_{n})

Максимальная энтропия события с n различными исходами равна $log b (n)$ : она достигается за счет равномерного распределения вероятностей. То есть неопределенность максимальна, когда все возможные события равновероятны:

\mathrm {H} (p_{1},\dots ,p_{n})\leq \log _{b}n

. ^[10]^{: 29}

Энтропия или количество информации, выявленной путем оценки $(X, Y)$ (то есть оценки $X$ и $Y$ одновременно), равна информации, выявленной путем проведения двух последовательных экспериментов: сначала оценивая значение $Y$ , затем выявляя значение $X$ учитывая, что вы знаете значение $Y$ . Это можно записать так: ^[10]^{: 16}

\mathrm {H} (X,Y)=\mathrm {H} (X|Y)+\mathrm {H} (Y)=\mathrm {H} (Y|X)+\mathrm {H} (X).

Если где - функция, то . Применение предыдущей формулы к доходности $Y=f(X)$ $f$ $\mathrm {H} (f(X)|X)=0$ $\mathrm {H} (X,f(X))$

\mathrm {H} (X)+\mathrm {H} (f(X)|X)=\mathrm {H} (f(X))+\mathrm {H} (X|f(X)),

Итак , энтропия переменной может уменьшаться только тогда, когда последняя передается через функцию.

\mathrm {H} (f(X))\leq \mathrm {H} (X)

Если $X$ и $Y$ — две независимые случайные величины, то знание значения $Y$ не влияет на наше знание значения $X$ (поскольку они не влияют друг на друга своей независимостью):

\mathrm {H} (X|Y)=\mathrm {H} (X).

В более общем смысле для любых случайных величин $X$ и $Y$ мы имеем

\mathrm {H} (X|Y)\leq \mathrm {H} (X)

. ^[10]^{: 29}

Энтропия двух одновременных событий есть не более чем сумма энтропий каждого отдельного события, т. е. с равенством тогда и только тогда, когда два события независимы. ^[10]^{: 28} $\mathrm {H} (X,Y)\leq \mathrm {H} (X)+\mathrm {H} (Y)$
Энтропия вогнута в функции массы вероятности , т.е. ^[10]: ³⁰ $\mathrm {H} (p)$ $p$

\mathrm {H} (\lambda p_{1}+(1-\lambda )p_{2})\geq \lambda \mathrm {H} (p_{1})+(1-\lambda )\mathrm {H} (p_{2})

для всех функций вероятности и . ^[10]^{: 32}

p_{1},p_{2}

0\leq \lambda \leq 1

Соответственно, функция отрицательной энтропии (негэнтропии) является выпуклой, а ее выпуклая сопряженная функция — LogSumExp .

Аспекты

Связь с термодинамической энтропией

Вдохновением для принятия слова « энтропия» в теории информации послужило близкое сходство между формулой Шеннона и очень похожими известными формулами статистической механики .

В статистической термодинамике наиболее общей формулой термодинамической энтропии $S$ термодинамической системы является энтропия Гиббса.

S=-k_{\text{B}}\sum p_{i}\ln p_{i}\,,

где $k B$ — постоянная Больцмана , а $pi —$ вероятность микросостояния . Энтропия Гиббса была определена Дж. Уиллардом Гиббсом в 1878 году после более ранней работы Больцмана (1872). ^[16]

Энтропия Гиббса практически без изменений переводится в мир квантовой физики, давая энтропию фон Неймана , введенную Джоном фон Нейманом в 1927 году:

S=-k_{\text{B}}\,{\rm {Tr}}(\rho \ln \rho )\,,

где ρ — матрица плотности квантовомеханической системы, а Tr — след . ^[17]

На повседневном практическом уровне связь между информационной энтропией и термодинамической энтропией неочевидна. Физики и химики склонны больше интересоваться изменениями энтропии по мере того, как система самопроизвольно развивается от своих начальных условий в соответствии со вторым законом термодинамики , а не неизменным распределением вероятностей. Как показывает мелочность константы Больцмана $k B$ , изменения $S / k B$ даже для крошечных количеств веществ в химических и физических процессах представляют собой количества энтропии, которые чрезвычайно велики по сравнению с чем-либо при сжатии данных или обработке сигналов . В классической термодинамике энтропия определяется с точки зрения макроскопических измерений и не имеет отношения к какому-либо распределению вероятностей, которое является центральным для определения информационной энтропии.

Связь между термодинамикой и тем, что сейчас известно как теория информации, была впервые установлена Людвигом Больцманом и выражена его знаменитым уравнением :

S=k_{\text{B}}\ln W,

где - термодинамическая энтропия конкретного макросостояния (определяемая термодинамическими параметрами, такими как температура, объем, энергия и т. д.), $W$ - количество микросостояний (различных комбинаций частиц в различных энергетических состояниях), которые могут создать данное макросостояние, и $k$ $B$ — постоянная Больцмана . ^[18] Предполагается, что каждое микросостояние равновероятно, так что вероятность данного микросостояния равна $pi$ $=$ $1/$ $W$ . Когда эти вероятности подставляются в приведенное выше выражение для энтропии Гиббса (или, что эквивалентно, $в k$ $B$ раз больше энтропии Шеннона), получается уравнение Больцмана. С точки зрения теории информации, информационная энтропия системы — это количество «недостающей» информации, необходимой для определения микросостояния с учетом макросостояния. $S$

По мнению Джейнса (1957), ^[19] термодинамическую энтропию, объясненную статистической механикой , следует рассматривать как применение теории информации Шеннона: термодинамическая энтропия интерпретируется как пропорциональная количеству дополнительной информации Шеннона, необходимой для определения детальное микроскопическое состояние системы, которое остается непередаваемым при описании исключительно в терминах макроскопических переменных классической термодинамики, при этом константа пропорциональности является просто константой Больцмана . Добавление тепла к системе увеличивает ее термодинамическую энтропию, поскольку увеличивает количество возможных микроскопических состояний системы, которые согласуются с измеримыми значениями ее макроскопических переменных, что делает любое полное описание состояния более длинным. (См. статью: Термодинамика максимальной энтропии ). Демон Максвелла может (гипотетически) уменьшить термодинамическую энтропию системы, используя информацию о состояниях отдельных молекул; но, как показали Ландауэр (с 1961 г.) и его коллеги ^[20] , для функционирования демон сам должен увеличить термодинамическую энтропию в процессе, по крайней мере, на количество информации Шеннона, которую он предлагает сначала получить и сохранить; и поэтому полная термодинамическая энтропия не уменьшается (что разрешает парадокс). Принцип Ландауэра устанавливает нижнюю границу количества тепла, которое компьютер должен вырабатывать для обработки заданного объема информации, хотя современные компьютеры гораздо менее эффективны.

Сжатие данных

Определение энтропии, данное Шенноном, применительно к источнику информации, может определить минимальную пропускную способность канала, необходимую для надежной передачи источника в виде закодированных двоичных цифр. Энтропия Шеннона измеряет информацию, содержащуюся в сообщении, а не ту часть сообщения, которая определена (или предсказуема). Примеры последнего включают избыточность в языковой структуре или статистические свойства, связанные с частотами появления пар букв или слов, троек и т. д. Минимальная пропускная способность канала может быть реализована теоретически с использованием типичного набора или на практике с использованием Хаффмана , Лемпеля-Зива или арифметическое кодирование . (См. также сложность Колмогорова .) На практике алгоритмы сжатия намеренно включают некоторую разумную избыточность в виде контрольных сумм для защиты от ошибок. Уровень энтропии источника данных — это среднее количество бит на символ, необходимое для его кодирования. Эксперименты Шеннона с людьми-предсказателями показывают скорость передачи информации от 0,6 до 1,3 бита на символ в английском языке; ^[21] Алгоритм сжатия PPM может обеспечить степень сжатия 1,5 бита на символ в английском тексте.

Если схема сжатия без потерь – та, в которой вы всегда можете восстановить все исходное сообщение путем распаковки – тогда сжатое сообщение содержит то же количество информации, что и исходное, но передается меньшим количеством символов. Он имеет больше информации (более высокую энтропию) на символ. Сжатое сообщение имеет меньшую избыточность . Теорема Шеннона о кодировании исходного кода утверждает, что схема сжатия без потерь не может сжимать сообщения в среднем так, чтобы в каждом бите сообщения содержалось более одного бита информации, но что любое значение меньше одного бита информации на бит сообщения может быть достигнуто путем использования подходящего метода. схема кодирования. Энтропия сообщения на бит, умноженная на длину этого сообщения, является мерой того, сколько общей информации содержит сообщение. Теорема Шеннона также подразумевает, что ни одна схема сжатия без потерь не может сократить все сообщения. Если некоторые сообщения выходят короче, хотя бы одно должно выйти длиннее из-за принципа «ячейки» . При практическом использовании это, как правило, не является проблемой, поскольку обычно интересуются только сжатием определенных типов сообщений, например документов на английском языке, а не бессмысленного текста или цифровых фотографий, а не шума, и неважно, если Алгоритм сжатия увеличивает некоторые маловероятные или неинтересные последовательности.

Исследование, опубликованное в журнале Science в 2011 году, оценивает мировые технологические возможности для хранения и передачи оптимально сжатой информации, нормализованной с помощью наиболее эффективных алгоритмов сжатия, доступных в 2007 году, таким образом оценивая энтропию технологически доступных источников. ^[22]^{: 60–65}

Авторы оценивают технологические возможности человечества по хранению информации (полностью энтропийно сжатой) в 1986 году и снова в 2007 году. Они разбивают информацию на три категории — хранить информацию на носителе, получать информацию через односторонние сети вещания или обмениваться информацией. через двусторонние телекоммуникационные сети. ^[22]

Энтропия как мера разнообразия

Энтропия является одним из нескольких способов измерения биоразнообразия и применяется в форме индекса Шеннона . ^[23] Индекс разнообразия — это количественная статистическая мера того, сколько различных типов существует в наборе данных, например видов в сообществе, с учетом экологического богатства , равномерности и доминирования . В частности, энтропия Шеннона представляет собой логарифм $1 D$ , истинного индекса разнообразия с параметром, равным 1. Индекс Шеннона связан с пропорциональным обилием типов.

Энтропия последовательности

Существует ряд концепций, связанных с энтропией, которые математически количественно определяют информационное содержание последовательности или сообщения:

самоинформация отдельного сообщения или символа, взятая из заданного распределения вероятностей (сообщение или последовательность рассматриваются как отдельное событие) ,
совместная энтропия символов, образующих сообщение или последовательность (рассматриваемую как набор событий),
скорость энтропии случайного процесса (сообщение или последовательность рассматриваются как последовательность событий).

(«Скорость самоинформации» также может быть определена для определенной последовательности сообщений или символов, генерируемых данным случайным процессом: она всегда будет равна скорости энтропии в случае стационарного процесса . ) Другие количества информации также используются для сравнения или связи различных источников информации.

Важно не путать приведенные выше понятия. Часто только из контекста становится ясно, о каком из них идет речь. Например, когда кто-то говорит, что «энтропия» английского языка составляет около 1 бита на символ, на самом деле он моделирует английский язык как случайный процесс и говорит о уровне его энтропии . Сам Шеннон использовал этот термин именно так.

Если используются очень большие блоки, оценка уровня энтропии на каждый символ может стать искусственно заниженной, поскольку распределение вероятностей последовательности точно не известно; это всего лишь оценка. Если рассматривать текст каждой когда-либо опубликованной книги как последовательность, где каждый символ представляет собой текст полной книги, и если имеется $N$ опубликованных книг и каждая книга публикуется только один раз, то оценка вероятности появления каждой книги будет равна $1/ N$ , а энтропия (в битах) равна $-log 2 (1/ N) = log 2 (N)$ . На практике это соответствует присвоению каждой книге уникального идентификатора и использованию его вместо текста книги всякий раз, когда кто-то хочет сослаться на книгу. Это чрезвычайно полезно для разговоров о книгах, но не столь полезно для характеристики информационного содержания отдельной книги или языка в целом: невозможно восстановить книгу по ее идентификатору, не зная распределения вероятностей, т.е. , полный текст всех книг. Ключевая идея заключается в том, что необходимо учитывать сложность вероятностной модели. Колмогоровская сложность — это теоретическое обобщение этой идеи, позволяющее рассматривать информативность последовательности независимо от какой-либо конкретной вероятностной модели; он рассматривает кратчайшую программу для универсального компьютера , выводящую последовательность. Код, который достигает уровня энтропии последовательности для данной модели плюс кодовая книга (т. е. вероятностная модель), является одной из таких программ, но, возможно, не самой короткой.

Последовательность Фибоначчи — это 1, 1, 2, 3, 5, 8, 13, .... рассматривая последовательность как сообщение, а каждое число как символ, символов почти столько же, сколько символов в сообщении, что дает энтропия приблизительно равна $log 2 (n)$ . Первые 128 символов последовательности Фибоначчи имеют энтропию примерно 7 бит/символ, но последовательность можно выразить с помощью формулы [ $F(n) = F(n -1) + F(n -2)$ для $n = 3 , 4, 5, ...$ , $F(1) =1$ , $F(2) = 1$ ] и эта формула имеет гораздо меньшую энтропию и применима к любой длине последовательности Фибоначчи.

Ограничения энтропии в криптографии

В криптоанализе энтропия часто грубо используется как мера непредсказуемости криптографического ключа, хотя ее реальная неопределенность неизмерима. Например, 128-битный ключ, который генерируется равномерно и случайным образом, имеет энтропию 128 бит. Также требуются (в среднем) догадки, чтобы взломать грубую силу. Энтропия не может уловить необходимое количество предположений, если возможные ключи выбраны неравномерно. ^[24]^[25] Вместо этого для измерения усилий, необходимых для грубой атаки, можно использовать меру, называемую догадками . ^[26] $2^{127}$

Другие проблемы могут возникнуть из-за неравномерности распределений, используемых в криптографии. Например, двоичный одноразовый блокнот на 1 000 000 цифр с использованием исключающего или. Если блокнот имеет 1 000 000 бит энтропии, он идеален. Если блокнот имеет 999 999 бит энтропии, распределенной равномерно (каждый отдельный бит блока имеет 0,999999 бит энтропии), это может обеспечить хорошую безопасность. Но если блокнот имеет 999 999 бит энтропии, где первый бит фиксирован, а остальные 999 999 бит совершенно случайны, первый бит зашифрованного текста вообще не будет зашифрован.

Данные как марковский процесс

Распространенный способ определения энтропии текста основан на марковской модели текста. Для источника нулевого порядка (каждый символ выбирается независимо от последних символов) двоичная энтропия равна:

\mathrm {H} ({\mathcal {S}})=-\sum p_{i}\log p_{i},

где $p i$ - вероятность $i$ . Для марковского источника первого порядка (того, в котором вероятность выбора символа зависит только от непосредственно предшествующего символа) уровень энтропии равен:

\mathrm {H} ({\mathcal {S}})=-\sum _{i}p_{i}\sum _{j}\ p_{i}(j)\log p_{i}(j),

^{[ нужна цитата ]}

где $i$ — состояние (некоторые предшествующие символы), а — вероятность $j$ , учитывая $i$ в качестве предыдущего символа. $p_{i}(j)$

Для марковского источника второго порядка уровень энтропии равен

\mathrm {H} ({\mathcal {S}})=-\sum _{i}p_{i}\sum _{j}p_{i}(j)\sum _{k}p_{i,j}(k)\ \log \ p_{i,j}(k).

Эффективность (нормированная энтропия)

Исходный алфавит с неравномерным распределением будет иметь меньшую энтропию, чем если бы эти символы имели равномерное распределение (т. е. «оптимизированный алфавит»). Этот дефицит энтропии можно выразить как соотношение, называемое эффективностью ^[27] :

\eta (X)={\frac {H}{H_{max}}}=-\sum _{i=1}^{n}{\frac {p(x_{i})\log _{b}(p(x_{i}))}{\log _{b}(n)}}

Применяя основные свойства логарифма, эту величину можно также выразить как:

\eta (X)=-\sum _{i=1}^{n}{\frac {p(x_{i})\log _{b}(p(x_{i}))}{\log _{b}(n)}}=\sum _{i=1}^{n}{\frac {\log _{b}(p(x_{i})^{-p(x_{i})})}{\log _{b}(n)}}=\sum _{i=1}^{n}\log _{n}(p(x_{i})^{-p(x_{i})})=\log _{n}(\prod _{i=1}^{n}p(x_{i})^{-p(x_{i})})

Эффективность полезна для количественной оценки эффективного использования канала связи . Эту формулировку также называют нормализованной энтропией, поскольку энтропия делится на максимальную энтропию . Более того, эффективность безразлична к выбору (положительного) основания $b$ , на что указывает нечувствительность к последнему логарифму выше. ${\log _{b}(n)}$

Энтропия для непрерывных случайных величин

Дифференциальная энтропия

Энтропия Шеннона ограничена случайными величинами, принимающими дискретные значения. Соответствующая формула для непрерывной случайной величины с функцией плотности вероятности $f (x)$ с конечным или бесконечным носителем на действительной прямой определяется по аналогии, используя приведенную выше форму энтропии в качестве математического ожидания: ^[10]^{: 224} $\mathbb {X}$

\mathrm {H} (X)=\mathbb {E} [-\log f(X)]=-\int _{\mathbb {X} }f(x)\log f(x)\,\mathrm {d} x.

Это дифференциальная энтропия (или непрерывная энтропия). Предвестником непрерывной энтропии $h [f]$ является выражение для функционала $Н$ в Н- теореме Больцмана .

Хотя аналогия между обеими функциями наводит на размышления, необходимо задать следующий вопрос: является ли дифференциальная энтропия действительным расширением дискретной энтропии Шеннона? Дифференциальной энтропии не хватает ряда свойств, которыми обладает дискретная энтропия Шеннона – она может быть даже отрицательной – и были предложены поправки, в частности, ограничивающие плотность дискретных точек .

Чтобы ответить на этот вопрос, необходимо установить связь между двумя функциями:

Чтобы получить вообще конечную меру, когда размер ячейки стремится к нулю. В дискретном случае размер интервала представляет собой (неявную) ширину каждого из $n$ (конечных или бесконечных) интервалов, вероятности которых обозначаются $p n$ . Поскольку непрерывная область обобщена, ширину необходимо указать явно.

Чтобы сделать это, начните с непрерывной функции $f$ , дискретизированной на ячейки размером . По теореме о среднем значении в каждом интервале существует такое значение $x$ $i$ , что $\Delta$

f(x_{i})\Delta =\int _{i\Delta }^{(i+1)\Delta }f(x)\,dx

f

\int _{-\infty }^{\infty }f(x)\,dx=\lim _{\Delta \to 0}\sum _{i=-\infty }^{\infty }f(x_{i})\Delta ,

Мы будем обозначать

\mathrm {H} ^{\Delta }:=-\sum _{i=-\infty }^{\infty }f(x_{i})\Delta \log \left(f(x_{i})\Delta \right)

\mathrm {H} ^{\Delta }=-\sum _{i=-\infty }^{\infty }f(x_{i})\Delta \log(f(x_{i}))-\sum _{i=-\infty }^{\infty }f(x_{i})\Delta \log(\Delta ).

При $∆ \to 0$ имеем

{\begin{aligned}\sum _{i=-\infty }^{\infty }f(x_{i})\Delta &\to \int _{-\infty }^{\infty }f(x)\,dx=1\\\sum _{i=-\infty }^{\infty }f(x_{i})\Delta \log(f(x_{i}))&\to \int _{-\infty }^{\infty }f(x)\log f(x)\,dx.\end{aligned}}

Примечание; $log(Δ) \to -\infty$ при $Δ \to 0$ требует специального определения дифференциальной или непрерывной энтропии:

h[f]=\lim _{\Delta \to 0}\left(\mathrm {H} ^{\Delta }+\log \Delta \right)=-\int _{-\infty }^{\infty }f(x)\log f(x)\,dx,

которая, как было сказано ранее, называется дифференциальной энтропией. Это означает, что дифференциальная энтропия не является пределом энтропии Шеннона при $n \to \infty$ . Скорее, он отличается от предела энтропии Шеннона бесконечным смещением (см. также статью об информационном измерении ).

Предельная плотность дискретных точек

В результате оказывается, что, в отличие от энтропии Шеннона, дифференциальная энтропия вообще не является хорошей мерой неопределенности или информации. Например, дифференциальная энтропия может быть отрицательной; также он не инвариантен относительно непрерывных преобразований координат. Эту проблему можно проиллюстрировать изменением единиц измерения, когда $x$ является размерной переменной. $f (x)$ тогда будет иметь единицы измерения $1/ x$ . Аргумент логарифма должен быть безразмерным, иначе он неправильный, так что дифференциальная энтропия, указанная выше, будет несобственной. Если $Δ$ является некоторым «стандартным» значением $x$ (т.е. «размером контейнера») и, следовательно, имеет те же единицы измерения, то модифицированную дифференциальную энтропию можно записать в правильной форме как:

\mathrm {H} =\int _{-\infty }^{\infty }f(x)\log(f(x)\,\Delta )\,dx,

и результат будет одинаковым для любого выбора единиц измерения $x$ . Фактически, предел дискретной энтропии также включает в себя член , который в общем случае будет бесконечным. Это ожидаемо: непрерывные переменные обычно имеют бесконечную энтропию при дискретизации. Предельная плотность дискретных точек на самом деле является мерой того, насколько легче описать распределение, чем распределение, однородное по схеме квантования. $N\rightarrow \infty$ $\log(N)$

Относительная энтропия

Еще одна полезная мера энтропии, которая одинаково хорошо работает как в дискретном, так и в непрерывном случае, — это относительная энтропия распределения. Оно определяется как расхождение Кульбака – Лейблера от распределения до эталонной меры $m$ следующим образом. Предположим, что распределение вероятностей $p$ абсолютно непрерывно относительно меры $m$ , т.е. имеет вид $p (dx) = f (x) m (dx)$ для некоторой неотрицательной $m$ -интегрируемой функции $f$ с $m$ -интегралом 1, тогда относительную энтропию можно определить как

D_{\mathrm {KL} }(p\|m)=\int \log(f(x))p(dx)=\int f(x)\log(f(x))m(dx).

В этом виде относительная энтропия обобщает (с точностью до смены знака) как дискретную энтропию, где мера $m$ является считающей мерой , так и дифференциальную энтропию, где мера $m$ является мерой Лебега . Если мера $m$ сама по себе является распределением вероятностей, относительная энтропия неотрицательна и равна нулю, если $p = m$ в качестве меры. Он определен для любого пространства с мерой, следовательно, независим от координат и инвариантен относительно перепараметризации координат, если правильно принять во внимание преобразование меры $m$ . Относительная энтропия, а также (неявно) энтропия и дифференциальная энтропия действительно зависят от «эталонной» меры $m$ .

Использование в теории чисел

Теренс Тао использовал энтропию, чтобы установить полезную связь, пытаясь решить проблему несоответствия Эрдеша . ^[28]

Интуитивно идея доказательства заключалась в том, что между последовательными случайными величинами имеется низкая информация с точки зрения энтропии Шеннона (здесь случайная величина определяется с помощью функции Лиувилля (которая является полезной математической функцией для изучения распределения простых чисел) $X H$ = . И в интервале [n, n+H] сумма в этом интервале может стать сколь угодно большой. Например, последовательность +1 (которые могут принимать значения $X$ $H'$ ) имеют тривиально низкую энтропию, и их сумма станет большой Но ключевой вывод заключался в том, чтобы показать уменьшение энтропии на немалую величину при расширении H, что, в свою очередь, привело к неограниченному росту математического объекта по этой случайной величине, что эквивалентно показу неограниченного роста в соответствии с проблемой несоответствия Эрдеша . $\lambda (n+H)$

Доказательство весьма сложное, и оно привело к прорывам не только в новом использовании энтропии Шеннона, но и в использовании функции Лиувилля вместе со средними значениями модулированных мультипликативных функций на коротких интервалах. Доказательство этого также сломало «паритетный барьер» для этой конкретной проблемы.

Хотя использование энтропии Шеннона в доказательстве является новым, оно, вероятно, откроет новые исследования в этом направлении.

Использование в комбинаторике

Энтропия стала полезной величиной в комбинаторике .

Неравенство Лумиса – Уитни

Простым примером этого является альтернативное доказательство неравенства Лумиса–Уитни : для каждого подмножества $A \subseteq Z d$ мы имеем

|A|^{d-1}\leq \prod _{i=1}^{d}|P_{i}(A)|

где $Pi$ — ортогональная проекция по $i-$ й координате $:$

P_{i}(A)=\{(x_{1},\ldots ,x_{i-1},x_{i+1},\ldots ,x_{d}):(x_{1},\ldots ,x_{d})\in A\}.

Доказательство представляет собой простое следствие неравенства Ширера : если $X 1, ..., X d$ — случайные величины, а $S 1, ..., Sn —$ подмножества ${1, ..., d$ } такие, что каждое целое число между 1 и $d$ лежит ровно в $r$ из этих подмножеств, то

\mathrm {H} [(X_{1},\ldots ,X_{d})]\leq {\frac {1}{r}}\sum _{i=1}^{n}\mathrm {H} [(X_{j})_{j\in S_{i}}]

где – декартово произведение случайных величин $X$ $j$ с индексами $j$ в $Si (поэтому$ $размерность$ этого вектора равна размеру $Si$ $)$ . $(X_{j})_{j\in S_{i}}$

Мы обрисуем, как из этого следует Лумис-Уитни: Действительно, пусть $X$ — равномерно распределенная случайная величина со значениями в $A$ и так, что каждая точка в $A$ встречается с равной вероятностью. Тогда (в силу упомянутых выше дополнительных свойств энтропии) $Η(X) = log| А |$ , где $| А |$ обозначает мощность $A$ . Пусть $S i = {1, 2, ..., i -1, i +1, ..., d$ }. Диапазон содержится в $Pi$ $($ $A$ $) и$ $,$ следовательно , . Теперь используйте это, чтобы ограничить правую часть неравенства Ширера и возвести в степень противоположные части полученного неравенства. $(X_{j})_{j\in S_{i}}$ $\mathrm {H} [(X_{j})_{j\in S_{i}}]\leq \log |P_{i}(A)|$

Приближение к биномиальному коэффициенту

Для целых чисел $0 < k < n$ пусть $q = k / n$ . Затем

{\frac {2^{n\mathrm {H} (q)}}{n+1}}\leq {\tbinom {n}{k}}\leq 2^{n\mathrm {H} (q)},

где

\mathrm {H} (q)=-q\log _{2}(q)-(1-q)\log _{2}(1-q).

^[29]^{: 43}

Хорошая интерпретация этого состоит в том, что количество двоичных строк длины $n$ , содержащих ровно $k$ многих единиц, составляет приблизительно . ^[30] $2^{n\mathrm {H} (k/n)}$

Использование в машинном обучении

Методы машинного обучения в основном возникают из статистики, а также из теории информации. В общем, энтропия — это мера неопределенности, а цель машинного обучения — минимизировать неопределенность.

Алгоритмы обучения дерева решений используют относительную энтропию для определения правил принятия решений, которые управляют данными в каждом узле. ^[31] Прирост информации в деревьях решений , который равен разнице между энтропией и условной энтропией данного , количественно определяет ожидаемую информацию или уменьшение энтропии от дополнительного знания значения атрибута . Полученная информация используется для определения того, какие атрибуты набора данных предоставляют больше всего информации, и их следует использовать для оптимального разделения узлов дерева. $IG(Y,X)$ $Y$ $Y$ $X$ $X$

Модели байесовского вывода часто применяют принцип максимальной энтропии для получения априорных распределений вероятностей. ^[32] Идея состоит в том, что распределение, которое лучше всего отражает текущее состояние знаний о системе, имеет наибольшую энтропию и, следовательно, подходит в качестве априорного.

Классификация в машинном обучении, выполняемая с помощью логистической регрессии или искусственных нейронных сетей, часто использует стандартную функцию потерь, называемую перекрестной энтропией , которая минимизирует среднюю перекрестную энтропию между фактическими и предсказанными распределениями. ^[33] В общем, перекрестная энтропия — это мера различий между двумя наборами данных, аналогичная расхождению KL (также известному как относительная энтропия).

Смотрите также

Приблизительная энтропия (ApEn)
Энтропия (термодинамика)
Перекрестная энтропия - это мера среднего количества битов, необходимых для идентификации события из набора возможностей между двумя распределениями вероятностей.
Энтропия (стрела времени)
Энтропийное кодирование – схема кодирования, которая присваивает символам коды таким образом, чтобы длина кода соответствовала вероятностям символов.
Оценка энтропии
Неравенство энтропийной мощности
Информация о Фишере
Энтропия графа
Расстояние Хэмминга
История энтропии
История теории информации
Сложность колебания информации
Информационная геометрия
Энтропия Колмогорова–Синая в динамических системах
Расстояние Левенштейна
Взаимная информация
Растерянность
Качественная вариация - другие меры статистической дисперсии номинальных распределений.
Квантовая относительная энтропия – мера различимости двух квантовых состояний.
Энтропия Реньи – обобщение энтропии Шеннона; это один из семейства функционалов для количественной оценки разнообразия, неопределенности или случайности системы.
Случайность
Выборочная энтропия (SampEn)
Индекс Шеннона
Индекс Тейла
Типогликемия

дальнейшее чтение

Учебники по теории информации

Ковер, Т.М. , Томас, Дж.А. (2006), Элементы теории информации – 2-е изд. , Wiley-Interscience, ISBN 978-0-471-24195-9
Маккей, DJC (2003), Теория информации, алгоритмы вывода и обучения , Cambridge University Press, ISBN 978-0-521-64298-9
Арндт, К. (2004), Информационные меры: информация и ее описание в науке и технике , Springer, ISBN 978-3-540-40855-0
Грей, Р.М. (2011), Теория энтропии и информации , Springer.
Мартин, Натаниэль ФГ; Англия, Джеймс В. (2011). Математическая теория энтропии. Издательство Кембриджского университета. ISBN 978-0-521-17738-2.
Шеннон, CE , Уивер, В. (1949) Математическая теория связи , Univ of Illinois Press. ISBN 0-252-72548-4
Стоун, СП (2014), Глава 1 теории информации: введение в учебное пособие, Университет Шеффилда, Англия. ISBN 978-0956372857 .

Внешние ссылки

В Wikibooks есть книга на тему: Интуитивное руководство по концепции энтропии, возникающей в различных секторах науки.

«Энтропия», Математическая энциклопедия , EMS Press , 2001 [1994]
«Энтропия» в Rosetta Code — хранилище реализаций энтропии Шеннона на разных языках программирования.
Entropy - междисциплинарный журнал, посвященный всем аспектам концепции энтропии. Открытый доступ.

Энтропия (теория информации)

Введение

Пример

Определение

Теория меры

Пример

Характеристика

Альтернативная характеристика

Обсуждение

Альтернативная характеристика через аддитивность и субаддитивность

Обсуждение

Дополнительные свойства

Аспекты

Связь с термодинамической энтропией

Сжатие данных

Энтропия как мера разнообразия

Энтропия последовательности

Ограничения энтропии в криптографии

Данные как марковский процесс

Эффективность (нормированная энтропия)

Энтропия для непрерывных случайных величин

Дифференциальная энтропия

Предельная плотность дискретных точек

Относительная энтропия

Использование в теории чисел

Использование в комбинаторике

Неравенство Лумиса – Уитни

Приближение к биномиальному коэффициенту

Использование в машинном обучении

Смотрите также

Рекомендации

дальнейшее чтение

Учебники по теории информации

Внешние ссылки