stringtranslate.com

Энтропия (теория информации)

В теории информации энтропия случайной величины — это средний уровень «информации», «неожиданности» или «неопределенности», присущий возможным результатам переменной. Учитывая дискретную случайную величину , которая принимает значения в алфавите и распределяется согласно , энтропия равна

логарифмабитовшеннонenatхартлиожидаемое значениеинформации[1]
Два бита энтропии: в случае двух честных бросков монеты информационная энтропия в битах представляет собой логарифм числа возможных результатов по основанию 2 с двумя монетами есть четыре возможных результата и два бита энтропии. Как правило, информационная энтропия — это средний объем информации, передаваемой событием, с учетом всех возможных результатов.

Понятие информационной энтропии было введено Клодом Шенноном в его статье 1948 года « Математическая теория коммуникации » [2] [3] и также называется энтропией Шеннона . Теория Шеннона определяет систему передачи данных , состоящую из трех элементов: источника данных, канала связи и приемника. «Фундаментальная проблема коммуникации», как выразился Шеннон, заключается в том, чтобы приемник мог определить, какие данные были сгенерированы источником, на основе сигнала, который он получает по каналу. [2] [3] Шеннон рассмотрел различные способы кодирования, сжатия и передачи сообщений из источника данных и в своей знаменитой теореме кодирования источника доказал , что энтропия представляет собой абсолютный математический предел того, насколько хорошо данные из источника могут быть сжаты без потерь . на совершенно бесшумный канал. Шеннон значительно усилил этот результат для шумных каналов в своей теореме о кодировании шумных каналов .

Энтропия в теории информации прямо аналогична энтропии в статистической термодинамике . Аналогия возникает, когда значения случайной величины обозначают энергии микросостояний, поэтому формула Гиббса для энтропии формально идентична формуле Шеннона. Энтропия имеет отношение к другим областям математики, таким как комбинаторика и машинное обучение . Это определение можно вывести из набора аксиом, устанавливающих, что энтропия должна быть мерой того, насколько информативен средний результат переменной. Для непрерывной случайной величины дифференциальная энтропия аналогична энтропии. Определение обобщает вышеизложенное.

Введение

Основная идея теории информации заключается в том, что «информационная ценность» передаваемого сообщения зависит от степени неожиданности содержания сообщения. Если происходит весьма вероятное событие, сообщение несет очень мало информации. С другой стороны, если происходит маловероятное событие, сообщение будет гораздо более информативным. Например, знание того, что какое-то конкретное число не будет выигрышным в лотерее, дает очень мало информации, поскольку любое конкретное выбранное число почти наверняка не выиграет. Однако знание о том, что определенное число выиграет в лотерею, имеет высокую информационную ценность, поскольку сообщает о результате события с очень низкой вероятностью.

Информационное содержание события , также называемое неожиданностью или самоинформацией, представляет собой функцию, которая увеличивается по мере уменьшения вероятности события. Когда значение близко к 1, неожиданность события низкая, но если оно близко к 0, неожиданность события высока. Эта связь описывается функцией

логарифм[4]log§ Характеристика

Следовательно, мы можем определить информацию или неожиданность события как

Энтропия измеряет ожидаемое (т. е. среднее) количество информации, передаваемой путем определения результата случайного испытания. [5] : 67  Это означает, что энтропия при броске игральной кости выше, чем при подбрасывании монеты, поскольку каждый результат броска игральной кости имеет меньшую вероятность ( ), чем каждый результат броска монеты ( ).

Рассмотрим монету с вероятностью p выпадения орла и вероятностью 1 − p выпадения решки. Максимальный сюрприз – это случай, когда p = 1/2 , при котором один результат не ожидается по сравнению с другим. В этом случае энтропия подбрасывания монеты равна одному биту . (Аналогично, один трит с равновероятными значениями содержит (около 1,58496) бит информации, поскольку он может иметь одно из трех значений.) Минимальным сюрпризом является ситуация, когда p = 0 или p = 1 , когда результат события известен заранее, и энтропия равна нулю. Когда энтропия равна нулю, это иногда называют единицей, где вообще нет неопределенности – нет свободы выбора – нет информации . Другие значения p дают энтропию между нулем и единицей битов.

Пример

Теория информации полезна для расчета наименьшего количества информации, необходимой для передачи сообщения, например, при сжатии данных . Например, рассмотрим передачу последовательностей, содержащих 4 символа «A», «B», «C» и «D», по двоичному каналу. Если все 4 буквы равновероятны (25%), для кодирования каждой буквы лучше использовать два бита. «A» может кодироваться как «00», «B» как «01», «C» как «10» и «D» как «11». Однако, если вероятности каждой буквы неравны, скажем, «A» встречается с вероятностью 70%, «B» с вероятностью 26%, а «C» и «D» с вероятностью 2% каждая, можно назначить коды переменной длины. В этом случае «А» будет кодироваться как «0», «В» как «10», «С» как «110» и «D» как «111». При таком представлении в 70% случаев необходимо отправить только один бит, в 26% случаев — два бита и только в 4% случаев — 3 бита. В среднем требуется менее 2 битов, поскольку энтропия ниже (из-за высокой распространенности «А», за которым следует «В» — вместе 96% символов). Вычисление суммы вероятностно-взвешенных логарифмических вероятностей измеряет и отражает этот эффект. Английский текст, рассматриваемый как строка символов, имеет довольно низкую энтропию; т.е. это достаточно предсказуемо. Мы можем быть совершенно уверены, что, например, «е» будет гораздо более распространено, чем «z», что сочетание «цюй» будет гораздо более распространено, чем любое другое сочетание с «q» в нем, и что сочетание «th» будет более распространенным, чем «z», «q» или «qu». По первым буквам зачастую можно угадать остальную часть слова. Английский текст имеет от 0,6 до 1,3 бит энтропии на символ сообщения. [6] : 234 

Определение

Названная в честь Η-теоремы Больцмана , Шеннон определил энтропию Η (греческая заглавная буква эта ) дискретной случайной величины , которая принимает значения в алфавите и распределяется так, что :

Вот оператор ожидаемого значения , а I — информационное содержание X. [7] : 11  [8] : 19–20  само по себе является случайной величиной.

Энтропию можно явно записать как:

bоснование используемогоbчисло Эйлера eдля= 2natsb = eзапретыb = 10[9]

В случае для некоторых значение соответствующего слагаемого 0 log b (0) принимается равным 0 , что соответствует пределу : [ 10] : 13 

Можно также определить условную энтропию двух переменных и принимать значения из наборов и соответственно как: [10] : 16 

Теория меры

Энтропию можно формально определить на языке теории меры следующим образом: [11] Пусть — вероятностное пространство . Пусть будет событием . Сюрприз _ _ _

Ожидаемый сюрприз _ _

-почти раздел — это такое семейство множеств , что и для всех различных . (Это смягчение обычных условий разбиения.) Энтропия равна

Пусть – сигма-алгебра на . Энтропия _

всех

Пример

Энтропия Η( X ) (т.е. ожидаемый сюрприз ) подбрасывания монеты, измеренная в битах, отображается на графике в зависимости от смещения монеты Pr( X = 1) , где X = 1 представляет собой результат выпадения орла. [10] : 14–15 

Здесь энтропия составляет не более 1 бита, и для сообщения результата подбрасывания монеты (2 возможных значения) потребуется в среднем не более 1 бита (ровно 1 бит для честной монеты). Результат честного кубика (6 возможных значений) будет иметь энтропию log 2 6 бит.

Рассмотрим подбрасывание монеты с известной, но не обязательно справедливой вероятностью выпадения орла или решки; это можно смоделировать как процесс Бернулли .

Энтропия неизвестного результата следующего подбрасывания монеты максимизируется, если монета честная (то есть если орел и решка имеют равную вероятность 1/2). Это ситуация максимальной неопределенности, поскольку предсказать исход следующего броска труднее всего; результат каждого подбрасывания монеты дает один полный бит информации. Это потому что

Однако, если мы знаем, что монета нечестная, но выпадает орел или решка с вероятностью p и q , где pq , тогда неопределенности меньше. Каждый раз, когда его бросают, одна сторона поднимается с большей вероятностью, чем другая. Снижение неопределенности количественно выражается в более низкой энтропии: в среднем каждый бросок монеты дает менее одного полного бита информации. Например, если р = 0,7, то

Равномерная вероятность дает максимальную неопределенность и, следовательно, максимальную энтропию. Таким образом, энтропия может уменьшаться только по сравнению со значением, связанным с равномерной вероятностью. Крайним случаем является двусторонняя монета, у которой никогда не выпадает решка, или двусторонняя монета, у которой никогда не выпадает решка. Тогда нет никакой неопределенности. Энтропия равна нулю: каждый бросок монеты не дает новой информации, поскольку результат каждого броска монеты всегда определен. [10] : 14–15 

Характеристика

Чтобы понять значение −Σ p i log( p i ) , сначала определите информационную функцию I в терминах события i с вероятностью p i . Количество информации, полученной в результате наблюдения события i, следует из решения Шеннона фундаментальных свойств информации : [12]

  1. I( p ) монотонно убывает по p : увеличение вероятности события уменьшает информацию от наблюдаемого события, и наоборот.
  2. I(1) = 0 : события, которые происходят всегда, не передают информацию.
  3. I( p1 · p2 ) = I( p1 ) + I( p2 ) : информация , полученная из независимых событий , представляет собой сумму информации, полученной из каждого события.

Учитывая два независимых события, если первое событие может дать один из n равновероятных исходов, а другое имеет один из m равновероятных исходов, то существует mn равновероятных исходов совместного события. Это означает, что если биты log 2 ( n ) необходимы для кодирования первого значения, а биты log 2 ( m ) — для кодирования второго, то для кодирования обоих требуется log 2 ( mn ) = log 2 ( m ) + log 2 ( n ). .

Шеннон обнаружил, что подходящий выбор определяется следующим образом: [13]

Фактически, единственные возможные значения — для . Кроме того, выбор значения для k эквивалентен выбору значения для , так что x соответствует основанию логарифма . Таким образом, энтропия характеризуется четырьмя вышеперечисленными свойствами.

Различные единицы информации ( биты для двоичного логарифма log 2 , nats для натурального логарифма ln , запреты для десятичного логарифма log 10 и т. д.) являются постоянными кратными друг другу. Например, в случае честного подбрасывания монеты орел предоставляет log 2 (2) = 1 бит информации, что составляет примерно 0,693 натс или 0,301 десятичной цифры. Из-за аддитивности n бросков предоставляют n бит информации, что составляет примерно 0,693 n nats или 0,301 n десятичных цифр.

Смысл наблюдаемых событий (смысл сообщений ) не имеет значения в определении энтропии. Энтропия учитывает только вероятность наблюдения конкретного события, поэтому инкапсулируемая ею информация — это информация об основном распределении вероятностей , а не о значении самих событий.

Альтернативная характеристика

Другая характеристика энтропии использует следующие свойства. Обозначим p i = Pr( X = x i ) и Η n ( p 1 , ..., p n ) = Η ( X ) .

  1. Непрерывность: H должна быть непрерывной , так что изменение значений вероятностей на очень небольшую величину должно изменить энтропию лишь на небольшую величину.
  2. Симметрия: H не должен меняться, если исходы x i переупорядочиваются. То есть для любой перестановки .
  3. Максимум: должен быть максимальным, если все исходы равновероятны, т.е.
  4. Увеличение числа исходов: для равновероятных событий энтропия должна увеличиваться с увеличением количества исходов, т.е.
  5. Аддитивность: для данного ансамбля из n равномерно распределенных элементов, которые разбиты на k блоков (подсистем) по b 1 , ..., b k элементов в каждой, энтропия всего ансамбля должна быть равна сумме энтропии система ящиков и отдельные энтропии ящиков, каждая из которых взвешена с вероятностью нахождения в этом конкретном ящике.

Обсуждение

Правило аддитивности имеет следующие последствия: для натуральных чисел b i где b 1 + ... + b k = n ,

Выбор k = n , b 1 = ... = bn = 1 означает, что энтропия определенного результата равна нулю: Η 1 (1) = 0 . Это означает, что эффективность исходного алфавита с n символами можно определить просто как равную его n -арной энтропии. См. также Избыточность (теория информации) .

Характеризация здесь налагает аддитивное свойство по отношению к разбиению множества . Между тем, условная вероятность определяется в терминах мультипликативного свойства . Обратите внимание, что логарифм является промежуточным звеном между этими двумя операциями. Условная энтропия и связанные с ней величины, в свою очередь, наследуют простое соотношение. Определение теории меры в предыдущем разделе определяло энтропию как сумму ожидаемых сюрпризов для экстремального разделения. Здесь логарифм является специальным, а энтропия сама по себе не является мерой. По крайней мере, в теории информации двоичная строка поддается практическим интерпретациям.

На основе таких отношений было определено множество связанных и конкурирующих величин. Например, анализ Дэвида Эллермана «логики разделов» определяет конкурирующую меру в структурах, двойственных мерам подмножеств универсального множества. [14] Информация количественно выражается как «диты» (различия), мера по разделам. «Диты» можно преобразовать в биты Шеннона , чтобы получить формулы условной энтропии и так далее.

Альтернативная характеристика через аддитивность и субаддитивность

Другая краткая аксиоматическая характеристика энтропии Шеннона была дана Акселем , Форте и Нг [15] посредством следующих свойств:

  1. Субаддитивность: для совместно распределенных случайных величин .
  2. Аддитивность: когда случайные величины независимы.
  3. Расширяемость: т. е. добавление результата с нулевой вероятностью не меняет энтропию.
  4. Симметрия: инвариантна при перестановке .
  5. Малый для малых вероятностей: .

Обсуждение

Было показано, что любая функция, удовлетворяющая вышеуказанным свойствам, должна быть постоянной кратной энтропии Шеннона с неотрицательной константой. [15] По сравнению с ранее упомянутыми характеристиками энтропии, эта характеристика фокусируется на свойствах энтропии как функции случайных величин (субаддитивность и аддитивность), а не на свойствах энтропии как функции вектора вероятности .

Стоит отметить, что если отбросить свойство «малых для малых вероятностей», то должна получиться неотрицательная линейная комбинация энтропии Шеннона и энтропии Хартли . [15]

Дополнительные свойства

Энтропия Шеннона удовлетворяет следующим свойствам, для некоторых из которых полезно интерпретировать энтропию как ожидаемое количество полученной информации (или устраненной неопределенности) путем выявления значения случайной величины X :

.
. [10] : 29 
Итак , энтропия переменной может уменьшаться только тогда, когда последняя передается через функцию.
. [10] : 29 
для всех функций вероятности и . [10] : 32 

Аспекты

Связь с термодинамической энтропией

Вдохновением для принятия слова « энтропия» в теории информации послужило близкое сходство между формулой Шеннона и очень похожими известными формулами статистической механики .

В статистической термодинамике наиболее общей формулой термодинамической энтропии S термодинамической системы является энтропия Гиббса.

где k Bпостоянная Больцмана , а pi вероятность микросостояния . Энтропия Гиббса была определена Дж. Уиллардом Гиббсом в 1878 году после более ранней работы Больцмана (1872). [16]

Энтропия Гиббса практически без изменений переводится в мир квантовой физики, давая энтропию фон Неймана , введенную Джоном фон Нейманом в 1927 году:

где ρ — матрица плотности квантовомеханической системы, а Tr — след . [17]

На повседневном практическом уровне связь между информационной энтропией и термодинамической энтропией неочевидна. Физики и химики склонны больше интересоваться изменениями энтропии по мере того, как система самопроизвольно развивается от своих начальных условий в соответствии со вторым законом термодинамики , а не неизменным распределением вероятностей. Как показывает мелочность константы Больцмана k B , изменения S / k B даже для крошечных количеств веществ в химических и физических процессах представляют собой количества энтропии, которые чрезвычайно велики по сравнению с чем-либо при сжатии данных или обработке сигналов . В классической термодинамике энтропия определяется с точки зрения макроскопических измерений и не имеет отношения к какому-либо распределению вероятностей, которое является центральным для определения информационной энтропии.

Связь между термодинамикой и тем, что сейчас известно как теория информации, была впервые установлена ​​Людвигом Больцманом и выражена его знаменитым уравнением :

где - термодинамическая энтропия конкретного макросостояния (определяемая термодинамическими параметрами, такими как температура, объем, энергия и т. д.), W - количество микросостояний (различных комбинаций частиц в различных энергетических состояниях), которые могут создать данное макросостояние, и k Bпостоянная Больцмана . [18] Предполагается, что каждое микросостояние равновероятно, так что вероятность данного микросостояния равна pi = 1/ W . Когда эти вероятности подставляются в приведенное выше выражение для энтропии Гиббса (или, что эквивалентно, в k B раз больше энтропии Шеннона), получается уравнение Больцмана. С точки зрения теории информации, информационная энтропия системы — это количество «недостающей» информации, необходимой для определения микросостояния с учетом макросостояния.

По мнению Джейнса (1957), [19] термодинамическую энтропию, объясненную статистической механикой , следует рассматривать как применение теории информации Шеннона: термодинамическая энтропия интерпретируется как пропорциональная количеству дополнительной информации Шеннона, необходимой для определения детальное микроскопическое состояние системы, которое остается непередаваемым при описании исключительно в терминах макроскопических переменных классической термодинамики, при этом константа пропорциональности является просто константой Больцмана . Добавление тепла к системе увеличивает ее термодинамическую энтропию, поскольку увеличивает количество возможных микроскопических состояний системы, которые согласуются с измеримыми значениями ее макроскопических переменных, что делает любое полное описание состояния более длинным. (См. статью: Термодинамика максимальной энтропии ). Демон Максвелла может (гипотетически) уменьшить термодинамическую энтропию системы, используя информацию о состояниях отдельных молекул; но, как показали Ландауэр (с 1961 г.) и его коллеги [20] , для функционирования демон сам должен увеличить термодинамическую энтропию в процессе, по крайней мере, на количество информации Шеннона, которую он предлагает сначала получить и сохранить; и поэтому полная термодинамическая энтропия не уменьшается (что разрешает парадокс). Принцип Ландауэра устанавливает нижнюю границу количества тепла, которое компьютер должен вырабатывать для обработки заданного объема информации, хотя современные компьютеры гораздо менее эффективны.

Сжатие данных

Определение энтропии, данное Шенноном, применительно к источнику информации, может определить минимальную пропускную способность канала, необходимую для надежной передачи источника в виде закодированных двоичных цифр. Энтропия Шеннона измеряет информацию, содержащуюся в сообщении, а не ту часть сообщения, которая определена (или предсказуема). Примеры последнего включают избыточность в языковой структуре или статистические свойства, связанные с частотами появления пар букв или слов, троек и т. д. Минимальная пропускная способность канала может быть реализована теоретически с использованием типичного набора или на практике с использованием Хаффмана , Лемпеля-Зива или арифметическое кодирование . (См. также сложность Колмогорова .) На практике алгоритмы сжатия намеренно включают некоторую разумную избыточность в виде контрольных сумм для защиты от ошибок. Уровень энтропии источника данных — это среднее количество бит на символ, необходимое для его кодирования. Эксперименты Шеннона с людьми-предсказателями показывают скорость передачи информации от 0,6 до 1,3 бита на символ в английском языке; [21] Алгоритм сжатия PPM может обеспечить степень сжатия 1,5 бита на символ в английском тексте.

Если схема сжатия без потерь – та, в которой вы всегда можете восстановить все исходное сообщение путем распаковки – тогда сжатое сообщение содержит то же количество информации, что и исходное, но передается меньшим количеством символов. Он имеет больше информации (более высокую энтропию) на символ. Сжатое сообщение имеет меньшую избыточность . Теорема Шеннона о кодировании исходного кода утверждает, что схема сжатия без потерь не может сжимать сообщения в среднем так, чтобы в каждом бите сообщения содержалось более одного бита информации, но что любое значение меньше одного бита информации на бит сообщения может быть достигнуто путем использования подходящего метода. схема кодирования. Энтропия сообщения на бит, умноженная на длину этого сообщения, является мерой того, сколько общей информации содержит сообщение. Теорема Шеннона также подразумевает, что ни одна схема сжатия без потерь не может сократить все сообщения. Если некоторые сообщения выходят короче, хотя бы одно должно выйти длиннее из-за принципа «ячейки» . При практическом использовании это, как правило, не является проблемой, поскольку обычно интересуются только сжатием определенных типов сообщений, например документов на английском языке, а не бессмысленного текста или цифровых фотографий, а не шума, и неважно, если Алгоритм сжатия увеличивает некоторые маловероятные или неинтересные последовательности.

Исследование, опубликованное в журнале Science в 2011 году, оценивает мировые технологические возможности для хранения и передачи оптимально сжатой информации, нормализованной с помощью наиболее эффективных алгоритмов сжатия, доступных в 2007 году, таким образом оценивая энтропию технологически доступных источников. [22] : 60–65 

Авторы оценивают технологические возможности человечества по хранению информации (полностью энтропийно сжатой) в 1986 году и снова в 2007 году. Они разбивают информацию на три категории — хранить информацию на носителе, получать информацию через односторонние сети вещания или обмениваться информацией. через двусторонние телекоммуникационные сети. [22]

Энтропия как мера разнообразия

Энтропия является одним из нескольких способов измерения биоразнообразия и применяется в форме индекса Шеннона . [23] Индекс разнообразия — это количественная статистическая мера того, сколько различных типов существует в наборе данных, например видов в сообществе, с учетом экологического богатства , равномерности и доминирования . В частности, энтропия Шеннона представляет собой логарифм 1 D , истинного индекса разнообразия с параметром, равным 1. Индекс Шеннона связан с пропорциональным обилием типов.

Энтропия последовательности

Существует ряд концепций, связанных с энтропией, которые математически количественно определяют информационное содержание последовательности или сообщения:

(«Скорость самоинформации» также может быть определена для определенной последовательности сообщений или символов, генерируемых данным случайным процессом: она всегда будет равна скорости энтропии в случае стационарного процесса . ) Другие количества информации также используются для сравнения или связи различных источников информации.

Важно не путать приведенные выше понятия. Часто только из контекста становится ясно, о каком из них идет речь. Например, когда кто-то говорит, что «энтропия» английского языка составляет около 1 бита на символ, на самом деле он моделирует английский язык как случайный процесс и говорит о уровне его энтропии . Сам Шеннон использовал этот термин именно так.

Если используются очень большие блоки, оценка уровня энтропии на каждый символ может стать искусственно заниженной, поскольку распределение вероятностей последовательности точно не известно; это всего лишь оценка. Если рассматривать текст каждой когда-либо опубликованной книги как последовательность, где каждый символ представляет собой текст полной книги, и если имеется N опубликованных книг и каждая книга публикуется только один раз, то оценка вероятности появления каждой книги будет равна 1/ N , а энтропия (в битах) равна −log 2 (1/ N ) = log 2 ( N ) . На практике это соответствует присвоению каждой книге уникального идентификатора и использованию его вместо текста книги всякий раз, когда кто-то хочет сослаться на книгу. Это чрезвычайно полезно для разговоров о книгах, но не столь полезно для характеристики информационного содержания отдельной книги или языка в целом: невозможно восстановить книгу по ее идентификатору, не зная распределения вероятностей, т.е. , полный текст всех книг. Ключевая идея заключается в том, что необходимо учитывать сложность вероятностной модели. Колмогоровская сложность — это теоретическое обобщение этой идеи, позволяющее рассматривать информативность последовательности независимо от какой-либо конкретной вероятностной модели; он рассматривает кратчайшую программу для универсального компьютера , выводящую последовательность. Код, который достигает уровня энтропии последовательности для данной модели плюс кодовая книга (т. е. вероятностная модель), является одной из таких программ, но, возможно, не самой короткой.

Последовательность Фибоначчи — это 1, 1, 2, 3, 5, 8, 13, .... рассматривая последовательность как сообщение, а каждое число как символ, символов почти столько же, сколько символов в сообщении, что дает энтропия приблизительно равна log 2 ( n ) . Первые 128 символов последовательности Фибоначчи имеют энтропию примерно 7 бит/символ, но последовательность можно выразить с помощью формулы [ F( n ) = F( n −1) + F( n −2) для n = 3 , 4, 5, ... , F(1) =1 , F(2) = 1 ] и эта формула имеет гораздо меньшую энтропию и применима к любой длине последовательности Фибоначчи.

Ограничения энтропии в криптографии

В криптоанализе энтропия часто грубо используется как мера непредсказуемости криптографического ключа, хотя ее реальная неопределенность неизмерима. Например, 128-битный ключ, который генерируется равномерно и случайным образом, имеет энтропию 128 бит. Также требуются (в среднем) догадки, чтобы взломать грубую силу. Энтропия не может уловить необходимое количество предположений, если возможные ключи выбраны неравномерно. [24] [25] Вместо этого для измерения усилий, необходимых для грубой атаки, можно использовать меру, называемую догадками . [26]

Другие проблемы могут возникнуть из-за неравномерности распределений, используемых в криптографии. Например, двоичный одноразовый блокнот на 1 000 000 цифр с использованием исключающего или. Если блокнот имеет 1 000 000 бит энтропии, он идеален. Если блокнот имеет 999 999 бит энтропии, распределенной равномерно (каждый отдельный бит блока имеет 0,999999 бит энтропии), это может обеспечить хорошую безопасность. Но если блокнот имеет 999 999 бит энтропии, где первый бит фиксирован, а остальные 999 999 бит совершенно случайны, первый бит зашифрованного текста вообще не будет зашифрован.

Данные как марковский процесс

Распространенный способ определения энтропии текста основан на марковской модели текста. Для источника нулевого порядка (каждый символ выбирается независимо от последних символов) двоичная энтропия равна:

где p i - вероятность i . Для марковского источника первого порядка (того, в котором вероятность выбора символа зависит только от непосредственно предшествующего символа) уровень энтропии равен:

[ нужна цитата ]

где iсостояние (некоторые предшествующие символы), а — вероятность j , учитывая i в качестве предыдущего символа.

Для марковского источника второго порядка уровень энтропии равен

Эффективность (нормированная энтропия)

Исходный алфавит с неравномерным распределением будет иметь меньшую энтропию, чем если бы эти символы имели равномерное распределение (т. е. «оптимизированный алфавит»). Этот дефицит энтропии можно выразить как соотношение, называемое эффективностью [27] :

Применяя основные свойства логарифма, эту величину можно также выразить как:

Эффективность полезна для количественной оценки эффективного использования канала связи . Эту формулировку также называют нормализованной энтропией, поскольку энтропия делится на максимальную энтропию . Более того, эффективность безразлична к выбору (положительного) основания b , на что указывает нечувствительность к последнему логарифму выше.

Энтропия для непрерывных случайных величин

Дифференциальная энтропия

Энтропия Шеннона ограничена случайными величинами, принимающими дискретные значения. Соответствующая формула для непрерывной случайной величины с функцией плотности вероятности f ( x ) с конечным или бесконечным носителем на действительной прямой определяется по аналогии, используя приведенную выше форму энтропии в качестве математического ожидания: [10] : 224 

Это дифференциальная энтропия (или непрерывная энтропия). Предвестником непрерывной энтропии h [ f ] является выражение для функционала Н в Н- теореме Больцмана .

Хотя аналогия между обеими функциями наводит на размышления, необходимо задать следующий вопрос: является ли дифференциальная энтропия действительным расширением дискретной энтропии Шеннона? Дифференциальной энтропии не хватает ряда свойств, которыми обладает дискретная энтропия Шеннона – она может быть даже отрицательной – и были предложены поправки, в частности, ограничивающие плотность дискретных точек .

Чтобы ответить на этот вопрос, необходимо установить связь между двумя функциями:

Чтобы получить вообще конечную меру, когда размер ячейки стремится к нулю. В дискретном случае размер интервала представляет собой (неявную) ширину каждого из n (конечных или бесконечных) интервалов, вероятности которых обозначаются p n . Поскольку непрерывная область обобщена, ширину необходимо указать явно.

Чтобы сделать это, начните с непрерывной функции f , дискретизированной на ячейки размером . По теореме о среднем значении в каждом интервале существует такое значение x i , что

f

Мы будем обозначать

При ∆ → 0 имеем

Примечание; log(Δ) → −∞ при Δ → 0 требует специального определения дифференциальной или непрерывной энтропии:

которая, как было сказано ранее, называется дифференциальной энтропией. Это означает, что дифференциальная энтропия не является пределом энтропии Шеннона при n → ∞ . Скорее, он отличается от предела энтропии Шеннона бесконечным смещением (см. также статью об информационном измерении ).

Предельная плотность дискретных точек

В результате оказывается, что, в отличие от энтропии Шеннона, дифференциальная энтропия вообще не является хорошей мерой неопределенности или информации. Например, дифференциальная энтропия может быть отрицательной; также он не инвариантен относительно непрерывных преобразований координат. Эту проблему можно проиллюстрировать изменением единиц измерения, когда x является размерной переменной. f ( x ) тогда будет иметь единицы измерения 1/ x . Аргумент логарифма должен быть безразмерным, иначе он неправильный, так что дифференциальная энтропия, указанная выше, будет несобственной. Если Δ является некоторым «стандартным» значением x (т.е. «размером контейнера») и, следовательно, имеет те же единицы измерения, то модифицированную дифференциальную энтропию можно записать в правильной форме как:

и результат будет одинаковым для любого выбора единиц измерения x . Фактически, предел дискретной энтропии также включает в себя член , который в общем случае будет бесконечным. Это ожидаемо: непрерывные переменные обычно имеют бесконечную энтропию при дискретизации. Предельная плотность дискретных точек на самом деле является мерой того, насколько легче описать распределение, чем распределение, однородное по схеме квантования.

Относительная энтропия

Еще одна полезная мера энтропии, которая одинаково хорошо работает как в дискретном, так и в непрерывном случае, — это относительная энтропия распределения. Оно определяется как расхождение Кульбака – Лейблера от распределения до эталонной меры m следующим образом. Предположим, что распределение вероятностей p абсолютно непрерывно относительно меры m , т.е. имеет вид p ( dx ) = f ( x ) m ( dx ) для некоторой неотрицательной m -интегрируемой функции f с m -интегралом 1, тогда относительную энтропию можно определить как

В этом виде относительная энтропия обобщает (с точностью до смены знака) как дискретную энтропию, где мера m является считающей мерой , так и дифференциальную энтропию, где мера m является мерой Лебега . Если мера m сама по себе является распределением вероятностей, относительная энтропия неотрицательна и равна нулю, если p = m в качестве меры. Он определен для любого пространства с мерой, следовательно, независим от координат и инвариантен относительно перепараметризации координат, если правильно принять во внимание преобразование меры m . Относительная энтропия, а также (неявно) энтропия и дифференциальная энтропия действительно зависят от «эталонной» меры m .

Использование в теории чисел

Теренс Тао использовал энтропию, чтобы установить полезную связь, пытаясь решить проблему несоответствия Эрдеша . [28]

Интуитивно идея доказательства заключалась в том, что между последовательными случайными величинами имеется низкая информация с точки зрения энтропии Шеннона (здесь случайная величина определяется с помощью функции Лиувилля (которая является полезной математической функцией для изучения распределения простых чисел) X H = . И в интервале [n, n+H] сумма в этом интервале может стать сколь угодно большой. Например, последовательность +1 (которые могут принимать значения X H' ) имеют тривиально низкую энтропию, и их сумма станет большой Но ключевой вывод заключался в том, чтобы показать уменьшение энтропии на немалую величину при расширении H, что, в свою очередь, привело к неограниченному росту математического объекта по этой случайной величине, что эквивалентно показу неограниченного роста в соответствии с проблемой несоответствия Эрдеша .

Доказательство весьма сложное, и оно привело к прорывам не только в новом использовании энтропии Шеннона, но и в использовании функции Лиувилля вместе со средними значениями модулированных мультипликативных функций на коротких интервалах. Доказательство этого также сломало «паритетный барьер» для этой конкретной проблемы.

Хотя использование энтропии Шеннона в доказательстве является новым, оно, вероятно, откроет новые исследования в этом направлении.

Использование в комбинаторике

Энтропия стала полезной величиной в комбинаторике .

Неравенство Лумиса – Уитни

Простым примером этого является альтернативное доказательство неравенства Лумиса–Уитни : для каждого подмножества AZ d мы имеем

где Piортогональная проекция по i- й координате :

Доказательство представляет собой простое следствие неравенства Ширера : если X 1 , ..., X d — случайные величины, а S 1 , ..., Sn подмножества {1, ..., d } такие, что каждое целое число между 1 и d лежит ровно в r из этих подмножеств, то

где – декартово произведение случайных величин X j с индексами j в Si (поэтому размерность этого вектора равна размеру Si ) .

Мы обрисуем, как из этого следует Лумис-Уитни: Действительно, пусть X — равномерно распределенная случайная величина со значениями в A и так, что каждая точка в A встречается с равной вероятностью. Тогда (в силу упомянутых выше дополнительных свойств энтропии) Η( X ) = log| А | , где | А | обозначает мощность A . Пусть S i = {1, 2, ..., i −1, i +1, ..., d }. Диапазон содержится в Pi ( A ) и , следовательно , . Теперь используйте это, чтобы ограничить правую часть неравенства Ширера и возвести в степень противоположные части полученного неравенства.

Приближение к биномиальному коэффициенту

Для целых чисел 0 < k < n пусть q = k / n . Затем

где

[29] : 43 

Хорошая интерпретация этого состоит в том, что количество двоичных строк длины n , содержащих ровно k многих единиц, составляет приблизительно . [30]

Использование в машинном обучении

Методы машинного обучения в основном возникают из статистики, а также из теории информации. В общем, энтропия — это мера неопределенности, а цель машинного обучения — минимизировать неопределенность.

Алгоритмы обучения дерева решений используют относительную энтропию для определения правил принятия решений, которые управляют данными в каждом узле. [31] Прирост информации в деревьях решений , который равен разнице между энтропией и условной энтропией данного , количественно определяет ожидаемую информацию или уменьшение энтропии от дополнительного знания значения атрибута . Полученная информация используется для определения того, какие атрибуты набора данных предоставляют больше всего информации, и их следует использовать для оптимального разделения узлов дерева.

Модели байесовского вывода часто применяют принцип максимальной энтропии для получения априорных распределений вероятностей. [32] Идея состоит в том, что распределение, которое лучше всего отражает текущее состояние знаний о системе, имеет наибольшую энтропию и, следовательно, подходит в качестве априорного.

Классификация в машинном обучении, выполняемая с помощью логистической регрессии или искусственных нейронных сетей, часто использует стандартную функцию потерь, называемую перекрестной энтропией , которая минимизирует среднюю перекрестную энтропию между фактическими и предсказанными распределениями. [33] В общем, перекрестная энтропия — это мера различий между двумя наборами данных, аналогичная расхождению KL (также известному как относительная энтропия).

Смотрите также

Рекомендации

  1. ^ Патрия, РК; Бил, Пол (2011). Статистическая механика (Третье изд.). Академическая пресса. п. 51. ИСБН 978-0123821881.
  2. ^ аб Шеннон, Клод Э. (июль 1948 г.). «Математическая теория связи» . Технический журнал Bell System . 27 (3): 379–423. doi :10.1002/j.1538-7305.1948.tb01338.x. hdl : 10338.dmlcz/101429 .(PDF, заархивировано отсюда)
  3. ^ аб Шеннон, Клод Э. (октябрь 1948 г.). «Математическая теория связи» . Технический журнал Bell System . 27 (4): 623–656. doi :10.1002/j.1538-7305.1948.tb00917.x. hdl : 11858/00-001M-0000-002C-4317-B .(PDF, заархивировано отсюда)
  4. ^ «Энтропия (для науки о данных) ясно объяснена !!!» — через YouTube .
  5. ^ Маккей, Дэвид Дж. К. (2003). Теория информации, вывод и алгоритмы обучения. Издательство Кембриджского университета. ISBN 0-521-64298-1.
  6. ^ Шнайер, Б: Прикладная криптография , второе издание, Джон Уайли и сыновья.
  7. ^ Борда, Моника (2011). Основы теории информации и кодирования. Спрингер. ISBN 978-3-642-20346-6.
  8. ^ Хан, Те Сун; Кобаяши, Кинго (2002). Математика информации и кодирования. Американское математическое общество. ISBN 978-0-8218-4256-0.
  9. ^ Шнайдер, Т.Д., Букварь по теории информации с приложением по логарифмам [ постоянная мертвая ссылка ] , Национальный институт рака, 14 апреля 2007 г.
  10. ^ abcdefghijk Томас М. Обложка; Джой А. Томас (1991). Элементы теории информации . Хобокен, Нью-Джерси: Уайли. ISBN 978-0-471-24195-9.
  11. ^ Энтропия в n Lab
  12. ^ Картер, Том (март 2014 г.). Введение в теорию информации и энтропию (PDF) . Санта-Фе . Проверено 4 августа 2017 г.{{cite book}}: CS1 maint: location missing publisher (link)
  13. ^ Чакрабарти, К.Г. и Индранил Чакрабарти. «Энтропия Шеннона: аксиоматическая характеристика и применение». Международный журнал математики и математических наук 2005. 17 (2005): 2847-2854 URL.
  14. ^ Эллерман, Дэвид (октябрь 2017 г.). «Теория логической информации: новые логические основы теории информации» (PDF) . Логический журнал IGPL . 25 (5): 806–835. дои : 10.1093/jigpal/jzx022 . Проверено 2 ноября 2022 г.
  15. ^ abc Ачель, Дж.; Форте, Б.; Нг, Коннектикут (1974). «Почему энтропии Шеннона и Хартли «естественны»«. Достижения в области прикладной теории вероятностей . 6 (1): 131–146. doi : 10.2307/1426210. JSTOR  1426210. S2CID  204177762.
  16. ^ Сравните: Больцман, Людвиг (1896, 1898). Vorlesungen über Gastheorie: 2 тома – Лейпциг, 1895/98 UB: O 5262-6. Английская версия: Лекции по теории газа. Перевод Стивена Г. Браша (1964) Беркли: Издательство Калифорнийского университета; (1995) Нью-Йорк: ISBN Дувра 0-486-68455-5 
  17. ^ Жичковски, Кароль (2006). Геометрия квантовых состояний: введение в квантовую запутанность . Издательство Кембриджского университета. п. 301.
  18. ^ Шарп, Ким; Мачинский, Франц (2015). «Перевод статьи Людвига Больцмана «О связи второй фундаментальной теоремы механической теории теплоты и вероятностных расчетов относительно условий теплового равновесия»». Энтропия . 17 : 1971–2009. дои : 10.3390/e17041971 .
  19. ^ Джейнс, ET (15 мая 1957 г.). «Теория информации и статистическая механика». Физический обзор . 106 (4): 620–630. Бибкод : 1957PhRv..106..620J. doi : 10.1103/PhysRev.106.620. S2CID  17870175.
  20. ^ Ландауэр, Р. (июль 1961 г.). «Необратимость и тепловыделение в вычислительном процессе». Журнал исследований и разработок IBM . 5 (3): 183–191. дои : 10.1147/рд.53.0183. ISSN  0018-8646.
  21. Марк Нельсон (24 августа 2006 г.). «Премия Хаттера». Архивировано из оригинала 1 марта 2018 года . Проверено 27 ноября 2008 г.
  22. ^ ab «Мировые технологические возможности для хранения, передачи и вычисления информации», Мартин Гилберт и Присцила Лопес (2011), Science , 332 (6025); бесплатный доступ к статье здесь: martinhilbert.net/WorldInfoCapacity.html.
  23. ^ Спеллерберг, Ян Ф.; Федор, Питер Дж. (2003). «Дань уважения Клоду Шеннону (1916–2001) и призыв к более строгому использованию видового богатства, видового разнообразия и индекса Шеннона-Винера». Глобальная экология и биогеография . 12 (3): 177–179. Бибкод : 2003GloEB..12..177S. дои : 10.1046/j.1466-822X.2003.00015.x . ISSN  1466-8238. S2CID  85935463.
  24. ^ Мэсси, Джеймс (1994). «Угадайка и энтропия» (PDF) . Учеб. Международный симпозиум IEEE по теории информации . Проверено 31 декабря 2013 г.
  25. ^ Мэлоун, Дэвид; Салливан, Уэйн (2005). «Догадки не заменят энтропию» (PDF) . Материалы конференции по информационным технологиям и телекоммуникациям . Проверено 31 декабря 2013 г.
  26. ^ Плиам, Джон (1999). «Избранные области криптографии». Международный семинар по избранным областям криптографии . Конспекты лекций по информатике. Том. 1758. стр. 62–77. дои : 10.1007/3-540-46513-8_5 . ISBN 978-3-540-67185-5.
  27. ^ Индексы качественной изменчивости. А. Р. Уилкокс – 1967 г. https://www.osti.gov/servlets/purl/4167340
  28. Тао, Теренс (28 февраля 2016 г.). «Проблема несоответствия Эрдеша». Дискретный анализ . arXiv : 1509.05363v6 . дои : 10.19086/da.609. S2CID  59361755.
  29. ^ Аоки, Новые подходы к макроэкономическому моделированию.
  30. ^ Вероятность и вычисления, М. Митценмахер и Э. Упфал, Cambridge University Press
  31. ^ Батра, Мридула; Агравал, Рашми (2018). «Сравнительный анализ алгоритмов дерева решений». В Паниграхи — Биджая Кетан; Хода, Миннесота; Шарма, Винод; Гоэл, Шивендра (ред.). Компьютеры, вдохновленные природой . Достижения в области интеллектуальных систем и вычислений. Том. 652. Сингапур: Спрингер. стр. 31–36. дои : 10.1007/978-981-10-6747-1_4. ISBN 978-981-10-6747-1.
  32. ^ Джейнс, Эдвин Т. (сентябрь 1968 г.). «Априорные вероятности». Транзакции IEEE по системным наукам и кибернетике . 4 (3): 227–241. дои : 10.1109/TSSC.1968.300117. ISSN  2168-2887.
  33. ^ Рубинштейн, Реувен Ю.; Крозе, Дирк П. (9 марта 2013 г.). Метод перекрестной энтропии: унифицированный подход к комбинаторной оптимизации, моделированию Монте-Карло и машинному обучению. Springer Science & Business Media. ISBN 978-1-4757-4321-0.

Эта статья включает в себя материал из энтропии Шеннона на PlanetMath , который доступен под лицензией Creative Commons Attribution/Share-Alike License .

дальнейшее чтение

Учебники по теории информации

Внешние ссылки