В теории информации энтропия случайной величины количественно определяет средний уровень неопределенности или информации, связанной с потенциальными состояниями переменной или возможными результатами. Это измеряет ожидаемое количество информации, необходимое для описания состояния переменной, учитывая распределение вероятностей по всем потенциальным состояниям. Учитывая дискретную случайную величину , которая принимает значения в наборе и распределена в соответствии с , энтропия равна , где обозначает сумму по возможным значениям переменной. [Примечание 1] Выбор основания для , логарифма , различается для разных приложений. Основание 2 дает единицу бит (или « шенноны »), в то время как основание e дает «естественные единицы» nat , а основание 10 дает единицы «dits», «bans» или « hartleys ». Эквивалентное определение энтропии — это ожидаемое значение собственной информации переменной. [1]
Понятие информационной энтропии было введено Клодом Шенноном в его статье 1948 года « Математическая теория связи » [2] [3] и также называется энтропией Шеннона . Теория Шеннона определяет систему передачи данных , состоящую из трех элементов: источника данных, канала связи и приемника. «Фундаментальная проблема связи» — как выразился Шеннон — заключается в том, чтобы приемник мог идентифицировать, какие данные были сгенерированы источником, на основе сигнала, который он получает через канал. [2] [3] Шеннон рассмотрел различные способы кодирования, сжатия и передачи сообщений из источника данных и доказал в своей теореме о кодировании источника , что энтропия представляет собой абсолютный математический предел того, насколько хорошо данные из источника могут быть без потерь сжаты в совершенно бесшумный канал. Шеннон значительно усилил этот результат для шумных каналов в своей теореме о кодировании шумного канала .
Энтропия в теории информации напрямую аналогична энтропии в статистической термодинамике . Аналогия возникает, когда значения случайной величины обозначают энергии микросостояний, поэтому формула Гиббса для энтропии формально идентична формуле Шеннона. Энтропия имеет отношение к другим областям математики, таким как комбинаторика и машинное обучение . Определение можно вывести из набора аксиом, устанавливающих, что энтропия должна быть мерой того, насколько информативен средний результат переменной. Для непрерывной случайной величины дифференциальная энтропия аналогична энтропии. Определение обобщает вышеизложенное.
Основная идея теории информации заключается в том, что «информационная ценность» передаваемого сообщения зависит от степени неожиданности содержания сообщения. Если происходит событие с высокой вероятностью, сообщение несет очень мало информации. С другой стороны, если происходит событие с низкой вероятностью, сообщение гораздо более информативно. Например, знание того, что какое-то конкретное число не будет выигрышным номером лотереи, дает очень мало информации, потому что любое конкретное выбранное число почти наверняка не выиграет. Однако знание того, что конкретное число выиграет в лотерее, имеет высокую информационную ценность, потому что оно сообщает о наступлении события с очень низкой вероятностью.
Информационное содержание , также называемое неожиданностью или самоинформацией, события является функцией, которая увеличивается по мере уменьшения вероятности события. Когда близко к 1, неожиданность события низкая, но если близко к 0, неожиданность события высокая. Эта связь описывается функцией , где — логарифм , который дает 0 неожиданностей, когда вероятность события равна 1. [4] Фактически, log — единственная функция, которая удовлетворяет определенному набору условий, определенных в разделе § Характеристика .
Следовательно, мы можем определить информацию или неожиданность события с помощью или эквивалентно,
Энтропия измеряет ожидаемое (т. е. среднее) количество информации, переданной путем определения результата случайного испытания. [5] : 67 Это означает, что бросок игральной кости имеет более высокую энтропию, чем подбрасывание монеты, поскольку каждый результат подбрасывания игральной кости имеет меньшую вероятность ( ), чем каждый результат подбрасывания монеты ( ).
Рассмотрим монету с вероятностью p выпадения орла и вероятностью 1 − p выпадения решки. Максимальный сюрприз наступает при p = 1/2 , при котором один результат не ожидается по сравнению с другим. В этом случае подбрасывание монеты имеет энтропию в один бит . (Аналогично, один трит с равновероятными значениями содержит (около 1,58496) бит информации, поскольку он может иметь одно из трех значений.) Минимальный сюрприз наступает при p = 0 или p = 1 , когда исход события известен заранее, а энтропия равна нулю бит. Когда энтропия равна нулю бит, это иногда называют единицей, когда нет никакой неопределенности вообще — никакой свободы выбора — никакой информации . Другие значения p дают энтропию от нуля до одного бита.
Теория информации полезна для расчета наименьшего количества информации, необходимого для передачи сообщения, как при сжатии данных . Например, рассмотрим передачу последовательностей, состоящих из 4 символов «A», «B», «C» и «D» по двоичному каналу. Если все 4 буквы одинаково вероятны (25%), нельзя добиться лучшего результата, чем использовать два бита для кодирования каждой буквы. «A» может кодироваться как «00», «B» как «01», «C» как «10» и «D» как «11». Однако, если вероятности каждой буквы не равны, скажем, «A» встречается с вероятностью 70%, «B» с вероятностью 26%, а «C» и «D» с вероятностью по 2%, можно назначить коды переменной длины. В этом случае «A» будет закодировано как «0», «B» как «10», «C» как «110», а «D» как «111». При таком представлении в 70% случаев требуется отправить только один бит, в 26% случаев — два бита и только в 4% случаев — 3 бита. В среднем требуется менее 2 бит, поскольку энтропия ниже (из-за высокой распространенности «A», за которым следует «B» — вместе 96% символов). Расчет суммы вероятностей логарифмов, взвешенных по вероятности, измеряет и фиксирует этот эффект.
Английский текст, рассматриваемый как строка символов, имеет довольно низкую энтропию; т. е. он довольно предсказуем. Мы можем быть достаточно уверены, что, например, «e» будет гораздо более распространенным, чем «z», что комбинация «qu» будет гораздо более распространенной, чем любая другая комбинация с «q» в ней, и что комбинация «th» будет более распространенной, чем «z», «q» или «qu». После первых нескольких букв часто можно угадать остальную часть слова. Английский текст имеет от 0,6 до 1,3 бит энтропии на символ сообщения. [6] : 234
Названный в честь Η-теоремы Больцмана , Шеннон определил энтропию Η (греческая заглавная буква эта ) дискретной случайной величины , которая принимает значения в наборе и распределена в соответствии с таким образом, что :
Здесь — оператор ожидаемого значения , а I — информационное содержание X. [ 7 ] : 11 [ 8] : 19–20 само по себе является случайной величиной .
Энтропия может быть явно записана как: где b — основание используемого логарифма . Обычные значения b — 2, число Эйлера e и 10, а соответствующие единицы энтропии — биты для b = 2 , наты для b = e и баны для b = 10. [ 9]
В случае для некоторого значение соответствующего слагаемого 0 log b (0) принимается равным 0 , что согласуется с пределом : [10] : 13
Можно также определить условную энтропию двух переменных и , принимающих значения из множеств и соответственно, как: [10] : 16 , где и . Эту величину следует понимать как остаточную случайность в случайной величине при заданной случайной величине .
Энтропию можно формально определить на языке теории меры следующим образом: [11] Пусть будет вероятностным пространством . Пусть будет событием . Удивительно , что
Ожидаемый сюрприз - это
Почти разбиение — это семейство множеств, такое что и для всех различных . (Это ослабление обычных условий для разбиения.) Энтропия равна
Пусть будет сигма-алгеброй на . Энтропия равна Наконец, энтропия вероятностного пространства равна , то есть энтропия относительно сигма-алгебры всех измеримых подмножеств .
Рассмотрим подбрасывание монеты с известными, не обязательно справедливыми, вероятностями выпадения орла или решки; это можно смоделировать как процесс Бернулли .
Энтропия неизвестного результата следующего подбрасывания монеты максимальна, если монета честная (то есть, если и орел, и решка имеют одинаковую вероятность 1/2). Это ситуация максимальной неопределенности, поскольку предсказать результат следующего подбрасывания труднее всего; результат каждого подбрасывания монеты дает один полный бит информации. Это потому, что
Однако если мы знаем, что монета не является честной, но выпадает орлом или решкой с вероятностями p и q , где p ≠ q , то неопределенность меньше. Каждый раз, когда ее подбрасывают, одна сторона выпадает с большей вероятностью, чем другая. Уменьшенная неопределенность количественно выражается в более низкой энтропии: в среднем каждое подбрасывание монеты дает менее одного полного бита информации. Например, если p = 0,7, то
Равномерная вероятность дает максимальную неопределенность и, следовательно, максимальную энтропию. Энтропия, таким образом, может только уменьшаться от значения, связанного с равномерной вероятностью. Крайний случай — это двусторонняя монета, которая никогда не выпадает решкой, или двусторонняя монета, которая никогда не выпадает орлом. Тогда нет никакой неопределенности. Энтропия равна нулю: каждое подбрасывание монеты не дает никакой новой информации, поскольку результат каждого подбрасывания монеты всегда определен. [10] : 14–15
Чтобы понять значение −Σ p i log( p i ) , сначала определим информационную функцию I в терминах события i с вероятностью p i . Количество информации, полученной в результате наблюдения события i, следует из решения Шеннона фундаментальных свойств информации : [12]
При наличии двух независимых событий, если первое событие может дать один из n равновероятных исходов, а другое имеет один из m равновероятных исходов, то существует mn равновероятных исходов совместного события. Это означает, что если для кодирования первого значения требуется log 2 ( n ) бит, а для кодирования второго — log 2 ( m ) , то для кодирования обоих требуется log 2 ( mn ) = log 2 ( m ) + log 2 ( n ) .
Шеннон обнаружил, что подходящий выбор дается формулой: [13]
Фактически, единственными возможными значениями являются значения для . Кроме того, выбор значения для k эквивалентен выбору значения для , так что x соответствует основанию логарифма . Таким образом, энтропия характеризуется четырьмя указанными выше свойствами.
Различные единицы информации ( биты для двоичного логарифма log 2 , nats для натурального логарифма ln , bans для десятичного логарифма log 10 и т. д.) являются постоянными кратными друг другу. Например, в случае честного подбрасывания монеты орел обеспечивает log 2 (2) = 1 бит информации, что составляет приблизительно 0,693 nats или 0,301 десятичных цифр. Из-за аддитивности n подбрасываний обеспечивают n бит информации, что составляет приблизительно 0,693 n nats или 0,301 n десятичных цифр.
Значение наблюдаемых событий (значение сообщений ) не имеет значения в определении энтропии . Энтропия учитывает только вероятность наблюдения конкретного события, поэтому информация, которую она инкапсулирует, является информацией о базовом распределении вероятностей , а не о значении самих событий.
Другая характеристика энтропии использует следующие свойства. Обозначим p i = Pr( X = x i ) и Η n ( p 1 , ..., p n ) = Η( X ) .
Правило аддитивности имеет следующие следствия: для положительных целых чисел b i , где b 1 + ... + b k = n ,
Выбирая k = n , b 1 = ... = b n = 1, это подразумевает, что энтропия определенного результата равна нулю: Η 1 (1) = 0. Это подразумевает, что эффективность исходного набора с n символами может быть определена просто как равная его n -арной энтропии. См. также Избыточность (теория информации) .
Характеристика здесь налагает аддитивное свойство по отношению к разделу множества . Между тем, условная вероятность определяется в терминах мультипликативного свойства, . Заметьте, что логарифм является посредником между этими двумя операциями. Условная энтропия и связанные с ней величины наследуют простое отношение, в свою очередь. Теоретико-мерное определение в предыдущем разделе определило энтропию как сумму по ожидаемым неожиданностям для экстремального раздела. Здесь логарифм является ad hoc, и энтропия сама по себе не является мерой. По крайней мере в теории информации двоичной строки, поддается практическим интерпретациям.
Мотивированные такими отношениями, были определены многочисленные связанные и конкурирующие величины. Например, анализ Дэвида Эллермана «логики разделов» определяет конкурирующую меру в структурах, двойственных подмножествам универсального множества. [14] Информация квантифицируется как «разницы» (различия), мера по разделам. «Разницы» можно преобразовать в биты Шеннона , чтобы получить формулы для условной энтропии и т. д.
Другая краткая аксиоматическая характеристика энтропии Шеннона была дана Ацелем , Форте и Нг [15] с помощью следующих свойств:
Было показано, что любая функция, удовлетворяющая вышеуказанным свойствам, должна быть постоянным множителем энтропии Шеннона, с неотрицательной константой. [15] По сравнению с ранее упомянутыми характеристиками энтропии, эта характеристика фокусируется на свойствах энтропии как функции случайных величин (субаддитивность и аддитивность), а не на свойствах энтропии как функции вектора вероятности .
Стоит отметить, что если мы отбросим свойство «мал для малых вероятностей», то должна быть неотрицательная линейная комбинация энтропии Шеннона и энтропии Хартли . [15]
Энтропия Шеннона удовлетворяет следующим свойствам, для некоторых из которых полезно интерпретировать энтропию как ожидаемое количество усвоенной информации (или устраненной неопределенности) путем выявления значения случайной величины X :
Вдохновением для принятия термина «энтропия» в теории информации послужило близкое сходство формулы Шеннона с очень похожими известными формулами из статистической механики .
В статистической термодинамике наиболее общей формулой для термодинамической энтропии S термодинамической системы является энтропия Гиббса
где k B — постоянная Больцмана , а p i — вероятность микросостояния . Энтропия Гиббса была определена Дж. Уиллардом Гиббсом в 1878 году после более ранней работы Больцмана (1872). [16]
Энтропия Гиббса практически без изменений переносится в мир квантовой физики, давая энтропию фон Неймана, введенную Джоном фон Нейманом в 1927 году:
где ρ — матрица плотности квантово-механической системы, а Tr — след . [17]
На повседневном практическом уровне связи между информационной энтропией и термодинамической энтропией не очевидны. Физики и химики склонны больше интересоваться изменениями энтропии, когда система спонтанно эволюционирует от своих начальных условий в соответствии со вторым законом термодинамики , а не неизменным распределением вероятностей. Как показывает малость постоянной Больцмана k B , изменения в S / k B даже для крошечных количеств веществ в химических и физических процессах представляют собой количества энтропии, которые чрезвычайно велики по сравнению с чем-либо в сжатии данных или обработке сигналов . В классической термодинамике энтропия определяется в терминах макроскопических измерений и не ссылается ни на какое распределение вероятностей, которое является центральным для определения информационной энтропии.
Связь между термодинамикой и тем, что сейчас известно как теория информации, была впервые установлена Людвигом Больцманом и выражена его уравнением :
где — термодинамическая энтропия конкретного макросостояния (определяется термодинамическими параметрами, такими как температура, объем, энергия и т. д.), W — число микросостояний (различных комбинаций частиц в различных энергетических состояниях), которые могут дать данное макросостояние, а k B — постоянная Больцмана . [18] Предполагается, что каждое микросостояние равновероятно, так что вероятность данного микросостояния равна p i = 1/ W . Когда эти вероятности подставляются в приведенное выше выражение для энтропии Гиббса (или, что эквивалентно, k B, умноженное на энтропию Шеннона), получается уравнение Больцмана. В терминах теории информации информационная энтропия системы — это количество «недостающей» информации, необходимой для определения микросостояния, учитывая макросостояние.
По мнению Джейнса (1957), [19] термодинамическая энтропия, как она объясняется статистической механикой , должна рассматриваться как приложение информационной теории Шеннона: термодинамическая энтропия интерпретируется как пропорциональная количеству дополнительной информации Шеннона, необходимой для определения подробного микроскопического состояния системы, которая остается несообщенной описанием исключительно в терминах макроскопических переменных классической термодинамики, при этом константа пропорциональности является просто постоянной Больцмана . Добавление тепла к системе увеличивает ее термодинамическую энтропию, поскольку оно увеличивает число возможных микроскопических состояний системы, которые согласуются с измеримыми значениями ее макроскопических переменных, делая любое полное описание состояния более длинным. (См. статью: максимальная энтропия термодинамики ). Демон Максвелла может (гипотетически) уменьшить термодинамическую энтропию системы, используя информацию о состояниях отдельных молекул; но, как показали Ландауэр (с 1961 года) и его коллеги [20] , для функционирования сам демон должен увеличить термодинамическую энтропию в процессе, по крайней мере, на количество информации Шеннона, которое он предлагает сначала получить и сохранить; и поэтому общая термодинамическая энтропия не уменьшается (что разрешает парадокс). Принцип Ландауэра накладывает нижнюю границу на количество тепла, которое компьютер должен генерировать для обработки заданного количества информации, хотя современные компьютеры гораздо менее эффективны.
Определение энтропии Шеннона, применяемое к источнику информации, может определить минимальную пропускную способность канала, необходимую для надежной передачи источника в виде закодированных двоичных цифр. Энтропия Шеннона измеряет информацию, содержащуюся в сообщении, в отличие от части сообщения, которая определена (или предсказуема). Примерами последнего являются избыточность в языковой структуре или статистические свойства, относящиеся к частотам появления пар букв или слов, триплетов и т. д. Минимальная пропускная способность канала может быть реализована в теории с использованием типичного набора или на практике с использованием кодирования Хаффмана , Лемпеля–Зива или арифметического кодирования . (См. также сложность Колмогорова .) На практике алгоритмы сжатия намеренно включают некоторую разумную избыточность в виде контрольных сумм для защиты от ошибок. Скорость энтропии источника данных — это среднее количество бит на символ, необходимое для его кодирования. Эксперименты Шеннона с людьми-предикторами показывают скорость информации от 0,6 до 1,3 бит на символ в английском языке; [21] Алгоритм сжатия PPM может достичь коэффициента сжатия 1,5 бита на символ в английском тексте.
Если схема сжатия не содержит потерь — та, в которой вы всегда можете восстановить все исходное сообщение путем декомпрессии — то сжатое сообщение имеет то же количество информации, что и оригинал, но передано меньшим количеством символов. Оно имеет больше информации (более высокую энтропию) на символ. Сжатое сообщение имеет меньшую избыточность . Теорема Шеннона о кодировании источника утверждает, что схема сжатия без потерь не может сжимать сообщения в среднем так, чтобы иметь более одного бита информации на бит сообщения, но что любое значение меньше одного бита информации на бит сообщения может быть достигнуто с помощью подходящей схемы кодирования. Энтропия сообщения на бит, умноженная на длину этого сообщения, является мерой того, сколько общей информации содержит сообщение. Теорема Шеннона также подразумевает, что никакая схема сжатия без потерь не может сократить все сообщения. Если некоторые сообщения получаются короче, по крайней мере одно должно получиться длиннее из-за принципа ящика . На практике это, как правило, не является проблемой, поскольку обычно интересует сжатие только определенных типов сообщений, например, документов на английском языке, а не бессмысленного текста, или цифровых фотографий, а не шума, и неважно, увеличивает ли алгоритм сжатия некоторые маловероятные или неинтересные последовательности.
Исследование, проведенное в журнале Science в 2011 году , оценивает мировые технологические возможности хранения и передачи оптимально сжатой информации, нормализованные по наиболее эффективным алгоритмам сжатия, доступным в 2007 году, таким образом оценивая энтропию технологически доступных источников. [22] : 60–65
Авторы оценивают технологические возможности человечества по хранению информации (полностью энтропийно сжатой) в 1986 году и снова в 2007 году. Они разбивают информацию на три категории — хранение информации на носителе, получение информации через односторонние вещательные сети или обмен информацией через двусторонние телекоммуникационные сети . [22]
Энтропия — один из нескольких способов измерения биоразнообразия, применяемый в форме индекса Шеннона . [23] Индекс разнообразия — это количественная статистическая мера того, сколько различных типов существует в наборе данных, например, видов в сообществе, с учетом экологического богатства , равномерности и доминирования . В частности, энтропия Шеннона — это логарифм 1 D , истинного индекса разнообразия с параметром, равным 1. Индекс Шеннона связан с пропорциональным обилием типов.
Существует ряд концепций, связанных с энтропией, которые математически количественно определяют информационное содержание последовательности или сообщения:
(«Скорость самоинформации» также может быть определена для конкретной последовательности сообщений или символов, генерируемых данным стохастическим процессом: она всегда будет равна скорости энтропии в случае стационарного процесса .) Другие количества информации также используются для сравнения или соотнесения различных источников информации.
Важно не путать вышеуказанные концепции. Часто только из контекста становится ясно, о каком из них идет речь. Например, когда кто-то говорит, что «энтропия» английского языка составляет около 1 бита на символ, он на самом деле моделирует английский язык как стохастический процесс и говорит о его скорости энтропии . Сам Шеннон использовал этот термин именно так.
Если используются очень большие блоки, оценка скорости энтропии на символ может стать искусственно низкой, поскольку распределение вероятностей последовательности точно не известно; это только оценка. Если рассматривать текст каждой когда-либо опубликованной книги как последовательность, где каждый символ является текстом полной книги, и если опубликовано N книг, и каждая книга опубликована только один раз, оценка вероятности каждой книги равна 1/ N , а энтропия (в битах) равна −log 2 (1/ N ) = log 2 ( N ) . Как практический код, это соответствует назначению каждой книге уникального идентификатора и использованию его вместо текста книги всякий раз, когда требуется сослаться на книгу. Это чрезвычайно полезно для разговора о книгах, но не так полезно для характеристики информационного содержания отдельной книги или языка в целом: невозможно реконструировать книгу по ее идентификатору, не зная распределения вероятностей, то есть полного текста всех книг. Ключевая идея заключается в том, что необходимо учитывать сложность вероятностной модели. Колмогоровская сложность является теоретическим обобщением этой идеи, которая позволяет рассматривать информационное содержание последовательности независимо от какой-либо конкретной вероятностной модели; она рассматривает кратчайшую программу для универсального компьютера , который выводит последовательность. Код, который достигает скорости энтропии последовательности для данной модели, плюс кодовая книга (т. е. вероятностная модель), является одной из таких программ, но она может быть не самой короткой.
Последовательность Фибоначчи имеет вид 1, 1, 2, 3, 5, 8, 13, .... рассматривая последовательность как сообщение, а каждое число как символ, получаем почти столько же символов, сколько символов в сообщении, что дает энтропию приблизительно log 2 ( n ) . Первые 128 символов последовательности Фибоначчи имеют энтропию приблизительно 7 бит/символ, но последовательность можно выразить с помощью формулы [ F( n ) = F( n −1) + F( n −2) для n = 3, 4, 5, ... , F(1) =1 , F(2) = 1 ] и эта формула имеет гораздо более низкую энтропию и применима к любой длине последовательности Фибоначчи.
В криптоанализе энтропия часто грубо используется как мера непредсказуемости криптографического ключа, хотя его реальная неопределенность неизмерима. Например, 128-битный ключ, который равномерно и случайно генерируется, имеет 128 бит энтропии. Также для его взлома методом грубой силы (в среднем) требуется несколько догадок. Энтропия не может охватить количество требуемых догадок, если возможные ключи не выбираются равномерно. [24] [25] Вместо этого для измерения усилий, необходимых для атаки методом грубой силы, можно использовать меру, называемую догадкой . [26]
Другие проблемы могут возникнуть из-за неравномерных распределений, используемых в криптографии. Например, 1 000 000-разрядный двоичный одноразовый блокнот, использующий исключающее ИЛИ. Если блокнот имеет 1 000 000 бит энтропии, он идеален. Если блокнот имеет 999 999 бит энтропии, равномерно распределенных (каждый отдельный бит блокнота имеет 0,999999 бит энтропии), он может обеспечить хорошую безопасность. Но если блокнот имеет 999 999 бит энтропии, где первый бит фиксирован, а остальные 999 999 бит совершенно случайны, первый бит шифротекста вообще не будет зашифрован.
Обычный способ определения энтропии для текста основан на марковской модели текста. Для источника порядка 0 (каждый символ выбирается независимо от последних символов) бинарная энтропия равна:
где p i — вероятность i . Для источника Маркова первого порядка (в котором вероятность выбора символа зависит только от непосредственно предшествующего символа) скорость энтропии равна:
где i — состояние (определенные предшествующие символы), а — вероятность j при условии, что i является предыдущим символом.
Для источника Маркова второго порядка скорость энтропии равна
Исходный набор с неравномерным распределением будет иметь меньшую энтропию, чем тот же набор с равномерным распределением (т.е. «оптимизированный алфавит»). Этот дефицит энтропии может быть выражен как отношение, называемое эффективностью: [27]
Применяя основные свойства логарифма, эту величину можно также выразить как:
Эффективность полезна для количественной оценки эффективного использования канала связи . Эта формула также называется нормализованной энтропией, поскольку энтропия делится на максимальную энтропию . Кроме того, эффективность не зависит от выбора (положительного) основания b , на что указывает нечувствительность в пределах конечного логарифма выше.
Энтропия Шеннона ограничена случайными величинами, принимающими дискретные значения. Соответствующая формула для непрерывной случайной величины с функцией плотности вероятности f ( x ) с конечным или бесконечным носителем на действительной прямой определяется по аналогии, используя вышеуказанную форму энтропии в качестве ожидания: [10] : 224
Это дифференциальная энтропия (или непрерывная энтропия). Предшественником непрерывной энтропии h [ f ] является выражение для функционала Η в H-теореме Больцмана .
Хотя аналогия между обеими функциями наводит на размышления, необходимо задать следующий вопрос: является ли дифференциальная энтропия допустимым расширением дискретной энтропии Шеннона? Дифференциальная энтропия не обладает рядом свойств, которыми обладает дискретная энтропия Шеннона, — она может быть даже отрицательной, — и были предложены поправки, в частности, ограничение плотности дискретных точек .
Чтобы ответить на этот вопрос, необходимо установить связь между двумя функциями:
Чтобы получить в целом конечную меру, когда размер ячейки стремится к нулю. В дискретном случае размер ячейки — это (неявная) ширина каждой из n (конечных или бесконечных) ячеек, вероятности которых обозначаются как p n . Поскольку непрерывная область обобщается, ширина должна быть указана явно.
Для этого начнем с непрерывной функции f, дискретизированной в ячейки размером . По теореме о среднем значении существует значение x i в каждой ячейке, такое, что интеграл функции f может быть приближен (в римановом смысле) с помощью , где этот предел и «размер ячейки стремится к нулю» эквивалентны.
Обозначим и раскроем логарифм, имеем
При Δ → 0 имеем
Примечание: log(Δ) → −∞ при Δ → 0 требует специального определения дифференциальной или непрерывной энтропии:
которая, как уже было сказано, называется дифференциальной энтропией. Это означает, что дифференциальная энтропия не является пределом энтропии Шеннона при n → ∞ . Скорее, она отличается от предела энтропии Шеннона бесконечным смещением (см. также статью об информационном измерении ).
В результате оказывается, что, в отличие от энтропии Шеннона, дифференциальная энтропия в общем случае не является хорошей мерой неопределенности или информации. Например, дифференциальная энтропия может быть отрицательной; также она не инвариантна относительно непрерывных преобразований координат. Эту проблему можно проиллюстрировать изменением единиц, когда x является размерной переменной. Тогда f ( x ) будет иметь единицы 1/ x . Аргумент логарифма должен быть безразмерным, в противном случае он неправильный, так что дифференциальная энтропия, как указано выше, будет неправильным. Если Δ является некоторым «стандартным» значением x (т. е. «размером ячейки») и, следовательно, имеет те же единицы, то модифицированная дифференциальная энтропия может быть записана в надлежащей форме как:
и результат будет тем же для любого выбора единиц для x . Фактически, предел дискретной энтропии as также включал бы член , который в общем случае был бы бесконечным. Это ожидаемо: непрерывные переменные обычно имели бы бесконечную энтропию при дискретизации. Предельная плотность дискретных точек на самом деле является мерой того, насколько проще описать распределение, чем распределение, однородное по своей схеме квантования.
Другой полезной мерой энтропии, которая одинаково хорошо работает в дискретном и непрерывном случае, является относительная энтропия распределения. Она определяется как расхождение Кульбака–Лейблера от распределения к эталонной мере m следующим образом. Предположим, что распределение вероятностей p абсолютно непрерывно относительно меры m , т.е. имеет вид p ( dx ) = f ( x ) m ( dx ) для некоторой неотрицательной m -интегрируемой функции f с m -интегралом 1, тогда относительную энтропию можно определить как
В этой форме относительная энтропия обобщает (с точностью до изменения знака) как дискретную энтропию, где мера m является счетной мерой , так и дифференциальную энтропию, где мера m является мерой Лебега . Если мера m сама по себе является распределением вероятностей, относительная энтропия неотрицательна и равна нулю, если p = m как меры. Она определена для любого пространства мер, следовательно, не зависит от координат и инвариантна относительно репараметризаций координат, если правильно учесть преобразование меры m . Относительная энтропия и (неявно) энтропия и дифференциальная энтропия зависят от «референтной» меры m .
Теренс Тао использовал энтропию, чтобы создать полезную связь, пытаясь решить проблему расхождения Эрдёша . [28] [29]
Интуитивно идея доказательства заключалась в том, что если между последовательными случайными величинами имеется низкая информация с точки зрения энтропии Шеннона (здесь случайная величина определяется с помощью функции Лиувилля (которая является полезной математической функцией для изучения распределения простых чисел) X H = . И в интервале [n, n+H] сумма по этому интервалу может стать сколь угодно большой. Например, последовательность +1 (которые являются значениями X H' ) имеет тривиально низкую энтропию, и их сумма станет большой. Но ключевое понимание заключалось в том, чтобы показать уменьшение энтропии на не пренебрежимо малые величины по мере того, как кто-то расширяет H, приводящее в свою очередь к неограниченному росту математического объекта по этой случайной величине, что эквивалентно демонстрации неограниченного роста согласно проблеме расхождения Эрдёша .
Доказательство довольно сложное и оно объединило прорывы не только в новом использовании энтропии Шеннона, но также использовало функцию Лиувилля вместе со средними модулированными мультипликативными функциями Архивировано 28 октября 2023 года на Wayback Machine в короткие интервалы. Доказывая, что оно также сломало «барьер четности» Архивировано 7 августа 2023 года на Wayback Machine для этой конкретной проблемы.
Хотя использование энтропии Шеннона в доказательстве является новым, оно, вероятно, откроет новые исследования в этом направлении.
Энтропия стала полезной величиной в комбинаторике .
Простым примером этого является альтернативное доказательство неравенства Лумиса–Уитни : для каждого подмножества A ⊆ Z d мы имеем
где P i — ортогональная проекция в i-й координате:
Доказательство следует как простое следствие неравенства Ширера : если X 1 , ..., X d — случайные величины, а S 1 , ..., S n — подмножества {1, ..., d }, такие, что каждое целое число от 1 до d принадлежит ровно r из этих подмножеств, то
где — декартово произведение случайных величин X j с индексами j в S i (поэтому размерность этого вектора равна размеру S i ).
Набросаем, как из этого следует Лумис–Уитни: Действительно, пусть X — равномерно распределенная случайная величина со значениями в A , причем каждая точка в A встречается с равной вероятностью. Тогда (в силу дополнительных свойств энтропии, упомянутых выше) Η( X ) = log| A | , где | A | обозначает мощность A . Пусть S i = {1, 2, ..., i −1, i +1, ..., d }. Диапазон содержится в P i ( A ) и, следовательно , . Теперь используйте это, чтобы ограничить правую часть неравенства Ширера и возвести в степень противоположные стороны полученного вами неравенства.
Для целых чисел 0 < k < n пусть q = k / n . Тогда
где
Хорошая интерпретация этого состоит в том, что число двоичных строк длины n с ровно k единицами равно приблизительно . [31]
Методы машинного обучения в значительной степени исходят из статистики, а также теории информации. В общем, энтропия является мерой неопределенности, а цель машинного обучения — минимизировать неопределенность.
Алгоритмы обучения на основе деревьев решений используют относительную энтропию для определения правил принятия решений, которые управляют данными в каждом узле. [32] Прирост информации в деревьях решений , который равен разнице между энтропией и условной энтропией заданного , количественно определяет ожидаемую информацию или снижение энтропии от дополнительного знания значения атрибута . Прирост информации используется для определения того, какие атрибуты набора данных предоставляют наибольшую информацию и должны использоваться для оптимального разделения узлов дерева.
Байесовские модели вывода часто применяют принцип максимальной энтропии для получения априорных распределений вероятностей . [33] Идея заключается в том, что распределение, которое наилучшим образом представляет текущее состояние знаний о системе, имеет наибольшую энтропию и, следовательно, подходит в качестве априорного.
Классификация в машинном обучении, выполняемая с помощью логистической регрессии или искусственных нейронных сетей, часто использует стандартную функцию потерь, называемую потерей кросс-энтропии , которая минимизирует среднюю кросс-энтропию между истинными и предсказанными распределениями. [34] В общем случае кросс-энтропия является мерой различий между двумя наборами данных, аналогичной расхождению KL (также известному как относительная энтропия).
{{cite book}}
: CS1 maint: location missing publisher (link)В данной статье использованы материалы из книги Шеннона «Энтропия» на PlanetMath , которая распространяется по лицензии Creative Commons Attribution/Share-Alike License .