В теории информации энтропия случайной величины — это средний уровень «информации», «неожиданности» или «неопределенности», присущий возможным результатам переменной. Учитывая дискретную случайную величину , которая принимает значения в алфавите и распределяется согласно , энтропия равна
Понятие информационной энтропии было введено Клодом Шенноном в его статье 1948 года « Математическая теория коммуникации » [2] [3] и также называется энтропией Шеннона . Теория Шеннона определяет систему передачи данных , состоящую из трех элементов: источника данных, канала связи и приемника. «Фундаментальная проблема коммуникации», как выразился Шеннон, заключается в том, чтобы приемник мог определить, какие данные были сгенерированы источником, на основе сигнала, который он получает по каналу. [2] [3] Шеннон рассмотрел различные способы кодирования, сжатия и передачи сообщений из источника данных и в своей знаменитой теореме кодирования источника доказал , что энтропия представляет собой абсолютный математический предел того, насколько хорошо данные из источника могут быть сжаты без потерь . на совершенно бесшумный канал. Шеннон значительно усилил этот результат для шумных каналов в своей теореме о кодировании шумных каналов .
Энтропия в теории информации прямо аналогична энтропии в статистической термодинамике . Аналогия возникает, когда значения случайной величины обозначают энергии микросостояний, поэтому формула Гиббса для энтропии формально идентична формуле Шеннона. Энтропия имеет отношение к другим областям математики, таким как комбинаторика и машинное обучение . Это определение можно вывести из набора аксиом, устанавливающих, что энтропия должна быть мерой того, насколько информативен средний результат переменной. Для непрерывной случайной величины дифференциальная энтропия аналогична энтропии. Определение обобщает вышеизложенное.
Основная идея теории информации заключается в том, что «информационная ценность» передаваемого сообщения зависит от степени неожиданности содержания сообщения. Если происходит весьма вероятное событие, сообщение несет очень мало информации. С другой стороны, если происходит маловероятное событие, сообщение будет гораздо более информативным. Например, знание того, что какое-то конкретное число не будет выигрышным в лотерее, дает очень мало информации, поскольку любое конкретное выбранное число почти наверняка не выиграет. Однако знание о том, что определенное число выиграет в лотерею, имеет высокую информационную ценность, поскольку сообщает о результате события с очень низкой вероятностью.
Информационное содержание события , также называемое неожиданностью или самоинформацией, представляет собой функцию, которая увеличивается по мере уменьшения вероятности события. Когда значение близко к 1, неожиданность события низкая, но если оно близко к 0, неожиданность события высока. Эта связь описывается функцией
Следовательно, мы можем определить информацию или неожиданность события как
Энтропия измеряет ожидаемое (т. е. среднее) количество информации, передаваемой путем определения результата случайного испытания. [5] : 67 Это означает, что энтропия при броске игральной кости выше, чем при подбрасывании монеты, поскольку каждый результат броска игральной кости имеет меньшую вероятность ( ), чем каждый результат броска монеты ( ).
Рассмотрим монету с вероятностью p выпадения орла и вероятностью 1 − p выпадения решки. Максимальный сюрприз – это случай, когда p = 1/2 , при котором один результат не ожидается по сравнению с другим. В этом случае энтропия подбрасывания монеты равна одному биту . (Аналогично, один трит с равновероятными значениями содержит (около 1,58496) бит информации, поскольку он может иметь одно из трех значений.) Минимальным сюрпризом является ситуация, когда p = 0 или p = 1 , когда результат события известен заранее, и энтропия равна нулю. Когда энтропия равна нулю, это иногда называют единицей, где вообще нет неопределенности – нет свободы выбора – нет информации . Другие значения p дают энтропию между нулем и единицей битов.
Теория информации полезна для расчета наименьшего количества информации, необходимой для передачи сообщения, например, при сжатии данных . Например, рассмотрим передачу последовательностей, содержащих 4 символа «A», «B», «C» и «D», по двоичному каналу. Если все 4 буквы равновероятны (25%), для кодирования каждой буквы лучше использовать два бита. «A» может кодироваться как «00», «B» как «01», «C» как «10» и «D» как «11». Однако, если вероятности каждой буквы неравны, скажем, «A» встречается с вероятностью 70%, «B» с вероятностью 26%, а «C» и «D» с вероятностью 2% каждая, можно назначить коды переменной длины. В этом случае «А» будет кодироваться как «0», «В» как «10», «С» как «110» и «D» как «111». При таком представлении в 70% случаев необходимо отправить только один бит, в 26% случаев — два бита и только в 4% случаев — 3 бита. В среднем требуется менее 2 битов, поскольку энтропия ниже (из-за высокой распространенности «А», за которым следует «В» — вместе 96% символов). Вычисление суммы вероятностно-взвешенных логарифмических вероятностей измеряет и отражает этот эффект. Английский текст, рассматриваемый как строка символов, имеет довольно низкую энтропию; т.е. это достаточно предсказуемо. Мы можем быть совершенно уверены, что, например, «е» будет гораздо более распространено, чем «z», что сочетание «цюй» будет гораздо более распространено, чем любое другое сочетание с «q» в нем, и что сочетание «th» будет более распространенным, чем «z», «q» или «qu». По первым буквам зачастую можно угадать остальную часть слова. Английский текст имеет от 0,6 до 1,3 бит энтропии на символ сообщения. [6] : 234
Названная в честь Η-теоремы Больцмана , Шеннон определил энтропию Η (греческая заглавная буква эта ) дискретной случайной величины , которая принимает значения в алфавите и распределяется так, что :
Вот оператор ожидаемого значения , а I — информационное содержание X. [7] : 11 [8] : 19–20 само по себе является случайной величиной.
Энтропию можно явно записать как:
В случае для некоторых значение соответствующего слагаемого 0 log b (0) принимается равным 0 , что соответствует пределу : [ 10] : 13
Можно также определить условную энтропию двух переменных и принимать значения из наборов и соответственно как: [10] : 16
Энтропию можно формально определить на языке теории меры следующим образом: [11] Пусть — вероятностное пространство . Пусть будет событием . Сюрприз _ _ _
Ожидаемый сюрприз _ _
-почти раздел — это такое семейство множеств , что и для всех различных . (Это смягчение обычных условий разбиения.) Энтропия равна
Пусть – сигма-алгебра на . Энтропия _
Рассмотрим подбрасывание монеты с известной, но не обязательно справедливой вероятностью выпадения орла или решки; это можно смоделировать как процесс Бернулли .
Энтропия неизвестного результата следующего подбрасывания монеты максимизируется, если монета честная (то есть если орел и решка имеют равную вероятность 1/2). Это ситуация максимальной неопределенности, поскольку предсказать исход следующего броска труднее всего; результат каждого подбрасывания монеты дает один полный бит информации. Это потому что
Однако, если мы знаем, что монета нечестная, но выпадает орел или решка с вероятностью p и q , где p ≠ q , тогда неопределенности меньше. Каждый раз, когда его бросают, одна сторона поднимается с большей вероятностью, чем другая. Снижение неопределенности количественно выражается в более низкой энтропии: в среднем каждый бросок монеты дает менее одного полного бита информации. Например, если р = 0,7, то
Равномерная вероятность дает максимальную неопределенность и, следовательно, максимальную энтропию. Таким образом, энтропия может уменьшаться только по сравнению со значением, связанным с равномерной вероятностью. Крайним случаем является двусторонняя монета, у которой никогда не выпадает решка, или двусторонняя монета, у которой никогда не выпадает решка. Тогда нет никакой неопределенности. Энтропия равна нулю: каждый бросок монеты не дает новой информации, поскольку результат каждого броска монеты всегда определен. [10] : 14–15
Чтобы понять значение −Σ p i log( p i ) , сначала определите информационную функцию I в терминах события i с вероятностью p i . Количество информации, полученной в результате наблюдения события i, следует из решения Шеннона фундаментальных свойств информации : [12]
Учитывая два независимых события, если первое событие может дать один из n равновероятных исходов, а другое имеет один из m равновероятных исходов, то существует mn равновероятных исходов совместного события. Это означает, что если биты log 2 ( n ) необходимы для кодирования первого значения, а биты log 2 ( m ) — для кодирования второго, то для кодирования обоих требуется log 2 ( mn ) = log 2 ( m ) + log 2 ( n ). .
Шеннон обнаружил, что подходящий выбор определяется следующим образом: [13]
Фактически, единственные возможные значения — для . Кроме того, выбор значения для k эквивалентен выбору значения для , так что x соответствует основанию логарифма . Таким образом, энтропия характеризуется четырьмя вышеперечисленными свойствами.
Различные единицы информации ( биты для двоичного логарифма log 2 , nats для натурального логарифма ln , запреты для десятичного логарифма log 10 и т. д.) являются постоянными кратными друг другу. Например, в случае честного подбрасывания монеты орел предоставляет log 2 (2) = 1 бит информации, что составляет примерно 0,693 натс или 0,301 десятичной цифры. Из-за аддитивности n бросков предоставляют n бит информации, что составляет примерно 0,693 n nats или 0,301 n десятичных цифр.
Смысл наблюдаемых событий (смысл сообщений ) не имеет значения в определении энтропии. Энтропия учитывает только вероятность наблюдения конкретного события, поэтому инкапсулируемая ею информация — это информация об основном распределении вероятностей , а не о значении самих событий.
Другая характеристика энтропии использует следующие свойства. Обозначим p i = Pr( X = x i ) и Η n ( p 1 , ..., p n ) = Η ( X ) .
Правило аддитивности имеет следующие последствия: для натуральных чисел b i где b 1 + ... + b k = n ,
Выбор k = n , b 1 = ... = bn = 1 означает, что энтропия определенного результата равна нулю: Η 1 (1) = 0 . Это означает, что эффективность исходного алфавита с n символами можно определить просто как равную его n -арной энтропии. См. также Избыточность (теория информации) .
Характеризация здесь налагает аддитивное свойство по отношению к разбиению множества . Между тем, условная вероятность определяется в терминах мультипликативного свойства . Обратите внимание, что логарифм является промежуточным звеном между этими двумя операциями. Условная энтропия и связанные с ней величины, в свою очередь, наследуют простое соотношение. Определение теории меры в предыдущем разделе определяло энтропию как сумму ожидаемых сюрпризов для экстремального разделения. Здесь логарифм является специальным, а энтропия сама по себе не является мерой. По крайней мере, в теории информации двоичная строка поддается практическим интерпретациям.
На основе таких отношений было определено множество связанных и конкурирующих величин. Например, анализ Дэвида Эллермана «логики разделов» определяет конкурирующую меру в структурах, двойственных мерам подмножеств универсального множества. [14] Информация количественно выражается как «диты» (различия), мера по разделам. «Диты» можно преобразовать в биты Шеннона , чтобы получить формулы условной энтропии и так далее.
Другая краткая аксиоматическая характеристика энтропии Шеннона была дана Акселем , Форте и Нг [15] посредством следующих свойств:
Было показано, что любая функция, удовлетворяющая вышеуказанным свойствам, должна быть постоянной кратной энтропии Шеннона с неотрицательной константой. [15] По сравнению с ранее упомянутыми характеристиками энтропии, эта характеристика фокусируется на свойствах энтропии как функции случайных величин (субаддитивность и аддитивность), а не на свойствах энтропии как функции вектора вероятности .
Стоит отметить, что если отбросить свойство «малых для малых вероятностей», то должна получиться неотрицательная линейная комбинация энтропии Шеннона и энтропии Хартли . [15]
Энтропия Шеннона удовлетворяет следующим свойствам, для некоторых из которых полезно интерпретировать энтропию как ожидаемое количество полученной информации (или устраненной неопределенности) путем выявления значения случайной величины X :
Вдохновением для принятия слова « энтропия» в теории информации послужило близкое сходство между формулой Шеннона и очень похожими известными формулами статистической механики .
В статистической термодинамике наиболее общей формулой термодинамической энтропии S термодинамической системы является энтропия Гиббса.
где k B — постоянная Больцмана , а pi — вероятность микросостояния . Энтропия Гиббса была определена Дж. Уиллардом Гиббсом в 1878 году после более ранней работы Больцмана (1872). [16]
Энтропия Гиббса практически без изменений переводится в мир квантовой физики, давая энтропию фон Неймана , введенную Джоном фон Нейманом в 1927 году:
где ρ — матрица плотности квантовомеханической системы, а Tr — след . [17]
На повседневном практическом уровне связь между информационной энтропией и термодинамической энтропией неочевидна. Физики и химики склонны больше интересоваться изменениями энтропии по мере того, как система самопроизвольно развивается от своих начальных условий в соответствии со вторым законом термодинамики , а не неизменным распределением вероятностей. Как показывает мелочность константы Больцмана k B , изменения S / k B даже для крошечных количеств веществ в химических и физических процессах представляют собой количества энтропии, которые чрезвычайно велики по сравнению с чем-либо при сжатии данных или обработке сигналов . В классической термодинамике энтропия определяется с точки зрения макроскопических измерений и не имеет отношения к какому-либо распределению вероятностей, которое является центральным для определения информационной энтропии.
Связь между термодинамикой и тем, что сейчас известно как теория информации, была впервые установлена Людвигом Больцманом и выражена его знаменитым уравнением :
где - термодинамическая энтропия конкретного макросостояния (определяемая термодинамическими параметрами, такими как температура, объем, энергия и т. д.), W - количество микросостояний (различных комбинаций частиц в различных энергетических состояниях), которые могут создать данное макросостояние, и k B — постоянная Больцмана . [18] Предполагается, что каждое микросостояние равновероятно, так что вероятность данного микросостояния равна pi = 1/ W . Когда эти вероятности подставляются в приведенное выше выражение для энтропии Гиббса (или, что эквивалентно, в k B раз больше энтропии Шеннона), получается уравнение Больцмана. С точки зрения теории информации, информационная энтропия системы — это количество «недостающей» информации, необходимой для определения микросостояния с учетом макросостояния.
По мнению Джейнса (1957), [19] термодинамическую энтропию, объясненную статистической механикой , следует рассматривать как применение теории информации Шеннона: термодинамическая энтропия интерпретируется как пропорциональная количеству дополнительной информации Шеннона, необходимой для определения детальное микроскопическое состояние системы, которое остается непередаваемым при описании исключительно в терминах макроскопических переменных классической термодинамики, при этом константа пропорциональности является просто константой Больцмана . Добавление тепла к системе увеличивает ее термодинамическую энтропию, поскольку увеличивает количество возможных микроскопических состояний системы, которые согласуются с измеримыми значениями ее макроскопических переменных, что делает любое полное описание состояния более длинным. (См. статью: Термодинамика максимальной энтропии ). Демон Максвелла может (гипотетически) уменьшить термодинамическую энтропию системы, используя информацию о состояниях отдельных молекул; но, как показали Ландауэр (с 1961 г.) и его коллеги [20] , для функционирования демон сам должен увеличить термодинамическую энтропию в процессе, по крайней мере, на количество информации Шеннона, которую он предлагает сначала получить и сохранить; и поэтому полная термодинамическая энтропия не уменьшается (что разрешает парадокс). Принцип Ландауэра устанавливает нижнюю границу количества тепла, которое компьютер должен вырабатывать для обработки заданного объема информации, хотя современные компьютеры гораздо менее эффективны.
Определение энтропии, данное Шенноном, применительно к источнику информации, может определить минимальную пропускную способность канала, необходимую для надежной передачи источника в виде закодированных двоичных цифр. Энтропия Шеннона измеряет информацию, содержащуюся в сообщении, а не ту часть сообщения, которая определена (или предсказуема). Примеры последнего включают избыточность в языковой структуре или статистические свойства, связанные с частотами появления пар букв или слов, троек и т. д. Минимальная пропускная способность канала может быть реализована теоретически с использованием типичного набора или на практике с использованием Хаффмана , Лемпеля-Зива или арифметическое кодирование . (См. также сложность Колмогорова .) На практике алгоритмы сжатия намеренно включают некоторую разумную избыточность в виде контрольных сумм для защиты от ошибок. Уровень энтропии источника данных — это среднее количество бит на символ, необходимое для его кодирования. Эксперименты Шеннона с людьми-предсказателями показывают скорость передачи информации от 0,6 до 1,3 бита на символ в английском языке; [21] Алгоритм сжатия PPM может обеспечить степень сжатия 1,5 бита на символ в английском тексте.
Если схема сжатия без потерь – та, в которой вы всегда можете восстановить все исходное сообщение путем распаковки – тогда сжатое сообщение содержит то же количество информации, что и исходное, но передается меньшим количеством символов. Он имеет больше информации (более высокую энтропию) на символ. Сжатое сообщение имеет меньшую избыточность . Теорема Шеннона о кодировании исходного кода утверждает, что схема сжатия без потерь не может сжимать сообщения в среднем так, чтобы в каждом бите сообщения содержалось более одного бита информации, но что любое значение меньше одного бита информации на бит сообщения может быть достигнуто путем использования подходящего метода. схема кодирования. Энтропия сообщения на бит, умноженная на длину этого сообщения, является мерой того, сколько общей информации содержит сообщение. Теорема Шеннона также подразумевает, что ни одна схема сжатия без потерь не может сократить все сообщения. Если некоторые сообщения выходят короче, хотя бы одно должно выйти длиннее из-за принципа «ячейки» . При практическом использовании это, как правило, не является проблемой, поскольку обычно интересуются только сжатием определенных типов сообщений, например документов на английском языке, а не бессмысленного текста или цифровых фотографий, а не шума, и неважно, если Алгоритм сжатия увеличивает некоторые маловероятные или неинтересные последовательности.
Исследование, опубликованное в журнале Science в 2011 году, оценивает мировые технологические возможности для хранения и передачи оптимально сжатой информации, нормализованной с помощью наиболее эффективных алгоритмов сжатия, доступных в 2007 году, таким образом оценивая энтропию технологически доступных источников. [22] : 60–65
Авторы оценивают технологические возможности человечества по хранению информации (полностью энтропийно сжатой) в 1986 году и снова в 2007 году. Они разбивают информацию на три категории — хранить информацию на носителе, получать информацию через односторонние сети вещания или обмениваться информацией. через двусторонние телекоммуникационные сети. [22]
Энтропия является одним из нескольких способов измерения биоразнообразия и применяется в форме индекса Шеннона . [23] Индекс разнообразия — это количественная статистическая мера того, сколько различных типов существует в наборе данных, например видов в сообществе, с учетом экологического богатства , равномерности и доминирования . В частности, энтропия Шеннона представляет собой логарифм 1 D , истинного индекса разнообразия с параметром, равным 1. Индекс Шеннона связан с пропорциональным обилием типов.
Существует ряд концепций, связанных с энтропией, которые математически количественно определяют информационное содержание последовательности или сообщения:
(«Скорость самоинформации» также может быть определена для определенной последовательности сообщений или символов, генерируемых данным случайным процессом: она всегда будет равна скорости энтропии в случае стационарного процесса . ) Другие количества информации также используются для сравнения или связи различных источников информации.
Важно не путать приведенные выше понятия. Часто только из контекста становится ясно, о каком из них идет речь. Например, когда кто-то говорит, что «энтропия» английского языка составляет около 1 бита на символ, на самом деле он моделирует английский язык как случайный процесс и говорит о уровне его энтропии . Сам Шеннон использовал этот термин именно так.
Если используются очень большие блоки, оценка уровня энтропии на каждый символ может стать искусственно заниженной, поскольку распределение вероятностей последовательности точно не известно; это всего лишь оценка. Если рассматривать текст каждой когда-либо опубликованной книги как последовательность, где каждый символ представляет собой текст полной книги, и если имеется N опубликованных книг и каждая книга публикуется только один раз, то оценка вероятности появления каждой книги будет равна 1/ N , а энтропия (в битах) равна −log 2 (1/ N ) = log 2 ( N ) . На практике это соответствует присвоению каждой книге уникального идентификатора и использованию его вместо текста книги всякий раз, когда кто-то хочет сослаться на книгу. Это чрезвычайно полезно для разговоров о книгах, но не столь полезно для характеристики информационного содержания отдельной книги или языка в целом: невозможно восстановить книгу по ее идентификатору, не зная распределения вероятностей, т.е. , полный текст всех книг. Ключевая идея заключается в том, что необходимо учитывать сложность вероятностной модели. Колмогоровская сложность — это теоретическое обобщение этой идеи, позволяющее рассматривать информативность последовательности независимо от какой-либо конкретной вероятностной модели; он рассматривает кратчайшую программу для универсального компьютера , выводящую последовательность. Код, который достигает уровня энтропии последовательности для данной модели плюс кодовая книга (т. е. вероятностная модель), является одной из таких программ, но, возможно, не самой короткой.
Последовательность Фибоначчи — это 1, 1, 2, 3, 5, 8, 13, .... рассматривая последовательность как сообщение, а каждое число как символ, символов почти столько же, сколько символов в сообщении, что дает энтропия приблизительно равна log 2 ( n ) . Первые 128 символов последовательности Фибоначчи имеют энтропию примерно 7 бит/символ, но последовательность можно выразить с помощью формулы [ F( n ) = F( n −1) + F( n −2) для n = 3 , 4, 5, ... , F(1) =1 , F(2) = 1 ] и эта формула имеет гораздо меньшую энтропию и применима к любой длине последовательности Фибоначчи.
В криптоанализе энтропия часто грубо используется как мера непредсказуемости криптографического ключа, хотя ее реальная неопределенность неизмерима. Например, 128-битный ключ, который генерируется равномерно и случайным образом, имеет энтропию 128 бит. Также требуются (в среднем) догадки, чтобы взломать грубую силу. Энтропия не может уловить необходимое количество предположений, если возможные ключи выбраны неравномерно. [24] [25] Вместо этого для измерения усилий, необходимых для грубой атаки, можно использовать меру, называемую догадками . [26]
Другие проблемы могут возникнуть из-за неравномерности распределений, используемых в криптографии. Например, двоичный одноразовый блокнот на 1 000 000 цифр с использованием исключающего или. Если блокнот имеет 1 000 000 бит энтропии, он идеален. Если блокнот имеет 999 999 бит энтропии, распределенной равномерно (каждый отдельный бит блока имеет 0,999999 бит энтропии), это может обеспечить хорошую безопасность. Но если блокнот имеет 999 999 бит энтропии, где первый бит фиксирован, а остальные 999 999 бит совершенно случайны, первый бит зашифрованного текста вообще не будет зашифрован.
Распространенный способ определения энтропии текста основан на марковской модели текста. Для источника нулевого порядка (каждый символ выбирается независимо от последних символов) двоичная энтропия равна:
где p i - вероятность i . Для марковского источника первого порядка (того, в котором вероятность выбора символа зависит только от непосредственно предшествующего символа) уровень энтропии равен:
где i — состояние (некоторые предшествующие символы), а — вероятность j , учитывая i в качестве предыдущего символа.
Для марковского источника второго порядка уровень энтропии равен
Исходный алфавит с неравномерным распределением будет иметь меньшую энтропию, чем если бы эти символы имели равномерное распределение (т. е. «оптимизированный алфавит»). Этот дефицит энтропии можно выразить как соотношение, называемое эффективностью [27] :
Применяя основные свойства логарифма, эту величину можно также выразить как:
Эффективность полезна для количественной оценки эффективного использования канала связи . Эту формулировку также называют нормализованной энтропией, поскольку энтропия делится на максимальную энтропию . Более того, эффективность безразлична к выбору (положительного) основания b , на что указывает нечувствительность к последнему логарифму выше.
Энтропия Шеннона ограничена случайными величинами, принимающими дискретные значения. Соответствующая формула для непрерывной случайной величины с функцией плотности вероятности f ( x ) с конечным или бесконечным носителем на действительной прямой определяется по аналогии, используя приведенную выше форму энтропии в качестве математического ожидания: [10] : 224
Это дифференциальная энтропия (или непрерывная энтропия). Предвестником непрерывной энтропии h [ f ] является выражение для функционала Н в Н- теореме Больцмана .
Хотя аналогия между обеими функциями наводит на размышления, необходимо задать следующий вопрос: является ли дифференциальная энтропия действительным расширением дискретной энтропии Шеннона? Дифференциальной энтропии не хватает ряда свойств, которыми обладает дискретная энтропия Шеннона – она может быть даже отрицательной – и были предложены поправки, в частности, ограничивающие плотность дискретных точек .
Чтобы ответить на этот вопрос, необходимо установить связь между двумя функциями:
Чтобы получить вообще конечную меру, когда размер ячейки стремится к нулю. В дискретном случае размер интервала представляет собой (неявную) ширину каждого из n (конечных или бесконечных) интервалов, вероятности которых обозначаются p n . Поскольку непрерывная область обобщена, ширину необходимо указать явно.
Чтобы сделать это, начните с непрерывной функции f , дискретизированной на ячейки размером . По теореме о среднем значении в каждом интервале существует такое значение x i , что
Мы будем обозначать
При ∆ → 0 имеем
Примечание; log(Δ) → −∞ при Δ → 0 требует специального определения дифференциальной или непрерывной энтропии:
которая, как было сказано ранее, называется дифференциальной энтропией. Это означает, что дифференциальная энтропия не является пределом энтропии Шеннона при n → ∞ . Скорее, он отличается от предела энтропии Шеннона бесконечным смещением (см. также статью об информационном измерении ).
В результате оказывается, что, в отличие от энтропии Шеннона, дифференциальная энтропия вообще не является хорошей мерой неопределенности или информации. Например, дифференциальная энтропия может быть отрицательной; также он не инвариантен относительно непрерывных преобразований координат. Эту проблему можно проиллюстрировать изменением единиц измерения, когда x является размерной переменной. f ( x ) тогда будет иметь единицы измерения 1/ x . Аргумент логарифма должен быть безразмерным, иначе он неправильный, так что дифференциальная энтропия, указанная выше, будет несобственной. Если Δ является некоторым «стандартным» значением x (т.е. «размером контейнера») и, следовательно, имеет те же единицы измерения, то модифицированную дифференциальную энтропию можно записать в правильной форме как:
и результат будет одинаковым для любого выбора единиц измерения x . Фактически, предел дискретной энтропии также включает в себя член , который в общем случае будет бесконечным. Это ожидаемо: непрерывные переменные обычно имеют бесконечную энтропию при дискретизации. Предельная плотность дискретных точек на самом деле является мерой того, насколько легче описать распределение, чем распределение, однородное по схеме квантования.
Еще одна полезная мера энтропии, которая одинаково хорошо работает как в дискретном, так и в непрерывном случае, — это относительная энтропия распределения. Оно определяется как расхождение Кульбака – Лейблера от распределения до эталонной меры m следующим образом. Предположим, что распределение вероятностей p абсолютно непрерывно относительно меры m , т.е. имеет вид p ( dx ) = f ( x ) m ( dx ) для некоторой неотрицательной m -интегрируемой функции f с m -интегралом 1, тогда относительную энтропию можно определить как
В этом виде относительная энтропия обобщает (с точностью до смены знака) как дискретную энтропию, где мера m является считающей мерой , так и дифференциальную энтропию, где мера m является мерой Лебега . Если мера m сама по себе является распределением вероятностей, относительная энтропия неотрицательна и равна нулю, если p = m в качестве меры. Он определен для любого пространства с мерой, следовательно, независим от координат и инвариантен относительно перепараметризации координат, если правильно принять во внимание преобразование меры m . Относительная энтропия, а также (неявно) энтропия и дифференциальная энтропия действительно зависят от «эталонной» меры m .
Теренс Тао использовал энтропию, чтобы установить полезную связь, пытаясь решить проблему несоответствия Эрдеша . [28]
Интуитивно идея доказательства заключалась в том, что между последовательными случайными величинами имеется низкая информация с точки зрения энтропии Шеннона (здесь случайная величина определяется с помощью функции Лиувилля (которая является полезной математической функцией для изучения распределения простых чисел) X H = . И в интервале [n, n+H] сумма в этом интервале может стать сколь угодно большой. Например, последовательность +1 (которые могут принимать значения X H' ) имеют тривиально низкую энтропию, и их сумма станет большой Но ключевой вывод заключался в том, чтобы показать уменьшение энтропии на немалую величину при расширении H, что, в свою очередь, привело к неограниченному росту математического объекта по этой случайной величине, что эквивалентно показу неограниченного роста в соответствии с проблемой несоответствия Эрдеша .
Доказательство весьма сложное, и оно привело к прорывам не только в новом использовании энтропии Шеннона, но и в использовании функции Лиувилля вместе со средними значениями модулированных мультипликативных функций на коротких интервалах. Доказательство этого также сломало «паритетный барьер» для этой конкретной проблемы.
Хотя использование энтропии Шеннона в доказательстве является новым, оно, вероятно, откроет новые исследования в этом направлении.
Энтропия стала полезной величиной в комбинаторике .
Простым примером этого является альтернативное доказательство неравенства Лумиса–Уитни : для каждого подмножества A ⊆ Z d мы имеем
где Pi — ортогональная проекция по i- й координате :
Доказательство представляет собой простое следствие неравенства Ширера : если X 1 , ..., X d — случайные величины, а S 1 , ..., Sn — подмножества {1, ..., d } такие, что каждое целое число между 1 и d лежит ровно в r из этих подмножеств, то
где – декартово произведение случайных величин X j с индексами j в Si (поэтому размерность этого вектора равна размеру Si ) .
Мы обрисуем, как из этого следует Лумис-Уитни: Действительно, пусть X — равномерно распределенная случайная величина со значениями в A и так, что каждая точка в A встречается с равной вероятностью. Тогда (в силу упомянутых выше дополнительных свойств энтропии) Η( X ) = log| А | , где | А | обозначает мощность A . Пусть S i = {1, 2, ..., i −1, i +1, ..., d }. Диапазон содержится в Pi ( A ) и , следовательно , . Теперь используйте это, чтобы ограничить правую часть неравенства Ширера и возвести в степень противоположные части полученного неравенства.
Для целых чисел 0 < k < n пусть q = k / n . Затем
где
Хорошая интерпретация этого состоит в том, что количество двоичных строк длины n , содержащих ровно k многих единиц, составляет приблизительно . [30]
Методы машинного обучения в основном возникают из статистики, а также из теории информации. В общем, энтропия — это мера неопределенности, а цель машинного обучения — минимизировать неопределенность.
Алгоритмы обучения дерева решений используют относительную энтропию для определения правил принятия решений, которые управляют данными в каждом узле. [31] Прирост информации в деревьях решений , который равен разнице между энтропией и условной энтропией данного , количественно определяет ожидаемую информацию или уменьшение энтропии от дополнительного знания значения атрибута . Полученная информация используется для определения того, какие атрибуты набора данных предоставляют больше всего информации, и их следует использовать для оптимального разделения узлов дерева.
Модели байесовского вывода часто применяют принцип максимальной энтропии для получения априорных распределений вероятностей. [32] Идея состоит в том, что распределение, которое лучше всего отражает текущее состояние знаний о системе, имеет наибольшую энтропию и, следовательно, подходит в качестве априорного.
Классификация в машинном обучении, выполняемая с помощью логистической регрессии или искусственных нейронных сетей, часто использует стандартную функцию потерь, называемую перекрестной энтропией , которая минимизирует среднюю перекрестную энтропию между фактическими и предсказанными распределениями. [33] В общем, перекрестная энтропия — это мера различий между двумя наборами данных, аналогичная расхождению KL (также известному как относительная энтропия).
{{cite book}}
: CS1 maint: location missing publisher (link)Эта статья включает в себя материал из энтропии Шеннона на PlanetMath , который доступен под лицензией Creative Commons Attribution/Share-Alike License .