stringtranslate.com

Дифференциальная энтропия

Дифференциальная энтропия (также называемая непрерывной энтропией ) — это концепция теории информации , которая возникла как попытка Клода Шеннона распространить идею энтропии (Шеннона) — меры среднего (сюрприза) случайной величины — на непрерывные распределения вероятностей. . К сожалению, Шеннон не вывел эту формулу, а просто предположил, что это правильный непрерывный аналог дискретной энтропии, но это не так. [1] : 181–218  Фактической непрерывной версией дискретной энтропии является предельная плотность дискретных точек (LDDP). Дифференциальная энтропия (описанная здесь) часто встречается в литературе, но это предельный случай LDDP, который теряет свою фундаментальную связь с дискретной энтропией .

С точки зрения теории меры , дифференциальная энтропия вероятностной меры — это отрицательная относительная энтропия от этой меры до меры Лебега , причем последняя рассматривается так, как если бы она была вероятностной мерой, несмотря на то, что она ненормирована.

Определение

Позвольте быть случайной величиной с функцией плотности вероятности , носителем которой является множество . Дифференциальная энтропия или определяется как [2] : 243 

Для распределений вероятностей, которые не имеют явного выражения функции плотности, но имеют явное выражение функции квантиля , можно определить через производную, т.е. функции плотности квантиля, как [3] : 54–59 

.

Как и в случае с его дискретным аналогом, единицы дифференциальной энтропии зависят от основания логарифма , которое обычно равно 2 (т. е. единицами являются биты ). См. логарифмические единицы для логарифмов, взятых в разных основаниях. Связанные понятия, такие как совместная , условная дифференциальная энтропия и относительная энтропия , определяются аналогичным образом. В отличие от дискретного аналога, дифференциальная энтропия имеет смещение, которое зависит от единиц измерения . [4] : 183–184  Например, дифференциальная энтропия величины, измеренной в миллиметрах, будет на log(1000) больше, чем такая же величина, измеренная в метрах; безразмерная величина будет иметь дифференциальную энтропию log(1000) больше, чем такая же величина, деленная на 1000.

Следует проявлять осторожность, пытаясь применить свойства дискретной энтропии к дифференциальной энтропии, поскольку функции плотности вероятности могут быть больше 1. Например, равномерное распределение имеет отрицательную дифференциальную энтропию; т. е. он лучше упорядочен, чем показан сейчас

быть меньше того, у которого дифференциальная энтропия равна нулю . Таким образом, дифференциальная энтропия не обладает всеми свойствами дискретной энтропии.

Непрерывная взаимная информация отличается тем, что сохраняет свое фундаментальное значение как мера дискретной информации, поскольку на самом деле она является пределом дискретной взаимной информации разделов и по мере того, как эти разделы становятся все тоньше и тоньше. Таким образом, он инвариантен относительно нелинейных гомеоморфизмов (непрерывных и однозначно обратимых отображений), [5] включая линейные [6] преобразования и , и по-прежнему представляет собой количество дискретной информации, которая может быть передана по каналу, который допускает непрерывное пространство ценности.

Чтобы узнать о прямом аналоге дискретной энтропии, расширенном на непрерывное пространство, см. предельную плотность дискретных точек .

Свойства дифференциальной энтропии

.
В частности, для постоянной
Для векторной случайной величины и обратимой (квадратной) матрицы
[2] : 253 
где – якобиан преобразования . [7] Вышеупомянутое неравенство становится равенством, если преобразование является биекцией. Кроме того, когда происходит жесткое вращение, перемещение или их комбинация, определитель Якобиана всегда равен 1 и .

Однако дифференциальная энтропия не обладает другими желательными свойствами:

Модификацией дифференциальной энтропии, устраняющей эти недостатки, является относительная информационная энтропия , также известная как дивергенция Кульбака – Лейблера, которая включает в себя инвариантный коэффициент измерения (см . предельную плотность дискретных точек ).

Максимизация в нормальном распределении

Теорема

При нормальном распределении дифференциальная энтропия максимизируется для заданной дисперсии. Гауссова случайная величина имеет наибольшую энтропию среди всех случайных величин с равной дисперсией или, альтернативно, максимальное распределение энтропии при ограничениях среднего значения и дисперсии является гауссовым. [2] : 255 

Доказательство

Пусть — гауссова PDF со средним значением µ и дисперсией и произвольная PDF с той же дисперсией. Поскольку дифференциальная энтропия является трансляционно-инвариантной, мы можем предположить, что она имеет то же среднее значение, что и .

Рассмотрим расхождение Кульбака – Лейблера между двумя распределениями.

Теперь обратите внимание, что

потому что результат не зависит ни от чего, кроме как от дисперсии. Объединение двух результатов дает

с равенством, если следовать из свойств расходимости Кульбака–Лейблера.

Альтернативное доказательство

Этот результат можно также продемонстрировать с помощью вариационного исчисления . Функция Лагранжа с двумя множителями Лагранжа может быть определена как:

где g(x) — некоторая функция со средним µ. Когда энтропия g(x) максимальна и уравнения ограничений, которые состоят из условия нормализации и требования фиксированной дисперсии , выполняются, тогда небольшое изменение δ g ( x ) относительно g (x) приведет к изменение δ L относительно L , равное нулю:

Поскольку это должно выполняться для любого малого δ g ( x ), член в скобках должен быть равен нулю, и решение для g(x) дает:

Использование уравнений ограничений для решения λ 0 и λ дает нормальное распределение:

Пример: экспоненциальное распределение

Пусть – экспоненциально распределенная случайная величина с параметром , т. е. с функцией плотности вероятности

Тогда его дифференциальная энтропия равна

Здесь использовался вместо того, чтобы явно указать, что логарифм был взят по основанию e , чтобы упростить расчет.

Связь с ошибкой оценщика

Дифференциальная энтропия дает нижнюю границу ожидаемой квадратичной ошибки оценщика . Для любой случайной величины и оценки справедливо следующее: [2]

с равенством тогда и только тогда, когда является гауссовой случайной величиной и является средним значением .

Дифференциальная энтропия для различных распределений

В таблице ниже представлена ​​гамма-функция , — дигамма-функция , — бета-функция , а γ Eконстанта Эйлера . [8] : 219–230 

Многие из дифференциальных энтропий происходят от. [9] : 120–122 

Варианты

Как описано выше, дифференциальная энтропия не обладает всеми свойствами дискретной энтропии. Например, дифференциальная энтропия может быть отрицательной; также оно не инвариантно относительно непрерывных преобразований координат. Эдвин Томпсон Джейнс фактически показал, что приведенное выше выражение не является правильным пределом выражения для конечного набора вероятностей. [10] : 181–218. 

Модификация дифференциальной энтропии добавляет инвариантный измерительный коэффициент, чтобы исправить это (см. Предельную плотность дискретных точек ). Если дополнительно ограничиться плотностью вероятности, полученное понятие в теории информации называется относительной энтропией :

Приведенное выше определение дифференциальной энтропии можно получить путем разделения диапазона на интервалы длины с соответствующими точками выборки внутри интервалов для интегрируемого по Риману. Это дает квантованную версию , определяемую if . Тогда энтропия равна [ 2]

Первый член справа аппроксимирует дифференциальную энтропию, а второй член примерно равен . Обратите внимание, что эта процедура предполагает, что энтропия в дискретном смысле непрерывной случайной величины должна быть равна .

Смотрите также

Рекомендации

  1. ^ Джейнс, ET (1963). «Теория информации и статистическая механика» (PDF) . Лекции по теоретической физике в Летнем институте Университета Брандейса . 3 (раздел 4б).
  2. ^ abcdefgh Обложка, Томас М.; Томас, Джой А. (1991). Элементы теории информации . Нью-Йорк: Уайли. ISBN 0-471-06259-6.
  3. ^ Васичек, Олдрич (1976), «Тест на нормальность, основанный на энтропии выборки», Журнал Королевского статистического общества, серия B , 38 (1): 54–59, JSTOR  2984828.
  4. ^ Гиббс, Джозайя Уиллард (1902). Элементарные принципы статистической механики, разработанные с особым упором на рациональные основы термодинамики . Нью-Йорк: Сыновья Чарльза Скрибнера.
  5. ^ Красков, Александр; Стёгбауэр, Грассбергер (2004). «Оценка взаимной информации». Физический обзор E . 60 (6): 066138. arXiv : cond-mat/0305641 . Бибкод : 2004PhRvE..69f6138K. doi : 10.1103/PhysRevE.69.066138. PMID  15244698. S2CID  1269438.
  6. ^ Фазлолла М. Реза (1994) [1961]. Введение в теорию информации. Dover Publications, Inc., Нью-Йорк. ISBN 0-486-68210-2.
  7. ^ «Доказательство верхней оценки дифференциальной энтропии f (X)» . Обмен стеками . 16 апреля 2016 г.
  8. ^ Пак, Сон Ю.; Бера, Анил К. (2009). «Модель условной гетероскедастичности авторегрессии с максимальной энтропией» (PDF) . Журнал эконометрики . Эльзевир. 150 (2): 219–230. doi :10.1016/j.jeconom.2008.12.014. Архивировано из оригинала (PDF) 7 марта 2016 г. Проверено 2 июня 2011 г.
  9. ^ Лазо, А. и П. Рэти (1978). «Об энтропии непрерывных вероятностных распределений». Транзакции IEEE по теории информации . 24 (1): 120–122. дои : 10.1109/TIT.1978.1055832.
  10. ^ Джейнс, ET (1963). «Теория информации и статистическая механика» (PDF) . Лекции по теоретической физике в Летнем институте Университета Брандейса . 3 (раздел 4б).

Внешние ссылки