stringtranslate.com

Дифференциальная энтропия

Дифференциальная энтропия (также называемая непрерывной энтропией ) — это концепция в теории информации , которая началась как попытка Клода Шеннона распространить идею (шенноновской) энтропии (меры средней неожиданности) случайной величины на непрерывные распределения вероятностей. К сожалению, Шеннон не вывел эту формулу, а скорее просто предположил, что это правильный непрерывный аналог дискретной энтропии, но это не так. [1] : 181–218  Фактическая непрерывная версия дискретной энтропии — это предельная плотность дискретных точек (LDDP). Дифференциальная энтропия (описанная здесь) часто встречается в литературе, но это предельный случай LDDP, и тот, который теряет свою фундаментальную связь с дискретной энтропией .

В терминах теории меры дифференциальная энтропия вероятностной меры — это отрицательная относительная энтропия от этой меры к мере Лебега , где последняя рассматривается так, как если бы она была вероятностной мерой, несмотря на то, что она ненормализована.

Определение

Пусть будет случайной величиной с функцией плотности вероятности , носителем которой является множество . Дифференциальная энтропия или определяется как [2] : 243 

Для распределений вероятностей, которые не имеют явного выражения функции плотности, но имеют явное выражение функции квантиля , тогда можно определить в терминах производной, т.е. функции плотности квантиля , как [3] : 54–59 

.

Как и в случае с дискретным аналогом, единицы дифференциальной энтропии зависят от основания логарифма , которое обычно равно 2 (т. е. единицами являются биты ). См. логарифмические единицы для логарифмов, взятых в разных основаниях. Связанные понятия, такие как совместная , условная дифференциальная энтропия и относительная энтропия , определяются аналогичным образом. В отличие от дискретного аналога, дифференциальная энтропия имеет смещение, которое зависит от единиц, используемых для измерения . [4] : 183–184  Например, дифференциальная энтропия величины, измеренной в миллиметрах, будет на log(1000) больше, чем та же величина, измеренная в метрах; безразмерная величина будет иметь дифференциальную энтропию на log(1000) больше, чем та же величина, деленная на 1000.

Необходимо проявлять осторожность при попытке применить свойства дискретной энтропии к дифференциальной энтропии, поскольку функции плотности вероятности могут быть больше 1. Например, равномерное распределение имеет отрицательную дифференциальную энтропию; т.е. оно лучше упорядочено, чем показано сейчас.

будучи меньше, чем тот, у которого нулевая дифференциальная энтропия. Таким образом, дифференциальная энтропия не разделяет все свойства дискретной энтропии.

Непрерывная взаимная информация отличается тем , что сохраняет свое фундаментальное значение как мера дискретной информации, поскольку она фактически является пределом дискретной взаимной информации разделов и по мере того, как эти разделы становятся все тоньше и тоньше. Таким образом, она инвариантна относительно нелинейных гомеоморфизмов (непрерывных и однозначно обратимых отображений), [5] включая линейные [6] преобразования и , и по-прежнему представляет собой объем дискретной информации, который может быть передан по каналу, допускающему непрерывное пространство значений.

Для прямого аналога дискретной энтропии, распространенной на непрерывное пространство, см. предельную плотность дискретных точек .

Свойства дифференциальной энтропии

.
В частности, для постоянного
Для векторной случайной величины и обратимой (квадратной) матрицы
[2] : 253 
где — якобиан преобразования . [7] Вышеуказанное неравенство становится равенством, если преобразование является биекцией. Кроме того, когда — жесткое вращение, перенос или их комбинация, определитель якобиана всегда равен 1, и .

Однако дифференциальная энтропия не обладает другими желательными свойствами:

Модификацией дифференциальной энтропии, которая устраняет эти недостатки, является относительная информационная энтропия , также известная как расхождение Кульбака–Лейблера, которая включает в себя инвариантный фактор меры (см. предельную плотность дискретных точек ).

Максимизация в нормальном распределении

Теорема

При нормальном распределении дифференциальная энтропия максимизируется для заданной дисперсии. Гауссовская случайная величина имеет наибольшую энтропию среди всех случайных величин с одинаковой дисперсией, или, альтернативно, распределение максимальной энтропии при ограничениях среднего и дисперсии является гауссовским. [2] : 255 

Доказательство

Пусть будет гауссовской PDF со средним μ и дисперсией и произвольной PDF с той же дисперсией. Поскольку дифференциальная энтропия инвариантна относительно трансляции, мы можем предположить, что имеет то же среднее, что и .

Рассмотрим расхождение Кульбака–Лейблера между двумя распределениями

Теперь обратите внимание, что

потому что результат не зависит ни от чего, кроме как через дисперсию. Объединение двух результатов дает

с равенством, вытекающим из свойств дивергенции Кульбака–Лейблера.

Альтернативное доказательство

Этот результат можно также продемонстрировать с помощью вариационного исчисления . Функция Лагранжа с двумя множителями Лагранжа может быть определена как:

где g(x) — некоторая функция со средним значением μ. Когда энтропия g(x) максимальна и уравнения ограничений, которые состоят из условия нормализации и требования фиксированной дисперсии , оба удовлетворены, то небольшое изменение δg ( x ) относительно g ( x ) приведет к изменению δL относительно L , которое равно нулю:

Поскольку это должно выполняться для любого малого δ g ( x ), член в скобках должен быть равен нулю, и решение для g(x) дает:

Используя уравнения ограничений для решения относительно λ 0 и λ, получаем нормальное распределение:

Пример: экспоненциальное распределение

Пусть будет экспоненциально распределенной случайной величиной с параметром , то есть с функцией плотности вероятности

Тогда его дифференциальная энтропия равна

Здесь вместо того , чтобы явно указать, что логарифм взят по основанию e , использовалось для упрощения вычислений.

Отношение к ошибке оценки

Дифференциальная энтропия дает нижнюю границу ожидаемой квадратичной ошибки оценщика . Для любой случайной величины и оценщика справедливо следующее: [2]

с равенством тогда и только тогда, когда — гауссовская случайная величина и — среднее значение .

Дифференциальные энтропии для различных распределений

В таблице ниже — гамма-функция , — дигамма-функция , — бета-функция , а γ Eпостоянная Эйлера . [8] : 219–230 

Многие дифференциальные энтропии взяты из [9] : 120–122 

Варианты

Как описано выше, дифференциальная энтропия не разделяет все свойства дискретной энтропии. Например, дифференциальная энтропия может быть отрицательной; также она не инвариантна относительно непрерывных преобразований координат. Эдвин Томпсон Джейнс показал, что выражение выше не является правильным пределом выражения для конечного набора вероятностей. [10] : 181–218 

Модификация дифференциальной энтропии добавляет инвариантный фактор меры для исправления этого (см. предельную плотность дискретных точек ). Если дополнительно ограничивается плотностью вероятности, то полученное понятие называется относительной энтропией в теории информации:

Определение дифференциальной энтропии выше может быть получено путем разбиения диапазона на ячейки длины с соответствующими точками выборки внутри ячеек, для интегрируемой по Риману. Это дает квантованную версию , определяемую как , если . Тогда энтропия равна [2]

Первый член справа аппроксимирует дифференциальную энтропию, тогда как второй член приблизительно равен . Обратите внимание, что эта процедура предполагает, что энтропия в дискретном смысле непрерывной случайной величины должна быть .

Смотрите также

Ссылки

  1. ^ Джейнс, ET (1963). "Теория информации и статистическая механика" (PDF) . Лекции Летнего института по теоретической физике Университета Брандейса . 3 (раздел 4b).
  2. ^ abcdefgh Cover, Thomas M.; Thomas, Joy A. (1991). Элементы теории информации . Нью-Йорк: Wiley. ISBN 0-471-06259-6.
  3. ^ Васичек, Олдрич (1976), «Тест на нормальность на основе выборочной энтропии», Журнал Королевского статистического общества, Серия B , 38 (1): 54–59, doi :10.1111/j.2517-6161.1976.tb01566.x, JSTOR  2984828.
  4. ^ Гиббс, Джозайя Уиллард (1902). Элементарные принципы статистической механики, разработанные с особым упором на рациональные основы термодинамики . Нью-Йорк: Charles Scribner's Sons.
  5. ^ Красков, Александр; Штёгбауэр, Грассбергер (2004). «Оценка взаимной информации». Physical Review E. 60 ( 6): 066138. arXiv : cond-mat/0305641 . Bibcode : 2004PhRvE..69f6138K. doi : 10.1103/PhysRevE.69.066138. PMID  15244698. S2CID  1269438.
  6. ^ Фазлолла М. Реза (1994) [1961]. Введение в теорию информации. Dover Publications, Inc., Нью-Йорк. ISBN 0-486-68210-2.
  7. ^ "доказательство верхней границы дифференциальной энтропии f(X)". Stack Exchange . 16 апреля 2016 г.
  8. ^ Park, Sung Y.; Bera, Anil K. (2009). "Модель условной гетероскедастичности с максимальной энтропией авторегрессии" (PDF) . Journal of Econometrics . 150 (2). Elsevier: 219–230. doi :10.1016/j.jeconom.2008.12.014. Архивировано из оригинала (PDF) 2016-03-07 . Получено 2011-06-02 .
  9. ^ Лазо, А. и П. Рати (1978). «Об энтропии непрерывных распределений вероятностей». Труды IEEE по теории информации . 24 (1): 120–122. doi :10.1109/TIT.1978.1055832.
  10. ^ Джейнс, ET (1963). "Теория информации и статистическая механика" (PDF) . Лекции Летнего института по теоретической физике Университета Брандейса . 3 (раздел 4b).

Внешние ссылки