Понятие в теории информации
Дифференциальная энтропия (также называемая непрерывной энтропией ) — это концепция в теории информации , которая началась как попытка Клода Шеннона распространить идею (шенноновской) энтропии (меры средней неожиданности) случайной величины на непрерывные распределения вероятностей. К сожалению, Шеннон не вывел эту формулу, а скорее просто предположил, что это правильный непрерывный аналог дискретной энтропии, но это не так. [1] : 181–218 Фактическая непрерывная версия дискретной энтропии — это предельная плотность дискретных точек (LDDP). Дифференциальная энтропия (описанная здесь) часто встречается в литературе, но это предельный случай LDDP, и тот, который теряет свою фундаментальную связь с дискретной энтропией .
В терминах теории меры дифференциальная энтропия вероятностной меры — это отрицательная относительная энтропия от этой меры к мере Лебега , где последняя рассматривается так, как если бы она была вероятностной мерой, несмотря на то, что она ненормализована.
Определение
Пусть будет случайной величиной с функцией плотности вероятности , носителем которой является множество . Дифференциальная энтропия или определяется как [2] : 243
Для распределений вероятностей, которые не имеют явного выражения функции плотности, но имеют явное выражение функции квантиля , тогда можно определить в терминах производной, т.е. функции плотности квантиля , как [3] : 54–59
- .
Как и в случае с дискретным аналогом, единицы дифференциальной энтропии зависят от основания логарифма , которое обычно равно 2 (т. е. единицами являются биты ). См. логарифмические единицы для логарифмов, взятых в разных основаниях. Связанные понятия, такие как совместная , условная дифференциальная энтропия и относительная энтропия , определяются аналогичным образом. В отличие от дискретного аналога, дифференциальная энтропия имеет смещение, которое зависит от единиц, используемых для измерения . [4] : 183–184 Например, дифференциальная энтропия величины, измеренной в миллиметрах, будет на log(1000) больше, чем та же величина, измеренная в метрах; безразмерная величина будет иметь дифференциальную энтропию на log(1000) больше, чем та же величина, деленная на 1000.
Необходимо проявлять осторожность при попытке применить свойства дискретной энтропии к дифференциальной энтропии, поскольку функции плотности вероятности могут быть больше 1. Например, равномерное распределение имеет отрицательную дифференциальную энтропию; т.е. оно лучше упорядочено, чем показано сейчас.
будучи меньше, чем тот, у которого нулевая дифференциальная энтропия. Таким образом, дифференциальная энтропия не разделяет все свойства дискретной энтропии.
Непрерывная взаимная информация отличается тем , что сохраняет свое фундаментальное значение как мера дискретной информации, поскольку она фактически является пределом дискретной взаимной информации разделов и по мере того, как эти разделы становятся все тоньше и тоньше. Таким образом, она инвариантна относительно нелинейных гомеоморфизмов (непрерывных и однозначно обратимых отображений), [5] включая линейные [6] преобразования и , и по-прежнему представляет собой объем дискретной информации, который может быть передан по каналу, допускающему непрерывное пространство значений.
Для прямого аналога дискретной энтропии, распространенной на непрерывное пространство, см. предельную плотность дискретных точек .
Свойства дифференциальной энтропии
- Для плотностей вероятности и расхождение Кульбака –Лейблера больше или равно 0 с равенством только если почти всюду . Аналогично для двух случайных величин и , и с равенством тогда и только тогда, когда и независимы .
- Правило цепочки для дифференциальной энтропии выполняется так же, как и в дискретном случае [2] : 253
- .
- Дифференциальная энтропия инвариантна относительно трансляции, т.е. для константы . [2] : 253
- Дифференциальная энтропия в общем случае не инвариантна относительно произвольных обратимых отображений.
- В частности, для постоянного
- Для векторной случайной величины и обратимой (квадратной) матрицы
- [2] : 253
- В общем случае, для преобразования случайного вектора в другой случайный вектор той же размерности соответствующие энтропии связаны соотношением
- где — якобиан преобразования . [7] Вышеуказанное неравенство становится равенством, если преобразование является биекцией. Кроме того, когда — жесткое вращение, перенос или их комбинация, определитель якобиана всегда равен 1, и .
- Если случайный вектор имеет нулевое среднее значение и ковариационную матрицу , причем равенство имеет место тогда и только тогда, когда он является совместно гауссовым (см. ниже). [2] : 254
Однако дифференциальная энтропия не обладает другими желательными свойствами:
- Он не инвариантен относительно замены переменных и поэтому наиболее полезен для безразмерных переменных.
- Может быть и отрицательным.
Модификацией дифференциальной энтропии, которая устраняет эти недостатки, является относительная информационная энтропия , также известная как расхождение Кульбака–Лейблера, которая включает в себя инвариантный фактор меры (см. предельную плотность дискретных точек ).
Максимизация в нормальном распределении
Теорема
При нормальном распределении дифференциальная энтропия максимизируется для заданной дисперсии. Гауссовская случайная величина имеет наибольшую энтропию среди всех случайных величин с одинаковой дисперсией, или, альтернативно, распределение максимальной энтропии при ограничениях среднего и дисперсии является гауссовским. [2] : 255
Доказательство
Пусть будет гауссовской PDF со средним μ и дисперсией и произвольной PDF с той же дисперсией. Поскольку дифференциальная энтропия инвариантна относительно трансляции, мы можем предположить, что имеет то же среднее, что и .
Рассмотрим расхождение Кульбака–Лейблера между двумя распределениями
Теперь обратите внимание, что
потому что результат не зависит ни от чего, кроме как через дисперсию. Объединение двух результатов дает
с равенством, вытекающим из свойств дивергенции Кульбака–Лейблера.
Альтернативное доказательство
Этот результат можно также продемонстрировать с помощью вариационного исчисления . Функция Лагранжа с двумя множителями Лагранжа может быть определена как:
где g(x) — некоторая функция со средним значением μ. Когда энтропия g(x) максимальна и уравнения ограничений, которые состоят из условия нормализации и требования фиксированной дисперсии , оба удовлетворены, то небольшое изменение δg ( x ) относительно g ( x ) приведет к изменению δL относительно L , которое равно нулю:
Поскольку это должно выполняться для любого малого δ g ( x ), член в скобках должен быть равен нулю, и решение для g(x) дает:
Используя уравнения ограничений для решения относительно λ 0 и λ, получаем нормальное распределение:
Пример: экспоненциальное распределение
Пусть будет экспоненциально распределенной случайной величиной с параметром , то есть с функцией плотности вероятности
Тогда его дифференциальная энтропия равна
Здесь вместо того , чтобы явно указать, что логарифм взят по основанию e , использовалось для упрощения вычислений.
Отношение к ошибке оценки
Дифференциальная энтропия дает нижнюю границу ожидаемой квадратичной ошибки оценщика . Для любой случайной величины и оценщика справедливо следующее: [2]
с равенством тогда и только тогда, когда — гауссовская случайная величина и — среднее значение .
Дифференциальные энтропии для различных распределений
В таблице ниже — гамма-функция , — дигамма-функция , — бета-функция , а γ E — постоянная Эйлера . [8] : 219–230
Многие дифференциальные энтропии взяты из [9] : 120–122
Варианты
Как описано выше, дифференциальная энтропия не разделяет все свойства дискретной энтропии. Например, дифференциальная энтропия может быть отрицательной; также она не инвариантна относительно непрерывных преобразований координат. Эдвин Томпсон Джейнс показал, что выражение выше не является правильным пределом выражения для конечного набора вероятностей. [10] : 181–218
Модификация дифференциальной энтропии добавляет инвариантный фактор меры для исправления этого (см. предельную плотность дискретных точек ). Если дополнительно ограничивается плотностью вероятности, то полученное понятие называется относительной энтропией в теории информации:
Определение дифференциальной энтропии выше может быть получено путем разбиения диапазона на ячейки длины с соответствующими точками выборки внутри ячеек, для интегрируемой по Риману. Это дает квантованную версию , определяемую как , если . Тогда энтропия равна [2]
Первый член справа аппроксимирует дифференциальную энтропию, тогда как второй член приблизительно равен . Обратите внимание, что эта процедура предполагает, что энтропия в дискретном смысле непрерывной случайной величины должна быть .
Смотрите также
Ссылки
- ^ Джейнс, ET (1963). "Теория информации и статистическая механика" (PDF) . Лекции Летнего института по теоретической физике Университета Брандейса . 3 (раздел 4b).
- ^ abcdefgh Cover, Thomas M.; Thomas, Joy A. (1991). Элементы теории информации . Нью-Йорк: Wiley. ISBN 0-471-06259-6.
- ^ Васичек, Олдрич (1976), «Тест на нормальность на основе выборочной энтропии», Журнал Королевского статистического общества, Серия B , 38 (1): 54–59, doi :10.1111/j.2517-6161.1976.tb01566.x, JSTOR 2984828.
- ^ Гиббс, Джозайя Уиллард (1902). Элементарные принципы статистической механики, разработанные с особым упором на рациональные основы термодинамики . Нью-Йорк: Charles Scribner's Sons.
- ^ Красков, Александр; Штёгбауэр, Грассбергер (2004). «Оценка взаимной информации». Physical Review E. 60 ( 6): 066138. arXiv : cond-mat/0305641 . Bibcode : 2004PhRvE..69f6138K. doi : 10.1103/PhysRevE.69.066138. PMID 15244698. S2CID 1269438.
- ^ Фазлолла М. Реза (1994) [1961]. Введение в теорию информации. Dover Publications, Inc., Нью-Йорк. ISBN 0-486-68210-2.
- ^ "доказательство верхней границы дифференциальной энтропии f(X)". Stack Exchange . 16 апреля 2016 г.
- ^ Park, Sung Y.; Bera, Anil K. (2009). "Модель условной гетероскедастичности с максимальной энтропией авторегрессии" (PDF) . Journal of Econometrics . 150 (2). Elsevier: 219–230. doi :10.1016/j.jeconom.2008.12.014. Архивировано из оригинала (PDF) 2016-03-07 . Получено 2011-06-02 .
- ^ Лазо, А. и П. Рати (1978). «Об энтропии непрерывных распределений вероятностей». Труды IEEE по теории информации . 24 (1): 120–122. doi :10.1109/TIT.1978.1055832.
- ^ Джейнс, ET (1963). "Теория информации и статистическая механика" (PDF) . Лекции Летнего института по теоретической физике Университета Брандейса . 3 (раздел 4b).
Внешние ссылки