stringtranslate.com

Расхождение Кульбака–Лейблера

В математической статистике дивергенция Кульбака –Лейблера ( KL ) (также называемая относительной энтропией и I-дивергенцией [1] ), обозначаемая как , является типом статистического расстояния : мерой того, насколько одно эталонное распределение вероятностей P отличается от второго распределения вероятностей Q. [2] [3] Математически она определяется как

Простая интерпретация KL-расхождения P от Q — это ожидаемый излишек неожиданности от использования Q в качестве модели вместо P , когда фактическое распределение равно P. Хотя это мера того, насколько различны два распределения, и в некотором смысле является, таким образом, «расстоянием», на самом деле это не метрика , которая является наиболее знакомым и формальным типом расстояния. В частности, она не симметрична в двух распределениях (в отличие от вариации информации ) и не удовлетворяет неравенству треугольника . Вместо этого, с точки зрения информационной геометрии , это тип расхождения , [4] обобщение квадрата расстояния , и для определенных классов распределений (в частности, экспоненциального семейства ), она удовлетворяет обобщенной теореме Пифагора (которая применяется к квадратам расстояний). [5]

Относительная энтропия всегда является неотрицательным действительным числом, имеющим значение 0, если и только если два рассматриваемых распределения идентичны. Она имеет разнообразные приложения, как теоретические, такие как характеристика относительной (шенноновской) энтропии в информационных системах, случайности в непрерывных временных рядах и прироста информации при сравнении статистических моделей вывода ; так и практические, такие как прикладная статистика, механика жидкостей , нейронаука , биоинформатика и машинное обучение .

Введение и контекст

Рассмотрим два распределения вероятностей P и Q. Обычно P представляет собой данные, наблюдения или измеренное распределение вероятностей. Распределение Q представляет собой теорию, модель, описание или приближение P. Затем расхождение Кульбака–Лейблера интерпретируется как средняя разница числа бит, необходимых для кодирования выборок P с использованием кода, оптимизированного для Q, а не кода, оптимизированного для P. Обратите внимание, что роли P и Q можно поменять местами в некоторых ситуациях, когда это проще вычислить, например, при вычислениях с использованием алгоритма максимизации ожидания (EM) и нижней границы доказательств (ELBO) .

Этимология

Относительная энтропия была введена Соломоном Кульбаком и Ричардом Лейблером в работе Кульбака и Лейблера (1951) как «средняя информация для различения между и на одно наблюдение из », [6] где сравниваются две меры вероятности , и являются гипотезами, которые выбираются из меры (соответственно). Они обозначили это как и определили «расхождение» между и как симметризованную величину , которая уже была определена и использована Гарольдом Джеффрисом в 1948 году. [7] В работе Кульбака (1959) симметризованная форма снова упоминается как «расхождение», а относительные энтропии в каждом направлении упоминаются как «направленные расхождения» между двумя распределениями; [8] Кульбак предпочитал термин информация о различении . [9] Термин «расхождение» противопоставляется расстоянию (метрике), поскольку симметризованное расхождение не удовлетворяет неравенству треугольника. [10] Многочисленные ссылки на более раннее использование симметризованной дивергенции и других статистических расстояний приведены в Кульбаке (1959, стр. 6–7, §1.3 Дивергенция). Асимметричная «направленная дивергенция» стала известна как дивергенция Кульбака–Лейблера, в то время как симметризованная «дивергенция» теперь называется дивергенцией Джеффриса .

Определение

Для дискретных распределений вероятностей P и Q, определенных на одном и том же пространстве выборок , относительная энтропия от Q до P определяется [11] как

что эквивалентно

Другими словами, это ожидание логарифмической разности между вероятностями P и Q , где ожидание берется с использованием вероятностей P.

Относительная энтропия определяется таким образом только в том случае, если для всех x подразумевается ( абсолютная непрерывность ). В противном случае ее часто определяют как , [1] но значение возможно даже если везде, [12] [13] при условии, что имеет бесконечную протяженность. Аналогичные комментарии применимы к случаям непрерывной и общей меры, определенным ниже.

Всякий раз, когда равен нулю, вклад соответствующего члена интерпретируется как нулевой, поскольку

Для распределений P и Q непрерывной случайной величины относительная энтропия определяется как интеграл [14]

где p и q обозначают плотности вероятности P и Q.

В более общем случае, если P и Q являются вероятностными мерами на измеримом пространстве и P абсолютно непрерывна относительно Q , то относительная энтропия от Q до P определяется как

где — производная Радона–Никодима P по Q , т.е. единственная Q почти всюду определенная функция r на такая, что существует , поскольку P абсолютно непрерывна по Q . Также мы предполагаем, что выражение в правой части существует. Эквивалентно (по правилу цепочки ) это можно записать как

что является энтропией P относительно Q. Продолжая в этом случае, если есть любая мера на , для которой плотности p и q с и существуют (что означает, что P и Q оба абсолютно непрерывны относительно ), то относительная энтропия от Q до P задается как

Обратите внимание, что такая мера, для которой можно определить плотности, всегда существует, поскольку можно взять, хотя на практике это обычно будет та, которая в контексте похожа на счетную меру для дискретных распределений, или меру Лебега , или ее удобный вариант, такой как мера Гаусса или равномерная мера на сфере , мера Хаара на группе Ли и т. д. для непрерывных распределений. Логарифмы в этих формулах обычно берутся по основанию 2, если информация измеряется в единицах бит , или по основанию e , если информация измеряется в единицах нац . Большинство формул, включающих относительную энтропию, справедливы независимо от основания логарифма.

Существуют различные соглашения для обозначения в словах. Часто это называют расхождением между P и Q , но это не передает фундаментальной асимметрии в отношении. Иногда, как в этой статье, это можно описать как расхождение P от Q или как расхождение от Q к P . Это отражает асимметрию в байесовском выводе , который начинается с априорного Q и обновляется до апостериорного P . Другой распространенный способ обозначения — это относительная энтропия P по отношению к Q или прирост информации от P по Q .

Простой пример

Кульбак [3] приводит следующий пример (таблица 2.1, пример 2.1). Пусть P и Q — распределения, показанные в таблице и на рисунке. P — распределение в левой части рисунка, биномиальное распределение с и . Q — распределение в правой части рисунка, дискретное равномерное распределение с тремя возможными исходами 0 ,1 ,2 (т.е. ), каждый с вероятностью .

Два распределения для иллюстрации относительной энтропии

Относительные энтропии и рассчитываются следующим образом. В этом примере используется натуральный логарифм с основанием e , обозначенный ln, для получения результатов в натах (см. единицы измерения информации ):

Интерпретации

Статистика

В области статистики лемма Неймана-Пирсона утверждает, что наиболее действенным способом различения двух распределений P и Q на основе наблюдения Y (взятого из одного из них) является логарифм отношения их правдоподобий: . Дивергенция KL является ожидаемым значением этой статистики, если Y фактически взято из P . Кульбак мотивировал статистику как ожидаемое логарифмическое отношение правдоподобия. [15]

Кодирование

В контексте теории кодирования может быть построен путем измерения ожидаемого числа дополнительных битов, необходимых для кодирования выборок из P с использованием кода, оптимизированного для Q , а не кода, оптимизированного для P.

Вывод

В контексте машинного обучения часто называют приростом информации , достигаемым при использовании P вместо Q , который используется в настоящее время. По аналогии с теорией информации, его называют относительной энтропией P по отношению к Q.

Выражаясь на языке байесовского вывода , это мера информации, полученной путем пересмотра убеждений от априорного распределения вероятностей Q к апостериорному распределению вероятностей P. Другими словами, это количество информации, потерянной при использовании Q для аппроксимации P. [16]

Информационная геометрия

В приложениях P обычно представляет собой «истинное» распределение данных, наблюдений или точно рассчитанное теоретическое распределение, тогда как Q обычно представляет собой теорию, модель, описание или приближение P. Чтобы найти распределение Q , наиболее близкое к P , мы можем минимизировать расхождение KL и вычислить информационную проекцию .

Хотя это статистическое расстояние , это не метрика , наиболее знакомый тип расстояния, а вместо этого это расхождение . [4] В то время как метрики симметричны и обобщают линейное расстояние, удовлетворяя неравенству треугольника , расхождения асимметричны и обобщают квадрат расстояния, в некоторых случаях удовлетворяя обобщенной теореме Пифагора . В общем случае не равно , и асимметрия является важной частью геометрии. [4] Бесконечно малая форма относительной энтропии, в частности ее гессиан , дает метрический тензор , который равен информационной метрике Фишера ; см. § Информационная метрика Фишера. Относительная энтропия удовлетворяет обобщенной теореме Пифагора для экспоненциальных семейств (геометрически интерпретируемых как дуально плоские многообразия ), и это позволяет минимизировать относительную энтропию геометрическими средствами, например, с помощью информационной проекции и в оценке максимального правдоподобия . [5]

Относительная энтропия — это дивергенция Брегмана, порожденная отрицательной энтропией, но она также имеет форму f -дивергенции . Для вероятностей над конечным алфавитом она уникальна тем, что является членом обоих этих классов статистических дивергенций .

Финансы (теория игр)

Рассмотрим инвестора, оптимизирующего рост, в честной игре с взаимоисключающими результатами (например, «скачки», в которых официальные шансы составляют единицу). Норма прибыли, ожидаемая таким инвестором, равна относительной энтропии между предполагаемыми вероятностями инвестора и официальными шансами. [17] Это особый случай гораздо более общей связи между финансовой доходностью и показателями расхождения. [18]

Финансовые риски связаны с информационной геометрией. [19] Мнения инвесторов, преобладающее мнение рынка и рискованные сценарии образуют треугольники на соответствующем многообразии распределений вероятностей. Форма треугольников определяет ключевые финансовые риски (как качественно, так и количественно). Например, тупоугольные треугольники, в которых мнения инвесторов и рисковые сценарии появляются на «противоположных сторонах» относительно рынка, описывают отрицательные риски, острые треугольники описывают положительное воздействие, а прямоугольная ситуация в середине соответствует нулевому риску.

Мотивация

Иллюстрация относительной энтропии для двух нормальных распределений . Типичная асимметрия хорошо видна.

В теории информации теорема Крафта–Макмиллана устанавливает, что любая непосредственно декодируемая схема кодирования для кодирования сообщения для идентификации одного значения из набора возможностей X может рассматриваться как представление неявного распределения вероятностей по X , где — длина кода для в битах. Таким образом, относительная энтропия может быть интерпретирована как ожидаемая дополнительная длина сообщения на единицу данных, которая должна быть передана, если используется код, оптимальный для заданного (неправильного) распределения Q , по сравнению с использованием кода, основанного на истинном распределении P : это избыточная энтропия.

где — перекрестная энтропия Q относительно P , а — энтропия P (которая совпадает с перекрестной энтропией P по отношению к самому себе) .

Относительную энтропию можно рассматривать геометрически как статистическое расстояние , меру того, насколько далеко распределение Q от распределения P. Геометрически это расхождение : асимметричная, обобщенная форма квадрата расстояния. Перекрестная энтропия сама по себе является таким измерением (формально функцией потерь ), но ее нельзя рассматривать как расстояние, поскольку она не равна нулю. Это можно исправить вычитанием, чтобы лучше согласовать с нашим понятием расстояния, как избыточные потери. Результирующая функция асимметрична, и хотя ее можно симметризировать (см. § Симметричное расхождение), асимметричная форма более полезна. См. § Интерпретации для получения дополнительной информации о геометрической интерпретации.

Относительная энтропия связана с « функцией скорости » в теории больших отклонений . [20] [21]

Артур Хобсон доказал, что относительная энтропия является единственной мерой различия между распределениями вероятностей, которая удовлетворяет некоторым желаемым свойствам, которые являются каноническим расширением свойств, появляющихся в общепринятой характеристике энтропии . [22] Следовательно, взаимная информация является единственной мерой взаимной зависимости, которая подчиняется определенным связанным условиям, поскольку ее можно определить в терминах расхождения Кульбака–Лейблера .

Характеристики

В частности, если и , то - почти всюду . Таким образом, энтропия устанавливает минимальное значение для кросс-энтропии , ожидаемого числа битов, требуемых при использовании кода, основанного на Q , а не на P ; и поэтому расхождение Кульбака–Лейблера представляет собой ожидаемое число дополнительных битов, которые должны быть переданы для идентификации значения x , извлеченного из X , если используется код, соответствующий распределению вероятностей Q , а не «истинному» распределению P .

[Доказательство]

Обозначим и заметим, что . Первая производная от может быть выведена и оценена следующим образом. Дальнейшие производные могут быть выведены и оценены следующим образом. Следовательно, решение для с помощью разложения Тейлора около вычисляется при дает как является достаточным условием сходимости ряда по следующему аргументу абсолютной сходимости как также является необходимым условием сходимости ряда по следующему доказательству от противного. Предположим, что с мерой строго большей, чем . Тогда следует, что должны существовать некоторые значения , и такие, что и с мерой . Предыдущее доказательство достаточности показало, что компонент меры ряда, где ограничен, поэтому нам нужно только заняться поведением компонента меры ряда, где . Абсолютное значение -го члена этого компонента ряда тогда ограничено снизу значением , которое неограниченно , так что ряд расходится.


Формула двойственности для вариационного вывода

Следующий результат, полученный Донскером и Вараданом [25] , известен как вариационная формула Донскера и Варадана .

Теорема [Формула двойственности для вариационного вывода]  —  Пустьбудет множеством, наделенным соответствующим-полем, и двумя вероятностными мерами P и Q , которые формулируют два вероятностных пространства и, причем. (указывает, что Q абсолютно непрерывно относительно P .) Пусть h будет действительной интегрируемой случайной величиной на. Тогда справедливо следующее равенство

Далее, супремум в правой части достигается тогда и только тогда, когда он выполняется

почти наверное относительно вероятностной меры P , где обозначает производную Радона-Никодима от Q относительно P .

Доказательство

Для короткого доказательства, предполагающего интегрируемость относительно P , пусть имеет P -плотность , т.е. Тогда

Поэтому,

где последнее неравенство следует из , для которого равенство имеет место тогда и только тогда, когда . Вывод следует.

Альтернативное доказательство с использованием теории меры см. в [26].

Примеры

Многомерные нормальные распределения

Предположим, что у нас есть два многомерных нормальных распределения со средними значениями и (невырожденными) ковариационными матрицами. Если два распределения имеют одинаковую размерность k , то относительная энтропия между распределениями будет следующей: [27]

Логарифм в последнем члене должен быть взят по основанию e , поскольку все члены, кроме последнего, являются логарифмами по основанию e выражений, которые являются либо факторами функции плотности, либо иным образом возникают естественным образом. Таким образом, уравнение дает результат, измеряемый в nats . Деление всего выражения выше на дает расхождение в bits .

В численной реализации полезно выразить результат в терминах разложений Холецкого, таких что и . Тогда с помощью M и y решений треугольных линейных систем , и ,

Особым случаем и общей величиной в вариационном выводе является относительная энтропия между диагональным многомерным нормальным и стандартным нормальным распределением (с нулевым средним и единичной дисперсией):

Для двух одномерных нормальных распределений p и q вышеприведенное упрощается до [28]

В случае коцентрированных нормальных распределений с это упрощается [29] до:

Равномерное распределение

Рассмотрим два равномерных распределения с поддержкой заключенных в ( ). Тогда прирост информации равен:

Интуитивно [29] прирост информации до k раз более узкого равномерного распределения содержит биты. Это связано с использованием битов в вычислениях, где биты были бы необходимы для идентификации одного элемента потока длиной k .

Отношение к метрикам

В то время как относительная энтропия является статистическим расстоянием , она не является метрикой на пространстве распределений вероятностей, а вместо этого является расхождением . [4] В то время как метрики симметричны и обобщают линейное расстояние, удовлетворяя неравенству треугольника , расхождения в общем случае асимметричны и обобщают квадрат расстояния, в некоторых случаях удовлетворяя обобщенной теореме Пифагора . В общем случае не равно , и хотя это можно симметризировать (см. § Симметризованное расхождение), асимметрия является важной частью геометрии. [4]

Он генерирует топологию на пространстве распределений вероятностей . Более конкретно, если есть последовательность распределений такая, что

,

то говорят, что

.

Неравенство Пинскера подразумевает, что

,

где последнее означает обычную сходимость в общей вариации .

Информационная метрика Фишера

Относительная энтропия напрямую связана с информационной метрикой Фишера . Это можно сделать явным образом следующим образом. Предположим, что распределения вероятностей P и Q оба параметризованы некоторым (возможно, многомерным) параметром . Рассмотрим затем два близких значения и так, что параметр отличается лишь на небольшую величину от значения параметра . В частности, вплоть до первого порядка имеем (используя соглашение Эйнштейна о суммировании )

с небольшим изменением в направлении j и соответствующей скоростью изменения распределения вероятностей. Поскольку относительная энтропия имеет абсолютный минимум 0 для , то есть , она изменяется только до второго порядка по малым параметрам . Более формально, как и для любого минимума, первые производные дивергенции исчезают

и по разложению Тейлора имеем до второго порядка

где матрица Гессе дивергенции

должен быть положительно полуопределенным . Позволяя варьировать (и опуская подиндекс 0), гессиан определяет (возможно, вырожденную) риманову метрику на пространстве параметров θ , называемую информационной метрикой Фишера.

Теорема Фишера об информационной метрике

При выполнении следующих условий регулярности:

существовать,

где ξ не зависит от ρ

затем:

Изменение информации

Другая информационно-теоретическая метрика — это вариация информации , которая является грубо симметризацией условной энтропии . Это метрика на множестве разбиений дискретного вероятностного пространства .

СИНЕ-ЛИЛОВЫЙ метрический

MAUVE — это мера статистического разрыва между двумя текстовыми распределениями, например, разница между текстом, сгенерированным моделью, и текстом, написанным человеком. Эта мера вычисляется с использованием расхождений Кульбака-Лейблера между двумя распределениями в квантованном пространстве вложений базовой модели.

Связь с другими величинами теории информации

Многие другие величины теории информации можно интерпретировать как приложения относительной энтропии к конкретным случаям.

Самоинформация

Самоинформация , также известная как информационное содержание сигнала, случайной величины или события , определяется как отрицательный логарифм вероятности наступления данного результата.

Применительно к дискретной случайной величине самоинформацию можно представить как [ необходима ссылка ]

— относительная энтропия распределения вероятностей из дельты Кронекера, представляющая уверенность в том, что — т.е. количество дополнительных битов, которые необходимо передать для идентификации i , если приемнику доступно только распределение вероятностей , а не тот факт, что .

Взаимная информация

Взаимная информация ,

— это относительная энтропия совместного распределения вероятностей из произведения двух маргинальных распределений вероятностей — т. е. ожидаемое количество дополнительных битов, которые должны быть переданы для идентификации X и Y , если они закодированы с использованием только их маргинальных распределений вместо совместного распределения. Эквивалентно, если известна совместная вероятность , это ожидаемое количество дополнительных битов, которые в среднем должны быть отправлены для идентификации Y, если значение X еще не известно получателю.

энтропия Шеннона

Энтропия Шеннона ,

это число бит, которое должно быть передано для идентификации X из N равновероятных возможностей, за вычетом относительной энтропии равномерного распределения случайных величин X , , от истинного распределения — т.е. за вычетом ожидаемого числа сэкономленных бит , которые должны были бы быть отправлены, если бы значение X было закодировано в соответствии с равномерным распределением , а не с истинным распределением . Это определение энтропии Шеннона составляет основу альтернативного обобщения ET Jaynes для непрерывных распределений, предельной плотности дискретных точек (в отличие от обычной дифференциальной энтропии ), которая определяет непрерывную энтропию как

что эквивалентно:

Условная энтропия

Условная энтропия [30] ,

— это число бит, которое необходимо передать для идентификации X из N равновероятных возможностей, за вычетом относительной энтропии распределения произведения из истинного совместного распределения — т.е. за вычетом ожидаемого числа сэкономленных бит , которые пришлось бы передать, если бы значение X было закодировано в соответствии с равномерным распределением, а не условным распределением X при заданном Y.

Перекрестная энтропия

Когда у нас есть набор возможных событий, поступающих из распределения p , мы можем закодировать их (со сжатием данных без потерь ) с помощью энтропийного кодирования . Это сжимает данные, заменяя каждый входной символ фиксированной длины соответствующим уникальным кодом переменной длины без префиксов (например, события (A, B, C) с вероятностями p = (1/2, 1/4, 1/4) могут быть закодированы как биты (0, 10, 11)). Если мы заранее знаем распределение p , мы можем разработать кодирование, которое будет оптимальным (например, с помощью кодирования Хаффмана ). Это означает, что сообщения, которые мы кодируем, будут иметь в среднем наименьшую длину (предполагая, что закодированные события выбираются из p ), что будет равно энтропии Шеннона p (обозначаемой как ). Однако, если мы используем другое распределение вероятностей ( q ) при создании схемы кодирования энтропии, то большее число бит будет использоваться (в среднем) для идентификации события из набора возможностей. Это новое (большее) число измеряется перекрестной энтропией между p и q .

Перекрестная энтропия между двумя распределениями вероятностей ( p и q ) измеряет среднее число битов, необходимых для идентификации события из набора возможностей, если используется схема кодирования, основанная на заданном распределении вероятностей q , а не на «истинном» распределении p . Таким образом, перекрестная энтропия для двух распределений p и q в одном и том же вероятностном пространстве определяется следующим образом.

Для более подробного обоснования этого см. раздел «Мотивация» выше.

В этом сценарии относительные энтропии (kl-дивергенция) можно интерпретировать как дополнительное число битов, в среднем, которые необходимы (сверх ) для кодирования событий из-за использования q для построения схемы кодирования вместо p .

Байесовское обновление

В байесовской статистике относительная энтропия может использоваться как мера прироста информации при переходе от априорного распределения к апостериорному распределению : . Если обнаружен какой-либо новый факт , его можно использовать для обновления апостериорного распределения для X с до нового апостериорного распределения с использованием теоремы Байеса :

Это распределение имеет новую энтропию :

которая может быть меньше или больше исходной энтропии . Однако с точки зрения нового распределения вероятностей можно оценить, что использование исходного кода на основе вместо нового кода на основе добавило бы ожидаемое количество бит:

к длине сообщения. Таким образом, это представляет собой объем полезной информации или прирост информации о X , который был получен путем обнаружения .

Если впоследствии поступает еще одна порция данных, , распределение вероятностей для x может быть обновлено еще больше, чтобы дать новое лучшее предположение . Если повторно исследовать прирост информации при использовании вместо , то окажется, что он может быть либо больше, либо меньше, чем предполагалось ранее:

может быть ≤ или > чем

и поэтому объединенный прирост информации не подчиняется неравенству треугольника:

может быть <, = или > чем

Все, что можно сказать, это то, что в среднем , при усреднении с использованием , обе стороны усреднятся.

Байесовский экспериментальный дизайн

Общей целью байесовского экспериментального плана является максимизация ожидаемой относительной энтропии между априорной и апостериорной. [31] Когда апостериорные распределения аппроксимируются гауссовыми распределениями, план, максимизирующий ожидаемую относительную энтропию, называется байесовским d-оптимальным .

Информация о дискриминации

Относительную энтропию также можно интерпретировать как ожидаемую дискриминационную информацию для более : средняя информация на образец для дискриминации в пользу гипотезы против гипотезы , когда гипотеза верна. [32] Другое название этой величины, данное ей И. Дж. Гудом , — ожидаемый вес доказательств для более , ожидаемых от каждого образца.

Ожидаемый вес доказательств для более не совпадает с ожидаемым приростом информации на выборку о распределении вероятностей гипотез,

Любую из двух величин можно использовать в качестве функции полезности в байесовском экспериментальном планировании для выбора оптимального следующего вопроса для исследования, но в целом они приведут к довольно разным экспериментальным стратегиям.

На шкале энтропии прироста информации существует очень небольшая разница между почти уверенностью и абсолютной уверенностью — кодирование в соответствии с почти уверенностью требует едва ли больше битов, чем кодирование в соответствии с абсолютной уверенностью. С другой стороны, на шкале логита , подразумеваемой весомостью доказательств, разница между ними огромна — возможно, бесконечна; это может отражать разницу между почти уверенностью (на вероятностном уровне), что, скажем, гипотеза Римана верна, по сравнению с уверенностью в том, что она верна, потому что у вас есть математическое доказательство. Эти две разные шкалы функции потерь для неопределенности обе полезны, в зависимости от того, насколько хорошо каждая из них отражает конкретные обстоятельства рассматриваемой проблемы.

Принцип минимальной дискриминационной информации

Идея относительной энтропии как дискриминационной информации привела Кульбака к предложению принципаМинимальная информация о различении (MDI): учитывая новые факты, следует выбрать новое распределениеf, которое будет настолько трудно отличить от исходного распределения, насколько это возможно; так, чтобы новые данные давали какможно меньший прирост информации.

Например, если бы у нас было априорное распределение по x и a , а впоследствии выяснилось, что истинное распределение a было , то относительная энтропия между новым совместным распределением для x и a и более ранним априорным распределением была бы равна:

т.е. сумма относительной энтропии априорного распределения для a из обновленного распределения , плюс ожидаемое значение (с использованием распределения вероятностей ) относительной энтропии априорного условного распределения из нового условного распределения . (Обратите внимание, что часто последнее ожидаемое значение называется условной относительной энтропией (или условной дивергенцией Кульбака–Лейблера ) и обозначается как [3] [30] ) Это минимизируется, если по всему носителю ; и мы отмечаем, что этот результат включает теорему Байеса, если новое распределение фактически является δ-функцией, представляющей уверенность в том, что a имеет одно конкретное значение.

MDI можно рассматривать как расширение принципа недостаточного основания Лапласа и принципа максимальной энтропии Э. Т. Джейнса . В частности, это естественное расширение принципа максимальной энтропии с дискретных на непрерывные распределения, для которых энтропия Шеннона перестает быть столь полезной (см. дифференциальная энтропия ), но относительная энтропия продолжает быть столь же актуальной.

В инженерной литературе MDI иногда называют принципом минимальной перекрестной энтропии (MCE) или сокращенно Minxent . Минимизация относительной энтропии от m до p по отношению к m эквивалентна минимизации перекрестной энтропии p и m , поскольку

что уместно, если кто-то пытается выбрать адекватное приближение к p . Однако, это так же часто не та задача, которую пытаются решить. Вместо этого, так же часто именно m является некоторой фиксированной априорной референтной мерой, а p пытаются оптимизировать, минимизируя с учетом некоторого ограничения. Это привело к некоторой двусмысленности в литературе, и некоторые авторы пытаются разрешить несоответствие, переопределяя кросс-энтропию как , а не [ требуется цитата ] .

Связь с доступной работой

График зависимости давления от объема доступной работы моля газа аргона относительно окружающей среды, рассчитанный как произведение дивергенции Кульбака-Лейблера

Сюрпризы [33] добавляются там, где вероятности умножаются. Сюрприз для события с вероятностью p определяется как . Если k равно , то сюрприз измеряется в натах, битах или так, что, например, есть N бит сюрприза для выпадения всех «орлов» при подбрасывании N монет.

Состояния наилучшего предположения (например, для атомов в газе) выводятся путем максимизации среднего неожиданного S ( энтропии ) для заданного набора управляющих параметров (таких как давление P или объем V ). Эта ограниченная максимизация энтропии , как классически [34], так и квантово-механически [35], минимизирует доступность Гиббса в единицах энтропии [36] , где Z — ограниченная множественность или функция распределения .

Когда температура T фиксирована, свободная энергия ( ) также минимизируется. Таким образом, если и число молекул N постоянны, свободная энергия Гельмгольца (где U — энергия, а S — энтропия) минимизируется, поскольку система «уравновешивается». Если T и P поддерживаются постоянными (например, во время процессов в вашем теле), вместо этого минимизируется свободная энергия Гиббса . Изменение свободной энергии при этих условиях является мерой доступной работы , которая может быть выполнена в процессе. Таким образом, доступная работа для идеального газа при постоянной температуре и давлении равна , где и (см. также неравенство Гиббса ).

В более общем смысле [37] работа , доступная относительно некоторой окружающей среды, получается путем умножения температуры окружающей среды на относительную энтропию или чистую неожиданность, определяемую как среднее значение, где есть вероятность данного состояния в условиях окружающей среды. Например, работа, доступная для уравновешивания одноатомного идеального газа до значений окружающей среды и, таким образом, равна , где относительная энтропия

Полученные контуры постоянной относительной энтропии, показанные справа для моля аргона при стандартной температуре и давлении, например, накладывают ограничения на преобразование горячего в холодное, как в работающем на огне кондиционере или в не имеющем источника питания устройстве для преобразования кипящей воды в ледяную воду, обсуждаемом здесь. [38] Таким образом, относительная энтропия измеряет термодинамическую доступность в битах.

Квантовая теория информации

Для матриц плотности P и Q в гильбертовом пространстве квантовая относительная энтропия от Q до P определяется как

В квантовой информатике минимум всех разделимых состояний Q также может использоваться как мера запутанности в состоянии P.

Связь между моделями и реальностью

Так же, как относительная энтропия «фактического из окружающей среды» измеряет термодинамическую доступность, относительная энтропия «реальности из модели» также полезна, даже если единственными подсказками, которые у нас есть о реальности, являются некоторые экспериментальные измерения. В первом случае относительная энтропия описывает расстояние до равновесия или (при умножении на температуру окружающей среды) объем доступной работы , тогда как во втором случае она сообщает вам о сюрпризах, которые реальность припрятала в рукаве, или, другими словами, о том, сколько еще предстоит узнать модели .

Хотя этот инструмент для оценки моделей по отношению к системам, которые доступны экспериментально, может применяться в любой области, его применение для выбора статистической модели с помощью информационного критерия Акаике особенно хорошо описано в статьях [39] и книге [40] Бернхэма и Андерсона. В двух словах относительная энтропия реальности из модели может быть оценена с точностью до постоянного аддитивного члена с помощью функции отклонений, наблюдаемых между данными и предсказаниями модели (например, среднеквадратичное отклонение ). Оценки такого расхождения для моделей, которые разделяют один и тот же аддитивный член, в свою очередь могут использоваться для выбора среди моделей.

При попытке подогнать параметризованные модели к данным существуют различные оценщики, которые пытаются минимизировать относительную энтропию, такие как оценщики максимального правдоподобия и максимального интервала . [ необходима ссылка ]

Симметричное расхождение

Кульбак и Лейблер (1951) также рассмотрели симметризованную функцию: [6]

которую они называли «расхождением», хотя сегодня «расхождение KL» относится к асимметричной функции (см. § Этимология для эволюции термина). Эта функция симметрична и неотрицательна, и уже была определена и использована Гарольдом Джеффрисом в 1948 году; [7] она соответственно называется расхождением Джеффриса .

Эта величина иногда использовалась для выбора признаков в задачах классификации , где P и Q являются условными pdf признака в двух различных классах. В банковской и финансовой отраслях эта величина называется индексом стабильности популяции ( PSI ) и используется для оценки сдвигов распределения в признаках модели с течением времени.

Альтернатива дана через -дивергенцию,

что можно интерпретировать как ожидаемый прирост информации о X от обнаружения того, из какого распределения вероятностей взято X , P или Q , если в настоящее время они имеют вероятности и соответственно. [ требуется пояснение ] [ требуется цитата ]

Значение дает расхождение Дженсена–Шеннона , определяемое как

где M — среднее значение двух распределений,

Мы также можем интерпретировать как емкость зашумленного информационного канала с двумя входами, дающими выходные распределения P и Q. Дивергенция Дженсена–Шеннона, как и все f -дивергенции, локально пропорциональна информационной метрике Фишера . Она похожа на метрику Хеллингера (в том смысле, что она индуцирует ту же аффинную связь на статистическом многообразии ).

Более того, расхождение Дженсена–Шеннона можно обобщить с помощью абстрактных статистических M-смесей, опирающихся на абстрактное среднее M. [41] [42]

Связь с другими мерами вероятности-расстояния

Есть много других важных мер вероятностного расстояния . Некоторые из них особенно связаны с относительной энтропией. Например:

Другие известные меры расстояния включают расстояние Хеллингера , пересечение гистограмм , статистику хи-квадрат , расстояние квадратичной формы , расстояние соответствия , расстояние Колмогорова-Смирнова и расстояние землеройной машины . [45]

Дифференциация данных

Так же, как абсолютная энтропия служит теоретической основой для сжатия данных , относительная энтропия служит теоретической основой для дифференциации данных : абсолютная энтропия набора данных в этом смысле представляет собой данные, необходимые для его реконструкции (минимальный сжатый размер), в то время как относительная энтропия целевого набора данных при заданном исходном наборе данных представляет собой данные, необходимые для реконструкции цели при заданном источнике (минимальный размер патча ) .

Смотрите также

Ссылки

  1. ^ ab Csiszar, I (февраль 1975 г.). «I-дивергентная геометрия вероятностных распределений и проблемы минимизации». Ann. Probab . 3 (1): 146–158. doi : 10.1214/aop/1176996454 .
  2. ^ Кульбак, С.; Лейблер , Р.А. (1951). «Об информации и достаточности». Annals of Mathematical Statistics . 22 (1): 79–86. doi : 10.1214/aoms/1177729694 . JSTOR  2236703. MR  0039968.
  3. ^ abc Кульбак 1959.
  4. ^ abcde Amari 2016, стр. 11.
  5. ^ ab Amari 2016, стр. 28.
  6. ^ ab Kullback & Leibler 1951, стр. 80.
  7. ^ ab Jeffreys 1948, стр. 158.
  8. Кульбак 1959, стр. 7.
  9. ^ Кульбак, С. (1987). «Письмо редактору: расстояние Кульбака–Лейблера». The American Statistician . 41 (4): 340–341. doi :10.1080/00031305.1987.10475510. JSTOR  2684769.
  10. Кульбак 1959, стр. 6.
  11. ^ MacKay, David JC (2003). Теория информации, вывод и алгоритмы обучения (1-е изд.). Cambridge University Press. стр. 34. ISBN 9780521642989– через Google Книги.
  12. ^ "Каково максимальное значение расхождения Кульбака-Лейблера (KL)?". Машинное обучение. Статистика Stack Exchange (stats.stackexchange.com) . Перекрестная проверка.
  13. ^ "В каких ситуациях интеграл равен бесконечности?". Интеграция. Mathematics Stack Exchange (math.stackexchange.com) .
  14. ^ Бишоп, Кристофер М. Распознавание образов и машинное обучение. стр. 55. OCLC  1334664824.
  15. Кульбак 1959, стр. 5.
  16. ^ Бернхэм, К. П.; Андерсон, Д. Р. (2002). Выбор модели и вывод нескольких моделей (2-е изд.). Springer. стр. 51. ISBN 9780387953649.
  17. ^ Келли, Дж. Л. Мл. (1956). «Новая интерпретация скорости передачи информации». Bell Syst. Tech. J . 2 (4): 917–926. doi :10.1002/j.1538-7305.1956.tb03809.x.
  18. ^ Соклаков, AN (2020). «Экономика разногласий — финансовая интуиция для расхождения Реньи». Энтропия . 22 (8): 860. arXiv : 1811.08308 . Bibcode : 2020Entrp..22..860S. doi : 10.3390/e22080860 . PMC 7517462. PMID  33286632 . 
  19. ^ Соклаков, АН (2023). «Информационная геометрия рисков и доходностей». Риск . Июнь . SSRN  4134885.
  20. ^ Санов, И. Н. (1957). «О вероятности больших отклонений случайных величин». Матем. сборник . 42 (84): 11–44.
  21. ^ Novak SY (2011), Методы экстремальных значений с приложениями к финансам , гл. 14.5 ( Chapman & Hall ). ISBN 978-1-4398-3574-6
  22. ^ Хобсон, Артур (1971). Концепции статистической механики . Нью-Йорк: Гордон и Брич. ISBN 978-0677032405.
  23. ^ Бонничи, В. (2020). «Расхождение Кульбака-Лейблера между квантовыми распределениями и его верхняя граница». arXiv : 2008.05932 [cs.LG].
  24. ^ См. раздел «дифференциальная энтропия – 4» в видеолекции «Относительная энтропия» Серхио Верду NIPS 2009 г.
  25. ^ Донскер, Монро Д.; Варадхан, С. Р. Шриниваса (1983). «Асимптотическая оценка некоторых ожиданий марковских процессов для больших времен. IV». Сообщения по чистой и прикладной математике . 36 (2): 183–212. doi :10.1002/cpa.3160360204.
  26. ^ Ли, Се Юн (2021). «Сэмплер Гиббса и вариационный вывод с восхождением координат: обзор теории множеств». Communications in Statistics - Theory and Methods . 51 (6): 1549–1568. arXiv : 2008.01006 . doi : 10.1080/03610926.2021.1921214. S2CID  220935477.
  27. ^ Дучи Дж. «Выводы для линейной алгебры и оптимизации» (PDF) . стр. 13.
  28. ^ Белов, Дмитрий И.; Армстронг, Рональд Д. (2011-04-15). «Распределения расхождения Кульбака-Лейблера с приложениями». British Journal of Mathematical and Statistical Psychology . 64 (2): 291–309. doi :10.1348/000711010x522227. ISSN  0007-1102. PMID  21492134.
  29. ^ ab Buchner, Johannes (2022-04-29). Интуиция для физиков: получение информации из экспериментов. OCLC  1363563215.
  30. ^ ab Cover, Thomas M.; Thomas, Joy A. (1991), Elements of Information Theory , John Wiley & Sons , стр. 22
  31. ^ Чалонер, К.; Вердинелли, И. (1995). «Байесовский экспериментальный дизайн: обзор». Статистическая наука . 10 (3): 273–304. doi : 10.1214/ss/1177009939 . hdl : 11299/199630 .
  32. ^ Press, WH; Teukolsky, SA; Vetterling, WT; Flannery, BP (2007). "Раздел 14.7.2. Расстояние Кульбака–Лейблера". Numerical Recipes: The Art of Scientific Computing (3-е изд.). Cambridge University Press. ISBN 978-0-521-88068-8.
  33. ^ Трибус, Майрон (1959). Термостатика и термодинамика: введение в энергию, информацию и состояния материи с инженерными приложениями. Ван Ностранд.
  34. ^ Джейнс, ET (1957). "Теория информации и статистическая механика" (PDF) . Physical Review . 106 (4): 620–630. Bibcode : 1957PhRv..106..620J. doi : 10.1103/physrev.106.620. S2CID  17870175.
  35. ^ Джейнс, ET (1957). «Теория информации и статистическая механика II» (PDF) . Physical Review . 108 (2): 171–190. Bibcode : 1957PhRv..108..171J. doi : 10.1103/physrev.108.171.
  36. ^ Гиббс, Джозайя Уиллард (1871). Метод геометрического представления термодинамических свойств веществ с помощью поверхностей. Академия.сноска на стр. 52.
  37. ^ Трибус, М.; МакИрвин, Э.К. (1971). «Энергия и информация». Scientific American . 224 (3): 179–186. Bibcode : 1971SciAm.225c.179T. doi : 10.1038/scientificamerican0971-179.
  38. ^ Fraundorf, P. (2007). «Термические корни корреляционно-основанной сложности». Complexity . 13 (3): 18–26. arXiv : 1103.2481 . Bibcode : 2008Cmplx..13c..18F. doi : 10.1002/cplx.20195. S2CID  20794688. Архивировано из оригинала 2011-08-13.
  39. ^ Бернхэм, К. П.; Андерсон, Д. Р. (2001). «Информация Кульбака–Лейблера как основа для сильного вывода в экологических исследованиях». Wildlife Research . 28 (2): 111–119. doi : 10.1071/WR99107 .
  40. ^ Бернхэм, Кеннет П. (декабрь 2010 г.). Выбор модели и вывод многомодельных моделей: практический информационно-теоретический подход. Springer. ISBN 978-1-4419-2973-0. OCLC  878132909.
  41. ^ Нильсен, Франк (2019). «О симметризации расстояний Дженсена–Шеннона, опирающейся на абстрактные средние». Энтропия . 21 (5): 485. arXiv : 1904.04017 . Bibcode : 2019Entrp..21..485N. doi : 10.3390/e21050485 . PMC 7514974. PMID  33267199 . 
  42. ^ Нильсен, Франк (2020). «Об обобщении расхождения Дженсена–Шеннона и центроида Дженсена–Шеннона». Энтропия . 22 (2): 221. arXiv : 1912.00610 . Bibcode : 2020Entrp..22..221N . doi : 10.3390/e22020221 . PMC 7516653. PMID  33285995. 
  43. ^ Бретаньолле, Дж.; Хубер, К. (1978), «Оценка плотностей: рискованный минимакс», Séminaire de Probabilités XII, Конспекты лекций по математике (на французском языке), том. 649, Берлин, Гейдельберг: Springer Berlin Heidelberg, стр. 342–363, doi : 10.1007/bfb0064610, ISBN 978-3-540-08761-8, S2CID  122597694 , получено 2023-02-14Лемма 2.1
  44. ^ Б.), Цыбаков, AB (Александр (2010). Введение в непараметрическую оценку. Springer. ISBN 978-1-4419-2709-5. OCLC  757859245.{{cite book}}: CS1 maint: multiple names: authors list (link)Уравнение 2.25.
  45. ^ Рубнер, Y.; Томази, C.; Гибас, LJ (2000). «Расстояние землеройной машины как метрика для поиска изображений». Международный журнал компьютерного зрения . 40 (2): 99–121. doi :10.1023/A:1026543900054. S2CID  14106275.

Внешние ссылки