stringtranslate.com

Расхождение Кульбака – Лейблера

В математической статистике дивергенция Кульбака -Лейблера (KL) (также называемая относительной энтропией и I-дивергенцией [1] ), обозначаемая как тип статистического расстояния : мера того, насколько одно распределение вероятностей P отличается от второго, ссылка распределение вероятностей Q . [2] [3] Простая интерпретация KL-расхождения P и Q — это ожидаемое избыточное удивление от использования Q в качестве модели, когда фактическое распределение равно P . Хотя это мера того, насколько различны два распределения, и, таким образом, в некотором смысле является «расстоянием», на самом деле это не метрика , которая является наиболее знакомым и формальным типом расстояния. В частности, оно не симметрично в двух распределениях (в отличие от изменения информации ) и не удовлетворяет неравенству треугольника . Вместо этого, с точки зрения информационной геометрии , это тип дивергенции , [4] обобщение квадрата расстояния , и для определенных классов распределений (особенно экспоненциального семейства ) оно удовлетворяет обобщенной теореме Пифагора (которая применяется к квадратам расстояний) . [5]

В простом случае относительная энтропия, равная 0, указывает на то, что два рассматриваемых распределения содержат одинаковое количество информации. Относительная энтропия — это неотрицательная функция двух распределений или мер. Он имеет разнообразные применения, как теоретические, такие как характеристика относительной (Шенноновской) энтропии в информационных системах, случайности в непрерывных временных рядах , так и прирост информации при сравнении статистических моделей вывода ; и практические, такие как прикладная статистика, механика жидкости , нейробиология и биоинформатика .

Введение и контекст

Рассмотрим два распределения вероятностей P и Q. Обычно P представляет данные, наблюдения или измеренное распределение вероятностей. Вместо этого распределение Q представляет собой теорию, модель, описание или приближение P . Расхождение Кульбака-Лейблера затем интерпретируется как средняя разница количества битов, необходимых для кодирования выборок P с использованием кода, оптимизированного для Q , а не кода, оптимизированного для P. Обратите внимание, что роли P и Q можно поменять местами в некоторых ситуациях, когда это легче вычислить, например, с помощью алгоритма максимизации ожидания (EM) и вычислений нижней границы доказательств (ELBO) .

Этимология

Относительная энтропия была введена Соломоном Кульбаком и Ричардом Лейблером в работе Kullback & Leibler (1951) как «средняя информация для различения между наблюдениями и для каждого наблюдения », [6] где сравниваются две вероятностные меры , и выдвигаются гипотезы о том, что одна из них выбор из меры (соответственно). Они обозначили это как и определили «расхождение» между и «как симметризованную величину , которая уже была определена и использована Гарольдом Джеффрисом в 1948 году . [7] В Кульбаке (1959) симметризованная форма снова упоминается как «дивергенция» и относительная энтропия в каждом направлении называются «направленными дивергенциями» между двумя распределениями; [8] Кульбак предпочитал термин «дискриминационная информация» . [9] Термин «дивергенция» противоположен расстоянию (метрике), поскольку симметризованная дивергенция не удовлетворяет неравенству треугольника. [10] Многочисленные ссылки на более раннее использование симметризованной дивергенции и других статистических расстояний даны у Кульбака (1959, стр. 6–7, §1.3 Дивергенция). Асимметричная «направленная дивергенция» стала известна как дивергенция Кульбака – Лейблера, а симметризованная «дивергенция» теперь называется дивергенцией Джеффриса .

Определение

Для дискретных распределений вероятностей P и Q , определенных в одном и том же выборочном пространстве , относительная энтропия от Q до P определяется [11] как

что эквивалентно

Другими словами, это математическое ожидание логарифмической разницы между вероятностями P и Q , где ожидание берется с использованием вероятностей P.

Относительная энтропия определяется таким образом только в том случае, если для всех x подразумевает ( абсолютную непрерывность ) . В противном случае его часто определяют как , [1] но значение возможно даже везде, [12] [13] при условии, что оно бесконечно по размеру. Аналогичные комментарии применимы к случаям непрерывной и общей меры, определенным ниже.

Всякий раз, когда равен нулю, вклад соответствующего члена интерпретируется как ноль, потому что

Для распределений P и Q непрерывной случайной величины относительная энтропия определяется как интеграл [14]

где p и q обозначают плотности вероятности P и Q. _

В более общем смысле, если P и Q являются вероятностными мерами в измеримом пространстве и P абсолютно непрерывен относительно Q , то относительная энтропия от Q до P определяется как

где – производная Радона–Никодима от P по Q , т.е. единственная Q, определенная почти всюду функция r на такой , которая существует, поскольку P абсолютно непрерывна относительно Q. Также мы предполагаем, что выражение в правой части существует. Эквивалентно (по правилу цепочки ) это можно записать как

что является энтропией P относительно Q. _ Продолжая в этом случае, если есть какая-либо мера , для которой плотности p и q с и существуют (это означает, что P и Q оба абсолютно непрерывны относительно ), то относительная энтропия от Q до P задается как

Обратите внимание, что такая мера , для которой можно определить плотности, всегда существует, поскольку ее можно принять, хотя на практике это обычно будет такая мера, как счетная мера для дискретных распределений, мера Лебега или ее удобный вариант, например мера Гаусса или мера Лебега. равномерная мера на сфере , мера Хаара на группе Ли и т. д. для непрерывных распределений. Логарифмы в этих формулах обычно принимаются по основанию 2, если информация измеряется в битах , или по основанию е , если информация измеряется в нац . Большинство формул, включающих относительную энтропию, справедливы независимо от основания логарифма.

Существуют различные соглашения для обозначения слов. Часто это называют расхождением между P и Q , но это не может передать фундаментальную асимметрию в отношениях. Иногда, как в этой статье, это можно описать как расхождение P от Q или как расхождение от Q до P. Это отражает асимметрию байесовского вывода , который начинается с предшествующего Q и обновляется до апостериорного P. Другой распространенный способ обозначения — это относительная энтропия P по отношению к Q или прирост информации от P над Q .

Базовый пример

Кульбак [3] приводит следующий пример (табл. 2.1, пример 2.1). Пусть P и Q — распределения, показанные в таблице и на рисунке. P — распределение в левой части рисунка, биномиальное распределение с и . Q — распределение в правой части рисунка, дискретное равномерное распределение с тремя возможными исходами. 0 ,1 ,2 (т.е. ), каждый с вероятностью .

Два распределения для иллюстрации относительной энтропии

Относительные энтропии и рассчитываются следующим образом. В этом примере используется натуральный журнал с основанием e , обозначенным ln, для получения результатов в nats (см. единицы измерения ):

Интерпретации

Статистика

В области статистики лемма Неймана-Пирсона гласит, что наиболее эффективный способ различить два распределения P и Q на основе наблюдения Y (взятого из одного из них) - это логарифм отношения их правдоподобий: . Дивергенция KL — это ожидаемое значение этой статистики, если Y фактически получено из P. Кульбак мотивировал эту статистику ожидаемым логарифмическим отношением правдоподобия. [15]

Кодирование

В контексте теории кодирования его можно построить путем измерения ожидаемого количества дополнительных битов , необходимых для кодирования выборок из P , используя код, оптимизированный для Q , а не код, оптимизированный для P.

Вывод

В контексте машинного обучения это часто называют приростом информации, достигаемым, если использовать P вместо Q , который используется в настоящее время. По аналогии с теорией информации это называется относительной энтропией P по отношению к Q.

Выраженный на языке байесовского вывода , это мера информации, полученной путем пересмотра своих убеждений от априорного распределения вероятностей Q до апостериорного распределения вероятностей P. Другими словами, это количество информации, теряемой при использовании Q для аппроксимации P. [16]

Информационная геометрия

В приложениях P обычно представляет собой «истинное» распределение данных, наблюдений или точно рассчитанное теоретическое распределение, тогда как Q обычно представляет собой теорию, модель, описание или приближение P. Чтобы найти распределение Q , наиболее близкое к P , мы можем минимизировать расхождение KL и вычислить информационную проекцию .

Хотя это статистическое расстояние , это не метрика , наиболее известный тип расстояния, а скорее расхождение . [4] В то время как метрики симметричны и обобщают линейное расстояние, удовлетворяя неравенству треугольника , расхождения асимметричны и обобщают квадрат расстояния, в некоторых случаях удовлетворяя обобщенной теореме Пифагора . В общем не равно , и асимметрия является важной частью геометрии. [4] Бесконечно малая форма относительной энтропии, в частности ее гессиан , дает метрический тензор , равный информационной метрике Фишера ; см. § Информационная метрика Фишера. Относительная энтропия удовлетворяет обобщенной теореме Пифагора для экспоненциальных семейств (геометрически интерпретируемых как дуально плоские многообразия ), и это позволяет минимизировать относительную энтропию геометрическими средствами, например, с помощью информационной проекции и оценки максимального правдоподобия . [5]

Относительная энтропия — это дивергенция Брегмана , порожденная отрицательной энтропией, но она также имеет форму f -дивергенции . Для вероятностей в конечном алфавите он уникален тем, что принадлежит к обоим этим классам статистических расхождений .

Финансы (теория игр)

Рассмотрим инвестора, оптимизирующего рост, в честной игре с взаимоисключающими результатами (например, «скачки», в которых официальные шансы в сумме равны единице). Норма прибыли, ожидаемая таким инвестором, равна относительной энтропии между предполагаемыми вероятностями инвестора и официальными шансами. [17] Это частный случай гораздо более общей связи между финансовой доходностью и показателями дивергенции. [18]

Финансовые риски связаны с геометрией информации. [19] Взгляды инвесторов, преобладающие взгляды на рынок и рискованные сценарии образуют треугольники на соответствующем многообразии распределений вероятностей. Форма треугольников определяет ключевые финансовые риски (как качественно, так и количественно). Например, тупые треугольники, в которых взгляды инвесторов и сценарии риска появляются на «противоположных сторонах» относительно рынка, описывают отрицательные риски, острые треугольники описывают положительную подверженность, а прямоугольная ситуация в середине соответствует нулевому риску.

Мотивация

Иллюстрация относительной энтропии для двух нормальных распределений . Типичная асимметрия отчетливо видна.

В теории информации теорема Крафта-Макмиллана устанавливает, что любую непосредственно декодируемую схему кодирования сообщения для идентификации одного значения из набора возможностей X можно рассматривать как представление неявного распределения вероятностей по X , где - длина кода. ибо в битах. Следовательно, относительную энтропию можно интерпретировать как ожидаемую дополнительную длину сообщения на единицу данных, которая должна быть передана, если используется код, оптимальный для данного (неправильного) распределения Q , по сравнению с использованием кода, основанного на истинном распределении P : это избыточная энтропия.

где — перекрестная энтропия P и Q , а — энтропия P (которая равна перекрестной энтропии P с самим собой) .

Относительную энтропию можно рассматривать геометрически как статистическое расстояние , меру того, насколько далеко распределение Q находится от распределения P. Геометрически это дивергенция : асимметричная, обобщенная форма квадрата расстояния. Перекрестная энтропия сама по себе является таким измерением (формально — функцией потерь ), но ее нельзя рассматривать как расстояние, поскольку она не равна нулю. Это можно исправить путем вычитания , чтобы лучше согласовать наше представление о расстоянии как о избыточных потерях. Результирующая функция асимметрична, и, хотя ее можно симметрично (см. § Симметризованная дивергенция), асимметричная форма более полезна. Дополнительную информацию о геометрической интерпретации см. в § Интерпретации.

Относительная энтропия относится к « функции скорости » в теории больших уклонений . [20] [21]

Артур Хобсон доказал, что относительная энтропия является единственной мерой различия между распределениями вероятностей, которая удовлетворяет некоторым желаемым свойствам, которые являются каноническим расширением тех, которые появляются в обычно используемой характеристике энтропии . [22] Следовательно, взаимная информация является единственной мерой взаимной зависимости, которая подчиняется определенным связанным условиям, поскольку ее можно определить в терминах дивергенции Кульбака – Лейблера .

Характеристики

В частности, если и , то — почти везде . Таким образом, энтропия устанавливает минимальное значение перекрестной энтропии , ожидаемого количества битов , необходимых при использовании кода, основанного на Q , а не на P ; и поэтому расхождение Кульбака-Лейблера представляет собой ожидаемое количество дополнительных битов, которые необходимо передать для идентификации значения x , полученного из X , если используется код, соответствующий распределению вероятностей Q , а не «истинному» распределению P.

Формула двойственности для вариационного вывода

Следующий результат Донскера и Варадхана [25] известен как вариационная формула Донскера и Варадхана .

Теорема [Формула двойственности для вариационного вывода]  —  Пустьбудет набор, наделенный соответствующим-полеми двумя вероятностными мерами P и Q , которые формулируют два вероятностных пространства и, с. (указывает, что Q абсолютно непрерывен относительно P. ) Пусть h — вещественная интегрируемая случайная величина на. Тогда имеет место равенство

Далее, верхняя грань в правой части достигается тогда и только тогда, когда выполняется

почти наверное относительно вероятностной меры P , где обозначает производную Радона-Никодима Q по P .

Доказательство

Для краткого доказательства, предполагающего интегрируемость относительно P , пусть имеет P -плотность , т.е. Тогда

Поэтому,

где последнее неравенство следует из , для которого равенство имеет место тогда и только тогда, когда . Вывод следующий.

Альтернативное доказательство с использованием теории меры см. [26]

Примеры

Многомерные нормальные распределения

Предположим, что у нас есть два многомерных нормальных распределения со средними значениями и с (несингулярными) ковариационными матрицами . Если два распределения имеют одинаковую размерность k , то относительная энтропия между распределениями следующая: [27]

Логарифм в последнем члене необходимо брать по основанию e, поскольку все члены, кроме последнего, являются логарифмами по основанию e выражений, которые либо являются факторами функции плотности, либо возникают естественным образом иным образом. Таким образом, уравнение дает результат, измеряемый в натс . Разделив все приведенное выше выражение на, получим расхождение в битах .

В числовой реализации полезно выразить результат через разложения Холецкого, такие что и . Тогда с M и y решениями треугольных линейных систем , и ,

Особым случаем и общей величиной в вариационном выводе является относительная энтропия между диагональным многомерным нормальным распределением и стандартным нормальным распределением (с нулевым средним значением и единичной дисперсией):

Для двух одномерных нормальных распределений p и q приведенное выше упрощается до [28]

В случае соцентрированных нормальных распределений с это упрощает [29] до:

Равномерные распределения

Рассмотрим два равномерных распределения с поддержкой, заключенной в ( ). Тогда прирост информации составит:

Интуитивно понятно, что [29] прирост информации для более узкого равномерного распределения в k раз содержит биты. Это связано с использованием битов в вычислениях, где биты необходимы для идентификации одного элемента длинного потока k .

Связь с метриками

Хотя относительная энтропия является статистическим расстоянием , она не является метрикой пространства вероятностных распределений, а представляет собой дивергенцию . [4] В то время как метрики симметричны и обобщают линейное расстояние, удовлетворяя неравенству треугольника , расхождения в целом асимметричны и обобщают квадрат расстояния, в некоторых случаях удовлетворяя обобщенной теореме Пифагора . В общем случае не равно , и хотя это можно симметрично (см. § Симметризованное расхождение), асимметрия является важной частью геометрии. [4]

Он генерирует топологию в пространстве вероятностных распределений . Более конкретно, if — это последовательность распределений такая, что

,

тогда говорят, что

.

Неравенство Пинскера означает, что

,

где последнее означает обычную сходимость в полной вариации .

Информационная метрика Фишера

Относительная энтропия напрямую связана с информационной метрикой Фишера . Это можно выразить следующим образом. Предположим, что распределения вероятностей P и Q параметризованы некоторым (возможно, многомерным) параметром . Рассмотрим затем два близких значения и так, чтобы параметр лишь незначительно отличался от значения параметра . В частности, до первого порядка (используя соглашение о суммировании Эйнштейна )

с небольшим изменением в направлении j и соответствующей скоростью изменения распределения вероятностей. Поскольку относительная энтропия имеет абсолютный минимум 0 при , т. е . изменяется только до второго порядка по малым параметрам . Более формально, как и для любого минимума, первые производные дивергенции обращаются в нуль.

и по разложению Тейлора имеем до второго порядка

где матрица Гессе дивергенции

должно быть положительно полуопределенным . Позволяя варьировать (и опуская субиндекс 0), гессиан определяет (возможно, вырожденную) риманову метрику в пространстве параметров θ , называемую информационной метрикой Фишера.

Теорема Фишера об информационной метрике

Когда удовлетворяет следующим условиям регулярности:

существовать,

где ξ не зависит от ρ

затем:

Изменение информации

Другой теоретико-информационный показатель — это изменение информации , которое примерно представляет собой симметризацию условной энтропии . Это метрика множества разбиений дискретного вероятностного пространства .

Связь с другими величинами теории информации

Многие другие величины теории информации можно интерпретировать как применение относительной энтропии к конкретным случаям.

Самоинформация

Самоинформация , также известная как информационное содержание сигнала, случайной величины или события , определяется как отрицательный логарифм вероятности наступления данного результата.

Применительно к дискретной случайной величине самоинформацию можно представить как

— это относительная энтропия распределения вероятностей из дельты Кронекера , представляющая уверенность в том, что — т. е. количество дополнительных битов, которые необходимо передать для идентификации i , если получателю доступно только распределение вероятностей , а не тот факт, что .

Взаимная информация

Взаимная информация ,

— это относительная энтропия совместного распределения вероятностей , полученная из произведения двух предельных распределений вероятностей , т. е. ожидаемое количество дополнительных битов, которые необходимо передать для идентификации X и Y , если они закодированы с использованием только их предельных распределений вместо совместного распределения. Аналогичным образом, если известна совместная вероятность , это ожидаемое количество дополнительных битов, которые в среднем необходимо отправить для идентификации Y , если значение X еще не известно получателю.

Энтропия Шеннона

Энтропия Шеннона ,

- это количество битов, которое необходимо было бы передать, чтобы идентифицировать X из N равновероятных возможностей, за вычетом относительной энтропии равномерного распределения случайных величин X , от истинного распределения - т.е. меньше ожидаемого количества сохраненных битов, который пришлось бы отправить, если бы значение X было закодировано в соответствии с равномерным распределением , а не с истинным распределением . Это определение энтропии Шеннона лежит в основе альтернативного обобщения Э. Т. Джейнса на непрерывные распределения, предельной плотности дискретных точек (в отличие от обычной дифференциальной энтропии ), которое определяет непрерывную энтропию как

что эквивалентно:

Условная энтропия

Условная энтропия [30] ,

- это количество битов, которое необходимо было бы передать, чтобы идентифицировать X из N равновероятных возможностей, за вычетом относительной энтропии распределения продуктов от истинного совместного распределения - т. е . меньше ожидаемого числа сохраненных битов, которые пришлось бы отправить, если бы значение X кодировалось в соответствии с равномерным распределением , а не с условным распределением X с учетом Y .

Перекрестная энтропия

Когда у нас есть набор возможных событий, поступающих из распределения p , мы можем закодировать их (со сжатием данных без потерь ), используя энтропийное кодирование . При этом данные сжимаются путем замены каждого входного символа фиксированной длины соответствующим уникальным кодом переменной длины без префиксов (например: события (A, B, C) с вероятностями p = (1/2, 1/4, 1/4) могут быть закодированы как биты (0, 10, 11)). Если мы заранее знаем распределение p , мы можем разработать оптимальное кодирование (например, с использованием кодирования Хаффмана ). Это означает, что сообщения, которые мы кодируем, будут иметь в среднем наименьшую длину (при условии, что закодированные события выбраны из p ), которая будет равна энтропии Шеннона p (обозначается как ). Однако если мы используем другое распределение вероятностей ( q ) при создании схемы энтропийного кодирования, то для идентификации события из набора возможностей будет использовано большее количество битов (в среднем). Это новое (большое) число измеряется перекрестной энтропией между p и q .

Перекрестная энтропия между двумя распределениями вероятностей ( p и q ) измеряет среднее количество битов , необходимых для идентификации события из набора возможностей, если используется схема кодирования, основанная на заданном распределении вероятностей q , а не на «истинном» распределении. п . Таким образом , перекрестная энтропия для двух распределений p и q в одном и том же вероятностном пространстве определяется следующим образом.

Подробную информацию об этом см. в разделе «Мотивация» выше.

В этом сценарии относительные энтропии (kl-дивергенция) можно интерпретировать как дополнительное количество битов в среднем, которое необходимо (помимо ) для кодирования событий из-за использования q для построения схемы кодирования вместо p .

Байесовское обновление

В байесовской статистике относительная энтропия может использоваться как мера прироста информации при переходе от априорного распределения к апостериорному : . Если обнаружен какой-то новый факт , его можно использовать для обновления апостериорного распределения X до нового апостериорного распределения с использованием теоремы Байеса :

Это распределение имеет новую энтропию :

которая может быть меньше или больше исходной энтропии . Однако с точки зрения нового распределения вероятностей можно оценить, что использование исходного кода на основе вместо нового кода на основе привело бы к добавлению ожидаемого количества битов:

к длине сообщения. Таким образом, это представляет собой количество полезной информации или прироста информации о X , который был получен путем открытия .

Если впоследствии поступает еще один фрагмент данных , распределение вероятностей для x может быть дополнительно обновлено, чтобы дать новое наилучшее предположение . Если повторно исследовать прирост информации при использовании вместо , то окажется, что он может быть как больше, так и меньше, чем предполагалось ранее:

может быть ≤ или > чем

и поэтому совокупный прирост информации не подчиняется неравенству треугольника:

может быть <, = или > чем

Все, что можно сказать, это то, что в среднем , используя усреднение , обе стороны усредняются.

Байесовский экспериментальный план

Общая цель байесовского экспериментального плана — максимизировать ожидаемую относительную энтропию между априорным и апостериорным. [31] Когда апостериорные данные аппроксимируются как гауссовы распределения, схема, максимизирующая ожидаемую относительную энтропию, называется байесовским d-оптимальным .

Информация о дискриминации

Относительную энтропию также можно интерпретировать как ожидаемую информацию о различении для более чем : среднюю информацию на образец для различения в пользу гипотезы против гипотезы , когда гипотеза верна. [32] Другое название этой величины, данное ей И. Дж. Гудом , — это ожидаемая масса доказательств превышения , ожидаемого от каждого образца.

Ожидаемый вес доказательств превышения не совпадает с ожидаемым приростом информации для каждой выборки о распределении вероятностей гипотез.

Любую из двух величин можно использовать в качестве функции полезности в байесовском плане эксперимента, чтобы выбрать оптимальный следующий вопрос для исследования: но в целом они приведут к довольно разным экспериментальным стратегиям.

По шкале энтропии информационного выигрыша разница между почти достоверностью и абсолютной достоверностью очень мала — кодирование в соответствии с почти достоверностью требует едва ли больше битов, чем кодирование в соответствии с абсолютной достоверностью. С другой стороны, в логит- шкале, подразумеваемой весомыми доказательствами, разница между ними огромна – возможно, бесконечна; это может отражать разницу между почти уверенностью (на вероятностном уровне) в том, что, скажем, гипотеза Римана верна, и уверенностью в ее правильности, поскольку у вас есть математическое доказательство. Обе эти две разные шкалы функции потерь для неопределенности полезны в зависимости от того, насколько хорошо каждая из них отражает конкретные обстоятельства рассматриваемой проблемы.

Принцип минимальной дискриминационной информации

Идея относительной энтропии как информации о различении привела Кульбака к предложению принципаМинимальная информация о дискриминации (MDI): учитывая новые факты, следует выбрать новое распределениеfможнотруднее отличить от исходного распределениятак, чтобы новые данные приносили какможно меньший информационный выигрыш.

Например, если кто-то имел априорное распределение по x и a и впоследствии узнал, что истинное распределение a было , то относительная энтропия между новым совместным распределением x и a , и более ранним априорным распределением будет равна:

т.е. сумма относительной энтропии предварительного распределения для a из обновленного распределения плюс ожидаемое значение (с использованием распределения вероятностей ) относительной энтропии предварительного условного распределения из нового условного распределения . (Обратите внимание, что часто более позднее ожидаемое значение называется условной относительной энтропией (или условной дивергенцией Кульбака – Лейблера ) и обозначается [3] [30] ). Оно минимизируется, если по всей поддержке ; и мы отмечаем, что этот результат включает в себя теорему Байеса, если новое распределение на самом деле является δ-функцией, представляющей уверенность в том, что a имеет одно конкретное значение.

MDI можно рассматривать как расширение принципа недостаточного основания Лапласа и принципа максимальной энтропии Э. Т. Джейнса . В частности, это естественное расширение принципа максимальной энтропии с дискретных распределений на непрерывные, для которых энтропия Шеннона перестает быть столь полезной (см. дифференциальная энтропия ), но относительная энтропия продолжает оставаться столь же актуальной.

В инженерной литературе MDI иногда называют принципом минимальной перекрестной энтропии (MCE) или сокращенно Minxent . Минимизация относительной энтропии от m до p по отношению к m эквивалентна минимизации перекрестной энтропии p и m , поскольку

что подходит, если кто-то пытается выбрать адекватное приближение к p . Однако зачастую это не та задача, которую пытаются достичь. Вместо этого так же часто m является некоторой фиксированной априорной эталонной мерой, а p пытаются оптимизировать путем минимизации с учетом некоторого ограничения. Это привело к некоторой двусмысленности в литературе: некоторые авторы пытались разрешить это несоответствие, переопределив перекрестную энтропию как , а не как [ нужна ссылка ] .

Отношение к доступной работе

График зависимости давления от объема доступной работы для моля газообразного аргона относительно окружающей среды, рассчитанный как произведение расхождения Кульбака – Лейблера.

Сюрпризы [33] добавляются там, где вероятности умножаются. Сюрприз для события с вероятностью p определяется как . Если k равно, то сюрприз выражается в натсах, битах или так, что, например, имеется N бит сюрприза для выпадения всех «орлов» при подбрасывании N монет.

Состояния наилучшего предположения (например, для атомов в газе) выводятся путем максимизации среднего значения неожиданности S ( энтропии ) для заданного набора управляющих параметров (например, давления P или объема V ). Эта ограниченная максимизация энтропии , как классическая [34], так и квантово-механическая, [35] минимизирует доступность Гиббса в единицах энтропии [36] , где Z — ограниченная кратность или статистическая сумма .

Когда температура T фиксирована, свободная энергия ( ) также минимизируется. Таким образом, если число молекул N постоянно, свободная энергия Гельмгольца (где U — энергия, а S — энтропия) минимизируется по мере «уравновешивания» системы. Если T и P остаются постоянными (скажем, во время процессов в вашем теле), вместо этого свободная энергия Гиббса минимизируется. Изменение свободной энергии в этих условиях является мерой доступной работы , которую можно совершить в этом процессе. Таким образом, доступная работа для идеального газа при постоянной температуре и давлении равна где и (см. также неравенство Гиббса ).

В более общем смысле [37] доступная работа относительно некоторой окружающей среды получается путем умножения температуры окружающей среды на относительную энтропию или чистый сюрприз , определяемый как среднее значение где - вероятность данного состояния в условиях окружающей среды. Например, работа, доступная для приведения одноатомного идеального газа в равновесие с окружающими значениями и, таким образом, равна , где относительная энтропия

Получающиеся в результате контуры постоянной относительной энтропии, показанные справа для моля аргона при стандартной температуре и давлении, например, налагают ограничения на преобразование горячего в холодное, как в системах кондиционирования воздуха с пламенным двигателем или в устройствах без электропитания для преобразования температуры кипения. вода в ледяную воду обсуждается здесь. [38] Таким образом, относительная энтропия измеряет термодинамическую доступность в битах.

Квантовая теория информации

Для матриц плотности P и Q в гильбертовом пространстве квантовая относительная энтропия от Q до P определяется как

В квантовой информатике минимум всех разделимых состояний Q также может использоваться как мера запутанности в состоянии P.

Связь между моделями и реальностью

Точно так же, как относительная энтропия «реальности от окружающей среды» измеряет термодинамическую доступность, относительная энтропия «реальности от модели» также полезна, даже если единственными подсказками, которые мы имеем о реальности, являются некоторые экспериментальные измерения. В первом случае относительная энтропия описывает расстояние до равновесия или (при умножении на температуру окружающей среды) количество доступной работы , тогда как во втором случае она говорит вам о сюрпризах, которые реальность приготовила в рукаве или, другими словами, о том, насколько модель еще предстоит научиться .

Хотя этот инструмент для оценки моделей по сравнению с системами, доступными экспериментально, может применяться в любой области, его применение для выбора статистической модели с помощью информационного критерия Акаике особенно хорошо описано в статьях [39] и книге [40] Бернхэма и Андерсона. Короче говоря, относительная энтропия реальности из модели может быть оценена с точностью до постоянного аддитивного члена как функция отклонений, наблюдаемых между данными и предсказаниями модели (например, среднеквадратичное отклонение ). Оценки такого расхождения для моделей, которые используют один и тот же аддитивный член, в свою очередь, могут использоваться для выбора одной из моделей.

При попытке подогнать параметризованные модели к данным существуют различные средства оценки, которые пытаются минимизировать относительную энтропию, например, средства оценки максимального правдоподобия и максимального интервала . [ нужна цитата ]

Симметризованная дивергенция

Кульбак и Лейблер (1951) также рассматривали симметризованную функцию: [6]

которую они называли «дивергенцией», хотя сегодня «дивергенция KL» относится к асимметричной функции (см. § Этимологию эволюции этого термина). Эта функция симметрична и неотрицательна и уже была определена и использована Гарольдом Джеффрисом в 1948 году; [7] соответственно это называется дивергенцией Джеффриса .

Эту величину иногда использовали для выбора признаков в задачах классификации , где P и Q — условные PDF-файлы признака двух разных классов. В банковской и финансовой отраслях эта величина называется Индексом стабильности населения ( PSI ) и используется для оценки изменений распределения характеристик модели во времени.

Альтернатива дается через -дивергенцию ,

который можно интерпретировать как ожидаемый прирост информации о X от выяснения того, какое распределение вероятностей X взято, P или Q , если они в настоящее время имеют вероятности и соответственно. [ нужны разъяснения ] [ нужна ссылка ]

Значение дает расхождение Дженсена-Шеннона , определяемое формулой

где M — среднее значение двух распределений,

Мы также можем интерпретировать как пропускную способность зашумленного информационного канала с двумя входами , дающими выходные распределения P и Q. Дивергенция Дженсена-Шеннона, как и все f -дивергенции, локально пропорциональна информационной метрике Фишера . Она похожа на метрику Хеллингера (в том смысле, что она индуцирует ту же аффинную связность на статистическом многообразии ).

Более того, расхождение Дженсена-Шеннона можно обобщить с помощью абстрактных статистических M-смесей, опираясь на абстрактное среднее значение M. [41] [42]

Связь с другими мерами вероятностного расстояния

Есть много других важных мер вероятностного расстояния . Некоторые из них особенно связаны с относительной энтропией. Например:

Другие известные меры расстояния включают расстояние Хеллингера , пересечение гистограммы , статистику Хи-квадрат , расстояние квадратичной формы , расстояние совпадения , расстояние Колмогорова-Смирнова и расстояние землеройного машины . [45]

Различие данных

Точно так же, как абсолютная энтропия служит теоретической основой для сжатия данных , относительная энтропия служит теоретической основой для различения данных – абсолютная энтропия набора данных в этом смысле представляет собой данные, необходимые для его восстановления (минимальный сжатый размер), тогда как относительная энтропия целевого набора данных с учетом исходного набора данных — это данные, необходимые для восстановления цели с учетом источника (минимальный размер исправления ) .

Смотрите также

Рекомендации

  1. ^ ab Csiszar, I (февраль 1975 г.). «I-дивергентная геометрия вероятностных распределений и задачи минимизации». Анна. Вероятно . 3 (1): 146–158. дои : 10.1214/aop/1176996454 .
  2. ^ Кульбак, С .; Лейблер, Р.А. (1951). «Об информации и достаточности». Анналы математической статистики . 22 (1): 79–86. дои : 10.1214/aoms/1177729694 . JSTOR  2236703. MR  0039968.
  3. ^ abc Кульбак 1959.
  4. ^ abcde Амари 2016, с. 11.
  5. ^ аб Амари 2016, с. 28.
  6. ^ ab Kullback & Leibler 1951, с. 80.
  7. ^ аб Джеффрис 1948, с. 158.
  8. ^ Кульбак 1959, с. 7.
  9. ^ Кульбак, С. (1987). «Письмо в редакцию: расстояние Кульбака – Лейблера». Американский статистик . 41 (4): 340–341. дои : 10.1080/00031305.1987.10475510. JSTOR  2684769.
  10. ^ Кульбак 1959, с. 6.
  11. ^ Маккей, Дэвид Дж. К. (2003). Теория информации, вывод и алгоритмы обучения (1-е изд.). Издательство Кембриджского университета. п. 34. ISBN 9780521642989– через Google Книги.
  12. ^ «Каково максимальное значение расхождения Кульбака-Лейблера (KL)?». Машинное обучение. Обмен стеками статистики (stats.stackexchange.com) . Перекрестная проверка.
  13. ^ «В каких ситуациях интеграл равен бесконечности?». Интеграция. Обмен стеками математики (math.stackexchange.com) .
  14. ^ Бишоп, Кристофер М. Распознавание образов и машинное обучение. п. 55. OCLC  1334664824.
  15. ^ Кульбак 1959, с. 5.
  16. ^ Бернхэм, КП; Андерсон, Д.Р. (2002). Выбор модели и многомодельный вывод (2-е изд.). Спрингер. п. 51. ИСБН 9780387953649.
  17. ^ Келли, Дж. Л. младший (1956). «Новая интерпретация скорости информации». Белл Сист. Тех. Дж . 2 (4): 917–926. doi :10.1002/j.1538-7305.1956.tb03809.x.
  18. ^ Соклаков, АН (2020). «Экономика разногласий - финансовая интуиция для расхождения Реньи». Энтропия . 22 (8): 860. arXiv : 1811.08308 . Бибкод : 2020Entrp..22..860S. дои : 10.3390/e22080860 . ПМЦ 7517462 . ПМИД  33286632. 
  19. ^ Соклаков, АН (2023). «Информационная геометрия рисков и доходности». Риск . Июнь . ССНН  4134885.
  20. ^ Санов, И.Н. (1957). «О вероятности больших отклонений случайных величин». Мат. Сборник . 42 (84): 11–44.
  21. ^ Новак С.Ю. (2011), Методы экстремальных значений с применением в финансах, гл. 14.5 ( Чепмен и Холл ). ISBN 978-1-4398-3574-6
  22. ^ Хобсон, Артур (1971). Понятия статистической механики . Нью-Йорк: Гордон и Брич. ISBN 978-0677032405.
  23. ^ Бонничи, В. (2020). «Расхождение Кульбака-Лейблера между квантовыми распределениями и его верхняя граница». arXiv : 2008.05932 [cs.LG].
  24. ^ См. раздел «Дифференциальная энтропия - 4» в видеолекции Серджио Верду NIPS «Относительная энтропия» , 2009 г.
  25. ^ Донскер, Монро Д.; Варадхан, С.Р. Шриниваса (1983). «Асимптотическая оценка некоторых ожиданий марковского процесса на большом времени. IV». Сообщения по чистой и прикладной математике . 36 (2): 183–212. дои : 10.1002/cpa.3160360204.
  26. ^ Ли, Се Юн (2021). «Сэмплер Гиббса и вариационный вывод по координатному восхождению: теоретико-множественный обзор». Коммуникации в статистике - теория и методы . 51 (6): 1549–1568. arXiv : 2008.01006 . дои : 10.1080/03610926.2021.1921214. S2CID  220935477.
  27. ^ Дучи Дж. «Выводы для линейной алгебры и оптимизации» (PDF) . п. 13.
  28. ^ Белов, Дмитрий И.; Армстронг, Рональд Д. (15 апреля 2011 г.). «Распределения расходимости Кульбака-Лейблера с приложениями». Британский журнал математической и статистической психологии . 64 (2): 291–309. дои : 10.1348/000711010x522227. ISSN  0007-1102. ПМИД  21492134.
  29. ^ Аб Бюхнер, Йоханнес (29 апреля 2022 г.). Интуиция для физиков: получение информации в результате экспериментов. OCLC  1363563215.
  30. ^ ab Cover, Томас М.; Томас, Джой А. (1991), Элементы теории информации , John Wiley & Sons , с. 22
  31. ^ Чалонер, К.; Вердинелли, И. (1995). «Байесовский экспериментальный дизайн: обзор». Статистическая наука . 10 (3): 273–304. дои : 10.1214/ss/1177009939 . hdl : 11299/199630 .
  32. ^ Пресс, WH; Теукольский, С.А.; Феттерлинг, WT; Фланнери, BP (2007). «Раздел 14.7.2. Расстояние Кульбака – Лейблера». Численные рецепты: искусство научных вычислений (3-е изд.). Издательство Кембриджского университета. ISBN 978-0-521-88068-8.
  33. ^ Трибус, Майрон (1959). Термостатика и термодинамика: введение в энергию, информацию и состояния материи с инженерными приложениями. Ван Ностранд.
  34. ^ Джейнс, ET (1957). «Теория информации и статистическая механика» (PDF) . Физический обзор . 106 (4): 620–630. Бибкод : 1957PhRv..106..620J. doi : 10.1103/physrev.106.620. S2CID  17870175.
  35. ^ Джейнс, ET (1957). «Теория информации и статистическая механика II» (PDF) . Физический обзор . 108 (2): 171–190. Бибкод : 1957PhRv..108..171J. doi : 10.1103/physrev.108.171.
  36. ^ Гиббс, Джозайя Уиллард (1871). Метод геометрического представления термодинамических свойств веществ с помощью поверхностей. Академия.сноска на стр. 52.
  37. ^ Трибус, М.; МакИрвин, ЕС (1971). «Энергия и информация». Научный американец . 224 (3): 179–186. Бибкод : 1971SciAm.225c.179T. doi : 10.1038/scientificamerican0971-179.
  38. ^ Фраундорф, П. (2007). «Термические корни сложности, основанной на корреляции». Сложность . 13 (3): 18–26. arXiv : 1103.2481 . Бибкод : 2008Cmplx..13c..18F. дои : 10.1002/cplx.20195. S2CID  20794688. Архивировано из оригинала 13 августа 2011 г.
  39. ^ Бернхэм, КП; Андерсон, Д.Р. (2001). «Информация Кульбака – Лейблера как основа для убедительных выводов в экологических исследованиях». Исследования дикой природы . 28 (2): 111–119. дои : 10.1071/WR99107 .
  40. ^ Бернхэм, Кеннет П. (декабрь 2010 г.). Выбор модели и многомодельный вывод: практический теоретико-информационный подход. Спрингер. ISBN 978-1-4419-2973-0. ОСЛК  878132909.
  41. ^ Нильсен, Франк (2019). «О симметризации расстояний Дженсена – Шеннона, основанной на абстрактных средствах». Энтропия . 21 (5): 485. arXiv : 1904.04017 . Бибкод : 2019Entrp..21..485N. дои : 10.3390/e21050485 . ПМЦ 7514974 . ПМИД  33267199. 
  42. ^ Нильсен, Франк (2020). «Об обобщении дивергенции Дженсена-Шеннона и центроида Дженсена-Шеннона». Энтропия . 22 (2): 221. arXiv : 1912.00610 . Бибкод : 2020Entrp..22..221N. дои : 10.3390/e22020221 . ПМЦ 7516653 . ПМИД  33285995. 
  43. ^ Бретаньолле, Дж.; Хубер, К. (1978), Estimation des Densités: Рискованный минимакс, Конспекты лекций по математике (на французском языке), Берлин, Гейдельберг: Springer Berlin Heidelberg, стр. 342–363, doi : 10.1007/bfb0064610, ISBN 978-3-540-08761-8, S2CID  122597694 , получено 14 февраля 2023 г.Лемма 2.1.
  44. ^ Б.), Цыбаков А.Б. (Александр (2010). Введение в непараметрическое оценивание. Springer. ISBN 978-1-4419-2709-5. OCLC  757859245.{{cite book}}: CS1 maint: multiple names: authors list (link)Уравнение 2.25.
  45. ^ Рубнер, Ю.; Томази, К.; Гибас, ЖЖ (2000). «Расстояние землеройной машины как показатель для поиска изображений». Международный журнал компьютерного зрения . 40 (2): 99–121. дои : 10.1023/А: 1026543900054. S2CID  14106275.

Внешние ссылки