stringtranslate.com

Распределение вероятностей максимальной энтропии

В статистике и теории информации распределение вероятностей с максимальной энтропией имеет энтропию , по крайней мере такую ​​же большую, как и у всех других членов определенного класса распределений вероятностей . Согласно принципу максимальной энтропии , если о распределении ничего не известно, кроме того, что оно принадлежит определенному классу (обычно определяемому в терминах заданных свойств или мер), то распределение с наибольшей энтропией должно быть выбрано как наименее информативное. по умолчанию. Мотивация двоякая: во-первых, максимизация энтропии минимизирует количество априорной информации , встроенной в распределение; во-вторых, многие физические системы имеют тенденцию со временем двигаться к конфигурациям максимальной энтропии.

Определение энтропии и дифференциальной энтропии

Если - непрерывная случайная величина с плотностью вероятности , то дифференциальная энтропия определяется как [1] ​​[2] [3]

If — дискретная случайная величина с распределением, заданным выражением

тогда энтропия определяется как

Кажущееся расходящимся член заменяется нулем всякий раз, когда

Это частный случай более общих форм, описанных в статьях Энтропия (теория информации) , Принцип максимальной энтропии и Дифференциальная энтропия. В связи с распределениями максимальной энтропии это единственное, что необходимо, поскольку максимизация также максимизирует более общие формы.

Основание логарифма не имеет значения, если оно используется последовательно: изменение основания просто приводит к изменению масштаба энтропии. Теоретики информации могут предпочесть использовать систему счисления по основанию 2, чтобы выразить энтропию в битах ; математики и физики часто предпочитают натуральный логарифм , в результате чего для энтропии используется единица «нат» .

Однако выбранная мера имеет решающее значение, хотя типичное использование меры Лебега часто защищается как «естественный» выбор: какая мера выбрана, определяет энтропию и, как следствие, максимальное распределение энтропии.

Распределения с измеренными константами

Многие статистические распределения, представляющие применимый интерес, - это те, для которых моменты или другие измеримые величины ограничены константами. Следующая теорема Людвига Больцмана дает форму плотности вероятности при этих ограничениях.

Непрерывный случай

Предположим , что это непрерывное замкнутое подмножество действительных чисел , и мы решили указать измеримые функции и числа . Мы рассматриваем класс всех действительных случайных величин, которые поддерживаются (т. е. чья функция плотности равна нулю вне ) и которые удовлетворяют моменту условия:

Если существует член, функция плотности которого всюду положительна, и если существует максимальное распределение энтропии для, то его плотность вероятности имеет следующий вид:

где мы предполагаем, что константа и множители Лагранжа решают задачу ограниченной оптимизации с (что гарантирует, что интегрируется до единицы): [4]

Используя условия Каруша – Куна – Такера , можно показать, что задача оптимизации имеет единственное решение, поскольку целевая функция оптимизации вогнута по величине.

Обратите внимание, что когда моментными ограничениями являются равенства (а не неравенства), то есть

тогда условие ограничения можно отбросить, что делает оптимизацию по множителям Лагранжа неограниченной.

Дискретный случай

Предположим , что это (конечное или бесконечное) дискретное подмножество действительных чисел, и мы решили указать функции и числа . Мы рассматриваем класс всех дискретных случайных величин , которые поддерживаются и удовлетворяют моментным условиям.

Если существует член класса , который присваивает положительную вероятность всем членам класса , и если существует максимальное распределение энтропии для, то это распределение имеет следующую форму:

где мы предполагаем, что и константы решают задачу ограниченной оптимизации с помощью [5]

Опять же, как и выше, если моментные условия представляют собой равенства (а не неравенства), то условие ограничения не присутствует в оптимизации.

Доказательство в случае ограничений-равенств.

В случае ограничений-равенств эта теорема доказывается с помощью вариационного исчисления и множителей Лагранжа . Ограничения можно записать как

Рассмотрим функционал

где и – множители Лагранжа. Нулевое ограничение обеспечивает вторую аксиому вероятности . Другие ограничения заключаются в том, что измерения функции задаются константами до порядка . Энтропия достигает экстремума, когда функциональная производная равна нулю:

Поэтому экстремальное распределение вероятностей энтропии в этом случае должно иметь вид ( ),

помня это . Можно убедиться, что это максимальное решение, проверив, что вариация вокруг этого решения всегда отрицательна.

Уникальность максимальная

Предположим , что это распределения, удовлетворяющие ограничениям ожидания. Учитывая и рассматривая распределение, становится ясно, что это распределение удовлетворяет ограничениям ожидания и, кроме того, имеет поддержку. Из основных фактов об энтропии следует, что взятие пределов и, соответственно, дает

Отсюда следует, что распределение, удовлетворяющее ограничениям ожидания и максимизирующее энтропию, обязательно должно иметь полную поддержку — т. е . распределение почти везде строго положительное. Отсюда следует, что максимизирующее распределение должно быть внутренней точкой в ​​пространстве распределений, удовлетворяющих ограничениям ожидания, то есть оно должно быть локальным экстремумом. Таким образом, достаточно показать, что локальный экстремум уникален, чтобы одновременно показать, что распределение, максимизирующее энтропию, уникально (и это также показывает, что локальный экстремум является глобальным максимумом).

Предположим, это локальные экстремумы. Переформулируя приведенные выше вычисления, они характеризуются параметрами через и аналогично для где . Теперь отметим ряд тождеств: Через 1 удовлетворение ограничений ожидания и использование градиентов / производных по направлению, мы имеем

и аналогично для Letting получается:

где для некоторых дальнейших вычислений есть

где аналогично распределению, приведенному выше, только параметризовано с помощью предположения , что ни одна нетривиальная линейная комбинация наблюдаемых не является почти всюду постоянной (ae) (что, например , справедливо, если наблюдаемые независимы и не постоянны ae), справедливо то, что не имеет -нулевая дисперсия, за исключением случаев, когда из приведенного выше уравнения ясно, что последнее должно иметь место. Следовательно , параметры, характеризующие локальные экстремумы, одинаковы, а значит, и сами распределения идентичны. Таким образом, локальный экстремум уникален, и, согласно приведенному выше обсуждению, уникален максимум – при условии, что локальный экстремум действительно существует.

Предостережения

Обратите внимание, что не все классы распределений содержат распределение максимальной энтропии. Возможно, что класс содержит распределения сколь угодно большой энтропии (например, класс всех непрерывных распределений на R со средним значением 0, но с произвольным стандартным отклонением) или что энтропии ограничены сверху, но не существует распределения, которое достигает максимальной энтропии. [a] Также возможно, что ограничения ожидаемого значения для класса C заставят распределение вероятностей быть нулевым в определенных подмножествах S . В этом случае наша теорема неприменима, но это можно обойти, сократив множество S .

Примеры

Каждое распределение вероятностей тривиально является распределением вероятностей с максимальной энтропией при условии, что распределение имеет свою собственную энтропию. Чтобы убедиться в этом, перепишите плотность как и сравните с выражением приведенной выше теоремы. Выбрав в качестве измеримой функции и

чтобы быть константой, это максимальное распределение вероятностей энтропии при ограничении

.

Нетривиальными примерами являются распределения, на которые распространяется множество ограничений, отличных от назначения энтропии. Их часто можно обнаружить, начав с одной и той же процедуры и обнаружив, что ее можно разделить на части.

Таблица примеров распределений максимальной энтропии приведена в работах Лисмана (1972) [6] и Парка и Бера (2009). [7]

Равномерные и кусочно-равномерные распределения.

Равномерное распределение на интервале [ a , b ] является максимальным распределением энтропии среди всех непрерывных распределений, которые поддерживаются в интервале [ a , b ], и, таким образом, плотность вероятности равна 0 вне интервала. Эта равномерная плотность может быть связана с принципом безразличия Лапласа , иногда называемым принципом недостаточного основания. В более общем смысле, если нам даны подразделение a = a 0 < a 1 < ... < a k = b интервала [ a , b ] и вероятности p 1 ,..., p k , которые в сумме дают единицу, тогда мы можем рассмотреть класс всех непрерывных распределений таких, что

Плотность распределения максимальной энтропии для этого класса постоянна на каждом из интервалов [ aj - 1 , aj ) . Равномерное распределение на конечном множестве { x 1 ,..., x n } (которое присваивает вероятность 1/ n каждому из этих значений) является максимальным распределением энтропии среди всех дискретных распределений, поддерживаемых в этом наборе.

Положительное и заданное среднее: экспоненциальное распределение.

Экспоненциальное распределение , для которого функция плотности равна

— это максимальное распределение энтропии среди всех непрерывных распределений, поддерживаемых в [0,∞), которые имеют указанное среднее значение 1/λ.

В случае распределений, поддерживаемых на [0,∞), максимальное распределение энтропии зависит от соотношений между первым и вторым моментами. В конкретных случаях это может быть экспоненциальное распределение, или другое распределение, или оно может быть неопределимым. [8]

Указанное среднее значение и дисперсия: нормальное распределение

Нормальное распределение N(μ,σ2 ) , для которого функция плотности равна

имеет максимальную энтропию среди всех действительных распределений, поддерживаемых на (−∞,∞) с заданной дисперсией σ 2 (определенный момент ). То же самое верно, когда заданы среднее значение µ и дисперсия σ 2 (первые два момента), поскольку энтропия является трансляционно-инвариантной на (−∞, ∞). Следовательно, предположение о нормальности накладывает минимальное априорное структурное ограничение за пределами этих моментов. (Вывод см. в статье о дифференциальной энтропии .)

Дискретные распределения с заданным средним значением

Среди всех дискретных распределений, поддерживаемых на множестве { x 1 ,..., x n } с заданным средним значением µ, максимальное распределение энтропии имеет следующую форму:

где положительные константы C и r могут быть определены из требований, чтобы сумма всех вероятностей была равна 1, а ожидаемое значение - μ.

Например, если брошено большое количество N игральных костей, и вам говорят, что сумма всех выпавших чисел равна S. Основываясь только на этой информации, каково будет разумное предположение о количестве кубиков, на которых выпадут 1, 2, ..., 6? Это пример ситуации, рассмотренной выше, с { x 1 ,..., x 6 } = {1,...,6} и µ = S / N .

Наконец, среди всех дискретных распределений, поддерживаемых на бесконечном множестве со средним значением µ, максимальное распределение энтропии имеет форму:

где константы C и r снова определялись требованиями, чтобы сумма всех вероятностей была равна 1, а ожидаемое значение должно быть μ. Например, в случае x k = k это дает

так что соответствующее максимальное распределение энтропии является геометрическим распределением .

Круговые случайные величины

Для непрерывной случайной величины, распределенной по единичному кругу, распределение Фон Мизеса максимизирует энтропию, когда заданы действительная и мнимая части первого кругового момента [9] или, что то же самое, заданы круговое среднее и круговая дисперсия .

Когда указаны среднее значение и дисперсия углов по модулю , завернутое нормальное распределение максимизирует энтропию. [9]

Максимизатор для заданного среднего значения, дисперсии и асимметрии

Существует верхняя граница энтропии непрерывных случайных величин с указанным средним значением, дисперсией и перекосом. Однако не существует распределения, которое достигало бы этой верхней границы , поскольку оно неограничено (см. Cover & Thomas (2006: глава 12)).

Однако максимальная энтропия ε - достижима: энтропия распределения может быть сколь угодно близкой к верхней границе. Начните с нормального распределения указанного среднего значения и дисперсии. Чтобы ввести положительную асимметрию, измените нормальное распределение вверх на небольшую величину со значением, во много раз превышающим среднее значение. Асимметрия, пропорциональная третьему моменту, будет затронута больше, чем моменты более низкого порядка.

Это частный случай общего случая, в котором экспонента любого многочлена нечетного порядка от x будет неограниченной на . Например, также будет неограниченным на , но когда носитель ограничен ограниченным или полуограниченным интервалом, может быть достигнута верхняя граница энтропии (например, если x лежит в интервале [0,∞] и λ< 0 , экспоненциальная функция распределение будет результатом).

Максимизатор для заданной меры риска среднего и отклонения

Каждое распределение с логарифмически вогнутой плотностью представляет собой распределение максимальной энтропии с заданным средним значением µ и мерой риска отклонения D  . [10]

В частности, максимальное распределение энтропии с указанным средним значением и отклонением :

Другие примеры

В таблице ниже каждое перечисленное распределение максимизирует энтропию для определенного набора функциональных ограничений, перечисленных в третьем столбце, и ограничения, которое включается в поддержку плотности вероятности, которое указано в четвертом столбце. [6] [7]

Несколько перечисленных примеров ( Бернулли , геометрический , экспоненциальный , Лапласа , Парето ) тривиально верны, поскольку связанные с ними ограничения эквивалентны назначению их энтропии. Они в любом случае включены, поскольку их ограничение связано с общей или легко измеряемой величиной.

Для справки: это гамма-функция , это дигамма-функция , это бета-функция и это константа Эйлера-Машерони .

Принцип максимальной энтропии можно использовать для верхнего ограничения энтропии статистических смесей. [12]

Смотрите также

Примечания

  1. ^ Например, класс всех непрерывных распределений X на R с E ( X ) = 0 и E( X2 ) = E( X3 ) = 1 (см. обложку, гл. 12).

Цитаты

  1. ^ Уильямс, Д. (2001). Взвешивание шансов . Издательство Кембриджского университета . стр. 197–199. ISBN 0-521-00618-Х.
  2. ^ Бернардо, Дж. М.; Смит, AFM (2000). Байесовская теория . Уайли. стр. 209, 366. ISBN. 0-471-49464-Х.
  3. ^ О'Хаган, А. (1994), Байесовский вывод . Продвинутая теория статистики Кендалла. Том. 2Б. Эдвард Арнольд . раздел 5.40. ISBN 0-340-52922-9.
  4. ^ Ботев, З.И.; Крозе, Д.П. (2011). «Обобщенный метод перекрестной энтропии с применением к оценке плотности вероятности» (PDF) . Методология и вычисления в прикладной теории вероятности . 13 (1): 1–27. дои : 10.1007/s11009-009-9133-7. S2CID  18155189.
  5. ^ Ботев, З.И.; Крозе, Д.П. (2008). «Неасимптотический выбор полосы пропускания для оценки плотности дискретных данных». Методология и вычисления в прикладной теории вероятности . 10 (3): 435. doi :10.1007/s11009-007-9057-zv. S2CID  122047337.
  6. ^ abc Лисман, JHC; ван Зуйлен, MCA (1972). «Примечание о формировании наиболее вероятных распределений частот». Статистика Неерландики . 26 (1): 19–23. doi :10.1111/j.1467-9574.1972.tb00152.x.
  7. ^ Аб Пак, Сун Ю.; Бера, Анил К. (2009). «Модель условной гетероскедастичности авторегрессии с максимальной энтропией» (PDF) . Журнал эконометрики . 150 (2): 219–230. CiteSeerX 10.1.1.511.9750 . doi :10.1016/j.jeconom.2008.12.014. Архивировано из оригинала (PDF) 7 марта 2016 г. Проверено 2 июня 2011 г. 
  8. ^ Доусон, Д.; Рэгг, А. (сентябрь 1973 г.). «Распределения максимальной энтропии с заданными первым и вторым моментами». Транзакции IEEE по теории информации (переписка). 19 (5): 689–693. дои : 10.1109/тит.1973.1055060. ISSN  0018-9448.
  9. ^ аб Джаммаламадака, С. Рао; СенГупта, А. (2001). Темы круговой статистики. Нью-Джерси: World Scientific. ISBN 978-981-02-3778-3. Проверено 15 мая 2011 г.
  10. ^ аб Гречук, Богдан; Молыбоха, Антон; Забаранкин, Михаил (2009). «Принцип максимальной энтропии с общими мерами отклонения». Математика исследования операций . 34 (2): 445–467. doi : 10.1287/moor.1090.0377 – через Researchgate.net.
  11. ^ аб Харремос, Питер (2001). «Биномиальное распределение и распределение Пуассона как распределение максимальной энтропии». Транзакции IEEE по теории информации . 47 (5): 2039–2041. дои : 10.1109/18.930936. S2CID  16171405.
  12. ^ Нильсен, Фрэнк; Нок, Ричард (2017). «Верхние оценки MaxEnt для дифференциальной энтропии одномерных непрерывных распределений». Письма об обработке сигналов IEEE . ИИЭЭ . 24 (4): 402–406. Бибкод : 2017ISPL...24..402N. дои :10.1109/LSP.2017.2666792. S2CID  14092514.

Рекомендации