Распределение вероятностей, имеющее наибольшую энтропию в классе
В статистике и теории информации распределение вероятности с максимальной энтропией имеет энтропию , которая по крайней мере так же велика, как и у всех других членов указанного класса распределений вероятности . Согласно принципу максимальной энтропии , если о распределении ничего не известно, кроме того, что оно принадлежит определенному классу (обычно определяемому в терминах указанных свойств или мер), то распределение с наибольшей энтропией должно быть выбрано как наименее информативное по умолчанию. Мотивация двоякая: во-первых, максимизация энтропии минимизирует объем предварительной информации, встроенной в распределение; во-вторых, многие физические системы имеют тенденцию двигаться к конфигурациям с максимальной энтропией с течением времени.
Определение энтропии и дифференциальной энтропии
Если — непрерывная случайная величина с плотностью вероятности , то дифференциальная энтропия определяется как [1] [2] [3]
Если — дискретная случайная величина с распределением, заданным формулой
тогда энтропия определяется как
Кажущийся расходящимся член заменяется нулем всякий раз, когда
Это частный случай более общих форм, описанных в статьях Энтропия (теория информации) , Принцип максимальной энтропии и Дифференциальная энтропия. В связи с распределениями максимальной энтропии это единственное, что нужно, поскольку максимизация также максимизирует более общие формы.
Основание логарифма не имеет значения, пока оно используется последовательно: изменение основания просто приводит к изменению масштаба энтропии. Теоретики информации могут предпочесть использовать основание 2, чтобы выразить энтропию в битах ; математики и физики часто предпочитают натуральный логарифм , что приводит к единице измерения энтропии «нат» .
Однако выбранная мера имеет решающее значение, хотя типичное использование меры Лебега часто защищается как «естественный» выбор: выбранная мера определяет энтропию и последующее распределение максимальной энтропии.
Распределения с измеренными константами
Многие статистические распределения, представляющие интерес, являются теми, для которых моменты или другие измеримые величины ограничены константами. Следующая теорема Людвига Больцмана дает форму плотности вероятности при этих ограничениях.
Непрерывный случай
Предположим, что представляет собой непрерывное замкнутое подмножество действительных чисел , и мы решили указать измеримые функции и числа. Мы рассматриваем класс всех действительных случайных величин, которые поддерживаются на (т.е. чья функция плотности равна нулю вне ) и которые удовлетворяют условиям моментов:
Если существует член , функция плотности которого положительна всюду в , и если существует максимальное распределение энтропии для , то его плотность вероятности имеет следующий вид:
где мы предполагаем, что константа и множители Лагранжа решают задачу ограниченной оптимизации с (что гарантирует, что интегрируется до единицы): [4]
Используя условия Каруша–Куна–Таккера , можно показать, что задача оптимизации имеет единственное решение, поскольку целевая функция в оптимизации вогнута
Обратите внимание, что когда ограничения моментов являются равенствами (а не неравенствами), то есть,
тогда условие ограничения можно опустить, что делает оптимизацию по множителям Лагранжа неограниченной.
Дискретный случай
Предположим, что есть (конечное или бесконечное) дискретное подмножество действительных чисел, и что мы решили указать функции и числа. Мы рассматриваем класс всех дискретных случайных величин , которые поддерживаются на и которые удовлетворяют условиям момента
Если существует член класса , который присваивает положительную вероятность всем членам , и если существует распределение максимальной энтропии для , то это распределение имеет следующую форму:
где мы предполагаем, что и константы решают задачу ограниченной оптимизации с [5]
Опять же, как и выше, если условия моментов являются равенствами (а не неравенствами), то условие ограничения отсутствует в оптимизации.
Доказательство в случае ограничений равенства
В случае ограничений типа равенства эта теорема доказывается с помощью вариационного исчисления и множителей Лагранжа . Ограничения можно записать как
Мы рассматриваем функционал
где и — множители Лагранжа. Нулевое ограничение обеспечивает вторую аксиому вероятности . Другие ограничения состоят в том, что измерения функции заданы константами до порядка . Энтропия достигает экстремума, когда функциональная производная равна нулю:
Следовательно, распределение вероятностей экстремальной энтропии в этом случае должно иметь вид ( ),
помня, что . Можно проверить, что это максимальное решение, проверив, что вариация вокруг этого решения всегда отрицательна.
Уникальность максимума
Предположим, что есть распределения, удовлетворяющие ожидаемым ограничениям. Позволяя и рассматривая распределение, становится ясно, что это распределение удовлетворяет ожидаемым ограничениям и, кроме того, имеет поддержку Из основных фактов об энтропии следует, что Принимая пределы и соответственно, получаем
Из этого следует, что распределение, удовлетворяющее ограничениям на ожидание и максимизирующее энтропию, обязательно должно иметь полную поддержку — т. е. распределение почти всюду строго положительно. Из этого следует, что максимизирующее распределение должно быть внутренней точкой в пространстве распределений, удовлетворяющих ограничениям на ожидание, т. е. оно должно быть локальным экстремумом. Таким образом, достаточно показать, что локальный экстремум уникален, чтобы показать и то, что распределение, максимизирующее энтропию, уникально (и это также показывает, что локальный экстремум является глобальным максимумом).
Предположим, что являются локальными экстремумами. Переформулируя приведенные выше вычисления, они характеризуются параметрами через и аналогично для где Теперь отметим ряд тождеств: Через 1удовлетворение ограничений ожидания и использование градиентов / производных по направлению, можно получить
и аналогично для Letting получаем:
где для некоторых вычислений далее есть
где аналогично распределению выше, только параметризовано Предполагая , что никакая нетривиальная линейная комбинация наблюдаемых не является почти всюду (ae) постоянной (что, например, справедливо, если наблюдаемые независимы и не ae постоянной), справедливо, что имеет ненулевую дисперсию, если только Из приведенного выше уравнения ясно, что последнее должно иметь место. Следовательно , параметры, характеризующие локальные экстремумы, идентичны, что означает, что сами распределения идентичны. Таким образом, локальный экстремум уникален, и согласно вышеизложенному обсуждению максимум уникален — при условии, что локальный экстремум действительно существует.
Предостережения
Обратите внимание, что не все классы распределений содержат распределение максимальной энтропии. Возможно, что класс содержит распределения произвольно большой энтропии (например, класс всех непрерывных распределений на R со средним значением 0, но произвольным стандартным отклонением), или что энтропии ограничены сверху, но нет распределения, которое достигает максимальной энтропии. [a] Также возможно, что ограничения ожидаемого значения для класса C заставляют распределение вероятностей быть равным нулю в определенных подмножествах S . В этом случае наша теорема неприменима, но это можно обойти, сжав множество S .
Примеры
Каждое распределение вероятностей тривиально является распределением вероятностей с максимальной энтропией при ограничении, что распределение имеет свою собственную энтропию. Чтобы увидеть это, перепишите плотность как и сравните с выражением теоремы выше. Выбрав быть измеримой функцией и
быть константой, является распределением вероятности максимальной энтропии при ограничении
- .
Нетривиальными примерами являются распределения, которые подчиняются множественным ограничениям, отличным от назначения энтропии. Их часто находят, начиная с той же процедуры и находя, что можно разделить на части.
Таблица примеров распределений максимальной энтропии приведена в работах Лисмана (1972) [6] и Парка и Беры (2009). [7]
Равномерные и кусочно-равномерные распределения
Равномерное распределение на интервале [ a , b ] является максимальным распределением энтропии среди всех непрерывных распределений, которые поддерживаются в интервале [ a , b ], и, таким образом, плотность вероятности равна 0 за пределами интервала. Эта равномерная плотность может быть связана с принципом безразличия Лапласа , иногда называемым принципом недостаточной причины. В более общем смысле, если нам дано подразделение a = a 0 < a 1 < ... < a k = b интервала [ a , b ] и вероятности p 1 ,..., p k , которые в сумме дают единицу, то мы можем рассмотреть класс всех непрерывных распределений, таких что
Плотность распределения максимальной энтропии для этого класса постоянна на каждом из интервалов [ a j -1 , a j ). Равномерное распределение на конечном множестве { x 1 ,..., x n } (которое присваивает вероятность 1/ n каждому из этих значений) является распределением максимальной энтропии среди всех дискретных распределений, поддерживаемых на этом множестве.
Положительное и указанное среднее: экспоненциальное распределение
Экспоненциальное распределение , для которого функция плотности равна
— это максимальное распределение энтропии среди всех непрерывных распределений, поддерживаемых в [0,∞), имеющих заданное среднее значение 1/λ.
В случае распределений, поддерживаемых на [0,∞), максимальное распределение энтропии зависит от соотношений между первым и вторым моментами. В конкретных случаях это может быть экспоненциальное распределение, или может быть другое распределение, или может быть неопределяемым. [8]
Указанное среднее значение и дисперсия: нормальное распределение
Нормальное распределение N(μ,σ 2 ), для которого функция плотности равна
имеет максимальную энтропию среди всех вещественных -распределений, поддерживаемых на (−∞,∞) с указанной дисперсией σ 2 (конкретный момент ). То же самое верно, когда указаны среднее μ и дисперсия σ 2 (первые два момента), поскольку энтропия инвариантна относительно трансляции на (−∞,∞). Следовательно, предположение о нормальности накладывает минимальное предварительное структурное ограничение за пределами этих моментов. (См. статью о дифференциальной энтропии для вывода.)
Дискретные распределения с заданным средним значением
Среди всех дискретных распределений, поддерживаемых на множестве { x 1 ,..., x n } с заданным средним μ, распределение максимальной энтропии имеет следующую форму:
где положительные константы C и r могут быть определены из требований, что сумма всех вероятностей должна быть равна 1, а ожидаемое значение должно быть равно μ.
Например, если брошено большое количество игральных костей N , и вам говорят, что сумма всех выпавших чисел равна S. Исходя только из этой информации, какое разумное предположение будет для количества игральных костей, показывающих 1, 2, ..., 6? Это пример ситуации, рассмотренной выше, с { x 1 ,..., x 6 } = {1,...,6} и μ = S / N .
Наконец, среди всех дискретных распределений, поддерживаемых на бесконечном множестве со средним μ, распределение максимальной энтропии имеет вид:
где снова константы C и r были определены требованиями, что сумма всех вероятностей должна быть 1, а ожидаемое значение должно быть μ. Например, в случае, когда x k = k , это дает
таким образом, что соответствующее максимальное распределение энтропии является геометрическим распределением .
Круговые случайные величины
Для непрерывной случайной величины, распределенной по единичной окружности, распределение фон Мизеса максимизирует энтропию, когда указаны действительная и мнимая части первого кругового момента [9] или, что эквивалентно, указаны круговое среднее и круговая дисперсия .
Когда указаны среднее значение и дисперсия углов по модулю , обернутое нормальное распределение максимизирует энтропию. [9]
Максимизатор для указанного среднего значения, дисперсии и перекоса
Существует верхняя граница энтропии непрерывных случайных величин на с заданным средним значением, дисперсией и перекосом. Однако не существует распределения, которое достигает этой верхней границы , поскольку является неограниченным, когда (см. Cover & Thomas (2006: глава 12)).
Однако максимальная энтропия ε -достижима: энтропия распределения может быть сколь угодно близка к верхней границе. Начните с нормального распределения с заданным средним значением и дисперсией. Чтобы ввести положительный перекос, возмущение нормального распределения вверх на небольшую величину на значение, во много раз большее σ, чем среднее значение. Перекос, будучи пропорциональным третьему моменту, будет затронут больше, чем моменты низшего порядка.
Это частный случай общего случая, в котором экспонента любого нечетного полинома по x будет неограниченной на . Например, также будет неограниченной на , но когда носитель ограничен ограниченным или полуограниченным интервалом, может быть достигнута верхняя граница энтропии (например, если x лежит в интервале [0,∞] и λ< 0 , результатом будет экспоненциальное распределение ).
Максимизатор для заданного среднего значения и отклонения меры риска
Каждое распределение с логарифмически вогнутой плотностью является распределением максимальной энтропии с заданным средним значением μ и мерой риска отклонения D. [10 ]
В частности, максимальное распределение энтропии с заданным средним значением и отклонением равно:
- Нормальное распределение, если — это стандартное отклонение ;
- Распределение Лапласа , если — среднее абсолютное отклонение ; [6]
- Распределение с плотностью вида , если — это стандартное нижнее полуотклонение, где — константы, а функция возвращает только отрицательные значения своего аргумента, в противном случае — ноль. [10]
Другие примеры
В таблице ниже каждое перечисленное распределение максимизирует энтропию для определенного набора функциональных ограничений, перечисленных в третьем столбце, и ограничения, которое должно быть включено в поддержку плотности вероятности, перечисленной в четвертом столбце. [6] [7]
Несколько перечисленных примеров ( Бернулли , геометрический , экспоненциальный , Лаплас , Парето ) тривиально верны, поскольку их связанные ограничения эквивалентны назначению их энтропии. Они включены в любом случае, поскольку их ограничение связано с общей или легко измеряемой величиной.
Для справки, — гамма-функция , — дигамма-функция , — бета-функция , — константа Эйлера-Маскерони .
Принцип максимальной энтропии может быть использован для верхней границы энтропии статистических смесей. [12]
Смотрите также
Примечания
- ^ Например, класс всех непрерывных распределений X на R с E( X ) = 0 и E( X 2 ) = E( X 3 ) = 1 (см. обложку, гл. 12).
Цитаты
- ^ Уильямс, Д. (2001). Взвешивание шансов . Cambridge University Press . С. 197–199. ISBN 0-521-00618-X.
- ^ Бернардо, Дж. М.; Смит, А. Ф. М. (2000). Байесовская теория . Wiley. стр. 209, 366. ISBN 0-471-49464-X.
- ^ О'Хаган, А. (1994), Байесовский вывод . Расширенная теория статистики Кендалла. Том 2B. Эдвард Арнольд . Раздел 5.40. ISBN 0-340-52922-9.
- ^ Ботев, З.И.; Крезе, Д.П. (2011). «Обобщенный метод кросс-энтропии с приложениями к оценке плотности вероятности» (PDF) . Методология и вычисления в прикладной теории вероятностей . 13 (1): 1–27. doi :10.1007/s11009-009-9133-7. S2CID 18155189.
- ^ Ботев, З.И.; Крезе, Д.П. (2008). «Неасимптотический выбор полосы пропускания для оценки плотности дискретных данных». Методология и вычисления в прикладной теории вероятностей . 10 (3): 435. doi :10.1007/s11009-007-9057-zv. S2CID 122047337.
- ^ abc Lisman, JHC; van Zuylen, MCA (1972). «Заметка о генерации наиболее вероятных распределений частот». Statistica Neerlandica . 26 (1): 19–23. doi :10.1111/j.1467-9574.1972.tb00152.x.
- ^ ab Park, Sung Y.; Bera, Anil K. (2009). "Модель условной гетероскедастичности с максимальной энтропией" (PDF) . Journal of Econometrics . 150 (2): 219–230. CiteSeerX 10.1.1.511.9750 . doi :10.1016/j.jeconom.2008.12.014. Архивировано из оригинала (PDF) 2016-03-07 . Получено 2011-06-02 .
- ^ Доусон, Д.; Рэгг, А. (сентябрь 1973 г.). «Распределения с максимальной энтропией, имеющие заданные первые и вторые моменты». Труды IEEE по теории информации (переписка). 19 (5): 689–693. doi :10.1109/tit.1973.1055060. ISSN 0018-9448.
- ^ ab Jammalamadaka, S. Rao; SenGupta, A. (2001). Темы в круговой статистике. Нью-Джерси: World Scientific. ISBN 978-981-02-3778-3. Получено 15.05.2011 .
- ^ ab Гречук, Богдан; Молибога, Антон; Забаранкин, Михаил (2009). «Принцип максимальной энтропии с общими мерами отклонения». Математика исследования операций . 34 (2): 445–467. doi :10.1287/moor.1090.0377 – через researchgate.net.
- ^ ab Harremös, Peter (2001). «Биномиальное и пуассоновское распределения как распределения с максимальной энтропией». IEEE Transactions on Information Theory . 47 (5): 2039–2041. doi :10.1109/18.930936. S2CID 16171405.
- ^ Нильсен, Франк; Нок, Ричард (2017). «Верхние границы MaxEnt для дифференциальной энтропии одномерных непрерывных распределений». IEEE Signal Processing Letters . 24 (4). IEEE : 402–406. Bibcode :2017ISPL...24..402N. doi :10.1109/LSP.2017.2666792. S2CID 14092514.
Ссылки
- Cover, TM ; Thomas, JA (2006). "Глава 12, Максимальная энтропия" (PDF) . Элементы теории информации (2-е изд.). Wiley. ISBN 978-0471241959.
- Ф. Нильсен, Р. Нок (2017), Верхние границы MaxEnt для дифференциальной энтропии одномерных непрерывных распределений , IEEE Signal Processing Letters, 24(4), 402–406
- IJ Taneja (2001), Обобщенные информационные меры и их применение . Глава 1
- Надер Эбрахими, Эхсан С. Суфи, Рефик Сойер (2008), «Многомерная идентификация максимальной энтропии, преобразование и зависимость», Журнал многомерного анализа 99: 1217–1231, doi :10.1016/j.jmva.2007.08.004