stringtranslate.com

Принцип максимальной энтропии

Принцип максимальной энтропии гласит, что распределение вероятностей , которое лучше всего представляет текущее состояние знаний о системе, имеет наибольшую энтропию в контексте точно установленных априорных данных (например, предложения , выражающего проверяемую информацию).

Другой способ выразить это: возьмите точно установленные априорные данные или проверяемую информацию о функции распределения вероятностей. Рассмотрим набор всех пробных вероятностных распределений, которые будут кодировать априорные данные. Согласно этому принципу, распределение с максимальной информационной энтропией является лучшим выбором.

История

Этот принцип был впервые изложен Э. Т. Джейнсом в двух статьях 1957 года [1] [2] , где он подчеркнул естественное соответствие между статистической механикой и теорией информации . В частности, Джейнс предложил новое и очень общее объяснение того, почему работает гиббсовский метод статистической механики. Он утверждал, что энтропия статистической механики и информационная энтропия теории информации — это, по сути, одно и то же. Следовательно, статистическую механику следует рассматривать просто как частное применение общего инструмента логического вывода и теории информации.

Обзор

В большинстве практических случаев заявленные априорные данные или проверяемая информация представляют собой набор сохраняющихся величин (средние значения некоторых моментных функций), связанных с рассматриваемым распределением вероятностей . Именно так принцип максимальной энтропии чаще всего используется в статистической термодинамике . Другая возможность — прописать некоторые симметрии распределения вероятностей. Эквивалентность между сохраняющимися величинами и соответствующими группами симметрии подразумевает аналогичную эквивалентность этих двух способов задания проверяемой информации в методе максимальной энтропии.

Принцип максимальной энтропии необходим также для того, чтобы гарантировать уникальность и непротиворечивость вероятностных присвоений, полученных различными методами, в частности статистической механикой и логическим выводом .

Принцип максимальной энтропии ясно демонстрирует нашу свободу в использовании различных форм априорных данных . В качестве частного случая может быть принята равномерная априорная плотность вероятности ( принцип безразличия Лапласа , иногда называемый принципом недостаточного основания). Таким образом, принцип максимальной энтропии — это не просто альтернативный взгляд на обычные методы вывода классической статистики, но и значительное концептуальное обобщение этих методов.

Однако эти утверждения не означают, что термодинамические системы не должны быть эргодичными, чтобы оправдать рассмотрение их как статистического ансамбля .

Говоря обычным языком, можно сказать, что принцип максимальной энтропии выражает требование эпистемической скромности или максимального невежества. Выбранное распределение — это то, которое меньше всего претендует на информированность, выходящее за рамки установленных априорных данных, то есть то, которое допускает наибольшее невежество, выходящее за рамки установленных априорных данных.

Проверяемая информация

Принцип максимальной энтропии полезен только тогда, когда применяется к проверяемой информации . Тестируемая информация — это утверждение о распределении вероятностей, истинность или ложность которого четко определена. Например, утверждения

математическое ожидание переменной равно 2,87

и

(где и – вероятности событий) представляют собой утверждения проверяемой информации.

При наличии проверяемой информации процедура максимальной энтропии состоит в поиске распределения вероятностей , которое максимизирует информационную энтропию с учетом ограничений информации. Эта задача ограниченной оптимизации обычно решается с использованием метода множителей Лагранжа . [3]

Максимизация энтропии без проверяемой информации учитывает универсальное «ограничение», заключающееся в том, что сумма вероятностей равна единице. При этом ограничении дискретное распределение вероятностей максимальной энтропии является равномерным распределением ,

Приложения

Принцип максимальной энтропии обычно применяется к задачам вывода двумя способами:

Априорные вероятности

Принцип максимальной энтропии часто используется для получения априорных распределений вероятностей для байесовского вывода . Джейнс был ярым сторонником этого подхода, утверждая, что максимальное распределение энтропии представляет собой наименее информативное распределение. [4] Большое количество литературы в настоящее время посвящено выявлению априорных значений максимальной энтропии и связей с канальным кодированием . [5] [6] [7] [8]

Апостериорные вероятности

Максимальная энтропия является достаточным правилом обновления радикального вероятностного подхода . Вероятностная кинематика Ричарда Джеффри представляет собой частный случай вывода о максимальной энтропии. Однако максимальная энтропия не является обобщением всех таких достаточных правил обновления. [9]

Модели максимальной энтропии

В качестве альтернативы этот принцип часто применяется для спецификации модели: в этом случае сами наблюдаемые данные считаются проверяемой информацией. Такие модели широко используются при обработке естественного языка . Примером такой модели является логистическая регрессия , которая соответствует классификатору максимальной энтропии для независимых наблюдений.

Оценка плотности вероятности

Одним из основных применений принципа максимальной энтропии является дискретная и непрерывная оценка плотности . [10] [11] Подобно машинным оценкам опорных векторов , принцип максимальной энтропии может потребовать решения задачи квадратичного программирования и, таким образом, обеспечить модель разреженной смеси в качестве оптимального средства оценки плотности. Одним из важных преимуществ метода является его способность включать априорную информацию в оценку плотности. [12]

Общее решение для распределения максимальной энтропии с линейными ограничениями

Дискретный случай

У нас есть некоторая проверяемая информация I о величине x , принимающей значения в { x 1 , x 2 ,..., x n }. Мы предполагаем , что эта информация имеет вид m ограничений на математические ожидания функций fk ; то есть мы требуем, чтобы наше распределение вероятностей удовлетворяло ограничениям моментного неравенства/равенства:

где являются наблюдаемыми. Мы также требуем, чтобы плотность вероятности в сумме равнялась единице, что можно рассматривать как примитивное ограничение на тождественную функцию и наблюдаемую величину, равную 1, дающую ограничение

Распределение вероятностей с максимальной информационной энтропией с учетом этих ограничений неравенства/равенства имеет вид: [10]

для некоторых . Его иногда называют распределением Гиббса . Константа нормализации определяется:

и условно называется статистической суммой . ( Теорема Питмана-Купмана утверждает, что необходимым и достаточным условием для того, чтобы выборочное распределение допускало достаточную статистику ограниченной размерности, является то, что оно имеет общую форму распределения максимальной энтропии.)

Параметры λ k представляют собой множители Лагранжа. В случае ограничений-равенств их значения определяются из решения нелинейных уравнений

В случае ограничений-неравенств множители Лагранжа определяются из решения программы выпуклой оптимизации с линейными ограничениями. [10] В обоих случаях нет решения в замкнутой форме , и вычисление множителей Лагранжа обычно требует численных методов .

Непрерывный случай

Для непрерывных распределений энтропию Шеннона нельзя использовать, поскольку она определена только для дискретных вероятностных пространств. Вместо этого Эдвин Джейнс (1963, 1968, 2003) дал следующую формулу, которая тесно связана с относительной энтропией (см. также дифференциальную энтропию ).

где q ( x ), которую Джейнс назвал «инвариантной мерой», пропорционально предельной плотности дискретных точек . Пока мы будем предполагать, что q известно; мы обсудим это дальше после того, как будут приведены уравнения решения.

Близко связанная величина , относительная энтропия, обычно определяется как отклонение Кульбака-Лейблера p от q (хотя иногда ее, что сбивает с толку, определяют как отрицательное значение этого показателя). Принцип вывода о минимизации этого, согласно Кульбаку, известен как принцип минимальной дискриминационной информации .

У нас есть некоторая проверяемая информация I о величине x , которая принимает значения в некотором интервале действительных чисел (все нижеприведенные интегралы лежат в этом интервале). Мы предполагаем, что эта информация имеет форму m ограничений на ожидания функций f k , т.е. мы требуем, чтобы наша функция плотности вероятности удовлетворяла ограничениям момента неравенства (или чисто равенства):

где являются наблюдаемыми. Мы также требуем, чтобы плотность вероятности интегрировалась до единицы, что можно рассматривать как примитивное ограничение на тождественную функцию и наблюдаемую, равную 1, дающую ограничение

Функция плотности вероятности с максимальным H c с учетом этих ограничений равна: [11]

со статистической суммой , определяемой

Как и в дискретном случае, в случае, когда все моментные ограничения равны, значения параметров определяются системой нелинейных уравнений:

В случае с моментными ограничениями неравенства множители Лагранжа определяются из решения программы выпуклой оптимизации . [11]

Инвариантную функцию меры q ( x ) можно лучше всего понять, предположив, что известно, что x принимает значения только в ограниченном интервале ( a , b ), и что никакой другой информации не дано. Тогда максимальная энтропийная функция плотности вероятности равна

где A — константа нормировки. Функция инвариантной меры на самом деле является функцией априорной плотности, кодирующей «отсутствие соответствующей информации». Она не может быть определена принципом максимальной энтропии и должна определяться каким-либо другим логическим методом, таким как принцип групп преобразований или теория маргинализации .

Примеры

Несколько примеров распределений максимальной энтропии см. в статье о распределениях вероятностей максимальной энтропии .

Обоснования принципа максимальной энтропии

Сторонники принципа максимальной энтропии оправдывают его использование при назначении вероятностей несколькими способами, включая следующие два аргумента. Эти аргументы принимают использование байесовской вероятности как данность и, таким образом, подчиняются одним и тем же постулатам.

Информационная энтропия как мера «неинформативности»

Рассмотрим дискретное распределение вероятностей среди взаимоисключающих предложений . Наиболее информативное распределение имело место, когда было известно, что одно из утверждений истинно. В этом случае информационная энтропия будет равна нулю. Наименее информативное распределение будет иметь место, когда нет причин отдавать предпочтение одному из предложений перед другими. В этом случае единственное разумное распределение вероятностей было бы равномерным, и тогда информационная энтропия была бы равна максимально возможному значению . Таким образом, информационную энтропию можно рассматривать как числовую меру, которая описывает, насколько неинформативно конкретное распределение вероятностей, в диапазоне от нуля (полностью информативно) до (совершенно неинформативно).

Утверждается, что, выбирая распределение с максимальной энтропией, допускаемой нашей информацией, мы выбираем наиболее неинформативное возможное распределение. Выбрать распределение с более низкой энтропией означало бы предположить наличие информации, которой мы не обладаем. Таким образом, максимальное распределение энтропии является единственным разумным распределением. Однако зависимость решения от доминирующей меры, представленной , является источником критики подхода, поскольку эта доминирующая мера на самом деле произвольна. [13]

Вывод Уоллиса

Следующий аргумент является результатом предложения, сделанного Грэмом Уоллисом Э. Т. Джейнсу в 1962 году. [14] По сути, это тот же математический аргумент, который использовался для статистики Максвелла-Больцмана в статистической механике , хотя концептуальный акцент совершенно иной. Его преимущество состоит в том, что он носит строго комбинаторный характер и не содержит ссылок на информационную энтропию как меру «неопределенности», «неинформативности» или любого другого неточно определенного понятия. Функция информационной энтропии не предполагается априори , а находится в ходе рассуждения; и этот аргумент естественным образом ведет к процедуре максимизации информационной энтропии, а не к ее трактовке каким-то другим способом.

Предположим, человек желает сделать вероятностное распределение между взаимоисключающими предложениями. У него есть некоторая поддающаяся проверке информация, но он не знает, как включить эту информацию в свою оценку вероятности. Поэтому он задумал следующий случайный эксперимент. Он будет случайным образом распределять кванты вероятности (каждый стоимостью ) среди возможностей. (Можно представить, что он будет бросать мячи в ведра с завязанными глазами. Чтобы быть максимально честным, каждый бросок должен быть независимым от любого другого, и каждое ведро должно быть одинакового размера.) После завершения эксперимента он проверит, соответствует ли полученное таким образом распределение вероятностей его информации. (Чтобы этот шаг был успешным, информация должна быть ограничением, заданным открытым множеством в пространстве вероятностных мер). Если оно противоречиво, он отклонит его и попробует еще раз. Если оно соответствует, его оценка будет

где — вероятность го предложения, а n i — количество квантов, которые были присвоены му предложению (т. е. количество шаров, попавших в ведро ).

Теперь, чтобы уменьшить «зернистость» распределения вероятностей, необходимо будет использовать достаточно большое количество квантов вероятности. Вместо того, чтобы фактически провести и, возможно, повторить довольно длинный случайный эксперимент, главный герой решает просто вычислить и использовать наиболее вероятный результат. Вероятность любого конкретного результата представляет собой полиномиальное распределение ,

где

иногда называют множественностью исхода.

Наиболее вероятным результатом является тот, который максимизирует кратность . Вместо прямой максимизации главный герой мог бы эквивалентно максимизировать любую монотонно возрастающую функцию от . Он решает максимизировать

На этом этапе, чтобы упростить выражение, главный герой принимает предел как , т.е. когда уровни вероятности переходят от зернистых дискретных значений к сглаженным непрерывным значениям. Используя приближение Стирлинга , он находит

Все, что остается сделать главному герою, — это максимизировать энтропию в условиях ограничений его проверяемой информации. Он обнаружил, что максимальное распределение энтропии является наиболее вероятным из всех «справедливых» случайных распределений в том пределе, когда уровни вероятности переходят от дискретных к непрерывным.

Совместимость с теоремой Байеса

Гиффин и Катича (2007) заявляют, что теорема Байеса и принцип максимальной энтропии полностью совместимы и могут рассматриваться как частные случаи «метода максимальной относительной энтропии». Они заявляют, что этот метод воспроизводит все аспекты ортодоксальных байесовских методов вывода. Кроме того, этот новый метод открывает возможности для решения проблем, которые невозможно решить ни с помощью принципа максимальной энтропии, ни с помощью ортодоксальных байесовских методов по отдельности. Более того, недавние работы (Lazar 2003 и Schennach 2005) показывают, что частотные подходы к выводу, основанные на относительной энтропии (такие как эмпирическое правдоподобие и экспоненциально наклоненное эмпирическое правдоподобие – см., например, Owen 2001 и Kitamura 2006), могут быть объединены с априорной информацией для выполнения байесовского метода. задний анализ.

Джейнс заявил, что теорема Байеса — это способ расчета вероятности, а максимальная энтропия — это способ назначить априорное распределение вероятностей. [15]

Однако теоретически возможно найти апостериорное распределение непосредственно на основе установленного априорного распределения, используя принцип минимальной перекрестной энтропии (или принцип максимальной энтропии, являющийся особым случаем использования равномерного распределения в качестве заданного априорного), независимо любых байесовских соображений, рассматривая проблему формально как задачу оптимизации с ограничениями, при этом функционал энтропии является целевой функцией. Для случая данных средних значений в качестве проверяемой информации (усредненных по искомому распределению вероятностей), искомое распределение формально является распределением Гиббса (или Больцмана) , параметры которого необходимо решить, чтобы достичь минимальной перекрестной энтропии и удовлетворить предоставленную проверяемую информацию.

Соответствие физике

Принцип максимальной энтропии имеет отношение к ключевому предположению кинетической теории газов, известному как молекулярный хаос или Stosszahlansatz . Это утверждает, что функция распределения, характеризующая частицы, вступающие в столкновение, может быть факторизована. Хотя это утверждение можно понимать как строго физическую гипотезу, его также можно интерпретировать как эвристическую гипотезу относительно наиболее вероятной конфигурации частиц перед столкновением. [16]

Смотрите также

Примечания

  1. ^ Джейнс, ET (1957). «Теория информации и статистическая механика» (PDF) . Физический обзор . Серия II. 106 (4): 620–630. Бибкод : 1957PhRv..106..620J. doi : 10.1103/PhysRev.106.620. МР  0087305.
  2. ^ Джейнс, ET (1957). «Теория информации и статистическая механика II» (PDF) . Физический обзор . Серия II. 108 (2): 171–190. Бибкод : 1957PhRv..108..171J. дои : 10.1103/PhysRev.108.171. МР  0096414.
  3. ^ Сивия, Девиндерджит; Скиллинг, Джон (2 июня 2006 г.). Анализ данных: байесовский учебник. ОУП Оксфорд. ISBN 978-0-19-154670-9.
  4. ^ Джейнс, ET (1968). «Априорные вероятности» (PDF или PostScript) . Транзакции IEEE по системным наукам и кибернетике . 4 (3): 227–241. дои : 10.1109/TSSC.1968.300117. {{cite journal}}: Внешняя ссылка |format=( помощь )
  5. ^ Кларк, Б. (2006). «Информационная оптимальность и байесовское моделирование». Журнал эконометрики . 138 (2): 405–429. doi :10.1016/j.jeconom.2006.05.003.
  6. ^ Суфи, ES (2000). «Основные теоретические подходы к информации». Журнал Американской статистической ассоциации . 95 (452): 1349–1353. дои : 10.2307/2669786. JSTOR  2669786. MR  1825292.
  7. ^ Буске, Н. (2008). «Выявление расплывчатых, но правильных априорных значений максимальной энтропии в байесовских экспериментах». Статистические документы . 51 (3): 613–628. дои : 10.1007/s00362-008-0149-9. S2CID  119657859.
  8. ^ Пальмиери, Франческо АН; Чуонзо, Доменико (01 апреля 2013 г.). «Объективные априоры максимальной энтропии в классификации данных». Информационный синтез . 14 (2): 186–198. CiteSeerX 10.1.1.387.4515 . doi :10.1016/j.inffus.2012.01.012. 
  9. ^ Скирмс, Б (1987). «Обновление, предположение и MAXENT». Теория и решение . 22 (3): 225–46. дои : 10.1007/BF00134086. S2CID  121847242.
  10. ^ abc Ботев, З.И.; Крозе, Д.П. (2008). «Неасимптотический выбор полосы пропускания для оценки плотности дискретных данных». Методология и вычисления в прикладной теории вероятности . 10 (3): 435. doi : 10.1007/s11009-007-9057-z. S2CID  122047337.
  11. ^ abc Ботев, З.И.; Крозе, Д.П. (2011). «Обобщенный метод перекрестной энтропии с применением к оценке плотности вероятности» (PDF) . Методология и вычисления в прикладной теории вероятности . 13 (1): 1–27. дои : 10.1007/s11009-009-9133-7. S2CID  18155189.
  12. ^ Кесаван, Гонконг; Капур, Дж. Н. (1990). «Принципы максимальной энтропии и минимальной перекрестной энтропии». В Фужере, П.Ф. (ред.). Максимальная энтропия и байесовские методы . стр. 419–432. дои : 10.1007/978-94-009-0683-9_29. ISBN 978-94-010-6792-8.
  13. ^ Дрюиле, Пьер; Марин, Жан-Мишель (2007). «Инвариантные достоверные множества {HPD} и оценки {MAP}». Байесовский анал . 2 : 681–691. дои : 10.1214/07-BA227 .
  14. ^ Джейнс, ET (2003) Теория вероятностей: логика науки , Cambridge University Press, стр. 351-355. ISBN 978-0521592710 
  15. ^ Джейнс, ET (1988) «Взаимосвязь байесовских методов и методов максимальной энтропии», в книге « Максимальная энтропия и байесовские методы в науке и технике» (том 1) , Kluwer Academic Publishers, стр. 1988. 25-29.
  16. ^ Хлямович, Г.; Маласпинас, О.; Шопард, Б. (2017). «Кинетическая теория за пределами Stosszahlansatz». Энтропия . 19 (8): 381. Бибкод : 2017Entrp..19..381C. дои : 10.3390/e19080381 .

Рекомендации

дальнейшее чтение