stringtranslate.com

Принцип максимальной энтропии

Принцип максимальной энтропии гласит, что распределение вероятностей , которое наилучшим образом отражает текущее состояние знаний о системе, — это распределение с наибольшей энтропией в контексте точно указанных априорных данных (например, предложения , выражающего проверяемую информацию).

Другой способ сформулировать это: Возьмите точно указанные априорные данные или проверяемую информацию о функции распределения вероятностей. Рассмотрим набор всех пробных распределений вероятностей, которые кодируют априорные данные. Согласно этому принципу, распределение с максимальной информационной энтропией является наилучшим выбором.

История

Этот принцип был впервые изложен ET Jaynes в двух статьях в 1957 году, [1] [2] , где он подчеркнул естественное соответствие между статистической механикой и теорией информации . В частности, Jaynes утверждал, что метод Гиббса в статистической механике является обоснованным, также утверждая, что энтропия статистической механики и информационная энтропия в теории информации являются одной и той же концепцией. Следовательно, статистическую механику следует рассматривать как частное применение общего инструмента логического вывода и теории информации.

Обзор

В большинстве практических случаев указанные априорные данные или проверяемая информация задаются набором сохраняющихся величин (средних значений некоторых моментных функций), связанных с рассматриваемым распределением вероятностей . Именно так принцип максимальной энтропии чаще всего используется в статистической термодинамике . Другая возможность состоит в том, чтобы задать некоторые симметрии распределения вероятностей. Эквивалентность между сохраняющимися величинами и соответствующими группами симметрии подразумевает аналогичную эквивалентность для этих двух способов указания проверяемой информации в методе максимальной энтропии.

Принцип максимальной энтропии также необходим для гарантии уникальности и согласованности вероятностных оценок, полученных различными методами, в частности статистической механикой и логическим выводом .

Принцип максимальной энтропии делает явной нашу свободу в использовании различных форм априорных данных . В качестве особого случая может быть принята равномерная априорная плотность вероятности ( принцип безразличия Лапласа , иногда называемый принципом недостаточной причины). Таким образом, принцип максимальной энтропии — это не просто альтернативный способ рассмотрения обычных методов вывода классической статистики, но и существенное концептуальное обобщение этих методов.

Однако эти утверждения не означают, что термодинамические системы не обязательно должны быть эргодическими, чтобы оправдать их рассмотрение как статистического ансамбля .

На обычном языке принцип максимальной энтропии можно назвать выражением притязания на эпистемическую скромность или на максимальное невежество. Выбранное распределение — это то, которое в наименьшей степени претендует на информированность за пределами указанных априорных данных, то есть то, которое допускает наибольшее невежество за пределами указанных априорных данных.

Проверяемая информация

Принцип максимальной энтропии полезен явно только при применении к проверяемой информации . Проверяемая информация — это утверждение о распределении вероятностей, истинность или ложность которого четко определена. Например, утверждения

ожидание переменной равно 2,87

и

(где и — вероятности событий) — это утверждения проверяемой информации.

При наличии проверяемой информации процедура максимальной энтропии состоит в поиске распределения вероятностей , которое максимизирует информационную энтропию , с учетом ограничений информации. Эта ограниченная задача оптимизации обычно решается с использованием метода множителей Лагранжа . [3]

Максимизация энтропии без проверяемой информации соблюдает универсальное «ограничение», что сумма вероятностей равна единице. При этом ограничении дискретное распределение вероятностей максимальной энтропии является равномерным распределением ,

Приложения

Принцип максимальной энтропии обычно применяется к проблемам вывода двумя способами:

Априорные вероятности

Принцип максимальной энтропии часто используется для получения априорных распределений вероятностей для байесовского вывода . Джейнс был ярым сторонником этого подхода, утверждая, что распределение максимальной энтропии представляет собой наименее информативное распределение. [4] Большое количество литературы в настоящее время посвящено выявлению априорных распределений максимальной энтропии и связям с канальным кодированием . [5] [6] [7] [8]

Апостериорные вероятности

Максимальная энтропия является достаточным правилом обновления для радикального пробабилизма . Кинематика вероятности Ричарда Джеффри является частным случаем вывода максимальной энтропии. Однако максимальная энтропия не является обобщением всех таких достаточных правил обновления. [9]

Модели максимальной энтропии

В качестве альтернативы, принцип часто используется для спецификации модели: в этом случае сами наблюдаемые данные предполагаются как проверяемая информация. Такие модели широко используются в обработке естественного языка . Примером такой модели является логистическая регрессия , которая соответствует классификатору максимальной энтропии для независимых наблюдений.

Оценка плотности вероятности

Одним из основных применений принципа максимальной энтропии является дискретная и непрерывная оценка плотности . [10] [11] Подобно оценкам опорных векторных машин , принцип максимальной энтропии может потребовать решения задачи квадратичного программирования и, таким образом, предоставить модель разреженной смеси в качестве оптимальной оценки плотности. Одним из важных преимуществ метода является его способность включать априорную информацию в оценку плотности. [12]

Общее решение для максимального распределения энтропии с линейными ограничениями

Дискретный случай

У нас есть некоторая проверяемая информация I о величине x, принимающей значения в { x 1 , x 2 ,..., x n }. Мы предполагаем, что эта информация имеет форму m ограничений на ожидания функций f k ; то есть, мы требуем, чтобы наше распределение вероятностей удовлетворяло ограничениям неравенства/равенства моментов:

где являются наблюдаемыми. Мы также требуем, чтобы плотность вероятности в сумме равнялась единице, что можно рассматривать как примитивное ограничение на функцию тождества и наблюдаемую, равную 1, дающую ограничение

Распределение вероятностей с максимальной информационной энтропией при соблюдении этих ограничений неравенства/равенства имеет вид: [10]

для некоторых . Иногда его называют распределением Гиббса . Константа нормализации определяется:

и традиционно называется функцией распределения . ( Теорема Питмана–Купмана утверждает, что необходимым и достаточным условием для того, чтобы выборочное распределение допускало достаточную статистику ограниченной размерности, является то, что оно имеет общую форму распределения максимальной энтропии.)

Параметры λ k являются множителями Лагранжа. В случае ограничений-равенств их значения определяются из решения нелинейных уравнений

В случае ограничений типа неравенства множители Лагранжа определяются из решения программы выпуклой оптимизации с линейными ограничениями. [10] В обоих случаях не существует решения в замкнутой форме , и вычисление множителей Лагранжа обычно требует численных методов .

Непрерывный случай

Для непрерывных распределений энтропия Шеннона не может быть использована, так как она определена только для дискретных вероятностных пространств. Вместо этого Эдвин Джейнс (1963, 1968, 2003) дал следующую формулу, которая тесно связана с относительной энтропией (см. также дифференциальная энтропия ).

где q ( x ), которую Джейнс назвал «инвариантной мерой», пропорциональна предельной плотности дискретных точек . На данный момент мы предположим, что q известно; мы обсудим это подробнее после того, как будут даны уравнения решения.

Близкая по смыслу величина, относительная энтропия, обычно определяется как расхождение Кульбака–Лейблера p от q (хотя иногда, что сбивает с толку, определяется как отрицательное значение этого). Принцип вывода минимизации этого, предложенный Кульбаком, известен как принцип минимальной дискриминационной информации .

У нас есть некоторая проверяемая информация I о величине x , которая принимает значения в некотором интервале действительных чисел (все интегралы ниже находятся по этому интервалу). Мы предполагаем, что эта информация имеет форму m ограничений на ожидания функций f k , т.е. мы требуем, чтобы наша функция плотности вероятности удовлетворяла ограничениям момента неравенства (или чистого равенства):

где являются наблюдаемыми. Мы также требуем, чтобы плотность вероятности интегрировалась до единицы, что можно рассматривать как примитивное ограничение на функцию тождества и наблюдаемую, равную 1, дающую ограничение

Функция плотности вероятности с максимальным значением H c при соблюдении этих ограничений имеет вид: [11]

с функцией распределения, определяемой

Как и в дискретном случае, в случае, когда все моментные ограничения равны, значения параметров определяются системой нелинейных уравнений:

В случае ограничений типа неравенства моментов множители Лагранжа определяются из решения программы выпуклой оптимизации . [11]

Инвариантную меру функции q ( x ) можно лучше всего понять, предположив, что x , как известно, принимает значения только в ограниченном интервале ( a , b ), и что никакой другой информации не дано. Тогда максимальная энтропийная функция плотности вероятности равна

где A — константа нормализации. Функция инвариантной меры на самом деле является априорной функцией плотности, кодирующей «отсутствие релевантной информации». Она не может быть определена принципом максимальной энтропии и должна быть определена каким-то другим логическим методом, например, принципом групп трансформации или теорией маргинализации .

Примеры

Несколько примеров распределений максимальной энтропии см. в статье о распределениях вероятностей максимальной энтропии .

Обоснования принципа максимальной энтропии

Сторонники принципа максимальной энтропии обосновывают его использование при назначении вероятностей несколькими способами, включая следующие два аргумента. Эти аргументы принимают использование байесовской вероятности как данность и, таким образом, подчиняются тем же постулатам.

Информационная энтропия как мера «неинформативности»

Рассмотрим дискретное распределение вероятностей среди взаимоисключающих предложений . Наиболее информативное распределение возникло бы, когда известно, что одно из предложений истинно. В этом случае информационная энтропия была бы равна нулю. Наименее информативное распределение возникло бы, когда нет причин отдавать предпочтение какому-либо одному из предложений перед другими. В этом случае единственное разумное распределение вероятностей было бы равномерным, и тогда информационная энтропия была бы равна своему максимально возможному значению, . Таким образом, информационную энтропию можно рассматривать как числовую меру, которая описывает, насколько неинформативно конкретное распределение вероятностей, в диапазоне от нуля (полностью информативно) до (полностью неинформативно).

Аргумент заключается в том, что, выбирая распределение с максимальной энтропией, допускаемой нашей информацией, мы выбираем самое неинформативное распределение из возможных. Выбрать распределение с более низкой энтропией означало бы предположить, что информации у нас нет. Таким образом, распределение с максимальной энтропией является единственным разумным распределением. Зависимость решения от доминирующей меры, представленной , однако, является источником критики подхода, поскольку эта доминирующая мера фактически произвольна. [13]

Вывод Уоллиса

Следующий аргумент является результатом предложения, сделанного Грэмом Уоллисом ET Jaynes в 1962 году. [14] По сути, это тот же математический аргумент, который использовался для статистики Максвелла-Больцмана в статистической механике , хотя концептуальный акцент совершенно иной. Он имеет то преимущество, что является строго комбинаторным по своей природе, не ссылаясь на информационную энтропию как на меру «неопределенности», «неинформативности» или любой другой неточно определенной концепции. Функция информационной энтропии не предполагается априори , а скорее находится в ходе аргументации; и аргумент естественным образом приводит к процедуре максимизации информационной энтропии, а не к ее трактовке каким-либо другим способом.

Предположим, что человек хочет сделать вероятностное назначение среди взаимоисключающих предложений. У него есть некоторая проверяемая информация, но он не уверен, как включить эту информацию в свою оценку вероятности. Поэтому он задумал следующий случайный эксперимент. Он распределит кванты вероятности (каждый стоимостью ) случайным образом среди возможностей. (Можно представить, что он будет бросать мячи в ведра с завязанными глазами. Чтобы быть максимально справедливым, каждый бросок должен быть независимым от любого другого, и каждое ведро должно быть одинакового размера.) После завершения эксперимента он проверит, согласуется ли полученное таким образом распределение вероятности с его информацией. (Чтобы этот шаг был успешным, информация должна быть ограничением, заданным открытым множеством в пространстве мер вероятности). Если она противоречива, он отклонит ее и попробует снова. Если она согласована, его оценка будет

где — вероятность го предложения , а n i — количество квантов, которые были назначены му предложению ( т. е. количество мячей, оказавшихся в ведре ).

Теперь, чтобы уменьшить «зернистость» вероятностного назначения, необходимо будет использовать довольно большое количество квантов вероятности. Вместо того, чтобы фактически провести, и, возможно, повторить, довольно длинный случайный эксперимент, главный герой решает просто вычислить и использовать наиболее вероятный результат. Вероятность любого конкретного результата — это мультиномиальное распределение ,

где

иногда называют множественностью результата.

Наиболее вероятным результатом является тот, который максимизирует кратность . Вместо того, чтобы максимизировать напрямую, главный герой мог бы эквивалентно максимизировать любую монотонно возрастающую функцию . Он решает максимизировать

В этот момент, чтобы упростить выражение, главный герой берет предел как , т.е. как уровни вероятности переходят от зернистых дискретных значений к гладким непрерывным значениям. Используя приближение Стирлинга , он находит

Все, что остается сделать главному герою, — это максимизировать энтропию в рамках ограничений его проверяемой информации. Он обнаружил, что распределение максимальной энтропии является наиболее вероятным из всех «справедливых» случайных распределений, в пределе, когда уровни вероятности переходят от дискретных к непрерывным.

Совместимость с теоремой Байеса

Гиффин и Катича (2007) утверждают, что теорема Байеса и принцип максимальной энтропии полностью совместимы и могут рассматриваться как особые случаи «метода максимальной относительной энтропии». Они утверждают, что этот метод воспроизводит каждый аспект ортодоксальных байесовских методов вывода. Кроме того, этот новый метод открывает дверь к решению проблем, которые не могут быть решены ни принципом максимальной энтропии, ни ортодоксальными байесовскими методами по отдельности. Более того, недавние работы (Lazar 2003 и Schennach 2005) показывают, что частотные подходы к выводу, основанные на относительной энтропии (такие как эмпирическое правдоподобие и экспоненциально наклоненное эмпирическое правдоподобие – см., например, Owen 2001 и Kitamura 2006), можно объединить с априорной информацией для выполнения байесовского апостериорного анализа.

Джейнс заявил, что теорема Байеса является способом вычисления вероятности, в то время как максимальная энтропия является способом назначения априорного распределения вероятностей. [15]

Однако, в принципе, возможно решить для апостериорного распределения непосредственно из указанного априорного распределения, используя принцип минимальной перекрестной энтропии (или принцип максимальной энтропии, являющийся частным случаем использования равномерного распределения в качестве заданного априорного), независимо от любых байесовских соображений, рассматривая задачу формально как задачу ограниченной оптимизации, причем функционал энтропии является целевой функцией. Для случая заданных средних значений как проверяемой информации (усредненной по искомому распределению вероятностей), искомое распределение формально является распределением Гиббса (или Больцмана), параметры которого должны быть решены для достижения минимальной перекрестной энтропии и удовлетворения заданной проверяемой информации.

Соответствие физике

Принцип максимальной энтропии имеет отношение к ключевому предположению кинетической теории газов, известному как молекулярный хаос или Stosszahlansatz . Он утверждает, что функция распределения, характеризующая частицы, вступающие в столкновение, может быть факторизована. Хотя это утверждение можно понимать как строго физическую гипотезу, его также можно интерпретировать как эвристическую гипотезу относительно наиболее вероятной конфигурации частиц перед столкновением. [16]

Смотрите также

Примечания

  1. ^ Jaynes, ET (1957). "Теория информации и статистическая механика" (PDF) . Physical Review . Серия II. 106 (4): 620–630. Bibcode :1957PhRv..106..620J. doi :10.1103/PhysRev.106.620. MR  0087305.
  2. ^ Jaynes, ET (1957). "Теория информации и статистическая механика II" (PDF) . Physical Review . Серия II. 108 (2): 171–190. Bibcode : 1957PhRv..108..171J. doi : 10.1103/PhysRev.108.171. MR  0096414.
  3. ^ Sivia, Devinderjit; Skilling, John (2006-06-02). Анализ данных: байесовский учебник. OUP Oxford. ISBN 978-0-19-154670-9.
  4. ^ Джейнс, ET (1968). «Априорные вероятности» (PDF) . Труды IEEE по системной науке и кибернетике . 4 (3): 227–241. doi :10.1109/TSSC.1968.300117.
  5. ^ Кларк, Б. (2006). «Оптимальность информации и байесовское моделирование». Журнал эконометрики . 138 (2): 405–429. doi :10.1016/j.jeconom.2006.05.003.
  6. ^ Soofi, ES (2000). «Основные подходы к теории информации». Журнал Американской статистической ассоциации . 95 (452): 1349–1353. doi :10.2307/2669786. JSTOR  2669786. MR  1825292.
  7. ^ Буске, Н. (2008). «Выявление неопределенных, но правильных максимальных априорных энтропий в байесовских экспериментах». Статистические статьи . 51 (3): 613–628. doi :10.1007/s00362-008-0149-9. S2CID  119657859.
  8. ^ Palmieri, Francesco AN; Ciuonzo, Domenico (2013-04-01). «Объективные априорные данные из максимальной энтропии в классификации данных». Information Fusion . 14 (2): 186–198. CiteSeerX 10.1.1.387.4515 . doi :10.1016/j.inffus.2012.01.012. 
  9. ^ Skyrms, B (1987). «Обновление, предположение и MAXENT». Теория и решение . 22 (3): 225–46. doi :10.1007/BF00134086. S2CID  121847242.
  10. ^ abc Ботев, З.И.; Крезе, Д.П. (2008). "Неасимптотический выбор полосы пропускания для оценки плотности дискретных данных". Методология и вычисления в прикладной теории вероятностей . 10 (3): 435. doi :10.1007/s11009-007-9057-z. S2CID  122047337.
  11. ^ abc Ботев, З.И.; Крезе, Д.П. (2011). «Обобщенный метод кросс-энтропии с приложениями к оценке плотности вероятности» (PDF) . Методология и вычисления в прикладной теории вероятностей . 13 (1): 1–27. doi :10.1007/s11009-009-9133-7. S2CID  18155189.
  12. ^ Кесаван, ХК; Капур, Дж. Н. (1990). «Принципы максимальной энтропии и минимальной кросс-энтропии». В Фужере, П. Ф. (ред.). Максимальная энтропия и байесовские методы . стр. 419–432. doi :10.1007/978-94-009-0683-9_29. ISBN 978-94-010-6792-8.
  13. ^ Дрюйе, Пьер; Марин, Жан-Мишель (2007). «Инвариантные {HPD} достоверные множества и {MAP} оценки». Bayesian Anal . 2 : 681–691. doi : 10.1214/07-BA227 .
  14. ^ Джейнс, ET (2003) Теория вероятностей: логика науки , Cambridge University Press, стр. 351-355. ISBN 978-0521592710 
  15. ^ Джейнс, ET (1988) «Связь байесовских методов и методов максимальной энтропии», в книге «Максимальная энтропия и байесовские методы в науке и технике» (т. 1) , Kluwer Academic Publishers, стр. 25-29.
  16. ^ Chliamovitch, G.; Malaspinas, O.; Chopard, B. (2017). «Кинетическая теория за пределами Stosszahlansatz». Entropy . 19 (8): 381. Bibcode : 2017Entrp..19..381C. doi : 10.3390/e19080381 .

Ссылки

Дальнейшее чтение