Функция распределения или конфигурационный интеграл , используемый в теории вероятностей , теории информации и динамических системах , является обобщением определения функции распределения в статистической механике . Это частный случай нормализующей константы в теории вероятностей для распределения Больцмана . Функция распределения встречается во многих задачах теории вероятностей, потому что в ситуациях, когда имеется естественная симметрия, ее связанная вероятностная мера , мера Гиббса , обладает свойством Маркова . Это означает, что функция распределения встречается не только в физических системах с трансляционной симметрией, но и в таких разнообразных условиях, как нейронные сети ( сеть Хопфилда ) и приложениях, таких как геномика , корпусная лингвистика и искусственный интеллект , которые используют сети Маркова и логические сети Маркова . Мера Гиббса также является уникальной мерой, которая обладает свойством максимизации энтропии для фиксированного ожидаемого значения энергии; это лежит в основе появления функции распределения в методах максимальной энтропии и алгоритмах, выведенных из них.
Функция распределения связывает воедино множество различных концепций и, таким образом, предлагает общую структуру, в которой можно вычислить множество различных видов величин. В частности, она показывает, как вычислять ожидаемые значения и функции Грина , формируя мост к теории Фредгольма . Она также обеспечивает естественную среду для подхода информационной геометрии к теории информации, где информационная метрика Фишера может пониматься как корреляционная функция, полученная из функции распределения; она определяет риманово многообразие .
Когда случайные величины устанавливаются в комплексном проективном пространстве или проективном гильбертовом пространстве , геометризированном с помощью метрики Фубини–Штуди , возникает теория квантовой механики и, в более общем смысле, квантовая теория поля . В этих теориях функция распределения активно используется в формулировке интеграла по траектории , с большим успехом, что приводит ко многим формулам, почти идентичным тем, что рассмотрены здесь. Однако, поскольку базовое пространство мер является комплекснозначным, в отличие от действительнозначного симплекса теории вероятностей, во многих формулах появляется дополнительный множитель i . Отслеживание этого множителя затруднительно и здесь не делается. В этой статье основное внимание уделяется классической теории вероятностей, где сумма вероятностей составляет единицу.
При наличии набора случайных величин , принимающих значения , и некоторой потенциальной функции или гамильтониана , функция распределения определяется как
Под функцией H понимается действительная функция на пространстве состояний , а — действительный свободный параметр (условно, обратная температура ). Под суммой по понимается сумма по всем возможным значениям, которые может принимать каждая из случайных величин. Таким образом, сумма должна быть заменена интегралом , когда непрерывны, а не дискретны. Таким образом, записывается
для случая непрерывно изменяющегося .
Когда H является наблюдаемой величиной , такой как конечномерная матрица или бесконечномерный оператор гильбертова пространства или элемент алгебры C-звезды , обычно суммирование выражается как след , так что
Если H бесконечномерно, то для того, чтобы приведенное выше обозначение было действительным, аргумент должен быть трассового класса , то есть иметь такую форму, что суммирование существует и ограничено.
Число переменных не обязательно должно быть счетным , в этом случае суммы должны быть заменены функциональными интегралами . Хотя существует много обозначений для функциональных интегралов, общим будет
Так обстоит дело с статистической суммой в квантовой теории поля .
Распространенной полезной модификацией функции распределения является введение вспомогательных функций. Это позволяет, например, использовать функцию распределения в качестве генерирующей функции для корреляционных функций . Это более подробно обсуждается ниже.
Роль или значение параметра можно понимать по-разному. В классической термодинамике это обратная температура . В более общем смысле можно сказать, что это переменная, которая сопряжена с некоторой (произвольной) функцией случайных величин . Слово сопряженный здесь используется в смысле сопряженных обобщенных координат в механике Лагранжа , таким образом, собственно является множителем Лагранжа . Его нередко называют обобщенной силой . Все эти концепции объединяет идея о том, что одно значение должно оставаться фиксированным, в то время как другие, взаимосвязанные каким-то сложным образом, могут изменяться. В текущем случае значение, которое должно оставаться фиксированным, является ожидаемым значением , даже если множество различных распределений вероятностей могут привести к точно такому же (фиксированному) значению.
В общем случае рассматривается набор функций, каждая из которых зависит от случайных величин . Эти функции выбираются, поскольку по той или иной причине требуется сохранить их ожидаемые значения постоянными. Чтобы ограничить ожидаемые значения таким образом, применяется метод множителей Лагранжа . В общем случае методы максимальной энтропии иллюстрируют способ, которым это делается.
Вот несколько конкретных примеров. В основных задачах термодинамики при использовании канонического ансамбля использование только одного параметра отражает тот факт, что существует только одно ожидаемое значение, которое должно поддерживаться постоянным: свободная энергия (из-за сохранения энергии ). Для задач химии, включающих химические реакции, большой канонический ансамбль обеспечивает соответствующую основу, и есть два множителя Лагранжа. Один должен поддерживать постоянную энергию, а другой, летучесть , должен поддерживать постоянное количество частиц (поскольку химические реакции включают рекомбинацию фиксированного числа атомов).
В общем случае имеем
с точкой в пространстве.
Для набора наблюдаемых можно написать
Как и прежде, предполагается, что аргументом tr является trace class .
Соответствующая мера Гиббса затем обеспечивает распределение вероятностей, так что ожидаемое значение каждого является фиксированным значением. Точнее, есть
с угловыми скобками, обозначающими ожидаемое значение , и являющимися общепринятой альтернативной нотацией. Точное определение этого ожидаемого значения приведено ниже.
Хотя значение обычно считается действительным, в общем случае это не обязательно так; это обсуждается в разделе Нормализация ниже. Значения можно понимать как координаты точек в пространстве; это пространство фактически является многообразием , как показано ниже. Изучение этих пространств как многообразий составляет область информационной геометрии .
Сама потенциальная функция обычно принимает форму суммы:
где сумма по s является суммой по некоторому подмножеству множества мощности P ( X ) множества . Например, в статистической механике , такой как модель Изинга , сумма берется по парам ближайших соседей. В теории вероятностей, такой как сети Маркова , сумма может быть по кликам графа; так, для модели Изинга и других решетчатых моделей максимальные клики являются ребрами.
Тот факт, что потенциальная функция может быть записана в виде суммы, обычно отражает тот факт, что она инвариантна относительно действия групповой симметрии , например, трансляционной инвариантности . Такие симметрии могут быть дискретными или непрерывными; они материализуются в корреляционных функциях для случайных величин (обсуждаемых ниже). Таким образом, симметрия в гамильтониане становится симметрией корреляционной функции (и наоборот).
Эта симметрия имеет критически важную интерпретацию в теории вероятностей: она подразумевает, что мера Гиббса имеет свойство Маркова ; то есть она независима от случайных величин определенным образом, или, что то же самое, мера идентична на классах эквивалентности симметрии. Это приводит к широкому появлению функции распределения в задачах с свойством Маркова, таких как сети Хопфилда .
Значение выражения
может быть интерпретировано как вероятность того, что в системе возникает определенная конфигурация значений . Таким образом, учитывая определенную конфигурацию ,
— вероятность конфигурации, встречающейся в системе, которая теперь должным образом нормализована так, что , и так, что сумма по всем конфигурациям составляет единицу. Таким образом, можно считать, что функция распределения обеспечивает меру ( вероятностную меру ) на вероятностном пространстве ; формально она называется мерой Гиббса . Она обобщает более узкие концепции большого канонического ансамбля и канонического ансамбля в статистической механике.
Существует по крайней мере одна конфигурация, для которой вероятность максимальна; эта конфигурация условно называется основным состоянием . Если конфигурация уникальна, основное состояние называется невырожденным , а система называется эргодической ; в противном случае основное состояние является вырожденным . Основное состояние может коммутировать или не коммутировать с генераторами симметрии; если коммутирует, то называется инвариантной мерой . Когда оно не коммутирует, симметрия называется спонтанно нарушенной .
Условия, при которых основное состояние существует и является единственным, задаются условиями Каруша–Куна–Таккера ; эти условия обычно используются для обоснования использования меры Гиббса в задачах с максимальной энтропией. [ необходима ссылка ]
Значения, принимаемые зависят от математического пространства , в котором изменяется случайное поле. Таким образом, действительные случайные поля принимают значения на симплексе : это геометрический способ сказать, что сумма вероятностей должна давать единицу. Для квантовой механики случайные величины ранжируются по комплексному проективному пространству (или комплекснозначному проективному гильбертову пространству ), где случайные величины интерпретируются как амплитуды вероятности . Здесь акцент делается на слове проективный , поскольку амплитуды по-прежнему нормализованы к единице. Нормализация для потенциальной функции — это якобиан для соответствующего математического пространства: это 1 для обычных вероятностей и i для гильбертова пространства; таким образом, в квантовой теории поля можно увидеть в экспоненциальном, а не . Статистическая сумма очень активно используется в формулировке интеграла по траекториям квантовой теории поля, что дает большой эффект. Теория там почти идентична представленной здесь, за исключением этого различия и того факта, что она обычно формулируется на четырехмерном пространстве-времени, а не в общем виде.
Функция распределения обычно используется как функция, генерирующая вероятность для значений ожиданий различных функций случайных величин. Так, например, взяв в качестве регулируемого параметра, то производная по отношению к
дает среднее (ожидаемое значение) H. В физике это называется средней энергией системы.
Учитывая определение вероятностной меры выше, математическое ожидание любой функции f случайных величин X теперь можно записать так, как и ожидалось: так, для дискретно-значных X можно записать
Вышеуказанная нотация строго верна для конечного числа дискретных случайных величин, но должна рассматриваться как несколько «неформальная» для непрерывных величин; правильно, приведенные выше суммирования должны быть заменены нотациями базовой сигма-алгебры, используемой для определения вероятностного пространства . При этом тождества продолжают выполняться, если они правильно сформулированы на пространстве мер .
Так, например, энтропия определяется как
Мера Гиббса — это уникальное статистическое распределение, которое максимизирует энтропию при фиксированном математическом ожидании энергии; это лежит в основе ее использования в методах максимальной энтропии .
Точки можно понимать как образующие пространство, а именно, многообразие . Таким образом, разумно задать вопрос о структуре этого многообразия; это задача информационной геометрии .
Множественные производные относительно множителей Лагранжа приводят к положительной полуопределенной ковариационной матрице
Эта матрица является положительно полуопределенной и может быть интерпретирована как метрический тензор , в частности, риманова метрика . Оснащение пространства множителей Лагранжа метрикой таким образом превращает его в риманово многообразие . [1] Изучение таких многообразий называется информационной геометрией ; метрика выше — это информационная метрика Фишера . Здесь служит координатой на многообразии. Интересно сравнить приведенное выше определение с более простой информацией Фишера , из которой оно вдохновлено.
То, что вышеизложенное определяет информационную метрику Фишера, можно легко увидеть, явно подставив значение математического ожидания:
где мы записали для и подразумевается, что суммирование ведется по всем значениям всех случайных величин . Для непрерывных случайных величин суммирование, конечно, заменяется интегралами.
Любопытно, что информационная метрика Фишера может также пониматься как евклидова метрика плоского пространства , после соответствующей замены переменных, как описано в основной статье о ней. Когда являются комплексными, результирующая метрика является метрикой Фубини–Штуди . Когда она записана в терминах смешанных состояний , а не чистых состояний , она известна как метрика Буреса .
Вводя искусственные вспомогательные функции в функцию распределения, ее можно использовать для получения ожидаемого значения случайных величин. Так, например, записав
тогда один имеет
как ожидаемое значение . В формулировке интеграла по траекториям квантовой теории поля эти вспомогательные функции обычно называются исходными полями .
Множественные дифференциации приводят к связанным корреляционным функциям случайных величин. Таким образом, корреляционная функция между переменными и определяется как:
Для случая, когда H можно записать в виде квадратичной формы , включающей дифференциальный оператор , то есть как
тогда статистическая сумма может пониматься как сумма или интеграл по гауссианам. Корреляционная функция может пониматься как функция Грина для дифференциального оператора (и, как правило, дающая начало теории Фредгольма ). В квантовой теории поля такие функции называются пропагаторами ; корреляторы более высокого порядка называются n-точечными функциями; работа с ними определяет эффективное действие теории.
Когда случайные величины являются антикоммутирующими числами Грассмана , то статистическую сумму можно выразить как определитель оператора D. Это делается путем записи ее в виде интеграла Березина (также называемого интегралом Грассмана).
Статистические суммы используются для обсуждения критического масштабирования , универсальности и подчиняются группе перенормировки .