Априорная вероятность

Априорное распределение вероятностей неопределенной величины, часто называемое просто априорным , является ее предполагаемым распределением вероятностей до того, как будут учтены некоторые доказательства. Например, априорное распределение может быть распределением вероятностей, представляющим относительные доли избирателей, которые проголосуют за конкретного политика на будущих выборах. Неизвестная величина может быть параметром модели или скрытой переменной, а не наблюдаемой переменной .

В байесовской статистике правило Байеса предписывает, как обновить априорную вероятность новой информацией, чтобы получить апостериорное распределение вероятностей , которое является условным распределением неопределенной величины с учетом новых данных. Исторически выбор априорных вероятностей часто ограничивался сопряженным семейством заданной функции правдоподобия , поскольку это приводило к поддающемуся обработке апостериорному распределению того же семейства. Однако широкая доступность методов Монте-Карло с цепями Маркова сделала это менее важным.

Существует много способов построения априорного распределения. ^[1] В некоторых случаях априорное распределение может быть определено из прошлой информации, например, предыдущих экспериментов. Априорное распределение также может быть получено из чисто субъективной оценки опытного эксперта. ^[2]^[3]^[4] Когда информация отсутствует, неинформативное априорное распределение может быть принято как оправданное принципом безразличия . ^[5]^[6] В современных приложениях априорные данные также часто выбираются по их механическим свойствам, таким как регуляризация и выбор признаков . ^[7]^[8]^[9]

Априорные распределения параметров модели часто зависят от их собственных параметров. Неопределенность относительно этих гиперпараметров может, в свою очередь, быть выражена как гипераприорные распределения вероятностей. Например, если использовать бета-распределение для моделирования распределения параметра p распределения Бернулли , то:

p — параметр базовой системы (распределение Бернулли), а
α и β являются параметрами априорного распределения (бета-распределения), следовательно, гиперпараметрами .

В принципе, априорные вероятности можно разложить на множество условных уровней распределений, так называемых иерархических априорных вероятностей . ^[10]

Информативные априорные данные

Информативное априорное распределение выражает конкретную, определенную информацию о переменной. Примером может служить априорное распределение для температуры в полдень завтра. Разумный подход состоит в том, чтобы сделать априорное распределение нормальным с ожидаемым значением , равным сегодняшней температуре в полдень, с дисперсией, равной суточной дисперсии температуры воздуха, или распределением температуры для этого дня года.

Этот пример имеет свойство, общее со многими априорными данными, а именно, что апостериорное значение одной проблемы (сегодняшняя температура) становится априорным значением для другой проблемы (завтрашняя температура); уже существующие доказательства, которые уже были приняты во внимание, являются частью априорного значения, и по мере накопления дополнительных доказательств апостериорное значение в значительной степени определяется доказательствами, а не какими-либо исходными предположениями, при условии, что исходное предположение допускало возможность того, на что указывают доказательства. Термины «априорное» и «апостериорное» обычно относятся к определенным данным или наблюдению.

Сильный предшествующий

Сильное априорное распределение — это предшествующее предположение, теория, концепция или идея, на которых, после учета новой информации, основывается текущее предположение, теория, концепция или идея. ^{[ необходима цитата ]} Сильное априорное распределение — это тип информативного априорного распределения, в котором информация, содержащаяся в априорном распределении, доминирует над информацией, содержащейся в анализируемых данных. Байесовский анализ объединяет информацию, содержащуюся в априорном распределении, с информацией, извлеченной из данных, для получения апостериорного распределения , которое в случае «сильного априорного распределения» будет мало отличаться от априорного распределения.

Слабоинформативные априорные данные

Слабоинформативное априорное распределение выражает частичную информацию о переменной, направляя анализ к решениям, которые соответствуют существующим знаниям, не ограничивая чрезмерно результаты и не допуская экстремальных оценок. Примером может служить задание априорного распределения для температуры в полдень завтра в Сент-Луисе, чтобы использовать нормальное распределение со средним значением 50 градусов по Фаренгейту и стандартным отклонением 40 градусов, что очень свободно ограничивает температуру диапазоном (10 градусов, 90 градусов) с небольшой вероятностью быть ниже -30 градусов или выше 130 градусов. Целью слабоинформативного априорного распределения является регуляризация , то есть сохранение выводов в разумном диапазоне.

Неинформативные априорные данные

Неинформативное , плоское или диффузное априорное значение выражает неопределенную или общую информацию о переменной. ^[5] Термин «неинформативное априорное значение» является несколько неточным. Такое априорное значение можно также назвать не очень информативным априорным значением или объективным априорным значением , т. е. тем, которое не вызывается субъективно.

Неинформативные априорные данные могут выражать «объективную» информацию, например, «переменная положительна» или «переменная меньше некоторого предела». Простейшим и старейшим правилом для определения неинформативного априорного значения является принцип безразличия , который присваивает равные вероятности всем возможностям. В задачах оценки параметров использование неинформативного априорного значения обычно дает результаты, которые не слишком отличаются от результатов обычного статистического анализа, поскольку функция правдоподобия часто дает больше информации, чем неинформативное априорное значение.

Были предприняты некоторые попытки найти априорные вероятности , то есть распределения вероятностей, в некотором смысле логически требуемые природой состояния неопределенности; они являются предметом философских споров, при этом байесовцы грубо делятся на две школы: «объективные байесовцы», которые считают, что такие априорные вероятности существуют во многих полезных ситуациях, и «субъективные байесовцы», которые считают, что на практике априорные вероятности обычно представляют собой субъективные суждения, которые не могут быть строго обоснованы (Williamson 2010). Возможно, самые сильные аргументы в пользу объективного байесианства были даны Эдвином Т. Джейнсом , основанные главным образом на последствиях симметрий и на принципе максимальной энтропии.

В качестве примера априорного предварительного распределения, согласно Джейнсу (2003), рассмотрим ситуацию, в которой известно, что мяч спрятан под одной из трех чашек, A, B или C, но никакой другой информации о его местоположении нет. В этом случае равномерное априорное распределение p ( A ) = p ( B ) = p ( C ) = 1/3 интуитивно кажется единственным разумным выбором. Более формально, мы можем видеть, что проблема остается той же, если мы поменяем местами метки («A», «B» и «C») чашек. Поэтому было бы странно выбирать априорное распределение, для которого перестановка меток приведет к изменению наших предсказаний о том, под какой чашкой будет найден мяч; равномерное априорное распределение является единственным, которое сохраняет эту инвариантность. Если принять этот принцип инвариантности, то можно увидеть, что равномерное априорное распределение является логически правильным априорным распределением для представления этого состояния знания. Это априорное значение является «объективным» в том смысле, что является правильным выбором для представления конкретного состояния знания, но оно не является объективным в том смысле, что является независимой от наблюдателя характеристикой мира: в действительности мяч существует под конкретной чашкой, и говорить о вероятностях в этой ситуации имеет смысл только в том случае, если есть наблюдатель с ограниченными знаниями о системе. ^[11]

В качестве более спорного примера Джейнс опубликовал аргумент, основанный на инвариантности априорной вероятности при изменении параметров, который предполагает, что априорная вероятность, представляющая полную неопределенность относительно вероятности, должна быть априорной вероятностью Холдейна p ⁻¹ (1 − p ) ⁻¹ . ^[12] Пример, который приводит Джейнс, заключается в нахождении химического вещества в лаборатории и вопросе о том, растворится ли оно в воде в повторных экспериментах. Априорная вероятность Холдейна ^[13] дает наибольший вес и , указывая на то, что образец либо растворится каждый раз, либо никогда не растворится, с равной вероятностью. Однако, если кто-то наблюдал, что образцы химического вещества растворяются в одном эксперименте и не растворяются в другом эксперименте, то эта априорная вероятность обновляется до равномерного распределения на интервале [0, 1]. Это получается путем применения теоремы Байеса к набору данных, состоящему из одного наблюдения растворения и одного наблюдения не растворения, с использованием вышеуказанной априорной вероятности. Априорная вероятность Холдейна является неправильным априорным распределением (что означает, что она имеет бесконечную массу). Гарольд Джеффрис разработал систематический способ проектирования неинформативных априорных распределений, например, априорное распределение Джеффриса p ^−1/2 (1 − p ) ^−1/2 для случайной величины Бернулли. $p=0$ $p=1$

Можно построить априорные вероятности, пропорциональные мере Хаара , если пространство параметров X несет естественную групповую структуру , которая оставляет инвариантным наше байесовское состояние знаний. ^[12] Это можно рассматривать как обобщение принципа инвариантности, используемого для обоснования равномерной априорной вероятности по трем чашкам в приведенном выше примере. Например, в физике мы могли бы ожидать, что эксперимент даст те же результаты независимо от нашего выбора начала системы координат. Это индуцирует групповую структуру группы трансляции на X , которая определяет априорную вероятность как постоянную несобственную априорную вероятность . Аналогично некоторые измерения естественно инвариантны к выбору произвольного масштаба (например, используются ли сантиметры или дюймы, физические результаты должны быть равны). В таком случае масштабная группа является естественной групповой структурой, а соответствующая априорная вероятность на X пропорциональна 1/ x . Иногда имеет значение, используем ли мы левоинвариантную или правоинвариантную меру Хаара. Например, левоинвариантные и правоинвариантные меры Хаара на аффинной группе не равны. Бергер (1985, стр. 413) утверждает, что правоинвариантная мера Хаара является правильным выбором.

Другая идея, отстаиваемая Эдвином Т. Джейнсом , заключается в использовании принципа максимальной энтропии (MAXENT). Мотивация заключается в том, что энтропия Шеннона распределения вероятностей измеряет количество информации, содержащейся в распределении. Чем больше энтропия, тем меньше информации предоставляет распределение. Таким образом, максимизируя энтропию по подходящему набору распределений вероятностей на X , можно найти распределение, которое является наименее информативным в том смысле, что оно содержит наименьшее количество информации, согласующейся с ограничениями, которые определяют набор. Например, максимальная априорная энтропия на дискретном пространстве, при условии, что вероятность нормализована до 1, является априорной, которая назначает равную вероятность каждому состоянию. А в непрерывном случае максимальная априорная энтропия при условии, что плотность нормализована со средним нулевым значением и единичной дисперсией, является стандартным нормальным распределением . Принцип минимальной перекрестной энтропии обобщает MAXENT на случай «обновления» произвольного априорного распределения с подходящими ограничениями в смысле максимальной энтропии.

Схожая идея, справочные априорные распределения, была предложена Хосе-Мигелем Бернардо . Здесь идея заключается в максимизации ожидаемого расхождения Кульбака–Лейблера апостериорного распределения относительно априорного. Это максимизирует ожидаемую апостериорную информацию о X , когда априорная плотность равна p ( x ); таким образом, в некотором смысле, p ( x ) является «наименее информативным» априорным распределением о X. Справочное априорное распределение определяется в асимптотическом пределе, т. е. рассматривается предел априорных распределений, полученных таким образом, когда число точек данных стремится к бесконечности. В данном случае расхождение KL между априорным и апостериорным распределениями определяется как $KL=\int p(t)\int p(x\mid t)\log {\frac {p(x\mid t)}{p(x)}}\,dx\,dt$

Здесь — достаточная статистика для некоторого параметра . Внутренний интеграл — это расхождение KL между апостериорным и априорным распределениями, а результат — взвешенное среднее по всем значениям . Разделение логарифма на две части, изменение порядка интегралов во второй части на обратный и отметка, что не зависит от дает $t$ $x$ $p(x\mid t)$ $p(x)$ $t$ $\log \,[p(x)]$ $t$ $KL=\int p(t)\int p(x\mid t)\log[p(x\mid t)]\,dx\,dt\,-\,\int \log[p(x)]\,\int p(t)p(x\mid t)\,dt\,dx$

Внутренний интеграл во второй части — это интеграл по плотности соединения . Это маргинальное распределение , поэтому мы имеем $t$ $p(x,t)$ $p(x)$ $KL=\int p(t)\int p(x\mid t)\log[p(x\mid t)]\,dx\,dt\,-\,\int p(x)\log[p(x)]\,dx$

Теперь мы используем концепцию энтропии, которая в случае вероятностных распределений представляет собой отрицательное ожидаемое значение логарифма массы вероятности или функции плотности или Использование этого в последнем уравнении дает ${\textstyle H(x)=-\int p(x)\log[p(x)]\,dx.}$ $KL=-\int p(t)H(x\mid t)\,dt+\,H(x)$

Другими словами, KL — это отрицательное ожидаемое значение по энтропии условной на плюс предельная (т.е. безусловная) энтропия . В предельном случае, когда размер выборки стремится к бесконечности, теорема Бернштейна-фон Мизеса утверждает, что распределение условной на заданном наблюдаемом значении является нормальным с дисперсией, равной обратной величине информации Фишера при «истинном» значении . Энтропия нормальной функции плотности равна половине логарифма от , где — дисперсия распределения. В этом случае, следовательно, где — произвольно большой размер выборки (которому пропорциональна информация Фишера), а — «истинное» значение. Поскольку это не зависит от , его можно вынести из интеграла, и поскольку этот интеграл берется по вероятностному пространству, он равен единице. Следовательно, мы можем записать асимптотическую форму KL как , где пропорционально (асимптотически большому) размеру выборки. Мы не знаем значения . Действительно, сама идея противоречит философии байесовского вывода, в котором «истинные» значения параметров заменяются априорными и апостериорными распределениями. Поэтому мы удаляем, заменяя его на и беря ожидаемое значение нормальной энтропии, которое получаем путем умножения на и интегрирования по . Это позволяет нам объединить логарифмы, получая $t$ $x$ $t$ $x$ $x$ $t$ $x$ $2\pi ev$ $v$ $H=\log {\sqrt {\frac {2\pi e}{NI(x^{*})}}}$ $N$ $x*$ $t$ $KL=-\log \left(1{\sqrt {kI(x^{*})}}\right)-\,\int p(x)\log[p(x)]\,dx$ $k$ $x*$ $x*$ $x$ $p(x)$ $x$ $KL=-\int p(x)\log \left[{\frac {p(x)}{\sqrt {kI(x)}}}\right]\,dx$

Это квази-KL-расхождение («квази» в том смысле, что квадратный корень информации Фишера может быть ядром неправильного распределения). Из-за знака минус нам нужно минимизировать это, чтобы максимизировать KL-расхождение, с которого мы начали. Минимальное значение последнего уравнения возникает там, где два распределения в аргументе логарифма, неправильное или нет, не расходятся. Это, в свою очередь, происходит, когда априорное распределение пропорционально квадратному корню информации Фишера функции правдоподобия. Следовательно, в случае с одним параметром справочные априорные значения и априорные значения Джеффри идентичны, хотя у Джеффри совершенно другое обоснование.

Референтные априорные данные часто являются объективными априорными данными выбора в многомерных задачах, поскольку другие правила (например, правило Джеффриса ) могут привести к априорным данным с проблемным поведением. ^{[ необходимо разъяснение. Априорное значение Джеффриса связано с дивергенцией KL? ]}

Объективные априорные распределения также могут быть получены из других принципов, таких как теория информации или кодирования (см., например, минимальную длину описания ) или частотную статистику (так называемые априорные вероятности соответствия). ^[14] Такие методы используются в теории индуктивного вывода Соломонова . Построение объективных априорных распределений было недавно введено в биоинформатику, и особенно вывод в биологии раковых систем, где размер выборки ограничен и доступно огромное количество априорных знаний . В этих методах либо критерий, основанный на теории информации, такой как дивергенция KL или функция логарифмического правдоподобия для бинарных контролируемых задач обучения ^[15] и задач смешанной модели. ^[16]

Философские проблемы, связанные с неинформативными априорами, связаны с выбором подходящей метрики или шкалы измерений. Предположим, что мы хотим априор для скорости бега бегуна, который нам неизвестен. Мы могли бы указать, скажем, нормальное распределение в качестве априора для его скорости, но в качестве альтернативы мы могли бы указать нормальный априор для времени, которое он тратит на преодоление 100 метров, который пропорционален обратной величине первого априора. Это очень разные априоры, но неясно, какой из них следует предпочесть. Метод групп преобразований Джейнса может ответить на этот вопрос в некоторых ситуациях. ^[17]

Аналогично, если бы нас попросили оценить неизвестную пропорцию между 0 и 1, мы могли бы сказать, что все пропорции одинаково вероятны, и использовать равномерную априорную вероятность. В качестве альтернативы, мы могли бы сказать, что все порядки величины для пропорции одинаково вероятны,Логарифмическое априорное распределение , которое является равномерным априорным распределением логарифма пропорции.Априорное распределение Джеффрипытается решить эту проблему путем вычисления априорного распределения, которое выражает то же самое убеждение, независимо от используемой метрики. Априорное распределение Джеффри для неизвестной пропорцииpравноp^−1/2(1 − p)^−1/2, что отличается от рекомендации Джейнса.

Априорные данные, основанные на понятиях алгоритмической вероятности, используются в индуктивном выводе в качестве основы для индукции в самых общих ситуациях.

Практические проблемы, связанные с неинформативными априорными распределениями, включают требование, чтобы апостериорное распределение было правильным. Обычные неинформативные априорные распределения для непрерывных, неограниченных переменных являются неправильными. Это не должно быть проблемой, если апостериорное распределение является правильным. Другой важный вопрос заключается в том, что если неинформативное априорное распределение должно использоваться регулярно , т. е. со многими различными наборами данных, оно должно иметь хорошие частотные свойства. Обычно байесианец не будет беспокоиться о таких вопросах, но это может быть важно в этой ситуации. Например, можно было бы захотеть, чтобы любое правило принятия решений , основанное на апостериорном распределении, было допустимым при принятой функции потерь. К сожалению, допустимость часто трудно проверить, хотя некоторые результаты известны (например, Berger and Strawderman 1996). Эта проблема особенно остра в иерархических байесовских моделях ; обычные априорные распределения (например, априорное распределение Джеффриса) могут давать совершенно неприемлемые правила принятия решений, если они используются на более высоких уровнях иерархии.

Неправильные априорные данные

Пусть события являются взаимоисключающими и исчерпывающими. Если теорема Байеса записана как то ясно, что тот же результат будет получен, если все априорные вероятности P ( A _i ) и P ( A _j ) умножить на заданную константу; то же самое будет верно для непрерывной случайной величины . Если суммирование в знаменателе сходится, апостериорные вероятности все равно будут суммироваться (или интегрироваться) к 1, даже если априорные значения не сходятся, и поэтому априорные значения могут быть указаны только в правильной пропорции. Развивая эту идею дальше, во многих случаях сумма или интеграл априорных значений могут даже не обязательно быть конечными, чтобы получить разумные ответы для апостериорных вероятностей. Когда это так, априорное распределение называется неправильным априорным . Однако апостериорное распределение не обязательно должно быть правильным распределением, если априорное является неправильным. ^[18] Это ясно из случая, когда событие B не зависит от всех A _j . $A_{1},A_{2},\ldots ,A_{n}$ $P(A_{i}\mid B)={\frac {P(B\mid A_{i})P(A_{i})}{\sum _{j}P(B\mid A_{j})P(A_{j})}}\,,$

Статистики иногда используют неправильные априорные данные как неинформативные априорные данные . ^[19] Например, если им нужно априорное распределение для среднего значения и дисперсии случайной величины, они могут предположить p ( m , v ) ~ 1/ v (для v > 0), что предполагает, что любое значение для среднего значения «равновероятно», а значение для положительной дисперсии становится «менее вероятным» обратно пропорционально его значению. Многие авторы (Линдли, 1973; Де Гроот, 1937; Касс и Вассерман, 1996) ^{[ необходима цитата ]} предостерегают от опасности чрезмерной интерпретации этих априорных данных, поскольку они не являются плотностями вероятности. Единственная релевантность, которую они имеют, находится в соответствующем апостериорном распределении, если оно хорошо определено для всех наблюдений. ( Априорное распределение Холдейна является типичным контрпримером. ^{[ необходима уточнение ]}^{[ необходима цитата ]} )

Напротив, функции правдоподобия не нужно интегрировать, а функция правдоподобия, которая равномерно равна 1, соответствует отсутствию данных (все модели одинаково вероятны при отсутствии данных): правило Байеса умножает априорную вероятность на вероятность, а пустое произведение — это просто постоянная вероятность 1. Однако, не начав с априорного распределения вероятностей, мы не получим апостериорное распределение вероятностей и, таким образом, не сможем интегрировать или вычислять ожидаемые значения или потери. Подробнее см. в разделе Функция правдоподобия § Неинтегрируемость .

Примеры

Примеры неправильных априорных данных включают в себя:

Равномерное распределение на бесконечном интервале (т. е. полупрямой или всей действительной прямой).
Бета(0,0), бета-распределение для α =0, β =0 (равномерное распределение по шкале логарифмов шансов ).
Логарифмическое априорное распределение на положительных действительных числах (равномерное распределение по логарифмической шкале ). ^{[ необходима ссылка ]}

Эти функции, интерпретируемые как равномерные распределения, также могут быть интерпретированы как функция правдоподобия при отсутствии данных, но не являются надлежащими априорными значениями.

Априорная вероятность в статистической механике

В то время как в байесовской статистике априорная вероятность используется для представления начальных убеждений о неопределенном параметре, в статистической механике априорная вероятность используется для описания начального состояния системы. ^[20] Классическая версия определяется как отношение числа элементарных событий (например, числа бросков игральной кости) к общему числу событий — и они рассматриваются чисто дедуктивно, т. е. без каких-либо экспериментов. В случае игральной кости, если мы смотрим на нее на столе, не бросая ее, каждое элементарное событие дедуктивно рассуждаем как имеющее одинаковую вероятность — таким образом, вероятность каждого результата воображаемого броска (идеальной) игральной кости или просто путем подсчета числа граней составляет 1/6. Каждая грань игральной кости появляется с равной вероятностью — вероятность является мерой, определенной для каждого элементарного события. Результат будет другим, если мы бросим игральную кость двадцать раз и спросим, сколько раз (из 20) на верхней грани появится число 6. В этом случае в игру вступает время, и мы имеем другой тип вероятности, зависящий от времени или количества бросков игральной кости. С другой стороны, априорная вероятность не зависит от времени — вы можете смотреть на игральную кость на столе столько, сколько захотите, не прикасаясь к ней, и вы выводите, что вероятность появления цифры 6 на верхней грани составляет 1/6.

В статистической механике, например, для газа, содержащегося в конечном объеме , как пространственные координаты , так и координаты импульса отдельных элементов газа (атомов или молекул) конечны в фазовом пространстве, охватываемом этими координатами. По аналогии со случаем игральной кости, априорная вероятность здесь (в случае континуума) пропорциональна элементу объема фазового пространства, деленному на , и представляет собой число стоячих волн (т. е. состояний) в нем, где - диапазон переменной , а - диапазон переменной (здесь для простоты рассматривается в одном измерении). В 1 измерении (длина ) это число или статистический вес или априорное взвешивание равно . В обычных 3 измерениях (объем ) соответствующее число может быть вычислено как . ^[21] Чтобы понять эту величину как дающую ряд состояний в квантовой (т. е. волновой) механике, напомним, что в квантовой механике каждая частица связана с волной материи, которая является решением уравнения Шредингера. В случае свободных частиц (энергии ), таких как частицы газа в ящике с объемом, такая волна материи явно имеет вид , где - целые числа. Количество различных значений и, следовательно, состояний в области между затем определяется как приведенное выше выражение путем рассмотрения области, охватываемой этими точками. Более того, ввиду соотношения неопределенности , которое в 1 пространственном измерении равно эти состояния неразличимы (т. е. эти состояния не имеют меток). Важным следствием является результат, известный как теорема Лиувилля , т. е. независимость от времени этого элемента объема фазового пространства и, следовательно, априорной вероятности. Зависимость от времени этой величины подразумевала бы известную информацию о динамике системы и, следовательно, не была бы априорной вероятностью. ^[22] Таким образом, область при дифференцировании по времени дает ноль (с помощью уравнений Гамильтона): Объем в момент времени такой же, как и в нулевой момент времени. Это также описывается как сохранение информации. $V$ $q_{i}$ $p_{i}$ $\Delta q\Delta p$ $h$ $\Delta q$ $q$ $\Delta p$ $p$ $L$ $L\Delta p/h$ $V$ $V4\pi p^{2}\Delta p/h^{3}$ $\epsilon ={\bf {p}}^{2}/2m$ $V=L^{3}$ $\psi \propto \sin(l\pi x/L)\sin(m\pi y/L)\sin(n\pi z/L),$ $l,m,n$ $(l,m,n)$ $p,p+dp,p^{2}={\bf {p}}^{2},$ $V4\pi p^{2}dp/h^{3}$ $\Delta q\Delta p\geq h,$ $\Omega :={\frac {\Delta q\Delta p}{\int \Delta q\Delta p}},\;\;\;\int \Delta q\Delta p=\mathrm {const.} ,$ $t$ $t$

В полной квантовой теории имеется аналогичный закон сохранения. В этом случае область фазового пространства заменяется подпространством пространства состояний, выраженным в терминах проекционного оператора , а вместо вероятности в фазовом пространстве имеется плотность вероятности , где - размерность подпространства. Закон сохранения в этом случае выражается унитарностью S-матрицы . В любом случае, рассмотрения предполагают замкнутую изолированную систему. Эта замкнутая изолированная система является системой с (1) фиксированной энергией и (2) фиксированным числом частиц в (c) состоянии равновесия. Если рассмотреть огромное количество копий этой системы, то получится то, что называется микроканоническим ансамблем . Именно для этой системы в квантовой статистике постулируется «фундаментальный постулат равных априорных вероятностей изолированной системы». Он гласит, что изолированная система в равновесии занимает каждое из своих доступных состояний с одинаковой вероятностью. Этот фундаментальный постулат позволяет нам, таким образом, приравнять априорную вероятность к вырождению системы, т.е. к числу различных состояний с одинаковой энергией. $P$ $\Sigma :={\frac {P}{{\text{Tr}}(P)}},\;\;\;N={\text{Tr}}(P)=\mathrm {const.} ,$ $N$ $E$ $N$

Пример

Следующий пример иллюстрирует априорную вероятность (или априорное взвешивание) в (а) классическом и (б) квантовом контекстах.

Классическая априорная вероятность
Рассмотрим вращательную энергию E двухатомной молекулы с моментом инерции I в сферических полярных координатах (это означает, что выше здесь ), т.е. -кривая для постоянного E и представляет собой эллипс площадью Интегрируя по и полный объем фазового пространства, охватываемого для постоянной энергии E, равен и, следовательно, классическое априорное взвешивание в диапазоне энергий равно $\theta ,\phi$ $q$ $\theta ,\phi$ $E={\frac {1}{2I}}\left(p_{\theta }^{2}+{\frac {p_{\phi }^{2}}{\sin ^{2}\theta }}\right).$ $(p_{\theta },p_{\phi })$ $\theta$ $\oint dp_{\theta }dp_{\phi }=\pi {\sqrt {2IE}}{\sqrt {2IE}}\sin \theta =2\pi IE\sin \theta .$ $\theta$ $\phi$ $\int _{0}^{\phi =2\pi }\int _{0}^{\theta =\pi }2I\pi E\sin \theta d\theta d\phi =8\pi ^{2}IE=\oint dp_{\theta }dp_{\phi }d\theta d\phi ,$ $dE$
$\Omega \propto$ (объем фазового пространства при ) минус (объем фазового пространства при ) определяется по формуле $E+dE$ $E$ $8{\pi }^{2}IdE.$
Квантовая априорная вероятность
Предполагая, что число квантовых состояний в диапазоне для каждого направления движения задается, на элемент, множителем , число состояний в диапазоне энергий dE равно, как показано в (a) для вращающейся двухатомной молекулы. Из волновой механики известно, что уровни энергии вращающейся двухатомной молекулы задаются тем, что каждый такой уровень вырожден в (2n+1) раз. Оценивая, получаем Таким образом, сравнивая с вышеизложенным, находим, что приблизительное число состояний в диапазоне dE задается вырождением, т. е. Таким образом, априорное взвешивание в классическом контексте (a) соответствует априорному взвешиванию здесь, в квантовом контексте (b). В случае одномерного простого гармонического осциллятора собственной частоты находим соответственно: (a) и (b) (вырождения нет). Таким образом, в квантовой механике априорная вероятность фактически является мерой вырождения , т. е. числа состояний, имеющих одинаковую энергию. $\Delta q\Delta p$ $\Delta q\Delta p/h$ $8\pi ^{2}IdE/h^{2}$ $E_{n}={\frac {n(n+1)h^{2}}{8\pi ^{2}I}},$ $dn/dE_{n}=1/(dE_{n}/dn)$ ${\frac {dn}{dE_{n}}}={\frac {8\pi ^{2}I}{(2n+1)h^{2}}},\;\;\;(2n+1)dn={\frac {8\pi ^{2}I}{h^{2}}}dE_{n}.$ $\Omega$ $\Sigma \propto (2n+1)dn.$ $\nu$ $\Omega \propto dE/\nu$ $\Sigma \propto dn$
В случае атома водорода или кулоновского потенциала (где оценка объема фазового пространства при постоянной энергии более сложна) известно, что квантово-механическое вырождение имеет место при . Таким образом, в этом случае . $n^{2}$ $E\propto 1/n^{2}$ $\Sigma \propto n^{2}dn$

Априорные функции вероятности и распределения

В статистической механике (см. любую книгу) выводятся так называемые функции распределения для различных статистик. В случае статистики Ферми–Дирака и статистики Бозе–Эйнштейна эти функции соответственно Эти функции выводятся для (1) системы в динамическом равновесии (т. е. в стационарных, однородных условиях) с (2) полным (и огромным) числом частиц (это условие определяет константу ), и (3) полной энергией , т. е. с каждой из частиц, имеющей энергию . Важным аспектом при выводе является учет неразличимости частиц и состояний в квантовой статистике, т. е. там частицы и состояния не имеют меток. В случае фермионов, таких как электроны, подчиняющихся принципу Паули (только одна частица на состояние или ни одной), следовательно, Таким образом , является мерой доли состояний, фактически занятых электронами при энергии и температуре . С другой стороны, априорная вероятность является мерой числа доступных волновых механических состояний. Следовательно, поскольку является постоянным при однородных условиях (столько же частиц, сколько вытекает из элемента объема, также втекает постоянно, так что ситуация в элементе кажется статической), т.е. не зависит от времени , и также не зависит от времени , как было показано ранее, мы получаем Выражая это уравнение через его частные производные, получаем уравнение переноса Больцмана . Как здесь внезапно появляются координаты и т.д.? Выше не было упомянуто об электрических или других полях. Таким образом, при отсутствии таких полей мы имеем распределение Ферми-Дирака, как указано выше. Но при наличии таких полей мы имеем эту дополнительную зависимость от . $f$ $f_{i}^{FD}={\frac {1}{e^{(\epsilon _{i}-\epsilon _{0})/kT}+1}},\quad f_{i}^{BE}={\frac {1}{e^{(\epsilon _{i}-\epsilon _{0})/kT}-1}}.$ $N=\Sigma _{i}n_{i}$ $\epsilon _{0}$ $E=\Sigma _{i}n_{i}\epsilon _{i}$ $n_{i}$ $\epsilon _{i}$ $0\leq f_{i}^{FD}\leq 1,\quad {\text{whereas}}\quad 0\leq f_{i}^{BE}\leq \infty .$ $f_{i}^{FD}$ $\epsilon _{i}$ $T$ $g_{i}$ $n_{i}=f_{i}g_{i}.$ $n_{i}$ $t$ $g_{i}$ $t$ ${\frac {df_{i}}{dt}}=0,\quad f_{i}=f_{i}(t,{\bf {v}}_{i},{\bf {r}}_{i}).$ ${\bf {r}}$ $f$

Смотрите также

Примечания

^ Роберт, Кристиан (1994). «От априорной информации к априорным распределениям». Байесовский выбор . Нью-Йорк: Springer. С. 89–136. ISBN 0-387-94296-3.
^ Чалонер, Кэтрин (1996). «Выявление априорных распределений». В Берри, Дональд А.; Стэнгл, Дален (ред.). Байесовская биостатистика . Нью-Йорк: Марсель Деккер. стр. 141–156. ISBN 0-8247-9334-X.
^ Миккола, Петрус и др. (2023). «Извлечение предшествующих знаний: прошлое, настоящее и будущее». Байесовский анализ . Готовится к публикации. doi : 10.1214/23-BA1381. hdl : 11336/183197 . S2CID 244798734.
^ Иказатти, Алехандро; Абрил-Пла, Ориоль; Клами, Арто; Мартин, Освальдо А. (сентябрь 2023 г.). «PreliZ: набор инструментов для предварительного выявления». Журнал программного обеспечения с открытым исходным кодом . doi : 10.21105/joss.05499 .
^ ab Zellner, Arnold (1971). "Предшествующие распределения для представления "знания малого"". Введение в байесовский вывод в эконометрике . Нью-Йорк: John Wiley & Sons. С. 41–53. ISBN 0-471-98165-6.
^ Прайс, Гарольд Дж.; Мэнсон, Эллисон Р. (2001). «Неинформативные априорные данные для теоремы Байеса». AIP Conf. Proc . 617 : 379–391. doi :10.1063/1.1477060.
^ Piironen, Juho; Vehtari, Aki (2017). «Информация о разреженности и регуляризация в подкове и других априорных распределениях сжатия». Electronic Journal of Statistics . 11 (2): 5018–5051. arXiv : 1707.01694 . doi : 10.1214/17-EJS1337SI .
^ Симпсон, Дэниел и др. (2017). «Наказание за сложность компонентов модели: принципиальный практический подход к построению априорных вероятностей». Статистическая наука . 32 (1): 1–28. arXiv : 1403.4630 . doi : 10.1214/16-STS576. S2CID 88513041.
^ Фортуин, Винсент (2022). «Априорные знания в байесовском глубоком обучении: обзор». Международный статистический обзор . 90 (3): 563–591. doi : 10.1111/insr.12502. hdl : 20.500.11850/547969 . S2CID 234681651.
^ Конгдон, Питер Д. (2020). «Методы регрессии с использованием иерархических априорных данных». Байесовские иерархические модели (2-е изд.). Бока-Ратон: CRC Press. стр. 253–315. ISBN 978-1-03-217715-1.
^ Флоренс, Жан-Пьер; Мушар, Майкл; Ролен, Жан-Мари (1990). «Аргументы инвариантности в байесовской статистике». Экономическое принятие решений: игры, эконометрика и оптимизация . Северная Голландия. С. 351–367. ISBN 0-444-88422-X.
^ ab Jaynes, Edwin T. (сентябрь 1968 г.). «Априорные вероятности» (PDF) . IEEE Transactions on Systems Science and Cybernetics . 4 (3): 227–241. doi :10.1109/TSSC.1968.300117.
^ Это априорное значение было предложено Дж. Б. С. Холдейном в «Заметке об обратной вероятности», Математические труды Кембриджского философского общества 28, 55–61, 1932, doi :10.1017/S0305004100010495. См. также Дж. Холдейн, «Точность наблюдаемых значений малых частот», Biometrika, 35:297–300, 1948, doi :10.2307/2332350, JSTOR 2332350.
^ Датта, Гаури Санкар; Мукерджи, Рахул (2004). Вероятностное соответствие априорных распределений: асимптотика высшего порядка . Springer. ISBN 978-0-387-20329-4.
^ Эсфахани, М.С.; Догерти, Э.Р. (2014). «Включение знаний о биологических путях в построение априорных значений для оптимальной байесовской классификации — журналы и журналы IEEE». Труды IEEE/ACM по вычислительной биологии и биоинформатике . 11 (1): 202–18. doi :10.1109/TCBB.2013.143. PMID 26355519. S2CID 10096507.
^ Болуки, Шахин; Эсфахани, Мохаммад Шахрох; Цянь, Сяонин; Догерти, Эдвард Р. (декабрь 2017 г.). «Включение биологических априорных знаний для байесовского обучения с помощью максимальных априорных знаний». BMC Bioinformatics . 18 (S14): 552. doi : 10.1186/s12859-017-1893-4 . ISSN 1471-2105. PMC 5751802. PMID 29297278 .
↑ Jaynes (1968), стр. 17, см. также Jaynes (2003), глава 12. Обратите внимание, что глава 12 недоступна в онлайн-препринте, но ее можно просмотреть через Google Books.
^ Дэвид, А. П.; Стоун, М.; Зидек, Дж. В. (1973). «Парадоксы маргинализации в байесовском и структурном выводе». Журнал Королевского статистического общества . Серия B (Методологическая). 35 (2): 189–233. JSTOR 2984907.
^ Кристенсен, Рональд; Джонсон, Уэсли; Бранскум, Адам; Хансон, Тимоти Э. (2010). Байесовские идеи и анализ данных: введение для ученых и статистиков . Хобокен: CRC Press. стр. 69. ISBN 9781439894798.
^ Iba, Y. (1989). «Байесовская статистика и статистическая механика». В Takayama, H. (ред.). Кооперативная динамика в сложных физических системах . Springer Series in Synergetics. Vol. 43. Berlin: Springer. pp. 235–236. doi :10.1007/978-3-642-74554-6_60. ISBN 978-3-642-74556-0.
^ Мюллер-Кирстен, HJW (2013). Основы статистической физики (2-е изд.). Сингапур: World Scientific. Глава 6.
^ Бен-Наим, А. (2007). Энтропия демистифицирована . Сингапур: World Scientific.

Ссылки

Бауэнс, Люк; Лубрано, Мишель; Ришар, Жан-Франсуа (1999). «Априорные плотности для модели регрессии». Байесовский вывод в динамических эконометрических моделях . Oxford University Press. стр. 94–128. ISBN 0-19-877313-7.
Рубин, Дональд Б.; Гельман, Эндрю ; Джон Б. Карлин; Стерн, Хэл (2003). Байесовский анализ данных (2-е изд.). Бока-Ратон: Chapman & Hall/CRC. ISBN 978-1-58488-388-3. МР 2027492.
Бергер, Джеймс О. (1985). Статистическая теория принятия решений и байесовский анализ . Берлин: Springer-Verlag. ISBN 978-0-387-96098-2. МР 0804611.
Бергер, Джеймс О.; Страудерман, Уильям Э. (1996). «Выбор иерархических априорных значений: допустимость оценки нормальных средних». Annals of Statistics . 24 (3): 931–951. doi : 10.1214/aos/1032526950 . MR 1401831. Zbl 0865.62004.
Бернардо, Хосе М. (1979). «Эталонные апостериорные распределения для байесовского вывода». Журнал Королевского статистического общества, Серия B. 41 ( 2): 113–147. JSTOR 2985028. MR 0547240.
Джеймс О. Бергер ; Хосе М. Бернардо ; Дунчу Сан (2009). «Формальное определение справочных априорных вероятностей». Annals of Statistics . 37 (2): 905–938. arXiv : 0904.0156 . Bibcode : 2009arXiv0904.0156B. doi : 10.1214/07-AOS587. S2CID 3221355.
Джейнс, Эдвин Т. (2003). Теория вероятностей: логика науки. Cambridge University Press. ISBN 978-0-521-59271-0.
Williamson, Jon (2010). "review of Bruno di Finetti. Philosophical Lectures on Probability" (PDF) . Philosophia Mathematica . 18 (1): 130–135. doi :10.1093/philmat/nkp019. Архивировано из оригинала (PDF) 2011-06-09 . Получено 2010-07-02 .

Внешние ссылки

PriorDB — совместная база данных моделей и их априорных значений