stringtranslate.com

Метод Лапласа

В математике метод Лапласа , названный в честь Пьера-Симона Лапласа , представляет собой технику, используемую для аппроксимации интегралов вида

где — дважды дифференцируемая функция , — большое число , а конечные точки и могут быть бесконечными. Этот метод был первоначально представлен в книге Лапласа (1774).

В байесовской статистике приближение Лапласа может относиться либо к приближению апостериорной нормализующей константы методом Лапласа, либо к приближению апостериорного распределения с помощью гауссовского распределения, центрированного на максимуме апостериорной оценки . [1] [2] Приближения Лапласа используются в методе интегрированных вложенных приближений Лапласа для быстрых приближений байесовского вывода .

Концепция

имеет глобальный максимум при . показан сверху для и снизу для (оба синим цветом). По мере роста аппроксимация этой функции гауссовой функцией (показана красным цветом) улучшается. Это наблюдение лежит в основе метода Лапласа.

Пусть функция имеет единственный глобальный максимум при . Здесь — константа. Рассматриваются следующие две функции:

Тогда, является глобальным максимумом и также. Следовательно:

С ростом M отношение для будет расти экспоненциально, тогда как отношение для не изменится. Таким образом, значимый вклад в интеграл этой функции будет исходить только от точек в окрестности , которые затем можно оценить.

Общая теория

Чтобы сформулировать и мотивировать метод, необходимо сделать несколько предположений. Предполагается, что не является конечной точкой интервала интегрирования и что значения не могут быть очень близки к, если только не близки к .

может быть расширена вокруг x 0 по теореме Тейлора ,

где (см.: обозначение «большое О» ).

Так как имеет глобальный максимум при , и не является конечной точкой, то это стационарная точка , т.е. . Поэтому аппроксимирующий полином Тейлора второго порядка имеет вид

Затем, всего один шаг нужен, чтобы получить распределение Гаусса. Поскольку является глобальным максимумом функции, можно утверждать, по определению второй производной , что , таким образом, давая соотношение

для близко к . Интеграл тогда можно аппроксимировать с помощью:

Если этот последний интеграл становится гауссовым интегралом, если мы заменим пределы интегрирования на и ; когда велико, это создает лишь небольшую ошибку, поскольку экспонента очень быстро убывает вдали от . Вычисляя этот гауссовский интеграл, мы получаем:

Обобщение этого метода и его расширение до произвольной точности дано в книге Fog (2008).

Официальное заявление и доказательство

Предположим, что — дважды непрерывно дифференцируемая функция на и существует единственная точка такая, что:

Затем:

Доказательство

Нижняя граница: Пусть . Так как непрерывно, то существует такое, что если то По теореме Тейлора для любого

Тогда имеем следующую нижнюю границу:

где последнее равенство получено путем замены переменных

Запомните , чтобы мы могли извлечь квадратный корень из его отрицания.

Если мы разделим обе части приведенного выше неравенства на

и берем предел, получаем:

поскольку это верно для произвольного, то получаем нижнюю границу:

Обратите внимание, что это доказательство работает также, когда или (или оба).

Верхняя граница: Доказательство похоже на доказательство нижней границы, но есть несколько неудобств. Мы снова начинаем с выбора , но для того, чтобы доказательство сработало, нам нужно достаточно малое значение, чтобы Тогда, как и выше, по непрерывности и теореме Тейлора мы можем найти , чтобы если , то

Наконец, по нашим предположениям (предполагая, что они конечны) существует такое, что если , то .

Тогда мы можем вычислить следующую верхнюю границу:

Если мы разделим обе части приведенного выше неравенства на

и берем предел, получаем:

Поскольку является произвольным, то получаем верхнюю границу:

А объединение этого с нижней границей дает результат.

Обратите внимание, что приведенное выше доказательство, очевидно, не работает, когда или (или оба). Чтобы разобраться с этими случаями, нам нужны некоторые дополнительные предположения. Достаточное (не необходимое) предположение заключается в том, что для

и что число , указанное выше, существует (обратите внимание, что это должно быть предположением в случае, когда интервал бесконечен). Доказательство продолжается в остальном, как и выше, но с немного иной аппроксимацией интегралов:

Когда мы делим на

мы получаем для этого термина

предел которого равен . Остальная часть доказательства (анализ интересующего термина) продолжается так же, как и выше.

Данное условие в случае бесконечного интервала, как сказано выше, является достаточным, но не необходимым. Однако, это условие выполняется во многих, если не в большинстве, приложениях: условие просто говорит, что интеграл, который мы изучаем, должен быть хорошо определен (не бесконечен) и что максимум функции при должен быть «истинным» максимумом (число должно существовать). Нет необходимости требовать, чтобы интеграл был конечным для , но достаточно потребовать, чтобы интеграл был конечным для некоторого

Этот метод опирается на 4 основные концепции, такие как:

Концепции
1. Относительная погрешность

«Приближение» в этом методе связано с относительной ошибкой , а не с абсолютной ошибкой . Поэтому, если мы установим

интеграл можно записать как

где - небольшое число, когда - большое число, очевидно, и относительная погрешность будет

Теперь разделим этот интеграл на две части: область и остальное.

2. вокруг неподвижной точки , когда достаточно большой

Давайте рассмотрим разложение Тейлора около x 0 и переведем x в y, поскольку мы делаем сравнение в y-пространстве, мы получим

Обратите внимание, что поскольку — стационарная точка. Из этого уравнения вы увидите, что члены выше второй производной в этом разложении Тейлора подавляются как порядок , так что это приблизится к гауссовой функции, как показано на рисунке. Кроме того,

Фигура с равна 1, 2 и 3, а красная линия — это кривая функции .
3. Чем больше , тем меньше диапазон связан

Поскольку мы выполняем сравнение в y-пространстве, фиксировано , что приведет к ; однако обратно пропорционально , ​​выбранная область будет меньше при увеличении .

4. Если интеграл в методе Лапласа сходится, то вклад области, не лежащей вокруг стационарной точки интегрирования, в его относительную погрешность будет стремиться к нулю с ростом .

Опираясь на 3-ю концепцию, даже если мы выберем очень большое D y , sD y в конечном итоге станет очень маленьким числом, когда увеличится до огромного числа. Тогда как мы можем гарантировать, что интеграл остатка будет стремиться к 0, когда достаточно велико?

Основная идея заключается в том, чтобы найти функцию такую, что и интеграл от будет стремиться к нулю при росте. Поскольку показательная функция от всегда будет больше нуля, пока является действительным числом, и эта показательная функция пропорциональна интегралу от будет стремиться к нулю. Для простоты выберем в качестве касательной через точку , как показано на рисунке:

обозначается двумя касательными , проходящими через . При уменьшении область покрытия будет больше.

Если интервал интегрирования этого метода конечен, то мы обнаружим, что как бы материя ни продолжалась в области покоя, она всегда будет меньше, чем показано выше, когда достаточно велика. Кстати, позже будет доказано, что интеграл от будет стремиться к нулю, когда достаточно велика.

Если интервал интегрирования этого метода бесконечен, и всегда могут пересекаться друг с другом. Если так, мы не можем гарантировать, что интеграл от будет стремиться к нулю в конечном итоге. Например, в случае всегда будет расходиться. Поэтому нам нужно потребовать, чтобы могло сходиться для случая бесконечного интервала. Если так, этот интеграл будет стремиться к нулю, когда достаточно велико, и мы можем выбрать это как крест и

Вы можете спросить, почему бы не выбрать в качестве сходящегося интеграла? Позвольте мне использовать пример, чтобы показать вам причину. Предположим, что оставшаяся часть равна тогда и ее интеграл будет расходиться; однако, когда интеграл от сходится. Таким образом, интеграл некоторых функций будет расходиться, когда не является большим числом, но они будут сходиться, когда является достаточно большим.

На основе этих четырех концепций мы можем вывести относительную погрешность данного метода.

Другие формулировки

Приближение Лапласа иногда записывают как

где положительно.

Важно отметить, что точность аппроксимации зависит от переменной интегрирования, то есть от того, что остается , а что уходит [3].

Вывод его относительной погрешности

Во-первых, используйте для обозначения глобального максимума, что упростит этот вывод. Нас интересует относительная ошибка, записанная как ,

где

Итак, если мы позволим

и мы можем получить

с .

Для верхней границы отметим, что таким образом мы можем разделить эту интеграцию на 5 частей с 3 различными типами (a), (b) и (c) соответственно. Следовательно,

где и подобны, давайте просто посчитаем и и подобны тоже, я просто посчитаю .

Для , после перевода , мы можем получить

Это означает, что пока оно достаточно велико, оно будет стремиться к нулю.

Для , мы можем получить

где

и должны иметь тот же знак в этой области. Выберем в качестве касательной через точку в , т.е. которая показана на рисунке

— касательные линии, проходящие через точку .

Из этого рисунка вы можете увидеть, что когда или становится меньше, область, удовлетворяющая указанному выше неравенству, станет больше. Поэтому, если мы хотим найти подходящий для покрытия всего в течение интервала , будет иметь верхний предел. Кроме того, поскольку интегрирование простое, позвольте мне использовать его для оценки относительной ошибки, вносимой этим .

На основе разложения Тейлора мы можем получить

и

и затем подставьте их обратно в расчет ; однако, вы можете обнаружить, что остатки этих двух расширений оба обратно пропорциональны квадратному корню из , позвольте мне опустить их, чтобы украсить расчет. Сохранить их лучше, но это сделает формулу уродливее.

Следовательно, при увеличении он будет стремиться к нулю , но не забывайте, что при этом расчете следует учитывать верхнюю границу .

Что касается интегрирования вблизи , мы также можем использовать теорему Тейлора для его вычисления. Когда

и вы можете обнаружить, что он обратно пропорционален квадратному корню из . Фактически, будет вести себя так же, когда является константой.

В заключение следует отметить, что интеграл вблизи стационарной точки будет уменьшаться по мере увеличения, а остальные части будут стремиться к нулю, пока достаточно велики; однако, нам нужно помнить, что имеет верхний предел, который определяется тем, всегда ли функция больше, чем в области покоя. Однако, пока мы можем найти удовлетворяющее этому условию, верхнюю границу можно выбрать прямо пропорциональной, поскольку является касательной через точку в . Таким образом, чем больше , тем больше может быть.

В многомерном случае, где — вектор размерности, а — скалярная функция , приближение Лапласа обычно записывается как:

где — матрица Гессе для вычисляется при , а где обозначает определитель матрицы . Аналогично одномерному случаю, требуется, чтобы Гессе был отрицательно определенным . [4]

Кстати, хотя обозначает -мерный вектор, здесь термин обозначает бесконечно малый объем , т.е. .

Самый крутой спуск

В расширениях метода Лапласа комплексный анализ , и в частности интегральная формула Коши , используется для нахождения контура наискорейшего спуска для (асимптотически при больших M ) эквивалентного интеграла, выраженного как линейный интеграл . В частности, если на действительной прямой не существует точки x 0 , где производная обращается в нуль, может потребоваться деформировать контур интегрирования до оптимального, где вышеприведенный анализ будет возможен. Опять же, основная идея состоит в том, чтобы свести, по крайней мере асимптотически, вычисление данного интеграла к вычислению более простого интеграла, который может быть явно оценен. См. книгу Эрдели (1956) для простого обсуждения (где метод называется наискорейшими спусками ).

Соответствующая формулировка для комплексной z -плоскости имеет вид

для пути, проходящего через седловую точку при z 0 . Обратите внимание на явное появление знака минус для указания направления второй производной: не нужно брать модуль. Также обратите внимание, что если подынтегральное выражение мероморфно , может потребоваться добавить остатки, соответствующие полюсам, пройденным при деформации контура (см., например, раздел 3 статьи Окунькова Симметричные функции и случайные разбиения ).

Дальнейшие обобщения

Расширением метода наискорейшего спуска является так называемый нелинейный метод стационарной фазы/наискорейшего спуска . Здесь вместо интегралов нужно асимптотически оценивать решения задач факторизации Римана–Гильберта .

При наличии контура C в комплексной сфере , функции, определенной на этом контуре, и особой точки, такой как бесконечность, голоморфная функция M ищется вне C , с заданным скачком через C и с заданной нормировкой на бесконечности. Если и, следовательно, M являются матрицами, а не скалярами, то это проблема, которая в общем случае не допускает явного решения.

Асимптотическая оценка тогда возможна по линии линейного метода стационарной фазы/скорейшего спуска. Идея состоит в том, чтобы асимптотически свести решение данной задачи Римана–Гильберта к решению более простой, явно решаемой задачи Римана–Гильберта. Теорема Коши используется для обоснования деформаций контура скачка.

Нелинейная стационарная фаза была введена Дейфтом и Чжоу в 1993 году на основе более ранней работы Итса. (Собственно говоря) нелинейный метод наискорейшего спуска был введен Камвиссисом, К. Маклафлином и П. Миллером в 2003 году на основе более ранней работы Лакса, Левермора, Дейфта, Венакидеса и Чжоу. Как и в линейном случае, «контуры наискорейшего спуска» решают задачу минимума-максимума. В нелинейном случае они оказываются «S-кривыми» (определенными в другом контексте еще в 80-х годах Шталем, Гончаром и Рахмановым).

Нелинейный метод стационарной фазы/наискорейшего спуска применяется в теории солитонных уравнений и интегрируемых моделей , случайных матриц и комбинаторике .

Обобщение аппроксимации медианной точки

В обобщении оценка интеграла считается эквивалентной нахождению нормы распределения с плотностью

Обозначим кумулятивное распределение , если существует диффеоморфное гауссовское распределение с плотностью

норма определяется как

и соответствующий диффеоморфизм есть

где обозначает кумулятивную стандартную нормальную функцию распределения .

В общем случае любое распределение, диффеоморфное гауссовскому, имеет плотность

и медианная точка отображается в медиану гауссовского распределения. Сопоставление логарифма функций плотности и их производных в медианной точке до заданного порядка дает систему уравнений, которые определяют приближенные значения и .

Приближение было введено в 2019 году Д. Макогоном и К. Мораисом Смитом, в первую очередь, в контексте оценки статистической суммы для системы взаимодействующих фермионов. [5]

Комплексные интегралы

Для комплексных интегралов в виде:

с помощью подстановки t = iu и замены переменной получаем двустороннее преобразование Лапласа:

Затем мы разделяем g ( c + ix ) на действительную и комплексную части, после чего восстанавливаем u = t / i . Это полезно для обратных преобразований Лапласа , формулы Перрона и комплексного интегрирования.

Пример: приближение Стерлинга

Метод Лапласа можно использовать для вывода приближения Стирлинга.

для большого целого числа N. Из определения гамма-функции имеем

Теперь изменим переменные, так что Подставим эти значения обратно, чтобы получить

Этот интеграл имеет вид, необходимый для метода Лапласа с

которая дважды дифференцируема:

Максимум лежит при z 0 = 1, а вторая производная в этой точке имеет значение −1. Следовательно, получаем

Смотрите также

Примечания

  1. ^ Тирни, Люк; Кадане, Джозеф Б. (1986). «Точные аппроксимации для апостериорных моментов и предельных плотностей». J. Amer. Statist. Assoc . 81 (393): 82–86. doi :10.1080/01621459.1986.10478240.
  2. ^ Амарал Туркман, М. Антония; Паулино, Карлос Даниэль; Мюллер, Питер (2019). «Методы, основанные на аналитических аппроксимациях». Вычислительная байесовская статистика: введение . Cambridge University Press. стр. 150–171. ISBN 978-1-108-70374-1.
  3. ^ Батлер, Рональд В. (2007). Седловые приближения и приложения . Cambridge University Press. ISBN 978-0-521-87250-8.
  4. ^ MacKay, David JC (сентябрь 2003 г.). Теория информации, вывод и алгоритмы обучения. Кембридж: Cambridge University Press. ISBN 9780521642989.
  5. ^ Makogon, D.; Morais Smith, C. (2022-05-03). «Приближение медианной точки и его применение для изучения фермионных систем». Physical Review B. 105 ( 17): 174505. Bibcode : 2022PhRvB.105q4505M. doi : 10.1103/PhysRevB.105.174505. hdl : 1874/423769 . S2CID  203591796.

Ссылки

В данной статье использованы материалы из книги «Аппроксимация седловой точки» на сайте PlanetMath , которая распространяется по лицензии Creative Commons Attribution/Share-Alike License .