Логарифм вероятности

В теории вероятностей и информатике логарифм вероятности — это просто логарифм вероятности . [ ^1] Использование логарифмов вероятностей означает представление вероятностей в логарифмическом масштабе вместо стандартного единичного интервала . $(-\inf ,0]$ $[0,1]$

Поскольку вероятности независимых событий умножаются, а логарифмы преобразуют умножение в сложение, логарифмические вероятности независимых событий складываются. Таким образом, логарифмические вероятности практичны для вычислений и имеют интуитивную интерпретацию в терминах теории информации : отрицательное ожидаемое значение логарифмических вероятностей является информационной энтропией события. Аналогично, правдоподобия часто преобразуются в логарифмическую шкалу, и соответствующее логарифмическое правдоподобие может быть интерпретировано как степень, в которой событие поддерживает статистическую модель . Логарифмическая вероятность широко используется в реализациях вычислений с вероятностью и изучается как самостоятельная концепция в некоторых приложениях теории информации, таких как обработка естественного языка .

Мотивация

Представление вероятностей таким образом имеет несколько практических преимуществ:

Скорость. Поскольку умножение обходится дороже сложения , произведение большого количества вероятностей часто выполняется быстрее, если они представлены в логарифмической форме. (Преобразование в логарифмическую форму обходится дорого, но выполняется только один раз.) Умножение возникает из расчета вероятности того, что произойдет несколько независимых событий: вероятность того, что произойдут все независимые события, представляющие интерес, является произведением вероятностей всех этих событий.
Точность. Использование логарифмических вероятностей улучшает численную устойчивость , когда вероятности очень малы, из-за способа, которым компьютеры аппроксимируют действительные числа . ^[1]
Простота. Многие распределения вероятностей имеют экспоненциальную форму. Взятие логарифма этих распределений устраняет экспоненциальную функцию, разворачивая показатель. Например, логарифм вероятности функции плотности вероятности нормального распределения равен вместо . Логарифм вероятности упрощает выполнение некоторых математических манипуляций. $-((x-m_{x})/\sigma _{m})^{2}+C$ $C_{2}\exp \left(-((x-m_{x})/\sigma _{m})^{2}\right)$
Оптимизация. Поскольку большинство распространенных распределений вероятностей — в частности, экспоненциальное семейство — являются только логарифмически вогнутыми ^[2]^[3], а вогнутость целевой функции играет ключевую роль в максимизации такой функции, как вероятность, оптимизаторы лучше работают с логарифмическими вероятностями.

Вопросы представительства

Функция логарифма не определена для нуля, поэтому логарифмические вероятности могут представлять только ненулевые вероятности. Поскольку логарифм числа в интервале отрицателен, часто используются отрицательные логарифмические вероятности. В этом случае логарифмические вероятности в следующих формулах будут инвертированы . $(0,1)$

Для логарифма можно выбрать любое основание.

Базовые манипуляции

В этом разделе мы будем называть вероятности в логарифмическом пространстве и для краткости: $x'$ $y'$

x'=\log(x)\in \mathbb {R}

y'=\log(y)\in \mathbb {R}

Произведение вероятностей соответствует сложению в логарифмическом пространстве. $x\cdot y$

\log(x\cdot y)=\log(x)+\log(y)=x'+y'.

Сумма вероятностей немного сложнее для вычисления в логарифмическом пространстве, требуя вычисления одной экспоненты и одного логарифма. $x+y$

Однако во многих приложениях умножение вероятностей (дающее вероятность наступления всех независимых событий) используется чаще, чем их сложение (дающее вероятность наступления хотя бы одного из взаимоисключающих событий). Кроме того, в некоторых ситуациях можно избежать затрат на вычисление сложения, просто используя наивысшую вероятность в качестве приближения. Поскольку вероятности неотрицательны, это дает нижнюю границу. Это приближение используется в обратном порядке для получения непрерывного приближения функции max .

Добавление в лог-пространство

{\begin{align}&\log(x+y)\\={}&\log(x+x\cdot y/x)\\={}&\log(x+x\cdot \exp(\log(y/x)))\\={}&\log(x\cdot (1+\exp(\log(y)-\log(x))))\\={}&\log(x)+\log(1+\exp(\log(y)-\log(x)))\\={}&x'+\log \left(1+\exp \left(y'-x'\right)\right)\end{align}}

Формула выше точнее, чем , при условии использования асимметрии в формуле сложения. должно быть большим (наименее отрицательным) из двух операндов. Это также обеспечивает правильное поведение, если один из операндов — это плавающая отрицательная бесконечность , что соответствует вероятности нуля. $\log \left(e^{x'}+e^{y'}\right)$ ${x'}$

-\infty +\log \left(1+\exp \left(y'-(-\infty )\right)\right)=-\infty +\infty

Эта величина неопределена и даст результат NaN .

x'+\log \left(1+\exp \left(-\infty -x'\right)\right)=x'+0

Это и есть желаемый ответ.

Приведенная выше формула сама по себе будет неправильно давать неопределенный результат в случае, когда оба аргумента равны . Это следует проверять отдельно, чтобы вернуть . $-\infty$ $-\infty$

По численным причинам следует использовать функцию, которая вычисляет ( log1p ) напрямую. $\log(1+x)$

Смотрите также

Ссылки

^ ab Piech, Chris. "Вероятность для компьютерных ученых - Логарифмические вероятности" . Получено 20 июля 2023 г. .
^ Касс, Роберт Э.; Вос, Пол В. (1997). Геометрические основы асимптотического вывода. Нью-Йорк: John Wiley & Sons. стр. 14. ISBN 0-471-82668-5.
^ Пападопулос, Алекос (25 сентября 2013 г.). «Почему мы всегда ставим log() перед совместной pdf, когда используем MLE (оценку максимального правдоподобия)?». Stack Exchange .