Байесовский вывод

Байесовский вывод ( / ˈ b eɪ z i ən / BAY -zee-ən или / ˈ b eɪ ʒ ən / BAY -zhən ) ^[1] — это метод статистического вывода, в котором теорема Байеса используется для обновления вероятности для гипотезу по мере появления новых доказательств или информации . По сути, байесовский вывод использует априорные знания в форме априорного распределения для оценки апостериорных вероятностей. Байесовский вывод — важный метод в статистике , особенно в математической статистике . Байесовское обновление особенно важно при динамическом анализе последовательности данных . Байесовский вывод нашел применение в широком спектре деятельности, включая науку , инженерное дело , философию , медицину , спорт и право . В философии теории принятия решений байесовский вывод тесно связан с субъективной вероятностью, часто называемой « байесовской вероятностью ».

Введение в правило Байеса

Формальное объяснение

Байесовский вывод выводит апостериорную вероятность как следствие двух антецедентов : априорной вероятности и « функции правдоподобия », полученной из статистической модели для наблюдаемых данных. Байесовский вывод вычисляет апостериорную вероятность в соответствии с теоремой Байеса :

P(H\mid E) = {\frac {P(E\mid H)\cdot P(H)}{P(E)}},

$H$ обозначает любую гипотезу , на вероятность которой могут повлиять данные ( ниже называемые доказательствами ). Часто существуют конкурирующие гипотезы, и задача состоит в том, чтобы определить, какая из них наиболее вероятна.
${\ displaystyle P (H)}$ , априорная вероятность , является оценкой вероятности гипотезы до того, как данные , текущие доказательства, будут наблюдаться. $H$ $E$
$E$ , свидетельство , соответствует новым данным, которые не использовались при вычислении априорной вероятности.
$P (H\mid E)$ , апостериорная вероятность , является вероятностью данного , т. е. после того, как наблюдается. Вот что мы хотим знать: вероятность гипотезы с учетом наблюдаемых данных. $H$ $E$ $E$
${\ displaystyle P (E \ Mid H)}$ это вероятность наблюдения данного и называется правдоподобием . Как функция при фиксированном, он указывает на совместимость доказательств с данной гипотезой. Функция правдоподобия является функцией свидетельства, тогда как апостериорная вероятность является функцией гипотезы . $E$ $H$ $E$ $H$ $E$ $H$
${\ displaystyle P (E)}$ иногда называют предельной вероятностью или «модельным доказательством». Этот фактор одинаков для всех возможных рассматриваемых гипотез (о чем свидетельствует тот факт, что гипотеза не появляется нигде в символе, в отличие от всех других факторов) и, следовательно, не участвует в определении относительных вероятностей различных гипотез. $H$
$P(E)>0$ (Иначе есть .) $0/0$

Для разных значений только факторы и , оба в числителе, влияют на значение – апостериорная вероятность гипотезы пропорциональна ее априорной вероятности (присущей ей правдоподобности) и вновь полученному правдоподобию (ее совместимости с новыми наблюдаемыми доказательствами). ). $H$ ${\ displaystyle P (H)}$ ${\ displaystyle P (E \ Mid H)}$ $P (H\mid E)$

В случаях, когда («не »), логическое отрицание , является допустимой вероятностью, правило Байеса можно переписать следующим образом: $\neg H$ $H$ $H$

{\begin{aligned}P(H\mid E)&={\frac {P(E\mid H)P(H)}{P(E)}}\\&={\frac {P (E\mid H)P(H)}{P(E\mid H)P(H)+P(E\mid \neg H)P(\neg H)}}\\&={\frac {1 }{1+\left({\frac {1}{P(H)}}-1\right){\frac {P(E\mid \neg H)}{P(E\mid H)}}} }\end{выровнено}}

P(E)=P(E\mid H)P(H)+P(E\mid \neg H)P(\neg H)

P(H)+P(\neg H)=1.

Один из быстрых и простых способов запомнить уравнение — использовать правило умножения :

{\ displaystyle P (E \ cap H) = P (E \ Mid H) P (H) = P (H \ Mid E) P (E).}

Альтернативы байесовскому обновлению

Байесовское обновление широко используется и удобно в вычислительном отношении. Однако это не единственное правило обновления, которое можно считать рациональным.

Ян Хакинг отметил, что традиционные аргументы « голландской книги » не определяют байесовское обновление: они оставляют открытой возможность того, что небайесовские правила обновления могут избежать голландских книг. Хакинг писал: ^[2] «И ни аргумент голландской книги, ни какой-либо другой из персоналистского арсенала доказательств аксиом вероятности не влечет за собой динамическое предположение. Ни один из них не влечет за собой байесианство. Таким образом, персоналист требует, чтобы динамическое предположение было байесовским. Это правда что в целях последовательности персоналист может отказаться от байесовской модели обучения на опыте. Соль может потерять свою силу».

Действительно, существуют небайесовские правила обновления, которые также избегают голландских книг (как обсуждалось в литературе по « кинематике вероятности ») после публикации правила Ричарда К. Джеффри , которое применяет правило Байеса к случаю, когда сами доказательства присваивается вероятность. ^[3] Дополнительные гипотезы, необходимые для однозначного требования байесовского обновления, считаются существенными, сложными и неудовлетворительными. ^[4]

Вывод об исключительных и исчерпывающих возможностях

Если доказательства одновременно используются для обновления убеждений по поводу набора исключительных и исчерпывающих предложений, байесовский вывод можно рассматривать как воздействующий на это распределение убеждений в целом.

Общая формулировка

Предположим, что процесс генерирует независимые и одинаково распределенные события , но распределение вероятностей неизвестно. Пусть пространство событий представляет текущее состояние уверенности в этом процессе. Каждая модель представлена событием . Условные вероятности указаны для определения моделей. это степень веры в . Перед первым шагом вывода находится набор начальных априорных вероятностей . Их сумма должна быть равна 1, но в остальном они произвольны. $E_{n},\ n=1,2,3,\ldots$ $\Омега$ $M_{m}$ $P(E_{n}\mid M_{m})$ $P(M_{m})$ $M_{m}$ $\{P(M_{m})\}$

Предположим, что наблюдается процесс генерации . Для каждого предшествующий обновляется до последующего . Из теоремы Байеса : ^[5] $E\in \{E_{n}\}$ $M\in \{M_{m}\}$ $P(M)$ $P(M\mid E)$

P(M\mid E)={\frac {P(E\mid M)}{\sum _{m}{P(E\mid M_{m})P(M_{m})}}}\cdot P(M).

При обнаружении дополнительных доказательств эту процедуру можно повторить.

Множественные наблюдения

Для последовательности независимых и одинаково распределенных наблюдений можно с помощью индукции показать, что повторное применение вышеизложенного эквивалентно $\mathbf {E} =(e_{1},\dots ,e_{n})$

P(M\mid \mathbf {E} )={\frac {P(\mathbf {E} \mid M)}{\sum _{m}{P(\mathbf {E} \mid M_{m})P(M_{m})}}}\cdot P(M),

P(\mathbf {E} \mid M)=\prod _{k}{P(e_{k}\mid M)}.

Параметрическая формулировка: мотивация формального описания

Путем параметризации пространства моделей доверие ко всем моделям можно обновить за один шаг. Тогда распределение убеждений по пространству модели можно рассматривать как распределение убеждений по пространству параметров. Распределения в этом разделе выражены как непрерывные и представлены плотностями вероятности, поскольку это обычная ситуация. Однако этот метод в равной степени применим и к дискретным распределениям.

Пусть вектор охватывает пространство параметров. Пусть исходное априорное распределение будет , где — набор параметров самого априора или гиперпараметров . Пусть — последовательность независимых и одинаково распределенных наблюдений событий, где все распределены как для некоторого . Теорема Байеса применяется для нахождения апостериорного распределения по : ${\boldsymbol {\theta }}$ ${\boldsymbol {\theta }}$ $p({\boldsymbol {\theta }}\mid {\boldsymbol {\alpha }})$ ${\boldsymbol {\alpha }}$ $\mathbf {E} =(e_{1},\dots ,e_{n})$ $e_{i}$ $p(e\mid {\boldsymbol {\theta }})$ ${\boldsymbol {\theta }}$ ${\boldsymbol {\theta }}$

{\begin{aligned}p({\boldsymbol {\theta }}\mid \mathbf {E} ,{\boldsymbol {\alpha }})&={\frac {p(\mathbf {E} \mid {\boldsymbol {\theta }},{\boldsymbol {\alpha }})}{p(\mathbf {E} \mid {\boldsymbol {\alpha }})}}\cdot p({\boldsymbol {\theta }}\mid {\boldsymbol {\alpha }})\\&={\frac {p(\mathbf {E} \mid {\boldsymbol {\theta }},{\boldsymbol {\alpha }})}{\int p(\mathbf {E} \mid {\boldsymbol {\theta }},{\boldsymbol {\alpha }})p({\boldsymbol {\theta }}\mid {\boldsymbol {\alpha }})\,d{\boldsymbol {\theta }}}}\cdot p({\boldsymbol {\theta }}\mid {\boldsymbol {\alpha }}),\end{aligned}}

p(\mathbf {E} \mid {\boldsymbol {\theta }},{\boldsymbol {\alpha }})=\prod _{k}p(e_{k}\mid {\boldsymbol {\theta }}).

Формальное описание байесовского вывода

Определения

$x$ , точка данных в целом. На самом деле это может быть вектор значений.
$\theta$ , параметр распределения точек данных, т.е. Это может быть вектор параметров. $x\sim p(x\mid \theta )$
$\alpha$ , гиперпараметр распределения параметров, т. е. . Это может быть вектор гиперпараметров. $\theta \sim p(\theta \mid \alpha )$
$\mathbf {X}$ – это выборка, набор наблюдаемых точек данных, т. е. . $n$ $x_{1},\ldots ,x_{n}$
${\tilde {x}}$ , новая точка данных, распределение которой необходимо спрогнозировать.

Байесовский вывод

Априорное распределение – это распределение параметра(ов) до того, как наблюдаются какие-либо данные, т.е. Априорное распределение может быть нелегко определить; в таком случае одной из возможностей может быть использование Джеффриса до получения предварительного распределения перед обновлением его новыми наблюдениями. $p(\theta \mid \alpha )$
Выборочное распределение – это распределение наблюдаемых данных, обусловленное его параметрами, т.е. Это также называется вероятностью , особенно если рассматривать ее как функцию параметра(ов), иногда записываемую как . $p(\mathbf {X} \mid \theta )$ $\operatorname {L} (\theta \mid \mathbf {X} )=p(\mathbf {X} \mid \theta )$
Предельное правдоподобие (иногда называемое также доказательством ) представляет собой распределение наблюдаемых данных, маргинализированных по параметру(ам), т.е. $p(\mathbf {X} \mid \alpha )=\int p(\mathbf {X} \mid \theta )p(\theta \mid \alpha )d\theta .$ Он количественно определяет соответствие между данными и мнением экспертов в геометрическом смысле, который можно уточнить. ^[6] Если предельная вероятность равна 0, то между данными и мнением экспертов нет согласия, и правило Байеса не может быть применено.
Апостериорное распределение — это распределение параметра(ов) после учета наблюдаемых данных. Это определяется правилом Байеса , которое составляет суть байесовского вывода: $p(\theta \mid \mathbf {X} ,\alpha )={\frac {p(\theta ,\mathbf {X} ,\alpha )}{p(\mathbf {X} ,\alpha )}}={\frac {p(\mathbf {X} \mid \theta ,\alpha )p(\theta ,\alpha )}{p(\mathbf {X} \mid \alpha )p(\alpha )}}={\frac {p(\mathbf {X} \mid \theta ,\alpha )p(\theta \mid \alpha )}{p(\mathbf {X} \mid \alpha )}}\propto p(\mathbf {X} \mid \theta ,\alpha )p(\theta \mid \alpha ).$ Это выражается словами: «апостериорная вероятность пропорциональна предшествующему числу правдоподобия» или иногда как «апостериорное значение = предшествующему числу правдоподобия, сверх очевидности».
На практике почти для всех сложных байесовских моделей, используемых в машинном обучении, апостериорное распределение не получается в виде распределения в замкнутой форме, главным образом потому, что пространство параметров для может быть очень большим или байесовская модель сохраняет определенную иерархическую структуру, сформулированную на основе наблюдений и параметр . В таких ситуациях приходится прибегать к методам аппроксимации. ^[7] $p(\theta \mid \mathbf {X} ,\alpha )$ $\theta$ $\mathbf {X}$ $\theta$

Байесовское предсказание

Апостериорное прогнозирующее распределение — это распределение новой точки данных, маргинализованной по апостериорному: $p({\tilde {x}}\mid \mathbf {X} ,\alpha )=\int p({\tilde {x}}\mid \theta )p(\theta \mid \mathbf {X} ,\alpha )d\theta$
Априорное прогнозируемое распределение — это распределение новой точки данных, маргинализованной по сравнению с предыдущей: $p({\tilde {x}}\mid \alpha )=\int p({\tilde {x}}\mid \theta )p(\theta \mid \alpha )d\theta$

Байесовская теория призывает использовать апостериорное прогнозируемое распределение для прогнозирования , то есть для прогнозирования распределения новой, ненаблюдаемой точки данных. То есть вместо фиксированной точки в качестве прогноза возвращается распределение по возможным точкам. Только таким образом используется все апостериорное распределение параметра(ов). Для сравнения, прогнозирование в частотной статистике часто включает в себя поиск оптимальной точечной оценки параметра(ов) — например, по максимальному правдоподобию или максимальной апостериорной оценке (MAP) — а затем включение этой оценки в формулу для распределения точки данных. . Недостатком этого подхода является то, что он не учитывает никакой неопределенности в значении параметра и, следовательно, приводит к недооценке дисперсии прогнозируемого распределения.

В некоторых случаях частотная статистика может обойти эту проблему. Например, доверительные интервалы и интервалы прогнозирования в частотной статистике, построенные на основе нормального распределения с неизвестными средним значением и дисперсией , строятся с использованием t-распределения Стьюдента . Это правильно оценивает дисперсию благодаря тому факту, что (1) среднее значение нормально распределенных случайных величин также нормально распределено и (2) прогнозируемое распределение нормально распределенной точки данных с неизвестным средним значением и дисперсией с использованием сопряженных или неинформативных априорных значений. , имеет t-распределение Стьюдента. Однако в байесовской статистике апостериорное прогнозируемое распределение всегда можно определить точно — или, по крайней мере, с произвольным уровнем точности при использовании численных методов.

Оба типа прогнозных распределений имеют форму сложного распределения вероятностей (как и предельное правдоподобие ). Фактически, если априорное распределение является сопряженным априорным , так что априорное и апостериорное распределения происходят из одного и того же семейства, можно видеть, что и априорное, и апостериорное прогнозирующие распределения также происходят из одного и того же семейства составных распределений. Единственное отличие состоит в том, что апостериорное прогнозирующее распределение использует обновленные значения гиперпараметров (применяя байесовские правила обновления, приведенные в сопряженной предыдущей статье), тогда как априорное прогнозирующее распределение использует значения гиперпараметров, которые появляются в предыдущем распределении.

Математические свойства

Интерпретация фактора

${\textstyle {\frac {P(E\mid M)}{P(E)}}>1\Rightarrow P(E\mid M)>P(E)}$ . То есть, если бы модель была верной, доказательства были бы более вероятными, чем предсказывается текущим состоянием убеждений. Обратное справедливо для уменьшения веры. Если убеждение не изменится, . То есть доказательства не зависят от модели. Если бы модель была верной, доказательства были бы точно такими же вероятными, как предсказывается текущим состоянием убеждений. ${\textstyle {\frac {P(E\mid M)}{P(E)}}=1\Rightarrow P(E\mid M)=P(E)}$

Правило Кромвеля

Если тогда . Если и , то . Это можно интерпретировать как означающее, что твердые убеждения нечувствительны к контрдоказательствам. $P(M)=0$ $P(M\mid E)=0$ $P(M)=1$ $P(E)>0$ $P(M|E)=1$

Первое следует непосредственно из теоремы Байеса. Последнее можно получить, применив первое правило к событию «не » вместо « », получая «если , то », из которого немедленно следует результат. $M$ $M$ $1-P(M)=0$ $1-P(M\mid E)=0$

Асимптотическое поведение задней

Рассмотрим поведение распределения убеждений, когда оно обновляется большое количество раз с помощью независимых и одинаково распределенных испытаний. Для достаточно хороших априорных вероятностей теорема Бернштейна-фон Мизеса показывает, что в пределе бесконечных испытаний апостериорное распределение сходится к гауссовскому распределению , независимому от начального априора, при некоторых условиях, впервые изложенных и строго доказанных Джозефом Л. Дубом в 1948 году, а именно: если рассматриваемая случайная величина имеет конечное вероятностное пространство . Более общие результаты были получены позже статистиком Дэвидом А. Фридманом , который опубликовал две плодотворные исследовательские статьи в 1963 ^[8] и 1965 ^[9] о том, когда и при каких обстоятельствах гарантируется асимптотическое поведение апостериорной функции. В его статье 1963 года, как и у Дуба (1949), рассматривается конечный случай, и он приходит к удовлетворительному выводу. Однако, если случайная величина имеет бесконечное, но счетное вероятностное пространство (т. е. соответствует игральной кости с бесконечным множеством граней), статья 1965 года показывает, что для плотного подмножества априорных значений теорема Бернштейна-фон Мизеса неприменима. В этом случае асимптотическая сходимость почти наверняка отсутствует. Позже, в 1980-х и 1990-х годах Фридман и Перси Диаконис продолжили работу над случаем бесконечных счетных вероятностных пространств. ^[10] Подводя итог, можно сказать, что испытаний может быть недостаточно, чтобы подавить эффекты первоначального выбора, и особенно для больших (но конечных) систем сходимость может быть очень медленной.

Сопряженные априоры

В параметризованной форме часто предполагается, что априорное распределение происходит из семейства распределений, называемых сопряженными априорными . Полезность сопряженного априорного распределения заключается в том, что соответствующее апостериорное распределение будет принадлежать тому же семейству, и расчет может быть выражен в закрытой форме .

Оценки параметров и прогнозы

Часто желательно использовать апостериорное распределение для оценки параметра или переменной. Несколько методов байесовской оценки выбирают измерения центральной тенденции из апостериорного распределения.

Для одномерных задач существует уникальная медиана для практических непрерывных задач. Задняя медиана привлекательна в качестве надежного средства оценки . ^[11]

Если существует конечное среднее апостериорное распределение, то апостериорное среднее является методом оценки. ^[12]

{\tilde {\theta }}=\operatorname {E} [\theta ]=\int \theta \,p(\theta \mid \mathbf {X} ,\alpha )\,d\theta

Принятие значения с наибольшей вероятностью определяет максимальные апостериорные оценки (MAP) : ^[13]

\{\theta _{\text{MAP}}\}\subset \arg \max _{\theta }p(\theta \mid \mathbf {X} ,\alpha ).

Существуют примеры, когда максимум не достигается, и в этом случае набор оценок MAP пуст .

Существуют и другие методы оценки, которые минимизируют апостериорный риск (ожидаемые апостериорные потери) по отношению к функции потерь , и они представляют интерес для статистической теории принятия решений с использованием выборочного распределения («частотная статистика»). ^[14]

Апостериорное прогнозируемое распределение нового наблюдения (независимое от предыдущих наблюдений) определяется по формуле ^[15] ${\tilde {x}}$

p({\tilde {x}}|\mathbf {X} ,\alpha )=\int p({\tilde {x}},\theta \mid \mathbf {X} ,\alpha )\,d\theta =\int p({\tilde {x}}\mid \theta )p(\theta \mid \mathbf {X} ,\alpha )\,d\theta .

Примеры

Вероятность гипотезы

Предположим, есть две полные тарелки печенья. В миске №1 находится 10 кусочков шоколада и 30 штук обычного печенья, а в миске №2 – по 20 штук каждого вида. Наш друг Фред наугад выбирает миску, а затем наугад выбирает печенье. Мы можем предположить, что нет никаких оснований полагать, что Фред обращается с одной миской по-разному, как и с печеньем. Печенье оказывается обычным. Насколько вероятно, что Фред вытащил его из миски №1?

Интуитивно кажется очевидным, что ответ должен быть больше половины, поскольку в миске №1 больше обычного печенья. Точный ответ даёт теорема Байеса. Пусть соответствует чаше №1 и чаше №2. Дано, что чаши идентичны с точки зрения Фреда, таким образом , и сумма двух должна составлять 1, поэтому обе равны 0,5. Событием является наблюдение обычного файла cookie. Из содержимого чаш мы это знаем, и тогда формула Байеса дает $H_{1}$ $H_{2}$ $P(H_{1})=P(H_{2})$ $E$ $P(E\mid H_{1})=30/40=0.75$ $P(E\mid H_{2})=20/40=0.5.$

{\begin{aligned}P(H_{1}\mid E)&={\frac {P(E\mid H_{1})\,P(H_{1})}{P(E\mid H_{1})\,P(H_{1})\;+\;P(E\mid H_{2})\,P(H_{2})}}\\\\\ &={\frac {0.75\times 0.5}{0.75\times 0.5+0.5\times 0.5}}\\\\\ &=0.6\end{aligned}}

До того, как мы рассмотрели печенье, вероятность, которую мы определили для Фреда, выбравшего миску № 1, была априорной вероятностью , которая составляла 0,5. После наблюдения за файлом cookie мы должны изменить вероятность на 0,6. $P(H_{1})$ $P(H_{1}\mid E)$

Делаем прогноз

Археолог работает на месте, предположительно относящемся к средневековому периоду, между 11 и 16 веками. Однако неизвестно, когда именно в этот период это место было заселено. Обнаружены фрагменты керамики, часть из которых покрыта глазурью, а часть украшена. Ожидается, что если это место было заселено в период раннего средневековья, то 1% керамики будет покрыт глазурью, а 50% ее площади украшено, тогда как если бы оно было заселено в период позднего средневековья, то 81% будет покрыт глазурью и украшен. 5% его площади декорировано. Насколько уверен археолог может быть в дате заселения, если раскопать фрагменты?

Степень доверия к непрерывной переменной (веку) необходимо рассчитать, используя дискретный набор событий в качестве доказательства. Предполагая линейное изменение глазури и декора со временем и что эти переменные независимы, $C$ $\{GD,G{\bar {D}},{\bar {G}}D,{\bar {G}}{\bar {D}}\}$

P(E=GD\mid C=c)=(0.01+{\frac {0.81-0.01}{16-11}}(c-11))(0.5-{\frac {0.5-0.05}{16-11}}(c-11))

P(E=G{\bar {D}}\mid C=c)=(0.01+{\frac {0.81-0.01}{16-11}}(c-11))(0.5+{\frac {0.5-0.05}{16-11}}(c-11))

P(E={\bar {G}}D\mid C=c)=((1-0.01)-{\frac {0.81-0.01}{16-11}}(c-11))(0.5-{\frac {0.5-0.05}{16-11}}(c-11))

P(E={\bar {G}}{\bar {D}}\mid C=c)=((1-0.01)-{\frac {0.81-0.01}{16-11}}(c-11))(0.5+{\frac {0.5-0.05}{16-11}}(c-11))

Предположим, что априорное значение равно , а испытания независимы и одинаково распределены . Когда обнаруживается новый фрагмент типа , применяется теорема Байеса для обновления степени достоверности для каждого : ${\textstyle f_{C}(c)=0.2}$ $e$ $c$

f_{C}(c\mid E=e)={\frac {P(E=e\mid C=c)}{P(E=e)}}f_{C}(c)={\frac {P(E=e\mid C=c)}{\int _{11}^{16}{P(E=e\mid C=c)f_{C}(c)dc}}}f_{C}(c)

На графике показано компьютерное моделирование изменения убеждений после раскопок 50 фрагментов. Согласно моделированию, это место было заселено около 1420 года или около 1420 года . Подсчитав площадь под соответствующей частью графика для 50 испытаний, археолог может сказать, что вероятность того, что это место было заселено в 11 и 12 веках, практически отсутствует, вероятность того, что оно было заселено в 13 веке, составляет около 1%, 63 % шансов в 14 веке и 36% в 15 веке. Теорема Бернштейна -фон Мизеса утверждает здесь асимптотическую сходимость к «истинному» распределению, поскольку вероятностное пространство , соответствующее дискретному набору событий, конечно (см. раздел об асимптотическом поведении апостериорного события выше). $c=15.2$ $\{GD,G{\bar {D}},{\bar {G}}D,{\bar {G}}{\bar {D}}\}$

В частотной статистике и теории принятия решений

Теоретико -решательное обоснование использования байесовского вывода было дано Абрахамом Вальдом , который доказал, что любая уникальная байесовская процедура допустима . И наоборот, каждая допустимая статистическая процедура является либо байесовской процедурой, либо пределом байесовских процедур. ^[16]

Уолд охарактеризовал допустимые процедуры как байесовские процедуры (и пределы байесовских процедур), сделав байесовский формализм центральным методом в таких областях частотного вывода , как оценка параметров , проверка гипотез и вычисление доверительных интервалов . ^[17]^[18]^[19] Например:

«При некоторых условиях все допустимые процедуры являются либо байесовскими процедурами, либо пределами байесовских процедур (в различных смыслах). Эти замечательные результаты, по крайней мере в их первоначальной форме, в основном принадлежат Вальду. Они полезны, потому что свойство быть байесовскими есть легче анализировать, чем приемлемость». ^[16]
«В теории принятия решений довольно общий метод доказательства допустимости состоит в представлении процедуры как единственного байесовского решения». ^[20]
«В первых главах этой работы априорные распределения с конечным носителем и соответствующие байесовские процедуры использовались для установления некоторых основных теорем, касающихся сравнения экспериментов. Байесовские процедуры по отношению к более общим априорным распределениям сыграли очень важную роль в развитии статистики, включая ее асимптотическую теорию». «Существует множество задач, в которых взгляд на апостериорные распределения для подходящих априорных значений сразу же дает интересную информацию. Кроме того, этого метода вряд ли можно избежать в последовательном анализе». ^[21]
«Полезным фактом является то, что любое решающее правило Байеса, полученное путем принятия правильного априорного значения для всего пространства параметров, должно быть допустимым» ^[22]
«Важной областью исследований в развитии идей приемлемости были традиционные процедуры теории выборки, и было получено много интересных результатов». ^[23]

Выбор модели

Байесовская методология также играет роль при выборе модели, цель которой состоит в том, чтобы выбрать одну модель из набора конкурирующих моделей, которая наиболее точно представляет основной процесс, в результате которого были получены наблюдаемые данные. При сравнении байесовских моделей выбирается модель с наибольшей апостериорной вероятностью с учетом данных. Апостериорная вероятность модели зависит от доказательств, или предельного правдоподобия , которое отражает вероятность того, что данные генерируются моделью, а также от априорного убеждения модели. Когда две конкурирующие модели априори считаются равновероятными, отношение их апостериорных вероятностей соответствует фактору Байеса . Поскольку сравнение байесовских моделей направлено на выбор модели с наибольшей апостериорной вероятностью, эту методологию также называют правилом максимального апостериорного выбора (MAP) ^[24] или правилом вероятности MAP. ^[25]

Вероятностное программирование

Хотя концептуально байесовские методы просты, они могут быть математически и численно сложными. Языки вероятностного программирования (PPL) реализуют функции, позволяющие легко создавать байесовские модели вместе с эффективными методами автоматического вывода. Это помогает отделить построение модели от вывода, позволяя специалистам-практикам сосредоточиться на своих конкретных проблемах и предоставляя PPL возможность выполнять за них вычислительные детали. ^[26]^[27]^[28]

Приложения

Статистический анализ данных

См. отдельную запись в Википедии о байесовской статистике , в частности раздел статистического моделирования на этой странице.

Компьютерные приложения

Байесовский вывод находит применение в искусственном интеллекте и экспертных системах . Методы байесовского вывода являются фундаментальной частью компьютеризированных методов распознавания образов с конца 1950-х годов. ^[29] Существует также постоянно растущая связь между байесовскими методами и методами Монте-Карло , основанными на моделировании , поскольку сложные модели не могут быть обработаны в закрытой форме с помощью байесовского анализа, в то время как графическая структура модели может позволить использовать эффективные алгоритмы моделирования, такие как выборка Гиббса . и другие схемы алгоритмов Метрополиса – Гастингса . ^[30] Недавно ^{[ когда? ]} По этим причинам байесовский вывод приобрел популярность среди филогенетического сообщества; ряд приложений позволяют одновременно оценивать множество демографических и эволюционных параметров.

Применительно к статистической классификации байесовский вывод использовался для разработки алгоритмов выявления спама в электронной почте . Приложения, использующие байесовский вывод для фильтрации спама, включают CRM114 , DSPAM, Bogofilter , SpamAssassin , SpamBayes , Mozilla , XEAMS и другие. Классификация спама более подробно рассматривается в статье о наивном байесовском классификаторе .

Индуктивный вывод Соломонова — это теория предсказания, основанная на наблюдениях; например, предсказание следующего символа на основе заданной серии символов. Единственное предположение состоит в том, что окружающая среда подчиняется некоторому неизвестному, но вычислимому распределению вероятностей . Это формальная индуктивная структура, сочетающая в себе два хорошо изученных принципа индуктивного вывода: байесовскую статистику и бритву Оккама . ^[31]^{[ ненадежный источник? ]} Универсальная априорная вероятность Соломонова любого префикса p вычислимой последовательности x представляет собой сумму вероятностей всех программ (для универсального компьютера), которые вычисляют что-то, начиная с p . Учитывая некоторое p и любое вычислимое, но неизвестное распределение вероятностей, из которого выбрано x , универсальную априорную теорему и теорему Байеса можно использовать для оптимального предсказания еще невидимых частей x . ^[32]^[33]

Биоинформатика и приложения для здравоохранения

Байесовский вывод применялся в различных приложениях биоинформатики , включая анализ дифференциальной экспрессии генов. ^[34] Байесовский вывод также используется в общей модели риска рака, называемой CIRI (постоянный индивидуальный индекс риска), где последовательные измерения включаются для обновления байесовской модели, которая в основном построена на основе предварительных знаний. ^[35]^[36]

В зале суда

Байесовский вывод может использоваться присяжными заседателями для последовательного накопления доказательств за и против обвиняемого, а также для проверки того, соответствуют ли они в совокупности их личному порогу «вне разумного сомнения ». ^[37]^[38]^[39] Теорема Байеса последовательно применяется ко всем представленным доказательствам, при этом апостериорные данные одного этапа становятся априорными для следующего. Преимущество байесовского подхода состоит в том, что он дает присяжным беспристрастный и рациональный механизм объединения доказательств. Возможно, было бы уместно объяснить присяжным теорему Байеса в форме коэффициентов , поскольку коэффициенты ставок понимаются более широко, чем вероятности. В качестве альтернативы присяжным может быть проще использовать логарифмический подход , заменяющий умножение сложением.

Если существование преступления не подвергается сомнению, а только личность преступника, было предложено, чтобы предварительная информация была единой для подпадающей под определение группы населения. ^[40] Например, если бы преступление могли совершить 1000 человек, априорная вероятность вины была бы 1/1000.

Использование присяжными теоремы Байеса вызывает споры. В Соединенном Королевстве свидетель-эксперт защиты объяснил теорему Байеса присяжным по делу Р против Адамса . Присяжные признали виновным, но дело было передано в апелляцию на том основании, что присяжным, не желавшим использовать теорему Байеса, не было предоставлено никаких средств сбора доказательств. Апелляционный суд оставил приговор в силе, но также высказал мнение, что «введение теоремы Байеса или любого подобного метода в уголовный процесс погружает присяжных в неуместные и ненужные области теории и сложности, отвлекая их от их основной задачи». ."

Гарднер-Медвин ^[41] утверждает, что критерием, на котором должен основываться приговор в уголовном процессе, является не вероятность вины, а скорее вероятность наличия доказательств при условии, что обвиняемый невиновен (сродни частотному p-значению ). Он утверждает, что если апостериорную вероятность вины нужно вычислить по теореме Байеса, необходимо знать априорную вероятность вины. Это будет зависеть от частоты совершения преступления, что является необычным доказательством, которое следует учитывать в уголовном процессе. Рассмотрим следующие три предложения:

A Известные факты и показания могли бы возникнуть, если бы подсудимый виновен.
B Известные факты и показания могли бы возникнуть, если бы обвиняемый невиновен.
C Подсудимый виновен.

Гарднер-Медвин утверждает, что присяжные должны верить как А, так и не-Б, чтобы вынести обвинительный приговор. А и не-В подразумевают истинность С, но обратное неверно. Возможно, что B и C верны, но в этом случае он утверждает, что присяжные должны оправдать, хотя они знают, что отпустят некоторых виновных на свободу. См. также парадокс Линдли .

Байесовская эпистемология

Байесианская эпистемология — это движение, которое выступает за байесовский вывод как средство обоснования правил индуктивной логики.

Карл Поппер и Дэвид Миллер отвергли идею байесовского рационализма, т.е. использования правила Байеса для эпистемологических выводов: ^[42] Она подвержена тому же порочному кругу , что и любая другая джастификационистская эпистемология, поскольку она предполагает то, что пытается оправдать. Согласно этой точке зрения, рациональная интерпретация байесовского вывода будет рассматривать его просто как вероятностную версию фальсификации , отвергая распространенное среди байесовцев убеждение, что высокая вероятность, достигнутая серией байесовских обновлений, докажет гипотезу вне всякого разумного сомнения. или даже с вероятностью больше 0.

Другой

Научный метод иногда интерпретируется как применение байесовского вывода. С этой точки зрения правило Байеса направляет (или должно руководить) обновлением вероятностей гипотез, обусловленных новыми наблюдениями или экспериментами . ^[43] Байесовский вывод также применялся для решения стохастических задач планирования с неполной информацией Cai et al. (2009). ^[44]
Байесовская теория поиска используется для поиска потерянных объектов.
Байесовский вывод в филогении
Байесовский инструмент для анализа метилирования
Байесовский подход к функционированию мозга исследует мозг как байесовский механизм.
Байесовский вывод в экологических исследованиях ^[45]^[46]
Байесовский вывод используется для оценки параметров в стохастических химико-кинетических моделях ^[47]
Байесовский вывод в эконофизике для прогнозирования валюты или фондового рынка ^[48]^[49]
Байесовский вывод в маркетинге
Байесовский вывод в моторном обучении
Байесовский вывод используется в вероятностных вычислениях для решения числовых задач.

Байес и байесовский вывод

Проблема, рассмотренная Байесом в предложении 9 его эссе « Очерк решения проблемы доктрины шансов », представляет собой апостериорное распределение параметра a (степень успеха) биномиального распределения . ^{[ нужна цитата ]}

История

Термин «байесовский» относится к Томасу Байесу (1701–1761), который доказал, что на неизвестное событие можно наложить вероятностные ограничения. ^{[ нужна цитата ]} Однако именно Пьер-Симон Лаплас (1749–1827) ввел (как принцип VI) то, что сейчас называется теоремой Байеса , и использовал его для решения проблем в небесной механике , медицинской статистике, надежности и юриспруденции . ^{[50] Ранний байесовский вывод, в котором использовались единые априорные данные в соответствии с}принципом недостаточного основания Лапласа , назывался « обратной вероятностью » (потому что он делает выводы в обратном направлении от наблюдений к параметрам или от эффектов к причинам ^[51] ). После 1920-х годов «обратная вероятность» была в значительной степени вытеснена набором методов, которые стали называть частотной статистикой . ^[51]

В XX веке идеи Лапласа получили дальнейшее развитие в двух разных направлениях, породив объективные и субъективные течения в байесовской практике. В объективном или «неинформативном» потоке статистический анализ зависит только от предполагаемой модели, анализируемых данных ^[52] и метода присвоения априора, который отличается от одного объективного байесовского практика к другому. В субъективном или «информативном» потоке спецификация априора зависит от убеждения (то есть предположений, на основе которых готов действовать анализ), которые могут обобщать информацию от экспертов, предыдущих исследований и т. д.

В 1980-е годы произошел резкий рост исследований и применений байесовских методов, в основном связанный с открытием методов Монте-Карло на основе цепей Маркова , которые устранили многие вычислительные проблемы, а также растущим интересом к нестандартным и сложным приложениям. ^[53] Несмотря на рост байесовских исследований, большая часть преподавания на бакалавриате по-прежнему основана на частотной статистике. ^[54] Тем не менее, байесовские методы широко распространены и используются, например, в области машинного обучения . ^[55]

Смотрите также

дальнейшее чтение

Полный отчет об истории байесовской статистики и дебатах о часто встречающихся подходах можно найти в Vallverdu, Jordi (2016). Байесовцы против частотников. Философские дебаты о статистических рассуждениях . Нью-Йорк: Спрингер. ISBN 978-3-662-48638-2.
Клейтон, Обри (август 2021 г.). Заблуждение Бернулли: статистическая нелогика и кризис современной науки. Издательство Колумбийского университета. ISBN 978-0-231-55335-3.

элементарный

Следующие книги перечислены в порядке возрастания вероятностной сложности:

Стоун, СП (2013), «Правило Байеса: учебное пособие по байесовскому анализу», загрузите первую главу здесь, Sebtel Press, Англия.
Деннис В. Линдли (2013). Понимание неопределенности, исправленное издание (2-е изд.). Джон Уайли. ISBN 978-1-118-65012-7.
Колин Хаусон и Питер Урбах (2005). Научное рассуждение: байесовский подход (3-е изд.). Издательская компания «Открытый суд ». ISBN 978-0-8126-9578-6.
Берри, Дональд А. (1996). Статистика: байесовский взгляд . Даксбери. ISBN 978-0-534-23476-8.
Моррис Х. ДеГрут и Марк Дж. Шервиш (2002). Вероятность и статистика (третье изд.). Аддисон-Уэсли. ISBN 978-0-201-52488-8.
Болстад, Уильям М. (2007) Введение в байесовскую статистику : второе издание, John Wiley ISBN 0-471-27020-2
Винклер, Роберт Л. (2003). Введение в байесовский вывод и принятие решений (2-е изд.). Вероятностный. ISBN 978-0-9647938-4-2.Обновлен классический учебник. Ярко представлена байесовская теория.
Ли, Питер М. Байесианская статистика: введение . Четвертое издание (2012 г.), ISBN Джона Уайли 978-1-1183-3257-3
Карлин, Брэдли П. и Луи, Томас А. (2008). Байесовские методы анализа данных, третье издание . Бока-Ратон, Флорида: Чепмен и Холл/CRC. ISBN 978-1-58488-697-6.
Гельман, Эндрю ; Карлин, Джон Б.; Стерн, Хэл С.; Дансон, Дэвид Б.; Вехтари, Аки; Рубин, Дональд Б. (2013). Байесовский анализ данных, третье издание . Чепмен и Холл/CRC. ISBN 978-1-4398-4095-5.

Средний или продвинутый

Бергер, Джеймс О (1985). Статистическая теория принятия решений и байесовский анализ . Серия Спрингера по статистике (второе изд.). Спрингер-Верлаг. Бибкод : 1985sdtb.book.....B. ISBN 978-0-387-96098-2.
Бернардо, Хосе М .; Смит, Адриан Ф.М. (1994). Байесовская теория . Уайли.
ДеГрут, Моррис Х. , Оптимальные статистические решения . Библиотека классической литературы Уайли. 2004. (Первоначально опубликовано (1970) издательством McGraw-Hill.) ISBN 0-471-68029-X .
Шервиш, Марк Дж. (1995). Теория статистики . Спрингер-Верлаг. ISBN 978-0-387-94546-0.
Джейнс, ET (1998). Теория вероятностей: логика науки.
О'Хаган А. и Форстер Дж. (2003). Расширенная теория статистики Кендалла , Том 2B: Байесовский вывод . Арнольд, Нью-Йорк. ISBN 0-340-52922-9 .
Роберт, Кристиан П. (2007). Байесовский выбор: от основ теории принятия решений к вычислительной реализации (изд. в мягкой обложке). Спрингер. ISBN 978-0-387-71598-8.
Перл, Иудея . (1988). Вероятностное рассуждение в интеллектуальных системах: сети правдоподобного вывода , Сан-Матео, Калифорния: Морган Кауфманн.
Пьер Бессьер и др. (2013). «Байесовское программирование». ЦРК Пресс. ISBN 9781439880326
Франсиско Дж. Саманиего (2010). «Сравнение байесовского и частотного подходов к оценке». Спрингер. Нью-Йорк, ISBN 978-1-4419-5940-9.

Внешние ссылки

«Байесовский подход к статистическим задачам», Математическая энциклопедия , EMS Press , 2001 [1994]
Байесовская статистика из Scholarpedia.
Введение в байесовскую вероятность от Лондонского университета королевы Марии.
Математические заметки о байесовской статистике и цепи Маркова Монте-Карло
Список байесовской литературы, классифицированный и аннотированный Томом Гриффитсом.
А. Хаек и С. Хартманн: Байесианская эпистемология, в: J. Dancy et al. (ред.), «Спутник эпистемологии». Оксфорд: Блэквелл 2010, 93–106.
С. Хартманн и Дж. Шпренгер: Байесовская эпистемология, в: С. Бернекер и Д. Притчард (ред.), Routledge Companion to Epistemology. Лондон: Routledge 2010, 609–620.
Стэнфордская энциклопедия философии: «Индуктивная логика»
Байесовская теория подтверждения (PDF)
Что такое байесовское обучение?
Данные, неопределенность и выводы — неформальное введение со множеством примеров, электронная книга (PDF) находится в свободном доступе на сайте causaScientia.

Байесовский вывод

Введение в правило Байеса

Формальное объяснение

Альтернативы байесовскому обновлению

Вывод об исключительных и исчерпывающих возможностях

Общая формулировка

Множественные наблюдения

Параметрическая формулировка: мотивация формального описания

Формальное описание байесовского вывода

Определения

Байесовский вывод

Байесовское предсказание

Математические свойства

Интерпретация фактора

Правило Кромвеля

Асимптотическое поведение задней

Сопряженные априоры

Оценки параметров и прогнозы

Примеры

Вероятность гипотезы

Делаем прогноз

В частотной статистике и теории принятия решений

Выбор модели

Вероятностное программирование

Приложения

Статистический анализ данных

Компьютерные приложения

Биоинформатика и приложения для здравоохранения

В зале суда

Байесовская эпистемология

Другой

Байес и байесовский вывод

История

Смотрите также

Рекомендации

Цитаты

Источники

дальнейшее чтение

элементарный

Средний или продвинутый

Внешние ссылки