означает любую гипотезу , вероятность которой может быть затронута данными (ниже именуемыми доказательствами ). Часто существуют конкурирующие гипотезы, и задача состоит в том, чтобы определить, какая из них наиболее вероятна.
, априорная вероятность , представляет собой оценку вероятности гипотезы до того, как данные , текущие доказательства, будут получены.
, доказательство , соответствует новым данным, которые не использовались при вычислении априорной вероятности.
, апостериорная вероятность , это вероятность данного , т.е. после того , как наблюдается. Это то, что мы хотим знать: вероятность гипотезы при данных наблюдаемых доказательствах.
— вероятность наблюдения данного и называется правдоподобием . Как функция от при фиксированном, она указывает на совместимость доказательств с данной гипотезой. Функция правдоподобия является функцией доказательств, , тогда как апостериорная вероятность является функцией гипотезы, .
иногда называют предельным правдоподобием или «модельным доказательством». Этот фактор одинаков для всех возможных рассматриваемых гипотез (что очевидно из того факта, что гипотеза не появляется нигде в символе, в отличие от всех других факторов) и, следовательно, не учитывается при определении относительных вероятностей различных гипотез.
(Иначе есть .)
При различных значениях только факторы и , оба в числителе, влияют на значение – апостериорная вероятность гипотезы пропорциональна ее априорной вероятности (ее присущей правдоподобности) и вновь приобретенной правдоподобности (ее совместимости с новыми наблюдаемыми доказательствами).
В случаях, когда ("не "), логическое отрицание , является допустимой вероятностью, правило Байеса можно переписать следующим образом:
потому что
и Это фокусирует внимание на термине Если этот термин приблизительно равен 1, то вероятность гипотезы с учетом доказательств, , составляет около , около 50% вероятности - равновероятно или маловероятно. Если этот термин очень мал, близок к нулю, то вероятность гипотезы с учетом доказательств близка к 1 или условная гипотеза вполне вероятна. Если этот термин очень велик, намного больше 1, то гипотеза с учетом доказательств весьма маловероятна. Если гипотеза (без учета доказательств) маловероятна, то является малым (но не обязательно астрономически малым) и намного больше 1, и этот термин можно аппроксимировать как и соответствующие вероятности можно напрямую сравнивать друг с другом.
Один из быстрых и простых способов запомнить уравнение — воспользоваться правилом умножения :
Альтернативы байесовскому обновлению
Байесовское обновление широко используется и удобно с точки зрения вычислений. Однако это не единственное правило обновления, которое можно считать рациональным.
Ян Хакинг отметил, что традиционные аргументы « голландской книги » не определяют байесовское обновление: они оставляют открытой возможность того, что небайесовские правила обновления могут обойти голландские книги. Хакинг написал: [2] «И ни аргумент голландской книги, ни любой другой в арсенале персоналистских доказательств аксиом вероятности не влечет за собой динамического предположения. Ни один из них не влечет за собой байесианства. Поэтому персоналист требует, чтобы динамическое предположение было байесовским. Верно, что в последовательности персоналист может отказаться от байесовской модели обучения на опыте. Соль может потерять свою остроту».
Действительно, существуют небайесовские правила обновления, которые также избегают голландских книг (как обсуждалось в литературе по « вероятностной кинематике ») после публикации правила Ричарда К. Джеффри , которое применяет правило Байеса к случаю, когда самому доказательству присваивается вероятность. [3] Дополнительные гипотезы, необходимые для однозначного требования байесовского обновления, были признаны существенными, сложными и неудовлетворительными. [4]
Вывод об исключительных и исчерпывающих возможностях
Если доказательства одновременно используются для обновления убеждений по набору исключительных и исчерпывающих утверждений, то байесовский вывод можно рассматривать как действующий на это распределение убеждений в целом.
Общая формулировка
Предположим, что процесс генерирует независимые и одинаково распределенные события , но распределение вероятностей неизвестно. Пусть пространство событий представляет текущее состояние убеждения для этого процесса. Каждая модель представлена событием . Условные вероятности указаны для определения моделей. — степень убеждения в . Перед первым шагом вывода — набор начальных априорных вероятностей . Они должны в сумме давать 1, но в остальном являются произвольными.
Предположим, что процесс наблюдается для генерации . Для каждого априорное значение обновляется до апостериорного . Из теоремы Байеса : [5]
При обнаружении дополнительных доказательств данная процедура может быть повторена.
Множественные наблюдения
Для последовательности независимых и одинаково распределенных наблюдений можно показать методом индукции, что повторное применение вышеизложенного эквивалентно тому,
где
Параметрическая формулировка: мотивация формального описания
Параметризируя пространство моделей, можно обновить веру во всех моделях за один шаг. Распределение веры в пространстве модели можно затем рассматривать как распределение веры в пространстве параметров. Распределения в этом разделе выражены как непрерывные, представленные плотностями вероятности, поскольку это обычная ситуация. Однако этот метод в равной степени применим и к дискретным распределениям.
Пусть вектор охватывает пространство параметров. Пусть начальное априорное распределение по будет , где — набор параметров самого априорного распределения или гиперпараметров . Пусть — последовательность независимых и одинаково распределенных событийных наблюдений, где все распределены как для некоторого . Теорема Байеса применяется для нахождения апостериорного распределения по :
где
Формальное описание байесовского вывода
Определения
, точка данных в целом. Это может быть вектор значений.
, параметр распределения точки данных, т. е . . Это может быть вектор параметров.
, гиперпараметр распределения параметров, т. е . . Это может быть вектор гиперпараметров.
представляет собой выборку, набор наблюдаемых точек данных, т. е . .
, новая точка данных, распределение которой необходимо предсказать.
Байесовский вывод
Априорное распределение — это распределение параметра(ов) до того, как будут получены какие-либо данные, т. е . Априорное распределение может быть нелегко определить; в таком случае одной из возможностей может быть использование априорного распределения Джеффриса для получения априорного распределения перед его обновлением с помощью новых наблюдений.
Распределение выборки — это распределение наблюдаемых данных, обусловленное его параметрами, т. е . Это также называется правдоподобием , особенно если рассматривать его как функцию параметра(ов), иногда записываемое как .
Предельное правдоподобие (иногда также называемое доказательством ) представляет собой распределение наблюдаемых данных , маргинализованных по параметру(ам), т. е. оно количественно определяет согласие между данными и мнением эксперта в геометрическом смысле, который можно сделать точным. [6] Если предельное правдоподобие равно 0, то согласия между данными и мнением эксперта нет, и правило Байеса применять нельзя.
Апостериорное распределение — это распределение параметра(ов) после учета наблюдаемых данных. Это определяется правилом Байеса , которое составляет основу байесовского вывода: это выражается словами как «апостериорное распределение пропорционально правдоподобию, умноженному на априорное», или иногда как «апостериорное распределение = правдоподобию, умноженному на априорное, по доказательствам».
На практике, для почти всех сложных байесовских моделей, используемых в машинном обучении, апостериорное распределение не получается в замкнутой форме распределения, в основном потому, что пространство параметров для может быть очень большим, или байесовская модель сохраняет определенную иерархическую структуру, сформулированную из наблюдений и параметра . В таких ситуациях нам нужно прибегнуть к методам аппроксимации. [7]
Общий случай: Пусть будет условным распределением заданного и пусть будет распределением . Совместное распределение тогда будет . Условное распределение заданного тогда определяется как
Существование и единственность необходимого условного ожидания является следствием теоремы Радона–Никодима . Это было сформулировано Колмогоровым в его знаменитой книге 1933 года. Колмогоров подчеркивает важность условной вероятности, написав в Предисловии: «Я хочу обратить внимание на ... и особенно на теорию условных вероятностей и условных ожиданий ...». [8] Теорема Байеса определяет апостериорное распределение из априорного распределения. Уникальность требует предположений о непрерывности. [9] Теорему Байеса можно обобщить, включив в нее неправильные априорные распределения, такие как равномерное распределение на вещественной прямой. [10] Современные методы Монте-Карло для цепей Маркова повысили важность теоремы Байеса, включая случаи с неправильными априорными данными. [11]
Байесовский прогноз
Апостериорное предсказательное распределение — это распределение новой точки данных, отнесенной к апостериорному распределению:
Априорное прогнозное распределение — это распределение новой точки данных, отстоящей от априорного:
Байесовская теория призывает использовать апостериорное предсказательное распределение для выполнения предсказательного вывода , т. е. для прогнозирования распределения новой, ненаблюдаемой точки данных. То есть, вместо фиксированной точки в качестве прогноза возвращается распределение по возможным точкам. Только таким образом используется все апостериорное распределение параметра(ов). Для сравнения, прогнозирование в частотной статистике часто включает в себя нахождение оптимальной точечной оценки параметра(ов) — например, по максимальному правдоподобию или максимальной апостериорной оценке (MAP) — и затем включение этой оценки в формулу для распределения точки данных. Это имеет тот недостаток, что оно не учитывает никакой неопределенности в значении параметра и, следовательно, будет недооценивать дисперсию предсказательного распределения.
В некоторых случаях частотная статистика может обойти эту проблему. Например, доверительные интервалы и интервалы прогнозирования в частотной статистике, построенные на основе нормального распределения с неизвестным средним значением и дисперсией, строятся с использованием t-распределения Стьюдента . Это правильно оценивает дисперсию, поскольку (1) среднее значение нормально распределенных случайных величин также распределено нормально, и (2) предсказательное распределение нормально распределенной точки данных с неизвестным средним значением и дисперсией, использующее сопряженные или неинформативные априорные данные, имеет t-распределение Стьюдента. Однако в байесовской статистике апостериорное предсказательное распределение всегда можно определить точно — или, по крайней мере, с произвольным уровнем точности при использовании численных методов.
Оба типа предсказательных распределений имеют форму составного распределения вероятностей (как и маргинальное правдоподобие ). Фактически, если априорное распределение является сопряженным априорным , таким образом, что априорное и апостериорное распределения происходят из одного и того же семейства, можно увидеть, что как априорное, так и апостериорное предсказательное распределения также происходят из одного и того же семейства составных распределений. Единственное отличие состоит в том, что апостериорное предсказательное распределение использует обновленные значения гиперпараметров (применяя байесовские правила обновления, приведенные в статье о сопряженном априорном распределении), тогда как априорное предсказательное распределение использует значения гиперпараметров, которые появляются в априорном распределении.
Математические свойства
Интерпретация фактора
. То есть, если бы модель была истинной, доказательства были бы более вероятными, чем предсказывается текущим состоянием убеждения. Обратное применимо к уменьшению убеждения. Если убеждение не меняется, . То есть, доказательства не зависят от модели. Если бы модель была истинной, доказательства были бы точно такими же вероятными, как предсказывается текущим состоянием убеждения.
Правление Кромвеля
Если то . Если и , то . Это можно интерпретировать так, что твердые убеждения нечувствительны к контрдоказательствам.
Первое следует непосредственно из теоремы Байеса. Последнее можно вывести, применив первое правило к событию «не » вместо « », получив «если , то », из чего немедленно следует результат.
Асимптотическое поведение апостериорной функции
Рассмотрим поведение распределения убеждений, когда оно обновляется большое количество раз с помощью независимых и одинаково распределенных испытаний. Для достаточно хороших априорных вероятностей теорема Бернштейна-фон Мизеса утверждает, что в пределе бесконечных испытаний апостериор сходится к гауссовскому распределению, независимому от начального априора, при некоторых условиях, впервые изложенных и строго доказанных Джозефом Л. Дубом в 1948 году, а именно, если рассматриваемая случайная величина имеет конечное вероятностное пространство . Более общие результаты были получены позже статистиком Дэвидом А. Фридманом , который опубликовал в двух основополагающих исследовательских работах в 1963 году [12] и 1965 году [13] о том, когда и при каких обстоятельствах гарантируется асимптотическое поведение апостериорной вероятности. Его статья 1963 года рассматривает, как и Дуб (1949), конечный случай и приходит к удовлетворительному выводу. Однако, если случайная величина имеет бесконечное, но счетное вероятностное пространство (т. е. соответствующее игральной кости с бесконечным числом граней), статья 1965 года показывает, что для плотного подмножества априорных вероятностей теорема Бернштейна-фон Мизеса неприменима. В этом случае почти наверняка нет асимптотической сходимости. Позже, в 1980-х и 1990-х годах, Фридман и Перси Диаконис продолжили работу над случаем бесконечных счетных вероятностных пространств. [14] Подводя итог, можно сказать, что может быть недостаточно испытаний для подавления эффектов первоначального выбора, и особенно для больших (но конечных) систем сходимость может быть очень медленной.
Сопряженные априорные распределения
В параметризованной форме априорное распределение часто предполагается происходящим из семейства распределений, называемых сопряженными априорами . Полезность сопряженного априорного распределения заключается в том, что соответствующее апостериорное распределение будет находиться в том же семействе, и расчет может быть выражен в замкнутой форме .
Оценки параметров и прогнозы
Часто желательно использовать апостериорное распределение для оценки параметра или переменной. Несколько методов байесовской оценки выбирают измерения центральной тенденции из апостериорного распределения.
Для одномерных задач существует уникальная медиана для практических непрерывных задач. Апостериорная медиана привлекательна как надежная оценка . [15]
Если существует конечное среднее значение для апостериорного распределения, то апостериорное среднее является методом оценки. [16]
Существуют примеры, когда максимум не достигается, и в этом случае набор оценок MAP пуст .
Существуют и другие методы оценки, которые минимизируют апостериорный риск (ожидаемые апостериорные потери) относительно функции потерь , и они представляют интерес для статистической теории принятия решений, использующей выборочное распределение («частотная статистика»). [18]
Апостериорное предсказательное распределение нового наблюдения (независимое от предыдущих наблюдений) определяется по формуле [19]
Примеры
Вероятность гипотезы
Предположим, что есть две полные миски печенья. В миске № 1 находится 10 печений с шоколадной крошкой и 30 обычных печений, а в миске № 2 — по 20 каждого вида. Наш друг Фред выбирает миску наугад, а затем выбирает печенье наугад. Мы можем предположить, что нет никаких оснований полагать, что Фред относится к одной миске по-разному, как и к другой, то же самое касается и печенья. Печенье оказывается простым. Насколько вероятно, что Фред взял его из миски № 1?
Интуитивно кажется очевидным, что ответ должен быть больше половины, так как в миске № 1 больше простых печений. Точный ответ дается теоремой Байеса. Пусть соответствуют миске № 1 и миске № 2. Дано, что миски идентичны с точки зрения Фреда, таким образом , и эти две суммы должны давать 1, поэтому обе равны 0,5. Событием является наблюдение за простым печеньем. Из содержимого мисок мы знаем, что и формула Байеса тогда дает
До того, как мы наблюдали за печеньем, вероятность, которую мы назначили для Фреда, выбравшего миску № 1, была априорной вероятностью, которая была 0,5. После наблюдения за печеньем мы должны пересмотреть вероятность до , которая составляет 0,6.
Делать прогноз
Археолог работает на месте, которое, как полагают, относится к средневековому периоду, между 11-м и 16-м веками. Однако точно неизвестно, когда именно в этот период это место было заселено. Найдены фрагменты керамики, некоторые из которых покрыты глазурью, а некоторые украшены. Ожидается, что если это место было заселено в период раннего средневековья, то 1% керамики будет покрыт глазурью, а 50% ее площади будет украшено, тогда как если бы оно было заселено в период позднего средневековья, то 81% будет покрыт глазурью, а 5% ее площади будет украшено. Насколько археолог может быть уверен в дате заселения, если фрагменты будут обнаружены?
Степень веры в непрерывную переменную (столетие) должна быть рассчитана с дискретным набором событий в качестве доказательства. Предполагая линейное изменение глазури и декора со временем, и что эти переменные независимы,
Предположим, что априорное значение однородно , и что испытания независимы и одинаково распределены . Когда обнаруживается новый фрагмент типа , применяется теорема Байеса для обновления степени доверия для каждого :
На графике показано компьютерное моделирование изменения убеждений по мере того, как раскапываются 50 фрагментов. В моделировании место было заселено около 1420 года, или . Вычислив площадь под соответствующей частью графика для 50 испытаний, археолог может сказать, что практически нет шансов, что место было заселено в 11-м и 12-м веках, около 1% вероятности, что оно было заселено в 13-м веке, 63% вероятности в течение 14-го века и 36% в течение 15-го века. Теорема Бернштейна-фон Мизеса утверждает здесь асимптотическую сходимость к «истинному» распределению, поскольку вероятностное пространство, соответствующее дискретному набору событий , конечно (см. выше раздел об асимптотическом поведении апостериорной вероятности).
В частотной статистике и теории принятия решений
Теоретическое обоснование использования байесовского вывода было дано Абрахамом Вальдом , который доказал, что каждая уникальная байесовская процедура допустима . Наоборот, каждая допустимая статистическая процедура является либо байесовской процедурой, либо пределом байесовских процедур. [20]
«При некоторых условиях все допустимые процедуры являются либо байесовскими процедурами, либо пределами байесовских процедур (в различных смыслах). Эти замечательные результаты, по крайней мере в их первоначальной форме, по сути, принадлежат Вальду. Они полезны, поскольку свойство быть байесовским легче анализировать, чем допустимость». [20]
«В теории принятия решений довольно общий метод доказательства допустимости состоит в представлении процедуры как уникального байесовского решения». [24]
"В первых главах этой работы априорные распределения с конечным носителем и соответствующие байесовские процедуры использовались для установления некоторых основных теорем, касающихся сравнения экспериментов. Байесовские процедуры в отношении более общих априорных распределений сыграли очень важную роль в развитии статистики, включая ее асимптотическую теорию". "Существует много проблем, где взгляд на апостериорные распределения для подходящих априорных распределений немедленно дает интересную информацию. Кроме того, этот метод вряд ли можно избежать в последовательном анализе". [25]
«Полезным фактом является то, что любое правило принятия решений Байесом, полученное путем взятия надлежащего априорного распределения по всему пространству параметров, должно быть допустимым» [26]
«Важной областью исследований в развитии идей приемлемости были традиционные процедуры выборочной теории, и было получено много интересных результатов» [27] .
Выбор модели
Байесовская методология также играет роль в выборе модели , где цель состоит в том, чтобы выбрать одну модель из набора конкурирующих моделей, которая наиболее близко представляет базовый процесс, который сгенерировал наблюдаемые данные. При байесовском сравнении моделей выбирается модель с самой высокой апостериорной вероятностью , учитывая данные. Апостериорная вероятность модели зависит от доказательств, или предельного правдоподобия , которое отражает вероятность того, что данные сгенерированы моделью, и от априорного убеждения модели. Когда две конкурирующие модели априори считаются равновероятными, отношение их апостериорных вероятностей соответствует фактору Байеса . Поскольку байесовское сравнение моделей направлено на выбор модели с самой высокой апостериорной вероятностью, эта методология также называется правилом выбора максимума апостериори (MAP) [28] или правилом вероятности MAP. [29]
Вероятностное программирование
Хотя концептуально простые, байесовские методы могут быть математически и численно сложными. Вероятностные языки программирования (PPL) реализуют функции для легкого построения байесовских моделей вместе с эффективными методами автоматического вывода. Это помогает отделить построение модели от вывода, позволяя практикам сосредоточиться на своих конкретных проблемах и оставляя PPL обрабатывать вычислительные детали за них. [30] [31] [32]
Байесовский вывод имеет приложения в искусственном интеллекте и экспертных системах . Методы байесовского вывода были фундаментальной частью компьютерных методов распознавания образов с конца 1950-х годов. [33] Также существует постоянно растущая связь между байесовскими методами и методами Монте-Карло , основанными на моделировании , поскольку сложные модели не могут быть обработаны в замкнутой форме с помощью байесовского анализа, в то время как графическая структура модели может позволить использовать эффективные алгоритмы моделирования, такие как выборка Гиббса и другие схемы алгоритма Метрополиса-Гастингса . [34] Недавно [ когда? ] байесовский вывод приобрел популярность среди филогенетического сообщества по этим причинам; ряд приложений позволяют одновременно оценивать многие демографические и эволюционные параметры.
Индуктивный вывод Соломоноффа — это теория предсказания, основанная на наблюдениях; например, предсказание следующего символа на основе заданной серии символов. Единственное предположение заключается в том, что среда следует некоторому неизвестному, но вычислимому распределению вероятностей . Это формальная индуктивная структура, которая объединяет два хорошо изученных принципа индуктивного вывода: байесовскую статистику и бритву Оккама . [35] [ ненадежный источник? ] Универсальная априорная вероятность Соломоноффа любого префикса p вычислимой последовательности x — это сумма вероятностей всех программ (для универсального компьютера), которые вычисляют что-то, начиная с p . При наличии некоторого p и любого вычислимого, но неизвестного распределения вероятностей, из которого выбирается x , универсальная априорная вероятность и теорема Байеса могут быть использованы для предсказания еще невидимых частей x оптимальным образом. [36] [37]
Биоинформатика и приложения в здравоохранении
Байесовский вывод применялся в различных приложениях биоинформатики , включая дифференциальный анализ экспрессии генов. [38] Байесовский вывод также используется в общей модели риска рака, называемой CIRI (Continuous Individualized Risk Index), где серийные измерения включены для обновления байесовской модели, которая в первую очередь построена на основе предыдущих знаний. [39] [40]
В зале суда
Байесовский вывод может использоваться присяжными для последовательного накопления доказательств за и против обвиняемого, а также для того, чтобы увидеть, соответствуют ли они в совокупности их личному порогу для « вне разумного сомнения ». [41] [42] [43] Теорема Байеса применяется последовательно ко всем представленным доказательствам, причем апостериорное с одного этапа становится априорным для следующего. Преимущество байесовского подхода заключается в том, что он дает присяжному беспристрастный, рациональный механизм для объединения доказательств. Может быть целесообразно объяснить присяжным теорему Байеса в форме коэффициентов , поскольку коэффициенты ставок более широко понятны, чем вероятности. В качестве альтернативы, логарифмический подход , заменяющий умножение сложением, может быть проще для присяжных.
Если существование преступления не вызывает сомнений, а только личность виновного, то предполагается, что априорная вероятность должна быть единообразной для соответствующей популяции. [44] Например, если преступление могли совершить 1000 человек, априорная вероятность виновности будет равна 1/1000.
Использование теоремы Байеса присяжными является спорным. В Соединенном Королевстве эксперт-свидетель защиты объяснил теорему Байеса присяжным в деле R v Adams . Присяжные признали его виновным, но дело было передано в апелляцию на том основании, что не было предоставлено никаких средств сбора доказательств для присяжных, которые не хотели использовать теорему Байеса. Апелляционный суд подтвердил обвинительный приговор, но также высказал мнение, что «внедрение теоремы Байеса или любого аналогичного метода в уголовный процесс погружает присяжных в неуместные и ненужные области теории и сложности, отвлекая их от их надлежащей задачи».
Гарднер-Медвин [45] утверждает, что критерием, на котором должен основываться вердикт в уголовном процессе, является не вероятность вины, а вероятность доказательств, учитывая, что обвиняемый невиновен (сродни частотному p-значению ). Он утверждает, что если апостериорная вероятность вины должна быть вычислена по теореме Байеса, априорная вероятность вины должна быть известна. Это будет зависеть от частоты преступления, что является необычным доказательством для рассмотрения в уголовном процессе. Рассмотрим следующие три предложения:
А – известные факты и показания могли возникнуть, если бы подсудимый был виновен.
Б – известные факты и показания могли возникнуть, если бы подсудимый был невиновен.
C – подсудимый виновен.
Гарднер-Медвин утверждает, что присяжные должны верить как A , так и не- B, чтобы вынести обвинительный приговор. A и не- B подразумевают истинность C , но обратное неверно. Возможно, что B и C оба истинны, но в этом случае он утверждает, что присяжные должны оправдать, даже если они знают, что отпустят некоторых виновных на свободу. См. также парадокс Линдли .
Байесовская эпистемология
Байесовская эпистемология — это движение, которое отстаивает байесовский вывод как средство обоснования правил индуктивной логики.
Карл Поппер и Дэвид Миллер отвергли идею байесовского рационализма, то есть использования правила Байеса для получения эпистемологических выводов: [46] Он склонен к тому же порочному кругу , что и любая другая джастификационистская эпистемология, поскольку предполагает то, что пытается оправдать. Согласно этой точке зрения, рациональная интерпретация байесовского вывода будет рассматривать его просто как вероятностную версию фальсификации , отвергая убеждение, обычно разделяемое байесовцами, что высокая вероятность, достигнутая серией байесовских обновлений, докажет гипотезу вне всякого разумного сомнения или даже с вероятностью больше 0.
Другой
Научный метод иногда интерпретируется как применение байесовского вывода. С этой точки зрения правило Байеса направляет (или должно направлять) обновление вероятностей гипотез , обусловленных новыми наблюдениями или экспериментами . [47] Байесовский вывод также применялся для лечения проблем стохастического планирования с неполной информацией Каем и др. (2009). [48]
Термин «байесовский» относится к Томасу Байесу (1701–1761), который доказал, что вероятностные пределы могут быть наложены на неизвестное событие. [ требуется ссылка ] Однако именно Пьер-Симон Лаплас (1749–1827) ввел (как Принцип VI) то, что сейчас называется теоремой Байеса , и использовал ее для решения проблем в небесной механике , медицинской статистике, надежности и юриспруденции . [54] Ранний байесовский вывод, который использовал равномерные априорные данные, следуя принципу недостаточной причины Лапласа , назывался « обратной вероятностью » (потому что он выводит обратно от наблюдений к параметрам или от следствий к причинам [55] ). После 1920-х годов «обратная вероятность» была в значительной степени вытеснена набором методов, которые стали называться частотной статистикой . [55]
В 20 веке идеи Лапласа получили дальнейшее развитие в двух различных направлениях, что привело к появлению объективных и субъективных течений в байесовской практике. В объективном или «неинформативном» течении статистический анализ зависит только от предполагаемой модели, анализируемых данных [56] и метода назначения априорной информации, который отличается у разных объективных байесовских практиков. В субъективном или «информативном» течении спецификация априорной информации зависит от убеждения (то есть предложений, на основе которых анализ готов действовать), которое может суммировать информацию от экспертов, предыдущих исследований и т. д.
В 1980-х годах наблюдался резкий рост исследований и приложений байесовских методов, в основном благодаря открытию методов Монте-Карло на основе цепей Маркова , которые устранили многие вычислительные проблемы, а также возросший интерес к нестандартным, сложным приложениям. [57] Несмотря на рост байесовских исследований, большинство программ обучения на бакалавриате по-прежнему основано на частотной статистике. [58] Тем не менее, байесовские методы широко приняты и используются, например, в области машинного обучения . [59]
^ Гельман, Эндрю; Карлин, Джон Б.; Стерн, Хэл С.; Дансон, Дэвид Б.; Вехтари, Аки; Рубин, Дональд Б. (2013). Байесовский анализ данных , третье издание. Chapman and Hall/CRC. ISBN 978-1-4398-4095-5 .
^ де Карвальо, Мигель; Пейдж, Гарритт; Барни, Брэдли (2019). «О геометрии байесовского вывода» (PDF) . Байесовский анализ . 14 (4): 1013‒1036. doi :10.1214/18-BA1112. S2CID 88521802.
^ Ли, Се Юн (2021). «Сэмплер Гиббса и вариационный вывод с восхождением координат: обзор теории множеств». Communications in Statistics – Theory and Methods . 51 (6): 1549–1568. arXiv : 2008.01006 . doi : 10.1080/03610926.2021.1921214. S2CID 220935477.
^ Колмогоров, А. Н. (1933) [1956]. Основы теории вероятностей . Chelsea Publishing Company.
^ Tjur, Tue (1980). Вероятность, основанная на мерах Радона. Архив Интернета. Чичестер [Eng.] ; Нью-Йорк : Wiley. ISBN978-0-471-27824-5.
^ Таральдсен, Гуннар; Туфто, Ярле; Линдквист, Бо Х. (24 июля 2021 г.). «Неправильные априорные и неправильные апостериорные». Скандинавский статистический журнал . 49 (3): 969–991. дои : 10.1111/sjos.12550 . hdl : 11250/2984409 . ISSN 0303-6898. S2CID 237736986.
^ Роберт, Кристиан П.; Каселла, Джордж (2004). Статистические методы Монте-Карло. Springer. ISBN978-1475741452. OCLC 1159112760.
^ Freedman, DA (1963). «Об асимптотическом поведении оценок Байеса в дискретном случае». Анналы математической статистики . 34 (4): 1386–1403. doi : 10.1214/aoms/1177703871 . JSTOR 2238346.
^ Freedman, DA (1965). «Об асимптотическом поведении байесовских оценок в дискретном случае II». Анналы математической статистики . 36 (2): 454–456. doi : 10.1214/aoms/1177700155 . JSTOR 2238150.
^ Робинс, Джеймс; Вассерман, Ларри (2000). «Обусловливание, правдоподобие и когерентность: обзор некоторых основополагающих концепций». Журнал Американской статистической ассоциации . 95 (452): 1340–1346. doi :10.1080/01621459.2000.10474344. S2CID 120767108.
^ Сен, Пранаб К.; Китинг, Дж. П.; Мейсон, Р. Л. (1993). Мера близости Питмана: сравнение статистических оценок . Филадельфия: SIAM.
^ Чоудхури, Нидхан; Госал, Субхашис; Рой, Аниндья (2005-01-01). "Байесовские методы оценки функций". Справочник по статистике . Байесовское мышление. Том 25. С. 373–414. CiteSeerX 10.1.1.324.3052 . doi :10.1016/s0169-7161(05)25013-7. ISBN9780444515391.
^ Кифер, Дж.; Шварц Р. (1965). «Допустимый байесовский характер T2-, R2- и других полностью инвариантных тестов для многомерных нормальных задач». Annals of Mathematical Statistics . 36 (3): 747–770. doi : 10.1214/aoms/1177700051 .
^ Шварц, Р. (1969). «Инвариантные правильные байесовские тесты для экспоненциальных семейств». Annals of Mathematical Statistics . 40 : 270–283. doi : 10.1214/aoms/1177697822 .
^ Хванг, Дж. Т. и Каселла, Джордж (1982). «Минимаксные доверительные множества для среднего значения многомерного нормального распределения» (PDF) . Annals of Statistics . 10 (3): 868–881. doi : 10.1214/aos/1176345877 .
^ Леманн, Эрих (1986). Проверка статистических гипотез (второе изд.).(см. стр. 309 Главы 6.7 «Допустимость» и стр. 17–18 Главы 1.8 «Полные классы»
^ Le Cam, Lucien (1986). Асимптотические методы в теории статистических решений . Springer-Verlag. ISBN978-0-387-96307-5.(Из «Главы 12 Апостериорные распределения и байесовские решения», стр. 324)
^ Кокс, DR ; Хинкли, DV (1974). Теоретическая статистика . Чапман и Холл. стр. 432. ISBN978-0-04-121537-3.
^ Кокс, DR ; Хинкли, DV (1974). Теоретическая статистика . Чапман и Холл. стр. 433. ISBN978-0-04-121537-3.)
^ Stoica, P.; Selen, Y. (2004). «Обзор правил информационного критерия». Журнал обработки сигналов IEEE . 21 (4): 36–47. doi :10.1109/MSP.2004.1311138. S2CID 17338979.
^ Fatermans, J.; Van Aert, S.; den Dekker, AJ (2019). «Правило максимальной апостериорной вероятности для обнаружения столбцов атомов из изображений HAADF STEM». Ультрамикроскопия . 201 : 81–91. arXiv : 1902.05809 . doi : 10.1016/j.ultramic.2019.02.003. PMID 30991277. S2CID 104419861.
^ Бессьер, П., Мазер, Э., Ахуактзин, Дж. М. и Мехнача, К. (2013). Байесовское программирование (1-е издание) Чапман и Холл/CRC.
^ Ghahramani, Z (2015). «Вероятностное машинное обучение и искусственный интеллект». Nature . 521 (7553): 452–459. Bibcode :2015Natur.521..452G. doi :10.1038/nature14541. PMID 26017444. S2CID 216356.
^ Файнберг, Стивен Э. (2006-03-01). «Когда байесовский вывод стал «байесовским»?». Байесовский анализ . 1 (1). doi : 10.1214/06-BA101 .
^ Джим Альберт (2009). Байесовские вычисления с R, Второе издание . Нью-Йорк, Дордрехт и т. д.: Springer. ISBN978-0-387-92297-3.
^ Ратманнер, Сэмюэл; Хаттер, Маркус; Ормерод, Томас С. (2011). «Философский трактат об универсальной индукции». Энтропия . 13 (6): 1076–1136. arXiv : 1105.5721 . Bibcode : 2011Entrp..13.1076R. doi : 10.3390/e13061076 . S2CID 2499910.
^ Хаттер, Маркус; Хе, Ян-Хуэй; Ормерод, Томас С. (2007). «Об универсальном предсказании и байесовском подтверждении». Теоретическая информатика . 384 (2007): 33–48. arXiv : 0709.1516 . Bibcode : 2007arXiv0709.1516H. doi : 10.1016/j.tcs.2007.05.016. S2CID 1500830.
^ Гач, Питер; Витаньи, Пол МБ (2 декабря 2010 г.). «Раймонд Дж. Соломонов 1926–2009». CiteSeerX 10.1.1.186.8268 .
^ Робинсон, Марк Д. и Маккарти, Дэвис Дж. и Смит, Гордон К. edgeR: пакет Bioconductor для анализа дифференциальной экспрессии цифровых данных об экспрессии генов, Биоинформатика.
^ "ЦИРИ". ciri.stanford.edu . Проверено 11 августа 2019 г.
^ Курц, Дэвид М.; Эсфахани, Мохаммад С.; Шерер, Флориан; Су, Джоанн; Джин, Майкл К.; Лю, Чи Лонг; Ньюман, Аарон М.; Дюрсен, Ульрих; Хюттманн, Андреас (2019-07-25). «Динамическое профилирование риска с использованием серийных биомаркеров опухолей для персонализированного прогнозирования результатов». Cell . 178 (3): 699–713.e19. doi : 10.1016/j.cell.2019.06.011 . ISSN 1097-4172. PMC 7380118 . PMID 31280963.
^
Форман, Л. А.; Смит, А. Ф. М. и Эветт, И. В. (1997). «Байесовский анализ данных профилирования дезоксирибонуклеиновой кислоты в приложениях судебной идентификации (с обсуждением)». Журнал Королевского статистического общества , Серия A, 160, 429–469.
^ Робертсон, Б. и Виньо, Г. А. (1995) Интерпретация доказательств: оценка судебной экспертизы в зале суда . John Wiley and Sons. Чичестер. ISBN 978-0-471-96026-3 .
^ Дэвид, А. П. (2001) Теорема Байеса и взвешивание доказательств присяжными. Архивировано 01.07.2015 на Wayback Machine
^ Гарднер-Медвин, А. (2005) «Какую вероятность следует учитывать присяжным?». Значимость , 2 (1), март 2005 г.
^ Миллер, Дэвид (1994). Критический рационализм. Чикаго: Открытый суд. ISBN978-0-8126-9197-9.
^ Хаусон и Урбах (2005), Джейнс (2003)
^ Cai, XQ; Wu, XY; Zhou, X. (2009). «Стохастическое планирование с учетом повторных сбоев с неполной информацией». Operations Research . 57 (5): 1236–1249. doi :10.1287/opre.1080.0660.
^ Огл, Киона; Такер, Колин; Кейбл, Джессика М. (2014-01-01). «За пределами простых линейных моделей смешивания: процессно-ориентированное изотопное разделение экологических процессов». Экологические приложения . 24 (1): 181–195. doi :10.1890/1051-0761-24.1.181. ISSN 1939-5582. PMID 24640543.
^ Эваристо, Джайвиме; Макдоннелл, Джеффри Дж.; Шолл, Марта А.; Брюйнзеель, Л. Адриан; Чун, Квок П. (2016-01-01). «Понимание поглощения воды растениями на основе измерений изотопов ксилемной воды в двух тропических водосборах с контрастными условиями влажности». Гидрологические процессы . 30 (18): 3210–3227. Bibcode : 2016HyPr...30.3210E. doi : 10.1002/hyp.10841. ISSN 1099-1085. S2CID 131588159.
^ Гупта, Анкур; Роулингс, Джеймс Б. (апрель 2014 г.). «Сравнение методов оценки параметров в стохастических химических кинетических моделях: примеры в системной биологии». Журнал AIChE . 60 (4): 1253–1268. Bibcode : 2014AIChE..60.1253G. doi : 10.1002/aic.14409. ISSN 0001-1541. PMC 4946376. PMID 27429455 .
^ Форнальски, К. В. (2016). «Байесовская модель головастика для обнаружения изменений тренда в финансовых котировках» (PDF) . R&R Journal of Statistics and Mathematical Sciences . 2 (1): 117–122.
^ Шютц, Н.; Хольшнайдер, М. (2011). «Обнаружение изменений тренда во временных рядах с использованием байесовского вывода». Physical Review E. 84 ( 2): 021120. arXiv : 1104.3448 . Bibcode : 2011PhRvE..84b1120S. doi : 10.1103/PhysRevE.84.021120. PMID 21928962. S2CID 11460968.
^ Стиглер, Стивен М. (1986). "Глава 3" . История статистики . Издательство Гарвардского университета. ISBN9780674403406.
^ ab Fienberg, Stephen E. (2006). «Когда байесовский вывод стал „байесовским“?». Bayesian Analysis . 1 (1): 1–40 [стр. 5]. doi : 10.1214/06-ba101 .
^ Бернардо, Хосе-Мигель (2005). «Анализ ссылок». Справочник по статистике . Т. 25. С. 17–90.
^ Wolpert, R. L. (2004). «Разговор с Джеймсом О. Бергером». Статистическая наука . 19 (1): 205–218. CiteSeerX 10.1.1.71.6112 . doi :10.1214/088342304000000053. MR 2082155. S2CID 120094454.
^ Бернардо, Хосе М. (2006). «Введение в байесовскую математическую статистику» (PDF) . Icots-7 .
^ Бишоп, CM (2007). Распознавание образов и машинное обучение . Нью-Йорк: Springer. ISBN978-0387310732.
Источники
Астер, Ричард; Борчерс, Брайан и Тербер, Клиффорд (2012). Оценка параметров и обратные задачи , второе издание, Elsevier. ISBN 0123850487 , ISBN 978-0123850485
Бикель, Питер Дж. и Доксум, Кьелл А. (2001). Математическая статистика, том 1: основные и избранные темы (второе (обновленное издание 2007 г.) изд.). Pearson Prentice–Hall. ISBN 978-0-13-850363-5.
Эдвардс, Уорд (1968). «Консерватизм в обработке информации человеком». В Кляйнмунц, Б. (ред.). Формальное представление человеческого суждения . Wiley.
Эдвардс, Уорд (1982). Дэниел Канеман ; Пол Слович ; Амос Тверски (ред.). «Суждение в условиях неопределенности: эвристики и предубеждения». Science . 185 (4157): 1124–1131. Bibcode :1974Sci...185.1124T. doi :10.1126/science.185.4157.1124. PMID 17835457. S2CID 143452957. Глава: Консерватизм в обработке информации человеком (выдержка)
Филлипс, Л. Д.; Эдвардс, Уорд (октябрь 2008 г.). "Глава 6: Консерватизм в простой задаче вывода вероятности ( Журнал экспериментальной психологии (1966) 72: 346-354)". В Jie W. Weiss; David J. Weiss (ред.). Наука принятия решений: наследие Уорда Эдвардса . Oxford University Press. стр. 536. ISBN 978-0-19-532298-9.
Дальнейшее чтение
Для полного отчета об истории байесовской статистики и дебатах с подходами частотников, прочитайте Vallverdu, Jordi (2016). Bayesians Versus Frequentists A Philosophical Debate on Statistical Reasoning . New York: Springer. ISBN 978-3-662-48638-2.
Клейтон, Обри (август 2021 г.). Ошибка Бернулли: статистическая нелогичность и кризис современной науки. Columbia University Press. ISBN 978-0-231-55335-3.
Элементарный
Следующие книги перечислены в порядке возрастания вероятностной сложности:
Стоун, Дж. В. (2013), «Правило Байеса: Введение в байесовский анализ», Загрузите первую главу здесь, Sebtel Press, Англия.
Болстад, Уильям М. (2007) Введение в байесовскую статистику : второе издание, John Wiley ISBN 0-471-27020-2
Винклер, Роберт Л. (2003). Введение в байесовский вывод и принятие решений (2-е изд.). Вероятностный. ISBN 978-0-9647938-4-2.Обновленный классический учебник. Четко изложена байесовская теория.
Ли, Питер М. Байесовская статистика: Введение . Четвертое издание (2012), John Wiley ISBN 978-1-1183-3257-3
Карлин, Брэдли П. и Луис, Томас А. (2008). Байесовские методы анализа данных, третье издание . Бока-Ратон, Флорида: Chapman and Hall/CRC. ISBN 978-1-58488-697-6.
Гельман, Эндрю ; Карлин, Джон Б.; Стерн, Хэл С.; Дансон, Дэвид Б.; Вехтари, Аки; Рубин, Дональд Б. (2013). Байесовский анализ данных, третье издание . Chapman and Hall/CRC. ISBN 978-1-4398-4095-5.
Средний или продвинутый уровень
Бергер, Джеймс О. (1985). Статистическая теория принятия решений и байесовский анализ . Springer Series in Statistics (Второе издание). Springer-Verlag. Bibcode :1985sdtb.book.....B. ISBN 978-0-387-96098-2.
ДеГрут, Моррис Х. , Оптимальные статистические решения . Библиотека классических исследований Wiley. 2004. (Первоначально опубликовано (1970) издательством McGraw-Hill.) ISBN 0-471-68029-X .
Шервиш, Марк Дж. (1995). Теория статистики . Спрингер-Верлаг. ISBN 978-0-387-94546-0.
Джейнс, ET (1998). Теория вероятностей: логика науки.
О'Хаган, А. и Форстер, Дж. (2003). Усовершенствованная теория статистики Кендалла , том 2B: Байесовский вывод . Арнольд, Нью-Йорк. ISBN 0-340-52922-9 .
Роберт, Кристиан П. (2007). Байесовский выбор: от теоретико-принимающих основ к вычислительной реализации (мягкая обложка). Springer. ISBN 978-0-387-71598-8.
Pearl, Judea . (1988). Вероятностное рассуждение в интеллектуальных системах: сети правдоподобного вывода , Сан-Матео, Калифорния: Morgan Kaufmann.
Пьер Бессьер и др. (2013). «Байесовское программирование». ЦРК Пресс. ISBN 9781439880326
Франциско Дж. Саманиего (2010). «Сравнение байесовского и частотного подходов к оценке». Springer. Нью-Йорк, ISBN 978-1-4419-5940-9
Введение в байесовскую вероятность от Лондонского университета королевы Марии
Математические заметки по байесовской статистике и цепям Маркова Монте-Карло
Список байесовского чтения Архивировано 25.06.2011 в Wayback Machine , категоризировано и аннотировано Томом Гриффитсом
А. Хайек и С. Хартманн: Байесовская эпистемология, в: J. Dancy et al. (ред.), A Companion to Epistemology. Оксфорд: Blackwell 2010, 93–106.
S. Hartmann и J. Sprenger: Байесовская эпистемология, в: S. Bernecker и D. Pritchard (ред.), Routledge Companion to Epistemology. Лондон: Routledge 2010, 609–620.
Стэнфордская энциклопедия философии: «Индуктивная логика»
Теория подтверждения Байеса (PDF)
Что такое байесовское обучение?
Данные, неопределенность и вывод — неформальное введение со множеством примеров, электронная книга (PDF) в свободном доступе на сайте causaScientia