Байесовская сеть (также известная как сеть Байеса , сеть Байеса , сеть убеждений или сеть решений ) — это вероятностная графическая модель , которая представляет набор переменных и их условных зависимостей через направленный ациклический граф (DAG). Хотя это одна из нескольких форм причинной записи , причинные сети являются частными случаями байесовских сетей. Байесовские сети идеально подходят для анализа произошедшего события и прогнозирования вероятности того, что любая из нескольких возможных известных причин стала способствующим фактором. Например, байесовская сеть может представлять вероятностные связи между заболеваниями и симптомами. Учитывая симптомы, сеть можно использовать для расчета вероятности наличия различных заболеваний.
Эффективные алгоритмы могут выполнять вывод и обучение в байесовских сетях. Байесовские сети, которые моделируют последовательности переменных ( например, речевые сигналы или последовательности белков ), называются динамическими байесовскими сетями . Обобщения байесовских сетей, которые могут представлять и решать проблемы принятия решений в условиях неопределенности, называются диаграммами влияния .
Формально байесовские сети представляют собой ориентированные ациклические графы (DAG), узлы которых представляют переменные в байесовском смысле: это могут быть наблюдаемые величины, скрытые переменные , неизвестные параметры или гипотезы. Каждое ребро представляет собой прямую условную зависимость. Любая пара узлов, которые не связаны между собой (т. е. никакой путь не соединяет один узел с другим), представляют собой переменные, условно независимые друг от друга. Каждый узел связан с функцией вероятности , которая принимает в качестве входных данных определенный набор значений для родительских переменных узла и выдает (в качестве выходных данных) вероятность (или распределение вероятностей, если применимо) переменной, представленной узлом. Например, если родительские узлы представляют логические переменные , то функция вероятности может быть представлена таблицей записей, по одной записи для каждой из возможных родительских комбинаций. Подобные идеи могут быть применены к неориентированным и, возможно, циклическим графам, таким как сети Маркова .
Давайте воспользуемся иллюстрацией, чтобы реализовать концепции байесовской сети. Предположим, мы хотим смоделировать зависимости между тремя переменными: разбрызгивателем (или, точнее, его состоянием — включен он или нет), наличием или отсутствием дождя и мокрой травой или нет. Обратите внимание, что два события могут привести к намоканию травы: активный разбрызгиватель или дождь. Дождь оказывает прямое влияние на использование разбрызгивателя (а именно, когда идет дождь, разбрызгиватель обычно не работает). Эту ситуацию можно смоделировать с помощью байесовской сети (показано справа). Каждая переменная имеет два возможных значения: T (истина) и F (ложь).
Совместная функция вероятности , согласно цепному правилу вероятности ,
где G = «Трава мокрая (верно/неверно)», S = «Разбрызгиватель включен (верно/неверно)», и R = «Дождь (верно/неверно)».
Модель может отвечать на вопросы о наличии причины при наличии эффекта (так называемая обратная вероятность), например: «Какова вероятность того, что идет дождь, учитывая, что трава мокрая?» используя формулу условной вероятности и суммируя все мешающие переменные :
Используя разложение совместной функции вероятности и условных вероятностей из таблиц условных вероятностей (КПТ), указанных на схеме, можно оценить каждое слагаемое в суммах в числителе и знаменателе. Например,
Затем числовые результаты (с индексами соответствующих значений переменных)
Чтобы ответить на интервенционный вопрос, например: «Какова вероятность того, что пойдет дождь, учитывая, что мы намочили траву?» ответ определяется функцией совместного распределения после вмешательства
полученный путем удаления фактора из распределения до вмешательства. Оператор do заставляет значение G быть истинным. На вероятность дождя действие не влияет:
Чтобы спрогнозировать последствия включения разбрызгивателя:
с удаленным термином , показывающим, что действие влияет на траву, но не на дождь.
Эти прогнозы могут оказаться неосуществимыми, если учесть ненаблюдаемые переменные, как это происходит в большинстве задач по оценке политики. Однако эффект действия все еще можно предсказать, если критерий «черного хода» удовлетворен. [1] [2] В нем говорится, что если можно наблюдать набор Z узлов, который d-разделяет [3] (или блокирует) все обходные пути от X до Y , тогда
Обходной путь — это путь, который заканчивается стрелкой в X . Множества, удовлетворяющие критерию «черного хода», называются «достаточными» или «допустимыми». Например, набор Z = R допустим для предсказания влияния S = T на G , потому что R d -разделяет (единственный) черный путь S ← R → G. Однако, если S не наблюдается, никакое другое множество d -не отделяет этот путь, и эффект включения разбрызгивателя ( S = T ) на траву ( G ) не может быть предсказан на основе пассивных наблюдений. В этом случае P ( G | do( S = T )) не «идентифицирован». Это отражает тот факт, что при отсутствии интервенционных данных наблюдаемая зависимость между S и G обусловлена причинной связью или является ложной (кажущаяся зависимость, возникающая по общей причине R ). (см. парадокс Симпсона )
Чтобы определить, идентифицировано ли причинное отношение из произвольной байесовской сети с ненаблюдаемыми переменными, можно использовать три правила « исчисления do » [1] [4] и проверить, можно ли удалить все термины do из выражения этого отношения. , тем самым подтверждая, что желаемое количество можно оценить на основе данных о частоте. [5]
Использование байесовской сети может сэкономить значительные объемы памяти при использовании исчерпывающих таблиц вероятностей, если зависимости в совместном распределении разрежены. Например, простой способ хранения условных вероятностей 10 двузначных переменных в виде таблицы требует места для хранения значений. Если локальное распределение ни одной переменной не зависит от более чем трех родительских переменных, представление байесовской сети сохраняет максимум значений.
Одним из преимуществ байесовских сетей является то, что человеку интуитивно легче понять (редкий набор) прямых зависимостей и локальных распределений, чем полные совместные распределения.
Байесовские сети выполняют три основные задачи вывода:
Поскольку байесовская сеть представляет собой полную модель своих переменных и их отношений, ее можно использовать для ответа на вероятностные запросы о них. Например, сеть можно использовать для обновления знаний о состоянии подмножества переменных, когда наблюдаются другие переменные (переменные свидетельства ). Этот процесс вычисления апостериорного распределения переменных с учетом имеющихся данных называется вероятностным выводом. Апостериорный метод дает универсальную достаточную статистику для приложений обнаружения при выборе значений для подмножества переменных, которые минимизируют некоторую функцию ожидаемых потерь, например, вероятность ошибки решения. Таким образом, байесовскую сеть можно рассматривать как механизм автоматического применения теоремы Байеса к сложным задачам.
Наиболее распространенными методами точного вывода являются: исключение переменных , которое исключает (путем интегрирования или суммирования) ненаблюдаемые переменные, не относящиеся к запросу, одну за другой, распределяя сумму по произведению; распространение дерева кликов , которое кэширует вычисления, чтобы можно было запрашивать множество переменных одновременно и быстро распространять новые данные; а также рекурсивное кондиционирование и поиск И/ИЛИ, которые позволяют найти компромисс между пространством и временем и соответствуют эффективности исключения переменных при использовании достаточного пространства. Все эти методы имеют сложность, экспоненциальную в зависимости от ширины дерева сети . Наиболее распространенными алгоритмами приближенного вывода являются выборка по значимости , стохастическое моделирование MCMC , исключение мини-корзины, циклическое распространение убеждений , обобщенное распространение убеждений и вариационные методы .
Чтобы полностью определить байесовскую сеть и, таким образом, полностью представить совместное распределение вероятностей , необходимо указать для каждого узла X распределение вероятностей для X , зависящее от родителей X. Распределение X в зависимости от его родителей может иметь любую форму. Обычно работают с дискретными или гауссовскими распределениями , поскольку это упрощает расчеты. Иногда известны только ограничения на распространение; затем можно использовать принцип максимальной энтропии для определения единственного распределения, имеющего наибольшую энтропию с учетом ограничений. (Аналогично, в конкретном контексте динамической байесовской сети условное распределение временной эволюции скрытого состояния обычно задается для максимизации уровня энтропии подразумеваемого стохастического процесса.)
Часто эти условные распределения включают параметры, которые неизвестны и должны быть оценены на основе данных, например, с помощью подхода максимального правдоподобия . Прямая максимизация правдоподобия (или апостериорной вероятности ) часто является сложной задачей, учитывая ненаблюдаемые переменные. Классическим подходом к этой проблеме является алгоритм максимизации ожидания , который чередует вычисление ожидаемых значений ненаблюдаемых переменных, зависящих от наблюдаемых данных, с максимизацией полной вероятности (или апостериорной) при условии, что ранее вычисленные ожидаемые значения верны. В условиях умеренной регулярности этот процесс сходится к значениям максимального правдоподобия (или максимального апостериорного значения) для параметров.
Более полный байесовский подход к параметрам состоит в том, чтобы рассматривать их как дополнительные ненаблюдаемые переменные и вычислять полное апостериорное распределение по всем узлам при условии соблюдения наблюдаемых данных, а затем интегрировать параметры. Этот подход может быть дорогостоящим и привести к созданию моделей большой размерности, что делает классические подходы к настройке параметров более удобными.
В простейшем случае байесовская сеть задается экспертом и затем используется для выполнения вывода. В других приложениях задача определения сети слишком сложна для людей. В этом случае структура сети и параметры локальных распределений должны быть изучены из данных.
Автоматическое изучение структуры графа байесовской сети (БС) — задача, решаемая в рамках машинного обучения . Основная идея восходит к алгоритму восстановления, разработанному Ребейном и Перлом [6] , и основана на различии между тремя возможными шаблонами, разрешенными в трехузловом DAG:
Первые 2 представляют собой одни и те же зависимости ( и являются независимыми данными ) и, следовательно, неотличимы. Однако коллайдер можно однозначно идентифицировать, поскольку и маргинально независимы, а все остальные пары зависимы. Таким образом, хотя скелеты (графики, лишенные стрелок) этих трех троек идентичны, направление стрелок частично можно определить. То же различие применяется, когда и имеют общих родителей, за исключением того, что сначала нужно поставить условие этим родителям. Были разработаны алгоритмы для систематического определения скелета базового графа и затем ориентации всех стрелок, направление которых диктуется наблюдаемыми условными независимостью. [1] [7] [8] [9]
Альтернативный метод структурного обучения использует поиск на основе оптимизации. Для этого требуется функция оценки и стратегия поиска. Распространенной оценочной функцией является апостериорная вероятность структуры с учетом обучающих данных, такой как BIC или BDeu. Требуемое время для исчерпывающего поиска, возвращающего структуру, которая максимизирует оценку, является суперэкспоненциальной по количеству переменных. Стратегия локального поиска вносит постепенные изменения, направленные на повышение оценки структуры. Алгоритм глобального поиска, такой как цепь Маркова Монте-Карло, может избежать попадания в ловушку локальных минимумов . Фридман и др. [10] [11] обсуждают использование взаимной информации между переменными и поиск структуры, которая максимизирует это. Они делают это, ограничивая набор родительских кандидатов k узлами и осуществляя исчерпывающий поиск в нем.
Особенно быстрый метод точного обучения BN — представить задачу как задачу оптимизации и решить ее с помощью целочисленного программирования . В целочисленную программу (ИП) при решении добавляются ограничения ацикличности в виде секущих плоскостей . [12] Такой метод позволяет решать задачи с числом переменных до 100.
Чтобы справиться с проблемами с тысячами переменных, необходим другой подход. Один из них — сначала выбрать один порядок, а затем найти оптимальную структуру BN относительно этого порядка. Это подразумевает работу над пространством поиска возможных упорядочений, что удобно, поскольку оно меньше пространства сетевых структур. Затем несколько заказов отбираются и оцениваются. Доказано, что этот метод является лучшим из доступных в литературе, когда количество переменных огромно. [13]
Другой метод заключается в сосредоточении внимания на подклассе разложимых моделей, для которых MLE имеет замкнутую форму. Тогда можно обнаружить непротиворечивую структуру для сотен переменных. [14]
Изучение байесовских сетей с ограниченной шириной дерева необходимо для обеспечения точного и удобного вывода, поскольку сложность вывода в наихудшем случае экспоненциальна по ширине дерева k (согласно гипотезе экспоненциального времени). Однако, будучи глобальным свойством графа, оно значительно усложняет процесс обучения. В этом контексте можно использовать K-дерево для эффективного обучения. [15]
Учитывая данные и параметры , простой байесовский анализ начинается с априорной вероятности ( априорной ) и вероятности для вычисления апостериорной вероятности .
Часто априорное значение, в свою очередь, зависит от других параметров , которые не упоминаются в вероятности. Таким образом, априорную вероятность необходимо заменить правдоподобием , и требуется априорная оценка вновь введенных параметров , что приводит к апостериорной вероятности.
Это простейший пример иерархической модели Байеса .
Процесс может быть повторен; например, параметры могут, в свою очередь, зависеть от дополнительных параметров , которые требуют своего собственного предварительного значения. В конце концов процесс должен завершиться, причем априорные значения не зависят от неупомянутых параметров.
Учитывая измеренные величины, каждая из которых имеет нормально распределенные ошибки с известным стандартным отклонением ,
Предположим, нас интересует оценка . Подход мог бы заключаться в оценке с использованием подхода максимального правдоподобия ; поскольку наблюдения независимы, вероятность факторизуется, а оценка максимального правдоподобия просто
Однако если величины связаны, например, индивидуумы сами взяты из основного распределения, то эта связь разрушает независимость и предполагает более сложную модель, например,
с неподходящими приорами , . Когда это идентифицированная модель (т. е. существует уникальное решение для параметров модели), и апостериорные распределения индивидуума будут иметь тенденцию смещаться или сжиматься от оценок максимального правдоподобия к их общему среднему значению. Такое сокращение является типичным поведением в иерархических моделях Байеса.
Необходима определенная осторожность при выборе априорных значений в иерархической модели, особенно в отношении масштабных переменных на более высоких уровнях иерархии, таких как переменная в примере. Обычные априоры, такие как априор Джеффриса, часто не работают, поскольку апостериорное распределение не будет нормализоваться, а оценки, сделанные путем минимизации ожидаемых потерь , будут недопустимы .
Было предложено несколько эквивалентных определений байесовской сети. Для дальнейшего пусть G = ( V , E ) — ориентированный ациклический граф (DAG), и пусть X = ( X v ), v ∈ V — набор случайных величин, индексированных V .
X является байесовской сетью относительно G , если ее совместная функция плотности вероятности (относительно меры продукта ) может быть записана как произведение отдельных функций плотности, зависящих от их родительских переменных: [16]
где pa( v ) — множество родителей вершины v (т. е. тех вершин, которые указывают непосредственно на v через одно ребро).
Для любого набора случайных величин вероятность любого члена совместного распределения может быть рассчитана на основе условных вероятностей с использованием цепного правила (с учетом топологического порядка X ) следующим образом: [16]
Используя приведенное выше определение, это можно записать так:
Разница между двумя выражениями заключается в условной независимости переменных от любых их не-потомков, учитывая значения их родительских переменных.
X является байесовской сетью относительно G , если она удовлетворяет локальному марковскому свойству : каждая переменная условно независима от своих непотомков, учитывая ее родительские переменные: [17]
где de( v ) — набор потомков, а V \ de( v ) — набор непотомков v .
Это можно выразить в терминах, аналогичных первому определению, как
Множество родителей является подмножеством множества не-потомков, поскольку граф является ациклическим .
Разработка байесовской сети часто начинается с создания DAG G, такого , что X удовлетворяет локальному марковскому свойству относительно G. Иногда это причинная DAG. Оцениваются условные распределения вероятностей каждой переменной с учетом ее родителей в G. Во многих случаях, в частности в случае, когда переменные дискретны, если совместное распределение X является произведением этих условных распределений, то X является байесовской сетью относительно G. [18]
Марковское одеяло узла — это множество узлов, состоящее из его родителей, его детей и любых других родителей его детей. Одеяло Маркова делает узел независимым от остальной сети; совместное распределение переменных в марковском бланкете узла является достаточным знанием для расчета распределения узла. X является байесовской сетью относительно G , если каждый узел условно независим от всех других узлов сети с учетом его марковского бланкета . [17]
Это определение можно сделать более общим, определив «d»-разделение двух узлов, где d означает направление. [1] Сначала мы определим «d»-разделение следа, а затем определим «d»-разделение двух узлов в терминах этого.
Пусть P — путь от узла u до v . Трасса — это ненаправленный путь без петель (т. е. все направления ребер игнорируются) между двумя узлами. Тогда говорят, что P d -разделен набором узлов Z , если выполняется любое из следующих условий:
Узлы u и v d - разделены Z , если все маршруты между ними d -разделены. Если u и v не d-разделены, они d-связны.
X является байесовской сетью относительно G , если для любых двух узлов u , v :
где Z — множество, которое d -разделяет u и v . ( Марковское одеяло — это минимальный набор узлов, который d -отделяет узел v от всех остальных узлов.)
Хотя байесовские сети часто используются для представления причинно-следственных связей, это не обязательно так: направленное ребро от u до v не требует, чтобы X v причинно зависело от X u . Об этом свидетельствует тот факт, что байесовские сети на графиках:
эквивалентны: то есть они предъявляют одни и те же требования условной независимости.
Причинная сеть — это байесовская сеть с требованием, чтобы отношения были причинными. Дополнительная семантика причинных сетей определяет, что если узел X активно приводится в заданное состояние x (действие, записанное как do( X = x )), то функция плотности вероятности изменяется на функцию плотности вероятности сети, полученной путем разрезания ссылки от родителей X к X и установка X в вызванное значение x . [1] Используя эту семантику, можно предсказать влияние внешнего вмешательства на основе данных, полученных до вмешательства.
В 1990 году, работая в Стэнфордском университете над крупными биоинформационными приложениями, Купер доказал, что точный вывод в байесовских сетях NP-труден . [19] Этот результат побудил к исследованию алгоритмов аппроксимации с целью разработки удобного приближения к вероятностному выводу. В 1993 году Пол Дагум и Майкл Луби доказали два удивительных результата о сложности аппроксимации вероятностного вывода в байесовских сетях. [20] Во-первых, они доказали, что ни один послушный детерминированный алгоритм не может аппроксимировать вероятностный вывод с точностью до абсолютной ошибки ɛ < 1/2. Во-вторых, они доказали, что ни один управляемый рандомизированный алгоритм не может аппроксимировать вероятностный вывод с точностью до абсолютной ошибки ɛ < 1/2 с доверительной вероятностью больше 1/2.
Примерно в то же время Рот доказал, что точный вывод в байесовских сетях на самом деле #P-полный (и, следовательно, так же сложен, как подсчет количества удовлетворяющих присвоений формулы конъюнктивной нормальной формы (КНФ)) и что аппроксимационный вывод в пределах множителя 2 n 1− ɛ для каждого ɛ > 0, даже для байесовских сетей с ограниченной архитектурой, является NP-трудной. [21] [22]
С практической точки зрения, эти результаты по сложности показали, что, хотя байесовские сети являются богатым представлением приложений искусственного интеллекта и машинного обучения, их использование в крупных реальных приложениях должно ограничиваться либо топологическими структурными ограничениями, такими как наивные сети Байеса, либо ограничениями. об условных вероятностях. Алгоритм ограниченной дисперсии [23], разработанный Дагумом и Луби, был первым доказуемым алгоритмом быстрой аппроксимации, позволяющим эффективно аппроксимировать вероятностный вывод в байесовских сетях с гарантиями аппроксимации ошибок. Этот мощный алгоритм требовал небольшого ограничения на условные вероятности байесовской сети, которые должны быть отделены от нуля и единицы с помощью где был любой полином числа узлов в сети, .
Известное программное обеспечение для байесовских сетей включает:
Термин «байесовская сеть» был придуман Джудеей Перл в 1985 году, чтобы подчеркнуть: [25]
В конце 1980-х годов «Вероятностное рассуждение в интеллектуальных системах» Перла [ 27 ] и «Вероятностное рассуждение в экспертных системах » Неаполитана [28] суммировали их свойства и определили их как область исследования.
{{cite book}}
: CS1 maint: location missing publisher (link){{cite book}}
: CS1 maint: bot: original URL status unknown (link): Также появляется как Хеккерман, Дэвид (март 1997 г.). «Байесовские сети для интеллектуального анализа данных». Интеллектуальный анализ данных и обнаружение знаний . 1 (1): 79–119. дои : 10.1023/А: 1009730122752. S2CID 6294315.