В области физики и вероятности марковское случайное поле ( MRF ), марковская сеть или неориентированная графическая модель — это набор случайных величин, имеющих марковское свойство , описанное неориентированным графом . Другими словами, случайное поле называется марковским случайным полем, если оно удовлетворяет марковским свойствам. Эта концепция берет свое начало в модели Шеррингтона–Киркпатрика . [1]
Сеть Маркова или MRF похожа на байесовскую сеть в своем представлении зависимостей; разница в том, что байесовские сети направлены и ацикличны , тогда как марковские сети ненаправлены и могут быть циклическими. Таким образом, марковская сеть может представлять определенные зависимости, которые байесовская сеть не может (например, циклические зависимости [ необходимо дальнейшее объяснение ] ); с другой стороны, она не может представлять определенные зависимости, которые байесовская сеть может (например, индуцированные зависимости [ необходимо дальнейшее объяснение ] ). Базовый граф марковского случайного поля может быть конечным или бесконечным.
Когда совместная плотность вероятности случайных величин строго положительна, ее также называют случайным полем Гиббса , поскольку, согласно теореме Хаммерсли–Клиффорда , ее можно представить мерой Гиббса для соответствующей (локально определенной) энергетической функции. Прототипическим марковским случайным полем является модель Изинга ; действительно, марковское случайное поле было введено как общая установка для модели Изинга. [2] В области искусственного интеллекта марковское случайное поле используется для моделирования различных задач низкого и среднего уровня в обработке изображений и компьютерном зрении . [3]
Учитывая неориентированный граф , набор случайных величин, индексированных по , образует марковское случайное поле относительно , если они удовлетворяют локальным марковским свойствам:
Глобальное марковское свойство сильнее локального марковского свойства, которое, в свою очередь, сильнее парного. [4] Однако три вышеуказанных марковских свойства эквивалентны для положительных распределений [5] (тех, которые присваивают только ненулевые вероятности связанным переменным).
Связь между тремя марковскими свойствами особенно ясна в следующей формулировке:
Поскольку марковское свойство произвольного распределения вероятностей может быть трудно установить, обычно используемым классом марковских случайных полей являются те, которые можно факторизовать в соответствии с кликами графа.
При наличии набора случайных величин пусть будет вероятностью конкретной конфигурации поля в —то есть, есть вероятность обнаружения того, что случайные величины принимают конкретное значение . Поскольку — это набор, следует понимать, что вероятность следует брать относительно совместного распределения .
Если эту совместную плотность можно разложить по кликам как
затем образует марковское случайное поле относительно . Здесь — множество клик . Определение эквивалентно, если используются только максимальные клики. Функции иногда называют факторными потенциалами или кликовыми потенциалами . Обратите внимание, однако, что используется противоречивая терминология: слово потенциал часто применяется к логарифму . Это связано с тем, что в статистической механике имеет прямую интерпретацию как потенциальная энергия конфигурации .
Некоторые MRF не факторизуются: простой пример можно построить на цикле из 4 узлов с некоторыми бесконечными энергиями, т.е. конфигурациями нулевых вероятностей, [6] даже если, что более уместно, разрешить бесконечным энергиям действовать на весь граф на . [7]
MRF факторизуется, если выполняется хотя бы одно из следующих условий:
Если такая факторизация существует, то можно построить факторный граф для сети.
Любое положительное марковское случайное поле можно записать как экспоненциальное семейство в канонической форме с функциями признаков, такими, что полное совместное распределение можно записать как
где обозначение
— это просто скалярное произведение по конфигурациям полей, а Z — это функция распределения :
Здесь обозначает множество всех возможных назначений значений всем случайным величинам сети. Обычно функции признаков определяются таким образом, что они являются индикаторами конфигурации клики, т. е. если соответствует i -й возможной конфигурации k -й клики и 0 в противном случае. Эта модель эквивалентна модели факторизации клик, приведенной выше, если - мощность клики, а вес признака соответствует логарифму соответствующего фактора клики, т. е . , где - i -я возможная конфигурация k -й клики, т. е. i -е значение в домене клики .
Вероятность P часто называют мерой Гиббса. Это выражение марковского поля как логистической модели возможно только в том случае, если все факторы клики не равны нулю, т. е. если ни одному из элементов не присвоена вероятность 0. Это позволяет применять методы матричной алгебры, например , что след матрицы является логарифмом определителя , с матричным представлением графа, вытекающим из матрицы инцидентности графа .
Важность функции статистической разбивки Z заключается в том, что многие концепции из статистической механики , такие как энтропия , напрямую обобщаются на случай сетей Маркова, и таким образом можно получить интуитивное понимание. Кроме того, функция статистической разбивки позволяет применять вариационные методы к решению проблемы: можно прикрепить движущую силу к одной или нескольким случайным величинам и исследовать реакцию сети в ответ на это возмущение . Таким образом, например, можно добавить движущий член J v для каждой вершины v графа к функции статистической разбивки, чтобы получить:
Формальное дифференцирование по J v дает математическое ожидание случайной величины X v , связанной с вершиной v :
Аналогично вычисляются функции корреляции ; двухточечная корреляция имеет вид:
К сожалению, хотя вероятность логистической сети Маркова является выпуклой, оценка вероятности или градиента вероятности модели требует вывода в модели, что, как правило, вычислительно неосуществимо (см. «Вывод» ниже).
Многомерное нормальное распределение образует марковское случайное поле относительно графа, если отсутствующие ребра соответствуют нулям на матрице точности (обратной ковариационной матрице ):
такой что
Как и в байесовской сети , можно вычислить условное распределение набора узлов, заданных значениями, в другой набор узлов в марковском случайном поле путем суммирования по всем возможным назначениям ; это называется точным выводом . Однако точный вывод является #P-полной проблемой и, таким образом, вычислительно неразрешимой в общем случае. Методы аппроксимации, такие как Монте-Карло с цепями Маркова и распространение циклических убеждений , часто более осуществимы на практике. Некоторые конкретные подклассы MRF, такие как деревья (см. дерево Чжоу–Лю ), имеют полиномиальные алгоритмы вывода; обнаружение таких подклассов является активной темой исследований. Существуют также подклассы MRF, которые допускают эффективный MAP или, скорее всего, назначение вывода; примерами этого являются ассоциативные сети. [9] [10] Другим интересным подклассом является подкласс разложимых моделей (когда граф является хордовым ): имея замкнутую форму для MLE , можно обнаружить согласованную структуру для сотен переменных. [11]
Одним из примечательных вариантов случайного поля Маркова является условное случайное поле , в котором каждая случайная величина может быть также обусловлена набором глобальных наблюдений . В этой модели каждая функция является отображением всех назначений как клике k , так и наблюдениям в неотрицательные действительные числа. Эта форма сети Маркова может быть более подходящей для создания дискриминантных классификаторов , которые не моделируют распределение по наблюдениям. CRF были предложены Джоном Д. Лафферти , Эндрю МакКаллумом и Фернандо К. Н. Перейрой в 2001 году. [12]
Случайные поля Маркова находят применение в различных областях, от компьютерной графики до компьютерного зрения, машинного обучения или вычислительной биологии , [13] [14] и поиска информации . [15] MRF используются в обработке изображений для генерации текстур, поскольку они могут использоваться для генерации гибких и стохастических моделей изображений. В моделировании изображений задача состоит в том, чтобы найти подходящее распределение интенсивности заданного изображения, где пригодность зависит от типа задачи, а MRF достаточно гибки, чтобы использоваться для синтеза изображений и текстур, сжатия и восстановления изображений, сегментации изображений , вывода трехмерных изображений из двухмерных изображений, регистрации изображений , синтеза текстур , сверхразрешения , стереосопоставления и поиска информации . Их можно использовать для решения различных задач компьютерного зрения, которые могут быть поставлены как задачи минимизации энергии или задачи, где различные регионы должны быть различены с использованием набора отличительных признаков в рамках случайного поля Маркова, чтобы предсказать категорию региона. [16] Марковские случайные поля были обобщением модели Изинга и с тех пор широко использовались в комбинаторной оптимизации и сетях.