Условные случайные поля ( CRF ) — это класс методов статистического моделирования, часто применяемых в распознавании образов и машинном обучении , а также для структурированного прогнозирования . В то время как классификатор прогнозирует метку для одной выборки, не учитывая «соседние» выборки, CRF может учитывать контекст. Для этого прогнозы моделируются в виде графической модели , которая отражает наличие зависимостей между прогнозами. Какой тип графика используется, зависит от приложения. Например, в обработке естественного языка популярны CRF «линейной цепочки», в которых каждое предсказание зависит только от своих непосредственных соседей. При обработке изображений график обычно соединяет местоположения с близлежащими и/или похожими местоположениями, чтобы обеспечить получение ими схожих прогнозов.
Другими примерами использования CRF являются: маркировка или анализ последовательных данных для обработки естественного языка или биологических последовательностей , [1] маркировка частей речи , поверхностный анализ , [2] распознавание названных объектов , [3] поиск генов , критический анализ пептидов. поиск функциональных областей [4] и распознавание объектов [5] и сегментация изображений в компьютерном зрении . [6]
CRF — это тип дискриминационной ненаправленной вероятностной графической модели .
Лафферти , МакКаллум и Перейра [1] определяют CRF для наблюдений и случайных величин следующим образом:
Пусть граф такой, что , так что индексируется вершинами .
Тогда – условное случайное поле, когда каждая случайная величина , обусловленная , подчиняется марковскому свойству относительно графика; то есть его вероятность зависит только от его соседей в G:
, где означает, что и являются соседями в .
Это означает, что CRF представляет собой неориентированную графическую модель , узлы которой можно разделить ровно на два непересекающихся набора и , наблюдаемую и выходную переменные соответственно; затем моделируется условное распределение .
Для общих графов проблема точного вывода в CRF неразрешима. Проблема вывода для CRF в основном такая же, как и для MRF , и применимы те же аргументы. [7] Однако существуют особые случаи, для которых возможен точный вывод:
Если точный вывод невозможен, для получения приближенных решений можно использовать несколько алгоритмов. К ним относятся:
Изучение параметров обычно выполняется методом максимального правдоподобия для . Если все узлы имеют экспоненциальное распределение семейств и все узлы наблюдаются во время обучения, эта оптимизация является выпуклой. [7] Ее можно решить, например, с помощью алгоритмов градиентного спуска или квазиньютоновских методов, таких как алгоритм L-BFGS . С другой стороны, если некоторые переменные не наблюдаются, для этих переменных необходимо решить задачу вывода. Точный вывод невозможен для общих графиков, поэтому приходится использовать приближения.
При моделировании последовательностей интересующий граф обычно представляет собой цепной граф. Входная последовательность наблюдаемых переменных представляет собой последовательность наблюдений и представляет скрытую (или неизвестную) переменную состояния, которую необходимо вывести с учетом наблюдений. Они структурированы так, чтобы образовывать цепочку с ребром между каждым и . Помимо простой интерпретации как «меток» для каждого элемента входной последовательности, этот макет допускает эффективные алгоритмы для:
Условная зависимость каждого on определяется через фиксированный набор функций-признаков вида , которые можно рассматривать как измерения входной последовательности, частично определяющие вероятность каждого возможного значения для . Модель присваивает каждому признаку числовой вес и объединяет их для определения вероятности определенного значения для .
CRF с линейной цепочкой имеют многие из тех же приложений, что и концептуально более простые скрытые модели Маркова (HMM), но ослабляют некоторые предположения о распределениях входных и выходных последовательностей. HMM можно условно понимать как CRF с очень специфическими функциями, которые используют постоянные вероятности для моделирования переходов состояний и выбросов. И наоборот, CRF можно в общих чертах понимать как обобщение HMM, которое превращает постоянные вероятности перехода в произвольные функции, которые изменяются в зависимости от позиции в последовательности скрытых состояний в зависимости от входной последовательности.
Примечательно, что в отличие от HMM, CRF могут содержать любое количество функций признаков, функции признаков могут проверять всю входную последовательность в любой точке во время вывода, а диапазон функций признаков не обязательно должен иметь вероятностную интерпретацию.
CRF можно расширить до моделей более высокого порядка, сделав каждую из них зависимой от фиксированного числа предыдущих переменных . В традиционных формулировках CRF более высокого порядка обучение и вывод практичны только для небольших значений (например, k ≤ 5), [8], поскольку их вычислительные затраты растут экспоненциально с увеличением .
Однако еще одно недавнее достижение позволило улучшить эти проблемы за счет использования концепций и инструментов из области байесовской непараметрики. В частности, подход CRF-бесконечность [9] представляет собой модель типа CRF, которая способна масштабируемо изучать бесконечно длинную временную динамику. Это достигается за счет введения новой потенциальной функции для CRF, основанной на Sequence Memoizer (SM), непараметрической байесовской модели для обучения бесконечно длинной динамике в последовательных наблюдениях. [10] Чтобы сделать такую модель вычислительно доступной, CRF-бесконечность использует аппроксимацию среднего поля [11] постулируемых новых потенциальных функций (которые управляются СМ). Это позволяет разрабатывать эффективные алгоритмы приближенного обучения и вывода для модели, не подрывая ее способности фиксировать и моделировать временные зависимости произвольной длины.
Существует другое обобщение CRF, полумарковское условное случайное поле (полу-CRF) , которое моделирует сегментацию переменной длины последовательности меток . [12] Это обеспечивает большую часть возможностей CRF более высокого порядка для моделирования долгосрочных зависимостей при разумных вычислительных затратах.
Наконец, модели с большой прибылью для структурированного прогнозирования , такие как структурированная машина опорных векторов, можно рассматривать как альтернативную процедуру обучения CRF.
Скрытые динамические условные случайные поля ( LDCRF ) или дискриминативные вероятностные модели скрытых переменных ( DPLVM ) представляют собой тип CRF для задач маркировки последовательностей. Это модели со скрытыми переменными , которые обучаются дискриминативно.
В LDCRF, как и в любой задаче маркировки последовательностей, при наличии последовательности наблюдений x = основная проблема, которую должна решить модель, заключается в том, как назначить последовательность меток y = из одного конечного набора меток Y . Вместо прямого моделирования P ( y | x ), как это делает обычный CRF с линейной цепочкой, набор скрытых переменных h «вставляется» между x и y с использованием цепного правила вероятности : [13]
Это позволяет улавливать скрытую структуру между наблюдениями и метками. [14] Хотя LDCRF можно обучать с использованием квазиньютоновских методов, для них также была разработана специализированная версия алгоритма перцептрона , называемая перцептроном со скрытой переменной , на основе алгоритма структурированного перцептрона Коллинза . [13] Эти модели находят применение в компьютерном зрении , в частности, в распознавании жестов из видеопотоков [14] и поверхностном анализе . [13]