Марковская модель переменного порядка

В математической теории случайных процессов модели Маркова переменного порядка (VOM) представляют собой важный класс моделей, расширяющих хорошо известные модели цепей Маркова . В отличие от моделей цепей Маркова, где каждая случайная величина в последовательности с марковским свойством зависит от фиксированного числа случайных величин, в моделях VOM это количество обусловливающих случайных величин может варьироваться в зависимости от конкретной наблюдаемой реализации.

Эту последовательность реализации часто называют контекстом ; поэтому модели VOM также называются контекстными деревьями . ^[1] Модели VOM хорошо визуализируются с помощью раскрашенных вероятностных суффиксных деревьев (PST). ^[2] Гибкость количества обуславливающих случайных величин оказывается реальным преимуществом для многих приложений, таких как статистический анализ , классификация и прогнозирование . ^[3]^[4]^[5]

Пример

Рассмотрим, например, последовательность случайных величин , каждая из которых принимает значение из троичного алфавита ${a, b, c}$ . В частности, рассмотрим строку, созданную из бесконечных конкатенаций подстроки $aaabc$ : $aaabcaaabcaaabcaaabc\dotsaaabc$ .

Модель VOM максимального порядка 2 может аппроксимировать приведенную выше строку, используя только следующие пять компонентов условной вероятности : $Pr(a | aa) = 0,5$ , $Pr(b | aa) = 0,5$ , $Pr(c | b) = 1,0$ , $Pr(а | с) = 1,0$ , $Пр(а | ca) знак равно 1,0$ .

В этом примере $Pr(c | ab) = Pr(c | b) = 1,0$ ; следовательно, более короткого контекста $b$ достаточно для определения следующего символа. Аналогично, модель VOM максимального порядка 3 может генерировать строку точно, используя только пять компонентов условной вероятности, все из которых равны 1,0.

В практических условиях редко бывает достаточно данных для точной оценки экспоненциально растущего числа компонентов условной вероятности по мере увеличения порядка цепи Маркова.

Модель Маркова переменного порядка предполагает, что в реалистичных условиях существуют определенные реализации состояний (представленные контекстами), в которых некоторые прошлые состояния независимы от будущих состояний; соответственно, «можно добиться значительного сокращения количества параметров модели». ^[1]

Определение

Пусть $A$ — пространство состояний (конечный алфавит ) размера . $|A|$

Рассмотрим последовательность с марковским свойством $n$ реализаций случайных величин , где – состояние (символ) в позиции $i$ , а конкатенация состояний и обозначается . $x_{1}^{n}=x_{1}x_{2}\dots x_{n}$ $x_{i}\in A$ $\scriptstyle (1\leq я\leq n)$ $x_{i}$ $x_{i+1}$ $x_{i}x_{i+1}$

Учитывая обучающий набор наблюдаемых состояний, алгоритм построения моделей VOM ^[3]^[4]^[5] изучает модель $P$ , которая обеспечивает назначение вероятности для каждого состояния в последовательности с учетом его прошлого (ранее наблюдаемые символы) или будущего. состояния. $x_{1}^{n}$

В частности, учащийся генерирует условное распределение вероятностей для символа с заданным контекстом , где знак * представляет собой последовательность состояний любой длины, включая пустой контекст. $P(x_{i}\mid s)$ $x_{i}\in A$ $s\in A^{*}$

Модели VOM пытаются оценить условные распределения формы , в которой длина контекста варьируется в зависимости от доступной статистики. Напротив, традиционные модели Маркова пытаются оценить эти условные распределения, предполагая фиксированную длину контекстов и, следовательно, могут рассматриваться как частные случаи моделей VOM. $P(x_{i}\mid s)$ $|s|\leq D$ $|s|=D$

Фактически, для данной обучающей последовательности обнаружено, что модели VOM обеспечивают лучшую параметризацию модели, чем модели Маркова фиксированного порядка , что приводит к лучшему компромиссу между дисперсией и смещением изученных моделей. ^[3]^[4]^[5]

Области применения

Разработаны различные эффективные алгоритмы оценки параметров модели ВОМ. ^[4]

Модели VOM успешно применяются в таких областях, как машинное обучение , теория информации и биоинформатика , включая конкретные приложения, такие как кодирование и сжатие данных , ^[1] сжатие документов, ^[4] классификация и идентификация последовательностей ДНК и белков , ^[6] [ 1] ^[3] статистический контроль процессов , ^[5] фильтрация спама , ^[7] гаплотипирование , ^[8] распознавание речи, ^[9] анализ последовательностей в социальных науках , ^[2] и другие.

Марковская модель переменного порядка

Пример

Определение

Области применения

Смотрите также

Рекомендации