Алгоритм Баума-Велча

В электротехнике , статистических вычислениях и биоинформатике алгоритм Баума–Велча является частным случаем алгоритма максимизации ожидания , используемого для нахождения неизвестных параметров скрытой марковской модели (HMM). Он использует алгоритм «вперед-назад» для вычисления статистики для шага ожидания.

История

Алгоритм Баума-Уэлча был назван в честь его изобретателей Леонарда Э. Баума и Ллойда Р. Уэлча . Алгоритм и скрытые марковские модели были впервые описаны в серии статей Баума и его коллег в Центре исследований коммуникаций IDA в Принстоне в конце 1960-х и начале 1970-х годов. ^[1] Одним из первых крупных применений HMM была область обработки речи . ^[2] В 1980-х годах HMM стали полезным инструментом для анализа биологических систем и информации, в частности генетической информации . ^[3] С тех пор они стали важным инструментом в вероятностном моделировании геномных последовательностей. ^[4]

Описание

Скрытая марковская модель описывает совместную вероятность набора « скрытых » и наблюдаемых дискретных случайных величин. Она основана на предположении, что i -я скрытая переменная, заданная ( i − 1)-й скрытой переменной, независима от предыдущих скрытых переменных, а текущие переменные наблюдения зависят только от текущего скрытого состояния.

Алгоритм Баума-Уэлча использует известный алгоритм EM для нахождения оценки максимального правдоподобия параметров скрытой марковской модели с учетом набора наблюдаемых векторов признаков.

Пусть будет дискретной скрытой случайной величиной с возможными значениями (т.е. Мы предполагаем, что всего есть состояния). Мы предполагаем, что не зависит от времени , что приводит к определению независимой от времени стохастической матрицы перехода $X_{т}$ $N$ $N$ $P(X_{t}\mid X_{t-1})$ $т$

A=\{a_{ij}\}=P(X_{t}=j\mid X_{t-1}=i).

Начальное распределение состояний (т.е. когда ) определяется выражением $т=1$

\пи _{i}=P(X_{1}=i).

Переменные наблюдения могут принимать одно из возможных значений. Мы также предполагаем, что наблюдение, заданное "скрытым" состоянием, не зависит от времени. Вероятность определенного наблюдения в момент времени для состояния определяется как $Y_{t}$ $К$ $y_{i}$ $т$ $X_{t}=j$

b_{j}(y_{i})=P(Y_{t}=y_{i}\mid X_{t}=j).

Учитывая все возможные значения и , получаем матрицу , где принадлежит всем возможным состояниям и принадлежит всем наблюдениям. $Y_{t}$ $X_{т}$ $N\times K$ $B=\{b_{j}(y_{i})\}$ $b_{j}$ $y_{i}$

Последовательность наблюдений задается формулой . $Y=(Y_{1}=y_{1},Y_{2}=y_{2},\ldots ,Y_{T}=y_{T})$

Таким образом, мы можем описать скрытую цепь Маркова с помощью . Алгоритм Баума-Велча находит локальный максимум для (т.е. параметры HMM , которые максимизируют вероятность наблюдения). ^[5] $\theta =(A,B,\pi )$ $\theta ^{*}=\operatorname {arg\,max} _{\theta }P(Y\mid \theta )$ $\theta$

Алгоритм

Устанавливаются со случайными начальными условиями. Они также могут быть установлены с использованием предварительной информации о параметрах, если она доступна; это может ускорить алгоритм, а также направить его к желаемому локальному максимуму. $\theta =(A,B,\pi )$

Процедура пересылки

Пусть , вероятность увидеть наблюдения и оказаться в состоянии в момент времени . Это находится рекурсивно: $\alpha _{i}(t)=P(Y_{1}=y_{1},\ldots ,Y_{t}=y_{t},X_{t}=i\mid \theta )$ $y_{1},y_{2},\ldots ,y_{t}$ $i$ $t$

$\alpha _{i}(1)=\pi _{i}b_{i}(y_{1}),$
$\alpha _{i}(t+1)=b_{i}(y_{t+1})\sum _{j=1}^{N}\alpha _{j}(t)a_{ji}.$

Поскольку этот ряд экспоненциально сходится к нулю, алгоритм будет численно недогружаться для более длинных последовательностей. ^[6] Однако этого можно избежать в слегка измененном алгоритме путем масштабирования в прямой и обратной процедуре ниже. $\alpha$ $\beta$

Обратная процедура

Пусть это вероятность конечной частичной последовательности при заданном начальном состоянии в момент времени . Мы вычисляем как, $\beta _{i}(t)=P(Y_{t+1}=y_{t+1},\ldots ,Y_{T}=y_{T}\mid X_{t}=i,\theta )$ $y_{t+1},\ldots ,y_{T}$ $i$ $t$ $\beta _{i}(t)$

$\beta _{i}(T)=1,$
$\beta _{i}(t)=\sum _{j=1}^{N}\beta _{j}(t+1)a_{ij}b_{j}(y_{t+1}).$

Обновлять

Теперь мы можем вычислить временные переменные согласно теореме Байеса:

\gamma _{i}(t)=P(X_{t}=i\mid Y,\theta )={\frac {P(X_{t}=i,Y\mid \theta )}{P(Y\mid \theta )}}={\frac {\alpha _{i}(t)\beta _{i}(t)}{\sum _{j=1}^{N}\alpha _{j}(t)\beta _{j}(t)}},

что является вероятностью нахождения в состоянии в момент времени, учитывая наблюдаемую последовательность и параметры $i$ $t$ $Y$ $\theta$

\xi _{ij}(t)=P(X_{t}=i,X_{t+1}=j\mid Y,\theta )={\frac {P(X_{t}=i,X_{t+1}=j,Y\mid \theta )}{P(Y\mid \theta )}}={\frac {\alpha _{i}(t)a_{ij}\beta _{j}(t+1)b_{j}(y_{t+1})}{\sum _{k=1}^{N}\sum _{w=1}^{N}\alpha _{k}(t)a_{kw}\beta _{w}(t+1)b_{w}(y_{t+1})}},

что является вероятностью нахождения в состоянии и в определенное время и соответственно при данной наблюдаемой последовательности и параметрах . $i$ $j$ $t$ $t+1$ $Y$ $\theta$

Знаменатели и одинаковы; они представляют вероятность осуществления наблюдения при заданных параметрах . $\gamma _{i}(t)$ $\xi _{ij}(t)$ $Y$ $\theta$

Параметры скрытой марковской модели теперь можно обновить: $\theta$

$\pi _{i}^{*}=\gamma _{i}(1),$

что является ожидаемой частотой нахождения в состоянии в момент времени . $i$ $1$

$a_{ij}^{*}={\frac {\sum _{t=1}^{T-1}\xi _{ij}(t)}{\sum _{t=1}^{T-1}\gamma _{i}(t)}},$

что является ожидаемым числом переходов из состояния i в состояние j по сравнению с ожидаемым общим числом переходов из состояния i . Для ясности, число переходов из состояния i не означает переходы в другое состояние j , а в любое состояние, включая само себя. Это эквивалентно числу раз, когда состояние i наблюдается в последовательности от t = 1 до t = T − 1.

$b_{i}^{*}(v_{k})={\frac {\sum _{t=1}^{T}1_{y_{t}=v_{k}}\gamma _{i}(t)}{\sum _{t=1}^{T}\gamma _{i}(t)}},$

где

1_{y_{t}=v_{k}}={\begin{cases}1&{\text{if }}y_{t}=v_{k},\\0&{\text{otherwise}}\end{cases}}

является индикаторной функцией и представляет собой ожидаемое количество раз, когда выходные наблюдения были равны , находясь в состоянии , по сравнению с ожидаемым общим количеством раз в состоянии . $b_{i}^{*}(v_{k})$ $v_{k}$ $i$ $i$

Эти шаги теперь повторяются итеративно до достижения желаемого уровня сходимости.

Примечание: возможно переобучение определенного набора данных. То есть, . Алгоритм также не гарантирует глобального максимума. $P(Y\mid \theta _{\text{final}})>P(Y\mid \theta _{\text{true}})$

Несколько последовательностей

Описанный до сих пор алгоритм предполагает одну наблюдаемую последовательность . Однако во многих ситуациях наблюдается несколько последовательностей:. В этом случае информация из всех наблюдаемых последовательностей должна использоваться при обновлении параметров , и . Предполагая, что вы вычислили и для каждой последовательности , параметры теперь можно обновить: $Y=y_{1},\ldots ,y_{N}$ $Y_{1},\ldots ,Y_{R}$ $A$ $\pi$ $b$ $\gamma _{ir}(t)$ $\xi _{ijr}(t)$ $y_{1,r},\ldots ,y_{N_{r},r}$

$\pi _{i}^{*}={\frac {\sum _{r=1}^{R}\gamma _{ir}(1)}{R}}$
$a_{ij}^{*}={\frac {\sum _{r=1}^{R}\sum _{t=1}^{T-1}\xi _{ijr}(t)}{\sum _{r=1}^{R}\sum _{t=1}^{T-1}\gamma _{ir}(t)}},$
$b_{i}^{*}(v_{k})={\frac {\sum _{r=1}^{R}\sum _{t=1}^{T}1_{y_{tr}=v_{k}}\gamma _{ir}(t)}{\sum _{r=1}^{R}\sum _{t=1}^{T}\gamma _{ir}(t)}},$

где

1_{y_{tr}=v_{k}}={\begin{cases}1&{\text{if }}y_{t,r}=v_{k},\\0&{\text{otherwise}}\end{cases}}

является индикаторной функцией

Пример

Предположим, у нас есть курица, у которой мы собираем яйца в полдень каждый день. Теперь то, отложила ли курица яйца для сбора, зависит от некоторых неизвестных факторов, которые скрыты. Однако мы можем (для простоты) предположить, что курица всегда находится в одном из двух состояний, которые влияют на то, откладывает ли она яйца, и что это состояние зависит только от состояния в предыдущий день. Теперь мы не знаем состояние в начальной точке, мы не знаем вероятности перехода между двумя состояниями и мы не знаем вероятность того, что курица отложит яйцо при заданном состоянии. ^[7]^[8] Для начала мы сначала угадываем матрицы перехода и испускания.

Затем мы берем набор наблюдений (E = яйца, N = нет яиц): N, N, N, N, N, E, E, N, N, N

Это дает нам набор наблюдаемых переходов между днями: NN, NN, NN, NN, NE, EE, EN, NN, NN.

Следующий шаг — оценить новую матрицу перехода. Например, вероятность последовательности NN и состояния ⁠ ⁠ $S_{1}$ then ⁠ ⁠ $S_{2}$ задается следующим образом: $P(S_{1})\cdot P(N|S_{1})\cdot P(S_{1}\rightarrow S_{2})\cdot P(N|S_{2}).$

Таким образом, новая оценка для перехода ⁠ ⁠ $S_{1}$ в ⁠ ⁠ $S_{2}$ теперь (называемая «Псевдовероятностями» в следующих таблицах). Затем мы вычисляем вероятности перехода ⁠ ⁠ в ⁠ ⁠ , ⁠ ⁠ в ⁠ ⁠ и ⁠ ⁠ в ⁠ ⁠ ⁠ и нормализуем так, чтобы они в сумме давали 1. Это дает нам обновленную матрицу перехода: ${\frac {0.22}{2.4234}}=0.0908$ $S_{2}$ $S_{1}$ $S_{2}$ $S_{2}$ $S_{1}$ $S_{1}$

Далее мы хотим оценить новую матрицу выбросов,

Новая оценка E, получаемая в результате выбросов , $S_{1}$ теперь составляет . ${\frac {0.2394}{0.2730}}=0.8769$

Это позволяет нам вычислить матрицу эмиссии, как описано выше в алгоритме, путем сложения вероятностей для соответствующих наблюдаемых последовательностей. Затем мы повторяем для , если N пришло из ⁠ ⁠ $S_{1}$ и для , если N и E пришли из ⁠ ⁠ $S_{2}$ и нормализуем.

Для оценки начальных вероятностей мы предполагаем, что все последовательности начинаются со скрытого состояния ⁠ ⁠ $S_{1}$ и вычисляем наивысшую вероятность, а затем повторяем для ⁠ ⁠ $S_{2}$ . Затем мы снова нормализуем, чтобы получить обновленный начальный вектор.

Наконец, мы повторяем эти шаги до тех пор, пока полученные вероятности не сойдутся удовлетворительно.

Приложения

Распознавание речи

Скрытые марковские модели были впервые применены к распознаванию речи Джеймсом К. Бейкером в 1975 году. ^[9] Распознавание непрерывной речи происходит с помощью следующих шагов, смоделированных с помощью HMM. Анализ признаков сначала выполняется на основе временных и/или спектральных признаков речевого сигнала. Это создает вектор наблюдения. Затем признак сравнивается со всеми последовательностями единиц распознавания речи. Этими единицами могут быть фонемы , слоги или целые слова. Система декодирования лексикона применяется для ограничения исследуемых путей, поэтому исследуются только слова в лексиконе системы (словаре). Подобно декодированию лексикона, путь системы дополнительно ограничивается правилами грамматики и синтаксиса. Наконец, применяется семантический анализ, и система выводит распознанное высказывание. Ограничением многих приложений HMM для распознавания речи является то, что текущее состояние зависит только от состояния на предыдущем временном шаге, что нереалистично для речи, поскольку зависимости часто имеют продолжительность в несколько временных шагов. ^[10] Алгоритм Баума-Уэлча также широко применяется при решении задач HMM, используемых в области синтеза речи. ^[11]

Криптоанализ

Алгоритм Баума-Уэлча часто используется для оценки параметров HMM при расшифровке скрытой или зашумленной информации и, следовательно, часто используется в криптоанализе . В области безопасности данных наблюдатель хотел бы извлечь информацию из потока данных, не зная всех параметров передачи. Это может включать обратную разработку кодера канала . ^[12] HMM и, как следствие, алгоритм Баума-Уэлча также использовались для идентификации произнесенных фраз в зашифрованных вызовах VoIP. ^[13] Кроме того, криптоанализ HMM является важным инструментом для автоматизированных исследований данных синхронизации кэша. Он позволяет автоматически обнаруживать критическое состояние алгоритма, например, ключевые значения. ^[14]

Приложения в биоинформатике

Поиск генов

Прокариотические

Программное обеспечение GLIMMER ( Gene Locator and Interpolated Markov ModelER) было одной из первых программ поиска генов, используемых для идентификации кодирующих областей в прокариотической ДНК. ^[15]^[16] GLIMMER использует интерполированные модели Маркова (IMM) для идентификации кодирующих областей и отличия их от некодирующей ДНК . Было показано, что последняя версия (GLIMMER3) обладает повышенной специфичностью и точностью по сравнению с ее предшественниками в отношении прогнозирования участков инициации трансляции, демонстрируя среднюю точность 99% при поиске 3'-мест по сравнению с подтвержденными генами у прокариот. ^[17]

Эукариотические

Веб -сервер GENSCAN — это локатор генов, способный анализировать эукариотические последовательности длиной до одного миллиона пар оснований (1 Мбн). ^[18] GENSCAN использует общую неоднородную, трехпериодическую, пятого порядка марковскую модель кодирующих областей ДНК. Кроме того, эта модель учитывает различия в плотности и структуре генов (например, длины интронов), которые возникают в разных изохорах . В то время как большинство интегрированных программ для поиска генов (на момент выпуска GENSCAN) предполагали, что входные последовательности содержат ровно один ген, GENSCAN решает общий случай, когда присутствуют частичные, полные или множественные гены (или даже ни одного гена). ^[19] Было показано, что GENSCAN точно предсказывает местоположение экзона с точностью 90% и специфичностью 80% по сравнению с аннотированной базой данных. ^[20]

Обнаружение вариаций числа копий

Вариации числа копий (CNV) являются распространенной формой вариации структуры генома у людей. Была использована дискретно-значная двумерная HMM (dbHMM), приписывающая хромосомным областям семь различных состояний: незатронутые области, делеции, дупликации и четыре переходных состояния. Решение этой модели с использованием метода Баума-Велча продемонстрировало возможность предсказывать местоположение точки разрыва CNV примерно в 300 п.н. из экспериментов с микроматрицами . ^[21] Такая величина разрешения обеспечивает более точные корреляции между различными CNV и между популяциями , чем это было возможно ранее, что позволяет изучать частоты популяции CNV. Она также продемонстрировала прямую схему наследования для конкретной CNV .

Реализации

Accord.NET на языке C#
Библиотека ghmm C с привязками Python , которая поддерживает как дискретные, так и непрерывные выбросы.
Библиотека Python Jajapy , реализующая алгоритм Баума-Велча для различных типов марковских моделей ( HMM , MC , MDP , CTMC ).
Пакет HiddenMarkovModels.jl для Джулии .
Функция HMMFit в пакете RHmm для R.
hmmtrain в MATLAB
rustbio в Rust

Смотрите также

Ссылки

^ Рабинер, Лоуренс. «Из первых рук: скрытая марковская модель». IEEE Global History Network . Получено 2 октября 2013 г.
^ Jelinek, Frederick; Bahl, Lalit R.; Mercer, Robert L. (май 1975). «Разработка лингвистического статистического декодера для распознавания непрерывной речи». IEEE Transactions on Information Theory . 21 (3): 250–6. doi :10.1109/tit.1975.1055384.
^ Бишоп, Мартин Дж.; Томпсон, Элизабет А. (20 июля 1986 г.). «Выравнивание последовательностей ДНК с максимальным правдоподобием». Журнал молекулярной биологии . 190 (2): 159–65. doi :10.1016/0022-2836(86)90289-5. PMID 3641921.
^ Дурбин, Ричард (23 апреля 1998 г.). Анализ биологической последовательности: вероятностные модели белков и нуклеиновых кислот. Cambridge University Press. ISBN 978-0-521-62041-3.
^ Билмес, Джефф А. (1998). Мягкое руководство по алгоритму EM и его применению к оценке параметров для гауссовых смесей и скрытых марковских моделей . Беркли, Калифорния: Международный институт компьютерных наук. С. 7–13.
^ Рабинер, Лоуренс (февраль 1989 г.). «Учебное пособие по скрытым марковским моделям и их избранным приложениям в распознавании речи» (PDF) . Труды IEEE . Получено 29 ноября 2019 г.
^ "Baum-Welch and HMM applications" (PDF) . Школа общественного здравоохранения Bloomberg при Университете Джонса Хопкинса. Архивировано из оригинала (PDF) 2021-04-14 . Получено 11 октября 2019 .
^ Фраззоли, Эмилио. "Введение в скрытые марковские модели: алгоритм Баума-Велча" (PDF) . Аэронавтика и астронавтика, Массачусетский технологический институт . Получено 2 октября 2013 г. .
^ Бейкер, Джеймс К. (1975). «Система DRAGON — обзор». Труды IEEE по акустике, речи и обработке сигналов . 23 : 24–29. doi :10.1109/TASSP.1975.1162650.
^ Рабинер, Лоуренс (февраль 1989 г.). «Учебник по скрытым марковским моделям и избранным приложениям в распознавании речи». Труды IEEE . 77 (2): 257–286. CiteSeerX 10.1.1.381.3454 . doi :10.1109/5.18626. S2CID 13618539.
^ Токуда, Кейичи; Ёсимура, Такаёши; Масуко, Такаши; Кобаяши, Такао; Китамура, Тадаши (2000). «Алгоритмы генерации речевых параметров для синтеза речи на основе HMM». Международная конференция IEEE по акустике, речи и обработке сигналов . 3 .
^ Дингель, Янис; Хагенауэр, Иоахим (24 июня 2007 г.). «Оценка параметров сверточного кодера по зашумленным наблюдениям». Международный симпозиум IEEE по теории информации .
^ Райт, Чарльз; Баллард, Лукас; Коулл, Скотт; Монроуз, Фабиан; Массон, Джеральд (2008). «Найди меня, если сможешь: Раскрытие произнесенных фраз в зашифрованных разговорах VoIP». Международный симпозиум IEEE по безопасности и конфиденциальности .
^ Брамли, Боб; Хакала, Ристо (2009). «Атаки на шаблоны с синхронизацией кэша». Достижения в криптологии – ASIACRYPT 2009. Конспект лекций по информатике. Том 5912. С. 667–684. doi :10.1007/978-3-642-10366-7_39. ISBN 978-3-642-10365-0.
^ Зальцберг, Стивен; Делчер, Артур Л.; Касиф, Саймон; Уайт, Оуэн (1998). «Идентификация микробных генов с использованием интерполированных марковских моделей». Nucleic Acids Research . 26 (2): 544–548. doi :10.1093/nar/26.2.544. PMC 147303. PMID 9421513 .
^ "Glimmer: Microbial Gene-Finding System". Университет Джонса Хопкинса - Центр вычислительной биологии.
^ Делчер, Артур; Братке, Кирстен А.; Пауэрс, Эдвин К.; Зальцберг, Стивен Л. (2007). «Идентификация бактериальных генов и эндосимбионтной ДНК с помощью Glimmer». Биоинформатика . 23 (6): 673–679. doi :10.1093/bioinformatics/btm009. PMC 2387122. PMID 17237039 .
^ Бердж, Кристофер. «Веб-сервер GENSCAN в MIT». Архивировано из оригинала 6 сентября 2013 г. Получено 2 октября 2013 г.
^ Бердж, Крис; Карлин, Сэмюэл (1997). «Предсказание полных структур генов в геномной ДНК человека». Журнал молекулярной биологии . 268 (1): 78–94. CiteSeerX 10.1.1.115.3107 . doi :10.1006/jmbi.1997.0951. PMID 9149143.
^ Бердж, Кристофер; Карлин, Сэмюэл (1998). «Поиск генов в геномной ДНК». Current Opinion in Structural Biology . 8 (3): 346–354. doi : 10.1016/s0959-440x(98)80069-9 . PMID 9666331.
^ Корбель, Ян ; Урбан, Александр; Груберт, Фабьен; Ду, Цзян; Ройс, Томас; Старр, Питер; Чжун, Гуоненг; Эмануэль, Беверли; Вайсман, Шерман; Снайдер, Майкл; Герштейн, Марг (12 июня 2007 г.). «Систематическое предсказание и проверка точек разрыва, связанных с вариациями числа копий в геноме человека». Труды Национальной академии наук Соединенных Штатов Америки . 104 (24): 10110–5. Bibcode : 2007PNAS..10410110K. doi : 10.1073/pnas.0703834104 . PMC 1891248. PMID 17551006 .

Внешние ссылки

Комплексный обзор методов и программного обеспечения HMM в биоинформатике – Профиль скрытых марковских моделей
Ранние публикации Баума в области HMM:
- Метод максимизации, используемый в статистическом анализе вероятностных функций цепей Маркова
- Неравенство с приложениями к статистической оценке вероятностных функций марковских процессов и к модели экологии
- Статистический вывод для вероятностных функций конечных цепей Маркова
Лекция Шеннона, прочитанная Уэлчем, в которой говорится о том, как можно эффективно реализовать алгоритм:
- Скрытые марковские модели и алгоритм Баума-Велча, Информационный бюллетень IEEE Information Theory Society, декабрь 2003 г.
Альтернатива алгоритму Баума-Уэлча — алгоритм подсчета путей Витерби:
- Дэвис, Ричард IA; Ловелл, Брайан C.; «Сравнение и оценка ансамблевых алгоритмов обучения HMM с использованием критериев обучения, тестирования и числа условий», Pattern Analysis and Applications, т. 6, № 4, стр. 327–336, 2003.
Интерактивная электронная таблица для обучения прямому-обратному алгоритму (электронная таблица и статья с пошаговым руководством)
Формальный вывод алгоритма Баума-Велча Архивировано 28.02.2012 на Wayback Machine
Реализация алгоритма Баума-Велча