stringtranslate.com

ХММЕР

Профиль HMM, моделирующий множественное выравнивание последовательностей

HMMER — это бесплатный и широко используемый программный пакет для анализа последовательностей, написанный Шоном Эдди . [2] Его общее применение — идентификация гомологичных последовательностей белков или нуклеотидов и выполнение выравниваний последовательностей. Он обнаруживает гомологию, сравнивая профиль HMM ( скрытую марковскую модель, построенную явно для конкретного поиска) либо с одной последовательностью, либо с базой данных последовательностей. Последовательности, которые оцениваются значительно лучше по профилю HMM по сравнению с нулевой моделью, считаются гомологичными последовательностям, которые использовались для построения профиля HMM. Профиль HMM строится из множественного выравнивания последовательностей в пакете HMMER с помощью программы hmmbuild . Реализация профиля HMM, используемая в программном обеспечении HMMER, была основана на работе Крога и коллег. [3] HMMER — это консольная утилита, портированная на все основные операционные системы , включая различные версии Linux , Windows и macOS .

HMMER — это основная утилита, на которой основаны базы данных семейств белков, такие как Pfam и InterPro . Некоторые другие биоинформатические инструменты, такие как UGENE, также используют HMMER.

HMMER3 также широко использует векторные инструкции для увеличения скорости вычислений. Эта работа основана на более ранней публикации, показывающей значительное ускорение алгоритма Смита-Уотермана для выравнивания двух последовательностей. [4]

Профиль HMM

Профильная HMM — это вариант HMM, относящийся конкретно к биологическим последовательностям. Профильные HMM превращают множественное выравнивание последовательностей в систему оценки, специфичную для позиции, которую можно использовать для выравнивания последовательностей и поиска в базах данных отдаленно гомологичных последовательностей. [5] Они извлекают выгоду из того факта, что определенные позиции в выравнивании последовательностей, как правило, имеют смещения, в которых остатки наиболее вероятно встречаются, и, вероятно, будут отличаться по вероятности содержания вставки или делеции. Сбор этой информации дает им лучшую возможность обнаруживать истинные гомологи, чем традиционные подходы на основе BLAST , которые штрафуют замены, вставки и делеции одинаково, независимо от того, где в выравнивании они происходят. [6]

Основная архитектура профиля HMM, используемая HMMER.
Основная архитектура профиля HMM, используемая HMMER .

Профильные HMM центрируются вокруг линейного набора состояний соответствия (M), при этом одно состояние соответствует каждому консенсусному столбцу в выравнивании последовательностей. Каждое состояние M испускает один остаток (аминокислоту или нуклеотид). Вероятность испускания конкретного остатка в значительной степени определяется частотой, с которой этот остаток наблюдался в этом столбце выравнивания, но также включает в себя предварительную информацию о моделях остатков, которые имеют тенденцию совместно встречаться в тех же столбцах выравниваний последовательностей. Эта строка состояний соответствия, испускающих аминокислоты на определенных частотах, аналогична матрицам оценок, специфичных для позиции, или матрицам веса. [5]

Профиль HMM продвигает это моделирование выравниваний последовательностей дальше, моделируя вставки и делеции, используя состояния I и D соответственно. Состояния D не выделяют остаток, в то время как состояние I выделяет остаток. Несколько состояний I могут возникать последовательно, что соответствует нескольким остаткам между консенсусными столбцами в выравнивании. Состояния M, I и D связаны вероятностями перехода состояний, которые также различаются в зависимости от положения в выравнивании последовательностей, чтобы отразить различные частоты вставок и делеций в выравниваниях последовательностей. [5]

В релизах HMMER2 и HMMER3 использовалась архитектура для построения профилей HMM, называемая архитектурой Plan 7, названной в честь семи состояний, захваченных моделью. В дополнение к трем основным состояниям (M, I и D), шесть дополнительных состояний захватывают негомологичную фланкирующую последовательность в выравнивании. Эти 6 состояний в совокупности важны для контроля того, как последовательности выравниваются с моделью, например, может ли последовательность иметь несколько последовательных попаданий в одну и ту же модель (в случае последовательностей с несколькими экземплярами одного и того же домена). [7]

Программы в пакете HMMER

Пакет HMMER состоит из набора программ для выполнения функций с использованием профильных скрытых марковских моделей. [8] Программы включают в себя:

Профиль здания HMM

Поиск гомологии

Другие функции

Пакет содержит множество других специализированных функций.

Веб-сервер HMMER

В дополнение к программному пакету, функция поиска HMMER доступна в виде веб-сервера. [9] Служба облегчает поиск в ряде баз данных, включая базы данных последовательностей, такие как UniProt , SwissProt и Protein Data Bank , а также базы данных HMM, такие как Pfam , TIGRFAMs и SUPERFAMILY . Поддерживаются четыре типа поиска: phmmer, hmmsearch, hmmscan и jackhmmer (см. Программы). Функция поиска принимает как отдельные последовательности, так и выравнивания последовательностей или профили HMM. [10]

Результаты поиска сопровождаются отчетом о таксономической разбивке и доменной организации хитов. Результаты поиска затем можно фильтровать по любому из параметров.

В настоящее время веб-сервис находится в ведении Европейского института биоинформатики (EBI) в Соединенном Королевстве, в то время как разработка алгоритма по-прежнему выполняется командой Шона Эдди в Соединенных Штатах. [9] Основными причинами перемещения веб-сервиса были необходимость использования вычислительной инфраструктуры EBI и перекрестная связь поисков HMMER с соответствующими базами данных, которые также поддерживаются EBI.

Выпуск HMMER3

Последняя стабильная версия HMMER — версия 3.0. HMMER3 — это полностью переписанный пакет HMMER2 с целью повышения скорости поиска профилей HMM. Основные изменения описаны ниже:

Улучшение скорости

Основной целью проекта HMMER3, начатого в 2004 году, было повышение скорости поиска HMMER. Хотя поиск гомологии на основе профиля HMM был точнее, чем подходы на основе BLAST, его более медленная скорость ограничивала его применимость. [8] Основной прирост производительности обусловлен эвристическим фильтром , который находит высокооцененные неразрывные совпадения в последовательностях базы данных для профиля запроса. Эта эвристика приводит к вычислительному времени, сопоставимому с BLAST , с небольшим влиянием на точность. Дальнейший прирост производительности обусловлен моделью логарифмического правдоподобия , которая не требует калибровки для оценки E-значений и позволяет использовать более точные прямые оценки для вычисления значимости гомологичной последовательности. [11] [6]

HMMER все еще отстает от BLAST по скорости поиска на основе ДНК; однако поиск на основе ДНК можно настроить таким образом, что улучшение скорости будет происходить за счет точности. [12]

Улучшения в удаленном поиске гомологии

Основной прогресс в скорости стал возможным благодаря разработке подхода для расчета значимости результатов, интегрированных по диапазону возможных выравниваний. [11] При обнаружении удаленных гомологов выравнивания между запрашиваемыми и хитовыми белками часто очень неопределенны. В то время как большинство инструментов выравнивания последовательностей вычисляют баллы соответствия, используя только наилучшее выравнивание подсчета, HMMER3 вычисляет баллы соответствия, интегрируя по всем возможным выравниваниям, чтобы учесть неопределенность в том, какое выравнивание является наилучшим. Выравнивания последовательностей HMMER сопровождаются аннотациями апостериорной вероятности, указывающими, каким частям выравнивания была присвоена высокая достоверность, а какие являются более неопределенными.

Сравнение последовательностей ДНК

Значительным улучшением в HMMER3 стало включение инструментов сравнения ДНК/ДНК. HMMER2 имел только функционал для сравнения последовательностей белков.

Ограничение по локальным выравниваниям

В то время как HMMER2 может выполнять локальное выравнивание (выравнивание полной модели с подпоследовательностью цели) и глобальное выравнивание (выравнивание полной модели с полной целевой последовательностью), HMMER3 выполняет только локальное выравнивание. Это ограничение связано со сложностью расчета значимости совпадений при выполнении локальных/глобальных выравниваний с использованием нового алгоритма.

Смотрите также

Доступны несколько реализаций методов HMM профиля и связанных с ними методов матриц оценки, специфичных для позиции. Некоторые из них перечислены ниже:

Ссылки

  1. ^ "Release 3.4". 15 августа 2023 г. Получено 18 сентября 2023 г.
  2. ^ Дурбин, Ричард; Шон Р. Эдди; Андерс Крог ; Грэм Митчисон (1998). Анализ биологической последовательности: вероятностные модели белков и нуклеиновых кислот . Cambridge University Press. ISBN 0-521-62971-3.
  3. ^ Krogh A, Brown M, Mian IS, Sjölander K, Haussler D (февраль 1994). «Скрытые марковские модели в вычислительной биологии. Приложения к моделированию белков». J. Mol. Biol . 235 (5): 1501–31. doi :10.1006/jmbi.1994.1104. PMID  8107089.
  4. ^ Farrar M (январь 2007). «Полосатый Smith-Waterman ускоряет поиск в базе данных в шесть раз по сравнению с другими реализациями SIMD». Биоинформатика . 23 (2): 156–61. doi : 10.1093/bioinformatics/btl582 . PMID  17110365.
  5. ^ abc Eddy, SR (1998). "Профиль скрытых марковских моделей". Биоинформатика . 14 (9): 755–63. doi : 10.1093/bioinformatics/14.9.755 . PMID  9918945.
  6. ^ ab Eddy, Sean R.; Pearson, William R. (20 октября 2011 г.). "Ускоренный поиск профилей HMM". PLOS Computational Biology . 7 (10): e1002195. Bibcode : 2011PLSCB...7E2195E. CiteSeerX 10.1.1.290.1476 . doi : 10.1371 / journal.pcbi.1002195 . PMC 3197634. ​​PMID  22039361.  
  7. ^ Эдди, Шон. «Руководство пользователя HMMER2» (PDF) .
  8. ^ ab Sean R. Eddy; Travis J. Wheeler. "HMMER User's Guide" (PDF) . и команда разработчиков HMMER . Получено 23 июля 2017 г. .
  9. ^ ab Finn, Robert D.; Clements, Jody; Arndt, William; Miller, Benjamin L.; Wheeler, Travis J.; Schreiber, Fabian; Bateman, Alex; Eddy, Sean R. (1 июля 2015 г.). "Веб-сервер HMMER: обновление 2015 г.". Nucleic Acids Research . 43 (W1): W30–W38. doi :10.1093/nar/gkv397. PMC 4489315 . PMID  25943547. 
  10. ^ Финн, Роберт Д.; Клементс, Джоди; Эдди, Шон Р. (2011-07-01). "Веб-сервер HMMER: интерактивный поиск сходства последовательностей". Nucleic Acids Research . 39 (выпуск веб-сервера): W29–W37. doi :10.1093/nar/gkr367. ISSN  0305-1048. PMC 3125773. PMID 21593126  . 
  11. ^ ab Eddy SR (2008). Rost, Burkhard (ред.). "Вероятностная модель локального выравнивания последовательностей, которая упрощает оценку статистической значимости". PLOS Comput Biol . 4 (5): e1000069. Bibcode : 2008PLSCB...4E0069E. doi : 10.1371/journal.pcbi.1000069 . PMC 2396288. PMID  18516236 . 
  12. ^ Шон Р. Эдди; Трэвис Дж. Уилер. «HMMER3.1b2 Release Notes». и команда разработчиков HMMER . Получено 23 июля 2017 г.

Внешние ссылки