stringtranslate.com

HH-люкс

HH -suite — это пакет программного обеспечения с открытым исходным кодом для поиска чувствительных последовательностей белков . Он содержит программы, которые могут искать похожие последовательности белков в базах данных последовательностей белков. Поиск последовательностей — стандартный инструмент в современной биологии, с помощью которого можно сделать вывод о функции неизвестных белков на основе функций белков со схожими последовательностями. HHsearch и HHblits — две основные программы в пакете и точка входа в его функцию поиска, причем последняя является более быстрой итерацией. [2] [3] HHpred — это онлайн-сервер для прогнозирования структуры белков , который использует информацию о гомологии из HH-suite. [4]

Пакет HH ищет последовательности, используя скрытые модели Маркова (HMM). Название происходит от того факта, что он выполняет выравнивание HMM-HMM. По данным Google Scholar , среди наиболее популярных методов сопоставления последовательностей белков программы упоминались в общей сложности более 5000 раз . [5]

Фон

Белки играют центральную роль во всех жизненных процессах. Их понимание имеет решающее значение для понимания молекулярных процессов в клетках. Это особенно важно для понимания происхождения заболеваний. Но для значительной части из примерно 20 000 белков человека структуры и функции остаются неизвестными. Многие белки были исследованы на модельных организмах, таких как многие бактерии, пекарские дрожжи, плодовые мухи, данио или мыши, с которыми эксперименты часто можно проводить легче, чем с человеческими клетками. Чтобы предсказать функцию, структуру или другие свойства белка, для которого известна только его последовательность аминокислот, последовательность белка сравнивают с последовательностями других белков в общедоступных базах данных. Если обнаружен белок с достаточно похожей последовательностью, эти два белка, вероятно, будут эволюционно родственными ( «гомологичными» ). В этом случае они, скорее всего, будут иметь схожие структуры и функции. Следовательно, если с помощью поиска последовательностей можно найти белок с достаточно сходной последовательностью и с известными функциями и/или структурой, можно предсказать функции, структуру и состав домена неизвестного белка. Такие прогнозы значительно облегчают определение функции или структуры с помощью целевых проверочных экспериментов.

Биологи часто выполняют поиск последовательностей, чтобы сделать вывод о функции неизвестного белка по его последовательности. Для этого последовательность белка сравнивают с последовательностями других белков в общедоступных базах данных и определяют его функцию на основе функций наиболее похожих последовательностей. Часто при таком поиске не удается найти последовательности с аннотированными функциями. В этом случае требуются более чувствительные методы для идентификации более отдаленно родственных белков или семейств белков . На основе этих взаимосвязей можно сделать предположения о функциях, структуре и доменном составе белка . HHsearch выполняет поиск последовательности белков в базах данных. Сервер HHpred и пакет программного обеспечения HH-suite предлагают множество популярных, регулярно обновляемых баз данных, таких как Protein Data Bank , а также базы данных InterPro , Pfam , COG и SCOP .

Алгоритм

Схема итеративного поиска последовательности HHblits

Современные чувствительные методы поиска белков используют профили последовательностей. Их можно использовать для сравнения последовательности с профилем или, в более сложных случаях, таких как HH-набор, для сопоставления профилей. [2] [6] [7] [8] Профили и выравнивания сами по себе получаются на основе совпадений, используя, например, PSI-BLAST или HHblits. Профиль оценочной матрицы для конкретной позиции (PSSM) содержит для каждой позиции в последовательности запроса показатель сходства для 20 аминокислот. Профили получены в результате множественного выравнивания последовательностей (MSA), при котором родственные белки записаны вместе (выровнены), так что частоты аминокислот в каждом положении можно интерпретировать как вероятности появления аминокислот в новых родственных белках и использовать для вывести «оценки сходства». Поскольку профили содержат гораздо больше информации, чем одна последовательность (например, степень консервации для конкретной позиции), методы сравнения профиля-профиля намного более эффективны, чем методы сравнения последовательность-последовательность, такие как BLAST , или методы сравнения профиля-последовательность, такие как PSI-BLAST. [6]

HHpred и HHsearch представляют белки запроса и базы данных с помощью скрытых моделей Маркова профиля (HMM), расширения профилей последовательностей PSSM, которое также записывает частоты вставок и делеций специфичных для положения аминокислот. HHsearch выполняет поиск в базе данных HMM с помощью запроса HMM. Прежде чем начать поиск в фактической базе данных HMM, HHsearch/HHpred создает множественное выравнивание последовательностей, связанных с последовательностью запроса/MSA, с помощью программы HHblits. На основании этого выравнивания рассчитывается профиль HMM. Базы данных содержат HMM, которые предварительно рассчитываются таким же образом с помощью PSI-BLAST. Результатом работы HHpred и HHsearch является ранжированный список совпадений базы данных (включая E-значения и вероятности истинной связи) и парные выравнивания последовательностей запроса и базы данных.

HHblits, входящий в состав пакета HH с 2001 года, создает высококачественные множественные выравнивания последовательностей (MSA), начиная с одной последовательности запроса или MSA. Как и в PSI-BLAST, он работает итеративно, неоднократно создавая новые профили запросов, добавляя результаты, найденные в предыдущем раунде. Он сопоставляется с предварительно созданными базами данных HMM, полученными из баз данных последовательностей белков, каждая из которых представляет собой «кластер» родственных белков. В случае HHblits такие совпадения выполняются на уровне профилей HMM-HMM, что обеспечивает дополнительную чувствительность. Его предварительная фильтрация сокращает десятки миллионов HMM до нескольких тысяч, тем самым ускоряя медленный процесс сравнения HMM-HMM. [3]

Пакет HH включает в себя ряд предварительно созданных профилей HMM, поиск по которым можно осуществлять с помощью HHblits и HHsearch, в том числе кластерную версию базы данных UniProt , Банка данных белков с известными структурами, выравниваний семейства белков Pfam , доменов структурных белков SCOP и многое другое. [9]

Приложения

Приложения HHpred и HHsearch включают прогнозирование структуры белков, прогнозирование сложной структуры, прогнозирование функций, прогнозирование доменов, прогнозирование границ доменов и эволюционную классификацию белков. [10]

HHsearch часто используется для моделирования гомологии , то есть для построения модели структуры интересующего белка, для которого известна только последовательность: для этой цели выполняется поиск в базе данных белков с известными структурами, например в банке данных белков. «шаблонные» белки, подобные белку запроса. Если такой матричный белок обнаружен, структуру интересующего белка можно предсказать на основе попарного выравнивания последовательности запроса с последовательностью матричного белка. Например, поиск белков с решенной 3D-структурой в базе данных PDB занимает несколько минут. Если в базе данных PDB обнаруживается значительное совпадение с белком известной структуры («шаблон»), HHpred позволяет пользователю построить модель гомологии с помощью программного обеспечения MODELLER , начиная с парного выравнивания запроса и шаблона.

Серверы HHpred были признаны одними из лучших серверов в ходе CASP 7, 8 и 9 за эксперименты по слепому предсказанию структуры белков. В CASP9 HHpredA, B и C заняли 1-е, 2-е и 3-е места из 81 участвовавшего сервера автоматического прогнозирования структуры в моделировании на основе шаблонов [ 11] и 6-е, 7-е, 8-е места по всем 147 целям, при этом они были намного быстрее, чем 20 лучших серверов. [12] В CASP 8 HHpred занял 7-е место по всем целям и 2-е место по подмножеству однодоменных белков, при этом оставаясь более чем в 50 раз быстрее, чем серверы с самым высоким рейтингом. [4]

Содержание

Помимо HHsearch и HHblits, пакет HH содержит программы и Perl-скрипты для преобразования форматов, фильтрации MSA, генерации HMM профилей, добавления прогнозов вторичной структуры в MSA, извлечения выравниваний из выходных данных программы и генерации индивидуальные базы данных.

Алгоритм выравнивания HMM-HMM в HHblits и HHsearch был значительно ускорен с использованием векторных инструкций в версии 3 пакета HH. [13]

Смотрите также

Рекомендации

  1. ^ Пакет Debian hhsuite
  2. ^ аб Сёдинг Дж (2005). «Обнаружение гомологии белков путем сравнения HMM-HMM». Биоинформатика . 21 (7): 951–960. doi : 10.1093/биоинформатика/bti125 . hdl : 11858/00-001M-0000-0017-EC7A-F . ПМИД  15531603.
  3. ^ ab Реммерт М., Бигерт А., Хаузер А., Сёдинг Дж. (2011). «HHblits: молниеносный итеративный поиск белковых последовательностей путем выравнивания HMM-HMM» (PDF) . Нат. Методы . 9 (2): 173–175. дои : 10.1038/NMETH.1818. hdl : 11858/00-001M-0000-0015-8D56-A . PMID  22198341. S2CID  205420247.
  4. ^ аб Сёдинг Дж., Бигерт А., Лупас А.Н. (2005). «Интерактивный сервер HHpred для обнаружения гомологии белков и прогнозирования структуры». Исследования нуклеиновых кислот . 33 (проблема с веб-сервером): W244–248. дои : 10.1093/nar/gki408. ПМК 1160169 . ПМИД  15980461. 
  5. ^ Цитирования на HHpred, на HHsearch, на HHblits
  6. ^ аб Ярошевский Л, Рыхлевский Л, Годзик А (2000). «Улучшение качества выравнивания сумеречной зоны». Белковая наука . 9 (8): 1487–1496. дои : 10.1110/ps.9.8.1487. ПМК 2144727 . ПМИД  10975570. 
  7. ^ Садреев Р.И., Бейкер Д., Гришин Н.В. (2003). «Сравнение профилей с помощью COMPASS предсказывает сложную гомологию между семействами белков». Белковая наука . 12 (10): 2262–2272. дои : 10.1110/ps.03197403. ПМК 2366929 . ПМИД  14500884. 
  8. ^ Данбрек Р.Л. младший (2006). «Сравнение последовательностей и предсказание структуры белка». Современное мнение в области структурной биологии . 16 (3): 374–384. doi :10.1016/j.sbi.2006.05.006. ПМИД  16713709.
  9. ^ Ли, Чжаоюй. «Некоторые заметки о HHSuite» . Проверено 3 апреля 2019 г.
  10. ^ Герлер А, Говиндараджо Б, Чжан Ю (2013). «Сопоставление мономерной нити с предсказанием структуры белка». Журнал химической информации и моделирования . 53 (3): 717–25. дои : 10.1021/ci300579r. ПМК 4076494 . ПМИД  23413988. 
  11. ^ Официальные результаты CASP9 для категории моделирования на основе шаблонов (121 цель)
  12. ^ Официальные результаты CASP9 для всех 147 объектов.
  13. ^ Штайнеггер М, Мейер М, Мирдита М, Ферингер Х, Хаунсбергер С, Сёдинг Дж (2019). «HH-suite3 для быстрого дистанционного обнаружения гомологии и глубокой аннотации белков». БМК Биоинформатика . 20 (1): 473. doi : 10.1186/s12859-019-3019-7 . ПМК 6744700 . ПМИД  31521110. 

Внешние ссылки