HH -suite — это пакет программного обеспечения с открытым исходным кодом для поиска чувствительных последовательностей белков . Он содержит программы, которые могут искать похожие последовательности белков в базах данных последовательностей белков. Поиск последовательностей — стандартный инструмент в современной биологии, с помощью которого можно сделать вывод о функции неизвестных белков на основе функций белков со схожими последовательностями. HHsearch и HHblits — две основные программы в пакете и точка входа в его функцию поиска, причем последняя является более быстрой итерацией. [2] [3] HHpred — это онлайн-сервер для прогнозирования структуры белков , который использует информацию о гомологии из HH-suite. [4]
Пакет HH ищет последовательности, используя скрытые модели Маркова (HMM). Название происходит от того факта, что он выполняет выравнивание HMM-HMM. По данным Google Scholar , среди наиболее популярных методов сопоставления последовательностей белков программы упоминались в общей сложности более 5000 раз . [5]
Белки играют центральную роль во всех жизненных процессах. Их понимание имеет решающее значение для понимания молекулярных процессов в клетках. Это особенно важно для понимания происхождения заболеваний. Но для значительной части из примерно 20 000 белков человека структуры и функции остаются неизвестными. Многие белки были исследованы на модельных организмах, таких как многие бактерии, пекарские дрожжи, плодовые мухи, данио или мыши, с которыми эксперименты часто можно проводить легче, чем с человеческими клетками. Чтобы предсказать функцию, структуру или другие свойства белка, для которого известна только его последовательность аминокислот, последовательность белка сравнивают с последовательностями других белков в общедоступных базах данных. Если обнаружен белок с достаточно похожей последовательностью, эти два белка, вероятно, будут эволюционно родственными ( «гомологичными» ). В этом случае они, скорее всего, будут иметь схожие структуры и функции. Следовательно, если с помощью поиска последовательностей можно найти белок с достаточно сходной последовательностью и с известными функциями и/или структурой, можно предсказать функции, структуру и состав домена неизвестного белка. Такие прогнозы значительно облегчают определение функции или структуры с помощью целевых проверочных экспериментов.
Биологи часто выполняют поиск последовательностей, чтобы сделать вывод о функции неизвестного белка по его последовательности. Для этого последовательность белка сравнивают с последовательностями других белков в общедоступных базах данных и определяют его функцию на основе функций наиболее похожих последовательностей. Часто при таком поиске не удается найти последовательности с аннотированными функциями. В этом случае требуются более чувствительные методы для идентификации более отдаленно родственных белков или семейств белков . На основе этих взаимосвязей можно сделать предположения о функциях, структуре и доменном составе белка . HHsearch выполняет поиск последовательности белков в базах данных. Сервер HHpred и пакет программного обеспечения HH-suite предлагают множество популярных, регулярно обновляемых баз данных, таких как Protein Data Bank , а также базы данных InterPro , Pfam , COG и SCOP .
Современные чувствительные методы поиска белков используют профили последовательностей. Их можно использовать для сравнения последовательности с профилем или, в более сложных случаях, таких как HH-набор, для сопоставления профилей. [2] [6] [7] [8] Профили и выравнивания сами по себе получаются на основе совпадений, используя, например, PSI-BLAST или HHblits. Профиль оценочной матрицы для конкретной позиции (PSSM) содержит для каждой позиции в последовательности запроса показатель сходства для 20 аминокислот. Профили получены в результате множественного выравнивания последовательностей (MSA), при котором родственные белки записаны вместе (выровнены), так что частоты аминокислот в каждом положении можно интерпретировать как вероятности появления аминокислот в новых родственных белках и использовать для вывести «оценки сходства». Поскольку профили содержат гораздо больше информации, чем одна последовательность (например, степень консервации для конкретной позиции), методы сравнения профиля-профиля намного более эффективны, чем методы сравнения последовательность-последовательность, такие как BLAST , или методы сравнения профиля-последовательность, такие как PSI-BLAST. [6]
HHpred и HHsearch представляют белки запроса и базы данных с помощью скрытых моделей Маркова профиля (HMM), расширения профилей последовательностей PSSM, которое также записывает частоты вставок и делеций специфичных для положения аминокислот. HHsearch выполняет поиск в базе данных HMM с помощью запроса HMM. Прежде чем начать поиск в фактической базе данных HMM, HHsearch/HHpred создает множественное выравнивание последовательностей, связанных с последовательностью запроса/MSA, с помощью программы HHblits. На основании этого выравнивания рассчитывается профиль HMM. Базы данных содержат HMM, которые предварительно рассчитываются таким же образом с помощью PSI-BLAST. Результатом работы HHpred и HHsearch является ранжированный список совпадений базы данных (включая E-значения и вероятности истинной связи) и парные выравнивания последовательностей запроса и базы данных.
HHblits, входящий в состав пакета HH с 2001 года, создает высококачественные множественные выравнивания последовательностей (MSA), начиная с одной последовательности запроса или MSA. Как и в PSI-BLAST, он работает итеративно, неоднократно создавая новые профили запросов, добавляя результаты, найденные в предыдущем раунде. Он сопоставляется с предварительно созданными базами данных HMM, полученными из баз данных последовательностей белков, каждая из которых представляет собой «кластер» родственных белков. В случае HHblits такие совпадения выполняются на уровне профилей HMM-HMM, что обеспечивает дополнительную чувствительность. Его предварительная фильтрация сокращает десятки миллионов HMM до нескольких тысяч, тем самым ускоряя медленный процесс сравнения HMM-HMM. [3]
Пакет HH включает в себя ряд предварительно созданных профилей HMM, поиск по которым можно осуществлять с помощью HHblits и HHsearch, в том числе кластерную версию базы данных UniProt , Банка данных белков с известными структурами, выравниваний семейства белков Pfam , доменов структурных белков SCOP и многое другое. [9]
Приложения HHpred и HHsearch включают прогнозирование структуры белков, прогнозирование сложной структуры, прогнозирование функций, прогнозирование доменов, прогнозирование границ доменов и эволюционную классификацию белков. [10]
HHsearch часто используется для моделирования гомологии , то есть для построения модели структуры интересующего белка, для которого известна только последовательность: для этой цели выполняется поиск в базе данных белков с известными структурами, например в банке данных белков. «шаблонные» белки, подобные белку запроса. Если такой матричный белок обнаружен, структуру интересующего белка можно предсказать на основе попарного выравнивания последовательности запроса с последовательностью матричного белка. Например, поиск белков с решенной 3D-структурой в базе данных PDB занимает несколько минут. Если в базе данных PDB обнаруживается значительное совпадение с белком известной структуры («шаблон»), HHpred позволяет пользователю построить модель гомологии с помощью программного обеспечения MODELLER , начиная с парного выравнивания запроса и шаблона.
Серверы HHpred были признаны одними из лучших серверов в ходе CASP 7, 8 и 9 за эксперименты по слепому предсказанию структуры белков. В CASP9 HHpredA, B и C заняли 1-е, 2-е и 3-е места из 81 участвовавшего сервера автоматического прогнозирования структуры в моделировании на основе шаблонов [ 11] и 6-е, 7-е, 8-е места по всем 147 целям, при этом они были намного быстрее, чем 20 лучших серверов. [12] В CASP 8 HHpred занял 7-е место по всем целям и 2-е место по подмножеству однодоменных белков, при этом оставаясь более чем в 50 раз быстрее, чем серверы с самым высоким рейтингом. [4]
Помимо HHsearch и HHblits, пакет HH содержит программы и Perl-скрипты для преобразования форматов, фильтрации MSA, генерации HMM профилей, добавления прогнозов вторичной структуры в MSA, извлечения выравниваний из выходных данных программы и генерации индивидуальные базы данных.
Алгоритм выравнивания HMM-HMM в HHblits и HHsearch был значительно ускорен с использованием векторных инструкций в версии 3 пакета HH. [13]