Прогнозирование структуры белка

Составляющие аминокислоты можно анализировать для прогнозирования вторичной, третичной и четвертичной структуры белка.

Предсказание структуры белка — это вывод о трехмерной структуре белка на основе его аминокислотной последовательности, то есть предсказание его вторичной и третичной структуры на основе первичной структуры . Предсказание структуры отличается от обратной задачи проектирования белка . Предсказание структуры белка — одна из наиболее важных целей, преследуемых вычислительной биологией ; и это важно в медицине (например, при разработке лекарств ) и биотехнологии (например, при разработке новых ферментов ).

Начиная с 1994 года эффективность существующих методов оценивается два раза в год в эксперименте CASP (критическая оценка методов прогнозирования структуры белка). Непрерывную оценку веб-серверов предсказания структуры белков выполняет проект сообщества CAMEO3D .

Структура белка и терминология

Белки представляют собой цепочки аминокислот , соединенных между собой пептидными связями . Многие конформации этой цепочки возможны за счет вращения основной цепи вокруг двух торсионных углов φ и ψ у атома Cα (см. рисунок). Эта конформационная гибкость ответственна за различия в трехмерной структуре белков. Пептидные связи в цепи полярны, т.е. они имеют разделенные положительные и отрицательные заряды (частичные заряды) в карбонильной группе , которая может действовать как акцептор водородной связи, и в группе NH, которая может действовать как донор водородной связи. Таким образом, эти группы могут взаимодействовать в структуре белка. Белки состоят в основном из 20 различных типов L-α-аминокислот ( протеиногенных аминокислот ). Их можно классифицировать по химическому составу боковой цепи, которая также играет важную структурную роль. Глицин занимает особое положение, так как имеет самую маленькую боковую цепь, всего один атом водорода, и поэтому может повышать локальную гибкость структуры белка. С другой стороны, цистеин может вступать в реакцию с другим остатком цистеина с образованием одного цистина и тем самым образовывать поперечную связь, стабилизирующую всю структуру.

Структуру белка можно рассматривать как последовательность элементов вторичной структуры, таких как α-спирали и β-листы . В этих вторичных структурах между NH основной цепи и CO-группами пространственно соседних аминокислот образуются регулярные структуры Н-связей, а аминокислоты имеют близкие углы Φ и ψ . ^[1]

Торсионные углы φ и ψ основной цепи белка

Образование этих вторичных структур эффективно удовлетворяет способность пептидных связей образовывать водородные связи. Вторичные структуры могут быть плотно упакованы в ядре белка в гидрофобной среде, но они также могут присутствовать на полярной поверхности белка. Каждая боковая цепь аминокислоты имеет ограниченный занимаемый объем и ограниченное количество возможных взаимодействий с другими близлежащими боковыми цепями, и эту ситуацию необходимо учитывать при молекулярном моделировании и выравнивании. ^[2]

α-спираль

α-спираль — наиболее распространенный тип вторичной структуры белков. α-спираль содержит 3,6 аминокислот на виток, причем между каждым четвертым остатком образуется Н-связь; средняя длина составляет 10 аминокислот (3 витка) или 10 Å , но варьируется от 5 до 40 (1,5–11 витков). Выравнивание Н-связей создает дипольный момент спирали, в результате чего на аминоконце спирали возникает частичный положительный заряд. Поскольку эта область имеет свободные группы NH 2 , она будет взаимодействовать с отрицательно заряженными группами, такими как фосфаты. Наиболее распространенное расположение α-спиралей — на поверхности белковых ядер, где они обеспечивают интерфейс с водной средой. Внутренняя сторона спирали обычно содержит гидрофобные аминокислоты, а внешняя сторона - гидрофильные аминокислоты. Таким образом, каждая треть из четырех аминокислот в цепи будет иметь тенденцию быть гидрофобной, и эту закономерность можно довольно легко обнаружить. В мотиве лейциновой молнии повторяющийся рисунок лейцинов на противоположных сторонах двух соседних спиралей с высокой степенью вероятности позволяет предсказать этот мотив. Чтобы показать этот повторяющийся паттерн, можно использовать график спирального колеса. Другие α-спирали, похороненные в ядре белка или в клеточных мембранах, имеют более высокое и регулярное распределение гидрофобных аминокислот и позволяют с высокой степенью прогнозирования таких структур. Спирали, выступающие на поверхность, содержат меньшую долю гидрофобных аминокислот. Содержание аминокислот можно предсказать наличие α-спиральной области. Области, богатые аланином (А), глутаминовой кислотой (Е), лейцином (L) и метионином (М) и бедные пролином (P), глицином (G), тирозином (Y) и серином (S), имеют тенденцию к образованию α-спираль. Пролин дестабилизирует или разрывает α-спираль, но может присутствовать в более длинных спиралях, образуя изгиб.

β-лист

β-листы образуются за счет Н-связей между в среднем 5–10 последовательными аминокислотами в одном участке цепи и еще 5–10 дальше по цепи. Взаимодействующие области могут быть соседними, с короткой петлей между ними, или далеко друг от друга, с другими структурами между ними. Каждая цепь может идти в одном направлении, образуя параллельный лист, каждая другая цепь может идти в обратном химическом направлении, образуя антипараллельный лист, или цепи могут быть параллельными и антипараллельными, образуя смешанный лист. Характер Н-связей различен в параллельной и антипараллельной конфигурациях. Каждая аминокислота во внутренних нитях листа образует две Н-связи с соседними аминокислотами, тогда как каждая аминокислота во внешних нитях образует только одну связь с внутренней цепью. Если смотреть на лист под прямым углом к прядям, более дальние пряди слегка поворачиваются против часовой стрелки, образуя левый поворот. Атомы Cα чередуются над и под слоем в складчатой структуре, а боковые группы R аминокислот чередуются над и под складками. Углы Φ и Ψ аминокислот в листах значительно различаются в одной области графика Рамачандрана . Расположение β-листов предсказать сложнее, чем α-спиралей. Ситуация несколько улучшается, если принять во внимание вариацию аминокислот при множественном выравнивании последовательностей.

Петли

Некоторые части белка имеют фиксированную трехмерную структуру, но не образуют регулярных структур. Их не следует путать с неупорядоченными или развернутыми сегментами белков или случайным клубком , развернутой полипептидной цепью, лишенной какой-либо фиксированной трехмерной структуры. Эти части часто называют «петлями», поскольку они соединяют β-листы и α-спирали. Петли обычно расположены на поверхности белка, поэтому мутации их остатков переносятся легче. Наличие большего количества замен, вставок и делеций в определенной области выравнивания последовательности может указывать на наличие петли. Положения интронов ^в геномной ДНК могут коррелировать с расположением петель в ^{кодируемом белке} . Петли также обычно содержат заряженные и полярные аминокислоты и часто являются компонентами активных центров.

Классификация белков

Белки можно классифицировать как по структурному, так и по последовательному сходству. Для структурной классификации размеры и пространственное расположение вторичных структур, описанных в предыдущем абзаце, сравниваются с известными трехмерными структурами. Классификация, основанная на сходстве последовательностей, исторически была первой, которая использовалась. Первоначально было выполнено сходство на основе выравнивания целых последовательностей. Позже белки были классифицированы на основе наличия консервативных аминокислотных паттернов. Доступны базы данных , которые классифицируют белки по одной или нескольким из этих схем. При рассмотрении схем классификации белков важно иметь в виду несколько наблюдений. Во-первых, две совершенно разные белковые последовательности разного эволюционного происхождения могут образовывать сходную структуру. И наоборот, последовательность древнего гена для данной структуры могла значительно различаться у разных видов, сохраняя в то же время одни и те же основные структурные особенности. Распознавание оставшегося сходства последовательностей в таких случаях может оказаться очень сложной задачей. Во-вторых, два белка, которые имеют значительную степень сходства последовательностей либо друг с другом, либо с третьей последовательностью, также имеют общее эволюционное происхождение и также должны иметь некоторые общие структурные особенности. Однако дупликация генов и генетические перестройки в ходе эволюции могут привести к появлению новых копий генов, которые затем могут эволюционировать в белки с новой функцией и структурой. ^[2]

Термины, используемые для классификации белковых структур и последовательностей.

Ниже перечислены наиболее часто используемые термины для обозначения эволюционных и структурных взаимоотношений между белками. Многие дополнительные термины используются для обозначения различных структурных особенностей белков. Описания таких терминов можно найти на веб-сайте CATH, веб-сайте Структурной классификации белков (SCOP) и в учебном пособии Glaxo Wellcome на швейцарском веб-сайте биоинформатики Expasy.

Активный сайт: Локализованная комбинация боковых групп аминокислот внутри третичной (трехмерной) или четвертичной (субъединицы белка) структуры, которая может взаимодействовать с химически специфичным субстратом и придает белку биологическую активность. Белки с очень разными аминокислотными последовательностями могут образовывать структуру, образующую один и тот же активный центр.
Архитектура: - это относительная ориентация вторичных структур в трехмерной структуре независимо от того, имеют ли они аналогичную петлеобразную структуру.
Сгиб (топология): тип архитектуры, который также имеет консервативную структуру цикла.
Блоки: представляет собой консервативный образец последовательности аминокислот в семействе белков. Шаблон включает в себя ряд возможных совпадений в каждой позиции представленных последовательностей, но в шаблоне или последовательностях нет вставленных или удаленных позиций. Напротив, профили последовательностей представляют собой тип матрицы оценок, которая представляет аналогичный набор шаблонов, включающий вставки и делеции.
Сорт: термин, используемый для классификации белковых доменов в соответствии с их вторичным структурным содержанием и организацией. Четыре класса были первоначально признаны Левиттом и Чотией (1976), а несколько других были добавлены в базу данных SCOP. В базе данных CATH представлены три класса: преимущественно-α, преимущественно-β и α-β, причем класс α-β включает как чередующиеся структуры α/β, так и α+β.
Основной: часть свернутой белковой молекулы, которая содержит гидрофобную внутреннюю часть α-спиралей и β-листов. Компактная структура объединяет боковые группы аминокислот достаточно близко, чтобы они могли взаимодействовать. При сравнении белковых структур, как в базе данных SCOP, ядро — это область, общая для большинства структур, имеющих общую складку или принадлежащих к одному суперсемейству. В предсказании структуры ядро иногда определяют как расположение вторичных структур, которые, вероятно, сохранятся в ходе эволюционных изменений.
Домен (контекст последовательности): сегмент полипептидной цепи, который может складываться в трехмерную структуру независимо от присутствия других сегментов цепи. Отдельные домены данного белка могут широко взаимодействовать или могут быть соединены только длиной полипептидной цепи. Белок с несколькими доменами может использовать эти домены для функциональных взаимодействий с различными молекулами.
Семья (контекст последовательности): группа белков со схожими биохимическими функциями, которые при выравнивании идентичны более чем на 50%. Это же ограничение до сих пор используется Информационным ресурсом о белках (PIR). Семейство белков включает белки с одинаковой функцией в разных организмах (ортологичные последовательности), но может также включать белки в одном и том же организме (паралогичные последовательности), полученные в результате дупликации и реаранжировки генов. Если множественное выравнивание последовательностей семейства белков обнаруживает общий уровень сходства по всей длине белков, PIR называет это семейство гомеоморфным семейством. Выровненный регион называется гомеоморфным доменом, и этот регион может включать несколько меньших доменов гомологии, которые являются общими с другими семействами. Семейства могут быть далее подразделены на подсемейства или сгруппированы в суперсемейства на основе соответствующих более высоких или более низких уровней сходства последовательностей. В базе данных SCOP зарегистрировано 1296 семейств, а в базе данных CATH (бета-версия 1.7) — 1846 семейств.; Когда последовательности белков с одинаковой функцией исследуются более подробно, обнаруживается, что некоторые из них имеют высокое сходство последовательностей. По вышеуказанным критериям они, очевидно, являются членами одной семьи. Однако обнаруживаются и другие, которые имеют очень небольшое или даже незначительное сходство последовательностей с другими членами семейства. В таких случаях семейные отношения между двумя отдаленными членами семьи A и C часто можно продемонстрировать, найдя дополнительного члена семьи B, который имеет значительное сходство как с A, так и с C. Таким образом, B обеспечивает связующее звено между A и C. Другой подход заключается в изучении отдаленных совпадений на предмет высококонсервативных совпадений.; При уровне идентичности 50% белки, вероятно, будут иметь одинаковую трехмерную структуру, и идентичные атомы в выравнивании последовательностей также будут накладываться друг на друга в пределах примерно 1 Å в структурной модели. Таким образом, если известна структура одного члена семьи, можно сделать надежный прогноз для второго члена семьи, и чем выше уровень идентичности, тем надежнее прогноз. Структурное моделирование белка можно выполнить, исследуя, насколько хорошо аминокислотные замены вписываются в ядро трехмерной структуры.
Семья (структурный контекст): как используется в базе данных FSSP ( Семейства структурно сходных белков ) и на веб-сайте DALI/FSSP, это две структуры, которые имеют значительный уровень структурного сходства, но не обязательно значительное сходство последовательностей.
Складывать: сходный со структурным мотивом, включает более крупное сочетание вторичных структурных единиц в одной конфигурации. Таким образом, белки, имеющие одну и ту же укладку, имеют одинаковую комбинацию вторичных структур, соединенных одинаковыми петлями. Примером может служить складка Россмана, состоящая из нескольких чередующихся α-спиралей и параллельных β-нитей. В базах данных SCOP, CATH и FSSP известные белковые структуры были классифицированы по иерархическим уровням структурной сложности, причем складка является базовым уровнем классификации.
Гомологический домен (контекст последовательности): расширенный образец последовательности, обычно обнаруживаемый с помощью методов выравнивания последовательностей, который указывает на общее эволюционное происхождение выровненных последовательностей. Домен гомологии обычно длиннее мотивов. Домен может включать всю данную белковую последовательность или только часть последовательности. Некоторые домены сложны и состоят из нескольких меньших доменов гомологии, которые в ходе эволюции объединились в более крупный. Домен, охватывающий всю последовательность, называется PIR ( информационный ресурс белка ) гомеоморфным доменом.
Модуль: область консервативных аминокислотных паттернов, содержащая один или несколько мотивов и считающаяся фундаментальной единицей структуры или функции. Наличие модуля также использовалось для классификации белков по семействам.
Мотив (контекст последовательности): консервативный набор аминокислот, обнаруженный в двух или более белках. В каталоге Prosite мотив — это набор аминокислот, который встречается в группе белков со сходной биохимической активностью и часто находится рядом с активным центром белка. Примерами баз данных мотивов последовательностей являются каталог Prosite и Стэнфордская база данных мотивов. ^[3]
Мотив (структурный контекст): сочетание нескольких вторичных структурных элементов, образующихся в результате сворачивания соседних участков полипептидной цепи в определенную трехмерную конфигурацию. Примером может служить мотив спираль-петля-спираль. Структурные мотивы также называют супервторичными структурами и складками.
Матрица оценок для конкретной позиции (контекст последовательности, также известный как матрица весов или оценок): представляет собой консервативную область при множественном выравнивании последовательностей без пробелов. Каждый столбец матрицы представляет собой вариацию, обнаруженную в одном столбце множественного выравнивания последовательностей.
Матрица оценок для конкретной должности — 3D (структурный контекст): представляет собой вариацию аминокислот, обнаруженную при выравнивании белков, относящихся к одному и тому же структурному классу. Столбцы матрицы представляют вариации аминокислот, обнаруженные в одном положении аминокислоты в выровненных структурах.
Первичная структура: линейная аминокислотная последовательность белка, которая химически представляет собой полипептидную цепь, состоящую из аминокислот, соединенных пептидными связями.
Профиль (контекст последовательности): оценочная матрица, которая представляет собой множественное выравнивание последовательностей семейства белков. Профиль обычно получают из хорошо консервативной области при множественном выравнивании последовательностей. Профиль имеет форму матрицы, где каждый столбец представляет положение в выравнивании, а каждая строка — одну из аминокислот. Значения матрицы дают вероятность нахождения каждой аминокислоты в соответствующем положении выравнивания. Профиль перемещается вдоль целевой последовательности для обнаружения областей с лучшими оценками с помощью алгоритма динамического программирования. Пробелы допускаются во время сопоставления, и в этом случае штраф за пропуск включается как отрицательный балл, если ни одна аминокислота не сопоставлена. Профиль последовательности также может быть представлен скрытой моделью Маркова , называемой профилем HMM.
Профиль (структурный контекст): оценочная матрица, которая показывает, какие аминокислоты должны хорошо подходить, а какие плохо подходят к последовательным положениям в известной структуре белка. Столбцы профиля представляют последовательные позиции в структуре, а строки профиля представляют 20 аминокислот. Как и в случае с профилем последовательности, структурный профиль перемещается вдоль целевой последовательности, чтобы найти максимально возможную оценку выравнивания с помощью алгоритма динамического программирования. Гэпы могут быть включены и получить штраф. Полученная оценка указывает на то, может ли целевой белок принять такую структуру.
Четвертичная структура: трехмерная конфигурация белковой молекулы, состоящая из нескольких независимых полипептидных цепей.
Вторичная структура: Взаимодействия, которые происходят между группами C, O и NH аминокислот в полипептидной цепи с образованием α-спиралей, β-листов, витков, петель и других форм и которые облегчают сворачивание в трехмерную структуру.
Суперсемья: группа семейств белков одинаковой или разной длины, связанных отдаленным, но обнаруживаемым сходством последовательностей. Таким образом, члены данного надсемейства имеют общее эволюционное происхождение. Первоначально Дэйхофф определил пороговый уровень статуса надсемейства как вероятность того, что последовательности не связаны между собой, равный 10 6 на основе показателя выравнивания (Dayhoff et al. 1978). Белки с небольшим количеством идентичностей в выравнивании последовательностей, но с убедительно общим числом структурных и функциональных особенностей отнесены к одному и тому же суперсемейству. На уровне трехмерной структуры белки суперсемейства будут иметь общие структурные особенности, такие как общая складка, но также могут быть различия в количестве и расположении вторичных структур. Ресурс PIR использует термин « гомеоморфные суперсемейства» для обозначения суперсемейств, которые состоят из последовательностей, которые могут быть выровнены от начала до конца, что представляет собой совместное использование одного домена гомологии последовательности, области сходства, которая распространяется на протяжении всего выравнивания. Этот домен также может содержать более мелкие домены гомологии, которые являются общими с другими семействами и суперсемействами белков. Хотя данная последовательность белка может содержать домены, обнаруженные в нескольких суперсемействах, что указывает на сложную эволюционную историю, последовательности будут отнесены только к одному гомеоморфному суперсемейству на основании наличия сходства при множественном выравнивании последовательностей. Выравнивание надсемейства может также включать области, которые не выравниваются ни внутри, ни на концах выравнивания. Напротив, последовательности в одном и том же семействе хорошо выравниваются на протяжении всего выравнивания.
Супервторичная структура: термин, имеющий сходное значение со структурным мотивом. Третичная структура — это трехмерная или глобулярная структура, образующаяся в результате упаковки или сворачивания вторичных структур полипептидной цепи. ^[2]

Вторичная структура

Предсказание вторичной структуры — это набор методов биоинформатики , целью которых является предсказание локальных вторичных структур белков , основываясь только на знании их аминокислотной последовательности. Для белков прогнозирование состоит в определении областей аминокислотной последовательности как вероятных альфа-спиралей , бета-цепей (часто называемых «расширенными» конформациями) или поворотов . Успех прогноза определяется путем сравнения его с результатами алгоритма DSSP (или аналогичного, например STRIDE ), примененного к кристаллической структуре белка. Специализированные алгоритмы были разработаны для обнаружения конкретных четко определенных структур, таких как трансмембранные спирали и спиральные спирали в белках. ^[2]

Утверждается, что лучшие современные методы предсказания вторичной структуры белков достигают точности 80% после использования машинного обучения и выравнивания последовательностей ; ^[4] такая высокая точность позволяет использовать предсказания в качестве функции, улучшающей распознавание складки и предсказание структуры белка ab initio , классификацию структурных мотивов и уточнение выравнивания последовательностей . Точность современных методов прогнозирования вторичной структуры белков оценивается с помощью еженедельных тестов , таких как LiveBench и EVA .

Фон

Ранние методы предсказания вторичной структуры, представленные в 1960-х и начале 1970-х годов, ^[5]^[6]^[7]^[8]^[9] были сосредоточены на идентификации вероятных альфа-спиралей и основывались главным образом на моделях перехода спираль-клубок . ^[10] Значительно более точные прогнозы, включающие бета-листы, были введены в 1970-х годах и основывались на статистических оценках, основанных на вероятностных параметрах, полученных на основе известных решенных структур. Эти методы, применяемые к одной последовательности, обычно имеют точность не более 60–65% и часто недооценивают бета-листы. ^[2] С 1980-х годов искусственные нейронные сети применяются для предсказания белковых структур. ^[11]^[12] Эволюционную консервативность вторичных структур можно использовать путем одновременной оценки множества гомологичных последовательностей при множественном выравнивании последовательностей , путем расчета чистой склонности к вторичной структуре выровненного столбца аминокислот. В сочетании с более крупными базами данных известных белковых структур и современными методами машинного обучения , такими как нейронные сети и машины опорных векторов , эти методы могут достичь общей точности до 80% в глобулярных белках . ^[13] Теоретический верхний предел точности составляет около 90%, ^[13] отчасти из-за особенностей назначения DSSP вблизи концов вторичных структур, где локальные конформации изменяются в естественных условиях, но могут быть вынуждены принять единственную конформацию в кристаллах из-за к ограничениям по упаковке. Более того, типичные методы прогнозирования вторичной структуры не учитывают влияние третичной структуры на формирование вторичной структуры; например, последовательность, предсказанная как вероятная спираль, все же может принять конформацию бета-цепи, если она расположена внутри области бета-листа белка и ее боковые цепи хорошо упаковываются со своими соседями. Драматические конформационные изменения, связанные с функцией белка или окружающей средой, также могут изменить локальную вторичную структуру.

Историческая перспектива

На сегодняшний день разработано более 20 различных методов прогнозирования вторичной структуры. Одним из первых алгоритмов был метод Чоу-Фасмана , который преимущественно опирается на параметры вероятности, определяемые по относительным частотам появления каждой аминокислоты в каждом типе вторичной структуры. ^[14] Исходные параметры Чоу-Фасмана, определенные на небольшой выборке структур, решенных в середине 1970-х годов, дают плохие результаты по сравнению с современными методами, хотя параметризация была обновлена с момента ее первой публикации. Точность метода Чоу-Фасмана в прогнозировании вторичных структур составляет примерно 50-60%. ^[2]

Следующей заметной программой стал метод GOR, основанный на теории информации . Он использует более мощный вероятностный метод байесовского вывода . ^[15] Метод GOR учитывает не только вероятность того, что каждая аминокислота имеет определенную вторичную структуру, но и условную вероятность принятия аминокислотой каждой структуры с учетом вкладов ее соседей (он не предполагает, что соседи имеют та самая структура). Этот подход одновременно более чувствителен и более точен, чем подход Чоу и Фасмана, поскольку структурные склонности аминокислот сильны только для небольшого числа аминокислот, таких как пролин и глицин . Слабый вклад каждого из многих соседей может привести к сильным эффектам в целом. Первоначальный метод GOR имел точность примерно 65% и значительно более успешен в предсказании альфа-спиралей, чем бета-листов, которые он часто неверно предсказал как петли или неорганизованные области. ^[2]

Еще одним большим шагом вперед стало использование методов машинного обучения . Впервые были использованы методы искусственных нейронных сетей . В качестве обучающих наборов они используют решенные структуры для выявления общих мотивов последовательностей, связанных с определенным расположением вторичных структур. Эти методы имеют точность более 70% в своих предсказаниях, хотя бета-цепи по-прежнему часто недооцениваются из-за отсутствия трехмерной структурной информации, которая позволила бы оценить структуру водородных связей , которая может способствовать образованию расширенной конформации, необходимой для присутствия полный бета-лист. ^[2] PSIPRED и JPRED — одни из наиболее известных программ на основе нейронных сетей для предсказания вторичной структуры белков. Далее, машины опорных векторов оказались особенно полезными для прогнозирования мест поворотов , которые трудно определить статистическими методами. ^[16]^[17]

Расширения методов машинного обучения пытаются предсказать более детальные локальные свойства белков, такие как двугранные углы основной цепи в неназначенных областях. Для решения этой проблемы были применены как SVM ^[18], так и нейронные сети ^{[19] .}^[16] Совсем недавно реальные значения углов скручивания могут быть точно предсказаны с помощью SPINE-X и успешно использованы для предсказания структуры ab initio. ^[20]

Другие улучшения

Сообщается, что помимо последовательности белка формирование вторичной структуры зависит от других факторов. Например, сообщается, что тенденции вторичной структуры зависят также от местной окружающей среды, ^[21] доступности остатков растворителем, ^[22] структурного класса белка, ^[23] и даже организма, из которого белки получены. ^[24] На основании таких наблюдений некоторые исследования показали, что предсказание вторичной структуры может быть улучшено путем добавления информации о структурном классе белка, ^[25] доступной площади поверхности остатка ^[26]^[27] , а также информации о контактном номере . ^[28]

Третичная структура

Практическая роль предсказания структуры белка сейчас важнее, чем когда-либо. ^[29] Огромные объемы данных о последовательностях белков производятся в результате современных крупномасштабных усилий по секвенированию ДНК , таких как Проект «Геном человека» . Несмотря на усилия всего сообщества в области структурной геномики , результаты экспериментально определенных белковых структур — обычно с помощью трудоемкой и относительно дорогой рентгеновской кристаллографии или ЯМР-спектроскопии — значительно отстают от результатов белковых последовательностей.

Предсказание структуры белка остается чрезвычайно сложной и нерешенной задачей. Двумя основными проблемами являются расчет свободной от белка энергии и поиск глобального минимума этой энергии. Метод предсказания структуры белка должен исследовать пространство возможных белковых структур, которое является астрономически большим . Эти проблемы можно частично обойти с помощью «сравнительного» или гомологического моделирования и методов распознавания складок , в которых пространство поиска сокращается за счет предположения, что рассматриваемый белок принимает структуру, близкую к экспериментально определенной структуре другого гомологичного белка. С другой стороны, методы предсказания структуры белка de novo должны явно решать эти проблемы. Прогресс и проблемы в предсказании структуры белков были рассмотрены Чжаном. ^[30]

Перед моделированием

Большинство методов моделирования третичной структуры, таких как Rosetta, оптимизированы для моделирования третичной структуры отдельных доменов белка. Шаг, называемый анализом домена или предсказанием границ домена , обычно выполняется сначала, чтобы разделить белок на потенциальные структурные домены. Как и в случае с остальной частью прогнозирования третичной структуры, это можно сделать сравнительно на основе известных структур ^[31] или ab initio только с последовательностью (обычно с помощью машинного обучения с помощью ковариации). ^[32] Структуры отдельных доменов соединяются вместе в процессе, называемом сборкой доменов , для формирования окончательной третичной структуры. ^[33]^[34]

Моделирование белков ab initio

Энергетические и фрагментарные методы

Методы моделирования белков ab initio или de novo направлены на построение трехмерных моделей белков «с нуля», т. е. на основе физических принципов, а не (напрямую) на ранее решенных структурах. Существует множество возможных процедур, которые либо пытаются имитировать сворачивание белка , либо применяют тот или иной стохастический метод для поиска возможных решений (т. е. глобальную оптимизацию подходящей энергетической функции). Эти процедуры, как правило, требуют огромных вычислительных ресурсов и поэтому проводились только для крошечных белков. Чтобы предсказать структуру белка de novo для более крупных белков, потребуются более совершенные алгоритмы и более крупные вычислительные ресурсы, подобные тем, которые предоставляют либо мощные суперкомпьютеры (такие как Blue Gene или MDGRAPE-3 ), либо распределенные вычисления (такие как Folding@home , Human Proteome Folding Project и Розетта@Дома ). Хотя эти вычислительные барьеры огромны, потенциальные преимущества структурной геномики (с помощью предсказанных или экспериментальных методов) делают предсказание структуры ab initio активной областью исследований. ^[30]

По состоянию на 2009 год белок, состоящий из 50 остатков, можно было моделировать атом за атомом на суперкомпьютере за 1 миллисекунду. ^[35] По состоянию на 2012 год сопоставимую выборку в стабильном состоянии можно было выполнять на стандартном настольном компьютере с новой видеокартой и более сложными алгоритмами. ^[36] Гораздо большие сроки моделирования могут быть достигнуты с помощью крупнозернистого моделирования . ^[37]^[38]

Эволюционная ковариация для прогнозирования трехмерных контактов

Поскольку в 1990-х годах секвенирование стало более распространенным явлением, несколько групп использовали выравнивание последовательностей белков для прогнозирования коррелирующих мутаций , и появилась надежда, что эти коэволюционировавшие остатки можно будет использовать для предсказания третичной структуры (используя аналогию с ограничениями расстояния из экспериментальных процедур, таких как ЯМР ). Предполагается, что когда мутации одного остатка слегка вредны, могут возникнуть компенсаторные мутации для рестабилизации взаимодействий остаток-остаток. В этой ранней работе использовались так называемые локальные методы для расчета коррелирующих мутаций на основе белковых последовательностей, но она страдала от косвенных ложных корреляций, возникающих в результате рассмотрения каждой пары остатков как независимой от всех других пар. ^[39]^[40]^[41]

В 2011 году другой, и на этот раз глобальный статистический подход, продемонстрировал, что предсказанных коэволюционирующих остатков достаточно для прогнозирования трехмерной складки белка при условии, что имеется достаточное количество доступных последовательностей (необходимо> 1000 гомологичных последовательностей). ^[42] Метод EVfold не использует моделирование гомологии, нарезку нитей или фрагменты трехмерной структуры и может быть запущен на стандартном персональном компьютере даже для белков с сотнями остатков. Точность контактов, предсказанных с использованием этого и родственных подходов, теперь продемонстрирована на многих известных структурах и картах контактов, ^[43]^[44]^[45] , включая предсказание экспериментально нерешенных трансмембранных белков. ^[46]

Сравнительное моделирование белков

Сравнительное моделирование белков использует ранее решенные структуры в качестве отправных точек или шаблонов. Это эффективно, поскольку оказывается, что, хотя число реальных белков огромно, существует ограниченный набор третичных структурных мотивов , к которым принадлежит большинство белков. Было высказано предположение, что в природе существует всего около 2000 различных белковых складок, хотя существуют многие миллионы различных белков. Сравнительное моделирование белков может сочетаться с эволюционной ковариацией при предсказании структуры. ^[47]

Эти методы также можно разделить на две группы: ^[30]

Моделирование гомологии основано на разумном предположении, что два гомологичных белка имеют очень схожие структуры. Поскольку складка белка более консервативна в эволюционном отношении, чем его аминокислотная последовательность, целевую последовательность можно смоделировать с разумной точностью на очень отдаленно родственной матрице при условии, что взаимосвязь между мишенью и матрицей можно определить посредством выравнивания последовательностей . Было высказано предположение, что основное узкое место в сравнительном моделировании возникает из-за трудностей в выравнивании, а не из-за ошибок в предсказании структуры при заведомо хорошем выравнивании. ^[48] Неудивительно, что моделирование гомологии является наиболее точным, когда мишень и матрица имеют схожие последовательности.
Метод белковой нити ^[49] сканирует аминокислотную последовательность неизвестной структуры по базе данных решенных структур. В каждом случае используется оценочная функция для оценки совместимости последовательности со структурой, что позволяет получить возможные трехмерные модели. Этот тип метода также известен как распознавание складки 3D-1D из-за его анализа совместимости между трехмерными структурами и линейными последовательностями белков. Этот метод также привел к появлению методов, выполняющих поиск обратной складки путем оценки совместимости данной структуры с большой базой данных последовательностей, тем самым предсказывая, какие последовательности потенциально могут создать данную складку.

Моделирование конформаций боковой цепи

Точная упаковка боковых цепей аминокислот представляет собой отдельную проблему предсказания структуры белка. Методы, которые конкретно решают проблему прогнозирования геометрии боковой цепи, включают устранение тупиков и методы самосогласованного среднего поля . Конформации боковой цепи с низкой энергией обычно определяются на жестком остове полипептида с использованием набора дискретных конформаций боковой цепи, известных как « ротамеры ». Методы пытаются идентифицировать набор ротамеров, которые минимизируют общую энергию модели.

В этих методах используются библиотеки ротамеров, которые представляют собой коллекции благоприятных конформаций для каждого типа остатков в белках. Библиотеки ротамеров могут содержать информацию о конформации, ее частоте и стандартных отклонениях средних двугранных углов, которые можно использовать при отборе проб. ^[50] Библиотеки ротамеров получают в результате структурной биоинформатики или другого статистического анализа конформаций боковой цепи в известных экспериментальных структурах белков, например, путем кластеризации наблюдаемых конформаций тетраэдрических атомов углерода вблизи расположенных в шахматном порядке (60°, 180°, -60°) ценности.

Библиотеки ротамеров могут быть независимыми от основной цепи, зависимыми от вторичной структуры или зависимыми от основной цепи. Независимые от основной цепи библиотеки ротамеров не имеют отношения к конформации основной цепи и рассчитываются на основе всех доступных боковых цепей определенного типа (например, первый пример библиотеки ротамеров, выполненный Пондером и Ричардсом в Йельском университете в 1987 году). ^[51] Библиотеки, зависящие от вторичной структуры, представляют различные двугранные углы и/или частоты ротамеров для вторичных структур -спирали, -листа или катушки. ^[52]Зависимые от основной цепи библиотеки ротамеров представляют конформации и/или частоты, зависящие от локальной конформации основной цепи, определяемой двугранными углами основной цепи и , независимо от вторичной структуры. ^[53] $\альфа$ $\бета$ ${\ displaystyle \ фи }$ $\psi$

Современные версии этих библиотек, используемые в большинстве программ, представлены как многомерные распределения вероятности или частоты, где пики соответствуют конформациям двугранного угла, рассматриваемым в списках как отдельные ротамеры. Некоторые версии основаны на очень тщательно отобранных данных и используются в основном для проверки структуры, ^[54] в то время как другие подчеркивают относительные частоты в гораздо более крупных наборах данных и представляют собой форму, используемую в основном для прогнозирования структуры, например, библиотеки ротамеров Dunbrack . ^[55]

Методы упаковки боковых цепей наиболее полезны для анализа гидрофобного ядра белка , где боковые цепи упакованы более плотно; им сложнее справиться с более слабыми ограничениями и более высокой гибкостью поверхностных остатков, которые часто занимают несколько конформаций ротамера, а не только одну. ^[56]^[57]

Четвертичная структура

В случае комплексов двух и более белков , когда структура белков известна или может быть предсказана с высокой точностью, для предсказания структуры комплекса можно использовать методы белок-белкового докинга . Информация о влиянии мутаций в конкретных сайтах на сродство комплекса помогает понять структуру комплекса и определить методы стыковки.

Программное обеспечение

Существует большое количество программных инструментов для прогнозирования структуры белков. Подходы включают моделирование гомологии , создание белковых нитей , методы ab initio , предсказание вторичной структуры, а также предсказание трансмембранной спирали и сигнальных пептидов. В частности, с 2007 г. для этой цели используется глубокое обучение , основанное на долговременной кратковременной памяти , когда оно было успешно применено для обнаружения гомологии белков ^[58] и для прогнозирования субклеточной локализации белков. ^[59] Некоторые недавние успешные методы, основанные на экспериментах CASP , включают I-TASSER , HHpred и AlphaFold . Сообщалось , что в 2021 году AlphaFold показала лучшую производительность. ^[60]

Знание структуры белка часто позволяет также сделать функциональный прогноз. Например, коллаген сворачивается в длинную волокнистую цепочку, что делает его волокнистым белком. Недавно было разработано несколько методов прогнозирования сворачивания белков и, следовательно, структуры белков, например Itasser и AlphaFold.

Методы ИИ

AlphaFold был одним из первых ИИ, предсказывающих структуры белков. Он был представлен компанией DeepMind от Google на 13-м конкурсе CASP, который проводился в 2018 году. ^[60] AlphaFold опирается на подход нейронной сети , который напрямую предсказывает трехмерные координаты всех неводородных атомов для данного белка с использованием аминокислотной последовательности. и выровняли гомологичные последовательности . Сеть AlphaFold состоит из магистрали, которая обрабатывает входные данные через повторяющиеся слои, и структурного модуля, который вводит явную трехмерную структуру. ^[60] Ранее нейронные сети для предсказания структуры белков использовали LSTM . ^[58]^[59]

Поскольку AlphaFold выводит координаты белка напрямую, AlphaFold производит прогнозы в минутах графического процессора (GPU) или часах GPU, в зависимости от длины последовательности белка. ^[60]

Современные методы искусственного интеллекта и базы данных предсказанных белковых структур

AlphaFold2 был представлен в CASP14 и способен предсказывать структуры белков с почти экспериментальной точностью. ^[61] За AlphaFold быстро последовала RosettaTTAFold ^[62] , а затем OmegaFold и Метагеномный атлас ESM. ^[63] В недавнем исследовании Sommer et al. В 2022 году было продемонстрировано применение прогнозирования структуры белка при аннотации генома, в частности, при идентификации функциональных изоформ белка с использованием структур, предсказанных с помощью вычислений, доступных на https://www.isoform.io. ^[64] Это исследование подчеркивает перспективность предсказания структуры белка как инструмента аннотации генома и представляет практический, структурно-ориентированный подход, который можно использовать для улучшения аннотации любого генома.

Европейский институт биоинформатики совместно с DeepMind создали базу данных AlphaFold - EBI ^[65] для предсказанных белковых структур. ^[66]

Оценка серверов автоматического прогнозирования структуры

CASP , что означает критическая оценка методов прогнозирования структуры белка, представляет собой эксперимент всего сообщества по прогнозированию структуры белка, который проводится каждые два года, начиная с 1994 года. CASP предоставляет возможность оценить качество доступной человеческой неавтоматизированной методологии ( категория человека) и автоматические серверы для прогнозирования структуры белков (категория серверов, представленная в CASP7). ^[67]

Сервер непрерывной автоматизированной оценки моделей CAMEO3D оценивает автоматизированные серверы прогнозирования структуры белков еженедельно, используя слепые прогнозы для вновь выпущенных белковых структур. CAMEO публикует результаты на своем сайте.

Смотрите также

Внешние ссылки

Домашняя страница экспериментов CASP
Инструменты ExPASy Proteomics — список инструментов и серверов прогнозирования