Прогнозирование структуры белка

Составные аминокислоты можно анализировать для прогнозирования вторичной, третичной и четвертичной структуры белка.

Предсказание структуры белка — это вывод трехмерной структуры белка из его аминокислотной последовательности, то есть предсказание его вторичной и третичной структуры из первичной структуры . Предсказание структуры отличается от обратной задачи проектирования белка . Предсказание структуры белка — одна из важнейших задач, преследуемых вычислительной биологией ; оно важно в медицине (например, при разработке лекарств ) и биотехнологии (например, при разработке новых ферментов ).

Начиная с 1994 года, производительность текущих методов оценивается дважды в год в эксперименте CASP (Критическая оценка методов прогнозирования структуры белка). Постоянная оценка веб-серверов прогнозирования структуры белка выполняется общественным проектом CAMEO3D .

Структура белка и терминология

Белки представляют собой цепи аминокислот, соединенных вместе пептидными связями . Многие конформации этой цепи возможны из-за вращения основной цепи вокруг двух торсионных углов φ и ψ у атома Cα (см. рисунок). Эта конформационная гибкость отвечает за различия в трехмерной структуре белков. Пептидные связи в цепи полярны, т. е. они имеют разделенные положительные и отрицательные заряды (частичные заряды) в карбонильной группе , которая может действовать как акцептор водородной связи, и в группе NH, которая может действовать как донор водородной связи. Поэтому эти группы могут взаимодействовать в структуре белка. Белки состоят в основном из 20 различных типов L-α-аминокислот ( протеиногенных аминокислот ). Их можно классифицировать по химии боковой цепи, которая также играет важную структурную роль. Глицин занимает особое положение, так как у него самая маленькая боковая цепь, всего один атом водорода, и поэтому он может увеличивать локальную гибкость в структуре белка. С другой стороны, цистеин может реагировать с другим остатком цистеина, образуя один цистин и тем самым формируя поперечную связь, стабилизирующую всю структуру.

Структуру белка можно рассматривать как последовательность элементов вторичной структуры, таких как α-спирали и β-слои . В этих вторичных структурах образуются регулярные узоры водородных связей между группами NH и CO основной цепи пространственно соседних аминокислот, а аминокислоты имеют схожие углы Φ и ψ . ^[1]

Образование этих вторичных структур эффективно удовлетворяет водородным связям пептидных связей. Вторичные структуры могут быть плотно упакованы в ядре белка в гидрофобной среде, но они также могут присутствовать на полярной поверхности белка. Каждая боковая цепь аминокислоты имеет ограниченный объем для занятия и ограниченное число возможных взаимодействий с другими близлежащими боковыми цепями, ситуация, которую необходимо учитывать при молекулярном моделировании и выравнивании. ^[2]^[3]

α-спираль

α-спираль является наиболее распространенным типом вторичной структуры в белках. α-спираль имеет 3,6 аминокислот на виток с водородной связью, образованной между каждым четвертым остатком; средняя длина составляет 10 аминокислот (3 витка) или 10 Å , но варьируется от 5 до 40 (от 1,5 до 11 витков). Выравнивание водородных связей создает дипольный момент для спирали с результирующим частичным положительным зарядом на аминоконце спирали. Поскольку эта область имеет свободные группы NH2 , она будет взаимодействовать с отрицательно заряженными группами, такими как фосфаты. Наиболее распространенное расположение α-спиралей - на поверхности белковых ядер, где они обеспечивают интерфейс с водной средой. Внутренняя сторона спирали, как правило, имеет гидрофобные аминокислоты, а внешняя сторона - гидрофильные аминокислоты. Таким образом, каждая третья из четырех аминокислот вдоль цепи будет иметь тенденцию быть гидрофобной, шаблон, который можно довольно легко обнаружить. В мотиве лейциновой молнии повторяющийся рисунок лейцинов на обращенных друг к другу сторонах двух соседних спиралей является высокопредсказательным для мотива. Для демонстрации этого повторяющегося рисунка можно использовать график спирального колеса. Другие α-спирали, скрытые в ядре белка или в клеточных мембранах, имеют более высокое и регулярное распределение гидрофобных аминокислот и являются высокопредсказательными для таких структур. Спирали, выставленные на поверхность, имеют более низкую долю гидрофобных аминокислот. Содержание аминокислот может быть предсказательным для α-спиральной области. Области, более богатые аланином (A), глутаминовой кислотой (E), лейцином (L) и метионином (M) и более бедные пролином (P), глицином (G), тирозином (Y) и серином (S), как правило, образуют α-спираль. Пролин дестабилизирует или разрывает α-спираль, но может присутствовать в более длинных спиралях, образуя изгиб.

β-слой

β-слои образованы водородными связями между в среднем 5–10 последовательными аминокислотами в одной части цепи с другими 5–10 дальше по цепи. Взаимодействующие области могут быть смежными, с короткой петлей между ними, или далеко друг от друга, с другими структурами между ними. Каждая цепь может идти в одном направлении, образуя параллельный слой, каждая другая цепь может идти в обратном химическом направлении, образуя антипараллельный слой, или цепи могут быть параллельными и антипараллельными, образуя смешанный слой. Модель водородных связей отличается в параллельной и антипараллельной конфигурациях. Каждая аминокислота во внутренних цепях слоя образует две водородные связи с соседними аминокислотами, тогда как каждая аминокислота во внешних цепях образует только одну связь с внутренней цепью. Если смотреть поперек слоя под прямым углом к цепям, более отдаленные цепи слегка повернуты против часовой стрелки, образуя левостороннюю закрутку. Атомы Cα чередуются над и под слоем в складчатой структуре, а группы R-боков аминокислот чередуются над и под складками. Углы Φ и Ψ аминокислот в слоях значительно различаются в одной области графика Рамачандрана . Сложнее предсказать расположение β-слоев, чем α-спиралей. Ситуация несколько улучшается, если принять во внимание вариацию аминокислот в множественных выравниваниях последовательностей.

Петли

Некоторые части белка имеют фиксированную трехмерную структуру, но не образуют никаких регулярных структур. Их не следует путать с неупорядоченными или развернутыми сегментами белков или случайной катушкой , развернутой полипептидной цепью, не имеющей какой-либо фиксированной трехмерной структуры. Эти части часто называют «петлями», потому что они соединяют β-слои и α-спирали. Петли обычно располагаются на поверхности белка, и поэтому мутации их остатков переносятся легче. Наличие большего количества замен, вставок и делеций в определенной области выравнивания последовательности может быть признаком петли. Положения интронов в геномной ДНК могут коррелировать с положениями петель в кодируемом белке ^{[ требуется ссылка ]} . Петли также имеют тенденцию иметь заряженные и полярные аминокислоты и часто являются компонентом активных участков.

Классификация белков

Белки можно классифицировать по структурному и последовательному сходству. Для структурной классификации размеры и пространственное расположение вторичных структур, описанных в предыдущем абзаце, сравниваются в известных трехмерных структурах. Классификация, основанная на сходстве последовательностей, исторически была первой, которая использовалась. Первоначально выполнялось сходство, основанное на выравнивании целых последовательностей. Позднее белки классифицировались на основе наличия консервативных аминокислотных схем. Доступны базы данных , которые классифицируют белки по одной или нескольким из этих схем. При рассмотрении схем классификации белков важно иметь в виду несколько наблюдений. Во-первых, две совершенно разные белковые последовательности с разным эволюционным происхождением могут складываться в похожую структуру. И наоборот, последовательность древнего гена для данной структуры могла значительно расходиться у разных видов, в то же время сохраняя те же основные структурные особенности. Распознавание любого оставшегося сходства последовательностей в таких случаях может быть очень сложной задачей. Во-вторых, два белка, которые имеют значительную степень сходства последовательностей либо друг с другом, либо с третьей последовательностью, также имеют общее эволюционное происхождение и должны также иметь некоторые общие структурные особенности. Однако дупликация генов и генетические перестройки в ходе эволюции могут привести к появлению новых копий генов, которые затем могут эволюционировать в белки с новой функцией и структурой. ^[2]

Термины, используемые для классификации структур и последовательностей белков

Ниже перечислены наиболее часто используемые термины для эволюционных и структурных связей между белками. Для различных видов структурных особенностей, обнаруженных в белках, используется множество дополнительных терминов. Описания таких терминов можно найти на веб-сайте CATH, веб-сайте Structural Classification of Proteins (SCOP) и в руководстве Glaxo Wellcome на швейцарском сайте биоинформатики Expasy.

Активный сайт: локализованная комбинация боковых групп аминокислот в третичной (трехмерной) или четвертичной (субъединица белка) структуре, которая может взаимодействовать с химически специфичным субстратом и которая обеспечивает белку биологическую активность. Белки с очень разными последовательностями аминокислот могут складываться в структуру, которая производит тот же активный сайт.
Архитектура: представляет собой относительную ориентацию вторичных структур в трехмерной структуре независимо от того, имеют ли они схожую петлевую структуру или нет.
Складка (топология): тип архитектуры, который также имеет консервативную петлевую структуру.
Блоки: представляет собой консервативный шаблон аминокислотной последовательности в семействе белков. Шаблон включает ряд возможных совпадений в каждой позиции в представленных последовательностях, но в шаблоне или последовательностях нет никаких вставленных или удаленных позиций. В противоположность этому, профили последовательностей являются типом матрицы оценок, которая представляет собой аналогичный набор шаблонов, включающий вставки и делеции.
Сорт: термин, используемый для классификации доменов белков в соответствии с их вторичным структурным содержанием и организацией. Четыре класса были первоначально выделены Левиттом и Чотией (1976), а несколько других были добавлены в базу данных SCOP. В базе данных CATH приведены три класса: в основном-α, в основном-β и α–β, причем класс α–β включает как чередующиеся структуры α/β, так и α+β.
Основной: часть свернутой белковой молекулы, которая включает гидрофобную внутреннюю часть α-спиралей и β-слоев. Компактная структура объединяет боковые группы аминокислот в достаточной близости, чтобы они могли взаимодействовать. При сравнении структур белков, как в базе данных SCOP, ядро — это область, общая для большинства структур, которые имеют общую складку или находятся в одном суперсемействе. В прогнозировании структуры ядро иногда определяется как расположение вторичных структур, которое, вероятно, сохранится во время эволюционных изменений.
Домен (контекст последовательности): сегмент полипептидной цепи, который может складываться в трехмерную структуру независимо от наличия других сегментов цепи. Отдельные домены данного белка могут активно взаимодействовать или могут быть соединены только длиной полипептидной цепи. Белок с несколькими доменами может использовать эти домены для функциональных взаимодействий с различными молекулами.
Семья (контекст последовательности): группа белков со схожей биохимической функцией, которые более чем на 50% идентичны при выравнивании. Этот же предел все еще используется Protein Information Resource (PIR). Семейство белков включает белки с одинаковой функцией в разных организмах (ортологичные последовательности), но может также включать белки в одном организме (паралогичные последовательности), полученные в результате дупликации и перестроек генов. Если множественное выравнивание последовательностей семейства белков выявляет общий уровень сходства по всей длине белков, PIR называет семейство гомеоморфным семейством. Выровненная область называется гомеоморфным доменом, и эта область может включать несколько меньших доменов гомологии, которые являются общими с другими семействами. Семейства могут быть далее подразделены на подсемейства или сгруппированы в суперсемейства на основе соответствующих более высоких или более низких уровней сходства последовательностей. База данных SCOP сообщает о 1296 семействах, а база данных CATH (версия 1.7 beta) сообщает о 1846 семействах.; При более детальном изучении последовательностей белков с одинаковой функцией обнаруживается, что некоторые из них имеют высокое сходство последовательностей. Они, очевидно, являются членами одного семейства по вышеуказанным критериям. Однако обнаруживаются другие, которые имеют очень малое или даже незначительное сходство последовательностей с другими членами семейства. В таких случаях родственные связи между двумя отдаленными членами семейства A и C часто можно продемонстрировать, найдя дополнительного члена семейства B, который имеет значительное сходство как с A, так и с C. Таким образом, B обеспечивает связующее звено между A и C. Другой подход заключается в изучении отдаленных выравниваний на предмет высококонсервативных совпадений.; При уровне идентичности 50% белки, скорее всего, будут иметь одинаковую трехмерную структуру, и идентичные атомы в выравнивании последовательностей также будут накладываться в пределах приблизительно 1 Å в структурной модели. Таким образом, если известна структура одного члена семейства, можно сделать надежный прогноз для второго члена семейства, и чем выше уровень идентичности, тем надежнее прогноз. Структурное моделирование белков можно выполнить, изучив, насколько хорошо замены аминокислот вписываются в ядро трехмерной структуры.
Семья (структурный контекст): как используется в базе данных FSSP ( Семейства структурно подобных белков ) и на веб-сайте DALI/FSSP, две структуры, которые имеют значительный уровень структурного сходства, но не обязательно значительное сходство последовательностей.
Складывать: похож на структурный мотив, включает в себя большую комбинацию вторичных структурных единиц в той же конфигурации. Таким образом, белки, разделяющие одну и ту же складку, имеют одну и ту же комбинацию вторичных структур, которые соединены похожими петлями. Примером является складка Россмана, включающая несколько чередующихся α-спиралей и параллельных β-нитей. В базах данных SCOP, CATH и FSSP известные структуры белков были классифицированы по иерархическим уровням структурной сложности, при этом складка является базовым уровнем классификации.
Гомологичный домен (контекст последовательности): расширенный шаблон последовательности, обычно обнаруживаемый методами выравнивания последовательностей, который указывает на общее эволюционное происхождение среди выровненных последовательностей. Домен гомологии, как правило, длиннее мотивов. Домен может включать всю заданную последовательность белка или только часть последовательности. Некоторые домены являются сложными и состоят из нескольких меньших доменов гомологии, которые объединились, чтобы сформировать более крупный в ходе эволюции. Домен, который охватывает всю последовательность, называется гомеоморфным доменом по PIR ( Protein Information Resource ).
Модуль: область консервативных аминокислотных схем, включающая один или несколько мотивов и считающаяся фундаментальной единицей структуры или функции. Наличие модуля также использовалось для классификации белков по семействам.
Мотив (контекст последовательности): консервативный набор аминокислот, который встречается в двух или более белках. В каталоге Prosite мотив — это набор аминокислот, который встречается в группе белков, имеющих схожую биохимическую активность, и который часто находится вблизи активного центра белка. Примерами баз данных мотивов последовательностей являются каталог Prosite и база данных мотивов Стэнфорда. ^[4]
Мотив (структурный контекст): комбинация нескольких вторичных структурных элементов, полученных путем складывания соседних участков полипептидной цепи в определенную трехмерную конфигурацию. Примером может служить мотив спираль-петля-спираль. Структурные мотивы также называют супервторичными структурами и складками.
Матрица оценок, зависящая от позиции (контекст последовательности, также известная как матрица веса или оценки): представляет собой консервативную область в множественном выравнивании последовательностей без пробелов. Каждый столбец матрицы представляет собой вариацию, обнаруженную в одном столбце множественного выравнивания последовательностей.
Матрица оценок, зависящая от позиции — 3D (структурный контекст): представляет собой аминокислотную вариацию, обнаруженную в выравнивании белков, которые попадают в один и тот же структурный класс. Столбцы матрицы представляют собой аминокислотную вариацию, обнаруженную в одной аминокислотной позиции в выровненных структурах.
Первичная структура: линейная аминокислотная последовательность белка, которая с химической точки зрения представляет собой полипептидную цепь, состоящую из аминокислот, соединенных пептидными связями.
Профиль (контекст последовательности): матрица оценок, которая представляет собой множественное выравнивание последовательностей семейства белков. Профиль обычно получается из хорошо сохранившейся области в множественном выравнивании последовательностей. Профиль имеет форму матрицы, в которой каждый столбец представляет позицию в выравнивании, а каждая строка — одну из аминокислот. Значения матрицы дают вероятность каждой аминокислоты в соответствующей позиции в выравнивании. Профиль перемещается вдоль целевой последовательности для определения лучших областей оценок с помощью алгоритма динамического программирования. Пробелы допускаются во время сопоставления, и в этом случае штраф за пропуск включается как отрицательная оценка, когда ни одна аминокислота не сопоставлена. Профиль последовательности также может быть представлен скрытой марковской моделью , называемой профилем HMM.
Профиль (структурный контекст): матрица оценок, которая представляет, какие аминокислоты должны хорошо и какие должны плохо соответствовать последовательным позициям в известной структуре белка. Столбцы профиля представляют последовательные позиции в структуре, а строки профиля представляют 20 аминокислот. Как и в случае с профилем последовательности, структурный профиль перемещается вдоль целевой последовательности, чтобы найти максимально возможную оценку выравнивания с помощью динамического алгоритма программирования. Пробелы могут быть включены и получать штраф. Полученная оценка дает указание на то, может ли целевой белок принять такую структуру.
Четвертичная структура: трехмерная конфигурация молекулы белка, состоящая из нескольких независимых полипептидных цепей.
Вторичная структура: взаимодействия, которые происходят между группами C, O и NH в аминокислотах в полипептидной цепи с образованием α-спиралей, β-слоев, поворотов, петель и других форм, и которые облегчают сворачивание в трехмерную структуру.
Суперсемейство: группа семейств белков одинаковой или разной длины, которые связаны отдаленным, но обнаруживаемым сходством последовательностей. Таким образом, члены данного суперсемейства имеют общее эволюционное происхождение. Первоначально Дейхофф определил пороговое значение для статуса суперсемейства как вероятность того, что последовательности не связаны, из 10 6 на основе оценки выравнивания (Дейхофф и др., 1978). Белки с небольшим количеством идентичностей в выравнивании последовательностей, но с убедительно общим числом структурных и функциональных особенностей помещаются в одно и то же суперсемейство. На уровне трехмерной структуры белки суперсемейства будут иметь общие структурные особенности, такие как общая складка, но также могут быть различия в количестве и расположении вторичных структур. Ресурс PIR использует термин гомеоморфные суперсемейства для обозначения суперсемейств, которые состоят из последовательностей, которые могут быть выровнены от конца до конца, представляя собой совместное использование одного домена гомологии последовательности, области сходства, которая простирается на протяжении всего выравнивания. Этот домен может также включать меньшие домены гомологии, которые являются общими с другими семействами и суперсемействами белков. Хотя данная последовательность белка может содержать домены, обнаруженные в нескольких суперсемействах, что указывает на сложную эволюционную историю, последовательности будут отнесены только к одному гомеоморфному суперсемейству на основе наличия сходства на протяжении всего выравнивания множественных последовательностей. Выравнивание суперсемейства может также включать регионы, которые не выравниваются ни внутри, ни на концах выравнивания. Напротив, последовательности в одном и том же семействе хорошо выравниваются на протяжении всего выравнивания.
Супервторичная структура: термин со значением, аналогичным структурному мотиву. Третичная структура — это трехмерная или глобулярная структура, образованная упаковкой или складыванием вторичных структур полипептидной цепи. ^[2]

Вторичная структура

Предсказание вторичной структуры — это набор методов в биоинформатике , которые направлены на предсказание локальных вторичных структур белков , основываясь только на знании их аминокислотной последовательности. Для белков предсказание состоит из назначения областей аминокислотной последовательности в качестве вероятных альфа-спиралей , бета-цепей (часто обозначаемых как «расширенные» конформации) или поворотов . Успешность предсказания определяется путем сравнения его с результатами алгоритма DSSP (или аналогичного, например, STRIDE ), примененного к кристаллической структуре белка. Были разработаны специализированные алгоритмы для обнаружения определенных четко определенных шаблонов, таких как трансмембранные спирали и спиральные спирали в белках. ^[2]

Лучшие современные методы предсказания вторичной структуры белков, как утверждается, достигают точности 80% после использования машинного обучения и выравнивания последовательностей ; ^[5] эта высокая точность позволяет использовать предсказания в качестве признаков улучшения распознавания складок и ab initio предсказания структуры белка, классификации структурных мотивов и уточнения выравниваний последовательностей . Точность текущих методов предсказания вторичной структуры белка оценивается в еженедельных бенчмарках , таких как LiveBench и EVA .

Фон

Ранние методы предсказания вторичной структуры, представленные в 1960-х и начале 1970-х годов, ^[6]^[7]^[8]^[9]^[10] были сосредоточены на идентификации вероятных альфа-спиралей и основывались в основном на моделях перехода спираль-катушка . ^[11] Значительно более точные предсказания, включавшие бета-слои, были представлены в 1970-х годах и опирались на статистические оценки, основанные на параметрах вероятности, полученных из известных решенных структур. Эти методы, применяемые к одной последовательности, обычно имеют точность не более 60-65% и часто недооценивают бета-слои. [ ^2] С 1980-х годов искусственные нейронные сети применяются для предсказания структур белков. ^[12]^[13] Эволюционное сохранение вторичных структур можно использовать путем одновременной оценки многих гомологичных последовательностей в множественном выравнивании последовательностей , путем вычисления чистой склонности к вторичной структуре выровненного столбца аминокислот. В сочетании с более крупными базами данных известных структур белков и современными методами машинного обучения , такими как нейронные сети и машины опорных векторов , эти методы могут достигать общей точности до 80% в глобулярных белках . ^[14] Теоретический верхний предел точности составляет около 90%, ^[14] отчасти из-за особенностей в назначении DSSP вблизи концов вторичных структур, где локальные конформации изменяются в нативных условиях, но могут быть вынуждены предполагать единую конформацию в кристаллах из-за ограничений упаковки. Более того, типичные методы предсказания вторичной структуры не учитывают влияние третичной структуры на формирование вторичной структуры; например, последовательность, предсказанная как вероятная спираль, все еще может принимать конформацию бета-цепи, если она расположена в области бета-слоя белка, а ее боковые цепи хорошо упакованы со своими соседями. Резкие конформационные изменения, связанные с функцией или средой белка, также могут изменять локальную вторичную структуру.

Историческая перспектива

На сегодняшний день разработано более 20 различных методов прогнозирования вторичной структуры. Одним из первых алгоритмов был метод Чжоу-Фасмана , который в основном опирается на параметры вероятности, определяемые из относительных частот появления каждой аминокислоты в каждом типе вторичной структуры. ^[15] Первоначальные параметры Чжоу-Фасмана, определенные из небольшой выборки структур, решенных в середине 1970-х годов, дают плохие результаты по сравнению с современными методами, хотя параметризация была обновлена с момента ее первой публикации. Метод Чжоу-Фасмана имеет примерно 50-60% точности в прогнозировании вторичных структур. ^[2]

Следующей заметной программой был метод GOR , основанный на теории информации . Он использует более мощный вероятностный метод байесовского вывода . ^[16] Метод GOR учитывает не только вероятность того, что каждая аминокислота имеет определенную вторичную структуру, но и условную вероятность того, что аминокислота принимает каждую структуру с учетом вкладов ее соседей (он не предполагает, что соседи имеют ту же самую структуру). Этот подход является и более чувствительным, и более точным, чем подход Чоу и Фасмана, поскольку структурные склонности аминокислот сильны только для небольшого числа аминокислот, таких как пролин и глицин . Слабые вклады от каждого из многих соседей могут суммироваться с сильными эффектами в целом. Первоначальный метод GOR был примерно на 65% точным и значительно более успешным в предсказании альфа-спиралей, чем бета-слоев, которые он часто неправильно предсказывал как петли или неорганизованные области. ^[2]

Еще одним большим шагом вперед стало использование методов машинного обучения . Сначала были использованы методы искусственных нейронных сетей . В качестве обучающих наборов они используют решенные структуры для определения общих мотивов последовательностей, связанных с определенными расположениями вторичных структур. Эти методы более чем на 70% точны в своих предсказаниях, хотя бета-цепи все еще часто недооцениваются из-за отсутствия трехмерной структурной информации, которая позволила бы оценить паттерны водородных связей , которые могут способствовать формированию расширенной конформации, необходимой для наличия полного бета-листа. ^[2] PSIPRED и JPRED являются одними из самых известных программ, основанных на нейронных сетях для прогнозирования вторичной структуры белка. Затем, машины опорных векторов оказались особенно полезными для прогнозирования местоположений поворотов , которые трудно идентифицировать статистическими методами. ^[17]^[18]

Расширения методов машинного обучения пытаются предсказать более мелкие локальные свойства белков, такие как двугранные углы остова в нераспределенных областях. Как SVM ^[19] , так и нейронные сети ^[20] были применены к этой проблеме. ^[17] Совсем недавно действительные торсионные углы можно было точно предсказать с помощью SPINE-X и успешно использовать для ab initio прогнозирования структуры. ^[21]

Другие улучшения

Сообщается, что в дополнение к последовательности белка, формирование вторичной структуры зависит от других факторов. Например, сообщается, что тенденции вторичной структуры зависят также от локальной среды, ^[22] доступности остатков для растворителя, ^[23] структурного класса белка, ^[24] и даже организма, из которого получены белки. ^[25] Основываясь на таких наблюдениях, некоторые исследования показали, что предсказание вторичной структуры может быть улучшено путем добавления информации о структурном классе белка, ^[26] доступной площади поверхности остатка ^[27]^[28] и также информации о контактном номере . ^[29]

Третичная структура

Практическая роль предсказания структуры белка сейчас важнее, чем когда-либо. ^[30] Огромные объемы данных о последовательностях белков производятся современными крупномасштабными усилиями по секвенированию ДНК , такими как проект «Геном человека» . Несмотря на усилия всего сообщества в области структурной геномики , выход экспериментально определенных структур белков — как правило, с помощью трудоемкой и относительно дорогой рентгеновской кристаллографии или ЯМР-спектроскопии — значительно отстает от выхода последовательностей белков.

Предсказание структуры белка остается чрезвычайно сложной и нерешенной задачей. Две основные проблемы — это расчет свободной энергии белка и нахождение глобального минимума этой энергии. Метод предсказания структуры белка должен исследовать пространство возможных структур белка, которое астрономически велико . Эти проблемы можно частично обойти в «сравнительном» или гомологическом моделировании и методах распознавания складок , в которых пространство поиска обрезается предположением, что рассматриваемый белок принимает структуру, близкую к экспериментально определенной структуре другого гомологичного белка. С другой стороны, методы предсказания структуры белка de novo должны явно решать эти проблемы. Прогресс и проблемы в предсказании структуры белка были рассмотрены Чжаном. ^[31]

Перед моделированием

Большинство методов моделирования третичной структуры, таких как Rosetta, оптимизированы для моделирования третичной структуры отдельных доменов белка. Шаг, называемый синтаксическим анализом домена или предсказанием границ домена , обычно выполняется первым для разделения белка на потенциальные структурные домены. Как и в случае с остальным предсказанием третичной структуры, это можно сделать сравнительно с известными структурами ^[32] или ab initio только с последовательностью (обычно с помощью машинного обучения , с помощью ковариации). ^[33] Структуры для отдельных доменов стыкуются вместе в процессе, называемом сборкой домена, для формирования окончательной третичной структуры. ^[34]^[35]

Ab initioмоделирование белков

Методы, основанные на энергии и фрагментах

Методы моделирования белков ab initio или de novo стремятся построить трехмерные модели белков «с нуля», т. е. на основе физических принципов, а не (непосредственно) на ранее решенных структурах. Существует множество возможных процедур, которые либо пытаются имитировать сворачивание белка , либо применяют некий стохастический метод для поиска возможных решений (т. е. глобальную оптимизацию подходящей энергетической функции). Эти процедуры, как правило, требуют огромных вычислительных ресурсов, и поэтому были выполнены только для крошечных белков. Для предсказания структуры белка de novo для более крупных белков потребуются лучшие алгоритмы и большие вычислительные ресурсы, подобные тем, которые предоставляют либо мощные суперкомпьютеры (такие как Blue Gene или MDGRAPE-3 ), либо распределенные вычисления (такие как Folding@home , Human Proteome Folding Project и Rosetta@Home ). Хотя эти вычислительные барьеры огромны, потенциальные преимущества структурной геномики (предсказанными или экспериментальными методами) делают предсказание структуры ab initio активной областью исследований. ^[31]

По состоянию на 2009 год белок из 50 остатков можно было смоделировать атом за атомом на суперкомпьютере за 1 миллисекунду. ^[36] По состоянию на 2012 год сопоставимую выборку стабильного состояния можно было сделать на стандартном настольном компьютере с новой графической картой и более сложными алгоритмами. ^[37] Гораздо большие временные масштабы моделирования можно было достичь с помощью крупнозернистого моделирования . ^[38]^[39]

Эволюционная ковариация для прогнозирования 3D-контактов

Поскольку секвенирование стало более распространенным в 1990-х годах, несколько групп использовали выравнивания последовательностей белков для прогнозирования коррелированных мутаций , и надеялись, что эти коэволюционировавшие остатки можно будет использовать для прогнозирования третичной структуры (используя аналогию с ограничениями расстояния из экспериментальных процедур, таких как ЯМР ). Предполагается, что когда мутации отдельных остатков немного вредны, могут возникнуть компенсаторные мутации для повторной стабилизации взаимодействий остаток-остаток. Эта ранняя работа использовала так называемые локальные методы для расчета коррелированных мутаций из последовательностей белков, но страдала от косвенных ложных корреляций, которые возникают из-за обработки каждой пары остатков как независимых от всех других пар. ^[40]^[41]^[42]

В 2011 году другой, и на этот раз глобальный статистический подход, продемонстрировал, что предсказанных коэволюционных остатков было достаточно для предсказания 3D-складки белка, при условии, что доступно достаточно последовательностей (необходимо >1000 гомологичных последовательностей). ^[43] Метод EVfold не использует моделирование гомологии, нанизывание или фрагменты 3D-структуры и может быть запущен на стандартном персональном компьютере даже для белков с сотнями остатков. Точность контактов, предсказанных с использованием этого и связанных подходов, теперь была продемонстрирована на многих известных структурах и контактных картах, ^[44]^[45]^[46], включая предсказание экспериментально неразрешенных трансмембранных белков. ^[47]

Сравнительное моделирование белков

Сравнительное моделирование белков использует ранее решенные структуры в качестве отправных точек или шаблонов. Это эффективно, поскольку, по-видимому, хотя число реальных белков огромно, существует ограниченный набор третичных структурных мотивов , к которым принадлежит большинство белков. Было высказано предположение, что в природе существует всего около 2000 различных белковых складок, хотя существует много миллионов различных белков. Сравнительное моделирование белков может сочетаться с эволюционной ковариацией в предсказании структуры. ^[48]

Эти методы также можно разделить на две группы: ^[31]

Моделирование гомологии основано на разумном предположении, что два гомологичных белка будут иметь очень похожие структуры. Поскольку складка белка более эволюционно консервативна, чем его аминокислотная последовательность, целевая последовательность может быть смоделирована с разумной точностью на очень отдаленно связанной матрице, при условии, что связь между целью и матрицей может быть определена посредством выравнивания последовательностей . Было высказано предположение, что основное узкое место в сравнительном моделировании возникает из-за трудностей в выравнивании, а не из-за ошибок в предсказании структуры при заведомо хорошем выравнивании. ^[49] Неудивительно, что моделирование гомологии является наиболее точным, когда цель и матрица имеют похожие последовательности.
Белковая нить ^[50] сканирует аминокислотную последовательность неизвестной структуры по базе данных решенных структур. В каждом случае функция оценки используется для оценки совместимости последовательности со структурой, тем самым получая возможные трехмерные модели. Этот тип метода также известен как 3D-1D распознавание складок из-за его анализа совместимости между трехмерными структурами и линейными белковыми последовательностями. Этот метод также дал начало методам, выполняющим поиск обратной складок путем оценки совместимости заданной структуры с большой базой данных последовательностей, тем самым предсказывая, какие последовательности имеют потенциал для создания заданной складок.

Моделирование конформаций боковой цепи

Точная упаковка боковых цепей аминокислот представляет собой отдельную проблему в прогнозировании структуры белка. Методы, которые специально решают проблему прогнозирования геометрии боковой цепи, включают в себя методы исключения тупиковых концов и самосогласованного среднего поля . Конформации боковой цепи с низкой энергией обычно определяются на жестком полипептидном остове и с использованием набора дискретных конформаций боковой цепи, известных как « ротамеры ». Методы пытаются идентифицировать набор ротамеров, которые минимизируют общую энергию модели.

Эти методы используют библиотеки ротамеров, которые представляют собой коллекции благоприятных конформаций для каждого типа остатков в белках. Библиотеки ротамеров могут содержать информацию о конформации, ее частоте и стандартных отклонениях относительно средних двугранных углов, которые могут использоваться при отборе проб. ^[51] Библиотеки ротамеров выводятся из структурной биоинформатики или другого статистического анализа конформаций боковых цепей в известных экспериментальных структурах белков, например, путем кластеризации наблюдаемых конформаций для тетраэдрических атомов углерода вблизи ступенчатых значений (60°, 180°, -60°).

Библиотеки ротамеров могут быть независимыми от остова, зависимыми от вторичной структуры или зависимыми от остова. Библиотеки ротамеров, не зависящие от остова, не ссылаются на конформацию остова и рассчитываются по всем доступным боковым цепям определенного типа (например, первый пример библиотеки ротамеров, созданный Пондером и Ричардсом в Йельском университете в 1987 году). ^[52] Библиотеки, зависящие от вторичной структуры, представляют различные двугранные углы и/или частоты ротамеров для вторичных структур -спирали, -листа или катушки. ^[53]Библиотеки ротамеров, зависящие от остова, представляют конформации и/или частоты, зависящие от локальной конформации остова, как определено двугранными углами остова и , независимо от вторичной структуры. ^[54] $\альфа$ $\бета$ $\фи$ $\psi$

Современные версии этих библиотек, используемые в большинстве программ, представлены в виде многомерных распределений вероятности или частоты, где пики соответствуют конформациям двугранного угла, рассматриваемым как отдельные ротамеры в списках. Некоторые версии основаны на очень тщательно отобранных данных и используются в основном для проверки структуры, ^[55] в то время как другие подчеркивают относительные частоты в гораздо больших наборах данных и являются формой, используемой в основном для прогнозирования структуры, например, библиотеки ротамеров Данбрака . ^[56]

Методы упаковки боковых цепей наиболее полезны для анализа гидрофобного ядра белка , где боковые цепи упакованы более плотно; они сложнее справляются с более свободными ограничениями и более высокой гибкостью поверхностных остатков, которые часто занимают несколько конформаций ротамера, а не только одну. ^[57]^[58]

Четвертичная структура

В случае комплексов из двух или более белков , где структуры белков известны или могут быть предсказаны с высокой точностью, методы белок-белковой стыковки могут быть использованы для предсказания структуры комплекса. Информация о влиянии мутаций в определенных участках на сродство комплекса помогает понять сложную структуру и направлять методы стыковки.

Программное обеспечение

Существует большое количество программных инструментов для прогнозирования структуры белка. Подходы включают моделирование гомологии , белковую нить , методы ab initio , прогнозирование вторичной структуры и прогнозирование трансмембранной спирали и сигнального пептида. В частности, глубокое обучение , основанное на долговременной кратковременной памяти, использовалось для этой цели с 2007 года, когда оно было успешно применено для обнаружения гомологии белка ^[59] и для прогнозирования субклеточной локализации белков. ^[60] Некоторые недавние успешные методы, основанные на экспериментах CASP, включают I-TASSER , HHpred и AlphaFold . В 2021 году сообщалось, что AlphaFold в настоящее время имеет наилучшую производительность. ^[61]

Знание структуры белка часто позволяет также делать функциональные прогнозы. Например, коллаген сворачивается в длинную волокнистую цепь, и это делает его фибриллярным белком. Недавно было разработано несколько методов для прогнозирования сворачивания белка и, следовательно, структуры белка, например, Itasser и AlphaFold.

Методы ИИ

AlphaFold был одним из первых ИИ, предсказывающих структуры белков. Он был представлен DeepMind от Google на 13-м конкурсе CASP, который проводился в 2018 году. ^[61] AlphaFold опирается на подход нейронной сети , который напрямую предсказывает трехмерные координаты всех неводородных атомов для данного белка, используя последовательность аминокислот и выровненные гомологичные последовательности . Сеть AlphaFold состоит из ствола, который обрабатывает входные данные через повторяющиеся слои, и структурного модуля, который вводит явную трехмерную структуру. ^[61] Более ранние нейронные сети для предсказания структуры белка использовали LSTM . ^[59]^[60]

Поскольку AlphaFold напрямую выводит координаты белка, AlphaFold производит прогнозы в течение нескольких минут или часов графического процессора (GPU), в зависимости от длины последовательности белка. ^[61]

Современные методы ИИ и базы данных предсказанных структур белков

AlphaFold2 был представлен в CASP14 и способен предсказывать структуры белков с точностью, близкой к экспериментальной. ^[62] За AlphaFold быстро последовал RoseTTAFold ^[63] , а затем OmegaFold и ESM Metagenomic Atlas. ^[64] В недавнем исследовании Sommer et al. 2022 продемонстрировали применение предсказания структуры белка в аннотации генома, в частности, при идентификации функциональных изоформ белка с использованием вычислительно предсказанных структур, доступных на https://www.isoform.io. ^[65] Это исследование подчеркивает перспективность предсказания структуры белка как инструмента аннотации генома и представляет собой практический, структурно-ориентированный подход, который можно использовать для улучшения аннотации любого генома.

Европейский институт биоинформатики совместно с DeepMind создали базу данных AlphaFold - EBI ^[66] для предсказанных структур белков. ^[67]

Оценка серверов автоматического прогнозирования структуры

CASP , что означает «критическая оценка методов прогнозирования структуры белка», — это эксперимент по прогнозированию структуры белка, проводимый в масштабах всего сообщества каждые два года с 1994 года. CASP предоставляет возможность оценить качество доступных человеческих, неавтоматизированных методологий (категория «человек») и автоматических серверов для прогнозирования структуры белка (категория «сервер», введенная в CASP7). ^[68]

Сервер непрерывной автоматизированной оценки моделей CAMEO3D еженедельно оценивает серверы автоматизированного прогнозирования структуры белков, используя слепые прогнозы для недавно выпущенных структур белков. CAMEO публикует результаты на своем веб-сайте.

Смотрите также

Ссылки

^ Iupac-Iub Comm. On Biochem. Nomenclature (1 сентября 1970 г.). "Комиссия IUPAC-IUB по биохимической номенклатуре. Сокращения и символы для описания конформации полипептидных цепей. Предварительные правила (1969 г.)". Биохимия . 9 (18): 3471–3479. doi :10.1021/bi00820a001. PMID 5509841. S2CID 196933.
^ abcdefgh Mount DM (2004). Биоинформатика: Анализ последовательностей и генома . Том 2. Cold Spring Harbor Laboratory Press. ISBN 978-0-87969-712-9.
^ Юсиф, Рагхид Хусам и др. «Изучение молекулярных взаимодействий между неокулином и рецепторами сладкого вкуса человека с помощью вычислительных подходов». Sains Malaysiana 49.3 (2020): 517-525.
^ Huang JY, Brutlag DL (январь 2001 г.). «База данных EMOTIF». Nucleic Acids Research . 29 (1): 202–4. doi :10.1093/nar/29.1.202. PMC 29837. PMID 11125091 .
^ Pirovano W, Heringa J (2010). "Предсказание вторичной структуры белка". Методы интеллектуального анализа данных для наук о жизни . Методы в молекулярной биологии. Т. 609. С. 327–48. doi :10.1007/978-1-60327-241-4_19. ISBN 978-1-60327-240-7. PMID 20221928.
^ Guzzo AV (ноябрь 1965). "Влияние аминокислотной последовательности на структуру белка". Biophysical Journal . 5 (6): 809–22. Bibcode :1965BpJ.....5..809G. doi :10.1016/S0006-3495(65)86753-4. PMC 1367904 . PMID 5884309.
^ Prothero JW (май 1966). «Корреляция между распределением аминокислот и альфа-спиралей». Biophysical Journal . 6 (3): 367–70. Bibcode :1966BpJ.....6..367P. doi :10.1016/S0006-3495(66)86662-6. PMC 1367951 . PMID 5962284.
^ Шиффер М., Эдмундсон АБ (март 1967 г.). «Использование спиральных колес для представления структур белков и идентификации сегментов со спиральным потенциалом». Biophysical Journal . 7 (2): 121–35. Bibcode :1967BpJ.....7..121S. doi :10.1016/S0006-3495(67)86579-2. PMC 1368002 . PMID 6048867.
^ Kotelchuck D, Scheraga HA (январь 1969). «Влияние ближнего взаимодействия на формирование белков. II. Модель для предсказания альфа-спиральных областей белков». Труды Национальной академии наук Соединенных Штатов Америки . 62 (1): 14–21. Bibcode :1969PNAS...62...14K. doi : 10.1073/pnas.62.1.14 . PMC 285948 . PMID 5253650.
^ Льюис П. Н., Го Н., Го М., Котельчак Д., Шерага HA (апрель 1970 г.). «Профили вероятности спирали денатурированных белков и их корреляция с нативными структурами». Труды Национальной академии наук Соединенных Штатов Америки . 65 (4): 810–5. Bibcode :1970PNAS...65..810L. doi : 10.1073/pnas.65.4.810 . PMC 282987 . PMID 5266152.
^ Froimowitz M, Fasman GD (1974). «Предсказание вторичной структуры белков с использованием теории перехода спираль-клубок». Macromolecules . 7 (5): 583–9. Bibcode :1974MaMol...7..583F. doi :10.1021/ma60041a009. PMID 4371089.
^ Qian, Ning; Sejnowski, Terry J. (1988). «Предсказание вторичной структуры глобулярных белков с использованием моделей нейронных сетей» (PDF) . Журнал молекулярной биологии . 202 (4): 865–884. doi :10.1016/0022-2836(88)90564-5. PMID 3172241. Qian1988.
^ Рост, Буркхард ; Сандер, Крис (1993). «Предсказание вторичной структуры белка с точностью выше 70%» (PDF) . Журнал молекулярной биологии . 232 (2): 584–599. doi :10.1006/jmbi.1993.1413. PMID 8345525. Rost1993. Архивировано из оригинала (PDF) 2019-01-31 . Получено 2023-04-20 .
^ ab Dor O, Zhou Y (март 2007). «Достижение 80% десятикратной перекрестной проверки точности для предсказания вторичной структуры с помощью крупномасштабного обучения». Белки . 66 (4): 838–45. doi :10.1002/prot.21298. PMID 17177203. S2CID 14759081.
^ Chou PY, Fasman GD (январь 1974). «Предсказание конформации белка». Биохимия . 13 (2): 222–45. doi :10.1021/bi00699a002. PMID 4358940.
^ Гарнье Дж., Осгуторп Д.Дж., Робсон Б. (март 1978 г.). «Анализ точности и последствий простых методов прогнозирования вторичной структуры глобулярных белков». Журнал молекулярной биологии . 120 (1): 97–120. doi :10.1016/0022-2836(78)90297-8. PMID 642007.
^ ab Pham TH, Satou K, Ho TB (апрель 2005 г.). «Машины опорных векторов для прогнозирования и анализа бета- и гамма-поворотов в белках». Журнал биоинформатики и вычислительной биологии . 3 (2): 343–58. doi :10.1142/S0219720005001089. PMID 15852509.
^ Чжан Q, Юн С, Уэлш В. Дж. (май 2005 г.). «Улучшенный метод прогнозирования бета-поворота с использованием машины опорных векторов». Биоинформатика . 21 (10): 2370–4. doi :10.1093/bioinformatics/bti358. PMID 15797917.
^ Zimmermann O, Hansmann UH (декабрь 2006 г.). «Машины опорных векторов для прогнозирования областей двугранного угла». Биоинформатика . 22 (24): 3009–15. doi :10.1093/bioinformatics/btl489. PMID 17005536.
^ Куанг Р., Лесли CS, Янг AS (июль 2004 г.). «Прогнозирование угла белкового остова с помощью подходов машинного обучения». Биоинформатика . 20 (10): 1612–21. doi : 10.1093/bioinformatics/bth136 . PMID 14988121.
^ Faraggi E, Yang Y, Zhang S, Zhou Y (ноябрь 2009 г.). «Предсказание непрерывной локальной структуры и эффект ее замены на вторичную структуру при прогнозировании структуры белка без фрагментов». Structure . 17 (11): 1515–27. doi :10.1016/j.str.2009.09.006. PMC 2778607 . PMID 19913486.
^ Zhong L, Johnson WC (май 1992). «Окружающая среда влияет на предпочтение аминокислот для вторичной структуры». Труды Национальной академии наук Соединенных Штатов Америки . 89 (10): 4462–5. Bibcode :1992PNAS...89.4462Z. doi : 10.1073/pnas.89.10.4462 . PMC 49102 . PMID 1584778.
^ Macdonald JR, Johnson WC (июнь 2001 г.). «Особенности окружающей среды важны для определения вторичной структуры белка». Protein Science . 10 (6): 1172–7. doi :10.1110/ps.420101. PMC 2374018 . PMID 11369855.
^ Costantini S, Colonna G, Facchiano AM (апрель 2006 г.). «Склонности аминокислот к вторичным структурам зависят от структурного класса белка». Biochemical and Biophysical Research Communications . 342 (2): 441–51. doi :10.1016/j.bbrc.2006.01.159. PMID 16487481.
^ Marashi SA, Behrouzi R, Pezeshk H (январь 2007 г.). «Адаптация белков к различным средам: сравнение структурных свойств протеома у Bacillus subtilis и Escherichia coli». Журнал теоретической биологии . 244 (1): 127–32. Bibcode : 2007JThBi.244..127M. doi : 10.1016/j.jtbi.2006.07.021. PMID 16945389.
^ Costantini S, Colonna G, Facchiano AM (октябрь 2007 г.). «PreSSAPro: программное обеспечение для прогнозирования вторичной структуры по свойствам аминокислот». Computational Biology and Chemistry . 31 (5–6): 389–92. doi :10.1016/j.compbiolchem.2007.08.010. PMID 17888742.
^ Momen-Roknabadi A, Sadeghi M, Pezeshk H, Marashi SA (август 2008 г.). "Влияние площади доступной поверхности остатка на прогнозирование вторичных структур белка". BMC Bioinformatics . 9 : 357. doi : 10.1186/1471-2105-9-357 . PMC 2553345 . PMID 18759992.
^ Adamczak R, Porollo A, Meller J (май 2005). «Объединение предсказания вторичной структуры и доступности растворителя в белках». Proteins . 59 (3): 467–75. doi :10.1002/prot.20441. PMID 15768403. S2CID 13267624.
^ Лакизаде А., Мараши СА. (2009). «Добавление информации о контактном числе может улучшить предсказание вторичной структуры белка нейронными сетями» (PDF) . Excli J. 8 : 66–73.
^ Дорн, Марсио; и Сильва, Мариэль Барбачан; Буриол, Лучиана С.; Лэмб, Луис К. (2014-12-01). «Трехмерное предсказание структуры белка: методы и вычислительные стратегии». Computational Biology and Chemistry . 53 : 251–276. doi :10.1016/j.compbiolchem.2014.10.001. ISSN 1476-9271. PMID 25462334.
^ abc Zhang Y (июнь 2008 г.). «Прогресс и проблемы в предсказании структуры белка». Current Opinion in Structural Biology . 18 (3): 342–8. doi :10.1016/j.sbi.2008.02.004. PMC 2680823. PMID 18436442 .
^ Овчинников С., Ким Д.Е., Ван Р.Ю., Лю И., ДиМайо Ф., Бейкер Д. (сентябрь 2016 г.). «Улучшение прогнозирования структуры de novo в CASP11 путем включения информации о коэволюции в Rosetta». Proteins . 84 (Suppl 1): 67–75. doi :10.1002/prot.24974. PMC 5490371 . PMID 26677056.
^ Hong SH, Joo K, Lee J (ноябрь 2018 г.). «ConDo: Прогнозирование границ белковых доменов с использованием коэволюционной информации». Биоинформатика . 35 (14): 2411–2417. doi :10.1093/bioinformatics/bty973. PMID 30500873.
^ Wollacott AM, Zanghellini A, Murphy P, Baker D (февраль 2007 г.). «Предсказание структур многодоменных белков по структурам отдельных доменов». Protein Science . 16 (2): 165–75. doi :10.1110/ps.062270707. PMC 2203296 . PMID 17189483.
^ Xu D, Jaroszewski L, Li Z, Godzik A (июль 2015 г.). «AIDA: ab initio domain assembly for automatic multi-domain protein structure predicting and domain-domain interaction predicting». Биоинформатика . 31 (13): 2098–105. doi :10.1093/bioinformatics/btv092. PMC 4481839. PMID 25701568 .
^ Shaw DE, Dror RO, Salmon JK, Grossman JP, Mackenzie KM, Bank JA, Young C, Deneroff MM, Batson B, Bowers KJ, Chow E (2009). Моделирование молекулярной динамики в миллисекундном масштабе на Anton . Труды конференции по высокопроизводительным вычислительным сетям, хранению и анализу - SC '09. стр. 1. doi :10.1145/1654059.1654126. ISBN 9781605587448.
^ Pierce LC, Salomon-Ferrer R, de Oliveira CA, McCammon JA, Walker RC (сентябрь 2012 г.). «Обычный доступ к событиям миллисекундной шкалы времени с помощью ускоренной молекулярной динамики». Journal of Chemical Theory and Computation . 8 (9): 2997–3002. doi :10.1021/ct300284c. PMC 3438784 . PMID 22984356.
^ Кмиецик С., Гронт Д., Колински М., Витеска Л., Давид А.Е., Колински А. (июль 2016 г.). «Крупнозернистые белковые модели и их применение». Химические обзоры . 116 (14): 7898–936. doi : 10.1021/acs.chemrev.6b00163 . ПМИД 27333362.
^ Cheung NJ, Yu W (ноябрь 2018 г.). «Прогнозирование структуры белка de novo с использованием сверхбыстрого моделирования молекулярной динамики». PLOS ONE . 13 (11): e0205819. Bibcode :2018PLoSO..1305819C. doi : 10.1371/journal.pone.0205819 . PMC 6245515 . PMID 30458007.
^ Göbel U, Sander C, Schneider R, Valencia A (апрель 1994). «Коррелированные мутации и контакты остатков в белках». Proteins . 18 (4): 309–17. doi :10.1002/prot.340180402. PMID 8208723. S2CID 14978727.
^ Taylor WR, Hatrick K (март 1994). «Компенсирующие изменения в выравнивании множественных последовательностей белков». Protein Engineering . 7 (3): 341–8. doi :10.1093/protein/7.3.341. PMID 8177883.
^ Neher E (январь 1994). «Насколько часты коррелированные изменения в семействах белковых последовательностей?». Труды Национальной академии наук Соединенных Штатов Америки . 91 (1): 98–102. Bibcode : 1994PNAS...91...98N. doi : 10.1073/pnas.91.1.98 . PMC 42893. PMID 8278414 .
^ Marks DS, Colwell LJ, Sheridan R, Hopf TA, Pagnani A, Zecchina R, Sander C (2011). "Трехмерная структура белка, вычисленная на основе эволюционной вариации последовательности". PLOS ONE . 6 (12): e28766. Bibcode : 2011PLoSO...628766M. doi : 10.1371/journal.pone.0028766 . PMC 3233603. PMID 22163331 .
^ Burger L, van Nimwegen E (январь 2010 г.). «Разделение прямой и косвенной коэволюции остатков в выравниваниях белков». PLOS Computational Biology . 6 (1): e1000633. Bibcode : 2010PLSCB...6E0633B. doi : 10.1371/journal.pcbi.1000633 . PMC 2793430. PMID 20052271 .
^ Morcos F, Pagnani A, Lunt B, Bertolino A, Marks DS, Sander C, Zecchina R, Onuchic JN, Hwa T, Weigt M (декабрь 2011 г.). «Анализ прямого связывания остатков коэволюции фиксирует нативные контакты во многих семействах белков». Труды Национальной академии наук Соединенных Штатов Америки . 108 (49): E1293-301. arXiv : 1110.5223 . Bibcode :2011PNAS..108E1293M. doi : 10.1073/pnas.1111471108 . PMC 3241805 . PMID 22106262.
^ Nugent T, Jones DT (июнь 2012 г.). «Точное de novo предсказание структуры больших трансмембранных белковых доменов с использованием фрагментной сборки и анализа коррелированных мутаций». Труды Национальной академии наук Соединенных Штатов Америки . 109 (24): E1540-7. Bibcode : 2012PNAS..109E1540N. doi : 10.1073/pnas.1120036109 . PMC 3386101. PMID 22645369 .
^ Hopf TA, Colwell LJ, Sheridan R, Rost B, Sander C, Marks DS (июнь 2012 г.). «Трехмерные структуры мембранных белков из геномного секвенирования». Cell . 149 (7): 1607–21. doi :10.1016/j.cell.2012.04.012. PMC 3641781 . PMID 22579045.
^ Jin, Shikai; Chen, Mingchen; Chen, Xun; Bueno, Carlos; Lu, Wei; Schafer, Nicholas P.; Lin, Xingcheng; Onuchic, José N.; Wolynes, Peter G. (9 июня 2020 г.). «Прогнозирование структуры белка в CASP13 с использованием AWSEM-Suite». Journal of Chemical Theory and Computation . 16 (6): 3977–3988. doi :10.1021/acs.jctc.0c00188. PMID 32396727. S2CID 218618842.
^ Zhang Y, Skolnick J (январь 2005 г.). «Проблема предсказания структуры белка может быть решена с использованием текущей библиотеки PDB». Труды Национальной академии наук Соединенных Штатов Америки . 102 (4): 1029–34. Bibcode :2005PNAS..102.1029Z. doi : 10.1073/pnas.0407152101 . PMC 545829 . PMID 15653774.
^ Bowie JU, Lüthy R, Eisenberg D (июль 1991 г.). «Метод идентификации последовательностей белков, которые складываются в известную трехмерную структуру». Science . 253 (5016): 164–70. Bibcode :1991Sci...253..164B. doi :10.1126/science.1853201. PMID 1853201.
^ Данбрак Р. Л. (август 2002 г.). «Библиотеки ротамеров в 21 веке». Current Opinion in Structural Biology . 12 (4): 431–40. doi :10.1016/S0959-440X(02)00344-5. PMID 12163064.
^ Пондер Дж. В., Ричардс Ф. М. (февраль 1987 г.). «Третичные шаблоны для белков. Использование критериев упаковки при перечислении разрешенных последовательностей для различных структурных классов». Журнал молекулярной биологии . 193 (4): 775–91. doi :10.1016/0022-2836(87)90358-5. PMID 2441069.
^ Lovell SC, Word JM, Richardson JS, Richardson DC (август 2000 г.). «Предпоследняя библиотека ротамеров». Proteins . 40 (3): 389–408. doi :10.1002/1097-0134(20000815)40:3<389::AID-PROT50>3.0.CO;2-2. PMID 10861930. S2CID 3055173.
^ Шаповалов МВ, Данбрак РЛ (июнь 2011). "Сглаженная зависимая от остова библиотека ротамеров для белков, полученных из адаптивных оценок плотности ядра и регрессий". Структура . 19 (6): 844–58. doi :10.1016/j.str.2011.03.019. PMC 3118414. PMID 21645855 .
^ Chen VB, Arendall WB, Headd JJ, Keedy DA, Immormino RM, Kapral GJ, Murray LW, Richardson JS, Richardson DC (январь 2010 г.). "MolProbity: валидация структуры всех атомов для макромолекулярной кристаллографии". Acta Crystallographica. Раздел D, Биологическая кристаллография . 66 (Pt 1): 12–21. doi :10.1107/S0907444909042073. PMC 2803126. PMID 20057044 .
^ Bower MJ, Cohen FE, Dunbrack RL (апрель 1997 г.). «Предсказание ротамеров боковой цепи белка из библиотеки ротамеров, зависящих от скелета: новый инструмент моделирования гомологии». Журнал молекулярной биологии . 267 (5): 1268–82. doi :10.1006/jmbi.1997.0926. PMID 9150411.
^ Voigt CA, Gordon DB, Mayo SL (июнь 2000 г.). «Точность в обмен на скорость: количественное сравнение алгоритмов поиска при проектировании белковых последовательностей». Журнал молекулярной биологии . 299 (3): 789–803. CiteSeerX 10.1.1.138.2023 . doi :10.1006/jmbi.2000.3758. PMID 10835284.
^ Кривов ГГ, Шаповалов МВ, Данбрак РЛ (декабрь 2009 г.). "Улучшенное предсказание конформаций боковой цепи белка с помощью SCWRL4". Белки . 77 (4): 778–95. doi :10.1002/prot.22488. PMC 2885146 . PMID 19603484.
^ ab Hochreiter, S.; Heusel, M.; Obermayer, K. (2007). «Быстрое определение гомологии белков на основе моделей без выравнивания». Биоинформатика . 23 (14): 1728–1736. doi : 10.1093/bioinformatics/btm247 . PMID 17488755.
^ ab Thireou, T.; Reczko, M. (2007). «Двунаправленные сети краткосрочной памяти для прогнозирования субклеточной локализации эукариотических белков». Труды IEEE/ACM по вычислительной биологии и биоинформатике . 4 (3): 441–446. doi :10.1109/tcbb.2007.1015. PMID 17666763. S2CID 11787259.
^ abcd Джампер, Джон; Эванс, Ричард; Притцель, Александр; Грин, Тим; Фигурнов, Майкл; Роннебергер, Олаф; Туньясувунакул, Кэтрин; Бейтс, Расс; Жидек, Августин; Потапенко, Анна; Бриджленд, Алекс (август 2021 г.). «Высокоточное предсказание структуры белка с помощью AlphaFold». Nature . 596 (7873): 583–589. Bibcode :2021Natur.596..583J. doi :10.1038/s41586-021-03819-2. ISSN 1476-4687. PMC 8371605 . PMID 34265844.
^ Jumper J, Evans R, Pritzel A, Green T, Figurnov M, Ronneberger O и др. (август 2021 г.). «Высокоточное предсказание структуры белка с помощью AlphaFold». Nature . 596 (7873): 583–589. doi :10.1038/s41586-021-03819-2. PMC 8371605 . PMID 34265844.
^ Baek M, DiMaio F, Anishchenko I, Dauparas J, Ovchinnikov S, Lee GR и др. (август 2021 г.). «Точное предсказание структур и взаимодействий белков с использованием трехдорожечной нейронной сети». Science . 373 (6557): 871–876. doi :10.1126/science.abj8754. PMC 7612213 . PMID 34282049.
^ Callaway E (ноябрь 2022 г.). «Новый конкурент AlphaFold? Meta AI предсказывает форму 600 миллионов белков». Nature . 611 (7935): 211–212. doi :10.1038/d41586-022-03539-1. PMID 36319775. S2CID 253257926.
^ Sommer, Markus J.; Cha, Sooyoung; Varabyou, Ales; Rincon, Natalia; Park, Sukhwan; Minkin, Ilia; Pertea, Mihaela; Steinegger, Martin; Salzberg, Steven L. (15.12.2022). "Идентификация изоформ на основе структуры для человеческого транскриптома". eLife . 11 : e82556. doi : 10.7554/eLife.82556 . PMC 9812405 . PMID 36519529.
^ "База данных структур белков AlphaFold". EMBL-EBI . Получено 30 ноября 2022 г.
^ Варади М., Аньянго С., Дешпанде М., Наир С., Натассиа К., Йорданова Г. и др. (январь 2022 г.). «База данных структур белков AlphaFold: масштабное расширение структурного покрытия пространства последовательностей белков с помощью высокоточных моделей». Nucleic Acids Res . 50 (D1): D439–D444. doi :10.1093/nar/gkab1061. PMC 8728224. PMID 34791371 .
^ Battey JN, Kopp J, Bordoli L, Read RJ, Clarke ND, Schwede T (2007). «Автоматизированные серверные предсказания в CASP7». Proteins . 69 (Suppl 8): 68–82. doi : 10.1002/prot.21761 . PMID 17894354. S2CID 29879391.

Дальнейшее чтение

Majorek K, Kozlowski L, Jakalski M, Bujnicki JM (18 декабря 2008 г.). "Глава 2: Первые шаги в предсказании структуры белка" (PDF) . В Bujnicki J (ред.). Предсказание структур, функций и взаимодействий белков . John Wiley & Sons, Ltd. стр. 39–62. doi :10.1002/9780470741894.ch2. ISBN 9780470517673.^{[ постоянная мертвая ссылка ]}
Бейкер Д., Сали А. (октябрь 2001 г.). «Предсказание структуры белка и структурная геномика». Science . 294 (5540): 93–6. Bibcode :2001Sci...294...93B. doi :10.1126/science.1065659. PMID 11588250. S2CID 7193705.
Келли LA, Стернберг MJ (2009). «Прогнозирование структуры белка в Интернете: пример использования сервера Phyre» (PDF) . Nature Protocols . 4 (3): 363–71. doi :10.1038/nprot.2009.2. hdl : 10044/1/18157 . PMID 19247286. S2CID 12497300.
Криштафович А, Фиделис К (апрель 2009). «Прогнозирование структуры белка и оценка качества модели». Drug Discovery Today . 14 (7–8): 386–93. doi :10.1016/j.drudis.2008.11.010. PMC 2808711. PMID 19100336 .
Qu X, Swanson R, Day R, Tsai J (июнь 2009 г.). «Руководство по прогнозированию структуры на основе шаблонов». Current Protein & Peptide Science . 10 (3): 270–85. doi :10.2174/138920309788452182. PMID 19519455.
Daga PR, Patel RY, Doerksen RJ (2010). «Моделирование белков на основе шаблонов: последние методологические достижения». Current Topics in Medicinal Chemistry . 10 (1): 84–94. doi :10.2174/156802610790232314. PMC 5943704. PMID 19929829 .
Fiser, A. (2010). "Моделирование структуры белка на основе шаблона". Computational Biology . Methods in Molecular Biology. Vol. 673. pp. 73–94. doi :10.1007/978-1-60761-842-3_6. ISBN 978-1-60761-841-6. PMC 4108304 . PMID 20835794.
Cozzetto D, Tramontano A (декабрь 2008 г.). «Достижения и подводные камни в прогнозировании структуры белка». Current Protein & Peptide Science . 9 (6): 567–77. doi :10.2174/138920308786733958. PMID 19075747.
Nayeem A, Sitkoff D, Krystek S (апрель 2006 г.). «Сравнительное исследование доступного программного обеспечения для высокоточного моделирования гомологии: от выравнивания последовательностей до структурных моделей». Protein Science . 15 (4): 808–24. doi :10.1110/ps.051892906. PMC 2242473 . PMID 16600967.

Внешние ссылки

Домашняя страница экспериментов CASP
Инструменты ExPASy Proteomics — список инструментов и серверов прогнозирования