Макромолекулярный стыковочный метод — это вычислительное моделирование четвертичной структуры комплексов , образованных двумя или более взаимодействующими биологическими макромолекулами . Белок -белковые комплексы являются наиболее часто используемыми целями такого моделирования, за ними следуют комплексы белок- нуклеиновая кислота . [1]
Конечной целью стыковки является предсказание трехмерной структуры интересующего макромолекулярного комплекса, как это могло бы произойти в живом организме. Сама по себе стыковка производит только правдоподобные структуры-кандидаты. Эти кандидаты должны быть ранжированы с использованием таких методов, как функции оценки, для определения структур, которые с наибольшей вероятностью встречаются в природе.
Термин «стыковка» появился в конце 1970-х годов с более узким значением; тогда «стыковка» означала уточнение модели сложной структуры путем оптимизации разделения между взаимодействующими элементами , но сохранения их относительной ориентации фиксированной. Позже относительная ориентация взаимодействующих элементов в моделировании могла изменяться, но внутренняя геометрия каждого из элементов оставалась фиксированной. Этот тип моделирования иногда называют «жесткой стыковкой». С дальнейшим ростом вычислительной мощности стало возможным моделировать изменения внутренней геометрии взаимодействующих элементов, которые могут возникнуть при формировании комплекса. Этот тип моделирования называют «гибкой стыковкой».
Биологические роли большинства белков, характеризующиеся тем, с какими другими макромолекулами они взаимодействуют , известны в лучшем случае не полностью. Даже те белки, которые участвуют в хорошо изученном биологическом процессе (например, цикле Кребса ), могут иметь неожиданных партнеров по взаимодействию или функции , которые не связаны с этим процессом.
В случаях известных белок-белковых взаимодействий возникают другие вопросы. Известно, что генетические заболевания (например, муковисцидоз ) вызываются неправильно свернутыми или мутировавшими белками, и есть желание понять, какие, если таковые имеются, аномальные белок-белковые взаимодействия может вызвать данная мутация. В отдаленном будущем белки могут быть разработаны для выполнения биологических функций, и определение потенциальных взаимодействий таких белков будет иметь важное значение.
Для любого набора белков следующие вопросы могут представлять интерес с точки зрения технологии или естественной истории:
Если они действительно связываются,
Если они не связывают,
В конечном итоге предполагается, что стыковка белок-белок решит все эти проблемы. Более того, поскольку методы стыковки могут быть основаны на чисто физических принципах, даже белки с неизвестной функцией (или которые были изучены относительно мало) могут быть стыкованы. Единственным предварительным условием является то, что их молекулярная структура либо была определена экспериментально, либо может быть оценена с помощью метода предсказания структуры белка .
Взаимодействие белков и нуклеиновых кислот играет важную роль в живой клетке. Факторы транскрипции , которые регулируют экспрессию генов , и полимеразы , которые катализируют репликацию , состоят из белков, а генетический материал, с которым они взаимодействуют, состоит из нуклеиновых кислот. Моделирование комплексов белков и нуклеиновых кислот представляет собой ряд уникальных проблем, как описано ниже.
В 1970-х годах сложное моделирование вращалось вокруг ручного определения особенностей на поверхностях взаимодействующих веществ и интерпретации последствий для связывания, функции и активности; любые компьютерные программы обычно использовались в конце процесса моделирования, чтобы различать относительно немногочисленные конфигурации, которые оставались после наложения всех эвристических ограничений. Первое использование компьютеров было в исследовании взаимодействия гемоглобина в серповидноклеточных волокнах. [2] За этим в 1978 году последовала работа над комплексом трипсин - BPTI . [3] Компьютеры различали хорошие и плохие модели, используя функцию подсчета, которая вознаграждала большую площадь интерфейса и пары молекул, контактирующих, но не занимающих одно и то же пространство. Компьютер использовал упрощенное представление взаимодействующих белков с одним центром взаимодействия для каждого остатка. Благоприятные электростатические взаимодействия, включая водородные связи , были идентифицированы вручную. [4]
В начале 1990-х годов было определено больше структур комплексов, и доступная вычислительная мощность существенно возросла. С появлением биоинформатики фокус сместился на разработку обобщенных методов, которые могли бы применяться к произвольному набору комплексов при приемлемых вычислительных затратах. Новые методы предполагалось применять даже при отсутствии филогенетических или экспериментальных подсказок; любые конкретные предварительные знания все еще могли быть введены на этапе выбора между выходными моделями с наивысшим рангом или быть оформлены как входные данные, если алгоритм это предусматривал. В 1992 году был опубликован метод корреляции [5] , алгоритм, который использовал быстрое преобразование Фурье для получения значительно улучшенной масштабируемости для оценки грубой комплементарности форм на моделях жесткого тела. Это было расширено в 1997 году для охвата грубой электростатики. [6]
В 1996 году были опубликованы результаты первого слепого испытания [7] , в котором шесть исследовательских групп попытались предсказать сложную структуру бета-лактамазы TEM-1 с ингибитором бета-лактамазы белком (BLIP). Это упражнение привлекло внимание к необходимости учета конформационных изменений и трудности различения конформеров. Оно также послужило прототипом для серии оценок CAPRI, которая дебютировала в 2001 году. [ необходима цитата ]
Если углы связей, длины связей и углы кручения компонентов не изменяются на любой стадии образования комплекса, это известно как стыковка жесткого тела . Предметом спекуляций является то, достаточно ли хороша стыковка жесткого тела для большинства стыковок. Когда в компонентах во время образования комплекса происходят существенные конформационные изменения, стыковка жесткого тела неадекватна. Однако подсчет всех возможных конформационных изменений является непомерно дорогим с точки зрения компьютерного времени. Процедуры стыковки, которые допускают конформационные изменения, или гибкие процедуры стыковки, должны разумно выбирать небольшое подмножество возможных конформационных изменений для рассмотрения.
Для успешной стыковки необходимо соблюдение двух критериев:
Для многих взаимодействий известно место связывания на одном или нескольких белках, которые должны быть стыкованы. Это касается антител и конкурентных ингибиторов . В других случаях место связывания может быть настоятельно предложено мутагенными или филогенетическими доказательствами. Конфигурации, в которых белки сильно взаимопроникают, также могут быть исключены априори .
После исключения на основе предшествующих знаний или стереохимического столкновения оставшееся пространство возможных сложных структур должно быть отобрано исчерпывающе, равномерно и с достаточным покрытием, чтобы гарантировать близкое попадание. Каждая конфигурация должна быть оценена с помощью меры, которая способна ранжировать почти правильную структуру выше, по крайней мере, 100 000 альтернатив. Это вычислительно интенсивная задача, и было разработано множество стратегий.
Каждый из белков может быть представлен в виде простой кубической решетки. Тогда для класса оценок, которые являются дискретными свертками , конфигурации, связанные друг с другом посредством трансляции одного белка точным вектором решетки, могут быть оценены почти одновременно с применением теоремы о свертке . [5] Можно построить разумные, хотя и приблизительные, функции оценки, подобные свертке, представляющие как стереохимическую, так и электростатическую пригодность.
Методы обратного пространства широко использовались из-за их способности оценивать огромное количество конфигураций. Они теряют свое преимущество в скорости, если вводятся торсионные изменения. Другим недостатком является невозможность эффективного использования предшествующих знаний. Также остается вопрос, являются ли свертки слишком ограниченным классом оценочных функций для надежного определения наилучшего комплекса.
В Монте-Карло начальная конфигурация уточняется путем выполнения случайных шагов, которые принимаются или отклоняются на основе их вызванного улучшения в счете (см. критерий Метрополиса ), пока не будет испробовано определенное количество шагов. Предполагается, что сходимость к наилучшей структуре должна происходить из большого класса начальных конфигураций, только одна из которых должна быть рассмотрена. Начальные конфигурации могут быть грубо выбраны, и можно сэкономить много времени вычислений. Из-за сложности нахождения функции оценки, которая одновременно является высокодискриминационной для правильной конфигурации и также сходится к правильной конфигурации на расстоянии, было предложено использовать два уровня уточнения с различными функциями оценки. [8] Кручение может быть естественным образом введено в Монте-Карло как дополнительное свойство каждого случайного хода.
Методы Монте-Карло не гарантируют исчерпывающий поиск, так что лучшая конфигурация может быть упущена даже при использовании функции подсчета, которая в теории могла бы ее идентифицировать. Насколько серьезна эта проблема для стыковки, точно не установлено.
Чтобы найти оценку, которая формирует последовательную основу для выбора лучшей конфигурации, исследования проводятся на стандартном эталоне (см. ниже) случаев взаимодействия белок-белок. Оценочные функции оцениваются по рангу, который они присваивают лучшей структуре (в идеале лучшая структура должна иметь ранг 1), и по их покрытию (доля эталонных случаев, для которых они достигают приемлемого результата). Типы изучаемых оценок включают:
Обычно гибридные оценки создаются путем объединения одной или нескольких категорий выше в взвешенную сумму, веса которой оптимизированы на основе случаев из бенчмарка. Чтобы избежать смещения, случаи бенчмарка, используемые для оптимизации весов, не должны пересекаться с случаями, используемыми для окончательного теста оценки.
Конечной целью белок-белковой стыковки является выбор идеального решения для ранжирования в соответствии со схемой оценки, которая также даст представление о сродстве комплекса. Такое развитие событий будет стимулировать инженерию белков in silico , компьютерное проектирование лекарств и/или высокопроизводительную аннотацию того, какие белки связываются или нет (аннотация интерактома ). Было предложено несколько функций оценки для прогнозирования сродства связывания/свободной энергии. [8] [9] [10] [11] [12] Однако было обнаружено, что корреляция между экспериментально определенными сродствами связывания и прогнозами девяти обычно используемых функций оценки является почти ортогональной (R 2 ~ 0). [13] Было также отмечено, что некоторые компоненты алгоритмов оценки могут демонстрировать лучшую корреляцию с экспериментальными энергиями связывания, чем полная оценка, что позволяет предположить, что можно получить значительно лучшую производительность, объединив соответствующие вклады из разных алгоритмов оценки. Экспериментальные методы определения сродства связывания: поверхностный плазмонный резонанс (SPR), резонансный перенос энергии Фёрстера , методы на основе радиолиганда , изотермическая титрационная калориметрия (ITC), микротермофорез (MST) или спектроскопические измерения и другие методы флуоресценции. Текстовая информация из научных статей может предоставить полезные подсказки для оценки. [14]
Для тестирования методов стыковки был разработан эталон из 84 взаимодействий белок-белок с известными сложными структурами. [15] Набор выбран для охвата широкого спектра типов взаимодействий и для избежания повторяющихся характеристик, таких как профиль структурных семейств интеракторов согласно базе данных SCOP . Элементы эталона классифицируются по трем уровням сложности (самый сложный содержит наибольшее изменение в конформации остова). Эталон стыковки белок-белок содержит примеры комплексов фермент-ингибитор, антиген-антитело и гомомультимерных комплексов.
Последняя версия теста стыковки белок-белок состоит из 230 комплексов. [16] Тест стыковки белок-ДНК состоит из 47 тестовых случаев. [17] Тест стыковки белок-РНК был разработан как набор данных из 45 не избыточных тестовых случаев [18] с комплексами, решенными только с помощью рентгеновской кристаллографии , а также расширенный набор данных из 71 тестового случая со структурами, полученными также с помощью моделирования гомологии . [19] Тест стыковки белок-РНК был обновлен, чтобы включить больше структур, решенных с помощью рентгеновской кристаллографии , и теперь он состоит из 126 тестовых случаев. [20] Тесты имеют объединенный набор данных из 209 комплексов. [21]
Тест связывающей аффинности был основан на тесте стыковки белок-белок. [13] Включено 81 комплекс белок-белок с известными экспериментальными аффинностями; эти комплексы охватывают более 11 порядков величины с точки зрения аффинности. Каждая запись теста включает несколько биохимических параметров, связанных с экспериментальными данными, вместе с методом, используемым для определения аффинности. Этот тест использовался для оценки степени, в которой функции подсчета также могли предсказывать аффинности макромолекулярных комплексов.
Этот Benchmark был рецензирован и значительно расширен. [22] Новый набор разнообразен с точки зрения биологических функций, которые он представляет, с комплексами, которые включают G-белки и рецепторные внеклеточные домены, а также комплексы антиген/антитело, фермент/ингибитор и фермент/субстрат. Он также разнообразен с точки зрения сродства партнеров друг к другу, с K d в диапазоне от 10 −5 до 10 −14 M. Девять пар записей представляют близкородственные комплексы, которые имеют схожую структуру, но очень разное сродство, каждая пара включает родственную и неродственную сборку. Поскольку несвязанные структуры компонентов белков доступны, можно оценить изменения конформации. Они значительны в большинстве комплексов, и часто наблюдаются большие перемещения или переходы от беспорядка к порядку. Набор может быть использован для сравнительного анализа биофизических моделей, направленных на установление связи между сродством и структурой во взаимодействиях белок-белок, принимая во внимание реагенты и изменения конформации, которые сопровождают реакцию ассоциации, а не только конечный продукт. [22]
Критическая оценка прогнозирования взаимодействий [23] — это продолжающаяся серия мероприятий, в ходе которых исследователи всего сообщества пытаются стыковать одни и те же белки, предоставленные оценщиками. Раунды проводятся примерно каждые 6 месяцев. Каждый раунд содержит от одного до шести целевых комплексов белок-белок, структуры которых были недавно определены экспериментально. Координаты и хранятся в тайне оценщиками при сотрудничестве структурных биологов, которые их определили. Оценка заявок проводится двойным слепым методом .
CAPRI привлекает высокий уровень участия (37 групп по всему миру приняли участие в седьмом раунде) и высокий уровень интереса со стороны биологического сообщества в целом. Хотя результаты CAPRI имеют небольшую статистическую значимость из-за небольшого количества целей в каждом раунде, роль CAPRI в стимулировании дискурса значительна. ( Оценка CASP является аналогичным упражнением в области прогнозирования структуры белка).