Структурное выравнивание пытается установить гомологию между двумя или более полимерными структурами на основе их формы и трехмерной конформации . Этот процесс обычно применяется к третичным структурам белков , но может также использоваться для больших молекул РНК . В отличие от простой структурной суперпозиции, где известны по крайней мере некоторые эквивалентные остатки двух структур, структурное выравнивание не требует априорного знания эквивалентных положений. Структурное выравнивание является ценным инструментом для сравнения белков с низким сходством последовательностей, где эволюционные связи между белками не могут быть легко обнаружены стандартными методами выравнивания последовательностей . Поэтому структурное выравнивание может использоваться для предположения эволюционных связей между белками, которые имеют очень мало общих последовательностей. Однако следует проявлять осторожность при использовании результатов в качестве доказательства общего эволюционного происхождения из-за возможных смешивающих эффектов конвергентной эволюции, посредством которой несколько неродственных аминокислотных последовательностей сходятся в общей третичной структуре .
Структурные выравнивания могут сравнивать две последовательности или несколько последовательностей . Поскольку эти выравнивания основаны на информации о трехмерных конформациях всех запрашиваемых последовательностей, метод может быть использован только для последовательностей, где эти структуры известны. Обычно они обнаруживаются с помощью рентгеновской кристаллографии или ЯМР-спектроскопии . Можно выполнить структурное выравнивание для структур, полученных методами прогнозирования структуры . Действительно, оценка таких прогнозов часто требует структурного выравнивания между моделью и истинной известной структурой для оценки качества модели. [1] Структурные выравнивания особенно полезны при анализе данных из структурной геномики и протеомики , и их можно использовать в качестве точек сравнения для оценки выравниваний, полученных с помощью чисто последовательно-ориентированных методов биоинформатики . [2] [3] [4]
Выходные данные структурного выравнивания представляют собой суперпозицию наборов атомных координат и минимальное среднеквадратичное отклонение ( RMSD ) между структурами. RMSD двух выровненных структур указывает на их расхождение друг от друга. Структурное выравнивание может быть осложнено существованием нескольких доменов белка в одной или нескольких входных структурах, поскольку изменения в относительной ориентации доменов между двумя выровненными структурами могут искусственно завышать RMSD.
Минимальная информация, полученная в результате успешного структурного выравнивания, представляет собой набор остатков, которые считаются эквивалентными между структурами. Этот набор эквивалентностей затем обычно используется для наложения трехмерных координат для каждой входной структуры. (Обратите внимание, что один входной элемент может быть зафиксирован как ссылка, и поэтому его наложенные координаты не меняются.) Подогнанных структур можно использовать для расчета взаимных значений RMSD, а также других более сложных мер структурного сходства, таких как глобальный тест расстояния (GDT, [5] метрика, используемая в CASP ). Структурное выравнивание также подразумевает соответствующее одномерное выравнивание последовательностей , из которого можно рассчитать идентичность последовательностей или процент остатков, которые идентичны между входными структурами, как меру того, насколько тесно связаны две последовательности.
Поскольку структуры белков состоят из аминокислот, боковые цепи которых связаны общим белковым остовом, для получения структурного выравнивания и расчета соответствующих значений RMSD можно использовать ряд различных возможных подмножеств атомов, составляющих макромолекулу белка. При выравнивании структур с очень разными последовательностями атомы боковой цепи обычно не учитываются, поскольку их идентичность различается между многими выровненными остатками. По этой причине для методов структурного выравнивания обычно по умолчанию используются только атомы основной цепи, включенные в пептидную связь . Для простоты и эффективности часто рассматриваются только положения альфа-углерода , поскольку пептидная связь имеет минимально вариантную планарную конформацию. Только когда структуры, которые нужно выровнять, очень похожи или даже идентичны, имеет смысл выравнивать положения атомов боковой цепи, и в этом случае RMSD отражает не только конформацию основной цепи белка, но и ротамерные состояния боковых цепей. Другие критерии сравнения, которые уменьшают шум и поддерживают положительные совпадения, включают назначение вторичной структуры , карты собственных контактов или модели взаимодействия остатков, меры упаковки боковых цепей и меры сохранения водородных связей . [6]
Самое простое возможное сравнение между белковыми структурами не делает попытки выровнять входные структуры и требует предварительно рассчитанного выравнивания в качестве входных данных для определения того, какие из остатков в последовательности должны учитываться при расчете RMSD. Структурная суперпозиция обычно используется для сравнения нескольких конформаций одного и того же белка (в этом случае выравнивание не требуется, поскольку последовательности одинаковы) и для оценки качества выравниваний, полученных с использованием только информации о последовательности между двумя или более последовательностями, структуры которых известны. Этот метод традиционно использует простой алгоритм подгонки наименьших квадратов, в котором оптимальные вращения и трансляции находятся путем минимизации суммы квадратов расстояний между всеми структурами в суперпозиции. [7] Совсем недавно методы максимального правдоподобия и байесовские методы значительно повысили точность предполагаемых вращений, трансляций и матриц ковариации для суперпозиции. [8] [9]
Алгоритмы, основанные на многомерных вращениях и модифицированных кватернионах, были разработаны для определения топологических связей между белковыми структурами без необходимости в предопределенном выравнивании. Такие алгоритмы успешно идентифицировали канонические складки, такие как четырехспиральный пучок . [10] Метод SuperPose, заархивированный 2015-10-31 в Wayback Machine, достаточно расширяем для исправления относительных вращений доменов и других структурных ловушек. [11]
Часто целью поиска структурной суперпозиции является не столько сама суперпозиция, сколько оценка сходства двух структур или уверенность в отдаленном выравнивании. [1] [2] [3] Тонкое, но важное отличие от максимальной структурной суперпозиции заключается в преобразовании выравнивания в значимую оценку сходства. [12] [13] Большинство методов выводят своего рода «оценку», указывающую качество суперпозиции. [5] [14] [15] [12] [13] Однако на самом деле требуется не просто оценочная «Z-оценка» или оценочное значение E случайного обнаружения наблюдаемой суперпозиции, а вместо этого требуется, чтобы оценочное значение E было тесно связано с истинным значением E. Критически важно, что даже если оценочное значение E метода в среднем точно верно , если у него отсутствует низкое стандартное отклонение в процессе генерации оценочного значения, то ранжирование относительных сходств запрашиваемого белка с набором сравнения редко будет согласовываться с «истинным» порядком. [12] [13]
Различные методы будут накладывать разное количество остатков, поскольку они используют разные гарантии качества и разные определения «перекрытия»; некоторые включают только остатки, соответствующие нескольким локальным и глобальным критериям суперпозиции, а другие более жадные, гибкие и беспорядочные. Большее количество наложенных атомов может означать большее сходство, но это не всегда может давать лучшее значение E, количественно определяющее маловероятность суперпозиции, и, таким образом, не так полезно для оценки сходства, особенно в отдаленных гомологах. [1] [2] [3] [4]
Оптимальное « нанизывание » белковой последовательности на известную структуру и создание оптимального множественного выравнивания последовательностей, как было показано, является NP-полным . [16] [17] Однако это не означает, что проблема структурного выравнивания является NP-полной. Строго говоря, оптимальное решение проблемы выравнивания структуры белка известно только для определенных мер сходства структуры белка, таких как меры, используемые в экспериментах по предсказанию структуры белка, GDT_TS [5] и MaxSub. [14] Эти меры могут быть строго оптимизированы с использованием алгоритма, способного максимизировать количество атомов в двух белках, которые могут быть наложены друг на друга при предопределенном расстоянии отсечки. [15] К сожалению, алгоритм для оптимального решения не является практичным, поскольку время его выполнения зависит не только от длин, но и от внутренней геометрии входных белков.
Были разработаны приближенные полиномиальные алгоритмы для структурного выравнивания, которые производят семейство «оптимальных» решений в пределах параметра аппроксимации для заданной функции оценки. [15] [18] Хотя эти алгоритмы теоретически классифицируют проблему приближенного выравнивания структуры белка как «разрешимую», они все еще вычислительно слишком дороги для крупномасштабного анализа структуры белка. Как следствие, практических алгоритмов, которые сходятся к глобальным решениям выравнивания, учитывая функцию оценки, не существует. Большинство алгоритмов, таким образом, являются эвристическими, но были разработаны алгоритмы, которые гарантируют сходимость по крайней мере к локальным максимизаторам функций оценки и являются практичными. [19]
Структуры белков должны быть представлены в некотором пространстве, независимом от координат, чтобы сделать их сопоставимыми. Обычно это достигается путем построения матрицы последовательности к последовательности или серии матриц, которые охватывают сравнительные метрики: а не абсолютные расстояния относительно фиксированного координатного пространства. Интуитивно понятным представлением является матрица расстояний , которая является двумерной матрицей, содержащей все попарные расстояния между некоторым подмножеством атомов в каждой структуре (например, альфа-углеродами ). Матрица увеличивается в размерности по мере увеличения числа структур, которые должны быть одновременно выровнены. Сведение белка к грубой метрике, такой как элементы вторичной структуры (SSE) или структурные фрагменты, также может производить разумные выравнивания, несмотря на потерю информации из-за отбрасывания расстояний, поскольку шум также отбрасывается. [20] Выбор представления для облегчения вычислений имеет решающее значение для разработки эффективного механизма выравнивания.
Методы структурного выравнивания использовались для сравнения отдельных структур или наборов структур, а также для создания баз данных сравнения "все-со-всеми", которые измеряют расхождение между каждой парой структур, представленных в Protein Data Bank (PDB). Такие базы данных используются для классификации белков по их сворачиванию .
Распространенным и популярным методом структурного выравнивания является метод DALI, или Distance-matrix ALIgnment, который разбивает входные структуры на гексапептидные фрагменты и вычисляет матрицу расстояний, оценивая паттерны контактов между последовательными фрагментами. [21] Вторичные структурные признаки, которые включают остатки, которые являются смежными в последовательности, появляются на главной диагонали матрицы ; другие диагонали в матрице отражают пространственные контакты между остатками, которые не находятся рядом друг с другом в последовательности. Когда эти диагонали параллельны главной диагонали, признаки, которые они представляют, являются параллельными; когда они перпендикулярны, их признаки антипараллельны. Это представление требует большого объема памяти, поскольку признаки в квадратной матрице симметричны (и, следовательно, избыточны) относительно главной диагонали.
Когда матрицы расстояний двух белков имеют одинаковые или похожие признаки в приблизительно одинаковых позициях, можно сказать, что они имеют похожие складки с петлями схожей длины, соединяющими их элементы вторичной структуры. Фактический процесс выравнивания DALI требует поиска сходства после построения матриц расстояний двух белков; обычно это проводится с помощью серии перекрывающихся подматриц размером 6x6. Затем совпадения подматриц повторно собираются в окончательное выравнивание с помощью стандартного алгоритма максимизации оценок — исходная версия DALI использовала моделирование Монте-Карло для максимизации оценки структурного сходства, которая является функцией расстояний между предполагаемыми соответствующими атомами. В частности, более отдаленные атомы в соответствующих признаках экспоненциально занижаются, чтобы уменьшить влияние шума, вносимого подвижностью петель, скручиваниями спиралей и другими незначительными структурными изменениями. [20] Поскольку DALI опирается на матрицу расстояний «все ко всем», она может учитывать возможность того, что структурно выровненные признаки могут появляться в разных порядках в двух сравниваемых последовательностях.
Метод DALI также использовался для построения базы данных, известной как FSSP (классификация складки на основе выравнивания структуры-структуры белков или семейств структурно подобных белков), в которой все известные структуры белков выравниваются друг с другом для определения их структурных соседей и классификации складки. Существует поисковая база данных на основе DALI, а также загружаемая программа и веб-поиск на основе автономной версии, известной как DaliLite.
Метод комбинаторного расширения (CE) похож на DALI в том, что он также разбивает каждую структуру в наборе запроса на ряд фрагментов, которые затем пытается собрать заново в полное выравнивание. Ряд парных комбинаций фрагментов, называемых парами выровненных фрагментов, или AFP, используются для определения матрицы подобия, с помощью которой генерируется оптимальный путь для определения окончательного выравнивания. Только AFP, которые соответствуют заданным критериям локального подобия, включаются в матрицу в качестве средства сокращения необходимого пространства поиска и, таким образом, повышения эффективности. [22] Возможен ряд метрик подобия; первоначальное определение метода CE включало только структурные суперпозиции и расстояния между остатками, но с тех пор было расширено для включения локальных свойств окружающей среды, таких как вторичная структура, воздействие растворителя, модели водородных связей и двугранные углы . [22]
Путь выравнивания вычисляется как оптимальный путь через матрицу сходства путем линейного продвижения по последовательностям и расширения выравнивания следующей возможной парой AFP с высокой оценкой. Начальная пара AFP, которая зарождает выравнивание, может находиться в любой точке матрицы последовательности. Затем расширения продолжаются со следующим AFP, который соответствует заданным критериям расстояния, ограничивая выравнивание малыми размерами зазоров. Размер каждого AFP и максимальный размер зазора являются требуемыми входными параметрами, но обычно устанавливаются на эмпирически определенные значения 8 и 30 соответственно. [22] Подобно DALI и SSAP, CE использовался для построения базы данных классификации складок «все ко всем». Архивировано 03.12.1998 в Wayback Machine из известных структур белков в PDB.
Недавно RCSB PDB выпустила обновленную версию CE, Mammoth и FATCAT как часть инструмента сравнения белков RCSB PDB. Он предоставляет новую вариацию CE, которая может обнаруживать циклические перестановки в структурах белков. [23]
MAMMOTH [12] подходит к проблеме выравнивания с другой цели, чем почти все другие методы. Вместо того, чтобы пытаться найти выравнивание, которое максимально накладывает наибольшее количество остатков, он ищет подмножество структурного выравнивания, которое с наименьшей вероятностью произойдет случайно. Для этого он отмечает локальное выравнивание мотива флагами, чтобы указать, какие остатки одновременно удовлетворяют более строгим критериям: 1) локальное перекрытие структур 2) регулярная вторичная структура 3) 3D-суперпозиция 4) одинаковый порядок в первичной последовательности. Он преобразует статистику количества остатков с высоконадежными совпадениями и размер белка, чтобы вычислить ожидаемое значение для результата случайно. Он отлично подходит для сопоставления удаленных гомологов, в частности структур, сгенерированных ab initio предсказанием структуры, с такими семействами структур, как SCOP, потому что он подчеркивает извлечение статистически надежного суб-выравнивания, а не достижение максимального выравнивания последовательностей или максимальной 3D-суперпозиции. [2] [3]
Для каждого перекрывающегося окна из 7 последовательных остатков он вычисляет набор векторов направления смещения между соседними остатками C-альфа. Локальные мотивы «все против всех» сравниваются на основе оценки URMS. Эти значения становятся записями оценки парного выравнивания для динамического программирования, которое производит выравнивание остатков попарно. Вторая фаза использует модифицированный алгоритм MaxSub: одна выровненная пара из 7 остатков в каждом белке используется для ориентации двух полноразмерных структур белка для максимального наложения этих только этих 7 C-альфа, затем в этой ориентации он сканирует любые дополнительные выровненные пары, которые близки в 3D. Он переориентирует структуры для наложения этого расширенного набора и повторяет до тех пор, пока больше не останется пар, совпадающих в 3D. Этот процесс перезапускается для каждого окна из 7 остатков в выравнивании затравки. Выходными данными является максимальное количество атомов, найденных из любого из этих начальных семян. Эта статистика преобразуется в калиброванное значение E для сходства белков.
Mammoth не пытается повторно итерировать начальное выравнивание или расширять высококачественное подмножество. Поэтому отображаемое им начальное выравнивание нельзя справедливо сравнивать с DALI или TM-выравниванием, поскольку оно было сформировано просто как эвристика для сокращения пространства поиска. (Его можно использовать, если требуется выравнивание, основанное исключительно на локальном сходстве мотивов структуры, независимом от дальнего выравнивания атомов твердого тела.) Из-за той же экономии он более чем в десять раз быстрее DALI, CE и TM-align. [24] Его часто используют в сочетании с этими более медленными инструментами для предварительного скрининга больших баз данных с целью извлечения только лучших структур, связанных со значением E, для более исчерпывающей суперпозиции или дорогостоящих вычислений. [25] [26]
Он был особенно успешен в анализе структур-приманок из предсказания структуры ab initio. [1] [2] [3] Эти приманки печально известны тем, что правильно определяют структуру мотива локального фрагмента и формируют некоторые ядра правильной 3D-третичной структуры, но неправильно определяют третичную структуру полной длины. В этом режиме сумеречной отдаленной гомологии было показано , что e-значения Mammoth для оценки предсказания структуры белка CASP [1] значительно больше коррелируют с человеческим ранжированием, чем SSAP или DALI. [12] Способность Mammoth извлекать многокритериальные частичные перекрытия с белками известной структуры и ранжировать их с правильными E-значениями в сочетании с его скоростью облегчает сканирование огромного количества моделей-приманок по базе данных PDB для идентификации наиболее вероятных правильных приманок на основе их отдаленной гомологии с известными белками. [2]
Метод SSAP (Sequential Structure Alignment Program) использует двойное динамическое программирование для создания структурного выравнивания на основе атом-атомных векторов в структурном пространстве. Вместо альфа-углеродов, обычно используемых в структурном выравнивании, SSAP строит свои векторы из бета-углеродов для всех остатков, кроме глицина, метод, который таким образом учитывает ротамерное состояние каждого остатка, а также его расположение вдоль основной цепи. SSAP работает, сначала строя ряд векторов расстояний между остатками между каждым остатком и его ближайшими несмежными соседями на каждом белке. Затем строится ряд матриц, содержащих векторные различия между соседями для каждой пары остатков, для которых были построены векторы. Динамическое программирование, примененное к каждой результирующей матрице, определяет ряд оптимальных локальных выравниваний, которые затем суммируются в «сводную» матрицу, к которой снова применяется динамическое программирование для определения общего структурного выравнивания.
Первоначально SSAP производил только парные выравнивания, но с тех пор был расширен и до множественных выравниваний. [27] Он был применен в режиме «все ко всем» для создания иерархической схемы классификации складок, известной как CATH (класс, архитектура, топология, гомология), [28] которая была использована для создания базы данных классификации структур белков CATH.
Улучшения в методах структурного выравнивания представляют собой активную область исследований, и часто предлагаются новые или модифицированные методы, которые, как утверждается, предлагают преимущества по сравнению со старыми и более широко распространенными методами. Недавний пример, TM-align, использует новый метод для взвешивания своей матрицы расстояний, к которой затем применяется стандартное динамическое программирование . [29] [13] Взвешивание предлагается для ускорения сходимости динамического программирования и исправления эффектов, возникающих из-за длин выравнивания. В сравнительном исследовании было сообщено, что TM-align улучшает как скорость, так и точность по сравнению с DALI и CE. [29]
Другие перспективные методы структурного выравнивания — это методы локального структурного выравнивания. Они обеспечивают сравнение предварительно выбранных частей белков (например, сайтов связывания, определенных пользователем структурных мотивов) [30] [31] [32] с сайтами связывания или структурными базами данных целых белков. Серверы MultiBind и MAPPIS [32] [33] позволяют идентифицировать общие пространственные расположения физико-химических свойств, таких как донор водородной связи, акцептор, алифатический, ароматический или гидрофобный, в наборе предоставленных пользователем сайтов связывания белков, определенных взаимодействиями с малыми молекулами (MultiBind) или в наборе предоставленных пользователем интерфейсов белок-белок (MAPPIS). Другие обеспечивают сравнение целых структур белков [34] с рядом представленных пользователем структур или с большой базой данных структур белков за разумное время ( ProBiS [35] ). В отличие от подходов глобального выравнивания, подходы локального структурного выравнивания подходят для обнаружения локально консервативных паттернов функциональных групп, которые часто появляются в сайтах связывания и играют важную роль в связывании лигандов. [33] В качестве примера, сравнивая G-Losa, [36] инструмент локального выравнивания структуры, с TM-align, методом глобального выравнивания структуры. Хотя G-Losa предсказывает позиции лигандов, подобных лекарственным препаратам, в одноцепочечных белковых мишенях точнее, чем TM-align, общий показатель успешности TM-align лучше. [37]
Однако, поскольку алгоритмические усовершенствования и производительность компьютеров устранили чисто технические недостатки старых подходов, стало ясно, что не существует единого универсального критерия для «оптимального» структурного выравнивания. Например, TM-align особенно надежен в количественной оценке сравнений между наборами белков с большими различиями в длинах последовательностей, но он лишь косвенно фиксирует водородные связи или сохранение порядка вторичной структуры, которые могут быть лучшими метриками для выравнивания эволюционно связанных белков. Таким образом, недавние разработки были сосредоточены на оптимизации определенных атрибутов, таких как скорость, количественная оценка оценок, корреляция с альтернативными золотыми стандартами или толерантность к несовершенству структурных данных или структурных моделей ab initio. Альтернативная методология, которая набирает популярность, заключается в использовании консенсуса различных методов для установления структурного сходства белков. [38]
Методы структурного выравнивания традиционно применялись исключительно к белкам, как к первичным биологическим макромолекулам , которые принимают характерные трехмерные структуры. Однако большие молекулы РНК также образуют характерные третичные структуры , которые опосредованы в первую очередь водородными связями, образованными между парами оснований , а также укладкой оснований . Функционально схожие некодирующие молекулы РНК могут быть особенно трудны для извлечения из геномных данных, поскольку структура более сильно консервативна, чем последовательность в РНК, а также в белках, [40] и более ограниченный алфавит РНК снижает информационное содержание любого заданного нуклеотида в любой заданной позиции.
Однако из-за растущего интереса к структурам РНК и из-за роста числа экспериментально определенных трехмерных структур РНК в последнее время было разработано несколько методов подобия структур РНК. Одним из таких методов является, например, SETTER [41] , который разлагает каждую структуру РНК на более мелкие части, называемые общими вторичными структурными единицами (GSSU). GSSU впоследствии выравниваются, и эти частичные выравнивания объединяются в окончательное выравнивание структуры РНК и оцениваются. Метод был внедрен в веб-сервер SETTER. [42]
Недавний метод парного структурного выравнивания последовательностей РНК с низкой идентичностью последовательностей был опубликован и реализован в программе FOLDALIGN. [43] Однако этот метод не является полностью аналогичным методам структурного выравнивания белков, поскольку он вычислительно предсказывает структуры входных последовательностей РНК, а не требует экспериментально определенных структур в качестве входных данных. Хотя вычислительное предсказание процесса сворачивания белка до сих пор не было особенно успешным, структуры РНК без псевдоузлов часто можно разумно предсказать с помощью методов оценки на основе свободной энергии , которые учитывают спаривание и укладку оснований. [44]
Выбор программного инструмента для структурного выравнивания может быть сложной задачей из-за большого разнообразия доступных пакетов, которые существенно различаются по методологии и надежности. Частичное решение этой проблемы было представлено в [38] и опубликовано через веб-сервер ProCKSI. Более полный список в настоящее время доступных и свободно распространяемых программ для структурного выравнивания можно найти в программном обеспечении для структурного выравнивания .
Свойства некоторых серверов структурного выравнивания и программных пакетов обобщены и протестированы с примерами в разделе «Инструменты структурного выравнивания» на сайте Proteopedia.Org.
{{cite journal}}
: CS1 maint: несколько имен: список авторов ( ссылка ){{cite journal}}
: CS1 maint: числовые имена: список авторов ( ссылка ){{cite journal}}
: CS1 maint: несколько имен: список авторов ( ссылка )