Структурное выравнивание

Структурное выравнивание пытается установить гомологию между двумя или более полимерными структурами на основе их формы и трехмерной конформации . Этот процесс обычно применяется к третичным структурам белков , но может также использоваться для больших молекул РНК . В отличие от простой структурной суперпозиции, где известны по крайней мере некоторые эквивалентные остатки двух структур, структурное выравнивание не требует априорного знания эквивалентных положений. Структурное выравнивание является ценным инструментом для сравнения белков с низким сходством последовательностей, где эволюционные связи между белками не могут быть легко обнаружены стандартными методами выравнивания последовательностей . Поэтому структурное выравнивание может использоваться для предположения эволюционных связей между белками, которые имеют очень мало общих последовательностей. Однако следует проявлять осторожность при использовании результатов в качестве доказательства общего эволюционного происхождения из-за возможных смешивающих эффектов конвергентной эволюции, посредством которой несколько неродственных аминокислотных последовательностей сходятся в общей третичной структуре .

Структурные выравнивания могут сравнивать две последовательности или несколько последовательностей . Поскольку эти выравнивания основаны на информации о трехмерных конформациях всех запрашиваемых последовательностей, метод может быть использован только для последовательностей, где эти структуры известны. Обычно их находят с помощью рентгеновской кристаллографии или ЯМР-спектроскопии . Можно выполнить структурное выравнивание для структур, полученных методами прогнозирования структуры . Действительно, оценка таких прогнозов часто требует структурного выравнивания между моделью и истинной известной структурой для оценки качества модели. ^[1] Структурные выравнивания особенно полезны при анализе данных из структурной геномики и протеомики , и их можно использовать в качестве точек сравнения для оценки выравниваний, полученных исключительно методами биоинформатики, основанными на последовательностях . ^[2]^[3]^[4]

Выходные данные структурного выравнивания представляют собой суперпозицию наборов атомных координат и минимальное среднеквадратичное отклонение ( RMSD ) между структурами. RMSD двух выровненных структур указывает на их расхождение друг от друга. Структурное выравнивание может быть осложнено существованием нескольких доменов белка в одной или нескольких входных структурах, поскольку изменения в относительной ориентации доменов между двумя выровненными структурами могут искусственно завышать RMSD.

Данные, полученные путем структурного выравнивания

Минимальная информация, полученная в результате успешного структурного выравнивания, представляет собой набор остатков, которые считаются эквивалентными между структурами. Этот набор эквивалентностей затем обычно используется для наложения трехмерных координат для каждой входной структуры. (Обратите внимание, что один входной элемент может быть зафиксирован как ссылка, и поэтому его наложенные координаты не меняются.) Подогнанных структур можно использовать для расчета взаимных значений RMSD, а также других более сложных мер структурного сходства, таких как глобальный тест расстояния (GDT, ^[5] метрика, используемая в CASP ). Структурное выравнивание также подразумевает соответствующее одномерное выравнивание последовательностей , из которого можно рассчитать идентичность последовательностей или процент остатков, которые идентичны между входными структурами, как меру того, насколько тесно связаны две последовательности.

Типы сравнений

Поскольку структуры белков состоят из аминокислот, боковые цепи которых связаны общим белковым остовом, для получения структурного выравнивания и расчета соответствующих значений RMSD можно использовать ряд различных возможных подмножеств атомов, составляющих макромолекулу белка. При выравнивании структур с очень разными последовательностями атомы боковой цепи обычно не учитываются, поскольку их идентичность различается между многими выровненными остатками. По этой причине для методов структурного выравнивания обычно по умолчанию используются только атомы основной цепи, включенные в пептидную связь . Для простоты и эффективности часто рассматриваются только положения альфа-углерода , поскольку пептидная связь имеет минимально вариантную планарную конформацию. Только когда структуры, которые нужно выровнять, очень похожи или даже идентичны, имеет смысл выравнивать положения атомов боковой цепи, и в этом случае RMSD отражает не только конформацию основной цепи белка, но и ротамерные состояния боковых цепей. Другие критерии сравнения, которые уменьшают шум и поддерживают положительные совпадения, включают назначение вторичной структуры , карты собственных контактов или модели взаимодействия остатков, меры упаковки боковых цепей и меры сохранения водородных связей . ^[6]

Структурная суперпозиция

Самое простое возможное сравнение между белковыми структурами не делает попытки выровнять входные структуры и требует предварительно рассчитанного выравнивания в качестве входных данных для определения того, какие из остатков в последовательности должны учитываться при расчете RMSD. Структурная суперпозиция обычно используется для сравнения нескольких конформаций одного и того же белка (в этом случае выравнивание не требуется, поскольку последовательности одинаковы) и для оценки качества выравниваний, полученных с использованием только информации о последовательности между двумя или более последовательностями, структуры которых известны. Этот метод традиционно использует простой алгоритм подгонки наименьших квадратов, в котором оптимальные вращения и трансляции находятся путем минимизации суммы квадратов расстояний между всеми структурами в суперпозиции. ^[7] Совсем недавно методы максимального правдоподобия и байесовские методы значительно повысили точность предполагаемых вращений, трансляций и матриц ковариации для суперпозиции. ^[8]^[9]

Алгоритмы, основанные на многомерных вращениях и модифицированных кватернионах, были разработаны для определения топологических связей между белковыми структурами без необходимости в предопределенном выравнивании. Такие алгоритмы успешно идентифицировали канонические складки, такие как четырехспиральный пучок . ^[10] Метод SuperPose, заархивированный 2015-10-31 в Wayback Machine, достаточно расширяем для исправления относительных вращений доменов и других структурных ловушек. ^[11]

Оценка сходства

Часто целью поиска структурной суперпозиции является не столько сама суперпозиция, сколько оценка сходства двух структур или уверенность в отдаленном выравнивании. ^[1]^[2]^[3] Тонкое, но важное отличие от максимальной структурной суперпозиции заключается в преобразовании выравнивания в значимую оценку сходства. ^[12]^[13] Большинство методов выводят своего рода «оценку», указывающую качество суперпозиции. ^[5]^[14]^[15]^[12]^[13] Однако на самом деле требуется не просто оценочная «Z-оценка» или оценочное значение E случайного обнаружения наблюдаемой суперпозиции, а вместо этого требуется, чтобы оценочное значение E было тесно связано с истинным значением E. Критически важно, что даже если оценочное значение E метода в среднем точно верно , если у него отсутствует низкое стандартное отклонение в процессе генерации оценочного значения, то ранжирование относительных сходств запрашиваемого белка с набором сравнения редко будет согласовываться с «истинным» порядком. ^[12]^[13]

Различные методы будут накладывать разное количество остатков, поскольку они используют разные гарантии качества и разные определения «перекрытия»; некоторые включают только остатки, соответствующие нескольким локальным и глобальным критериям суперпозиции, а другие более жадные, гибкие и беспорядочные. Большее количество наложенных атомов может означать большее сходство, но это не всегда может давать лучшее значение E, количественно определяющее маловероятность суперпозиции, и, таким образом, не так полезно для оценки сходства, особенно в отдаленных гомологах. ^[1]^[2]^[3]^[4]

Алгоритмическая сложность

Оптимальное решение

Оптимальное « нанизывание » белковой последовательности на известную структуру и создание оптимального множественного выравнивания последовательностей, как было показано, является NP-полным . ^[16]^[17] Однако это не означает, что проблема структурного выравнивания является NP-полной. Строго говоря, оптимальное решение проблемы выравнивания структуры белка известно только для определенных мер сходства структуры белка, таких как меры, используемые в экспериментах по предсказанию структуры белка, GDT_TS ^[5] и MaxSub. ^[14] Эти меры могут быть строго оптимизированы с использованием алгоритма, способного максимизировать количество атомов в двух белках, которые могут быть наложены друг на друга при предопределенном расстоянии отсечки. ^[15] К сожалению, алгоритм для оптимального решения не является практичным, поскольку время его выполнения зависит не только от длин, но и от внутренней геометрии входных белков.

Приблизительное решение

Были разработаны приближенные полиномиальные алгоритмы для структурного выравнивания, которые производят семейство «оптимальных» решений в пределах параметра аппроксимации для заданной функции оценки. ^[15]^[18] Хотя эти алгоритмы теоретически классифицируют проблему приближенного выравнивания структуры белка как «разрешимую», они все еще вычислительно слишком дороги для крупномасштабного анализа структуры белка. Как следствие, практических алгоритмов, которые сходятся к глобальным решениям выравнивания, учитывая функцию оценки, не существует. Большинство алгоритмов, таким образом, являются эвристическими, но были разработаны алгоритмы, которые гарантируют сходимость по крайней мере к локальным максимизаторам функций оценки и являются практичными. ^[19]

Представление структур

Структуры белков должны быть представлены в некотором пространстве, независимом от координат, чтобы сделать их сопоставимыми. Обычно это достигается путем построения матрицы последовательности к последовательности или серии матриц, которые охватывают сравнительные метрики: а не абсолютные расстояния относительно фиксированного координатного пространства. Интуитивно понятным представлением является матрица расстояний , которая является двумерной матрицей, содержащей все попарные расстояния между некоторым подмножеством атомов в каждой структуре (например, альфа-углеродами ). Матрица увеличивается в размерности по мере увеличения числа структур, которые должны быть одновременно выровнены. Сведение белка к грубой метрике, такой как элементы вторичной структуры (SSE) или структурные фрагменты, также может производить разумные выравнивания, несмотря на потерю информации из-за отбрасывания расстояний, поскольку шум также отбрасывается. ^[20] Выбор представления для облегчения вычислений имеет решающее значение для разработки эффективного механизма выравнивания.

Методы

Методы структурного выравнивания использовались для сравнения отдельных структур или наборов структур, а также для создания баз данных сравнения "все-со-всеми", которые измеряют расхождение между каждой парой структур, представленных в Protein Data Bank (PDB). Такие базы данных используются для классификации белков по их сворачиванию .

ДАЛИ

Иллюстрация атом-атомных векторов, рассчитанных в SSAP. Из этих векторов будет построен ряд векторных разностей, например, между (FA) в Protein 1 и (SI) в Protein 2. Две последовательности наносятся на два измерения матрицы для формирования матрицы разностей между двумя белками. Динамическое программирование применяется ко всем возможным матрицам разностей для построения ряда оптимальных локальных путей выравнивания, которые затем суммируются для формирования суммарной матрицы, на которой выполняется второй раунд динамического программирования.

Распространенным и популярным методом структурного выравнивания является метод DALI, или Distance-matrix ALIgnment, который разбивает входные структуры на гексапептидные фрагменты и вычисляет матрицу расстояний, оценивая паттерны контактов между последовательными фрагментами. ^[21] Вторичные структурные признаки, которые включают остатки, которые являются смежными в последовательности, появляются на главной диагонали матрицы ; другие диагонали в матрице отражают пространственные контакты между остатками, которые не находятся рядом друг с другом в последовательности. Когда эти диагонали параллельны главной диагонали, признаки, которые они представляют, являются параллельными; когда они перпендикулярны, их признаки антипараллельны. Это представление требует большого объема памяти, поскольку признаки в квадратной матрице симметричны (и, следовательно, избыточны) относительно главной диагонали.

Когда матрицы расстояний двух белков имеют одинаковые или похожие признаки в приблизительно одинаковых позициях, можно сказать, что они имеют похожие складки с петлями схожей длины, соединяющими их элементы вторичной структуры. Фактический процесс выравнивания DALI требует поиска сходства после построения матриц расстояний двух белков; обычно это проводится с помощью серии перекрывающихся подматриц размером 6x6. Затем совпадения подматриц повторно собираются в окончательное выравнивание с помощью стандартного алгоритма максимизации оценок — исходная версия DALI использовала моделирование Монте-Карло для максимизации оценки структурного сходства, которая является функцией расстояний между предполагаемыми соответствующими атомами. В частности, более отдаленные атомы в соответствующих признаках экспоненциально занижаются, чтобы уменьшить влияние шума, вносимого подвижностью петель, скручиваниями спиралей и другими незначительными структурными изменениями. ^[20] Поскольку DALI опирается на матрицу расстояний «все ко всем», она может учитывать возможность того, что структурно выровненные признаки могут появляться в разных порядках в двух сравниваемых последовательностях.

Метод DALI также использовался для построения базы данных, известной как FSSP (классификация складки на основе выравнивания структуры-структуры белков или семейств структурно подобных белков), в которой все известные структуры белков выравниваются друг с другом для определения их структурных соседей и классификации складки. Существует поисковая база данных на основе DALI, а также загружаемая программа и веб-поиск на основе автономной версии, известной как DaliLite.

Комбинаторное расширение

Метод комбинаторного расширения (CE) похож на DALI в том, что он также разбивает каждую структуру в наборе запроса на ряд фрагментов, которые затем пытается собрать заново в полное выравнивание. Ряд парных комбинаций фрагментов, называемых парами выровненных фрагментов, или AFP, используются для определения матрицы подобия, с помощью которой генерируется оптимальный путь для определения окончательного выравнивания. Только AFP, которые соответствуют заданным критериям локального подобия, включаются в матрицу в качестве средства сокращения необходимого пространства поиска и, таким образом, повышения эффективности. ^[22] Возможен ряд метрик подобия; первоначальное определение метода CE включало только структурные суперпозиции и расстояния между остатками, но с тех пор было расширено для включения локальных свойств окружающей среды, таких как вторичная структура, воздействие растворителя, модели водородных связей и двугранные углы . ^[22]

Путь выравнивания вычисляется как оптимальный путь через матрицу сходства путем линейного продвижения по последовательностям и расширения выравнивания следующей возможной парой AFP с высокой оценкой. Начальная пара AFP, которая зарождает выравнивание, может находиться в любой точке матрицы последовательности. Затем расширения продолжаются со следующим AFP, который соответствует заданным критериям расстояния, ограничивая выравнивание малыми размерами зазоров. Размер каждого AFP и максимальный размер зазора являются требуемыми входными параметрами, но обычно устанавливаются на эмпирически определенные значения 8 и 30 соответственно. ^[22] Подобно DALI и SSAP, CE использовался для построения базы данных классификации складок «все ко всем». Архивировано 03.12.1998 в Wayback Machine из известных структур белков в PDB.

Недавно RCSB PDB выпустила обновленную версию CE, Mammoth и FATCAT как часть инструмента сравнения белков RCSB PDB. Он предоставляет новую вариацию CE, которая может обнаруживать циклические перестановки в структурах белков. ^[23]

Мамонт

MAMMOTH ^[12] подходит к проблеме выравнивания с другой цели, чем почти все другие методы. Вместо того, чтобы пытаться найти выравнивание, которое максимально накладывает наибольшее количество остатков, он ищет подмножество структурного выравнивания, которое с наименьшей вероятностью произойдет случайно. Для этого он отмечает локальное выравнивание мотива флагами, чтобы указать, какие остатки одновременно удовлетворяют более строгим критериям: 1) локальное перекрытие структур 2) регулярная вторичная структура 3) 3D-суперпозиция 4) одинаковый порядок в первичной последовательности. Он преобразует статистику количества остатков с высоконадежными совпадениями и размер белка, чтобы вычислить ожидаемое значение для результата случайно. Он отлично подходит для сопоставления удаленных гомологов, в частности структур, сгенерированных ab initio предсказанием структуры, с такими семействами структур, как SCOP, потому что он подчеркивает извлечение статистически надежного суб-выравнивания, а не достижение максимального выравнивания последовательностей или максимальной 3D-суперпозиции. ^[2]^[3]

Для каждого перекрывающегося окна из 7 последовательных остатков он вычисляет набор векторов направления смещения между соседними остатками C-альфа. Локальные мотивы «все против всех» сравниваются на основе оценки URMS. Эти значения становятся записями оценки парного выравнивания для динамического программирования, которое производит выравнивание остатков попарно. Вторая фаза использует модифицированный алгоритм MaxSub: одна выровненная пара из 7 остатков в каждом белке используется для ориентации двух полноразмерных структур белка для максимального наложения этих только этих 7 C-альфа, затем в этой ориентации он сканирует любые дополнительные выровненные пары, которые близки в 3D. Он переориентирует структуры для наложения этого расширенного набора и повторяет до тех пор, пока больше не останется пар, совпадающих в 3D. Этот процесс перезапускается для каждого окна из 7 остатков в выравнивании затравки. Выходными данными является максимальное количество атомов, найденных из любого из этих начальных семян. Эта статистика преобразуется в калиброванное значение E для сходства белков.

Mammoth не пытается повторно итерировать начальное выравнивание или расширять высококачественное подподмножество. Поэтому отображаемое им начальное выравнивание нельзя справедливо сравнивать с DALI или TM-выравниванием, поскольку оно было сформировано просто как эвристика для сокращения пространства поиска. (Его можно использовать, если требуется выравнивание, основанное исключительно на локальном сходстве мотивов структуры, независимом от дальнего атомного выравнивания твердого тела.) Из-за той же экономии он более чем в десять раз быстрее DALI, CE и TM-align. ^[24] Его часто используют в сочетании с этими более медленными инструментами для предварительного скрининга больших баз данных с целью извлечения только лучших структур, связанных со значением E, для более исчерпывающей суперпозиции или дорогостоящих вычислений. ^[25]^[26]

Он был особенно успешен в анализе структур-приманок из предсказания структуры ab initio. ^[1]^[2]^[3] Эти приманки печально известны тем, что правильно определяют структуру мотива локального фрагмента и формируют некоторые ядра правильной 3D-третичной структуры, но неправильно определяют третичную структуру полной длины. В этом режиме сумеречной удаленной гомологии было показано , что e-значения Mammoth для оценки предсказания структуры белка CASP ^{[1] значительно больше коррелируют с человеческим ранжированием, чем SSAP или DALI.}^[12] Способность Mammoth извлекать многокритериальные частичные перекрытия с белками известной структуры и ранжировать их с правильными E-значениями в сочетании с его скоростью облегчает сканирование огромного количества моделей-приманок по базе данных PDB для идентификации наиболее вероятных правильных приманок на основе их удаленной гомологии с известными белками. ^[2]

ССАП

Метод SSAP (Sequential Structure Alignment Program) использует двойное динамическое программирование для создания структурного выравнивания на основе атом-атомных векторов в структурном пространстве. Вместо альфа-углеродов, обычно используемых в структурном выравнивании, SSAP строит свои векторы из бета-углеродов для всех остатков, кроме глицина, метод, который таким образом учитывает ротамерное состояние каждого остатка, а также его расположение вдоль основной цепи. SSAP работает, сначала строя ряд векторов расстояний между остатками между каждым остатком и его ближайшими несмежными соседями на каждом белке. Затем строится ряд матриц, содержащих векторные различия между соседями для каждой пары остатков, для которых были построены векторы. Динамическое программирование, примененное к каждой результирующей матрице, определяет ряд оптимальных локальных выравниваний, которые затем суммируются в «сводную» матрицу, к которой снова применяется динамическое программирование для определения общего структурного выравнивания.

Первоначально SSAP производил только парные выравнивания, но с тех пор был расширен и до множественных выравниваний. ^[27] Он был применен в режиме «все ко всем» для создания иерархической схемы классификации складок, известной как CATH (класс, архитектура, топология, гомология), ^[28] которая была использована для создания базы данных классификации структур белков CATH.

Последние события

Улучшения в методах структурного выравнивания представляют собой активную область исследований, и часто предлагаются новые или модифицированные методы, которые, как утверждается, предлагают преимущества по сравнению со старыми и более широко распространенными методами. Недавний пример, TM-align, использует новый метод для взвешивания своей матрицы расстояний, к которой затем применяется стандартное динамическое программирование . ^[29]^[13] Взвешивание предлагается для ускорения сходимости динамического программирования и исправления эффектов, возникающих из-за длин выравнивания. В сравнительном исследовании было сообщено, что TM-align улучшает как скорость, так и точность по сравнению с DALI и CE. ^[29]

Другие перспективные методы структурного выравнивания — это методы локального структурного выравнивания. Они обеспечивают сравнение предварительно выбранных частей белков (например, сайтов связывания, определенных пользователем структурных мотивов) ^[30]^[31]^[32] с сайтами связывания или структурными базами данных целых белков. Серверы MultiBind и MAPPIS ^[32]^[33] позволяют идентифицировать общие пространственные расположения физико-химических свойств, таких как донор водородной связи, акцептор, алифатический, ароматический или гидрофобный, в наборе предоставленных пользователем сайтов связывания белков, определенных взаимодействиями с малыми молекулами (MultiBind) или в наборе предоставленных пользователем интерфейсов белок-белок (MAPPIS). Другие обеспечивают сравнение целых структур белков ^[34] с рядом представленных пользователем структур или с большой базой данных структур белков за разумное время ( ProBiS ^[35] ). В отличие от подходов глобального выравнивания, подходы локального структурного выравнивания подходят для обнаружения локально консервативных паттернов функциональных групп, которые часто появляются в сайтах связывания и играют важную роль в связывании лигандов. ^[33] В качестве примера, сравнивая G-Losa, ^[36] инструмент локального выравнивания структуры, с TM-align, методом глобального выравнивания структуры. Хотя G-Losa предсказывает позиции лигандов, подобных лекарственным препаратам, в одноцепочечных белковых мишенях точнее, чем TM-align, общий показатель успешности TM-align лучше. ^[37]

Однако, поскольку алгоритмические усовершенствования и производительность компьютеров устранили чисто технические недостатки старых подходов, стало ясно, что не существует единого универсального критерия для «оптимального» структурного выравнивания. Например, TM-align особенно надежен в количественной оценке сравнений между наборами белков с большими различиями в длинах последовательностей, но он лишь косвенно фиксирует водородные связи или сохранение порядка вторичной структуры, которые могут быть лучшими метриками для выравнивания эволюционно связанных белков. Таким образом, недавние разработки были сосредоточены на оптимизации определенных атрибутов, таких как скорость, количественная оценка оценок, корреляция с альтернативными золотыми стандартами или толерантность к несовершенству структурных данных или структурных моделей ab initio. Альтернативная методология, которая набирает популярность, заключается в использовании консенсуса различных методов для установления структурного сходства белков. ^[38]

Структурное выравнивание РНК

Методы структурного выравнивания традиционно применялись исключительно к белкам, как к первичным биологическим макромолекулам , которые принимают характерные трехмерные структуры. Однако большие молекулы РНК также образуют характерные третичные структуры , которые опосредованы в первую очередь водородными связями, образованными между парами оснований , а также укладкой оснований . Функционально схожие некодирующие молекулы РНК могут быть особенно трудны для извлечения из геномных данных, поскольку структура более сильно консервативна, чем последовательность в РНК, а также в белках, ^[40] и более ограниченный алфавит РНК снижает информационное содержание любого заданного нуклеотида в любой заданной позиции.

Однако из-за растущего интереса к структурам РНК и из-за роста числа экспериментально определенных трехмерных структур РНК в последнее время было разработано несколько методов подобия структур РНК. Одним из таких методов является, например, SETTER ^[41] , который разлагает каждую структуру РНК на более мелкие части, называемые общими вторичными структурными единицами (GSSU). GSSU впоследствии выравниваются, и эти частичные выравнивания объединяются в окончательное выравнивание структуры РНК и оцениваются. Метод был реализован в веб-сервере SETTER. ^[42]

Недавний метод парного структурного выравнивания последовательностей РНК с низкой идентичностью последовательностей был опубликован и реализован в программе FOLDALIGN. ^[43] Однако этот метод не является полностью аналогичным методам структурного выравнивания белков, поскольку он вычислительно предсказывает структуры входных последовательностей РНК, а не требует экспериментально определенных структур в качестве входных данных. Хотя вычислительное предсказание процесса сворачивания белка до сих пор не было особенно успешным, структуры РНК без псевдоузлов часто можно разумно предсказать с помощью методов оценки на основе свободной энергии , которые учитывают спаривание и укладку оснований. ^[44]

Программное обеспечение

Выбор программного инструмента для структурного выравнивания может быть сложной задачей из-за большого разнообразия доступных пакетов, которые существенно различаются по методологии и надежности. Частичное решение этой проблемы было представлено в ^[38] и опубликовано через веб-сервер ProCKSI. Более полный список в настоящее время доступных и свободно распространяемых программ для структурного выравнивания можно найти в программном обеспечении для структурного выравнивания .

Свойства некоторых серверов структурного выравнивания и программных пакетов обобщены и протестированы с примерами в разделе «Инструменты структурного выравнивания» на сайте Proteopedia.Org.

Смотрите также

Ссылки

^ abcde Криштафович А, Монастырский Б, Фиделис К (2016). "Статистика CASP11 и система оценки центра прогнозирования. \". Белки . 84 (Приложение 1): (Приложение 1):15–19. doi : 10.1002/prot.25005 . PMC 5479680 . PMID 26857434.
^ abcdef Ларс Мальмстрём Майкл Риффл; Чарли Э. М. Штраус; Дилан Чивиан; Триша Н. Дэвис; Ричард Бонно; Дэвид Бейкер (2007). "Назначение суперсемейств для дрожжевого протеома посредством интеграции предсказания структуры с онтологией генов". PLOS Biol . 5 (4): e76соответствующий автор1, 2. doi : 10.1371/journal.pbio.0050076 . PMC 1828141. PMID 17373854 .
^ abcde Дэвид Э. Ким; Дилан Чивиан; Дэвид Бейкер (2004). «Прогнозирование и анализ структуры белка с использованием сервера Robetta». Nucleic Acids Research . 32 (выпуск веб-сервера): W526–W531 (выпуск веб-сервера): W526–W531. doi : 10.1093/nar/gkh468 . PMC 441606 . PMID 15215442.
^ ab Zhang Y, Skolnick J (2005). «Проблема предсказания структуры белка может быть решена с использованием текущей библиотеки PDB». Proc Natl Acad Sci USA . 102 (4): 1029–34. Bibcode :2005PNAS..102.1029Z. doi : 10.1073/pnas.0407152101 . PMC 545829 . PMID 15653774.
^ abc Zemla A. (2003). "LGA — метод поиска трехмерных сходств в белковых структурах". Nucleic Acids Research . 31 (13): 3370–3374. doi :10.1093/nar/gkg571. PMC 168977. PMID 12824330 .
^ Годзик А. (1996). «Структурное выравнивание двух белков: есть ли уникальный ответ?». Protein Science . 5 (7): 1325–38. doi :10.1002/pro.5560050711. PMC 2143456. PMID 8819165 .
^ Мартин АКР (1982). «Быстрое сравнение структур белков». Acta Crystallogr A. 38 ( 6): 871–873. Bibcode : 1982AcCrA..38..871M. doi : 10.1107/S0567739482001806.
^ Theobald DL, Wuttke DS (2006). "Эмпирические байесовские иерархические модели для регуляризации оценки максимального правдоподобия в матричной гауссовой задаче Прокруста". Труды Национальной академии наук . 103 (49): 18521–18527. Bibcode : 2006PNAS..10318521T. doi : 10.1073 /pnas.0508445103 . PMC 1664551. PMID 17130458.
^ Theobald DL, Wuttke DS (2006). "THESEUS: Максимально правдоподобное суперпозиционирование и анализ макромолекулярных структур". Биоинформатика . 22 (17): 2171–2172. doi :10.1093/bioinformatics/btl332. PMC 2584349. PMID 16777907 .
^ Дидерихс К. (1995). «Структурная суперпозиция белков с неизвестным выравниванием и обнаружение топологического сходства с использованием шестимерного алгоритма поиска». Белки . 23 (2): 187–95. doi :10.1002/prot.340230208. PMID 8592700. S2CID 3469775.
^ Maiti R, Van Domselaar GH, Zhang H, Wishart DS (2004). «SuperPose: простой сервер для сложной структурной суперпозиции». Nucleic Acids Res . 32 (выпуск веб-сервера): W590–4. doi :10.1093/nar/gkh477. PMC 441615. PMID 15215457 .
^ abcde Ortiz, AR; Strauss CE; Olmea O. (2002). "MAMMOTH (соответствие молекулярных моделей, полученных из теории): автоматизированный метод сравнения моделей". Protein Science . 11 (11): 2606–2621. doi : 10.1110/ps.0215902 . PMC 2373724 . PMID 12381844.
^ abcd Zhang Y, Skolnick J (2004). "Функция оценки для автоматизированной оценки качества шаблона структуры белка". Белки . 57 (4): 702–710. doi :10.1002/prot.20264. PMID 15476259. S2CID 7954787.
^ ab Siew N, Elofsson A, Rychlewsk L, Fischer D (2000). "MaxSub: автоматизированная мера для оценки качества предсказания структуры белка". Биоинформатика . 16 (9): 776–85. doi : 10.1093/bioinformatics/16.9.776 . PMID 11108700.
^ abc Poleksic A (2009). «Алгоритмы оптимального выравнивания структуры белка». Биоинформатика . 25 (21): 2751–2756. doi : 10.1093/bioinformatics/btp530 . PMID 19734152.
^ Lathrop RH. (1994). «Проблема белковой нити с предпочтениями взаимодействия аминокислот последовательности является NP-полной». Protein Eng . 7 (9): 1059–68. CiteSeerX 10.1.1.367.9081 . doi :10.1093/protein/7.9.1059. PMID 7831276.
^ Ван Л., Цзян Т. (1994). «О сложности множественного выравнивания последовательностей». Журнал вычислительной биологии . 1 (4): 337–48. CiteSeerX 10.1.1.408.894 . doi :10.1089/cmb.1994.1.337. PMID 8790475.
^ Колодный Р., Линиал Н. (2004). «Приблизительное структурное выравнивание белков за полиномиальное время». PNAS . 101 (33): 12201–12206. doi : 10.1073 /pnas.0404383101 . PMC 514457. PMID 15304646.
^ Мартинес Л., Андреани Р., Мартинес Дж. М. (2007). «Конвергентные алгоритмы структурного выравнивания белков». BMC Bioinformatics . 8 : 306. doi : 10.1186/1471-2105-8-306 . PMC 1995224 . PMID 17714583. {{cite journal}}: CS1 maint: несколько имен: список авторов ( ссылка )
^ ab Mount DM. (2004). Биоинформатика: Анализ последовательностей и генома 2-е изд. Cold Spring Harbor Laboratory Press: Cold Spring Harbor, NY ISBN 0879697121
^ Холм Л., Сандер К. (1996). «Картографирование вселенной белков». Science . 273 (5275): 595–603. Bibcode :1996Sci...273..595H. doi :10.1126/science.273.5275.595. PMID 8662544. S2CID 7509134.
^ abc Шиндялов, IN; Bourne PE (1998). "Выравнивание структуры белка путем инкрементального комбинаторного расширения (CE) оптимального пути". Protein Engineering . 11 (9): 739–747. doi : 10.1093/protein/11.9.739 . PMID 9796821.
^ Prlic A, Bliven S, Rose PW, Bluhm WF, Bizon C, Godzik A, Bourne PE (2010). «Предварительно рассчитанные выравнивания структур белков на сайте RCSB PDB». Биоинформатика . 26 (23): 2983–2985. doi :10.1093/bioinformatics/btq572. PMC 3003546. PMID 20937596 .
^ Pin-Hao Chi; Bin Pang; Дмитрий Коркин; Chi-Ren Shyu (2009). «Эффективная классификация и поиск SCOP-fold с использованием индексных выравниваний белковых субструктур». Биоинформатика . 25 (19): 2559–2565. doi : 10.1093/bioinformatics/btp474 . PMID 19667079.
^ Сара Чик; Юань Ци; Шри Кришна; Лиза Н. Кинч; Ник В. Гришин (2004). "SCOPmap: Автоматизированное назначение структур белков эволюционным суперсемействам". BMC Bioinformatics . 5 (197): 197. doi : 10.1186/1471-2105-5-197 . PMC 544345. PMID 15598351 .
^ Кай Ванг; Рам Самудрала (2005). «FSSA: новый метод идентификации функциональных сигнатур из структурных выравниваний». Биоинформатика . 21 (13): 2969–2977. doi : 10.1093/bioinformatics/bti471 . PMID 15860561.
^ Taylor WR, Flores TP, Orengo CA (1994). «Множественное выравнивание структуры белка». Protein Sci . 3 (10): 1858–70. doi :10.1002/pro.5560031025. PMC 2142613. PMID 7849601 .
^ Orengo CA, Michie AD, Jones S, Jones DT, Swindells MB, Thornton JM (1997). "CATH: Иерархическая классификация структур доменов белков". Structure . 5 (8): 1093–1108. doi : 10.1016/S0969-2126(97)00260-8 . PMID 9309224.
^ ab Zhang Y, Skolnick J (2005). "TM-align: алгоритм выравнивания структуры белка на основе TM-score". Nucleic Acids Research . 33 (7): 2302–2309. doi :10.1093/nar/gki524. PMC 1084323. PMID 15849316 .
^ Стефано Ангаран; Мэри Эллен Бок ; Клаудио Гарутти; Кончеттина Гуэрра1 (2009). «MolLoc: веб-инструмент для локального структурного выравнивания молекулярных поверхностей». Nucleic Acids Research . 37 (выпуск веб-сервера): W565–70. doi :10.1093/nar/gkp405. PMC 2703929. PMID 19465382 . {{cite journal}}: CS1 maint: числовые имена: список авторов ( ссылка )
^ Gaëlle Debret; Arnaud Martel; Philippe Cuniasse (2009). "RASMOT-3D PRO: веб-сервер поиска 3D-мотивов". Nucleic Acids Research . 37 (выпуск веб-сервера): W459–64. doi :10.1093/nar/gkp304. PMC 2703991. PMID 19417073 .
^ ab Александра Шульман-Пелег; Максим Шатский; Рут Нуссинов; Хаим Дж. Вольфсон (2008). «MultiBind и MAPPIS: веб-серверы для множественного выравнивания участков связывания белков 3D и их взаимодействия». Nucleic Acids Research . 36 (выпуск веб-сервера): W260–4. doi :10.1093/nar/gkn185. PMC 2447750. PMID 18467424 .
^ ab Александра Шульман-Пелег; Максим Шатский; Рут Нуссинов; Хаим Дж. Вольфсон (2007). "Пространственная химическая консервация взаимодействий горячих точек в белок-белковых комплексах". BMC Biology . 5 (43): 43. doi : 10.1186/1741-7007-5-43 . PMC 2231411 . PMID 17925020.
^ Габриэле Аусиелло; Пьер Федерико Герардини; Паоло Маркатили; Анна Трамонтано; Аллегра Виа; Мануэла Хельмер-Циттерих (2008). «FunClust: веб-сервер для идентификации структурных мотивов в наборе негомологичных белковых структур». BMC Biology . 9 (Suppl 2): S2. doi : 10.1186/1471-2105-9-S2-S2 . PMC 2323665. PMID 18387204 .
^ Янез Конц; Душанка Янежич (2010). «Алгоритм ProBiS для обнаружения структурно схожих участков связывания белков путем локального структурного выравнивания». Биоинформатика . 26 (9): 1160–1168. doi :10.1093/bioinformatics/btq100. PMC 2859123. PMID 20305268 .
^ Хуэй Сан Ли; Вонпиль Им (2012). «Идентификация шаблонов лигандов с использованием локального структурного выравнивания для разработки лекарственных препаратов на основе структуры». Журнал химической информации и моделирования . 52 (10): 2784–2795. doi :10.1021/ci300178e. PMC 3478504. PMID 22978550 .
^ Хуэй Сан Ли; Вонпиль Им (2013). «Обнаружение места связывания лиганда с помощью локального выравнивания структуры и его производительность комплементарности». Журнал химической информации и моделирования . 53 (9): 2462–2470. doi :10.1021/ci4003602. PMC 3821077. PMID 23957286 .
^ ab Barthel D., Hirst JD, Blazewicz J., Burke EK и Krasnogor N. (2007). "ProCKSI: система поддержки принятия решений для сравнения (структуры) белков, знаний, сходства и информации". BMC Bioinformatics . 8 : 416. doi : 10.1186/1471-2105-8-416 . PMC 2222653 . PMID 17963510. {{cite journal}}: CS1 maint: несколько имен: список авторов ( ссылка )
^ Sippl, M.; Wiederstein, M. (2012). «Обнаружение пространственных корреляций в белковых структурах и молекулярных комплексах». Structure . 20 (4): 718–728. doi :10.1016/j.str.2012.01.024. PMC 3320710 . PMID 22483118.
^ Torarinsson E, Sawera M, Havgaard JH, Fredholm M, Gorodkin J (2006). «Тысячи соответствующих человеческих и мышиных геномных регионов, невыровненных в первичной последовательности, содержат общую структуру РНК». Genome Res . 16 (7): 885–9. doi :10.1101/gr.5226606. PMC 1484455. PMID 16751343 .
^ Хокша Д., Свозил Д. (2012). «Эффективное сравнение парных структур РНК методом SETTER». Биоинформатика . 28 (14): 1858–1864. doi : 10.1093/bioinformatics/bts301 . PMID 22611129.
^ Cech P, Svozil D, Hoksza D (2012). "SETTER: веб-сервер для сравнения структур РНК". Nucleic Acids Research . 40 (W1): W42–W48. doi : 10.1093/nar/gks560. PMC 3394248. PMID 22693209.
^ Havgaard JH, Lyngso RB, Stormo GD, Gorodkin J (2005). «Парное локальное структурное выравнивание последовательностей РНК со сходством последовательностей менее 40%». Биоинформатика . 21 (9): 1815–24. doi : 10.1093/bioinformatics/bti279 . PMID 15657094.
^ Mathews DH, Turner DH (2006). «Предсказание вторичной структуры РНК путем минимизации свободной энергии». Curr Opin Struct Biol . 16 (3): 270–8. doi :10.1016/j.sbi.2006.05.010. PMID 16713706.

Дальнейшее чтение

Bourne PE, Shindyalov IN. (2003): Structure Comparison and Alignment . В: Bourne, PE, Weissig, H. (Eds): Structural Bioinformatics . Hoboken NJ: Wiley-Liss. ISBN 0-471-20200-2
Юань X, Быстрофф C. (2004) «Непоследовательные структурно-ориентированные выравнивания выявляют топологически-независимые основные упаковочные схемы в белках», Биоинформатика . 5 ноября 2004 г.
Jung J, Lee B (2000). «Выравнивание структуры белка с использованием экологических профилей». Protein Eng . 13 (8): 535–543. doi : 10.1093/protein/13.8.535 . PMID 10964982.
Ye Y, Godzik A (2005). «Множественное гибкое выравнивание структур с использованием графов частичного порядка». Биоинформатика . 21 (10): 2362–2369. doi : 10.1093/bioinformatics/bti353 . PMID 15746292.
Sippl M, Wiederstein M (2008). «Заметка о сложных проблемах выравнивания структур». Биоинформатика . 24 (3): 426–427. doi : 10.1093/bioinformatics/btm622 . PMID 18174182.