В биологии мотив последовательности представляет собой образец последовательности нуклеотидов или аминокислот , который широко распространен и обычно считается связанным с биологической функцией макромолекулы. Например, мотив сайта N -гликозилирования может быть определен как Asn, за которым следует что-либо, кроме Pro, за которым следует либо Ser, либо Thr, за которым следует что-либо, кроме остатка Pro .
Когда мотив последовательности появляется в экзоне гена , он может кодировать « структурный мотив » белка ; это стереотипный элемент общей структуры белка. Тем не менее, мотивы не обязательно должны быть связаны с отчетливой вторичной структурой . « Некодирующие » последовательности не транслируются в белки, и нуклеиновые кислоты с такими мотивами не должны отклоняться от типичной формы (например, двойной спирали ДНК «В-формы» ).
Помимо экзонов гена, существуют мотивы регуляторных последовательностей и мотивы внутри « мусора », такого как сателлитная ДНК . Считается, что некоторые из них влияют на форму нуклеиновых кислот [1] (см., например, самосплайсинг РНК ), но это происходит лишь иногда. Например, многие ДНК-связывающие белки , обладающие сродством к определенным сайтам связывания ДНК, связывают ДНК только в ее двойной спиральной форме. Они способны распознавать мотивы при контакте с большой или малой бороздкой двойной спирали.
Короткие кодирующие мотивы, которые, по-видимому, лишены вторичной структуры, включают те, которые маркируют белки для доставки в определенные части клетки или маркируют их для фосфорилирования .
Внутри последовательности или базы данных последовательностей исследователи ищут и находят мотивы, используя компьютерные методы анализа последовательностей , такие как BLAST . Такие методы относятся к дисциплине биоинформатики . См. также консенсусную последовательность .
Рассмотрим упомянутый выше мотив сайта N -гликозилирования:
Этот шаблон можно записать так: N{P}[ST]{P}
где N
= Asn, P
= Pro, S
= Ser, T
= Thr; {X}
означает любую аминокислоту, кроме X
; и [XY]
означает либо X
или Y
.
Обозначения [XY]
не дают никаких указаний на вероятность X
появления Y
шаблона. Наблюдаемые вероятности могут быть графически представлены с помощью логотипов последовательностей . Иногда закономерности определяются в терминах вероятностной модели, например скрытой модели Маркова .
Обозначение [XYZ]
означает X
или Y
или Z
, но не указывает на вероятность какого-либо конкретного совпадения. По этой причине два или более узоров часто связаны с одним мотивом: определяющим узором и различными типичными узорами.
Например, определяющей последовательностью мотива IQ можно считать:
[FILV]Qxxx[RK]Gxxx[RK]xx[FILVWY]
где x
означает любую аминокислоту, а квадратные скобки указывают альтернативу (более подробную информацию об обозначениях см. ниже).
Однако обычно первая буква — I
, и оба [RK]
варианта приводят к R
. Поскольку последний выбор настолько широк, паттерн IQxxxRGxxxR
иногда приравнивают к самому мотиву IQ, но более точным описанием была бы консенсусная последовательность мотива IQ .
Используется несколько обозначений для описания мотивов, но большинство из них являются вариантами стандартных обозначений регулярных выражений и используют следующие соглашения:
[abc]
соответствует любой аминокислоте, представленной a
или b
или c
.Фундаментальной идеей всех этих обозначений является принцип соответствия, который придает значение последовательности элементов обозначения шаблона:
Таким образом, образец [AB] [CDE] F
соответствует шести аминокислотным последовательностям, соответствующим ACF
, ADF
, AEF
, BCF
, BDF
и BEF
.
Различные нотации описания шаблона имеют другие способы формирования элементов шаблона. Одной из таких нотаций является нотация PROSITE, описанная в следующем подразделе.
В нотации PROSITE используются однобуквенные коды ИЮПАК-
и соответствует приведенному выше описанию, за исключением того, что между элементами шаблона используется символ конкатенации, но он часто опускается между буквами алфавита шаблона.
PROSITE допускает следующие элементы шаблона в дополнение к описанным ранее:
x
» может использоваться в качестве элемента шаблона для обозначения любой аминокислоты.{ST}
обозначает любую аминокислоту, кроме S
или T
.<
'.>
».>
' также может встречаться внутри завершающих квадратных скобок, что S[T>]
соответствует как " ST
", так и " S>
".e
это элемент шаблона и m
и n
являются двумя десятичными целыми числами с m
<= n
, то:e(m)
эквивалентно повторению e
ровно m
раз;e(m,n)
эквивалентно повторению e
ровно k
раз для любого целого числа k
, удовлетворяющего: m
<= k
<= n
.Некоторые примеры:
x(3)
эквивалентно x-x-x
.x(2,4)
соответствует любой последовательности, которая соответствует x-x
или x-x-x
или x-x-x-x
.Сигнатура домена цинкового пальца типа C2H2 :
C-x(2,4)-C-x(3)-[LIVMFYWC]-x(8)-H-x(3,5)-H
Матрица чисел, содержащая оценки для каждого остатка или нуклеотида в каждом положении мотива фиксированной длины. Существует два типа весовых матриц.
Пример ПФМ из базы данных TRANSFAC для транскрипционного фактора AP-1:
Первый столбец указывает позицию, второй столбец содержит количество вхождений A в этой позиции, третий столбец содержит количество вхождений C в этой позиции, четвертый столбец содержит количество вхождений G в этой позиции, пятый столбец содержит количество вхождений T в этой позиции, а последний столбец содержит обозначение IUPAC для этой позиции. Обратите внимание, что суммы вхождений для A, C, G и T для каждой строки должны быть равны, поскольку PFM получается путем агрегирования нескольких консенсусных последовательностей.
Процесс обнаружения мотивов последовательности хорошо развит с 1990-х годов. В частности, большая часть существующих исследований по обнаружению мотивов сосредоточена на мотивах ДНК. С развитием высокопроизводительного секвенирования такие проблемы обнаружения мотивов усложняются как проблемами вырождения шаблонов последовательностей, так и проблемами масштабируемости вычислений с интенсивным использованием данных.
Процесс открытия
Открытие мотива происходит в три основных этапа. Этап предварительной обработки, на котором последовательности тщательно подготавливаются на этапах сборки и очистки. Сборка включает в себя выбор последовательностей, которые содержат нужный мотив в больших количествах, и извлечение нежелательных последовательностей с помощью кластеризации. Очистка обеспечивает удаление любых мешающих элементов. Далее следует этап открытия. На этом этапе последовательности представляются с использованием согласованных строк или весовых матриц для конкретной позиции (PWM ). После представления мотива выбирается целевая функция и применяется подходящий алгоритм поиска для обнаружения мотивов. Наконец, этап постобработки включает в себя оценку обнаруженных мотивов. [2]
Существуют программы, которые при наличии нескольких входных последовательностей пытаются идентифицировать один или несколько мотивов-кандидатов. Одним из примеров является алгоритм Multiple EM для выявления мотивов (MEME), который генерирует статистическую информацию для каждого кандидата. [3] Существует более 100 публикаций, подробно описывающих алгоритмы обнаружения мотивов; Вейраух и др . оценила множество связанных алгоритмов в тесте 2013 года. [4] Поиск посаженных мотивов — это еще один метод обнаружения мотивов, основанный на комбинаторном подходе.
Мотивы также были обнаружены с помощью филогенетического подхода и изучения сходных генов у разных видов. Например, выравнивая аминокислотные последовательности, определенные геном GCM ( отсутствие глиальных клеток ) у человека, мыши и D. melanogaster , Акияма и другие обнаружили закономерность, которую они назвали мотивом GCM в 1996 году . [5] Он охватывает около 150 аминокислотных остатков и начинается следующим образом:
WDIND*.*P..*...D.F.*W***.**.IYS**...A.*H*S*WAMRNTNNHN
Здесь каждый .
означает одну аминокислоту или пробел, и каждый *
указывает на одного члена близкородственного семейства аминокислот. Авторам удалось показать, что мотив обладает ДНК-связывающей активностью.
Подобный подход обычно используется в современных базах данных белковых доменов, таких как Pfam : кураторы-люди выбирают пул последовательностей, о которых известно, что они связаны, и используют компьютерные программы для их выравнивания и создания профиля мотива (Pfam использует HMM , которые можно использовать для идентификации другие родственные белки. [6] Филогенетический подход также может быть использован для улучшения алгоритма MEME de novo , примером может служить PhyloGibbs. [7]
В 2017 году MotifHyades был разработан как инструмент обнаружения мотивов, который можно напрямую применять к парным последовательностям. [8]
В 2018 году был предложен подход марковского случайного поля для вывода мотивов ДНК из ДНК-связывающих доменов белков. [9]
Алгоритмы обнаружения мотивов
Алгоритмы обнаружения мотивов используют различные стратегии для выявления закономерностей в последовательностях ДНК. Интеграция перечислительных, вероятностных и природных подходов демонстрирует их адаптивность, а использование нескольких методов оказывается эффективным в повышении точности идентификации.
Перечислительный подход: [2]
Начиная поиск мотивов, перечислительный подход свидетельствует о том, что алгоритмы тщательно генерируют и оценивают потенциальные мотивы. Пионерами в этой области являются методы простого перечисления слов, такие как YMF и DREME, которые систематически перебирают последовательность в поисках коротких мотивов. В дополнение к этому методы на основе кластеризации, такие как CisFinder, используют матрицы нуклеотидных замен для кластеризации мотивов, эффективно уменьшая избыточность. Одновременно древовидные методы, такие как Weeder и FMotif, используют древовидные структуры, а методы, основанные на теории графов (например, WINNOWER), используют представления графов, демонстрируя богатство стратегий перечисления.
Вероятностный подход: [2]
Выходя в вероятностную сферу, этот подход использует вероятностные модели для распознавания мотивов внутри последовательностей. MEME, детерминированный образец, использует максимизацию ожидания для оптимизации позиционно-весовых матриц (PWM) и раскрытия консервативных областей в невыровненных последовательностях ДНК. В отличие от этого, стохастические методологии, такие как выборка Гиббса, инициируют обнаружение мотивов со случайным назначением позиций мотивов, итеративно уточняя прогнозы. Эта вероятностная модель умело отражает присущую неопределенность, связанную с обнаружением мотивов.
Расширенный подход: [2]
В дальнейшем, расширенное обнаружение мотивов включает в себя сложные методы, при этом центральное место занимает байесовское моделирование [10] . LOGOS и BaMM, иллюстрирующие эту группу, сложным образом вплетают в свою ткань байесовские подходы и марковские модели для идентификации мотивов. Включение методов байесовской кластеризации расширяет вероятностную основу, обеспечивая целостную основу для распознавания образов в последовательностях ДНК.
Вдохновленные природой и эвристические алгоритмы: [2]
Выделяется отдельная категория, в которой алгоритмы черпают вдохновение из биологической сферы. Генетические алгоритмы (ГА) , представленные FMGA и MDGA, [11] осуществляют поиск мотивов с помощью генетических операторов и специализированных стратегий. Используя принципы роевого интеллекта, алгоритмы оптимизации роя частиц (PSO) , искусственных пчелиных колоний (ABC) и алгоритмы поиска кукушки (CS) , представленные в GAEM, GARP и MACS, мы приступаем к исследованиям на основе феромонов. Эти алгоритмы, отражающие приспособляемость природы и динамику сотрудничества, служат авангардными стратегиями идентификации мотивов. Синтез эвристических методов в гибридных подходах подчеркивает адаптируемость этих алгоритмов в сложной области обнаружения мотивов.
Репрессор лактозного оперона E. coli LacI ( PDB : 1lcc цепь A) и активатор гена катаболита E. coli ( PDB : 3gap цепь A) оба имеют мотив спираль-поворот-спираль , но их аминокислотные последовательности не демонстрируют большого количества сходство, как показано в таблице ниже. В 1997 году Мацуда и др. разработали код, который они назвали «трехмерным цепным кодом» для представления структуры белка в виде строки букв. Эта схема кодирования выявляет сходство между белками гораздо яснее, чем аминокислотная последовательность (пример из статьи): [12] Код кодирует торсионные углы между альфа-углеродами белкового остова . «W» всегда соответствует альфа-спирали.