В биологии мотив последовательности — это широко распространенный шаблон последовательности нуклеотидов или аминокислот , который обычно считается связанным с биологической функцией макромолекулы. Например, мотив сайта N -гликозилирования может быть определен как Asn, за которым следует что угодно, кроме Pro, за которым следует либо Ser, либо Thr, за которым следует что угодно, кроме остатка Pro .
Когда мотив последовательности появляется в экзоне гена , он может кодировать « структурный мотив » белка ; это стереотипный элемент общей структуры белка. Тем не менее, мотивы не обязательно должны быть связаны с отличительной вторичной структурой . « Некодирующие » последовательности не транслируются в белки, и нуклеиновые кислоты с такими мотивами не обязательно должны отклоняться от типичной формы (например, двойной спирали ДНК «B-формы» ).
За пределами экзонов генов существуют регуляторные мотивы последовательности и мотивы внутри « мусора », такие как сателлитная ДНК . Некоторые из них, как полагают, влияют на форму нуклеиновых кислот [1] (см., например, самосплайсинг РНК ), но это происходит только иногда. Например, многие связывающие ДНК белки , которые имеют сродство к определенным сайтам связывания ДНК, связывают ДНК только в ее двухспиральной форме. Они способны распознавать мотивы посредством контакта с большой или малой бороздкой двойной спирали.
Короткие кодирующие мотивы, которые, по-видимому, не имеют вторичной структуры, включают те, которые маркируют белки для доставки в определенные части клетки или отмечают их для фосфорилирования .
В последовательности или базе данных последовательностей исследователи ищут и находят мотивы, используя компьютерные методы анализа последовательностей , такие как BLAST . Такие методы относятся к дисциплине биоинформатики . См. также консенсусная последовательность .
Рассмотрим мотив сайта N -гликозилирования, упомянутый выше:
Эту схему можно записать как, N{P}[ST]{P}
где N
= Asn, P
= Pro, S
= Ser, T
= Thr; {X}
означает любую аминокислоту, кроме X
; и [XY]
означает либо , X
либо Y
.
Обозначение [XY]
не дает никаких указаний на вероятность X
или Y
возникновение в шаблоне. Наблюдаемые вероятности могут быть графически представлены с помощью логотипов последовательностей . Иногда шаблоны определяются в терминах вероятностной модели, такой как скрытая марковская модель .
Обозначение [XYZ]
означает X
или Y
или Z
, но не указывает на вероятность какого-либо конкретного совпадения. По этой причине два или более узоров часто ассоциируются с одним мотивом: определяющий узор и различные типичные узоры.
Например, определяющей последовательностью для мотива IQ можно считать:
[FILV]Qxxx[RK]Gxxx[RK]xx[FILVWY]
где x
обозначает любую аминокислоту, а квадратные скобки указывают на альтернативу (более подробную информацию об обозначениях см. ниже).
Однако обычно первая буква — I
, и оба [RK]
варианта разрешаются в R
. Поскольку последний вариант настолько широк, узор IQxxxRGxxxR
иногда приравнивается к самому мотиву IQ, но более точным описанием было бы консенсусная последовательность для мотива IQ .
Для описания мотивов используется несколько нотаций, но большинство из них являются вариантами стандартных нотаций для регулярных выражений и используют следующие соглашения:
[abc]
соответствует любой из аминокислот, представленных a
или b
или c
.Основная идея всех этих обозначений — принцип соответствия, который присваивает значение последовательности элементов обозначения образца:
Таким образом, шаблон [AB] [CDE] F
соответствует шести аминокислотным последовательностям, соответствующим ACF
, ADF
, AEF
, BCF
, BDF
, и BEF
.
Различные нотации описания шаблонов имеют другие способы формирования элементов шаблонов. Одной из таких нотаций является нотация PROSITE, описанная в следующем подразделе.
Обозначение PROSITE использует однобуквенные коды ИЮПАК-
и соответствует приведенному выше описанию, за исключением того, что между элементами шаблона используется символ конкатенации ' ', но он часто опускается между буквами алфавита шаблона.
PROSITE допускает следующие элементы шаблона в дополнение к описанным ранее:
x
» может использоваться в качестве элемента шаблона для обозначения любой аминокислоты.{ST}
обозначает любую аминокислоту, отличную от S
или T
.<
».>
».>
' также может встречаться внутри завершающей квадратной скобки, поэтому он S[T>]
соответствует как " ST
", так и " S>
".e
— элемент шаблона, а m
и n
— два десятичных целых числа с m
<= n
, то:e(m)
эквивалентно повторению e
ровно m
раз;e(m,n)
эквивалентно повторению e
ровно k
раз для любого целого числа, k
удовлетворяющего: m
<= k
<= n
.Вот несколько примеров:
x(3)
эквивалентно x-x-x
.x(2,4)
соответствует любой последовательности, которая соответствует x-x
или x-x-x
или x-x-x-x
.Сигнатура домена цинкового пальца типа C2H2 выглядит следующим образом:
C-x(2,4)-C-x(3)-[LIVMFYWC]-x(8)-H-x(3,5)-H
Матрица чисел, содержащая оценки для каждого остатка или нуклеотида в каждой позиции мотива фиксированной длины. Существует два типа матриц веса.
Пример PFM из базы данных TRANSFAC для фактора транскрипции AP-1:
Первый столбец определяет позицию, второй столбец содержит количество появлений A в этой позиции, третий столбец содержит количество появлений C в этой позиции, четвертый столбец содержит количество появлений G в этой позиции, пятый столбец содержит количество появлений T в этой позиции, а последний столбец содержит обозначение IUPAC для этой позиции. Обратите внимание, что суммы появлений для A, C, G и T для каждой строки должны быть равны, поскольку PFM выводится путем агрегирования нескольких консенсусных последовательностей.
Процесс обнаружения мотивов последовательностей был хорошо разработан с 1990-х годов. В частности, большинство существующих исследований по обнаружению мотивов сосредоточены на мотивах ДНК. С достижениями в области высокопроизводительного секвенирования такие проблемы обнаружения мотивов осложняются как проблемами вырожденности шаблонов последовательностей, так и проблемами масштабируемости вычислений, требующих больших объемов данных.
Процесс открытия
Обнаружение мотива происходит в три основных этапа. Этап предварительной обработки, на котором последовательности тщательно подготавливаются на этапах сборки и очистки. Сборка включает выбор последовательностей, которые содержат желаемый мотив в больших количествах, и извлечение нежелательных последовательностей с помощью кластеризации. Затем очистка обеспечивает удаление любых мешающих элементов. Далее следует этап обнаружения. На этом этапе последовательности представляются с использованием консенсусных строк или матриц веса, специфичных для позиции (PWM) . После представления мотива выбирается целевая функция и применяется подходящий алгоритм поиска для обнаружения мотивов. Наконец, этап постобработки включает оценку обнаруженных мотивов. [2]
Существуют программы, которые, учитывая несколько входных последовательностей, пытаются идентифицировать один или несколько мотивов-кандидатов. Одним из примеров является алгоритм Multiple EM for Motif Elicitation (MEME), который генерирует статистическую информацию для каждого кандидата. [3] Существует более 100 публикаций, подробно описывающих алгоритмы обнаружения мотивов; Weirauch et al . оценили множество связанных алгоритмов в сравнительном тесте 2013 года. [4] Поиск посаженных мотивов — это еще один метод обнаружения мотивов, основанный на комбинаторном подходе.
Мотивы также были обнаружены путем применения филогенетического подхода и изучения похожих генов у разных видов. Например, путем выравнивания аминокислотных последовательностей, указанных геном GCM ( отсутствующие глиальные клетки ) у человека, мыши и D. melanogaster , Акияма и другие обнаружили образец, который они назвали мотивом GCM в 1996 году. [5] Он охватывает около 150 аминокислотных остатков и начинается следующим образом:
WDIND*.*P..*...D.F.*W***.**.IYS**...A.*H*S*WAMRNTNNHN
Здесь каждый .
обозначает отдельную аминокислоту или пробел, и каждый *
указывает на одного члена близкородственного семейства аминокислот. Авторам удалось показать, что мотив обладает активностью связывания ДНК.
Похожий подход обычно используется в современных базах данных доменов белков, таких как Pfam : кураторы-люди выбирают пул последовательностей, которые, как известно, связаны, и используют компьютерные программы для их выравнивания и создания профиля мотива (Pfam использует HMM , которые можно использовать для идентификации других связанных белков. [6] Филогенетический подход также можно использовать для улучшения алгоритма MEME de novo , примером чего является PhyloGibbs. [7]
В 2017 году был разработан MotifHyades как инструмент обнаружения мотивов, который можно напрямую применять к парным последовательностям. [8]
В 2018 году был предложен подход случайного поля Маркова для выведения мотивов ДНК из ДНК-связывающих доменов белков. [9]
Алгоритмы обнаружения мотивов
Алгоритмы обнаружения мотивов используют различные стратегии для обнаружения закономерностей в последовательностях ДНК. Интеграция перечислительных, вероятностных и вдохновленных природой подходов, демонстрация их адаптивности с использованием нескольких методов, доказывающих свою эффективность в повышении точности идентификации.
Подход к перечислению: [2]
Начиная путь открытия мотивов, перечислительный подход свидетельствует о том, что алгоритмы тщательно генерируют и оценивают потенциальные мотивы. Пионерами в этой области являются простые методы перечисления слов, такие как YMF и DREME, которые систематически просматривают последовательность в поисках коротких мотивов. Дополняя их, методы на основе кластеризации, такие как CisFinder, используют матрицы замены нуклеотидов для кластеризации мотивов, эффективно снижая избыточность. Одновременно с этим методы на основе деревьев, такие как Weeder и FMotif, используют древовидные структуры, а методы на основе теории графов (например, WINNOWER) используют графовые представления, демонстрируя богатство стратегий перечисления.
Вероятностный подход: [2]
Отклоняясь в вероятностную область, этот подход использует вероятностные модели для различения мотивов в последовательностях. MEME, детерминированный образец, использует максимизацию ожиданий для оптимизации матриц весовых коэффициентов (PWM) и распутывания консервативных областей в невыровненных последовательностях ДНК. В отличие от этого, стохастические методологии, такие как выборка Гиббса, инициируют обнаружение мотивов со случайными назначениями позиций мотивов, итеративно уточняя прогнозы. Эта вероятностная структура умело улавливает присущую неопределенность, связанную с обнаружением мотивов.
Расширенный подход: [2]
Развиваясь дальше, усовершенствованное обнаружение мотивов охватывает сложные методы, с байесовским моделированием [10], занимающим центральное место. LOGOS и BaMM, иллюстрирующие эту когорту, искусно вплетают байесовские подходы и марковские модели в свою ткань для идентификации мотивов. Включение байесовских методов кластеризации усиливает вероятностную основу, предоставляя целостную структуру для распознавания образов в последовательностях ДНК.
Вдохновленные природой и эвристические алгоритмы: [2]
Разворачивается отдельная категория, в которой алгоритмы черпают вдохновение из биологической сферы. Генетические алгоритмы (GA) , воплощенные FMGA и MDGA, [11] управляют поиском мотивов с помощью генетических операторов и специализированных стратегий. Используя принципы роевого интеллекта, оптимизация роя частиц (PSO) , алгоритмы искусственной колонии пчел (ABC) и алгоритмы поиска кукушек (CS) , представленные в GAEM, GARP и MACS, рискнули заняться исследованием на основе феромонов. Эти алгоритмы, отражающие адаптивность природы и кооперативную динамику, служат авангардными стратегиями для идентификации мотивов. Синтез эвристических методов в гибридных подходах подчеркивает адаптивность этих алгоритмов в сложной области обнаружения мотивов.
Репрессор лактозного оперона E. coli LacI ( PDB : 1lcc цепь A) и активатор катаболитного гена E. coli ( PDB : 3gap цепь A) оба имеют мотив спираль-поворот-спираль , но их аминокислотные последовательности не показывают большого сходства, как показано в таблице ниже. В 1997 году Мацуда и др. разработали код, который они назвали «трехмерным цепным кодом» для представления структуры белка в виде строки букв. Эта схема кодирования показывает сходство между белками гораздо более четко, чем аминокислотная последовательность (пример из статьи): [12] Код кодирует торсионные углы между альфа-углеродами белкового остова . «W» всегда соответствует альфа-спирали.