Мотив последовательности

Мотив последовательности ДНК, представленный в виде логотипа последовательности для мотива связывания LexA.

В биологии мотив последовательности представляет собой образец последовательности нуклеотидов или аминокислот , который широко распространен и обычно считается связанным с биологической функцией макромолекулы. Например, мотив сайта N -гликозилирования может быть определен как Asn, за которым следует что-либо, кроме Pro, за которым следует либо Ser, либо Thr, за которым следует что-либо, кроме остатка Pro .

Обзор

Когда мотив последовательности появляется в экзоне гена , он может кодировать « структурный мотив » белка ; это стереотипный элемент общей структуры белка. Тем не менее, мотивы не обязательно должны быть связаны с отчетливой вторичной структурой . « Некодирующие » последовательности не транслируются в белки, и нуклеиновые кислоты с такими мотивами не должны отклоняться от типичной формы (например, двойной спирали ДНК «В-формы» ).

Помимо экзонов гена, существуют мотивы регуляторных последовательностей и мотивы внутри « мусора », такого как сателлитная ДНК . Считается, что некоторые из них влияют на форму нуклеиновых кислот ^[1] (см., например, самосплайсинг РНК ), но это происходит лишь иногда. Например, многие ДНК-связывающие белки , обладающие сродством к определенным сайтам связывания ДНК, связывают ДНК только в ее двойной спиральной форме. Они способны распознавать мотивы при контакте с большой или малой бороздкой двойной спирали.

Короткие кодирующие мотивы, которые, по-видимому, лишены вторичной структуры, включают те, которые маркируют белки для доставки в определенные части клетки или маркируют их для фосфорилирования .

Внутри последовательности или базы данных последовательностей исследователи ищут и находят мотивы, используя компьютерные методы анализа последовательностей , такие как BLAST . Такие методы относятся к дисциплине биоинформатики . См. также консенсусную последовательность .

Представление мотива

Рассмотрим упомянутый выше мотив сайта N -гликозилирования:

Asn, за которым следует что угодно, кроме Pro, за которым следует либо Ser, либо Thr, за которым следует что угодно, кроме Pro

Этот шаблон можно записать так: N{P}[ST]{P}где N= Asn, P= Pro, S= Ser, T= Thr; {X}означает любую аминокислоту, кроме X; и [XY]означает либо Xили Y.

Обозначения [XY]не дают никаких указаний на вероятность Xпоявления Yшаблона. Наблюдаемые вероятности могут быть графически представлены с помощью логотипов последовательностей . Иногда закономерности определяются в терминах вероятностной модели, например скрытой модели Маркова .

Мотивы и консенсусные последовательности

Обозначение [XYZ]означает Xили Yили Z, но не указывает на вероятность какого-либо конкретного совпадения. По этой причине два или более узоров часто связаны с одним мотивом: определяющим узором и различными типичными узорами.

Например, определяющей последовательностью мотива IQ можно считать:

[FILV]Qxxx[RK]Gxxx[RK]xx[FILVWY]

где xозначает любую аминокислоту, а квадратные скобки указывают альтернативу (более подробную информацию об обозначениях см. ниже).

Однако обычно первая буква — I, и оба [RK]варианта приводят к R. Поскольку последний выбор настолько широк, паттерн IQxxxRGxxxRиногда приравнивают к самому мотиву IQ, но более точным описанием была бы консенсусная последовательность мотива IQ .

Обозначения описания шаблона

Используется несколько обозначений для описания мотивов, но большинство из них являются вариантами стандартных обозначений регулярных выражений и используют следующие соглашения:

существует алфавит из отдельных символов, каждый из которых обозначает определенную аминокислоту или набор аминокислот;
строка символов, взятая из алфавита, обозначает последовательность соответствующих аминокислот;
любая строка символов алфавита, заключенная в квадратные скобки, соответствует любой из соответствующих аминокислот; например, [abc]соответствует любой аминокислоте, представленной aили bили c.

Фундаментальной идеей всех этих обозначений является принцип соответствия, который придает значение последовательности элементов обозначения шаблона:

последовательность элементов обозначения шаблона соответствует последовательности аминокислот тогда и только тогда, когда последняя последовательность может быть разделена на подпоследовательности таким образом, что каждый элемент шаблона по очереди соответствует соответствующей подпоследовательности.

Таким образом, образец [AB] [CDE] Fсоответствует шести аминокислотным последовательностям, соответствующим ACF, ADF, AEF, BCF, BDFи BEF.

Различные нотации описания шаблона имеют другие способы формирования элементов шаблона. Одной из таких нотаций является нотация PROSITE, описанная в следующем подразделе.

Обозначение шаблона PROSITE

В нотации PROSITE используются однобуквенные коды ИЮПАК- и соответствует приведенному выше описанию, за исключением того, что между элементами шаблона используется символ конкатенации, но он часто опускается между буквами алфавита шаблона.

PROSITE допускает следующие элементы шаблона в дополнение к описанным ранее:

Строчная буква « x» может использоваться в качестве элемента шаблона для обозначения любой аминокислоты.
Строка символов, взятая из алфавита и заключенная в фигурные скобки, обозначает любую аминокислоту, кроме входящей в строку. Например, {ST}обозначает любую аминокислоту, кроме Sили T.
Если шаблон ограничен N-концом последовательности, шаблону присваивается префикс ' <'.
Если образец ограничен C-концом последовательности, к образцу добавляется суффикс « >».
Символ ' >' также может встречаться внутри завершающих квадратных скобок, что S[T>]соответствует как " ST", так и " S>".
Если eэто элемент шаблона и mи nявляются двумя десятичными целыми числами с m<= n, то:
- e(m)эквивалентно повторению eровно mраз;
- e(m,n)эквивалентно повторению eровно kраз для любого целого числа k, удовлетворяющего: m<= k<= n.

Некоторые примеры:

x(3)эквивалентно x-x-x.
x(2,4)соответствует любой последовательности, которая соответствует x-xили x-x-xили x-x-x-x.

Сигнатура домена цинкового пальца типа C2H2 :

C-x(2,4)-C-x(3)-[LIVMFYWC]-x(8)-H-x(3,5)-H

Матрицы

Матрица чисел, содержащая оценки для каждого остатка или нуклеотида в каждом положении мотива фиксированной длины. Существует два типа весовых матриц.

Матрица частот положений (PFM) записывает зависящую от положения частоту каждого остатка или нуклеотида. PFM могут быть определены экспериментально в ходе экспериментов SELEX или обнаружены вычислительным путем с помощью таких инструментов, как MEME, с использованием скрытых марковских моделей.
Матрица весов позиций (PWM) содержит логарифмические веса шансов для расчета результата совпадения. Обрезка необходима, чтобы указать, соответствует ли входная последовательность мотиву или нет. ШИМ рассчитываются на основе ЧИМ. ШИМ также известны как PSSM.

Пример ПФМ из базы данных TRANSFAC для транскрипционного фактора AP-1:

Первый столбец указывает позицию, второй столбец содержит количество вхождений A в этой позиции, третий столбец содержит количество вхождений C в этой позиции, четвертый столбец содержит количество вхождений G в этой позиции, пятый столбец содержит количество вхождений T в этой позиции, а последний столбец содержит обозначение IUPAC для этой позиции. Обратите внимание, что суммы вхождений для A, C, G и T для каждой строки должны быть равны, поскольку PFM получается путем агрегирования нескольких консенсусных последовательностей.

Открытие мотива

Обзор

Процесс обнаружения мотивов последовательности хорошо развит с 1990-х годов. В частности, большая часть существующих исследований по обнаружению мотивов сосредоточена на мотивах ДНК. С развитием высокопроизводительного секвенирования такие проблемы обнаружения мотивов усложняются как проблемами вырождения шаблонов последовательностей, так и проблемами масштабируемости вычислений с интенсивным использованием данных.

Процесс открытия

Открытие мотива происходит в три основных этапа. Этап предварительной обработки, на котором последовательности тщательно подготавливаются на этапах сборки и очистки. Сборка включает в себя выбор последовательностей, которые содержат нужный мотив в больших количествах, и извлечение нежелательных последовательностей с помощью кластеризации. Очистка обеспечивает удаление любых мешающих элементов. Далее следует этап открытия. На этом этапе последовательности представляются с использованием согласованных строк или весовых матриц для конкретной позиции (PWM ). После представления мотива выбирается целевая функция и применяется подходящий алгоритм поиска для обнаружения мотивов. Наконец, этап постобработки включает в себя оценку обнаруженных мотивов. ^[2]

Открытие мотива de novo

Существуют программы, которые при наличии нескольких входных последовательностей пытаются идентифицировать один или несколько мотивов-кандидатов. Одним из примеров является алгоритм Multiple EM для выявления мотивов (MEME), который генерирует статистическую информацию для каждого кандидата. ^[3] Существует более 100 публикаций, подробно описывающих алгоритмы обнаружения мотивов; Вейраух и др . оценила множество связанных алгоритмов в тесте 2013 года. ^[4] Поиск посаженных мотивов — это еще один метод обнаружения мотивов, основанный на комбинаторном подходе.

Открытие филогенетического мотива

Мотивы также были обнаружены с помощью филогенетического подхода и изучения сходных генов у разных видов. Например, выравнивая аминокислотные последовательности, определенные геном GCM ( отсутствие глиальных клеток ) у человека, мыши и D. melanogaster , Акияма и другие обнаружили закономерность, которую они назвали мотивом GCM в 1996 году ^{. [5]} Он охватывает около 150 аминокислотных остатков и начинается следующим образом:

WDIND*.*P..*...D.F.*W***.**.IYS**...A.*H*S*WAMRNTNNHN

Здесь каждый .означает одну аминокислоту или пробел, и каждый *указывает на одного члена близкородственного семейства аминокислот. Авторам удалось показать, что мотив обладает ДНК-связывающей активностью.

Подобный подход обычно используется в современных базах данных белковых доменов, таких как Pfam : кураторы-люди выбирают пул последовательностей, о которых известно, что они связаны, и используют компьютерные программы для их выравнивания и создания профиля мотива (Pfam использует HMM , которые можно использовать для идентификации другие родственные белки. ^[6] Филогенетический подход также может быть использован для улучшения алгоритма MEME de novo , примером может служить PhyloGibbs. ^[7]

Открытие пары мотивов de novo

В 2017 году MotifHyades был разработан как инструмент обнаружения мотивов, который можно напрямую применять к парным последовательностям. ^[8]

Распознавание мотива de novo из белка

В 2018 году был предложен подход марковского случайного поля для вывода мотивов ДНК из ДНК-связывающих доменов белков. ^[9]

Алгоритмы обнаружения мотивов

Алгоритмы обнаружения мотивов используют различные стратегии для выявления закономерностей в последовательностях ДНК. Интеграция перечислительных, вероятностных и природных подходов демонстрирует их адаптивность, а использование нескольких методов оказывается эффективным в повышении точности идентификации.

Перечислительный подход: ^[2]

Начиная поиск мотивов, перечислительный подход свидетельствует о том, что алгоритмы тщательно генерируют и оценивают потенциальные мотивы. Пионерами в этой области являются методы простого перечисления слов, такие как YMF и DREME, которые систематически перебирают последовательность в поисках коротких мотивов. В дополнение к этому методы на основе кластеризации, такие как CisFinder, используют матрицы нуклеотидных замен для кластеризации мотивов, эффективно уменьшая избыточность. Одновременно древовидные методы, такие как Weeder и FMotif, используют древовидные структуры, а методы, основанные на теории графов (например, WINNOWER), используют представления графов, демонстрируя богатство стратегий перечисления.

Вероятностный подход: ^[2]

Выходя в вероятностную сферу, этот подход использует вероятностные модели для распознавания мотивов внутри последовательностей. MEME, детерминированный образец, использует максимизацию ожидания для оптимизации позиционно-весовых матриц (PWM) и раскрытия консервативных областей в невыровненных последовательностях ДНК. В отличие от этого, стохастические методологии, такие как выборка Гиббса, инициируют обнаружение мотивов со случайным назначением позиций мотивов, итеративно уточняя прогнозы. Эта вероятностная модель умело отражает присущую неопределенность, связанную с обнаружением мотивов.

Расширенный подход: ^[2]

В дальнейшем, расширенное обнаружение мотивов включает в себя сложные методы, при этом центральное место занимает байесовское моделирование ^[10] . LOGOS и BaMM, иллюстрирующие эту группу, сложным образом вплетают в свою ткань байесовские подходы и марковские модели для идентификации мотивов. Включение методов байесовской кластеризации расширяет вероятностную основу, обеспечивая целостную основу для распознавания образов в последовательностях ДНК.

Вдохновленные природой и эвристические алгоритмы: ^[2]

Выделяется отдельная категория, в которой алгоритмы черпают вдохновение из биологической сферы. Генетические алгоритмы (ГА) , представленные FMGA и MDGA, ^[11] осуществляют поиск мотивов с помощью генетических операторов и специализированных стратегий. Используя принципы роевого интеллекта, алгоритмы оптимизации роя частиц (PSO) , искусственных пчелиных колоний (ABC) и алгоритмы поиска кукушки (CS) , представленные в GAEM, GARP и MACS, мы приступаем к исследованиям на основе феромонов. Эти алгоритмы, отражающие приспособляемость природы и динамику сотрудничества, служат авангардными стратегиями идентификации мотивов. Синтез эвристических методов в гибридных подходах подчеркивает адаптируемость этих алгоритмов в сложной области обнаружения мотивов.

Чехлы с мотивами

Трехмерные цепные коды

Репрессор лактозного оперона E. coli LacI ( PDB : 1lcc цепь A) и активатор гена катаболита E. coli ( PDB : 3gap цепь A) оба имеют мотив спираль-поворот-спираль , но их аминокислотные последовательности не демонстрируют большого количества сходство, как показано в таблице ниже. В 1997 году Мацуда и др. разработали код, который они назвали «трехмерным цепным кодом» для представления структуры белка в виде строки букв. Эта схема кодирования выявляет сходство между белками гораздо яснее, чем аминокислотная последовательность (пример из статьи): ^[12] Код кодирует торсионные углы между альфа-углеродами белкового остова . «W» всегда соответствует альфа-спирали.

Смотрите также

дальнейшее чтение

Кадаверу К., Вьяс Дж., Шиллер М.Р. (май 2008 г.). «Вирусная инфекция и болезни человека - идеи из минимотивов». Границы бионауки . 13 (13): 6455–71. дои : 10.2741/3166. ПМЦ 2628544 . ПМИД 18508672.
Стормо Г.Д. (январь 2000 г.). «Сайты связывания ДНК: представление и открытие». Биоинформатика . 16 (1): 16–23. doi : 10.1093/биоинформатика/16.1.16. ПМИД 10812473.

Основные источники

Алтарави Д., Исмаил М.А., Ганем С. (2009). «MProfiler: метод обнаружения мотивов ДНК на основе профилей». Распознавание образов в биоинформатике . Конспекты лекций по информатике. Том. 5780. стр. 13–23. дои : 10.1007/978-3-642-04031-3_2. ISBN 978-3-642-04030-6.
Шиллер М.Р. (2007). «Minimotif Miner: вычислительный инструмент для исследования функций белков, болезней и генетического разнообразия». Текущие протоколы в ProteinScience . Уайли. 48 (1): 2.12.1–2.12.14. дои : 10.1002/0471140864.ps0212s48. ISBN 978-0471140863. PMID 18429315. S2CID 10406520.
Балла С., Тапар В., Верма С., Луонг Т., Фагри Т., Хуанг CH и др. (март 2006 г.). «Minimotif Miner: инструмент для исследования функции белка» . Природные методы . 3 (3): 175–7. дои : 10.1038/nmeth856. PMID 16489333. S2CID 15571142.

Мотив последовательности

Обзор

Представление мотива

Мотивы и консенсусные последовательности

Обозначения описания шаблона

Обозначение шаблона PROSITE

Матрицы

Открытие мотива

Обзор

Открытие мотива de novo

Открытие филогенетического мотива

Открытие пары мотивов de novo

Распознавание мотива de novo из белка

Чехлы с мотивами

Трехмерные цепные коды

Смотрите также

Рекомендации

Основные источники

дальнейшее чтение

Основные источники