Последовательность мотива

Мотив последовательности ДНК, представленный в виде логотипа последовательности для мотива связывания LexA.

В биологии мотив последовательности — это широко распространенный шаблон последовательности нуклеотидов или аминокислот , который обычно считается связанным с биологической функцией макромолекулы. Например, мотив сайта N -гликозилирования может быть определен как Asn, за которым следует что угодно, кроме Pro, за которым следует либо Ser, либо Thr, за которым следует что угодно, кроме остатка Pro .

Обзор

Когда мотив последовательности появляется в экзоне гена , он может кодировать « структурный мотив » белка ; это стереотипный элемент общей структуры белка. Тем не менее, мотивы не обязательно должны быть связаны с отличительной вторичной структурой . « Некодирующие » последовательности не транслируются в белки, и нуклеиновые кислоты с такими мотивами не обязательно должны отклоняться от типичной формы (например, двойной спирали ДНК «B-формы» ).

За пределами экзонов генов существуют регуляторные мотивы последовательности и мотивы внутри « мусора », такие как сателлитная ДНК . Некоторые из них, как полагают, влияют на форму нуклеиновых кислот ^[1] (см., например, самосплайсинг РНК ), но это происходит только иногда. Например, многие связывающие ДНК белки , которые имеют сродство к определенным сайтам связывания ДНК, связывают ДНК только в ее двухспиральной форме. Они способны распознавать мотивы посредством контакта с большой или малой бороздкой двойной спирали.

Короткие кодирующие мотивы, которые, по-видимому, не имеют вторичной структуры, включают те, которые маркируют белки для доставки в определенные части клетки или отмечают их для фосфорилирования .

В последовательности или базе данных последовательностей исследователи ищут и находят мотивы, используя компьютерные методы анализа последовательностей , такие как BLAST . Такие методы относятся к дисциплине биоинформатики . См. также консенсусная последовательность .

Представление мотива

Рассмотрим мотив сайта N -гликозилирования, упомянутый выше:

Asn, за которым следует что-либо, кроме Pro, за которым следует Ser или Thr, за которым следует что-либо, кроме Pro

Эту схему можно записать как, N{P}[ST]{P}где N= Asn, P= Pro, S= Ser, T= Thr; {X}означает любую аминокислоту, кроме X; и [XY]означает либо , Xлибо Y.

Обозначение [XY]не дает никаких указаний на вероятность Xили Yвозникновение в шаблоне. Наблюдаемые вероятности могут быть графически представлены с помощью логотипов последовательностей . Иногда шаблоны определяются в терминах вероятностной модели, такой как скрытая марковская модель .

Мотивы и консенсусные последовательности

Обозначение [XYZ]означает Xили Yили Z, но не указывает на вероятность какого-либо конкретного совпадения. По этой причине два или более узоров часто ассоциируются с одним мотивом: определяющий узор и различные типичные узоры.

Например, определяющей последовательностью для мотива IQ можно считать:

[FILV]Qxxx[RK]Gxxx[RK]xx[FILVWY]

где xобозначает любую аминокислоту, а квадратные скобки указывают на альтернативу (более подробную информацию об обозначениях см. ниже).

Однако обычно первая буква — I, и оба [RK]варианта разрешаются в R. Поскольку последний вариант настолько широк, узор IQxxxRGxxxRиногда приравнивается к самому мотиву IQ, но более точным описанием было бы консенсусная последовательность для мотива IQ .

Обозначения описания шаблона

Для описания мотивов используется несколько нотаций, но большинство из них являются вариантами стандартных нотаций для регулярных выражений и используют следующие соглашения:

существует алфавит из отдельных символов, каждый из которых обозначает определенную аминокислоту или набор аминокислот;
строка символов, взятая из алфавита, обозначает последовательность соответствующих аминокислот;
любая строка символов алфавита, заключенная в квадратные скобки, соответствует любой из соответствующих аминокислот; например, [abc]соответствует любой из аминокислот, представленных aили bили c.

Основная идея всех этих обозначений — принцип соответствия, который присваивает значение последовательности элементов шаблонной нотации:

Последовательность элементов обозначения шаблона соответствует последовательности аминокислот тогда и только тогда, когда последняя последовательность может быть разделена на подпоследовательности таким образом, что каждый элемент шаблона по очереди соответствует соответствующей подпоследовательности.

Таким образом, шаблон [AB] [CDE] Fсоответствует шести аминокислотным последовательностям, соответствующим ACF, ADF, AEF, BCF, BDF, и BEF.

Различные нотации описания шаблонов имеют другие способы формирования элементов шаблонов. Одной из таких нотаций является нотация PROSITE, описанная в следующем подразделе.

Обозначение шаблона PROSITE

Обозначение PROSITE использует однобуквенные коды ИЮПАК- и соответствует приведенному выше описанию, за исключением того, что между элементами шаблона используется символ конкатенации ' ', но он часто опускается между буквами алфавита шаблона.

PROSITE допускает следующие элементы шаблона в дополнение к описанным ранее:

Строчная буква « x» может использоваться в качестве элемента шаблона для обозначения любой аминокислоты.
Строка символов, взятых из алфавита и заключенных в фигурные скобки, обозначает любую аминокислоту, кроме тех, что есть в строке. Например, {ST}обозначает любую аминокислоту, отличную от Sили T.
Если шаблон ограничен N-концом последовательности, то шаблон имеет префикс « <».
Если шаблон ограничен С-концом последовательности, шаблон снабжается суффиксом « >».
Символ ' >' также может встречаться внутри завершающей квадратной скобки, поэтому он S[T>]соответствует как " ST", так и " S>".
Если e— элемент шаблона, а mи n— два десятичных целых числа с m<= n, то:
- e(m)эквивалентно повторению eровно mраз;
- e(m,n)эквивалентно повторению eровно kраз для любого целого числа, kудовлетворяющего: m<= k<= n.

Вот несколько примеров:

x(3)эквивалентно x-x-x.
x(2,4)соответствует любой последовательности, которая соответствует x-xили x-x-xили x-x-x-x.

Сигнатура домена цинкового пальца типа C2H2 выглядит следующим образом:

C-x(2,4)-C-x(3)-[LIVMFYWC]-x(8)-H-x(3,5)-H

Матрицы

Матрица чисел, содержащая оценки для каждого остатка или нуклеотида в каждой позиции мотива фиксированной длины. Существует два типа матриц веса.

Матрица позиционной частоты (PFM) регистрирует позиционно-зависимую частоту каждого остатка или нуклеотида. PFM могут быть экспериментально определены из экспериментов SELEX или вычислительно обнаружены такими инструментами, как MEME, с использованием скрытых марковских моделей.
Матрица веса позиции (PWM) содержит весовые коэффициенты логарифмов для вычисления оценки соответствия. Отсечение необходимо для указания того, соответствует ли входная последовательность мотиву или нет. PWM вычисляются из PFM. PWM также известны как PSSM.

Пример PFM из базы данных TRANSFAC для фактора транскрипции AP-1:

Первый столбец определяет позицию, второй столбец содержит количество появлений A в этой позиции, третий столбец содержит количество появлений C в этой позиции, четвертый столбец содержит количество появлений G в этой позиции, пятый столбец содержит количество появлений T в этой позиции, а последний столбец содержит обозначение IUPAC для этой позиции. Обратите внимание, что суммы появлений для A, C, G и T для каждой строки должны быть равны, поскольку PFM выводится из агрегации нескольких консенсусных последовательностей.

Мотив Discovery

Обзор

Процесс обнаружения мотивов последовательностей был хорошо разработан с 1990-х годов. В частности, большинство существующих исследований по обнаружению мотивов сосредоточены на мотивах ДНК. С достижениями в области высокопроизводительного секвенирования такие проблемы обнаружения мотивов осложняются как проблемами вырожденности шаблонов последовательностей, так и проблемами масштабируемости вычислений, требующих больших объемов данных.

Процесс открытия

Обнаружение мотива происходит в три основных этапа. Этап предварительной обработки, на котором последовательности тщательно подготавливаются на этапах сборки и очистки. Сборка включает выбор последовательностей, которые содержат желаемый мотив в больших количествах, и извлечение нежелательных последовательностей с помощью кластеризации. Затем очистка обеспечивает удаление любых мешающих элементов. Далее следует этап обнаружения. На этом этапе последовательности представляются с использованием консенсусных строк или матриц веса, специфичных для позиции (PWM) . После представления мотива выбирается целевая функция и применяется подходящий алгоритм поиска для обнаружения мотивов. Наконец, этап постобработки включает оценку обнаруженных мотивов. ^[2]

De novoоткрытие мотива

Существуют программы, которые, учитывая несколько входных последовательностей, пытаются идентифицировать один или несколько мотивов-кандидатов. Одним из примеров является алгоритм Multiple EM for Motif Elicitation (MEME), который генерирует статистическую информацию для каждого кандидата. ^[3] Существует более 100 публикаций, подробно описывающих алгоритмы обнаружения мотивов; Weirauch et al . оценили множество связанных алгоритмов в сравнительном тесте 2013 года. ^[4] Поиск посаженных мотивов — это еще один метод обнаружения мотивов, основанный на комбинаторном подходе.

Открытие филогенетического мотива

Мотивы также были обнаружены путем применения филогенетического подхода и изучения похожих генов у разных видов. Например, путем выравнивания аминокислотных последовательностей, указанных геном GCM ( отсутствующие глиальные клетки ) у человека, мыши и D. melanogaster , Акияма и другие обнаружили образец, который они назвали мотивом GCM в 1996 году. ^[5] Он охватывает около 150 аминокислотных остатков и начинается следующим образом:

WDIND*.*P..*...D.F.*W***.**.IYS**...A.*H*S*WAMRNTNNHN

Здесь каждый .обозначает одну аминокислоту или пробел, и каждый *указывает на одного члена близкородственного семейства аминокислот. Авторам удалось показать, что мотив обладает активностью связывания ДНК.

Похожий подход обычно используется в современных базах данных доменов белков, таких как Pfam : кураторы-люди выбирают пул последовательностей, которые, как известно, связаны, и используют компьютерные программы для их выравнивания и создания профиля мотива (Pfam использует HMM , которые можно использовать для идентификации других связанных белков. ^[6] Филогенетический подход также можно использовать для улучшения алгоритма MEME de novo , примером чего является PhyloGibbs. ^[7]

De novoобнаружение пары мотивов

В 2017 году был разработан MotifHyades как инструмент обнаружения мотивов, который можно напрямую применять к парным последовательностям. ^[8]

De novoраспознавание мотива из белка

В 2018 году был предложен подход случайного поля Маркова для выведения мотивов ДНК из ДНК-связывающих доменов белков. ^[9]

Алгоритмы обнаружения мотивов

Алгоритмы обнаружения мотивов используют различные стратегии для обнаружения закономерностей в последовательностях ДНК. Интеграция перечислительных, вероятностных и вдохновленных природой подходов, демонстрация их адаптивности с использованием нескольких методов, доказывающих свою эффективность в повышении точности идентификации.

Подход к перечислению: ^[2]

Начиная путь открытия мотивов, перечислительный подход свидетельствует о том, что алгоритмы тщательно генерируют и оценивают потенциальные мотивы. Пионерами в этой области являются простые методы перечисления слов, такие как YMF и DREME, которые систематически просматривают последовательность в поисках коротких мотивов. Дополняя их, методы на основе кластеризации, такие как CisFinder, используют матрицы замены нуклеотидов для кластеризации мотивов, эффективно снижая избыточность. Одновременно с этим методы на основе деревьев, такие как Weeder и FMotif, используют древовидные структуры, а методы на основе теории графов (например, WINNOWER) используют графовые представления, демонстрируя богатство стратегий перечисления.

Вероятностный подход: ^[2]

Отклоняясь в вероятностную область, этот подход использует вероятностные модели для различения мотивов в последовательностях. MEME, детерминированный образец, использует максимизацию ожиданий для оптимизации матриц весовых коэффициентов положения (PWM) и распутывания консервативных областей в невыровненных последовательностях ДНК. В отличие от этого, стохастические методологии, такие как выборка Гиббса, инициируют обнаружение мотивов со случайными назначениями позиций мотивов, итеративно уточняя прогнозы. Эта вероятностная структура умело улавливает присущую неопределенность, связанную с обнаружением мотивов.

Расширенный подход: ^[2]

Развиваясь дальше, усовершенствованное обнаружение мотивов охватывает сложные методы, в центре которых находится байесовское моделирование ^{[10] . LOGOS и BaMM, иллюстрирующие эту когорту, искусно вплетают байесовские подходы и}марковские модели в свою ткань для идентификации мотивов. Включение байесовских методов кластеризации усиливает вероятностную основу, предоставляя целостную структуру для распознавания образов в последовательностях ДНК.

Вдохновленные природой и эвристические алгоритмы: ^[2]

Разворачивается отдельная категория, в которой алгоритмы черпают вдохновение из биологической сферы. Генетические алгоритмы (GA) , воплощенные FMGA и MDGA, ^[11] управляют поиском мотивов с помощью генетических операторов и специализированных стратегий. Используя принципы роевого интеллекта, алгоритмы оптимизации роя частиц (PSO) , алгоритмы искусственной колонии пчел (ABC) и алгоритмы поиска кукушек (CS) , представленные в GAEM, GARP и MACS, выходят на исследование на основе феромонов. Эти алгоритмы, отражающие адаптивность природы и кооперативную динамику, служат авангардными стратегиями для идентификации мотивов. Синтез эвристических методов в гибридных подходах подчеркивает адаптивность этих алгоритмов в сложной области обнаружения мотивов.

Мотивные случаи

Трехмерные цепные коды

Репрессор оперона лактозы E. coli LacI ( PDB : 1lcc цепь A) и активатор гена катаболита E. coli ( PDB : 3gap цепь A) оба имеют мотив спираль-поворот-спираль , но их аминокислотные последовательности не показывают большого сходства, как показано в таблице ниже. В 1997 году Мацуда и др. разработали код, который они назвали «трехмерным цепным кодом» для представления структуры белка в виде строки букв. Эта схема кодирования гораздо более четко показывает сходство между белками, чем аминокислотная последовательность (пример из статьи): ^[12] Код кодирует торсионные углы между альфа-углеродами белкового остова . «W» всегда соответствует альфа-спирали.

Смотрите также

Ссылки

Первичные источники

^ Длакич, Менсур; Харрингтон, Родни Э. (1996). «Влияние контекста последовательности на кривизну ДНК». Труды Национальной академии наук Соединенных Штатов Америки . 93 (9): 3847–3852. Bibcode : 1996PNAS...93.3847D. doi : 10.1073 /pnas.93.9.3847 . ISSN 0027-8424. JSTOR 39155. PMC 39447. PMID 8632978.
^ abcde Хашим, Фатма А.; Мабрук, Май С.; Аль-Атабани, Валид (2019). «Обзор различных алгоритмов поиска мотивов последовательностей». Журнал медицинской биотехнологии Авиценны . 11 (2): 130–148. ISSN 2008-2835. PMC 6490410. PMID 31057715 .
^ Bailey TL, Williams N, Misleh C, Li WW (июль 2006 г.). "MEME: обнаружение и анализ мотивов последовательностей ДНК и белков". Nucleic Acids Research . 34 (выпуск веб-сервера): W369-73. doi :10.1093/nar/gkl198. PMC 1538909. PMID 16845028 .
^ Weirauch MT, Cote A, Norel R, Annala M, Zhao Y, Riley TR и др. (февраль 2013 г.). «Оценка методов моделирования специфичности последовательности факторов транскрипции». Nature Biotechnology . 31 (2): 126–34. doi :10.1038/nbt.2486. PMC 3687085 . PMID 23354101.
^ Akiyama Y, Hosoya T, Poole AM, Hotta Y (декабрь 1996 г.). «Мотив gcm: новый мотив связывания ДНК, сохраняющийся у дрозофилы и млекопитающих». Труды Национальной академии наук Соединенных Штатов Америки . 93 (25): 14912–6. Bibcode : 1996PNAS...9314912A. doi : 10.1073/pnas.93.25.14912 . PMC 26236. PMID 8962155 .
^ "Моделирование в Pfam". Pfam . Получено 14 декабря 2023 г. .
^ Siddharthan R, Siggia ED, van Nimwegen E (декабрь 2005 г.). "PhyloGibbs: искатель мотивов выборки Гиббса, который включает филогению". PLOS Computational Biology . 1 (7): e67. Bibcode : 2005PLSCB...1...67S. doi : 10.1371/journal.pcbi.0010067 . PMC 1309704. PMID 16477324 .
^ Wong KC (октябрь 2017 г.). «MotifHyades: максимизация ожиданий для обнаружения пар мотивов ДНК de novo в парных последовательностях». Биоинформатика . 33 (19): 3028–3035. doi : 10.1093/bioinformatics/btx381 . PMID 28633280.
^ Wong KC (сентябрь 2018 г.). «Моделирование распознавания мотивов ДНК из последовательностей белков». iScience . 7 : 198–211. Bibcode :2018iSci....7..198W. doi :10.1016/j.isci.2018.09.003. PMC 6153143 . PMID 30267681.
^ Миллер, Эндрю К.; Принт, Кристин Г.; Нильсен, Пол М.Ф.; Крампин, Эдмунд Дж. (18.11.2010). "Байесовский поиск транскрипционных мотивов". PLOS ONE . 5 (11): e13897. Bibcode : 2010PLoSO...513897M. doi : 10.1371/journal.pone.0013897 . ISSN 1932-6203. PMC 2987817. PMID 21124986 .
^ Че, Донгшенг; Сонг, Инглэй; Рашид, Халед (2005-06-25). "MDGA: обнаружение мотивов с использованием генетического алгоритма". Труды 7-й ежегодной конференции по генетическим и эволюционным вычислениям . GECCO '05. Нью-Йорк, штат Нью-Йорк, США: Ассоциация вычислительной техники. стр. 447–452. doi :10.1145/1068009.1068080. ISBN 978-1-59593-010-1. S2CID 7892935.
^ Мацуда Х., Танигучи Ф., Хашимото А. (1997). «Подход к обнаружению структурных мотивов белков с использованием схемы кодирования конформаций остова» (PDF) . Тихоокеанский симпозиум по биовычислениям. Тихоокеанский симпозиум по биовычислениям : 280–91. PMID 9390299.

Дальнейшее чтение

Кадавэру К, Вьяс Дж, Шиллер М. Р. (май 2008 г.). «Вирусная инфекция и болезнь человека — понимание минимотивов». Frontiers in Bioscience . 13 (13): 6455–71. doi :10.2741/3166. PMC 2628544. PMID 18508672 .
Stormo GD (январь 2000 г.). «Сайты связывания ДНК: представление и обнаружение». Биоинформатика . 16 (1): 16–23. doi :10.1093/bioinformatics/16.1.16. PMID 10812473.

Первичные источники

Altarawy D, Ismail MA, Ghanem S (2009). "MProfiler: основанный на профиле метод обнаружения мотивов ДНК". Распознавание образов в биоинформатике . Конспект лекций по информатике. Том 5780. С. 13–23. doi :10.1007/978-3-642-04031-3_2. ISBN 978-3-642-04030-6.
Schiller MR (2007). "Minimotif miner: вычислительный инструмент для исследования функции белка, болезней и генетического разнообразия". Current Protocols in Protein Science . 48 (1). Wiley: 2.12.1–2.12.14. doi : 10.1002/0471140864.ps0212s48. ISBN 978-0471140863. PMID 18429315. S2CID 10406520.
Balla S, Thapar V, Verma S, Luong T, Faghri T, Huang CH и др. (март 2006 г.). "Minimotif Miner: инструмент для исследования функции белка" . Nature Methods . 3 (3): 175–7. doi :10.1038/nmeth856. PMID 16489333. S2CID 15571142.