stringtranslate.com

Последовательность мотива

Мотив последовательности ДНК, представленный в виде логотипа последовательности для мотива связывания LexA.

В биологии мотив последовательности — это широко распространенный шаблон последовательности нуклеотидов или аминокислот , который обычно считается связанным с биологической функцией макромолекулы. Например, мотив сайта N -гликозилирования может быть определен как Asn, за которым следует что угодно, кроме Pro, за которым следует либо Ser, либо Thr, за которым следует что угодно, кроме остатка Pro .

Обзор

Когда мотив последовательности появляется в экзоне гена , он может кодировать « структурный мотив » белка ; это стереотипный элемент общей структуры белка. Тем не менее, мотивы не обязательно должны быть связаны с отличительной вторичной структурой . « Некодирующие » последовательности не транслируются в белки, и нуклеиновые кислоты с такими мотивами не обязательно должны отклоняться от типичной формы (например, двойной спирали ДНК «B-формы» ).

За пределами экзонов генов существуют регуляторные мотивы последовательности и мотивы внутри « мусора », такие как сателлитная ДНК . Некоторые из них, как полагают, влияют на форму нуклеиновых кислот [1] (см., например, самосплайсинг РНК ), но это происходит только иногда. Например, многие связывающие ДНК белки , которые имеют сродство к определенным сайтам связывания ДНК, связывают ДНК только в ее двухспиральной форме. Они способны распознавать мотивы посредством контакта с большой или малой бороздкой двойной спирали.

Короткие кодирующие мотивы, которые, по-видимому, не имеют вторичной структуры, включают те, которые маркируют белки для доставки в определенные части клетки или отмечают их для фосфорилирования .

В последовательности или базе данных последовательностей исследователи ищут и находят мотивы, используя компьютерные методы анализа последовательностей , такие как BLAST . Такие методы относятся к дисциплине биоинформатики . См. также консенсусная последовательность .

Представление мотива

Рассмотрим мотив сайта N -гликозилирования, упомянутый выше:

Asn, за которым следует что-либо, кроме Pro, за которым следует Ser или Thr, за которым следует что-либо, кроме Pro

Эту схему можно записать как, N{P}[ST]{P}где N= Asn, P= Pro, S= Ser, T= Thr; {X}означает любую аминокислоту, кроме X; и [XY]означает либо , Xлибо Y.

Обозначение [XY]не дает никаких указаний на вероятность Xили Yвозникновение в шаблоне. Наблюдаемые вероятности могут быть графически представлены с помощью логотипов последовательностей . Иногда шаблоны определяются в терминах вероятностной модели, такой как скрытая марковская модель .

Мотивы и консенсусные последовательности

Обозначение [XYZ]означает Xили Yили Z, но не указывает на вероятность какого-либо конкретного совпадения. По этой причине два или более узоров часто ассоциируются с одним мотивом: определяющий узор и различные типичные узоры.

Например, определяющей последовательностью для мотива IQ можно считать:

[FILV]Qxxx[RK]Gxxx[RK]xx[FILVWY]

где xобозначает любую аминокислоту, а квадратные скобки указывают на альтернативу (более подробную информацию об обозначениях см. ниже).

Однако обычно первая буква — I, и оба [RK]варианта разрешаются в R. Поскольку последний вариант настолько широк, узор IQxxxRGxxxRиногда приравнивается к самому мотиву IQ, но более точным описанием было бы консенсусная последовательность для мотива IQ .

Обозначения описания шаблона

Для описания мотивов используется несколько нотаций, но большинство из них являются вариантами стандартных нотаций для регулярных выражений и используют следующие соглашения:

Основная идея всех этих обозначений — принцип соответствия, который присваивает значение последовательности элементов обозначения образца:

Последовательность элементов обозначения шаблона соответствует последовательности аминокислот тогда и только тогда, когда последняя последовательность может быть разделена на подпоследовательности таким образом, что каждый элемент шаблона по очереди соответствует соответствующей подпоследовательности.

Таким образом, шаблон [AB] [CDE] Fсоответствует шести аминокислотным последовательностям, соответствующим ACF, ADF, AEF, BCF, BDF, и BEF.

Различные нотации описания шаблонов имеют другие способы формирования элементов шаблонов. Одной из таких нотаций является нотация PROSITE, описанная в следующем подразделе.

Обозначение шаблона PROSITE

Обозначение PROSITE использует однобуквенные коды ИЮПАК- и соответствует приведенному выше описанию, за исключением того, что между элементами шаблона используется символ конкатенации ' ', но он часто опускается между буквами алфавита шаблона.

PROSITE допускает следующие элементы шаблона в дополнение к описанным ранее:

Вот несколько примеров:

Сигнатура домена цинкового пальца типа C2H2 выглядит следующим образом:

Матрицы

Матрица чисел, содержащая оценки для каждого остатка или нуклеотида в каждой позиции мотива фиксированной длины. Существует два типа матриц веса.

Пример PFM из базы данных TRANSFAC для фактора транскрипции AP-1:

Первый столбец определяет позицию, второй столбец содержит количество появлений A в этой позиции, третий столбец содержит количество появлений C в этой позиции, четвертый столбец содержит количество появлений G в этой позиции, пятый столбец содержит количество появлений T в этой позиции, а последний столбец содержит обозначение IUPAC для этой позиции. Обратите внимание, что суммы появлений для A, C, G и T для каждой строки должны быть равны, поскольку PFM выводится путем агрегирования нескольких консенсусных последовательностей.

Мотив Discovery

Обзор

Процесс обнаружения мотивов последовательностей был хорошо разработан с 1990-х годов. В частности, большинство существующих исследований по обнаружению мотивов сосредоточены на мотивах ДНК. С достижениями в области высокопроизводительного секвенирования такие проблемы обнаружения мотивов осложняются как проблемами вырожденности шаблонов последовательностей, так и проблемами масштабируемости вычислений, требующих больших объемов данных.

Процесс открытия

Блок-схема, иллюстрирующая процесс открытия мотива

Обнаружение мотива происходит в три основных этапа. Этап предварительной обработки, на котором последовательности тщательно подготавливаются на этапах сборки и очистки. Сборка включает выбор последовательностей, которые содержат желаемый мотив в больших количествах, и извлечение нежелательных последовательностей с помощью кластеризации. Затем очистка обеспечивает удаление любых мешающих элементов. Далее следует этап обнаружения. На этом этапе последовательности представляются с использованием консенсусных строк или матриц веса, специфичных для позиции (PWM) . После представления мотива выбирается целевая функция и применяется подходящий алгоритм поиска для обнаружения мотивов. Наконец, этап постобработки включает оценку обнаруженных мотивов. [2]

De novoоткрытие мотива

Существуют программы, которые, учитывая несколько входных последовательностей, пытаются идентифицировать один или несколько мотивов-кандидатов. Одним из примеров является алгоритм Multiple EM for Motif Elicitation (MEME), который генерирует статистическую информацию для каждого кандидата. [3] Существует более 100 публикаций, подробно описывающих алгоритмы обнаружения мотивов; Weirauch et al . оценили множество связанных алгоритмов в сравнительном тесте 2013 года. [4] Поиск посаженных мотивов — это еще один метод обнаружения мотивов, основанный на комбинаторном подходе.

Открытие филогенетического мотива

Мотивы также были обнаружены путем применения филогенетического подхода и изучения похожих генов у разных видов. Например, путем выравнивания аминокислотных последовательностей, указанных геном GCM ( отсутствующие глиальные клетки ) у человека, мыши и D. melanogaster , Акияма и другие обнаружили образец, который они назвали мотивом GCM в 1996 году. [5] Он охватывает около 150 аминокислотных остатков и начинается следующим образом:

WDIND*.*P..*...D.F.*W***.**.IYS**...A.*H*S*WAMRNTNNHN

Здесь каждый .обозначает отдельную аминокислоту или пробел, и каждый *указывает на одного члена близкородственного семейства аминокислот. Авторам удалось показать, что мотив обладает активностью связывания ДНК.

Похожий подход обычно используется в современных базах данных доменов белков, таких как Pfam : кураторы-люди выбирают пул последовательностей, которые, как известно, связаны, и используют компьютерные программы для их выравнивания и создания профиля мотива (Pfam использует HMM , которые можно использовать для идентификации других связанных белков. [6] Филогенетический подход также можно использовать для улучшения алгоритма MEME de novo , примером чего является PhyloGibbs. [7]

De novoобнаружение пары мотивов

В 2017 году был разработан MotifHyades как инструмент обнаружения мотивов, который можно напрямую применять к парным последовательностям. [8]

De novoраспознавание мотива из белка

В 2018 году был предложен подход случайного поля Маркова для выведения мотивов ДНК из ДНК-связывающих доменов белков. [9]

Алгоритмы обнаружения мотивов

Алгоритмы обнаружения мотивов используют различные стратегии для обнаружения закономерностей в последовательностях ДНК. Интеграция перечислительных, вероятностных и вдохновленных природой подходов, демонстрация их адаптивности с использованием нескольких методов, доказывающих свою эффективность в повышении точности идентификации.

Подход к перечислению: [2]

Начиная путь открытия мотивов, перечислительный подход свидетельствует о том, что алгоритмы тщательно генерируют и оценивают потенциальные мотивы. Пионерами в этой области являются простые методы перечисления слов, такие как YMF и DREME, которые систематически просматривают последовательность в поисках коротких мотивов. Дополняя их, методы на основе кластеризации, такие как CisFinder, используют матрицы замены нуклеотидов для кластеризации мотивов, эффективно снижая избыточность. Одновременно с этим методы на основе деревьев, такие как Weeder и FMotif, используют древовидные структуры, а методы на основе теории графов (например, WINNOWER) используют графовые представления, демонстрируя богатство стратегий перечисления.

Вероятностный подход: [2]

Отклоняясь в вероятностную область, этот подход использует вероятностные модели для различения мотивов в последовательностях. MEME, детерминированный образец, использует максимизацию ожиданий для оптимизации матриц весовых коэффициентов (PWM) и распутывания консервативных областей в невыровненных последовательностях ДНК. В отличие от этого, стохастические методологии, такие как выборка Гиббса, инициируют обнаружение мотивов со случайными назначениями позиций мотивов, итеративно уточняя прогнозы. Эта вероятностная структура умело улавливает присущую неопределенность, связанную с обнаружением мотивов.

Расширенный подход: [2]

Развиваясь дальше, усовершенствованное обнаружение мотивов охватывает сложные методы, с байесовским моделированием [10], занимающим центральное место. LOGOS и BaMM, иллюстрирующие эту когорту, искусно вплетают байесовские подходы и марковские модели в свою ткань для идентификации мотивов. Включение байесовских методов кластеризации усиливает вероятностную основу, предоставляя целостную структуру для распознавания образов в последовательностях ДНК.

Вдохновленные природой и эвристические алгоритмы: [2]

Разворачивается отдельная категория, в которой алгоритмы черпают вдохновение из биологической сферы. Генетические алгоритмы (GA) , воплощенные FMGA и MDGA, [11] управляют поиском мотивов с помощью генетических операторов и специализированных стратегий. Используя принципы роевого интеллекта, оптимизация роя частиц (PSO) , алгоритмы искусственной колонии пчел (ABC) и алгоритмы поиска кукушек (CS) , представленные в GAEM, GARP и MACS, рискнули заняться исследованием на основе феромонов. Эти алгоритмы, отражающие адаптивность природы и кооперативную динамику, служат авангардными стратегиями для идентификации мотивов. Синтез эвристических методов в гибридных подходах подчеркивает адаптивность этих алгоритмов в сложной области обнаружения мотивов.

На этой диаграмме показано множество различных типов алгоритмов, используемых для обнаружения мотивов последовательностей и их категорий.

Мотивные чехлы

Трехмерные цепные коды

Репрессор лактозного оперона E. coli LacI ( PDB : 1lcc​ цепь A) и активатор катаболитного гена E. coli ( PDB : 3gap​ цепь A) оба имеют мотив спираль-поворот-спираль , но их аминокислотные последовательности не показывают большого сходства, как показано в таблице ниже. В 1997 году Мацуда и др. разработали код, который они назвали «трехмерным цепным кодом» для представления структуры белка в виде строки букв. Эта схема кодирования показывает сходство между белками гораздо более четко, чем аминокислотная последовательность (пример из статьи): [12] Код кодирует торсионные углы между альфа-углеродами белкового остова . «W» всегда соответствует альфа-спирали.

Смотрите также

Ссылки

Первичные источники

  1. ^ Длакич, Менсур; Харрингтон, Родни Э. (1996). «Влияние контекста последовательности на кривизну ДНК». Труды Национальной академии наук Соединенных Штатов Америки . 93 (9): 3847–3852. Bibcode : 1996PNAS...93.3847D. doi : 10.1073 /pnas.93.9.3847 . ISSN  0027-8424. JSTOR  39155. PMC  39447. PMID  8632978.
  2. ^ abcde Хашим, Фатма А.; Мабрук, Май С.; Аль-Атабани, Валид (2019). «Обзор различных алгоритмов поиска мотивов последовательностей». Журнал медицинской биотехнологии Авиценны . 11 (2): 130–148. ISSN  2008-2835. PMC 6490410. PMID  31057715 . 
  3. ^ Bailey TL, Williams N, Misleh C, Li WW (июль 2006 г.). "MEME: обнаружение и анализ мотивов последовательностей ДНК и белков". Nucleic Acids Research . 34 (выпуск веб-сервера): W369-73. doi :10.1093/nar/gkl198. PMC 1538909. PMID  16845028 . 
  4. ^ Weirauch MT, Cote A, Norel R, Annala M, Zhao Y, Riley TR и др. (февраль 2013 г.). «Оценка методов моделирования специфичности последовательности факторов транскрипции». Nature Biotechnology . 31 (2): 126–34. doi :10.1038/nbt.2486. PMC 3687085 . PMID  23354101. 
  5. ^ Akiyama Y, Hosoya T, Poole AM, Hotta Y (декабрь 1996 г.). «Мотив gcm: новый мотив связывания ДНК, сохраняющийся у дрозофилы и млекопитающих». Труды Национальной академии наук Соединенных Штатов Америки . 93 (25): 14912–6. Bibcode : 1996PNAS...9314912A. doi : 10.1073/pnas.93.25.14912 . PMC 26236. PMID  8962155 . 
  6. ^ "Моделирование в Pfam". Pfam . Получено 14 декабря 2023 г. .
  7. ^ Siddharthan R, Siggia ED, van Nimwegen E (декабрь 2005 г.). "PhyloGibbs: искатель мотивов выборки Гиббса, который включает филогению". PLOS Computational Biology . 1 (7): e67. Bibcode : 2005PLSCB...1...67S. doi : 10.1371/journal.pcbi.0010067 . PMC 1309704. PMID  16477324 . 
  8. ^ Wong KC (октябрь 2017 г.). «MotifHyades: максимизация ожиданий для обнаружения пар мотивов ДНК de novo в парных последовательностях». Биоинформатика . 33 (19): 3028–3035. doi : 10.1093/bioinformatics/btx381 . PMID  28633280.
  9. ^ Wong KC (сентябрь 2018 г.). «Моделирование распознавания мотивов ДНК из последовательностей белков». iScience . 7 : 198–211. Bibcode :2018iSci....7..198W. doi :10.1016/j.isci.2018.09.003. PMC 6153143 . PMID  30267681. 
  10. ^ Миллер, Эндрю К.; Принт, Кристин Г.; Нильсен, Пол М.Ф.; Крампин, Эдмунд Дж. (18.11.2010). "Байесовский поиск транскрипционных мотивов". PLOS ONE . 5 (11): e13897. Bibcode : 2010PLoSO...513897M. doi : 10.1371/journal.pone.0013897 . ISSN  1932-6203. PMC 2987817. PMID 21124986  . 
  11. ^ Че, Донгшенг; Сонг, Инглэй; Рашид, Халед (2005-06-25). "MDGA: обнаружение мотивов с использованием генетического алгоритма". Труды 7-й ежегодной конференции по генетическим и эволюционным вычислениям . GECCO '05. Нью-Йорк, штат Нью-Йорк, США: Ассоциация вычислительной техники. стр. 447–452. doi :10.1145/1068009.1068080. ISBN 978-1-59593-010-1. S2CID  7892935.
  12. ^ Мацуда Х., Танигучи Ф., Хашимото А. (1997). «Подход к обнаружению структурных мотивов белков с использованием схемы кодирования конформаций остова» (PDF) . Тихоокеанский симпозиум по биовычислениям. Тихоокеанский симпозиум по биовычислениям : 280–91. PMID  9390299.

Дальнейшее чтение

Первичные источники