stringtranslate.com

Мотив последовательности

Мотив последовательности ДНК, представленный в виде логотипа последовательности для мотива связывания LexA.

В биологии мотив последовательности представляет собой образец последовательности нуклеотидов или аминокислот , который широко распространен и обычно считается связанным с биологической функцией макромолекулы. Например, мотив сайта N -гликозилирования может быть определен как Asn, за которым следует что-либо, кроме Pro, за которым следует либо Ser, либо Thr, за которым следует что-либо, кроме остатка Pro .

Обзор

Когда мотив последовательности появляется в экзоне гена , он может кодировать « структурный мотив » белка ; это стереотипный элемент общей структуры белка. Тем не менее, мотивы не обязательно должны быть связаны с отчетливой вторичной структурой . « Некодирующие » последовательности не транслируются в белки, и нуклеиновые кислоты с такими мотивами не должны отклоняться от типичной формы (например, двойной спирали ДНК «В-формы» ).

Помимо экзонов гена, существуют мотивы регуляторных последовательностей и мотивы внутри « мусора », такого как сателлитная ДНК . Считается, что некоторые из них влияют на форму нуклеиновых кислот [1] (см., например, самосплайсинг РНК ), но это происходит лишь иногда. Например, многие ДНК-связывающие белки , обладающие сродством к определенным сайтам связывания ДНК, связывают ДНК только в ее двойной спиральной форме. Они способны распознавать мотивы при контакте с большой или малой бороздкой двойной спирали.

Короткие кодирующие мотивы, которые, по-видимому, лишены вторичной структуры, включают те, которые маркируют белки для доставки в определенные части клетки или маркируют их для фосфорилирования .

Внутри последовательности или базы данных последовательностей исследователи ищут и находят мотивы, используя компьютерные методы анализа последовательностей , такие как BLAST . Такие методы относятся к дисциплине биоинформатики . См. также консенсусную последовательность .

Представление мотива

Рассмотрим упомянутый выше мотив сайта N -гликозилирования:

Asn, за которым следует что угодно, кроме Pro, за которым следует либо Ser, либо Thr, за которым следует что угодно, кроме Pro

Этот шаблон можно записать так: N{P}[ST]{P}где N= Asn, P= Pro, S= Ser, T= Thr; {X}означает любую аминокислоту, кроме X; и [XY]означает либо Xили Y.

Обозначения [XY]не дают никаких указаний на вероятность Xпоявления Yшаблона. Наблюдаемые вероятности могут быть графически представлены с помощью логотипов последовательностей . Иногда закономерности определяются в терминах вероятностной модели, например скрытой модели Маркова .

Мотивы и консенсусные последовательности

Обозначение [XYZ]означает Xили Yили Z, но не указывает на вероятность какого-либо конкретного совпадения. По этой причине два или более узоров часто связаны с одним мотивом: определяющим узором и различными типичными узорами.

Например, определяющей последовательностью мотива IQ можно считать:

[FILV]Qxxx[RK]Gxxx[RK]xx[FILVWY]

где xозначает любую аминокислоту, а квадратные скобки указывают альтернативу (более подробную информацию об обозначениях см. ниже).

Однако обычно первая буква — I, и оба [RK]варианта приводят к R. Поскольку последний выбор настолько широк, паттерн IQxxxRGxxxRиногда приравнивают к самому мотиву IQ, но более точным описанием была бы консенсусная последовательность мотива IQ .

Обозначения описания шаблона

Используется несколько обозначений для описания мотивов, но большинство из них являются вариантами стандартных обозначений регулярных выражений и используют следующие соглашения:

Фундаментальной идеей всех этих обозначений является принцип соответствия, который придает значение последовательности элементов обозначения шаблона:

последовательность элементов обозначения шаблона соответствует последовательности аминокислот тогда и только тогда, когда последняя последовательность может быть разделена на подпоследовательности таким образом, что каждый элемент шаблона по очереди соответствует соответствующей подпоследовательности.

Таким образом, образец [AB] [CDE] Fсоответствует шести аминокислотным последовательностям, соответствующим ACF, ADF, AEF, BCF, BDFи BEF.

Различные нотации описания шаблона имеют другие способы формирования элементов шаблона. Одной из таких нотаций является нотация PROSITE, описанная в следующем подразделе.

Обозначение шаблона PROSITE

В нотации PROSITE используются однобуквенные коды ИЮПАК- и соответствует приведенному выше описанию, за исключением того, что между элементами шаблона используется символ конкатенации, но он часто опускается между буквами алфавита шаблона.

PROSITE допускает следующие элементы шаблона в дополнение к описанным ранее:

Некоторые примеры:

Сигнатура домена цинкового пальца типа C2H2 :

Матрицы

Матрица чисел, содержащая оценки для каждого остатка или нуклеотида в каждом положении мотива фиксированной длины. Существует два типа весовых матриц.

Пример ПФМ из базы данных TRANSFAC для транскрипционного фактора AP-1:

Первый столбец указывает позицию, второй столбец содержит количество вхождений A в этой позиции, третий столбец содержит количество вхождений C в этой позиции, четвертый столбец содержит количество вхождений G в этой позиции, пятый столбец содержит количество вхождений T в этой позиции, а последний столбец содержит обозначение IUPAC для этой позиции. Обратите внимание, что суммы вхождений для A, C, G и T для каждой строки должны быть равны, поскольку PFM получается путем агрегирования нескольких консенсусных последовательностей.

Открытие мотива

Обзор

Процесс обнаружения мотивов последовательности хорошо развит с 1990-х годов. В частности, большая часть существующих исследований по обнаружению мотивов сосредоточена на мотивах ДНК. С развитием высокопроизводительного секвенирования такие проблемы обнаружения мотивов усложняются как проблемами вырождения шаблонов последовательностей, так и проблемами масштабируемости вычислений с интенсивным использованием данных.

Процесс открытия

Блок-схема, изображающая процесс открытия мотива

Открытие мотива происходит в три основных этапа. Этап предварительной обработки, на котором последовательности тщательно подготавливаются на этапах сборки и очистки. Сборка включает в себя выбор последовательностей, которые содержат нужный мотив в больших количествах, и извлечение нежелательных последовательностей с помощью кластеризации. Очистка обеспечивает удаление любых мешающих элементов. Далее следует этап открытия. На этом этапе последовательности представляются с использованием согласованных строк или весовых матриц для конкретной позиции (PWM ). После представления мотива выбирается целевая функция и применяется подходящий алгоритм поиска для обнаружения мотивов. Наконец, этап постобработки включает в себя оценку обнаруженных мотивов. [2]

Открытие мотива de novo

Существуют программы, которые при наличии нескольких входных последовательностей пытаются идентифицировать один или несколько мотивов-кандидатов. Одним из примеров является алгоритм Multiple EM для выявления мотивов (MEME), который генерирует статистическую информацию для каждого кандидата. [3] Существует более 100 публикаций, подробно описывающих алгоритмы обнаружения мотивов; Вейраух и др . оценила множество связанных алгоритмов в тесте 2013 года. [4] Поиск посаженных мотивов — это еще один метод обнаружения мотивов, основанный на комбинаторном подходе.

Открытие филогенетического мотива

Мотивы также были обнаружены с помощью филогенетического подхода и изучения сходных генов у разных видов. Например, выравнивая аминокислотные последовательности, определенные геном GCM ( отсутствие глиальных клеток ) у человека, мыши и D. melanogaster , Акияма и другие обнаружили закономерность, которую они назвали мотивом GCM в 1996 году . [5] Он охватывает около 150 аминокислотных остатков и начинается следующим образом:

WDIND*.*P..*...D.F.*W***.**.IYS**...A.*H*S*WAMRNTNNHN

Здесь каждый .означает одну аминокислоту или пробел, и каждый *указывает на одного члена близкородственного семейства аминокислот. Авторам удалось показать, что мотив обладает ДНК-связывающей активностью.

Подобный подход обычно используется в современных базах данных белковых доменов, таких как Pfam : кураторы-люди выбирают пул последовательностей, о которых известно, что они связаны, и используют компьютерные программы для их выравнивания и создания профиля мотива (Pfam использует HMM , которые можно использовать для идентификации другие родственные белки. [6] Филогенетический подход также может быть использован для улучшения алгоритма MEME de novo , примером может служить PhyloGibbs. [7]

Открытие пары мотивов de novo

В 2017 году MotifHyades был разработан как инструмент обнаружения мотивов, который можно напрямую применять к парным последовательностям. [8]

Распознавание мотива de novo из белка

В 2018 году был предложен подход марковского случайного поля для вывода мотивов ДНК из ДНК-связывающих доменов белков. [9]

Алгоритмы обнаружения мотивов

Алгоритмы обнаружения мотивов используют различные стратегии для выявления закономерностей в последовательностях ДНК. Интеграция перечислительных, вероятностных и природных подходов демонстрирует их адаптивность, а использование нескольких методов оказывается эффективным в повышении точности идентификации.

Перечислительный подход: [2]

Начиная поиск мотивов, перечислительный подход свидетельствует о том, что алгоритмы тщательно генерируют и оценивают потенциальные мотивы. Пионерами в этой области являются методы простого перечисления слов, такие как YMF и DREME, которые систематически перебирают последовательность в поисках коротких мотивов. В дополнение к этому методы на основе кластеризации, такие как CisFinder, используют матрицы нуклеотидных замен для кластеризации мотивов, эффективно уменьшая избыточность. Одновременно древовидные методы, такие как Weeder и FMotif, используют древовидные структуры, а методы, основанные на теории графов (например, WINNOWER), используют представления графов, демонстрируя богатство стратегий перечисления.

Вероятностный подход: [2]

Выходя в вероятностную сферу, этот подход использует вероятностные модели для распознавания мотивов внутри последовательностей. MEME, детерминированный образец, использует максимизацию ожидания для оптимизации позиционно-весовых матриц (PWM) и раскрытия консервативных областей в невыровненных последовательностях ДНК. В отличие от этого, стохастические методологии, такие как выборка Гиббса, инициируют обнаружение мотивов со случайным назначением позиций мотивов, итеративно уточняя прогнозы. Эта вероятностная модель умело отражает присущую неопределенность, связанную с обнаружением мотивов.

Расширенный подход: [2]

В дальнейшем, расширенное обнаружение мотивов включает в себя сложные методы, при этом центральное место занимает байесовское моделирование [10] . LOGOS и BaMM, иллюстрирующие эту группу, сложным образом вплетают в свою ткань байесовские подходы и марковские модели для идентификации мотивов. Включение методов байесовской кластеризации расширяет вероятностную основу, обеспечивая целостную основу для распознавания образов в последовательностях ДНК.

Вдохновленные природой и эвристические алгоритмы: [2]

Выделяется отдельная категория, в которой алгоритмы черпают вдохновение из биологической сферы. Генетические алгоритмы (ГА) , представленные FMGA и MDGA, [11] осуществляют поиск мотивов с помощью генетических операторов и специализированных стратегий. Используя принципы роевого интеллекта, алгоритмы оптимизации роя частиц (PSO) , искусственных пчелиных колоний (ABC) и алгоритмы поиска кукушки (CS) , представленные в GAEM, GARP и MACS, мы приступаем к исследованиям на основе феромонов. Эти алгоритмы, отражающие приспособляемость природы и динамику сотрудничества, служат авангардными стратегиями идентификации мотивов. Синтез эвристических методов в гибридных подходах подчеркивает адаптируемость этих алгоритмов в сложной области обнаружения мотивов.

На этой диаграмме показано множество различных типов алгоритмов, используемых при открытии мотивов последовательностей и их категорий.

Чехлы с мотивами

Трехмерные цепные коды

Репрессор лактозного оперона E. coli LacI ( PDB : 1lcc​ цепь A) и активатор гена катаболита E. coli ( PDB : 3gap​ цепь A) оба имеют мотив спираль-поворот-спираль , но их аминокислотные последовательности не демонстрируют большого количества сходство, как показано в таблице ниже. В 1997 году Мацуда и др. разработали код, который они назвали «трехмерным цепным кодом» для представления структуры белка в виде строки букв. Эта схема кодирования выявляет сходство между белками гораздо яснее, чем аминокислотная последовательность (пример из статьи): [12] Код кодирует торсионные углы между альфа-углеродами белкового остова . «W» всегда соответствует альфа-спирали.

Смотрите также

Рекомендации

Основные источники

  1. ^ Длакич, Менсур; Харрингтон, Родни Э. (1996). «Влияние контекста последовательности на кривизну ДНК». Труды Национальной академии наук Соединенных Штатов Америки . 93 (9): 3847–3852. Бибкод : 1996PNAS...93.3847D. дои : 10.1073/pnas.93.9.3847 . ISSN  0027-8424. JSTOR  39155. PMC  39447 . ПМИД  8632978.
  2. ^ abcde Хашим, Фатма А.; Мабрук, Май С.; Аль-Атабани, Валид (2019). «Обзор алгоритмов поиска различных мотивов последовательностей». Журнал Авиценны медицинской биотехнологии . 11 (2): 130–148. ISSN  2008-2835. ПМК 6490410 . ПМИД  31057715. 
  3. ^ Бэйли Т.Л., Уильямс Н., Мисле С., Ли WW (июль 2006 г.). «ЦЕМЕМ: обнаружение и анализ мотивов последовательностей ДНК и белков». Исследования нуклеиновых кислот . 34 (проблема с веб-сервером): W369-73. дои : 10.1093/nar/gkl198. ПМЦ 1538909 . ПМИД  16845028. 
  4. ^ Вейраух М.Т., Кот А., Норел Р., Аннала М., Чжао Ю., Райли Т.Р. и др. (Февраль 2013). «Оценка методов моделирования специфичности последовательности транскрипционных факторов». Природная биотехнология . 31 (2): 126–34. дои : 10.1038/nbt.2486. ПМК 3687085 . ПМИД  23354101. 
  5. ^ Акияма Ю., Хосоя Т., Пул А.М., Хотта Ю. (декабрь 1996 г.). «GCM-мотив: новый ДНК-связывающий мотив, консервативный у дрозофилы и млекопитающих». Труды Национальной академии наук Соединенных Штатов Америки . 93 (25): 14912–6. Бибкод : 1996PNAS...9314912A. дои : 10.1073/pnas.93.25.14912 . ПМК 26236 . ПМИД  8962155. 
  6. ^ «Моделирование в Pfam». Пфам . Проверено 14 декабря 2023 г.
  7. ^ Сиддхартхан Р., Сиггия Э.Д., ван Нимвеген Э. (декабрь 2005 г.). «PhyloGibbs: инструмент для поиска мотивов выборки Гиббса, учитывающий филогению». PLOS Вычислительная биология . 1 (7): е67. Бибкод : 2005PLSCB...1...67S. дои : 10.1371/journal.pcbi.0010067 . ПМК 1309704 . ПМИД  16477324. 
  8. ^ Вонг КС (октябрь 2017 г.). «MotifHyades: максимизация ожиданий для открытия пар мотивов ДНК de novo в парных последовательностях». Биоинформатика . 33 (19): 3028–3035. doi : 10.1093/биоинформатика/btx381 . ПМИД  28633280.
  9. ^ Вонг KC (сентябрь 2018 г.). «Моделирование распознавания мотивов ДНК по белковым последовательностям». iScience . 7 : 198–211. Бибкод : 2018iSci....7..198W. doi : 10.1016/j.isci.2018.09.003. ПМК 6153143 . ПМИД  30267681. 
  10. ^ Миллер, Эндрю К.; Печать, Кристин Г.; Нильсен, Пол М.Ф.; Крампин, Эдмунд Дж. (18 ноября 2010 г.). «Байесовский поиск транскрипционных мотивов». ПЛОС ОДИН . 5 (11): e13897. Бибкод : 2010PLoSO...513897M. дои : 10.1371/journal.pone.0013897 . ISSN  1932-6203. ПМЦ 2987817 . ПМИД  21124986. 
  11. ^ Че, Дуншэн; Сун, Инлэй; Рашид, Халед (25 июня 2005 г.). «MDGA: обнаружение мотивов с использованием генетического алгоритма». Материалы 7-й ежегодной конференции по генетическим и эволюционным вычислениям . ГЕККО '05. Нью-Йорк, штат Нью-Йорк, США: Ассоциация вычислительной техники. стр. 447–452. дои : 10.1145/1068009.1068080. ISBN 978-1-59593-010-1. S2CID  7892935.
  12. ^ Мацуда Х, Танигучи Ф, Хашимото А (1997). «Подход к обнаружению структурных мотивов белка с использованием схемы кодирования конформаций основной цепи» (PDF) . Тихоокеанский симпозиум по биокомпьютингу. Тихоокеанский симпозиум по биокомпьютингу : 280–91. ПМИД  9390299.

дальнейшее чтение

Основные источники