stringtranslate.com

сайт связывания ДНК

ДНК-контакты различных типов ДНК-связывающих доменов

Сайты связывания ДНК — это тип сайта связывания , обнаруженного в ДНК , с которым могут связываться другие молекулы. Сайты связывания ДНК отличаются от других сайтов связывания тем, что (1) они являются частью последовательности ДНК (например, генома) и (2) они связаны с ДНК-связывающими белками . Сайты связывания ДНК часто связаны со специализированными белками, известными как факторы транскрипции , и, таким образом, связаны с регуляцией транскрипции . Сумма сайтов связывания ДНК определенного фактора транскрипции называется его цистромом . Сайты связывания ДНК также охватывают мишени других белков, таких как рестрикционные ферменты , сайт-специфические рекомбиназы (см. сайт-специфическая рекомбинация ) и метилтрансферазы . [1]

Таким образом, сайты связывания ДНК можно определить как короткие последовательности ДНК (обычно длиной от 4 до 30 пар оснований, но до 200 пар оснований для сайтов рекомбинации), которые специфически связаны с одним или несколькими ДНК-связывающими белками или белковыми комплексами. Сообщалось, что некоторые сайты связывания имеют потенциал для быстрых эволюционных изменений. [2]

Типы участков связывания ДНК

Сайты связывания ДНК можно классифицировать в соответствии с их биологической функцией. Таким образом, мы можем различать сайты связывания факторов транскрипции, сайты рестрикции и сайты рекомбинации. Некоторые авторы предложили, что сайты связывания также можно классифицировать в соответствии с их наиболее удобным способом представления. [3] С одной стороны, сайты рестрикции, как правило, могут быть представлены консенсусными последовательностями. Это связано с тем, что они нацелены в основном на идентичные последовательности, а эффективность рестрикции резко снижается для менее похожих последовательностей. С другой стороны, сайты связывания ДНК для данного фактора транскрипции обычно все разные, с различной степенью сродства фактора транскрипции к различным сайтам связывания. Это затрудняет точное представление сайтов связывания факторов транскрипции с использованием консенсусных последовательностей , и они обычно представляются с использованием матриц частот, специфичных для положения (PSFM), которые часто графически изображаются с помощью логотипов последовательностей . Однако этот аргумент отчасти произволен. Ферменты рестрикции, как и факторы транскрипции, дают постепенный, хотя и резкий, диапазон сродства к различным сайтам [4] и, таким образом, также лучше всего представляются с помощью PSFM. Аналогично, сайт-специфические рекомбиназы также демонстрируют различный диапазон сродства к различным целевым сайтам. [5] [6]

История и основные экспериментальные методы

Существование чего-то похожего на сайты связывания ДНК предполагалось на основе экспериментов по биологии бактериофага лямбда [7] и регуляции lac-оперона Escherichia coli . [8] Сайты связывания ДНК были окончательно подтверждены в обеих системах [9] [10] [11] с появлением методов секвенирования ДНК . С тех пор сайты связывания ДНК для многих факторов транскрипции, рестриктаз и сайт-специфических рекомбиназ были обнаружены с использованием множества экспериментальных методов. Исторически экспериментальными методами выбора для обнаружения и анализа сайтов связывания ДНК были анализ футпринтинга ДНКазы и анализ сдвига электрофоретической подвижности (EMSA). Однако разработка микрочипов ДНК и методов быстрого секвенирования привела к появлению новых, массово параллельных методов для идентификации сайтов связывания in vivo, таких как ChIP-chip и ChIP-Seq . [12] Для количественной оценки связывающей способности [13] белков и других молекул с определенными участками связывания ДНК используется биофизический метод микромасштабного термофореза [14] .

Базы данных

Из-за разнообразной природы экспериментальных методов, используемых для определения сайтов связывания, и неоднородного покрытия большинства организмов и факторов транскрипции, не существует центральной базы данных (похожей на GenBank в Национальном центре биотехнологической информации ) для сайтов связывания ДНК. Несмотря на то, что NCBI рассматривает аннотацию сайтов связывания ДНК в своих референтных последовательностях ( RefSeq ), большинство заявок опускают эту информацию. Более того, из-за ограниченного успеха биоинформатики в создании эффективных инструментов прогнозирования сайтов связывания ДНК (большие ложноположительные показатели часто связаны с методами обнаружения мотивов in-silico / поиска сайтов), не было предпринято систематических усилий по вычислительной аннотации этих особенностей в секвенированных геномах.

Однако существует несколько частных и публичных баз данных, посвященных компиляции экспериментально сообщенных, а иногда и вычислительно предсказанных, сайтов связывания для различных факторов транскрипции в различных организмах. Ниже приведена неполная таблица доступных баз данных:

Представление участков связывания ДНК

Набор участков связывания ДНК, обычно называемый ДНК-связывающим мотивом, может быть представлен консенсусной последовательностью . Преимущество такого представления в том, что оно компактно, но за счет игнорирования значительного объема информации. [15] Более точный способ представления участков связывания — использование матриц частот, специфичных для позиции (PSFM). Эти матрицы дают информацию о частоте каждого основания в каждой позиции ДНК-связывающего мотива. [3] PSFM обычно задумываются с неявным предположением о позиционной независимости (различные позиции в участке связывания ДНК вносят независимый вклад в функцию участка), хотя это предположение оспаривалось для некоторых участков связывания ДНК. [16] Информацию о частоте в PSFM можно формально интерпретировать в рамках теории информации , [17] что приводит к ее графическому представлению в виде логотипа последовательности .

PSFM для транскрипционного репрессора LexA , полученного из 56 сайтов связывания LexA, хранящихся в Prodoric. Относительные частоты получаются путем деления количества в каждой ячейке на общее количество (56)

Вычислительный поиск и обнаружение участков связывания

В биоинформатике можно выделить две отдельные проблемы, касающиеся сайтов связывания ДНК: поиск дополнительных членов известного мотива связывания ДНК (проблема поиска сайта) и обнаружение новых мотивов связывания ДНК в коллекциях функционально связанных последовательностей ( проблема обнаружения мотива последовательности ). [18] Было предложено много различных методов для поиска сайтов связывания. Большинство из них основаны на принципах теории информации и имеют доступные веб-серверы (Yellaboina)(Munch), в то время как другие авторы прибегали к методам машинного обучения , таким как искусственные нейронные сети . [3] [19] [20] Также доступно множество алгоритмов для обнаружения мотивов последовательности . Эти методы основаны на гипотезе о том, что набор последовательностей разделяет мотив связывания по функциональным причинам. Методы обнаружения мотивов связывания можно грубо разделить на перечислительные, детерминированные и стохастические. [21] MEME [22] и Consensus [23] являются классическими примерами детерминированной оптимизации, в то время как сэмплер Гиббса [24] является обычной реализацией чисто стохастического метода для обнаружения мотивов связывания ДНК. Другим примером этого класса методов является SeSiMCMC [25] , который фокусируется на слабых сайтах TFBS с симметрией. В то время как методы перечисления часто прибегают к представлению сайтов связывания регулярными выражениями , PSFM и их формальная обработка в рамках методов теории информации являются предпочтительным представлением как для детерминированных, так и для стохастических методов. Гибридные методы, например ChIPMunk [26] , который сочетает жадную оптимизацию с подвыборкой, также используют PSFM. Недавние достижения в области секвенирования привели к введению подходов сравнительной геномики к обнаружению мотивов связывания ДНК, примером чего является PhyloGibbs. [27] [28]

Более сложные методы поиска сайтов связывания и обнаружения мотивов полагаются на укладку оснований и другие взаимодействия между основаниями ДНК, но из-за небольших размеров выборки, обычно доступных для сайтов связывания в ДНК, их эффективность все еще не полностью использована. Примером такого инструмента является ULPB [29]

Смотрите также

Ссылки

  1. ^ Halford ES; Marko JF (2004). «Как сайт-специфические ДНК-связывающие белки находят свои цели?». Nucleic Acids Research . 32 (10): 3040–3052. doi :10.1093/nar/gkh624. PMC  434431. PMID  15178741 .
  2. ^ Borneman, AR; Gianoulis, TA; Zhang, ZD; Yu, H.; Rozowsky, J.; Seringhaus, MR; Wang, LY; Gerstein, M. & Snyder, M. (2007). «Расхождение сайтов связывания факторов транскрипции у родственных видов дрожжей». Science . 317 (5839): 815–819. Bibcode :2007Sci...317..815B. doi :10.1126/science.1140748. PMID  17690298. S2CID  21535866.
  3. ^ abc Stormo GD (2000). "Сайты связывания ДНК: представление и открытие". Биоинформатика . 16 (1): 16–23. doi : 10.1093/bioinformatics/16.1.16 . PMID  10812473.
  4. ^ Pingoud A, Jeltsch A (1997). «Распознавание и расщепление ДНК эндонуклеазами рестрикции типа II». European Journal of Biochemistry . 246 (1): 1–22. doi : 10.1111/j.1432-1033.1997.t01-6-00001.x . PMID  9210460.
  5. ^ Gyohda A, Komano T (2000). «Очистка и характеристика рекомбиназы, специфичной к шаффлону R64». Журнал бактериологии . 182 (10): 2787–2792. doi : 10.1128 /JB.182.10.2787-2792.2000. PMC 101987. PMID  10781547. 
  6. ^ Бирдж, EA (2006). "15: Сайт-специфическая рекомбинация". Бактериальная и бактериофаговая генетика (5-е изд.). Springer. стр. 463–478. ISBN 978-0-387-23919-4.
  7. ^ Кэмпбелл А. (1963). «Генетика тонкой структуры и ее связь с функцией». Annual Review of Microbiology . 17 (1): 2787–2792. doi :10.1146/annurev.mi.17.100163.000405. PMID  14145311.
  8. ^ Jacob F, Monod J (1961). «Генетические регуляторные механизмы синтеза белков». Журнал молекулярной биологии . 3 (3): 318–356. doi :10.1016/S0022-2836(61)80072-7. PMID  13718526. S2CID  19804795.
  9. ^ Gilbert W, Maxam A (1973). «Нуклеотидная последовательность оператора lac». Труды Национальной академии наук Соединенных Штатов Америки . 70 (12): 3581–3584. Bibcode : 1973PNAS...70.3581G. doi : 10.1073/pnas.70.12.3581 . PMC 427284. PMID  4587255 . 
  10. ^ Maniatis T, Ptashne M, Barrell BG, Donelson J (1974). "Последовательность сайта связывания репрессора в ДНК бактериофага лямбда". Nature . 250 (465): 394–397. Bibcode :1974Natur.250..394M. doi :10.1038/250394a0. PMID  4854243. S2CID  4204720.
  11. ^ Nash HA (1975). «Интегративная рекомбинация ДНК бактериофага лямбда in vitro». Труды Национальной академии наук Соединенных Штатов Америки . 72 (3): 1072–1076. Bibcode :1975PNAS...72.1072N. doi : 10.1073/pnas.72.3.1072 . PMC 432468 . PMID  1055366. 
  12. ^ Elnitski L, Jin VX, Farnham PJ, Jones SJ (2006). «Обнаружение мест связывания факторов транскрипции млекопитающих: обзор вычислительных и экспериментальных методов». Genome Research . 16 (12): 1455–1464. doi : 10.1101/gr.4140006 . PMID  17053094.
  13. ^ Бааске П., Винкен С.Дж., Райнек П., Дур С., Браун Д. (февраль 2010 г.). «Оптический термофорез количественно определяет буферную зависимость связывания аптамера». Энджью. хим. Межд. Эд . 49 (12): 2238–41. дои : 10.1002/anie.200903998. PMID  20186894. S2CID  42489892.
    • «Горячая дорога к новым лекарствам». Phys.org . 24 февраля 2010 г.
  14. ^ Wienken CJ; et al. (2010). «Анализ связывания белков в биологических жидкостях с использованием микромасштабного термофореза». Nature Communications . 1 (7): 100. Bibcode : 2010NatCo...1..100W. doi : 10.1038/ncomms1093 . PMID  20981028.
  15. ^ Schneider TD (2002). « Консенсусная последовательность Zen». Прикладная биоинформатика . 1 (3): 111–119. PMC 1852464. PMID  15130839. 
  16. ^ Булик ML; Джонсон PL; Чёрч GM (2002). «Нуклеотиды участков связывания факторов транскрипции оказывают взаимозависимые эффекты на сродство связывания факторов транскрипции». Nucleic Acids Research . 30 (5): 1255–1261. doi :10.1093/nar/30.5.1255. PMC 101241 . PMID  11861919. 
  17. ^ Schneider TD, Stormo GD, Gold L, Ehrenfeucht A (1986). «Информационное содержание участков связывания в последовательностях нуклеотидов». Журнал молекулярной биологии . 188 (3): 415–431X. doi :10.1016/0022-2836(86)90165-8. PMID  3525846.
  18. ^ Erill I; O'Neill MC (2009). «Пересмотр методов, основанных на теории информации, для идентификации участков связывания ДНК». BMC Bioinformatics . 10 (1): 57. doi : 10.1186/1471-2105-10-57 . PMC 2680408. PMID  19210776 . 
  19. ^ Bisant D, Maizel J (1995). «Идентификация участков связывания рибосом в Escherichia coli с использованием моделей нейронных сетей». Nucleic Acids Research . 23 (9): 1632–1639. doi :10.1093/nar/23.9.1632. PMC 306908. PMID  7784221. 
  20. ^ O'Neill MC (1991). «Обучение нейронных сетей обратного распространения для определения и обнаружения участков связывания ДНК». Nucleic Acids Research . 19 (2): 133–318. doi :10.1093/nar/19.2.313. PMC 333596. PMID  2014171 . 
  21. ^ Бейли TL (2008). «Открытие мотивов последовательностей». Биоинформатика (PDF) . Методы в молекулярной биологии. Т. 452. С. 231–251. doi :10.1007/978-1-60327-159-2_12. ISBN 978-1-58829-707-5. PMID  18566768.
  22. ^ Бейли TL (2002). «Открытие новых мотивов последовательностей с помощью MEME». Current Protocols in Bioinformatics . 2 (4): 2.4.1–2.4.35. doi :10.1002/0471250953.bi0204s00. PMID  18792935. S2CID  205157795.
  23. ^ Stormo GD, Hartzell GW 3rd (1989). «Идентификация сайтов связывания белков из невыровненных фрагментов ДНК». Труды Национальной академии наук Соединенных Штатов Америки . 86 (4): 1183–1187. Bibcode :1989PNAS...86.1183S. doi : 10.1073/pnas.86.4.1183 . PMC 286650 . PMID  2919167. 
  24. ^ Lawrence CE, Altschul SF , Boguski MS , Liu JS, Neuwald AF, Wootton JC (1993). «Обнаружение тонких сигналов последовательностей: стратегия выборки Гиббса для множественного выравнивания». Science . 262 (5131): 208–214. Bibcode : 1993Sci...262..208L. doi : 10.1126/science.8211139. PMID  8211139. S2CID  3040614.
  25. ^ Фаворов, А.В.; Гельфанд М.С.; Герасимова А.В.; Равчеев Д.А.; Миронов А.А.; Макеев В.Ю. (2005-05-15). "Сэмплер Гиббса для идентификации симметрично структурированных, разнесенных мотивов ДНК с улучшенной оценкой длины сигнала". Биоинформатика . 21 (10): 2240–2245. doi : 10.1093/bioinformatics/bti336 . ISSN  1367-4803. PMID  15728117.
  26. ^ Кулаковский, И.В.; Боева В.А.; Фаворов А.В.; Макеев В.Ю. (2010-08-24). "Глубокие и широкие поиски мотивов связывания в данных ChIP-Seq". Биоинформатика . 26 (20): 2622–3. doi : 10.1093/bioinformatics/btq488 . ISSN  1367-4811. PMID  20736340.
  27. ^ Das MK, Dai HK (2007). «Обзор алгоритмов поиска мотивов ДНК». BMC Bioinformatics . 8 (Suppl 7): S21. doi : 10.1186 / 1471-2105-8-S7-S21 . PMC 2099490. PMID  18047721. 
  28. ^ Siddharthan R, Siggia ED, van Nimwegen E (2005). "PhyloGibbs: A Gibbs sampling motif finder that includes phylogeny". PLOS Comput Biol . 1 (7): e67. Bibcode : 2005PLSCB...1...67S. doi : 10.1371/journal.pcbi.0010067 . PMC 1309704. PMID  16477324 . 
  29. ^ Salama RA, Stekel DJ (2010). «Включение взаимозависимостей соседних оснований существенно улучшает прогнозирование сайта связывания прокариотического фактора транскрипции по всему геному». Nucleic Acids Research . 38 (12): e135. doi :10.1093/nar/gkq274. PMC 2896541 . PMID  20439311. 

Внешние ссылки