сайт связывания ДНК

Сайты связывания ДНК — это тип сайта связывания , обнаруженного в ДНК , с которым могут связываться другие молекулы. Сайты связывания ДНК отличаются от других сайтов связывания тем, что (1) они являются частью последовательности ДНК (например, генома) и (2) они связаны с ДНК-связывающими белками . Сайты связывания ДНК часто связаны со специализированными белками, известными как факторы транскрипции , и, таким образом, связаны с регуляцией транскрипции . Сумма сайтов связывания ДНК определенного фактора транскрипции называется его цистромом . Сайты связывания ДНК также охватывают мишени других белков, таких как рестрикционные ферменты , сайт-специфические рекомбиназы (см. сайт-специфическая рекомбинация ) и метилтрансферазы . ^[1]

Таким образом, сайты связывания ДНК можно определить как короткие последовательности ДНК (обычно длиной от 4 до 30 пар оснований, но до 200 пар оснований для сайтов рекомбинации), которые специфически связаны с одним или несколькими ДНК-связывающими белками или белковыми комплексами. Сообщалось, что некоторые сайты связывания имеют потенциал для быстрых эволюционных изменений. ^[2]

Типы участков связывания ДНК

Сайты связывания ДНК можно классифицировать в соответствии с их биологической функцией. Таким образом, мы можем различать сайты связывания факторов транскрипции, сайты рестрикции и сайты рекомбинации. Некоторые авторы предложили, что сайты связывания также можно классифицировать в соответствии с их наиболее удобным способом представления. ^[3] С одной стороны, сайты рестрикции, как правило, могут быть представлены консенсусными последовательностями. Это связано с тем, что они нацелены в основном на идентичные последовательности, а эффективность рестрикции резко снижается для менее похожих последовательностей. С другой стороны, сайты связывания ДНК для данного фактора транскрипции обычно все разные, с различной степенью сродства фактора транскрипции к различным сайтам связывания. Это затрудняет точное представление сайтов связывания факторов транскрипции с использованием консенсусных последовательностей , и они обычно представляются с использованием матриц частот, специфичных для положения (PSFM), которые часто графически изображаются с помощью логотипов последовательностей . Однако этот аргумент отчасти произволен. Ферменты рестрикции, как и факторы транскрипции, дают постепенный, хотя и резкий, диапазон сродства к различным сайтам ^[4] и, таким образом, также лучше всего представляются с помощью PSFM. Аналогично, сайт-специфические рекомбиназы также демонстрируют различный диапазон сродства к различным целевым сайтам. ^[5]^[6]

История и основные экспериментальные методы

Существование чего-то похожего на сайты связывания ДНК предполагалось на основе экспериментов по биологии бактериофага лямбда ^[7] и регуляции lac-оперона Escherichia coli . ^[8] Сайты связывания ДНК были окончательно подтверждены в обеих системах ^[9]^[10]^[11] с появлением методов секвенирования ДНК . С тех пор сайты связывания ДНК для многих факторов транскрипции, рестриктаз и сайт-специфических рекомбиназ были обнаружены с использованием множества экспериментальных методов. Исторически экспериментальными методами выбора для обнаружения и анализа сайтов связывания ДНК были анализ футпринтинга ДНКазы и анализ сдвига электрофоретической подвижности (EMSA). Однако разработка микрочипов ДНК и методов быстрого секвенирования привела к появлению новых, массово параллельных методов для идентификации сайтов связывания in vivo, таких как ChIP-chip и ChIP-Seq . ^[12] Для количественной оценки связывающей способности ^[13] белков и других молекул с определенными участками связывания ДНК используется биофизический метод микромасштабного термофореза ^{[14] .}

Базы данных

Из-за разнообразной природы экспериментальных методов, используемых для определения сайтов связывания, и неоднородного покрытия большинства организмов и факторов транскрипции, не существует центральной базы данных (похожей на GenBank в Национальном центре биотехнологической информации ) для сайтов связывания ДНК. Несмотря на то, что NCBI рассматривает аннотацию сайтов связывания ДНК в своих референтных последовательностях ( RefSeq ), большинство заявок опускают эту информацию. Более того, из-за ограниченного успеха биоинформатики в создании эффективных инструментов прогнозирования сайтов связывания ДНК (большие ложноположительные показатели часто связаны с методами обнаружения мотивов in-silico / поиска сайтов), не было предпринято систематических усилий по вычислительной аннотации этих особенностей в секвенированных геномах.

Однако существует несколько частных и публичных баз данных, посвященных компиляции экспериментально сообщенных, а иногда и вычислительно предсказанных, сайтов связывания для различных факторов транскрипции в различных организмах. Ниже приведена неполная таблица доступных баз данных:

Представление участков связывания ДНК

Набор участков связывания ДНК, обычно называемый ДНК-связывающим мотивом, может быть представлен консенсусной последовательностью . Преимущество такого представления в том, что оно компактно, но за счет игнорирования значительного объема информации. ^[15] Более точный способ представления участков связывания — использование матриц частот, специфичных для позиции (PSFM). Эти матрицы дают информацию о частоте каждого основания в каждой позиции ДНК-связывающего мотива. ^[3] PSFM обычно задумываются с неявным предположением о позиционной независимости (различные позиции в участке связывания ДНК вносят независимый вклад в функцию участка), хотя это предположение оспаривалось для некоторых участков связывания ДНК. ^[16] Информацию о частоте в PSFM можно формально интерпретировать в рамках теории информации , ^[17] что приводит к ее графическому представлению в виде логотипа последовательности .

PSFM для транскрипционного репрессора LexA , полученного из 56 сайтов связывания LexA, хранящихся в Prodoric. Относительные частоты получаются путем деления количества в каждой ячейке на общее количество (56)

Вычислительный поиск и обнаружение участков связывания

В биоинформатике можно выделить две отдельные проблемы, касающиеся сайтов связывания ДНК: поиск дополнительных членов известного мотива связывания ДНК (проблема поиска сайта) и обнаружение новых мотивов связывания ДНК в коллекциях функционально связанных последовательностей ( проблема обнаружения мотива последовательности ). ^[18] Было предложено много различных методов для поиска сайтов связывания. Большинство из них основаны на принципах теории информации и имеют доступные веб-серверы (Yellaboina)(Munch), в то время как другие авторы прибегали к методам машинного обучения , таким как искусственные нейронные сети . ^[3]^[19]^[20] Также доступно множество алгоритмов для обнаружения мотивов последовательности . Эти методы основаны на гипотезе о том, что набор последовательностей разделяет мотив связывания по функциональным причинам. Методы обнаружения мотивов связывания можно грубо разделить на перечислительные, детерминированные и стохастические. ^[21] MEME ^[22] и Consensus ^[23] являются классическими примерами детерминированной оптимизации, в то время как сэмплер Гиббса ^[24] является обычной реализацией чисто стохастического метода для обнаружения мотивов связывания ДНК. Другим примером этого класса методов является SeSiMCMC ^[25] , который фокусируется на слабых сайтах TFBS с симметрией. В то время как методы перечисления часто прибегают к представлению сайтов связывания регулярными выражениями , PSFM и их формальная обработка в рамках методов теории информации являются предпочтительным представлением как для детерминированных, так и для стохастических методов. Гибридные методы, например ChIPMunk ^[26] , который сочетает жадную оптимизацию с подвыборкой, также используют PSFM. Недавние достижения в области секвенирования привели к введению подходов сравнительной геномики к обнаружению мотивов связывания ДНК, примером чего является PhyloGibbs. ^[27]^[28]

Более сложные методы поиска сайтов связывания и обнаружения мотивов полагаются на укладку оснований и другие взаимодействия между основаниями ДНК, но из-за небольших размеров выборки, обычно доступных для сайтов связывания в ДНК, их эффективность все еще не полностью использована. Примером такого инструмента является ULPB ^[29]

Смотрите также

Ссылки

^ Halford ES; Marko JF (2004). «Как сайт-специфические ДНК-связывающие белки находят свои цели?». Nucleic Acids Research . 32 (10): 3040–3052. doi :10.1093/nar/gkh624. PMC 434431. PMID 15178741 .
^ Borneman, AR; Gianoulis, TA; Zhang, ZD; Yu, H.; Rozowsky, J.; Seringhaus, MR; Wang, LY; Gerstein, M. & Snyder, M. (2007). «Расхождение сайтов связывания факторов транскрипции у родственных видов дрожжей». Science . 317 (5839): 815–819. Bibcode :2007Sci...317..815B. doi :10.1126/science.1140748. PMID 17690298. S2CID 21535866.
^ abc Stormo GD (2000). "Сайты связывания ДНК: представление и открытие". Биоинформатика . 16 (1): 16–23. doi : 10.1093/bioinformatics/16.1.16 . PMID 10812473.
^ Pingoud A, Jeltsch A (1997). «Распознавание и расщепление ДНК эндонуклеазами рестрикции типа II». European Journal of Biochemistry . 246 (1): 1–22. doi : 10.1111/j.1432-1033.1997.t01-6-00001.x . PMID 9210460.
^ Gyohda A, Komano T (2000). «Очистка и характеристика рекомбиназы, специфичной к шаффлону R64». Журнал бактериологии . 182 (10): 2787–2792. doi : 10.1128 /JB.182.10.2787-2792.2000. PMC 101987. PMID 10781547.
^ Бирдж, EA (2006). "15: Сайт-специфическая рекомбинация". Бактериальная и бактериофаговая генетика (5-е изд.). Springer. стр. 463–478. ISBN 978-0-387-23919-4.
^ Кэмпбелл А. (1963). «Генетика тонкой структуры и ее связь с функцией». Annual Review of Microbiology . 17 (1): 2787–2792. doi :10.1146/annurev.mi.17.100163.000405. PMID 14145311.
^ Jacob F, Monod J (1961). «Генетические регуляторные механизмы синтеза белков». Журнал молекулярной биологии . 3 (3): 318–356. doi :10.1016/S0022-2836(61)80072-7. PMID 13718526. S2CID 19804795.
^ Gilbert W, Maxam A (1973). «Нуклеотидная последовательность оператора lac». Труды Национальной академии наук Соединенных Штатов Америки . 70 (12): 3581–3584. Bibcode : 1973PNAS...70.3581G. doi : 10.1073/pnas.70.12.3581 . PMC 427284. PMID 4587255 .
^ Maniatis T, Ptashne M, Barrell BG, Donelson J (1974). "Последовательность сайта связывания репрессора в ДНК бактериофага лямбда". Nature . 250 (465): 394–397. Bibcode :1974Natur.250..394M. doi :10.1038/250394a0. PMID 4854243. S2CID 4204720.
^ Nash HA (1975). «Интегративная рекомбинация ДНК бактериофага лямбда in vitro». Труды Национальной академии наук Соединенных Штатов Америки . 72 (3): 1072–1076. Bibcode :1975PNAS...72.1072N. doi : 10.1073/pnas.72.3.1072 . PMC 432468 . PMID 1055366.
^ Elnitski L, Jin VX, Farnham PJ, Jones SJ (2006). «Обнаружение мест связывания факторов транскрипции млекопитающих: обзор вычислительных и экспериментальных методов». Genome Research . 16 (12): 1455–1464. doi : 10.1101/gr.4140006 . PMID 17053094.
^ Бааске П., Винкен С.Дж., Райнек П., Дур С., Браун Д. (февраль 2010 г.). «Оптический термофорез количественно определяет буферную зависимость связывания аптамера». Энджью. хим. Межд. Эд . 49 (12): 2238–41. дои : 10.1002/anie.200903998. PMID 20186894. S2CID 42489892.
- «Горячая дорога к новым лекарствам». Phys.org . 24 февраля 2010 г.
^ Wienken CJ; et al. (2010). «Анализ связывания белков в биологических жидкостях с использованием микромасштабного термофореза». Nature Communications . 1 (7): 100. Bibcode : 2010NatCo...1..100W. doi : 10.1038/ncomms1093 . PMID 20981028.
^ Schneider TD (2002). « Консенсусная последовательность Zen». Прикладная биоинформатика . 1 (3): 111–119. PMC 1852464. PMID 15130839.
^ Булик ML; Джонсон PL; Чёрч GM (2002). «Нуклеотиды участков связывания факторов транскрипции оказывают взаимозависимые эффекты на сродство связывания факторов транскрипции». Nucleic Acids Research . 30 (5): 1255–1261. doi :10.1093/nar/30.5.1255. PMC 101241 . PMID 11861919.
^ Schneider TD, Stormo GD, Gold L, Ehrenfeucht A (1986). «Информационное содержание участков связывания в последовательностях нуклеотидов». Журнал молекулярной биологии . 188 (3): 415–431X. doi :10.1016/0022-2836(86)90165-8. PMID 3525846.
^ Erill I; O'Neill MC (2009). «Пересмотр методов, основанных на теории информации, для идентификации участков связывания ДНК». BMC Bioinformatics . 10 (1): 57. doi : 10.1186/1471-2105-10-57 . PMC 2680408. PMID 19210776 .
^ Bisant D, Maizel J (1995). «Идентификация участков связывания рибосом в Escherichia coli с использованием моделей нейронных сетей». Nucleic Acids Research . 23 (9): 1632–1639. doi :10.1093/nar/23.9.1632. PMC 306908. PMID 7784221.
^ O'Neill MC (1991). «Обучение нейронных сетей обратного распространения для определения и обнаружения участков связывания ДНК». Nucleic Acids Research . 19 (2): 133–318. doi :10.1093/nar/19.2.313. PMC 333596. PMID 2014171 .
^ Бейли TL (2008). «Открытие мотивов последовательностей». Биоинформатика (PDF) . Методы в молекулярной биологии. Т. 452. С. 231–251. doi :10.1007/978-1-60327-159-2_12. ISBN 978-1-58829-707-5. PMID 18566768.
^ Бейли TL (2002). «Открытие новых мотивов последовательностей с помощью MEME». Current Protocols in Bioinformatics . 2 (4): 2.4.1–2.4.35. doi :10.1002/0471250953.bi0204s00. PMID 18792935. S2CID 205157795.
^ Stormo GD, Hartzell GW 3rd (1989). «Идентификация сайтов связывания белков из невыровненных фрагментов ДНК». Труды Национальной академии наук Соединенных Штатов Америки . 86 (4): 1183–1187. Bibcode :1989PNAS...86.1183S. doi : 10.1073/pnas.86.4.1183 . PMC 286650 . PMID 2919167.
^ Lawrence CE, Altschul SF , Boguski MS , Liu JS, Neuwald AF, Wootton JC (1993). «Обнаружение тонких сигналов последовательностей: стратегия выборки Гиббса для множественного выравнивания». Science . 262 (5131): 208–214. Bibcode : 1993Sci...262..208L. doi : 10.1126/science.8211139. PMID 8211139. S2CID 3040614.
^ Фаворов, А.В.; Гельфанд М.С.; Герасимова А.В.; Равчеев Д.А.; Миронов А.А.; Макеев В.Ю. (2005-05-15). "Сэмплер Гиббса для идентификации симметрично структурированных, разнесенных мотивов ДНК с улучшенной оценкой длины сигнала". Биоинформатика . 21 (10): 2240–2245. doi : 10.1093/bioinformatics/bti336 . ISSN 1367-4803. PMID 15728117.
^ Кулаковский, И.В.; Боева В.А.; Фаворов А.В.; Макеев В.Ю. (2010-08-24). "Глубокие и широкие поиски мотивов связывания в данных ChIP-Seq". Биоинформатика . 26 (20): 2622–3. doi : 10.1093/bioinformatics/btq488 . ISSN 1367-4811. PMID 20736340.
^ Das MK, Dai HK (2007). «Обзор алгоритмов поиска мотивов ДНК». BMC Bioinformatics . 8 (Suppl 7): S21. doi : 10.1186 / 1471-2105-8-S7-S21 . PMC 2099490. PMID 18047721.
^ Siddharthan R, Siggia ED, van Nimwegen E (2005). "PhyloGibbs: A Gibbs sampling motif finder that includes phylogeny". PLOS Comput Biol . 1 (7): e67. Bibcode : 2005PLSCB...1...67S. doi : 10.1371/journal.pcbi.0010067 . PMC 1309704. PMID 16477324 .
^ Salama RA, Stekel DJ (2010). «Включение взаимозависимостей соседних оснований существенно улучшает прогнозирование сайта связывания прокариотического фактора транскрипции по всему геному». Nucleic Acids Research . 38 (12): e135. doi :10.1093/nar/gkq274. PMC 2896541 . PMID 20439311.

Внешние ссылки

ENCODE threads Explorer Мотивы фактора транскрипции в природе
Вручную подобранные мотивы связывания TF для 157 видов растений. Архивировано 19 октября 2016 г. на Wayback Machine.