Сайты связывания ДНК — это тип сайта связывания , обнаруженного в ДНК , с которым могут связываться другие молекулы. Сайты связывания ДНК отличаются от других сайтов связывания тем, что (1) они являются частью последовательности ДНК (например, генома) и (2) они связаны с ДНК-связывающими белками . Сайты связывания ДНК часто связаны со специализированными белками, известными как факторы транскрипции , и, таким образом, связаны с регуляцией транскрипции . Сумма сайтов связывания ДНК определенного фактора транскрипции называется его цистромом . Сайты связывания ДНК также охватывают мишени других белков, таких как рестрикционные ферменты , сайт-специфические рекомбиназы (см. сайт-специфическая рекомбинация ) и метилтрансферазы . [1]
Таким образом, сайты связывания ДНК можно определить как короткие последовательности ДНК (обычно длиной от 4 до 30 пар оснований, но до 200 пар оснований для сайтов рекомбинации), которые специфически связаны с одним или несколькими ДНК-связывающими белками или белковыми комплексами. Сообщалось, что некоторые сайты связывания имеют потенциал для быстрых эволюционных изменений. [2]
Сайты связывания ДНК можно классифицировать в соответствии с их биологической функцией. Таким образом, мы можем различать сайты связывания факторов транскрипции, сайты рестрикции и сайты рекомбинации. Некоторые авторы предложили, что сайты связывания также можно классифицировать в соответствии с их наиболее удобным способом представления. [3] С одной стороны, сайты рестрикции, как правило, могут быть представлены консенсусными последовательностями. Это связано с тем, что они нацелены в основном на идентичные последовательности, а эффективность рестрикции резко снижается для менее похожих последовательностей. С другой стороны, сайты связывания ДНК для данного фактора транскрипции обычно все разные, с различной степенью сродства фактора транскрипции к различным сайтам связывания. Это затрудняет точное представление сайтов связывания факторов транскрипции с использованием консенсусных последовательностей , и они обычно представляются с использованием матриц частот, специфичных для положения (PSFM), которые часто графически изображаются с помощью логотипов последовательностей . Однако этот аргумент отчасти произволен. Ферменты рестрикции, как и факторы транскрипции, дают постепенный, хотя и резкий, диапазон сродства к различным сайтам [4] и, таким образом, также лучше всего представляются с помощью PSFM. Аналогично, сайт-специфические рекомбиназы также демонстрируют различный диапазон сродства к различным целевым сайтам. [5] [6]
Существование чего-то похожего на сайты связывания ДНК предполагалось на основе экспериментов по биологии бактериофага лямбда [7] и регуляции lac-оперона Escherichia coli . [8] Сайты связывания ДНК были окончательно подтверждены в обеих системах [9] [10] [11] с появлением методов секвенирования ДНК . С тех пор сайты связывания ДНК для многих факторов транскрипции, рестриктаз и сайт-специфических рекомбиназ были обнаружены с использованием множества экспериментальных методов. Исторически экспериментальными методами выбора для обнаружения и анализа сайтов связывания ДНК были анализ футпринтинга ДНКазы и анализ сдвига электрофоретической подвижности (EMSA). Однако разработка микрочипов ДНК и методов быстрого секвенирования привела к появлению новых, массово параллельных методов для идентификации сайтов связывания in vivo, таких как ChIP-chip и ChIP-Seq . [12] Для количественной оценки связывающей способности [13] белков и других молекул с определенными участками связывания ДНК используется биофизический метод микромасштабного термофореза [14] .
Из-за разнообразной природы экспериментальных методов, используемых для определения сайтов связывания, и неоднородного покрытия большинства организмов и факторов транскрипции, не существует центральной базы данных (похожей на GenBank в Национальном центре биотехнологической информации ) для сайтов связывания ДНК. Несмотря на то, что NCBI рассматривает аннотацию сайтов связывания ДНК в своих референтных последовательностях ( RefSeq ), большинство заявок опускают эту информацию. Более того, из-за ограниченного успеха биоинформатики в создании эффективных инструментов прогнозирования сайтов связывания ДНК (большие ложноположительные показатели часто связаны с методами обнаружения мотивов in-silico / поиска сайтов), не было предпринято систематических усилий по вычислительной аннотации этих особенностей в секвенированных геномах.
Однако существует несколько частных и публичных баз данных, посвященных компиляции экспериментально сообщенных, а иногда и вычислительно предсказанных, сайтов связывания для различных факторов транскрипции в различных организмах. Ниже приведена неполная таблица доступных баз данных:
Набор участков связывания ДНК, обычно называемый ДНК-связывающим мотивом, может быть представлен консенсусной последовательностью . Преимущество такого представления в том, что оно компактно, но за счет игнорирования значительного объема информации. [15] Более точный способ представления участков связывания — использование матриц частот, специфичных для позиции (PSFM). Эти матрицы дают информацию о частоте каждого основания в каждой позиции ДНК-связывающего мотива. [3] PSFM обычно задумываются с неявным предположением о позиционной независимости (различные позиции в участке связывания ДНК вносят независимый вклад в функцию участка), хотя это предположение оспаривалось для некоторых участков связывания ДНК. [16] Информацию о частоте в PSFM можно формально интерпретировать в рамках теории информации , [17] что приводит к ее графическому представлению в виде логотипа последовательности .
PSFM для транскрипционного репрессора LexA , полученного из 56 сайтов связывания LexA, хранящихся в Prodoric. Относительные частоты получаются путем деления количества в каждой ячейке на общее количество (56)
В биоинформатике можно выделить две отдельные проблемы, касающиеся сайтов связывания ДНК: поиск дополнительных членов известного мотива связывания ДНК (проблема поиска сайта) и обнаружение новых мотивов связывания ДНК в коллекциях функционально связанных последовательностей ( проблема обнаружения мотива последовательности ). [18] Было предложено много различных методов для поиска сайтов связывания. Большинство из них основаны на принципах теории информации и имеют доступные веб-серверы (Yellaboina)(Munch), в то время как другие авторы прибегали к методам машинного обучения , таким как искусственные нейронные сети . [3] [19] [20] Также доступно множество алгоритмов для обнаружения мотивов последовательности . Эти методы основаны на гипотезе о том, что набор последовательностей разделяет мотив связывания по функциональным причинам. Методы обнаружения мотивов связывания можно грубо разделить на перечислительные, детерминированные и стохастические. [21] MEME [22] и Consensus [23] являются классическими примерами детерминированной оптимизации, в то время как сэмплер Гиббса [24] является обычной реализацией чисто стохастического метода для обнаружения мотивов связывания ДНК. Другим примером этого класса методов является SeSiMCMC [25] , который фокусируется на слабых сайтах TFBS с симметрией. В то время как методы перечисления часто прибегают к представлению сайтов связывания регулярными выражениями , PSFM и их формальная обработка в рамках методов теории информации являются предпочтительным представлением как для детерминированных, так и для стохастических методов. Гибридные методы, например ChIPMunk [26] , который сочетает жадную оптимизацию с подвыборкой, также используют PSFM. Недавние достижения в области секвенирования привели к введению подходов сравнительной геномики к обнаружению мотивов связывания ДНК, примером чего является PhyloGibbs. [27] [28]
Более сложные методы поиска сайтов связывания и обнаружения мотивов полагаются на укладку оснований и другие взаимодействия между основаниями ДНК, но из-за небольших размеров выборки, обычно доступных для сайтов связывания в ДНК, их эффективность все еще не полностью использована. Примером такого инструмента является ULPB [29]